PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa Tesis Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritma C5.0 dan K-Nearest Neighbor, adalah karya saya sendiri dan belum diajukan dalam bentuk apapun kepada Perguruan Tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Bogor, Juni 2008 Iin Ernawati NRP. G651044054
ABSTRAK IIN ERNAWATI. Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor (KNN). Dibimbing oleh Irman Hermadi dan Hari Agung Adrianto. Diperlukan suatu metode data mining yang bisa memanfaatkan gunungan data yang dihasilkan oleh sebuah sistem dalam sebuah organisasi maupun lembaga, sehingga menjadi informasi yang bernilai strategis. Dalam penelitian ini teknik data mining digunakan untuk membantu menemukan karakteristik mahasiswa aktif maupun tidak aktif pada sebuah fakultas di sebuah Perguruan Tinggi Swasta di Jakarta selatan, sehingga untuk selanjutnya dapat digunakan dalam memprediksi status studi mahasiswa yang akan datang. Penggunaan perangkat lunak weka sebagai alat bantu dalam proses klasifikasi memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) adalah atribut yang menentukan status studi mahasiswa. Hasil percobaan memberikan informasi bahwa Algoritme C5.0 lebih baik dibandingkan algoritme KNN. Kata kunci : Karakteristik mahasiswa aktif dan tidak aktif, C5.0, K-Nearest Neighbor, weka classifier.
ABSTRACT IIN ERNAWATI. Prediction of University Student Status Using C5.0 and K- Nearest Neighbor Algorithms (KNN). Under the direction of Irman Hermadi and Hari Agung Adrianto. Data mining methods are required to explore pyramid of data such that strategic information is uncovered. In this thesis, data mining techniques are used to find student characteristics whom is active or inactive academically. Further, these characteristics can be employed to classify students based on their academic status one semester in advance. This research made use an open source data mining application software named WEKA Classifier. The experimental results showed that C5.0 Algorithm is better than KNN and Grade Point Average (GPA) contributes significantly in determining next coming semester student status. Keywords: inactive student, active student, C5.0, K-Nearest Neighbor, weka classifier.
RINGKASAN IIN ERNAWATI. Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor. Dibimbing oleh IRMAN HERMADI dan HARI AGUNG ADRIANTO. Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Meskipun teknologi basis data modern telah menghasilkan media penyimpanan yang besar, teknologi untuk membantu menganalisis, memahami, atau bahkan memvisualisasikan data belum banyak tersedia. Hal inilah yang melatarbelakangi dikembangkannya konsep data mining. Klasifikasi sebagai salah satu teknik dalam data mining yang digunakan dalam penelitian ini untuk mengolah data akademik mahasiswa dalam sebuah fakultas sehingga diperoleh aturan klasifikasi untuk prediksi status studi mahasiswa pada waktu yang akan datang. Sebanyak 3.366 data diperoleh dari sistem akademik fakultas namun setelah melalui tahap pembersihan data (data cleaning), hanya sebanyak 1.175 data yang berhasil digunakan untuk proses klasifikasi. Sebanyak 925 data diklasifikasi sebagai data mahasiswa aktif dan sebanyak 250 data diklasifikasi sebagai data mahasiswa tidak aktif. Algoritme C5.0 yang digunakan dalam klasifikasi model decision tree (pohon keputusan) memberikan hasil dalam bentuk if-then dan bentuk pohon keputusan yang menyatakan bahwa aktif dan tidak aktif seorang mahasiswa ditentukan oleh Indeks Prestasi Kumulatif (IPK) mahasiswa yang bersangkutan. Hasil klasifikasi yang diperoleh dari algoritme C5.0 ini menunjukkan bahwa apabila seorang mahasiswa memperoleh IPK 1,77 maka dapat diprediksi bahwa mahasiswa yang bersangkutan berpotensi untuk tidak aktif pada semester yang akan datang. Keberhasilan klasifikasi yang diperoleh dari algoritme C5.0 mencapai lebih dari 90%, yang menyatakan bahwa algoritme C5.0 mampu melakukan klasifikasi data akademik dengan memberikan output berupa aturan klasifikasi. K-Nearest Neighbor melakukan klasifikasi dengan menghitung jarak antara data yang sudah terklasifikasi ke data yang belum terklasifikasi dengan menentukan jumlah tetangga data k yang dipilih yaitu k=1, k=3 dan k=5 sehingga diperoleh hasil yang reasonable dari ketiga nilai k yang diberikan tadi. Persentase klasifikasi tertinggi diperoleh dari k=1 yaitu mencapai lebih dari 90%, yang menyatakan bahwa untuk menentukan kelas bagi data baru maka data baru tersebut dihitung jaraknya ke setiap data yang sudah diketahui kelasnya. Berbeda dengan hasil yang diperoleh dari algoritme C5.0, K-Nearest Neighbor tidak dapat menunjukkan karakteristik data yang diklasifikasi sebagai mahasiswa aktif dan mahasiswa tidak aktif. Algoritme C5.0 tetap dianggap sebagai algoritma yang sangat membantu dalam melakukan klasifikasi data karena karakteristik data yang diklasifikasi dapat diperoleh dengan jelas baik dalam bentuk struktur pohon keputusan maupun aturan if-then, sehingga memudahkan pengguna dalam melakukan penggalian informasi terhadap data yang bersangkutan. Kata kunci : status aktif dan tidak aktif, algoritme C5.0, K-Nearest Neighbor
Hak cipta milik IPB, tahun 2008 Hak cipta dilindungi Dilarang mengutip dan memperbanyak tanpa izin tertulis dari Institut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apapun, baik cetak, fotokopi, microfilm, dan sebagainya
PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008
Judul Tesis Nama NIM : Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor : Iin Ernawati : G651044054 Disetujui Komisi Pembimbing Irman Hermadi, S.Kom, MS Ketua Hari Agung Adrianto, S.Kom, MSi Anggota Diketahui Ketua Program Studi Ilmu Komputer Dekan Sekolah Pascasarjana Dr. Sugi Guritman Prof. Dr.Ir. Khairil Anwar Notodiputro, MS Tanggal Lulus : Tanggal Ujian: 20 Juni 2008
RIWAYAT HIDUP Penulis dilahirkan di Madiun, pada tanggal 2 Januari 1976 dari ayah S. Soegiarto dan ibu Sri Lestari. Penulis merupakan putri pertama dari tiga bersaudara. Pada tahun 1993 penulis lulus dari MAN (Madrasah Aliyah Negeri) 1 Tangerang, dan pada tahun 2000 berhasil menyelesaikan pendidikan S1 jurusan Manajemen Informatika pada Universitas Pembangunan Nasional veteran Jakarta. Penulis diterima sebagai staf laboratorium komputer Fakultas Ilmu Komputer, UPN veteran Jakarta pada tahun 2001 sampai dengan sekarang.
Penguji Luar Komisi pada Ujian Tesis: Aziz Kustiyo, S.Si, M.Kom.