KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5 SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika Disusun oleh: MUH. SAFRI JULIARDI NIM. M0512038 PROGRAM STUDI INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2017
ii
iii
HALAMAN PERSEMBAHAN Tugas akhir ini ku persembahkan untuk Ayah, Ibu, dan kedua kakakku tercinta, keluarga Informatika UNS angkatan 2012, keluarga besar UPT TIK UNS iv
MOTTO Inna ma al usri yusroo. Sesungguhnya bersama kesulitan itu ada kemudahan. (QS. Al Insyirah: 6) Man jadda wajada. Barangsiapa bersungguh-sungguh maka berhasillah dia. (Mahfudhot) The First Rule of Programming: It s Always Your Fault (Coding Horror) v
KATA PENGANTAR Segala puji dan syukur penulis ucapkan kepada Allah SWT, yang hanya karena berkat rahmat dan karunia-nya penulis dapat menyelesaikan skripsi berjudul Klasifikasi Pendaftar Beasiswa Bidikmisi Universitas Sebelas Maret dengan Algoritma C4.5 ini untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer pada Program Studi Informatika Universitas Sebelas Maret. Keberhasilan penelitian dan penyusunan skripsi ini tidak lepas dari bantuan dan dukungan berbagai pihak. Untuk itu penulis mengucapkan terima kasih sebesar-besarnya kepada : 1. Ayah dan Ibu serta kedua kakak penulis yang selalu mendidik, mendukung, dan mendoakan penulis. 2. Bapak Ristu Saptono, S.Si., M.T. dan Ibu Denis Eka Cahyani, S.Kom, M.Kom selaku dosen pembimbing yang dengan penuh kesabaran telah memberikan ilmu dan bimbingan terbaik kepada penulis. 3. Biro Administrasi Kemahasiswaan Pusat Universitas Sebelas Maret yang telah memberikan izin dan data yang diperlukan guna menyelesaikan penelitian ini. 4. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang telah memberikan ilmu yang bermanfaat kepada penulis. 5. Para Staff dan karyawan serta keluarga SAT UPT TIK Universitas Sebelas Maret yang telah mendukung dan memberikan pengalaman yang berharga kepada penulis. 6. Keluarga besar S1 Informatika FMIPA UNS, khususnya angkatan 2012. Semoga tulisan ini dapat memberikan manfaat kepada para pembaca. Surakarta, Februari 2017 Penulis vi
KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5 MUH. SAFRI JULIARDI Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret ABSTRAK Beasiswa Bidikmisi adalah salah satu beasiswa untuk mahasiswa kurang mampu namun berprestasi. Dengan banyaknya pendaftar Bidikmisi perlu digunakan sebuah metode yang akurat untuk membantu proses seleksi penerima beasiswa Bidikmisi khususnya di lingkungan Universitas Sebelas Maret (UNS). Pada penelitian ini, algoritma C4.5 diusulkan sebagai metode untuk membantu proses seleksi penerima beasiswa Bidikmisi. Dataset yang digunakan adalah data pendaftar Bidikmisi tahun 2014 dan 2015. Data pendaftar tahun 2014 digunakan sebagai data latih sedangkan data pendaftar tahun 2015 digunakan sebagai data uji. Selain itu, teknik oversampling dan undersampling juga digunakan untuk mengatasi masalah ketidakseimbangan kelas pada data training. Pada akhirnya akurasi dari pohon keputusan dari dataset hasil sampling akan dibandingkan untuk melihat teknik sampling yang lebih baik. Hasil penelitian ini menunjukkan bahwa pohon keputusan yang diuji menggunakan data pendaftar tahun 2015 memiliki nilai accuracy 79,80 % dan nilai Area Under Curve 0.5539. Sementara itu, untuk membandingkan teknik oversampling dan undersampling dipilih pohon keputusan terbaik dari masing-masing hasil sampling. Teknik oversampling menghasilkan nilai precision 82,69 %, recall 91,22 %, dan accuracy 77,16 %. Sedangkan teknik undersampling menghasilkan nilai precision 82,78 %, recall 91,22 %, dan accuracy 77,27 %. Sehingga dapat disimpulkan bahwa teknik undersampling memiliki akurasi yang lebih baik daripada teknik oversampling. Kata kunci : Algoritma C4.5, Bidikmisi, Pohon Keputusan, Oversampling, Undersampling vii
UNIVERSITAS SEBELAS MARET BIDIKMISI APPLICANT S CLASSIFICATION USING C4.5 ALGORITHM MUH. SAFRI JULIARDI Department of Informatics, Faculty of Mathematics and Natural Science, Sebelas Maret University ABSTRACT Bidikmisi scholarship is a scholarship for poor but outstanding students. Because of the amount applicants, there is a need to use an accurate method in the selection process of Bidikmisi scholarship, especially in Universitas Sebelas Maret s (UNS) environment. In this paper, C4.5 algorithm is proposed as a method to help on Bidikmisi recipients selection process. The dataset which is used is Bidikmisi applicants data from 2013 to 2015. The applicant s data from 2013 and 2014 is used as training data and the applicant s data from 2015 is used as testing data. Furthermore, oversampling and undersampling technique is used to address the class imbalance problem in training data. Finally the accuracy for each decision trees are compared to see which sampling method is better. The result of this study shows that the accuracy of the C4.5 algorithm decision tree with the applicant s data from 2015 as testing data is 79,80% and Area Under Curve (AUC) value 0.5539. Meanwhile, to compare the sampling method, the best decision tree based on testing result is chosen. Oversampling technique produce 82,69 % for precision, 91,22 % for recall, and 77,16 % for accuracy. While undersampling technique produce 82,78 % for precision, 91,22 % for recall, and 77,27 % for accuracy. Therefore it is concluded that undersampling technique gives a better accuracy than oversampling technique. Keywords : Bidikmisi, C4.5 algorithm, decision tree, Oversampling, Undersampling viii
DAFTAR ISI HALAMAN PERSETUJUAN...ii HALAMAN PENGESAHAN...Error! Bookmark not defined. HALAMAN PERSEMBAHAN...iv MOTTO...v KATA PENGANTAR... vi ABSTRAK...vii ABSTRACT...viii DAFTAR ISI... ix DAFTAR TABEL...xi DAFTAR GAMBAR...xii DAFTAR LAMPIRAN... xiii BAB I PENDAHULUAN...1 1.1. Latar Belakang...1 1.2. Rumusan Masalah...3 1.3. Batasan Masalah... 3 1.4. Tujuan Penelitian...3 1.5. Manfaat Penelitian...4 1.6. Sistematika Penulisan...4 BAB II TINJAUAN PUSTAKA...5 2.1. Dasar Teori...5 2.1.1. Algoritma C4.5...5 2.1.2. Data Preprocessing... 7 2.1.3. Oversampling dan Undersampling...8 2.1.4. Pengertian Beasiswa Bidikmisi...9 2.2. Penelitian Terkait...10 ix
2.3. Kerangka Pemikiran...12 BAB III METODOLOGI PENELITIAN...14 3.1. Pengumpulan Data...14 3.2. Data Preprocessing...15 3.3. Pelatihan Algoritma C4.5...17 3.4. Pengujian dan Analisa Hasil...17 BAB IV HASIL DAN PEMBAHASAN...21 4.1. Deskripsi Data...21 4.2. Data Preprocessing...24 4.2.1. Data Cleaning... 24 4.2.2. Data Transformation... 24 4.2.3. Sampling... 27 4.3. Pelatihan Algoritma C4.5...28 4.4. Pengujian dan Analisa Hasil...30 BAB V PENUTUP...38 5.1. Kesimpulan... 38 5.2. Saran... 38 DAFTAR PUSTAKA... 40 LAMPIRAN...42 x
DAFTAR TABEL Tabel 3.1. Tabel Konversi Nilai Atribut Penghasilan... 16 Tabel 3.1 Confusion Matrix...17 Tabel 4.1. Jumlah Data Pendaftar Bidikmisi Tahun 2013, 2014, dan 2015... 21 Tabel 4.2. Data Nilai Unik Tiap Atribut...21 Tabel 4.3. Contoh Data Pendaftar Bidikmisi... 23 Tabel 4.4. Tabel Konversi Nilai Atribut Penghasilan... 25 Tabel 4.5. Contoh Data Setelah Melewati Tahap Data Cleaning dan Data Transformation... 26 Tabel 4.6. Tabel Rasio Kelas...28 Tabel 4.7. Contoh Hasil Klasifikasi...31 Tabel 4.8. Confusion Matrix untuk Tiap Pohon Keputusan... 32 Tabel 4.9. Nilai Precision, Recall, Accuracy, dan False Positive Rate pohon keputusan PKA...34 Tabel 4.10. Nilai Precision, Recall, Accuracy, dan False Positive Rate pohon keputusan PKO...34 Tabel 4.11. Nilai Precision, Recall, Accuracy, dan False Positive Rate pohon keputusan PKU...34 xi
DAFTAR GAMBAR Gambar 3.1. Diagram Alir Metodologi Penelitian... 14 Gambar 3.2. Contoh ROC Curve... 19 Gambar 4.1. Contoh Pohon Keputusan C4.5... 29 Gambar 4.2. Contoh Visualisasi Pohon Keputusan C4.5...29 Gambar 4.3. Kurva ROC... 37 xii
DAFTAR LAMPIRAN LAMPIRAN 1... 42 LAMPIRAN 2... 43 LAMPIRAN 3... 44 xiii