SNIPTEK 2014 ISBN:

KOMPARASI MENGGUNAKAN ALGORITMA C4.5, NEURAL NETWORK DAN NAÏVE BAYES DALAM PREDIKSI UJIAN KOMPENTENSI SMK MAHADHIKA 4 JAKARTA Aswan Supriyadi Sunge STMIK Nusa Mandiri mardian82@gmail.com Kaman Nainggolan STMIK Nusa Mandiri Golan1251@yahoo.co.id ABSTRAK ---Sekolah adalah merupakan tempat menimba ilmu dan juga tempat melanjutkan ke dunia pendidikan yang lebih tinggi dan juga masuk ke dalam dunia persaingan kerja. Jumlah siswa yang lulus menjadi indicator keberhasilan dari sebuah sekolah baik negeri dan swasta. Penelitian dalam hal memprediksi kelulusan ujian kompetensi di SMK. Dalam penelitian ini dilakukan perbandingan metode data mining yaitu Algoritma C4.5, Neural Network, dan Naïve Bayes dan dapat yang diaplikasikan pada data kelulusan siswa baik yang lulus ujian kompetensi dan tidak lulus ujian kompetensi. Dari hasil pengujian dengan mengukur kinerja metode tersebut menggunakan metode pengujian cross validation, confusion matrix dan kurva ROC diketahui mana yang memiliki akurasi tertinggi dari setiap metode yang diujikan. Kata Kunci: Data Mining, Algoritma C4.5, Neural Network dan Naïve Bayes ABSTRACT ---- School is a place to gain knowledge and also a place to continue to higher education and also get into the competitive world of work. Number of students who graduate become an indicator of success of both public and private schools. Research in terms of competence in predicting graduation. In this study comparison of data mining methods, C4.5 algorithm, Neural Network, and Naïve Bayes and can be applied to the data of students passing both the pass and do not pass the competency exam competency exam. From the test results to measure the performance of such methods using cross validation test method, confusion matrix and ROC curves which are known to have the highest accuracy of each method tested. Keyword: Data Mining, the algorithm C4.5, Naive Bayes and neural network PENDAHULUAN Dalam UU Sistem Pendidikan Nasional No. 20 tahun 2003 yang dimaksud dengan pendidikan adalah: Usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa dan negara. Berdasarkan penjelasan di atas, bias disimpulkan bahwa orientasi pendidikan mengembangkan potensi diri yang memiliki akhlak dan keterampilan yang diperlukan demi masyarakat dan negara. Dengan demikian system pendidikan yang dibangun berorientasi pada akhlak dan dunia usaha. Perubahan kurikulum pun dilakukan tetapi perbaikan dan pembaharuan yang telah dilakukan ternyata tidak serta merta mampu menjawab permasalahan di seputar penyelenggaraan pendidikan menengah kejuruan yang berorientasi pada lapangan kerja. Pemerintah daerah pun bersemangat mencanangkan program pendidikan kejuruan dan selain itu juga sebagai bentuk apresiasi sekolah atas karya siswa dan memupuk kepercayaan diri, juga untuk menjalin komunikasi dan interaksi lebih jauh dengan dunia industri. Dunia industri pun menyambut dan semakin mengakui kemampuan para siswa. Ini juga menunjukkan program pengembangan kurikulum telah sesuai dengan dunia kerja.tentu saja hal inidiikuiti dengan kerjasama penyusunan kurikulum maupun dalam praktik sehari-hari antara pihak sekolah dan dunia industri Kompetensi ketrampilan disini diartikan bahwa lulusan SMK diharapkan siap pakai dalam memenuhi kebutuhan tenaga kerja di dunia usaha dan industri. Untuk mampu menghasilkan tenaga terampil tingkat menengah seperti yang diharapkan maka INF-391

dibutuhkan layanan pembelajaran yang tidak berjarak dengan dunia kerja yang sedang berkembang di masyarakat dan lulusannya harus siap berkompetisi secara global. BAHAN DAN METODE Metode Penelitian Pada penelitian ini, data yang digunakan adalah data SMK Mahadhika 4 di Jakarta. Data nilai tersebut akan diolah menggunakan beberapa metode data mining sehingga diperoleh satu metode yang paling akurat dan dapat digunakan sebagai rules dalam memprediksi ujian kompetensi. Dalam penelitian ini akan dilakukan beberapa langkah-langkah atau tahapan penelitian. Pada bagian ini dijelaskan tentang langkah-langkah eksperimen meliputi cara pemilihan arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil yang dapat membuktikan bahwa metode yang digunakan adalah tepat. 5. Evaluasi dan Validasi Hasil 6. Pada bagian ini dijelaskan tentang evaluasi dan validasi hasil penerapan metode pada penelitian yang dilakukan. Penjelasan mengenai hal ini akan dipaparkan pada bab HASIL DAN PEMBAHASAN Algoritma C4.5 Data training adalah untuk menentukan apakah seorang siswa lulus ujian kompetensi atau tidak. Berikut akan dibahas langkahlangkah perhitungan prediksi siswa lulus ujian atau tidak lulus ujian kompetensi dengan menggunakan algoritma C4.5. Berikut langkah dalam pembuatan pohon keputusan, yaitu : 1. Menyiapkan data training, data yang digunakan ada Gambar 1 Diagram Tahap penelitian 1. Pengumpulan Data Pada bagian ini dijelaskan tentang bagaimana dan dari mana data dalam penelitian ini didapatkan, meliputi data sekunder dan data primer. Data sekunder berisi tentang sumber perolehan data untuk keperluan penelitian, sedangkan data primer berisi tentang data yang dihasilkan dari penelitian 2. Pengolahan Awal Data Pada bagian ini dijelaskan tentang tahap awal data mining. Pengolahan awal data meliputi proses input data ke format yang dibutuhkan, pengelompokan dan penentuan atribut data. 3. Metode yang Diusulkan Pada bagian ini dijelaskan tentang metode yang diusulkan untuk digunakan pada prediksi ujian kompetensi. Penjelasan meliputi pengaturan dan pemilihan nilai dari parameter-parameter dan arsitektur melalui ujicoba. 4. Eksperimen dan PengujianMetode 2. Hitung nilai entropy keseluruhan total kasus LULUS dan TIDAK LULUS ujian kompetensi. Dari data training yang ada diketahui jumlah kasus yang LULUS ujian kompetensi sebanyak 102 record, dan jumlah kasus TIDAK LU LUS adalah sebanyak 25 record 25/127) = -102/127 *log 102/127 + (-25/127*log = 0,7155 3. Hitung nilai entropi dan nilai gain masingmasing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat. Misalkan menghitung entropi bagi atribu t nilai semester 4. = 0,7155 - (100/127*0.4912) + (9/127*0.9709) = 0.1676 INF-392

Tabel 2 Nilai entropy dan gain untuk menentukan akar semua atribut berdasarkan atribut nilai semester 4 74. Tabel 4 Tabel nilai entropy dan gain untuk menentukan simpul 1.2 Dapat dilihat nilai gain tertinggi ada pada atribut nilai semester 4 yakni 0,1676 sehingga dapat dilihat adalah akar dari pohon keputusan. Kemudian dilakukan kembali perhitungan nilai entropi dan gain untuk menentukan simpul 1.1, nilai yang dihitung berdasarkan atribut nilai semester 4 > 74 dan 74. Pembentukan simpul-simpul dengan perhitungan gain diperoleh decision tree untuk klasifikasi prediksi ujian kompetensi Tabel 3 Tabel nilai entropy dan gain untuk menentukan simpul 1.1 Berdasarkan hasil perhitungan gain terlihat atribut nilai semester 1 mempunyai nilai tertinggi yaitu 0,0941 sehingga dijadikan sebagai node 1.1 dari nilai semester 4 > 74. Tentukan simpul selanjutnya yaitu node 1.2 dengan menghitung nilai entropy dan gain Gambar 2 Pohon Keputusan INF-393

4.1.2 Neural Network Dengan menggunakan metode neural network menghasilkan tiga layer, yaitu input layer yang terdiri dari dua puluh empat simpul yang terdiri dari dua puluh tiga simpul dan satu buah simpul bias. Hidden layer terdiri dari empat belas simpul yang terdiri dari tiga belas simpul ditambah satu simpul bias. Output layer yang merupakan hasil klasifikasi terdiri dari dua simpul yaitu lulus dan tidak lulus. Tabel 5 Perhitungan Probabilitas Prior Untuk menetukan kelas dari kasus baru maka dilakukan perhitungan probabilitas posterior berdasarkan probabilitas prior yang telah dihitung sebelumnya Tabel 6 Atribut X yang akan diprediksi 4.1.3 Naïve Bayes Gambar 3 Algoritma Neural Network Penggunaan algoritma Naïve Bayes dimulai dengan melakukan perhitungan probabilitas prior untuk mengetahui nilai yang diterima dan tidak diterima untuk semua jumlah data. Pada data training jumlah data sebanyak 127 data dimana kelas lulus sebanyak 102 dan yang tidak lulus sebanyak 25. Berikut hasil perhitungan prior probability Berdasarkan nilai probabilitas prior masing-masing atribut yang telah dihitung pada table 4.7. maka dapat dilihat rule yang diperoleh untuk atribut di atas seperti berikut ini : 1. Probabilitas Lulus untuk setiap atribut 0,9375 * 0,9204545454 * 0,649122807 * 0,892857143 * 0,707692308 = 0.353937797 2. Probabilitas Tidak Lulus untuk setiap atribut 0,0625 * 0,0795545455 * 0,350877193 * 0,12 * 0,413043478 = 8.64625E-05 3. Bandingkan hasil dari probabilitas Lulus dan Tidak Lulus Probabilitas Lulus = 0.353937797 Probabilitas Tidak Lulus = 8.64625E-05 Dikarenakan 0.353937797 > 8.64625E-05, maka dapat disimpulkan bahwa data testing tersebut termasuk klasifikasi Lulus. INF-394

Evaluasi dan Validasi Metode Metode klasifikasi bisa dievaluasi berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan, skabilitas dan interpretabilitas (Vecellis, 2009). Setelah data diolah maka dapat diuji tingkat akurasinya untuk melihat kinerja dari masing-masing metode. Hasil dari pengujian model yang telah dilakukan yaitu dengan algoritma C4.5, Neural Network, dan Naïve Bayes, dilakukan pengujian tingkat akurasi dengan menggunakan confussion matrix dan kurva ROC/AUC (Area Under Cover). Tabel 7 Model Confusion Matrix data training untuk Metode C4.5 Tabel 11 Model Confusion Matrix data training untuk Metode Naïve Bayes Tabel 12 Model Confusion Matrix data testing untuk Metode Naïve Bayes Tabel 8 Model Confusion Matrix data testing untuk Metode C4.5 Tabel 9 Model Confusion Matrix data training untuk Metode Neural Network Gambar 4 Kurva ROC data training untuk metode C4.5 Tabel 10 Model Confusion Matrix data testing untuk Metode Neural Network Gambar 5 Kurva ROC data testing untuk metode C4.5 INF-395

Kurva ROC data testing untuk metode Naïve Bayes Analisis Hasil Komparasi Gambar 4.5 Kurva ROC data training untuk metode Neural Network Berikut pengujian performance dengan menggunakan Confusion Matrix diatas, akseptasi data prediksi ujian kompetensi dengan menggunakan data training dilakukan pengujian komparasi dengan menggunakan ROC Curve. Berikut ini adalah model evaluasi komparasi dengan menggunakan ROC Curve secara visual pada framework RapidMiner. Gambar 6 Kurva ROC data testing untuk metode Neural Network Gambar 9 Grafik Komparasi Training ROC Curve Gambar 7 Kurva ROC data training untuk metode Naïve Bayes Gambar 10 Grafik Kompirasi Testing ROC Curve Gambar 8 INF-396

KESIMPULAN Berdasarkan penelitian pada prediksi ujian kompetensi yang berpotensi lulus atau tidak dapat diambil beberapa kesimpulan sebagai berikut: 1. Dengan menggunakan metode Algoritma C4.5, Neural Network dan Naïve Bayes dapat memprediksi lulus atau tidak lulus ujian kompetensi. 2. Hasil evaluasi dan validasi dengan confussion matrix dengan menggunakan data training menunjukkan tingkat akurasi pada Algoritma C4.5 sebesar 81.22 %, Neural Network sebesar 59.62 % dan Naïve Bayes sebesar 70.19 %. 3. Hasil evaluasi dan validasi dengan ROC/AUC menunjukkan nilai lebih dari 0,8 dari Algoritma C4.5 sebagai kualifikasi yaitu good classification. 4. Dengan menggunakan metode tersebut makanya bisa mengurangi ketidaklulusan ujian kompetensi dan mempertahankan kelulusan ujian kompetensi. DAFTAR PUSTAKA [1] Bramer, Max. (2007). Principles of Data Mining. London: Springer. ISBN-10: 1-84628-765-0, ISBN-13: 978-1- 84628-765-7. [2] Chang Hong, A survey of model-based clustering algorithms for sequential data. Department of Computer Science Hong Kong University of Science and Technology, Clear Water Bay, Kowlood, Hong Kong, 2002 [3] D. Hand, H. Manila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. Margareth H. Dunhan, Data Mining Introductory and Adcance Topics. Prentice Hall, 2003 [4] Dekker, et all, (2009). Predicting Students Drop Out: A Case Study [5]Fayyad, Usama. 1996. Advances in Knowledge and Data Mining. MIT Press. Vol. 17 No. 3 [6] Gorunescu, F. (2011). Data Mining Concept Model and Techniques. Berlin: Springer. ISBN 978-3-642-19720-8 [7]Giudici & Figini (2009). Applied Data Mining for Business and Industry, 2nd Edition [8]Han, Jiawei. Kamber, Micheline. Data Mining: Consepts and Techniques. 2001 San Fransisco, USA. Morgan Kaufmann Publisehers [9]Karamouiz & Vrentoz, (2009). Neural Network untuk memprediksi kelulusan siswa INF-397