THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD 1 JACOB SOARES, 2 ALBERTUS JOKO SANTOSO, 3 SUYOTO 1, 2, 3 Universitas Atma Jaya Yogyakarta E-mail: 1 soaresmokong@gmail.com, 2 albjoko@staff.uajy.ac.id, 3 suyoto@staff.uajy.ac.id Abstract - Teknik Prediksi merupakan hal yang patut untuk di perhitungkan dalam mewaspadai setiap kondisi yang terjadi. prediksi masa studi mahasiswa merupakan langkah penting dalam mempertimbangkan proses pengambilan keputusan sebagai peringatan dini (early warning) terhadap mahasiswa yang berpotensi menyalahi ketentuan lama studinya. Dili Institute of Technology merupakan salah satu perguruan tinggi swasta di Timor-Leste yang memiliki jumlah mahasiswa yang sangat banyak yang masih terkendala dalam mengontrol lama studi setiap mahasiswanya. Tujuan penelitian ini adalah memanfaatkan teknik data mining dalam memprediksi lama studi mahasiswa pada perguruan tinggi Dili Institute Of Technology. Proses klasifikasi terhadap 334 record data mahasiswa menggunakan metode naïve bayes dengan nilai akurasi sebesar 86,22% yang diprediksi tepat waktu, sedangkan 12,57% tidak tepat waktu. Namun dari hasil yang didapat belum memuaskan sehingga memerlukan metode adaboost untuk menangani error value dengan nilai yang didapatkan... Dari hasil prediksi yang dilakukan oleh peneliti maka, pihak DIT dapat mengetahui jumlah mahasiswa tertentu yang berdasarkan hasil prediksinya dinyatakan berpotensi lulus dengan melampaui ketentuan lama studi yang ditentukan dengan mengambil tindakan preventif secara dini. Keywords - Data Mining, Prediksi, Naïve Bayes, Adaboost. I. INTRODUCTIONS Pertumbuhan jumlah data yang tersimpan pada masing-masing organisasi atau institusi saat ini sangat berkembang pesat dan terus menerus perkembangan [1]. Pemanfaatan teknik data mining merupakan langkah konkrit dalam menghadapi pertumbuhan data yang semaking berkembang pesat dengan teknik pengekstraksian data tersembunyi di dalam gudang data [2]. Dili Institute of Technology (DIT) merupakan salah satu perguruan tinggi swasta yang berada di Timor Leste dan telah terdaftar di pengadilan Dili, serta mendapatkan pengakuan secara Internasional dengan persentasi akreditasi kampus 92.88% yang telah dilakukan oleh kementrian Pendidikan Timor Leste [3][4]. Seiring dengan berjalannya waktu pertumbuhan jumlah mahasiswanya cukup banyak. Hal ini terlihat dari peningkatan jumlah data calon mahasiswa baru pada setiap tahun ajaran baru yang semakin bertambah. Sehingga pencatatan data mahasiswapun semakin menumpuk karena terdapat jumlah mahasiswa yang lulus tidak sesuai dengan ketentuan masa studi yang ditetapkan dan perolehan Indeks Prestasi Kumulatif (IPK) yang rendah. Pemanfaatan teknik data mining agar mendapatkan informasi dan pengetahuan yang baru dari sejumlah data yang besar [1]. Dengan data mining dapat memprediksi lama masa studi mahasiswa pada perguruan tinggi Dili Institute of Technology agar dapat mengetahui setiap mahasiswa yang melampaui lama studi atas dasar data kelulusan sebelumnya. Beberapa algoritma klasifikasi yang sudah digunakan oleh peneliti lain yaitu, Neural Network, Naïve Bayes, Decision Tree, Adaboost, Instance-Based Learning, Logistic Regression dan Support Vector Machine [5]. Dalam penelitian ini penulis menerapkan teknik data mining untuk prediksi lama studi mahasiswa dengan menggunakan metode Naïve Bayes dan Adaboost. Metode Naïve Bayes sangat mudah diaplikasikan dalam mesin pembelajaran dalam kumpulan data set berdasarkan data training yang diperoleh dengan menggunakan probabilitas bersyarat sebagai dasarnya [6]. Sedangkan metode Adaboost pada dasarnya dapat digunakan untuk meningkatkan ketelitian untuk proses klasifikasi dalam melakukan prediksi dengan cara membangkitkan kombinasi dari suatu model Model yang lemah dan menggabungkannya menjadi lebih baik secara signifikan, tetapi hasil klasifikasi atau prediksi yang dipilih adalah model yang memiliki nilai bobot paling besar[6][7]. Kombinasi ke dua metode ini diharapkan dapat membantu proses pengelolaan data sampel yang diperoleh sehingga dapat menentukan parameter serta atribut yang cocok dalam melakukan proses klasifikasi data berdasarkan ketentuan data mining secara efisien dan efektif. Hasil yang didapatkan dapat menentukan kerangka sistem dalam memprediksi lama studi mahasiswa berdasakaran klasifikasi data berbasis naïve bayes dalam mengasumsikan keakuratan akan independensi dari masing-masing kondisi mahasiswa terhadap nilai yang didapatkan. Klasifikasi data pengujian yang didapatkan akan di bantu dengan memanfaatkan proses boosting untuk menangani ketidakseimbangan kelas, meningkatkan akurasi yang tinggi dan dapat 70
mengurangi tingkat error klasifikasi terhadap nilai mahasiswa dengan metode Adaboost. II. DETAILS EXPERIMENTAL 2.1 Penelitian terdahulu Berikut adalah uraian singkat tentang beberapa penelitian sebelumnya yang terkait dengan prediksi, klasifikasi, metode Naïve Bayes dan Adaboost. Penelitian yang dilakukan oleh (Amornsinlaphachai, 2016) yang berjudul Efficiency of data mining models to predict academic performance and a cooperative learning model dengan tujuan Memilih model Data Mining untuk memprediksi prestasi akademik terhadap peserta didik program computer untuk membandingkan model efisiensi data mining dengan teknik klasifikasi dan membagun model pembelajaran berbasis web terhadap partisipasi peserta didik [8]. Sedangkan pada penelitiannya (Devasia, P and Hegde, 2016) yang berjudul Prediction of Students Performance using Educational Data Mining Mengusulkan sebuah sistem berbasis web dengan memanfaatkan teknik data mining untuk mengekstraksi informasi yang berguna. Percobaan yang dilakukan menggunakan metode Naïve Bayes terhadap 700 data siswa dengan 19 atribut [9]. Sedangkan Peneliatian lain dilakukan oleh (Guleria and Sood, 2015) dengan judul Predicting student placements using Bayesian classification permintaan siswa agar institusi menempatkan pendidikan tinggi yang berkwalitas dan bermanfaat bagi para siswa. Didalam aplikasi teorema bayesian pada dataset pendidikan telah diusulkan untuk memprediksi hasil penempatan. Hasilnya yang didapatkan akan dievaluasi menggunakan Naive Bayes Classifer dengan alat bantu WeKa dan Rapid Miner. Hasil yang dievaluasi akan membantu para pendidik agar meningkatkan aspek-aspek dalam hal penempatkan para siswa [5]. Penelitian berikut yang dilakukan oleh (Liu et al., 2017) dengan topic A Preprocessing Method of AdaBoost for Mislabeled Data Classification mengusulkan metode adaboost konvensional untuk memperbaiki data yang nois, Decision Stump merupakan algoritma pembelajaran lemah untuk klasifikasi data [10]. Sedangkan penelitian yang dilakukan oleh peniliti (Jacob et al, 2017) dengan judul Combination of naive Bayes and adaboost methods in predicting the study period of the students tujuan dari penelitian ini dapat memprediksi lama studi dari setiap mahasiswa atas dasar data kelulusan sebelumnya, hasilnya dapat digunakan sebagai bahan pertimbangan pimpinan dalam proses pengambilan kebijakan dan keputusan sebagai peringatan dini (early warning) bagi mahasiswa yang berdasarkan hasil prediksi dinyatakan berpotensi lulus dengan melampaui ketentuan lama studinya. 2.2 Data Mining Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi dalam melakukan prediksi seperti hasil akhir peserta 71 terhadap suatu kegiatan pembelajaran berdasarkan jumlah data yang selama ini tidak diketahui secara manual dari suatu basis data dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata [8][11]. Tolak ukur penggunaan data mining mejadi hal penting dalam mengelola data yang sangat besar untuk memudahkan aktifitas recording suatu transaksi dan untuk proses data warehousing agar dapat memberikan informasi yang akurat bagi penggunanya. Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di lakukan, berikut langkah-langkahnya dalam proses data mining: Fig 1. Proses pengelompokan Data Mining 1. Data cleaning (untuk menghilangkan noise data yang tidak konsisten) 2. Data integration (di mana sumber data yang terpecah dapat disatukan) 3. Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database) 4. Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi) 5. Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data) 6. Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik) 7. Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user). 2.3 Metode Nive Bayes Naïve Bayes Classifier (NBC) merupakan sebuah pengklasifikasi probabilitas sederhana yang
mengaplikasikan Teorema Bayes dengan asumsi ketidaktergantungan (independent) yang tinggi dengan menggunakan mode batch Strategi [12][12]. Keuntungan penggunan penerapan NBC sangat jauh berbedah dengan metode lain seperti Regression, Decision Tree, Neural networks yang hanya membutuhkan jumlah data pelatihan (training data) yang kecil dalam menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian [9]. Karena yang diasumsikan sebagai variable independent, maka hanya varians dari suatu variable dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari matriks kovarians..() P (H/ X)= ()...(1) Dimana: X : Data dengan class yang belum diketahui H : Hipotesis data merupakan suatu class spesifik P(H X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probabilitas) P(H) : Probabilitas hipotesis H (prior probabilitas) P(X H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas X Proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas mana yang cocok bagi sampel yang dianalilis tersebut. Maka persamaan Naïve Bayes diatas dapat diturunkan sebagai berikut: P (C F 1. F n ) = ()(. )..(2) (. ) Untuk X merepresentasikan vector masukan yang berisikan fitur. Sedangkan C i merepresentasikan label kelas. Dengan asumsi bahwa nilai variable dalam tiap kelas saling independen yang kuat (Naïve) satu dengan yang lain maka: P(X C i ) = = P(X 1 C i ) x P(X 2 C i ) =P(X n C i ) (3) P(X C 2.4 Metode AdaBoost Metode AdaBoost atau Adaptive Boosting, merupakan algoritma pembelajaran mesin yang dirumuskan oleh Yoav Freund dan Robert Schapire. AdaBoost merupakan suatu meta-algorithm, dan dapat digunakan bersamaan dengan banyak algoritma pembelajaran lain untuk meningkatkan kinerjanya dalam melakukan klasifikasi teks, deteksi wajah dan pelacakan dengan tingkat keberhasilan yang baik [10]. AdaBoost bersifat adaptif, dimana classifiers berikutnya dibangun untuk mendukung data-data yang mengalami kesalahan klasifikasi oleh classifier sebelumnya. Algoritma Adaboost pada dasarnya digunakan untuk dapat meningkatkan classifier data seperti akurasi klasifikasi, waktu pemrosesan dan kehandalan [2]. Penerapan algoritma ini cukup mudah dalam proses membangun sebuah model awal dari dataset pelatihan, kemudian melakukan proses identifikasi terhadap rekaman data 72 dalam data pelatihan yang modelnya tidak ditemukan, dengan persamaan adaboost seperti berikut [6]. =1 to m Untuk m 1.... Min imumkan fungsi error w = w () = exp (α )....(4) 2. Set α = ln Which one e =...(5) 3. Update value w () () exp( α ) = w if that observation Miss classification and w () = w () exp( α ) = w () for others.(6) 2.5 Confucion Matrix Confusion matrix merupakan suatu metode yang di gunakan untuk melakukan perhitungan akurasi dalam konsep data mining. Rumus ini melakukan perhitungan dengan 4 keluaran yaitu: Recall, Procicion, Accuracy dan Error Reate. Evaluasi dengan confucion matrix dapat menghasilkan nilai, Recall, Precision dan Accuracy [5]. Recall adalah proporsi kasus positif yang diidentifikasi dengan benar. Precision adalah proporsi kasus yang positif. Accuracy adalah perbandingan kasus yang diidentifikasi benar dengan jumlah semua kasus. Prediction value Confusion Matrix True Correct Positive Classification False Positive Table1 1: Confusion Matrix True Negative False Negative Perhitungan Accuracy, Precision dan Recall dengan menggunakan table confucion matrix sebagai berikut: Recall = Precision = III. RESULTS AND DISCUSSION 3.1 Konsep Prediksi Kelulusan Mahasiswa Pada penelitian ini, beberapa tahap penting yang akan dilakukan dalam model prediksi kelulusan mahasiswa seperti pada gambar 3.1 berikut: Fig 2 the concept of Graduation Prediction
1. Preprocessing: Dataset yang akan digunakan sebagai proses mining dan pengujian berupa sampel data induk mahasiswa angkatan 2010 s/d 2014. Dataset mahasiswa ini akan diterapkan ke dalam alat pemodelan, sehingga pada akhirnya terbentuk sebuah dataset baru yang siap untuk di mining. Atribut yang digunakan yaitu, Pendapatan orangtua, Jenis kelamin, Nilai Tes seleksi, Asal sekolah, IPK semester satu sampai empat. Kemudian melakukan proses Cleaning terhadap data yang tidak lengkap atau missing velue. Sehingga pada akhirnya terdapat jumlah 334 record data yang siap untuk dimining. 2. Ekstraksi fitur: adalah salah satu tahap yang dilakukan untuk memilih fitur yang akan digunakan pada dataset mahasiswa sebagai data training dan data testing. 3. Klasifikasi: melakukan proses klasifikasi terhadap data latih dan data testing, menggunakan dua kelas yang akan dijadikan untuk kelas target yaitu, kelas Tepat Waktu dan kelas Tidak Tepat Waktu. 4. Implementasi Naïve bayes: Dataset mahasiswa akan diolah dengan Microsoft excel. Berukut adalah proses klasifikasi algoritma Naïve Bayes secara manual adalah sebagai berikut: a. Mulai Hitung P(Ci) untuk setiap kelas Hitung P(X Ci) untuk setiap kriteria dan setiap kelas Cari P(X Ci) yang paling besar menjadi kesimpulan b. Tampilkan hasil prediksi 5. Adaboost: Mengambil nilai yang minimum kemudian boosting dengan menggunakan adaboost untuk meningkatkan nilai akurasi yang lebih baik. 3..2 Implementasi Algoritma Nive Bayes Berikut ini merupakan contoh data training yang siap untuk dimining. Gender Income Parents From School Test Scores Grade Note M M Private M 3.19 Yes M H Public M 2.75 Yes Table 2: Data Training Note Gender : Female (F) and Male (M) Income Parents : High (H), Medium (M) and Low (L) From School : Public, Private and Vocational Test Scores : High (H), Medium (M) and Low (L) Grade : Study results semesters 1-4 Note/Information : Tepat Waktu (Yes) Dan Tidak Tepat Waktu (No) Data kelulusan mahasiswa yang digunakan sebagai dataset untuk melakukan proses klasifikasi berjumlah 334 record data dengan status lulus. Setelah dilakukan proses klasifikasi terdapat 285 atau 85,33% yang diprediksi tepat waktu dan 49 14,67% diprediksi tidak tepat waktu. Hasil yang di dapatkan menggunakan metode naïve bayes dengan pembagian 10 k fold validation henhasikan nilai precicion, Recall dan Accuracy seperti berikut ini. Berikut salah satu contoh data testing dengan atribut Jenis kelamin = Perempuan, pendapatan orang tua = Tinggi, asal sekolah Swasta, Nilai tes masuk Nilai sedang, IPK = 3.06. apakah mahasiswa tersebut setelah setelah diprediksi Tepat Waktu atau tidak? Pertama menghitung jumlah kelas bagi label: P(Y = Tepat) = 285/334 = 0.7724 P(Y = Tidak Tepat) = 49/334 = 0.1467 Kedua menghitung jumlah kasus yang sama dengan kelas yang sama: F H Public L 3.13 Yes M L Public H 3.13 No M L Public M 3.19 Yes F H Vocational L 2.94 No M H Private L 3.19 Yes M L Public L 2.88 Yes F M Public M 3.38 Yes M L Private L 3.19 Yes F M Public L 3.06 No F H Public M 3.13 Yes M M Public L 3.5 Yes M H Vocational L 3.31 Yes Kalikas semua variable tepat dan terlambat: Kelas Tepat = 0.7724 x 0.8275 x 0.6830 x 0.8765 x 0.8676 x 0.8275 = 0.3836 Kelas Tidak Tepat = 0.1467 x 0.1655 x 0.1369 x 0.1234 x 0.1323 x 0.2 = 1.0864 Bandingkan hasil kelas tepat dan terlambat: Jadi karena hasil kelas Tidak Tepat lebih besar kelas Tepat maka keputusannya adalah Tidak Tepat 3.2.1 Pengujian Menggunakan Menggunakan Naïve Bayes Classifier Dari jumlah dataset mahasiswa sebanyak 334 record yang diklasifikasi tepat waktu sebanyak 283 record dan 2 record tidak tepat waktu. Sedangkan data yang diprediksi tepat tetapi data aslinya bukan tepat waktu 73
yaitu sebanyak 47 record. Berdasarkan table 2 confusion matrix dibawah maka dapat diuji nilai akurasinya sebagai berikut: 0.85.32 0.86% = A = Yes B = No Recall 283 2 0.993 47 2 0.041 Precision 0.858 0.500 Table 3: Confusion Matrix = = 3.2.2 Pengujian Dengan Adaboost Adaboost digunakan untuk melakukan busting terhadap algoritma naïve bayes yang bertujuan untuk meningkatkan akurasi dan mengurangi tingkat kesalahan error pada klasifikasi. Optimasi yang dilakukan sebanyak 10 kali iterasi. Berikut merupakan pembobotan dari algoritma adaboost. Input: Dataset D = (x 1, y 2 ), (x n, y n ), Y 1 = {-1, + 1} X 1 = is instance Y 1 = classification For k = 1,.,k Buat klasifikasi D k, {1,.,N} Pilih klasifikasi lemah dengan error terkecil di D k H k = x {-1, + 1} k = Pro D k [h k (x i ) y i ] Output single final classifier Pembentukan bobot D k: w (i) = w = () c(x) c(x) e, ( ) e, y h ( ) a Z H (x) = sign( a h (x)) Setelah melakukan klasifikasi terhadap kelas tepat waktu 277 record dan kelas tidak tepat waktu 42 record, setelah diprediksi menghasilkan data tepat waktu 8 record, sedangkan data yang diprediksi tidak tepat waktu 7 record. Yes No Recall 277 8 0.986 42 7 0 Precision 0.839 0 0.85,02 0.85% = = = IV. HASIL KOMBINASI METODE NAIVE BAYES DAN ADABOOST Teknik kombinasi ini digunakan untuk mencari tingkat nilai dengan akurasi yang lebih baik. Berdasarkan tebel 4 dibawah ini dapat ditarik kesimpulan bahwa nilai yang diperoleh dengan metode naïve bayes memiliki tingkat nilai akurasi, Precision dan Recall yang signifikan, akan tetapi memerlukan algoritma Adaboost untuk memastikan nilai tersebut agar mendapatkan tingkat akurasi yang lebih baik ketika menggabungkan kedua metode tersebut seperti terlihat pada table 4. Accuracy Precision Recall Naïve Bayes 0.94 0.685 0.041 NBAdaboost 0.98 0.853 0.786 Table 5: Result Combinations Method CONCLUSIONS Hasil dari penelitian ini berdasarkan beberapa data yang gunakan seperti data training maupun testing dari mahasiswa Dili Institute of Technology menunjukan bahwa tingkat keakurasian perhitungan dalam melakukan prediksi lama studi mahasiswa menggunkaan metode naïve bayes memiliki nilai yang tidak terlalu signifikan sehingga penggabungan metode seperti naïve bayes dan adaboost sangat diperlukan untuk mendapatkan tingkat nilai dengan akurasi, Precision dan Recall yang lebih tinggi dalam mempredikisi lama masa estudi mahasiswa. Hasil tersebut diperoleh dengan memanfaatkan proses perhitungan manual yang dibandingkan dengan hasil dari aplikasi WEKA sehingga bisa membantu pihak Dili Institute of Technology (DIT) dalam mengambil keputusan lebih dini berdasarkan perkembangan mahasiswanya agar bisa menghindari masalahmasalah yang akan dihadapi mahasiswa di kemudian hari, khususnya lama estudi mahasiswa. Kedepangnya peneliti berharap ada keberlanjutan dari penelitian ini dengan menambahkan atribut atau metode dalam mendukung tingkat akurasi sesuai dengan keperluan masing-masing institusi serta dapat dikembangkan lagi dalam sebuah system berbasis desktop maupun web site sehingga lebih efektif dan efisien dalam memprediksi lama masa estudi mahasiswa. 74