THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB II LANDASAN TEORI

PENERAPAN DATA MINING UNTUK PREDIKSI LAMA STUDI MAHASISWA DENGAN MENGGUNAKAN METODE NAÏVE BAYES DAN ADABOOST

BAB III METODOLOGI PENELITIAN. Dataset

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

CONTOH KASUS DATA MINING

BAB I PENDAHULUAN Latar Belakang

BAB 3 METODE PENELITIAN

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

Prosiding SNATIF Ke-1 Tahun 2014 ISBN:

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

BAB II LANDASAN TEORI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

TINJAUAN PUSTAKA. Definisi Data Mining

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB II TINJAUAN PUSTAKA

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

BAB III METODE PENELITIAN

JURNAL PREDIKSI PRESTASI SISWA SEKOLAH DASAR MENGGUNAKAN ALGORITMA CART PREDICTION ELEMENTARY SCHOOL STUDENT ACHIEVEMENT USING CART ALGORITHM

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

( ) ( ) (3) II-1 ( ) ( )

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi. Diadaptasi dari slide Jiawei Han

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Algoritma Cart Untuk Memprediksi Status Kelulusan Mahasiswa

BAB 2 TINJAUAN PUSTAKA

Klasifikasi. Diadaptasi dari slide Jiawei Han

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

BAB III METODE PENELITIAN

BAB 1 PENDAHULUAN 1-1

PREDIKSI KELULUSAN MAHASISWA PADA PERGURUAN TINGGI KABUPATEN MAJALENGKA BERBASIS KNOWLEDGE BASED SYSTEM

PERBANDINGAN DECISION TREE

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naïve Bayes (Studi Kasus: Fasilkom Unilak)

KLASIFIKASI PADA TEXT MINING

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

BAB 2 LANDASAN TEORI

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB 2. Landasan Teori

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

BAB III METODE PENELITIAN

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

PENERAPAN METODE DECISION TREE ALGORITMA C4.5 UNTUK SELEKSI CALON PENERIMA BEASISWA TINGKAT UNIVERSITAS

BAB II LANDASAN TEORI

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

Sekip Utara Yogyakarta * 1 2

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

BAB III METODE PENELITIAN

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

KLASIFIKASI PADA TEXT MINING

BAB 2 LANDASAN TEORI

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA ABSTRAK

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1 Abstract

ISSN : STMIK AMIKOM Yogyakarta, 6-8Februari 2015

BAB 3 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI PREDIKSI KELULUSAN MAHASISWA DENGAN METODE LINEAR DISCRIMINANT ANALYSIS

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

Perkiraan Waktu Studi Mahasiswa Menggunakan Metode Klasifikasi Dengan Algoritma Naive Bayes

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

Bayesian Classifier. Bahan Kuliah Data Mining. Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Oleh karena itu dalam melakukan Kegiatan usahanya sehari-hari bank harus

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

Sistem Pendukung Keputusan Untuk Mengevaluasi Internal Program Studi

Transkripsi:

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD 1 JACOB SOARES, 2 ALBERTUS JOKO SANTOSO, 3 SUYOTO 1, 2, 3 Universitas Atma Jaya Yogyakarta E-mail: 1 soaresmokong@gmail.com, 2 albjoko@staff.uajy.ac.id, 3 suyoto@staff.uajy.ac.id Abstract - Teknik Prediksi merupakan hal yang patut untuk di perhitungkan dalam mewaspadai setiap kondisi yang terjadi. prediksi masa studi mahasiswa merupakan langkah penting dalam mempertimbangkan proses pengambilan keputusan sebagai peringatan dini (early warning) terhadap mahasiswa yang berpotensi menyalahi ketentuan lama studinya. Dili Institute of Technology merupakan salah satu perguruan tinggi swasta di Timor-Leste yang memiliki jumlah mahasiswa yang sangat banyak yang masih terkendala dalam mengontrol lama studi setiap mahasiswanya. Tujuan penelitian ini adalah memanfaatkan teknik data mining dalam memprediksi lama studi mahasiswa pada perguruan tinggi Dili Institute Of Technology. Proses klasifikasi terhadap 334 record data mahasiswa menggunakan metode naïve bayes dengan nilai akurasi sebesar 86,22% yang diprediksi tepat waktu, sedangkan 12,57% tidak tepat waktu. Namun dari hasil yang didapat belum memuaskan sehingga memerlukan metode adaboost untuk menangani error value dengan nilai yang didapatkan... Dari hasil prediksi yang dilakukan oleh peneliti maka, pihak DIT dapat mengetahui jumlah mahasiswa tertentu yang berdasarkan hasil prediksinya dinyatakan berpotensi lulus dengan melampaui ketentuan lama studi yang ditentukan dengan mengambil tindakan preventif secara dini. Keywords - Data Mining, Prediksi, Naïve Bayes, Adaboost. I. INTRODUCTIONS Pertumbuhan jumlah data yang tersimpan pada masing-masing organisasi atau institusi saat ini sangat berkembang pesat dan terus menerus perkembangan [1]. Pemanfaatan teknik data mining merupakan langkah konkrit dalam menghadapi pertumbuhan data yang semaking berkembang pesat dengan teknik pengekstraksian data tersembunyi di dalam gudang data [2]. Dili Institute of Technology (DIT) merupakan salah satu perguruan tinggi swasta yang berada di Timor Leste dan telah terdaftar di pengadilan Dili, serta mendapatkan pengakuan secara Internasional dengan persentasi akreditasi kampus 92.88% yang telah dilakukan oleh kementrian Pendidikan Timor Leste [3][4]. Seiring dengan berjalannya waktu pertumbuhan jumlah mahasiswanya cukup banyak. Hal ini terlihat dari peningkatan jumlah data calon mahasiswa baru pada setiap tahun ajaran baru yang semakin bertambah. Sehingga pencatatan data mahasiswapun semakin menumpuk karena terdapat jumlah mahasiswa yang lulus tidak sesuai dengan ketentuan masa studi yang ditetapkan dan perolehan Indeks Prestasi Kumulatif (IPK) yang rendah. Pemanfaatan teknik data mining agar mendapatkan informasi dan pengetahuan yang baru dari sejumlah data yang besar [1]. Dengan data mining dapat memprediksi lama masa studi mahasiswa pada perguruan tinggi Dili Institute of Technology agar dapat mengetahui setiap mahasiswa yang melampaui lama studi atas dasar data kelulusan sebelumnya. Beberapa algoritma klasifikasi yang sudah digunakan oleh peneliti lain yaitu, Neural Network, Naïve Bayes, Decision Tree, Adaboost, Instance-Based Learning, Logistic Regression dan Support Vector Machine [5]. Dalam penelitian ini penulis menerapkan teknik data mining untuk prediksi lama studi mahasiswa dengan menggunakan metode Naïve Bayes dan Adaboost. Metode Naïve Bayes sangat mudah diaplikasikan dalam mesin pembelajaran dalam kumpulan data set berdasarkan data training yang diperoleh dengan menggunakan probabilitas bersyarat sebagai dasarnya [6]. Sedangkan metode Adaboost pada dasarnya dapat digunakan untuk meningkatkan ketelitian untuk proses klasifikasi dalam melakukan prediksi dengan cara membangkitkan kombinasi dari suatu model Model yang lemah dan menggabungkannya menjadi lebih baik secara signifikan, tetapi hasil klasifikasi atau prediksi yang dipilih adalah model yang memiliki nilai bobot paling besar[6][7]. Kombinasi ke dua metode ini diharapkan dapat membantu proses pengelolaan data sampel yang diperoleh sehingga dapat menentukan parameter serta atribut yang cocok dalam melakukan proses klasifikasi data berdasarkan ketentuan data mining secara efisien dan efektif. Hasil yang didapatkan dapat menentukan kerangka sistem dalam memprediksi lama studi mahasiswa berdasakaran klasifikasi data berbasis naïve bayes dalam mengasumsikan keakuratan akan independensi dari masing-masing kondisi mahasiswa terhadap nilai yang didapatkan. Klasifikasi data pengujian yang didapatkan akan di bantu dengan memanfaatkan proses boosting untuk menangani ketidakseimbangan kelas, meningkatkan akurasi yang tinggi dan dapat 70

mengurangi tingkat error klasifikasi terhadap nilai mahasiswa dengan metode Adaboost. II. DETAILS EXPERIMENTAL 2.1 Penelitian terdahulu Berikut adalah uraian singkat tentang beberapa penelitian sebelumnya yang terkait dengan prediksi, klasifikasi, metode Naïve Bayes dan Adaboost. Penelitian yang dilakukan oleh (Amornsinlaphachai, 2016) yang berjudul Efficiency of data mining models to predict academic performance and a cooperative learning model dengan tujuan Memilih model Data Mining untuk memprediksi prestasi akademik terhadap peserta didik program computer untuk membandingkan model efisiensi data mining dengan teknik klasifikasi dan membagun model pembelajaran berbasis web terhadap partisipasi peserta didik [8]. Sedangkan pada penelitiannya (Devasia, P and Hegde, 2016) yang berjudul Prediction of Students Performance using Educational Data Mining Mengusulkan sebuah sistem berbasis web dengan memanfaatkan teknik data mining untuk mengekstraksi informasi yang berguna. Percobaan yang dilakukan menggunakan metode Naïve Bayes terhadap 700 data siswa dengan 19 atribut [9]. Sedangkan Peneliatian lain dilakukan oleh (Guleria and Sood, 2015) dengan judul Predicting student placements using Bayesian classification permintaan siswa agar institusi menempatkan pendidikan tinggi yang berkwalitas dan bermanfaat bagi para siswa. Didalam aplikasi teorema bayesian pada dataset pendidikan telah diusulkan untuk memprediksi hasil penempatan. Hasilnya yang didapatkan akan dievaluasi menggunakan Naive Bayes Classifer dengan alat bantu WeKa dan Rapid Miner. Hasil yang dievaluasi akan membantu para pendidik agar meningkatkan aspek-aspek dalam hal penempatkan para siswa [5]. Penelitian berikut yang dilakukan oleh (Liu et al., 2017) dengan topic A Preprocessing Method of AdaBoost for Mislabeled Data Classification mengusulkan metode adaboost konvensional untuk memperbaiki data yang nois, Decision Stump merupakan algoritma pembelajaran lemah untuk klasifikasi data [10]. Sedangkan penelitian yang dilakukan oleh peniliti (Jacob et al, 2017) dengan judul Combination of naive Bayes and adaboost methods in predicting the study period of the students tujuan dari penelitian ini dapat memprediksi lama studi dari setiap mahasiswa atas dasar data kelulusan sebelumnya, hasilnya dapat digunakan sebagai bahan pertimbangan pimpinan dalam proses pengambilan kebijakan dan keputusan sebagai peringatan dini (early warning) bagi mahasiswa yang berdasarkan hasil prediksi dinyatakan berpotensi lulus dengan melampaui ketentuan lama studinya. 2.2 Data Mining Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi dalam melakukan prediksi seperti hasil akhir peserta 71 terhadap suatu kegiatan pembelajaran berdasarkan jumlah data yang selama ini tidak diketahui secara manual dari suatu basis data dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata [8][11]. Tolak ukur penggunaan data mining mejadi hal penting dalam mengelola data yang sangat besar untuk memudahkan aktifitas recording suatu transaksi dan untuk proses data warehousing agar dapat memberikan informasi yang akurat bagi penggunanya. Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di lakukan, berikut langkah-langkahnya dalam proses data mining: Fig 1. Proses pengelompokan Data Mining 1. Data cleaning (untuk menghilangkan noise data yang tidak konsisten) 2. Data integration (di mana sumber data yang terpecah dapat disatukan) 3. Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database) 4. Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi) 5. Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data) 6. Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik) 7. Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user). 2.3 Metode Nive Bayes Naïve Bayes Classifier (NBC) merupakan sebuah pengklasifikasi probabilitas sederhana yang

mengaplikasikan Teorema Bayes dengan asumsi ketidaktergantungan (independent) yang tinggi dengan menggunakan mode batch Strategi [12][12]. Keuntungan penggunan penerapan NBC sangat jauh berbedah dengan metode lain seperti Regression, Decision Tree, Neural networks yang hanya membutuhkan jumlah data pelatihan (training data) yang kecil dalam menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian [9]. Karena yang diasumsikan sebagai variable independent, maka hanya varians dari suatu variable dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari matriks kovarians..() P (H/ X)= ()...(1) Dimana: X : Data dengan class yang belum diketahui H : Hipotesis data merupakan suatu class spesifik P(H X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probabilitas) P(H) : Probabilitas hipotesis H (prior probabilitas) P(X H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas X Proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas mana yang cocok bagi sampel yang dianalilis tersebut. Maka persamaan Naïve Bayes diatas dapat diturunkan sebagai berikut: P (C F 1. F n ) = ()(. )..(2) (. ) Untuk X merepresentasikan vector masukan yang berisikan fitur. Sedangkan C i merepresentasikan label kelas. Dengan asumsi bahwa nilai variable dalam tiap kelas saling independen yang kuat (Naïve) satu dengan yang lain maka: P(X C i ) = = P(X 1 C i ) x P(X 2 C i ) =P(X n C i ) (3) P(X C 2.4 Metode AdaBoost Metode AdaBoost atau Adaptive Boosting, merupakan algoritma pembelajaran mesin yang dirumuskan oleh Yoav Freund dan Robert Schapire. AdaBoost merupakan suatu meta-algorithm, dan dapat digunakan bersamaan dengan banyak algoritma pembelajaran lain untuk meningkatkan kinerjanya dalam melakukan klasifikasi teks, deteksi wajah dan pelacakan dengan tingkat keberhasilan yang baik [10]. AdaBoost bersifat adaptif, dimana classifiers berikutnya dibangun untuk mendukung data-data yang mengalami kesalahan klasifikasi oleh classifier sebelumnya. Algoritma Adaboost pada dasarnya digunakan untuk dapat meningkatkan classifier data seperti akurasi klasifikasi, waktu pemrosesan dan kehandalan [2]. Penerapan algoritma ini cukup mudah dalam proses membangun sebuah model awal dari dataset pelatihan, kemudian melakukan proses identifikasi terhadap rekaman data 72 dalam data pelatihan yang modelnya tidak ditemukan, dengan persamaan adaboost seperti berikut [6]. =1 to m Untuk m 1.... Min imumkan fungsi error w = w () = exp (α )....(4) 2. Set α = ln Which one e =...(5) 3. Update value w () () exp( α ) = w if that observation Miss classification and w () = w () exp( α ) = w () for others.(6) 2.5 Confucion Matrix Confusion matrix merupakan suatu metode yang di gunakan untuk melakukan perhitungan akurasi dalam konsep data mining. Rumus ini melakukan perhitungan dengan 4 keluaran yaitu: Recall, Procicion, Accuracy dan Error Reate. Evaluasi dengan confucion matrix dapat menghasilkan nilai, Recall, Precision dan Accuracy [5]. Recall adalah proporsi kasus positif yang diidentifikasi dengan benar. Precision adalah proporsi kasus yang positif. Accuracy adalah perbandingan kasus yang diidentifikasi benar dengan jumlah semua kasus. Prediction value Confusion Matrix True Correct Positive Classification False Positive Table1 1: Confusion Matrix True Negative False Negative Perhitungan Accuracy, Precision dan Recall dengan menggunakan table confucion matrix sebagai berikut: Recall = Precision = III. RESULTS AND DISCUSSION 3.1 Konsep Prediksi Kelulusan Mahasiswa Pada penelitian ini, beberapa tahap penting yang akan dilakukan dalam model prediksi kelulusan mahasiswa seperti pada gambar 3.1 berikut: Fig 2 the concept of Graduation Prediction

1. Preprocessing: Dataset yang akan digunakan sebagai proses mining dan pengujian berupa sampel data induk mahasiswa angkatan 2010 s/d 2014. Dataset mahasiswa ini akan diterapkan ke dalam alat pemodelan, sehingga pada akhirnya terbentuk sebuah dataset baru yang siap untuk di mining. Atribut yang digunakan yaitu, Pendapatan orangtua, Jenis kelamin, Nilai Tes seleksi, Asal sekolah, IPK semester satu sampai empat. Kemudian melakukan proses Cleaning terhadap data yang tidak lengkap atau missing velue. Sehingga pada akhirnya terdapat jumlah 334 record data yang siap untuk dimining. 2. Ekstraksi fitur: adalah salah satu tahap yang dilakukan untuk memilih fitur yang akan digunakan pada dataset mahasiswa sebagai data training dan data testing. 3. Klasifikasi: melakukan proses klasifikasi terhadap data latih dan data testing, menggunakan dua kelas yang akan dijadikan untuk kelas target yaitu, kelas Tepat Waktu dan kelas Tidak Tepat Waktu. 4. Implementasi Naïve bayes: Dataset mahasiswa akan diolah dengan Microsoft excel. Berukut adalah proses klasifikasi algoritma Naïve Bayes secara manual adalah sebagai berikut: a. Mulai Hitung P(Ci) untuk setiap kelas Hitung P(X Ci) untuk setiap kriteria dan setiap kelas Cari P(X Ci) yang paling besar menjadi kesimpulan b. Tampilkan hasil prediksi 5. Adaboost: Mengambil nilai yang minimum kemudian boosting dengan menggunakan adaboost untuk meningkatkan nilai akurasi yang lebih baik. 3..2 Implementasi Algoritma Nive Bayes Berikut ini merupakan contoh data training yang siap untuk dimining. Gender Income Parents From School Test Scores Grade Note M M Private M 3.19 Yes M H Public M 2.75 Yes Table 2: Data Training Note Gender : Female (F) and Male (M) Income Parents : High (H), Medium (M) and Low (L) From School : Public, Private and Vocational Test Scores : High (H), Medium (M) and Low (L) Grade : Study results semesters 1-4 Note/Information : Tepat Waktu (Yes) Dan Tidak Tepat Waktu (No) Data kelulusan mahasiswa yang digunakan sebagai dataset untuk melakukan proses klasifikasi berjumlah 334 record data dengan status lulus. Setelah dilakukan proses klasifikasi terdapat 285 atau 85,33% yang diprediksi tepat waktu dan 49 14,67% diprediksi tidak tepat waktu. Hasil yang di dapatkan menggunakan metode naïve bayes dengan pembagian 10 k fold validation henhasikan nilai precicion, Recall dan Accuracy seperti berikut ini. Berikut salah satu contoh data testing dengan atribut Jenis kelamin = Perempuan, pendapatan orang tua = Tinggi, asal sekolah Swasta, Nilai tes masuk Nilai sedang, IPK = 3.06. apakah mahasiswa tersebut setelah setelah diprediksi Tepat Waktu atau tidak? Pertama menghitung jumlah kelas bagi label: P(Y = Tepat) = 285/334 = 0.7724 P(Y = Tidak Tepat) = 49/334 = 0.1467 Kedua menghitung jumlah kasus yang sama dengan kelas yang sama: F H Public L 3.13 Yes M L Public H 3.13 No M L Public M 3.19 Yes F H Vocational L 2.94 No M H Private L 3.19 Yes M L Public L 2.88 Yes F M Public M 3.38 Yes M L Private L 3.19 Yes F M Public L 3.06 No F H Public M 3.13 Yes M M Public L 3.5 Yes M H Vocational L 3.31 Yes Kalikas semua variable tepat dan terlambat: Kelas Tepat = 0.7724 x 0.8275 x 0.6830 x 0.8765 x 0.8676 x 0.8275 = 0.3836 Kelas Tidak Tepat = 0.1467 x 0.1655 x 0.1369 x 0.1234 x 0.1323 x 0.2 = 1.0864 Bandingkan hasil kelas tepat dan terlambat: Jadi karena hasil kelas Tidak Tepat lebih besar kelas Tepat maka keputusannya adalah Tidak Tepat 3.2.1 Pengujian Menggunakan Menggunakan Naïve Bayes Classifier Dari jumlah dataset mahasiswa sebanyak 334 record yang diklasifikasi tepat waktu sebanyak 283 record dan 2 record tidak tepat waktu. Sedangkan data yang diprediksi tepat tetapi data aslinya bukan tepat waktu 73

yaitu sebanyak 47 record. Berdasarkan table 2 confusion matrix dibawah maka dapat diuji nilai akurasinya sebagai berikut: 0.85.32 0.86% = A = Yes B = No Recall 283 2 0.993 47 2 0.041 Precision 0.858 0.500 Table 3: Confusion Matrix = = 3.2.2 Pengujian Dengan Adaboost Adaboost digunakan untuk melakukan busting terhadap algoritma naïve bayes yang bertujuan untuk meningkatkan akurasi dan mengurangi tingkat kesalahan error pada klasifikasi. Optimasi yang dilakukan sebanyak 10 kali iterasi. Berikut merupakan pembobotan dari algoritma adaboost. Input: Dataset D = (x 1, y 2 ), (x n, y n ), Y 1 = {-1, + 1} X 1 = is instance Y 1 = classification For k = 1,.,k Buat klasifikasi D k, {1,.,N} Pilih klasifikasi lemah dengan error terkecil di D k H k = x {-1, + 1} k = Pro D k [h k (x i ) y i ] Output single final classifier Pembentukan bobot D k: w (i) = w = () c(x) c(x) e, ( ) e, y h ( ) a Z H (x) = sign( a h (x)) Setelah melakukan klasifikasi terhadap kelas tepat waktu 277 record dan kelas tidak tepat waktu 42 record, setelah diprediksi menghasilkan data tepat waktu 8 record, sedangkan data yang diprediksi tidak tepat waktu 7 record. Yes No Recall 277 8 0.986 42 7 0 Precision 0.839 0 0.85,02 0.85% = = = IV. HASIL KOMBINASI METODE NAIVE BAYES DAN ADABOOST Teknik kombinasi ini digunakan untuk mencari tingkat nilai dengan akurasi yang lebih baik. Berdasarkan tebel 4 dibawah ini dapat ditarik kesimpulan bahwa nilai yang diperoleh dengan metode naïve bayes memiliki tingkat nilai akurasi, Precision dan Recall yang signifikan, akan tetapi memerlukan algoritma Adaboost untuk memastikan nilai tersebut agar mendapatkan tingkat akurasi yang lebih baik ketika menggabungkan kedua metode tersebut seperti terlihat pada table 4. Accuracy Precision Recall Naïve Bayes 0.94 0.685 0.041 NBAdaboost 0.98 0.853 0.786 Table 5: Result Combinations Method CONCLUSIONS Hasil dari penelitian ini berdasarkan beberapa data yang gunakan seperti data training maupun testing dari mahasiswa Dili Institute of Technology menunjukan bahwa tingkat keakurasian perhitungan dalam melakukan prediksi lama studi mahasiswa menggunkaan metode naïve bayes memiliki nilai yang tidak terlalu signifikan sehingga penggabungan metode seperti naïve bayes dan adaboost sangat diperlukan untuk mendapatkan tingkat nilai dengan akurasi, Precision dan Recall yang lebih tinggi dalam mempredikisi lama masa estudi mahasiswa. Hasil tersebut diperoleh dengan memanfaatkan proses perhitungan manual yang dibandingkan dengan hasil dari aplikasi WEKA sehingga bisa membantu pihak Dili Institute of Technology (DIT) dalam mengambil keputusan lebih dini berdasarkan perkembangan mahasiswanya agar bisa menghindari masalahmasalah yang akan dihadapi mahasiswa di kemudian hari, khususnya lama estudi mahasiswa. Kedepangnya peneliti berharap ada keberlanjutan dari penelitian ini dengan menambahkan atribut atau metode dalam mendukung tingkat akurasi sesuai dengan keperluan masing-masing institusi serta dapat dikembangkan lagi dalam sebuah system berbasis desktop maupun web site sehingga lebih efektif dan efisien dalam memprediksi lama masa estudi mahasiswa. 74