PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II LANDASAN TEORI

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

BAB III METODE PENELITIAN

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB III METODOLOGI PENELITIAN. Dataset

BAB II TINJAUAN PUSTAKA

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

SISTEM PENDUKUNG KEPUTUSAN BERBASIS DECISION TREE DALAM PEMBERIAN BEASISWA STUDI KASUS: AMIK BSI YOGYAKARTA

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB II TINJAUAN PUSTAKA

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

DATA DAN METODE Data

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

Versi Online tersedia di : JURNAL TECH-E (Online)

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB II LANDASAN TEORI

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

PERBANDINGAN DECISION TREE

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

BAB II LANDASAN TEORI

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB III METODE PENELITIAN

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI


Analisis Perbandingan Algoritma ID3 Dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum Pada PDAM Kabupaten Kendal

BAB 2 LANDASAN TEORI

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE

IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK PENJURUSAN SISWA (STUDI KASUS: SMA NEGERI 1 PONTIANAK)

Moch. Ali Machmudi 1) 1) Stmik Bina Patria


Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1 Abstract

PERANCANGAN APLIKASI PEMILIHAN MITRA KERJA

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI

BAB III METODE PENELITIAN

DAFTAR ISI Transformasi data... 47

BAB 2 TINJAUAN PUSTAKA

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

Pemanfaatan Educational Data Mining (EDM)...

MODEL ALGORITMA K-NEAREST NEIGHBOR

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

BAB II LANDASAN TEORI

PENERAPAN METODE DECISION TREE ALGORITMA C4.5 UNTUK KLASIFIKASI MAHASISWA BERPRESTASI

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

SWABUMI VOL IV No. 1, Maret 2016 ISSN X

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

PENERAPAN ALGORITMA KLASIFIKASI DATA MINING C4.5 PADA DATASET CUACA WILAYAH BEKASI

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI STATUS GIZI MENGGUNAKAN K-NEAREST NEIGHBOR INTISARI

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

BAB I PENDAHULUAN 1.1 Latar Belakang

PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48

BAB II TINJAUAN PUSTAKA

BAB. III. ANALISA PERMASALAHAN

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1-1

IMPLEMENTASI TEKNIK DATA MINING CLASSIFICATION DENGAN METODE DECISSION TREE UNTUK MENENTUKAN TINGKAT KELULUSAN MAHASISWA

PENERAPAN ALGORITMA C4.5 PADA PROGRAM KLASIFIKASI MAHASISWA DROPOUT. Anik Andriani AMIK BSI Jakarta

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA

PENGAMBILAN KEPUTUSAN UNTUK PENENTUAN BEASISWA TEPAT SASARAN MENGGUNAKAN METODE DECISION TREE DI SMK TARUNA BAKTI KERTOSONO

Modul IV KLASIFIKASI

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI PROFIL LULUSAN STMIK LPKIA

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

METODE PENELITIAN HASIL DAN PEMBAHASAN

Penggunaan Pohon Keputusan untuk Data Mining

BAB II TINJAUAN PUSTAKA

Transkripsi:

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika INTISARI Indeks Prestasi Kumulatif (IPK) dan Lama Studi menjadi salah satu parameter standar penilaian mutu lulusan dan bagian dari penilaian evaluasi sebuah program studi. Penelitian ini bertujuan untuk mengklasifikasi data historis mahasiswa Fakultas Teknik dan Fakultas Ilmu Pendidikan Universitas Negeri Gorontalo tahun 2003 sampai tahun 2012 dengan menggunakan Algoritma C5.0. Metode penelitian yang digunakan adalah Eksperimen melalui tahapan Knowledge Discovery Database. Berdasarkan hasil pengujian dengan menggunakan teknik k-fold cross validation, diperoleh akurasi tertinggi dari prediksi IPK sebesar 79,3 % dan 86,7% untuk lama studi. Hasil prediksi mahasiswa aktif angkatan 2012 dan 2013 menunjukkan bahwa kategori IPK Sedang sebesar 100%, kategori Lama Studi Tepat Waktu 88,80 % dan kategori Lama Studi Tidak Tepat Waktu 11,20 %. Kata Kunci: Klasifikasi, Algoritma C5.0, IPK dan Lama Studi PENDAHULUAN Lulus tepat waktu dengan Indeks Prestasi Akademik (IPK) di atas rata -rata tentunya menjadi harapan setiap mahasiswa. IPK dan lama studi juga menjadi salah satu parameter standar penilaian mutu lulusan, karena profil lulusan selalu tidak lepas dari perhitungan rata-rata IPK dan lama studi lulusan. Sehingga penilaian IPK dan lama studi merupakan bagian dari penilaian evaluasi sebuah program studi, yang dalam proses evaluasinya dapat dilakukan lebih awal dengan mengklasifikasi data historis mahasiswa lulusan untuk memprediksi kategori IPK dan Lama Studi mahasiswa aktif yang informasinya belum diketahui sebelumnya, sehingga program studi dapat mengidentifikasi secara dini karakteristik mahasiswa yang berpotensi lulus dengan kategori tepat waktu atau IPK kategori rendah dan melakukan langkah persuasive. Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database atau data historis. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, 2005). Salah satu metode dalam data mining yang bisa digunakan untuk

memprediksi kategori IPK dan lama studi adalah Metode Klasifikasi dengan Algoritma C5.0. Hadjaratie (2012) dengan membandingkan beberapa metode teknik data mining dalam prediksi kategori IPK dan lama studi Fakultas Teknik UNG, yaitu metode Decission Tree dengan algoritma CART, Metode Artificial Neural Network dengan algortima Back Propagation, dan Metode K-Nearest Neighbour. Hasil penelitiannya menunjukkan bahwa metode Decision Tree dengan algoritma CART memiliki kinerja yang lebih baik dari metode lain dalam memprediksi kategori IPK dam lama studi mahasiswa (rata-rata akurasi sebesar 78%). Ernawati (2008) menjelaskan bahwa dalam algoritma C5.0, pemilihan atribut yang akan diproses menggunakan information gain. Secara heuristik akan dipilih atribut yang menghasilkan simpul yang paling bersih ( purest). Jika dalam cabang suatu decision tree anggotanya berasal dari satu kelas maka cabang ini disebut pure. Kriteria yang digunakan adalah information gain. Jadi dalam memilih atribut untuk memecah obyek dalam beberapa kelas harus kita pilih atribut yang menghasilkan information gain paling besar. Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah (Kantardzic M, 2003): s, s,,,,, s, = p log (p ) (1) S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui atribut class adalah m dimana mendefinisikan kelas-kelas di dalamnya, Ci (for i= 1,, m), si adalah jumlah sampel pada S dalam class Ci. untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi dengan menggunakan aturan seperti di atas (2.1). Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci dan diestimasikan dengan si /s. Atribut A memiliki nilai tertentu {a1, a2,, av}. Atribut A dapat digunakan pada partisi S ke dalam v subset, {S1, S2,, Sv}, dimana Sj berisi sample pada S yang bernilai aj pada A. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split), maka subset ini akan berhubungan pada cabang dari node himpunan S. Sij adalah jumlah sample pada class Ci dalam sebuah subset Sj. Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula (Ernawati, 2006). ( ) (,, ) (2)

adalah jumlah subset j yang dibagi dengan jumlah sampel pada S, maka untuk mendapatkan nilai gain, selanjutnya digunakan formula (Ernawati,2006) Gain (A) = I (S 1, S 2, S m ) = E (A) (3) Klasifikasi dengan algoritma C5.0 perlu diuji keakuratannya, salah satunya dengan teknik pengujian Cross Validation, yaitu metode umum digunakan untuk mengevaluasi kinerja dalam classifier. Dalam pendekatan cross validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua sub set data yang berukuran sama. Pilih salah satu sebagai data training dan satu lagi untuk testing, kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebelumnya. Pendekatan ini dinamakan two-fold- cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Metode k-fold cross-validation menggeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk training, sedangkan sisanya untuk testing. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut (Tan, et al. 2005). Hasil pengujian dari setiap data testing dievaluasi tabulasi Confusion Matrix, dimana setiap sel berisi angka yang menunjukkan berapa banyak kasus yang sebenarnya dari kelas yang diamati untuk diprediksi sebagaimana yang terlihat pada Tabel 1 (Han dan Kamber, 2006). Tabel 1. Confusion Matrix untuk 2 Kelas Classification Class = Yes Class = No Predicted Class Class = Yes Class = No A B TP (True Positive) FN (False Negative) C D FP (False Positive) TN (True Negative) TP adalah jumlah record positif yang diklasifikasikan sebagai positif, FP adalah jumlah record negative yang diklasifikasikan sebagai positif, FN adalah jumlah record positif yang diklasifikasikan sebagai negative, TN adalah jumlah record negative yang diklasifikasikan sebagai negative. Evaluasi dengan confusion matrix menghasilkan akurasi dan laju error. Akurasi

adalah persentase dari total data yang diprediksi secara benar. Laju error adalah persentase dari total data yang diprediksi secara salah. = = 100% (4) METODE PENELITIAN Metode yang digunakan pada penelitian ini adalah metode Eksperimen (Suratmo, 2002) yang tahapannya mengacu pada tahapan Knowledge Discovery in Database (KDD) (Han dan Kamber, 2006), dan disusun berdasarkan tahapan penelitian Irene (2014), seperti yang terlihat pada Gambar 1. mulai Pengumpulan Data Praposesing Data Data Set Lulusan Data Set Mahasiswa Aktif Data Set IPK Data Set Lama Studi k Fold Cross Validation Klasifikasi (Algoritma C5.0) Pengujian Akurasi Prediksi selesai Gambar 1. Tahapan Penelitian Data yang digunakan pada penelitian berasal dari basis data akademik Fakultas Teknik dan Fakultas Ilmu Pendidikan UNG, yang bersumber dari Sistem Informasi Akademik Terpadu UNG (SIATUNG) mengenai data mahasiswa lulusan yang digunakan adalah mahasiswa yang lulus tahun 2003 sampai dengan tahun 2012 (862 record untuk Fakultas Teknik dan 4224 record untuk Fakultas Ilmu Pendidikan) dan data prediksi menggunakan data mahasiswa aktif angkatan tahun 2012 dan 2013 (767 record untuk Fakultas Teknik dan 1357 record untuk Fakultas Ilmu Pendidkan).

Proses klasifikasi dan pengujian dilakukan dengan menggunakan teknik k-fold cross validation, dimana pada penelitian ini jumlah k yang digunakan sebanyak 2 ( 2-fold cross validation), sehingga data dibagi menjadi dua bagian ( 2-fold cross validation), dimana satu bagian data dijadikan sebagai data training dan satunya lagi sebagai data testing. (Tabel 2). Data training digunakan untuk proses klasifikasi dan data testing digunakan untuk proses pengujian. Tabel 2. Pembagian 2-fold cross validation untuk data set IPK dan Lama Studi Kelompok Data Data Training Data Testing A IPK_Dataset_1 (training 1) LS_Dataset_1 (training 1) IPK_Dataset_2 (testing 1) LS_Dataset_2 (testing 1) Jlh record 1379 1380 Jlh Missing value 13,83 % 44,32 % B IPK_Dataset_2 (training 2) LS_Dataset_2 (training 2) IPK_Dataset_1 (testing 2) LS_Dataset_1 (testing 2) Jlh record 1380 1379 Jlh Missing value 44,32 % 13,83 % HASIL DAN PEMBAHASAN Klasifikasi Berdasarkan hasil klasifikasi data mahasiswa lulusan dengan menggunakan algoritma C5.0 dan melibatkan formula 1, formula 2, formula 3, diketahui bahwa jumlah rule yang terbentuk dan atribut yang terlibat tidak sama untuk setiap proses klasfikasi, baik pada data set IPK dan Lama Studi. Untuk data training set_ipk_1, rule yang terbentuk sebanyak 58 rule dan atribut yang terlibat sebanyak 12 atribut (semua atribut), sedangkan pada data training set_ipk_2 rule yang terbentuk sebanyak 8 rule dan atribut yang terlibat sebanyak 7 atribut, yang terdiri dari : jurusan, strata, asal sekolah, jenis kelamin, penghasilan ayah, seleksi, penghasilan ibu. Adapun data training set_ls_1, rule yang terbentuk sebanyak 41 rule dan atribut yang terlibat sebanyak 12 atribut (semua atribut), sedangkan data set_ls_2 rule yang terbentuk sebanyak 11 rule dan atribut yang terlibat sebanyak 7 atribut, yang terdiri dari : jurusan, strata, asal sekolah, jenis kelamin, penghasilan ayah, seleksi, penghasilan ibu. Dengan demikian, dapat diketahui bahwa data training set 2 (baik set_ipk_2 dan set_ls_2) lebih sedikit menghasilkan rule dan keterlibatan atribut dalam proses klasifikasi dibandingkan dengan data training set 1 (set_ipk_1 dan set_ls_1). Hal ini dapat saja disebabkan oleh karena jumlah missing value pada data training set 2 (44.32%) lebih banyak dibandingkan pada data training set 1 (13.83%). Karena

datanya lebih banyak, maka proses klasifikasi pada data training set 1 lebih banyak melakukan proses split untuk mendapatkan leaf (terbentuknya rule). Sedangkan pada data training set 2, karena banyaknya missing value, maka proses untuk mendapatkan leaf tidak banyak melakukan proses split, karena atribut yang tersisa tidak lagi memiliki data ( missing value), sehingga leaf dibentuk secara otomatis oleh kategori dengan frekuensi mayoritas, sebagaimana aturan yang berlaku pada penerapan algoritma C5.0. Pengujian Akurasi Sebelum melakukan prediksi data mahasiswa aktif, maka penerapan algoritma C5.0 pada data training IPK dan Lama Studi divalidasi terlebih dahulu dengan menggunakan data testing, untuk mendapatkan nilai performasi berupa nilai akurasi dari masing-masing data set, berdasarkan metode pembagian data 2-fold cross validation (Tabel 2), yang menyajikan informasi hasil perhitungan akurasi algoritma C.50 untuk data set IPK, dimana pada kelompok data A, himpunan rule yang dibentuk oleh data training Set_IPK_1 divalidasi dengan menggunakan data testing Set_IPK_2, sehingga bisa diperoleh kategori IPK hasil prediksi yang selanjutnya akan dibandingkan dengan kategori IPK dari data yang sebenarnya. Begitu pula sebaliknya dengan kelompok data B, dimana himpunan rule yang dibentuk oleh data training Set_IPK_2 divalidasi dengan menggunakan data testing Set_IPK_1. Perhitungan akurasi dilakukan berdasarkan formula 4. Tabel 3. Akurasi Algoritma C.50 pada data set IPK kelompok A OBSERVED PREDICTED RENDAH SEDANG TINGGI PERCENT CORRECT RENDAH 0 204 0 0.0% SEDANG 0 1000 0 100.0% TINGGI 0 176 0 0.0% OVERALL PERCENTAGE 0 100% 0 72.5%

Tabel 4 Akurasi Algoritma C.50 pada data set IPK kelompok B OBSERVED PREDICTED RENDAH SEDANG TINGGI PERCENT CORRECT RENDAH 0 103 0 0.0% SEDANG 0 1093 0 100.0% TINGGI 0 183 0 0.0% OVERALL PERCENTAGE 0 100% 0 79.3% Tabel 3 Merupakan hasil perhitugan akurasi algoritma C.50 untuk data set Lama Studi, dimana pada kelompok data A, himpunan rule yang dibentuk oleh data training Set_LS_1 divalidasi dengan menggunakan data testing Set_LS_2, sehingga bisa diperoleh kategori Lama Studi hasil prediksi yang selanjutnya akan dibandingkan dengan kategori Lama Studi dari data yang sebenarnya. Begitu pula sebaliknya dengan kelompok data B (Tabel 4), dimana himpunan rule yang dibentuk oleh data training Set_LS_2 divalidasi dengan menggunakan data testing Set_LS_1. Tabel 5. Akurasi Algoritma C.50 pada data set Lama Studi kelompok A OBSERVED PREDICTED TIDAK TEPAT WAKTU TEPAT WAKTU PERCENT CORRECT TIDAK TEPAT WAKTU 0 0 0.0% TEPAT WAKTU 408 971 70.4% OVERALL PERCENTAGE 29.6% 70.4% 70.4% Tabel 6. Akurasi Algoritma C.50 pada data set Lama Studi kelompok B OBSERVED PREDICTED TIDAK TEPAT WAKTU TEPAT WAKTU PERCENT CORRECT TIDAK TEPAT WAKTU 54 173 3.9 % TEPAT WAKTU 11 1141 82.7 % OVERALL PERCENTAGE 5 % 95.29 % 86.7% Berdasarkan kedua tabel perhitungan akurasi di atas (Tabel 5 dan 6), dapat diketahui kelompok data yang memiliki akurasi tertinggi adalah kelompok data set B, baik pada data set IPK (79.3%) maupun data set Lama Studi (86.7%), sehingga untuk selanjutnya himpunan rule

yang diperoleh dari data training Set_IPK_2 dan Set_LS_2 yang dipilih untuk digunakan sebagai pola dalam memprediksi data mahasiswa aktif angkatan 2012 dan 2013 yang belum memiliki kelas target. Prediksi Kategori IPK dan Lama Studi dari mahasiswa aktif angkatan 2012 dan 2013 diprediksi berdasarkan rule dari dataset yang memiliki akurasi IPK dan Lama Studi tertinggi (kelompok B). Untuk kategori IPK, hasil prediksi menunjukkan bahwa keseluruhan data menghasilkan kategori IPK = Sedang, sedangkan untuk kategori Lama Studi, hasil prediksinya bervariasi setiap atribut, dimana mayoritas kelas kategori dari setiap atribut menunjukkan hasil prediksi dengan kategori Lama Studi = Tepat Waktu. Implementasi 5. Implementasi penerapan klasifikasi ke dalam sistem disajikan pada Gambar 2, 3, 4, dan Gambar 2. Form menu klasifikasi Gambar 2 merupakan proses klasifikasi C5.0 untuk membentuk rule, rule yang dihasilkan akan digunakan dalam menghitung akurasi dan untuk memprediksi mahasiswa baru. Gambar 3. Form menu rule Gambar 3 merupakan hasil rule dari proses klasifikasi yang dilakukan oleh gambar 2 diatas.

Gambar 4. Form pencocokan data Gambar 4 diatas merupakan form untuk menghitung akurasi dari setiap kelompok data, kelompok data yang memiliki nilai akurasi tertinggi, kelompok data tersebut akan digunakan pada proses prediksi Gambar 5. Form Prediksi permahasiswa Gambar 5 diatas merupakan form prediksi mahasiswa, untuk mengetahui IPK dan Lama Studi dari seorang mahasiswa.

SIMPULAN DAN SARAN Berdasarkan hasil penelitian yang diperoleh, beberapa hal yang dapat disimpulkan adalah : a. Klasifikasi data lulusan berdasarkan IPK dan Lama Studi menghasilkan nilai akurasi 79,3 % dan laju error 20,7 % untuk set IPK, serta nilai akurasi 86,7 % dan laju error 13,3 % untuk set Lama Studi b. Hasil prediksi mahasiswa aktif angkatan 2012 dan 2013, dinyatakan bahwa untuk kategori IPK SEDANG sebanyak 1777 mahasiswa, kategori Lama studi tepat waktu sebanyak 1578 mahasiswa dan tidak tepat waktu sebanyak 199. Adapun hal-hal yang dapat disarankan adalah sebagai berikut : a. Proses klasifikasi data mahasiswa disarankan untuk dikembangkan dan menguji coba kembali dengan data set yang memiliki data yang lebih lengkap (lebih sedikit missing value) dan ruang lingkup yang lebih luas (semua fakultas di lingkungan Universitas Negeri Gorontalo). b. Proses pengujian disarankan untuk dilakukan dengan mengubah jumlah k dalam metode k- fold cross validation atau dengan teknik yang berbeda selain k-fold cross validation. c. Sistem dapat dikembangkan lebih dinamis, terutama dalam mengimport data set serta otomatisasi proses pembagian data training dengan mengubah secara dinamis nilai k pada metode k-fold cross validation. DAFTAR PUSTAKA Ernawati, I. 2008. Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C5.0 dan K- Nearest Neighbour. [Tesis]. Institut Pertanian Bogor. Han, J dan Kamber, M. (2006). Data Mining Concept and Tehniques. San Fransisco: Morgan Kauffman. ISBN 13: 978-1-55860-901-3 Irene, W. 2014. Penerapan Algoritma C5.0 dalam Pengklasifikasian Data Mahasiswa Universitas Negeri Goronta [Skripsi]. Fakultas Teknik : Universitas Negeri Gorontalo. Sistem Informasi Akademik Terpadu Universitas Negeri Gorontalo. http://siat.ung.ac.id (diakses pada tanggal 2 Juli 2013) Turban. 2005. Decision Support System and intelligent system. Yogyakarta : Andi Offset Hadjaratie, L. 2012. Prediksi dan Pemetaan Data Mahasiswa Fakultas Teknik Universitas Negeri Gorontalo Menggunakan Pendekatan Data Mining. Laporan Penelitian Universitas Negeri Gorontalo.