PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

dokumen-dokumen yang mirip
PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. Latar Belakang

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

BAB II LANDASAN TEORI

PERBANDINGAN DECISION TREE

Pemanfaatan Educational Data Mining (EDM)...

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENGAMBILAN KEPUTUSAN UNTUK PENENTUAN BEASISWA TEPAT SASARAN MENGGUNAKAN METODE DECISION TREE DI SMK TARUNA BAKTI KERTOSONO

Versi Online tersedia di : JURNAL TECH-E (Online)

BAB II TINJAUAN PUSTAKA

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

BAB 2 LANDASAN TEORI

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB 3 METODE PENELITIAN

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

BAB 2 LANDASAN TEORI

METODE PENELITIAN HASIL DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA

SNIPTEK 2014 ISBN:

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II LANDASAN TEORI

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

SISTEM PENDUKUNG PENGAMBILAN KEPUTUSAN MENGGUNAKAN METODE NAIVE BAYES (STUDI KASUS KREDIT SEPEDA MOTOR)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

KAJIAN PENERAPAN ALGORITMA C4.5, NAIVE BAYES, DAN NEURAL NETWORK DALAM PEMILIHAN DOSEN TELADAN: STUDI KASUS UNIVERSITAS INDRAPRASTA

Educational Data Mining untuk Mengetahui Pola Minat Kerja Mahasiswa

BAB III METODE PENELITIAN

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

Abidah Elcholiqi, Beta Noranita, Indra Waspada

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

Manfaat Pohon Keputusan

CONTOH KASUS DATA MINING

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

BAB I PENDAHULUAN Latar Belakang

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

PENERAPAN DATA MINING SEBAGAI MODEL SELEKSI PENERIMA BEASISWA PENUH (STUDI KASUS: STIE PERBANAS SURABAYA)

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB 2 TINJAUAN PUSTAKA

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

BAB II LANDASAN TEORI

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

BAB 1 PENDAHULUAN 1-1

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

BAB II TINJAUAN PUSTAKA

PENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL

IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK PENJURUSAN SISWA (STUDI KASUS: SMA NEGERI 1 PONTIANAK)

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

SKRIPSI TI S1 FIK UDINUS 1

Klasifikasi. Diadaptasi dari slide Jiawei Han

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Sekip Utara Yogyakarta * 1 2

BAB I PENDAHULUAN. 1.1 Latar Belakang

Pengolahan Data. Algoritma C4.5 Menghitung entropi : Data Training (75%) = 220 data Data Testing (25%) = 73 data

PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

KONVERSI DATA TRAINING TENTANG PENYAKIT HIPERTENSI MENJADI BENTUK POHON KEPUTUSAN DENGAN TEKNIK KLASIFIKASI MENGGUNAKAN TOOLS RAPID MINER 4.

DATA DAN METODE Data

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN. Dataset

ANALISIS PREDIKSI TINGKAT KETIDAKDIPLINAN SISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER (STUDI KASUS : SMK NEGERI 1 PACITAN)

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

PERANCANGAN APLIKASI PEMILIHAN MITRA KERJA

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO

Penggunaan Pohon Keputusan untuk Data Mining

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

ANALISA PERBANDINGAN ALGORITMA SVM, NAIVE BAYES, DAN DECISION TREE DALAM MENGKLASIFIKASIKAN SERANGAN (ATTACKS) PADA SISTEM PENDETEKSI INTRUSI

Penerapan Algoritma Cart Untuk Memprediksi Status Kelulusan Mahasiswa

IMPLEMENTASI DATA MINING PADA PENENTUAN JUMLAH SKS MENGGUNAKAN DECISION TREE

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Transkripsi:

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id, 2 prita@stmik-indonesia.ac.id Abstrak Program studi perlu untuk mengetahui mana saja mahasiswa yang berpotensi mengalami lama studi tidak tepat waktu. Akan tetapi, selama ini program studi kesulitan untuk memprediksi lama studi mahasiswa. Data lama studi alumni yang terdiri dari data nilai akademik, data cuti kuliah, dan data ketepatan waktu lulus dapat diolah menggunakan teknik klasifikasi untuk menghasilkan decision tree. Dimana decision tree tersebut dapat digunakan untuk memprediksi lama studi mahasiswa. Penelitian ini bertujuan untuk membentuk decision tree dari data lama studi mahasiswa. Selain itu juga bertujuan untuk membandingkan penggunaan algoritma NBTree dan C4.5 pada data lama studi mahasiswa. Hasil yang diperoleh dari penelitian ini adalah kedua algoritma tersebut dapat digunakan untuk membentuk decision tree, akan tetapi algoritma NBTree memberikan hasil yang lebihobyektif dalam penentuan lama studi mahasiswa dan akurasi yang lebih tinggi. Kata kunci : Data lama studi mahasiswa, decision tree, NBTree, C4.5 1. Pendahuluan Lama studi mahasiswa merupakan salah satu indikator penilaian program studi. Semakin banyak mahasiswa yang memiliki lama studi tepat waktu, maka semakin baik penilaian program studi tersebut. Masa studi mahasiswa telah diatur dalam ketetapan Kementerian Pendidikan dan Kebudayaan Direktorat Jenderal Pendidikan Tinggi tentang Sistem Pendidikan Tinggi yang menyebutkan bahwa untuk memenuhi standar kompetensi lulusan bagi mahasiswa program sarjana (S1) beban wajib yang harus ditempuh adalah paling sedikit 144-160 satuan kredit semester ( sks ) dengan masa studi selama 8-10 semester atau 4 5 tahun. Jika masa studi lebih dari 10 semester, maka dapat dikatakan bahwa lama studi mahasiswa tersebut tidak tepat waktu. Akan tetapi, saat ini masih banyak perguruan tinggi yang memiliki jumlah yang cukup besar untuk lulusan dengan lama studi tidak tepat waktu. Salah satunya adalah STMIK Indonesia, dimana sampai tahun 2016, jumlah lulusan dengan lama studi tidak tepat waktu mencapai 20%. Padahal hal ini dapat dicegah jika program studi dapat mengetahui lebih awal mahasiswa mana saja yang berpotensi mengalami lama studi tidak tepat waktu. Akan tetapi saat ini program studi kesulitan untuk memprediksi lama studi mahasiswa. Data akademik serta data ketepatan waktu lulus dari alumni yang dimiliki STMIK Indonesia berpotensi untuk digunakan dalam memprediksi lama 132 studi mahasiswa. Data tersebut dapat diolah dengan teknik klasifikasi sehingga menghasilkan decision tree. Dimana decision tree yang terbentuk bisa digunakan untuk memprediksi lama studi mahasiswa. Terdapat banyak algoritma klasifikasi yang dapat digunakan. Pada penelitian ini digunakan algoritma NBTree dan C4.5. Penelitian ini bertujuan untuk membangun decision tree dengan menggunakan algoritma NBTree maupun dengan algoritma C4.5 untuk memprediksi lama studi mahasiswa. Selain itu, penelitian ini juga bertujuan untuk membandingkan hasil yang diperoleh dari penggunaan algoritma NBTree dan C4.5 dilihat dari obyektifitas penentuan kelas lama studi dan akurasi yang diperoleh. 2. Teori Yang Digunakan 2.1 Teknik Klasifikasi Klasifikasi adalah salah satu teknik dalam menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui. Model yang diturunkan didasarkan pada analisis dari pelatihan data. Proses klasifikasi dibagi menjadi dua fase yaitu pelatihan dan pengujian. Pada fase pelatihan, data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk

mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui [2]. 2.2 Decision Tree Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu [3]. Terdapat 3 jenis node yang terdapat pada decision tree, yaitu: a. Root node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Internal Node, merupakan node percabangan. Pada node ini terdapat percabangan. Pada node ini terdapat satu input dan memiliki output minimal dua. c. Leaf node atau terminal node, merupakan node akhir. Pada node ini terdapat satu input dan tidak mempunyai output. 2.3 Algoritma NBTree Salah satu algoritma pembentukan decision tree adalah algoritma NBTree. Algoritma NBTree merupakan algoritma hasil penggabungan teknik decision tree classifier dengan naïve-bayes classifier. Algoritma ini akan membangun decision tree dengan node yang mengandung univariate split seperti decision tree biasa, tetapi pada node leaf terkandung naïve-bayes classifier [4]. 2.4 Naïve Bayes Classifier P(C l X) = = (1) Class prior probability dapat diduga dengan P(C l )=, dimana s adalah jumlah dari data l pelatihan dengan kelas C l dan s adalah jumlah total data pelatihan. Naive Bayes menduga conditionally independent antara satu atribut dan atribut lainnya dengan menggunakan persamaan (2). P(X Cl)= (2) P(x C ) dapat diduga dari data. Sehingga dengan k l menggunakan persamaan (3) dapat diperoleh nilai peluang P(Cl X). P(Cl X)= (3) Untuk menggolongkan sebuah data X yang belum diketahui kelasnya, P(C l X) dievaluasi untuk setiap kelas C l. Data X akan dimasukkan dalam kelas C l jika dan hanya jika P(C l X) > P(Cj X), 1 j m, j l [1]. 2.5 Algoritma C4.5 Algoritma C4.5 adalah pengembangan dari algoritma ID3 untuk membangkitkan pohon keputusan (decision tree). Algoritma C4.5 secara rekursif mengunjungi setiap decision node, memilih pemisahan (split) atribut yang optimal, sampai tidak ada pemisahan (split) atribut yang memungkinkan. Algoritma C4.5 menggunakan konsep dari information gain atau entropy reduction untuk memilih pemisahan (split) yang optimal dengan memilih split yang memiliki information gain terbesar [5]. 2.6 Confusion Matrix Confusion matrix merupakan sebuah tabel yang berisi jumlah banyaknya test record yang diprediksi secara benar dan tidak benar oleh decision tree. Bentuk dari confusion matrix terlihat pada Tabel 1. Setiap entri pada f ij pada tabel ini menyatakan banyaknya record dari kelas i yang diprediksi ke dalam kelas j. Klasifikasi Naive Bayes dapat diuraikan sebagai berikut : Asumsi bahwa setiap instance direpresentasikan dengan sebuah vektor X=(x 1,x 2,,x n ), dimana x 1,x 2,,xn adalah ukuran dari atribut A 1,A 2,,A n. Andaikan terdapat kelas sejumlah m yaitu C 1,C 2,,C m. Diberikan suatu instance X yang belum diketahui kelasnya, dengan menggunakan teorema Bayesian, posterior probability dari X terhadap C l ditunjukkan pada persamaan (1). Tabel 1. Confussion Matrix aktual = 1 = 2 yang diprediksi = 1 = 0 f 11 f 11 f 01 f 00 133

Informasi dari confusion matrix diperlukan untuk menentukan kinerja suatu model klasifikasi (decision tree). Informasi ini dapat diringkas ke dalam suatu nilai seperti akurasi [6]. banyaknya prediksi yang benar akurasi= total banyaknya prediksi f 11 + f 00 = f 11 + f 10 + f 01 + f 00 3. Metode Penelitian Data yang digunakan dalam penelitian ini merupakan data akademik, data cuti kuliah, dan data ketepatan waktu lulus dari alumni tahun 2013-2015 di STMIK Indonesia. Data akademik terdiri dari data nilai mata kuliah yang sudah diambil oleh mahasiswa. Penelitian ini dilakukan secara bertahap sesuai tahapan yang telah disusun pada Gambar 1. Nilai threshold yang digunakan pada penelitian ini adalah 70%. kuliah yang terdapat di semester 1 sampai 4 saja yang diambil sebagai atribut. Karena hanya mata kuliah semester 1 sampai dengan semester 4 saja yang sudah diketahui nilainya saat mahasiswa memasuki semester 5. 2. Pembersihan data Pada data dilakukan pembersihan data untuk memperbaiki data yang hilang atau kosong, data yang mengandung noise, dan data yang tidak konsisten. 3. Integrasi data Pada tahap ini dilakukan penggabungan data dari berbagai sumber ke suatu basis data. Kemudian dilakukan proses reduksi data, dimana data yang tidak relevan dan data yang redudansi dibuang. 4. Transformasi data Proses perubahan bentuk ke dalam bentuk data yang tepat agar dapat digunakan untuk proses selanjutnya. Proses ini meliputi penyeragaman nama atribut. 3.2 Pembagian Data Latih dan Data Uji Proses pembagian data menjadi data latih dan data uji dilakukan dengan menggunakan 10 fold cross validation. Data latih akan digunakan untuk membentuk decision tree. Sedangkan data uji akan digunakan untuk menghitung akurasi yang diperoleh dari decision tree. Gambar 1. Metode Penelitian 3.1 Praproses Data Data dari sumber dikumpulkan dan dilakukan tahapan praproses data sebagai berikut : 1. Seleksi data Pada tahap ini, dilakukan pengelompokkan mahasiswa berdasarkan lama studinya dan memilih atribut-atribut yang sesuai dengan kategori permasalahan. Prediksi ini akan dilakukan pada saat mahasiswa memasuki semester 5, maka hanya mata 134 3.3 Klasifikasi Pada proses klasifikasi dilakukan pembentukan decision tree menggunakan metode decision tree. Kemudian dilakukan penghitungan akurasi dari decision tree yang terbentuk. Dari proses klasifikasi ini akan diperoleh decision tree yang dapat digunakan untuk mengisi label kelas dari data baru yang belum diketahui label kelasnya. Pembentukan decision tree ini dilakukan bergantian dengan menggunakan algoritma NBTree dan C4.5. Sehingga akan diperoleh 2 decision tree. 3.4 Penghitungan Akurasi Tahap ini adalah tahap untuk menghitung akurasi dari decision tree yang diperoleh dari proses klasifikasi. Metode yang digunakan dalam proses penghitungan akurasi ini adalah dengan menggunakan confussion matrix. Jika hasil akurasi yang diperoleh sudah memenuhi nilai threshold, maka decision tree itu akan digunakan untuk menentukan label kelas dari data baru. Akan tetapi jika akurasi yang diperoleh belum memenuhi nilai threshold, maka proses klasifikasi akan diulang dengan menggunakan proporsi data latih dan data uji yang berbeda atau mengulang tahap praproses dengan objek yang berbeda. 4. Hasil Yang Diperoleh

4.1 Praproses Data Data yang digunakan pada penelitian ini adalah data nilai akademik mahasiswa, data cuti akademik, dan data ketepatan waktu lulus mahasiswa program studi sistem informasi tahun 2013 2015. Tidak semua data yang terdapat pada data nilai akademik mahasiswa digunakan pada penelitian ini. Setelah melalui tahap pemilihan atribut, terdapat 36 atribut yang digunakan pada penelitian ini. Atribut itu terdiri dari 34 mata kuliah semester 1 sampai semester 4, cuti kuliah dan ketepatan lulus studi. Atribut ketepatan lulus studi menjadi kelas dari data yang digunakan pada penelitian ini. Proses selanjutnya adalah proses pembersihan data. Salah satu tujuan proses pembersihan data adalah untuk mengganti data yang kosong. Jika terdapat niali atribut yang kosong untuk suatu record, akan diganti dengan nilai T. Dimana nilai T ini berarti mahasiswa tersebut tidak mengambil mata kuliah tersebut. Hal ini terjadi karena terdapat perbedaan kurikulum antara mahasiswa yang lulus tahun 2013 dengan mahasiswa yang lulus tahun 2014 2015. Selain itu nilai masing-masing atribut mata kuliah terdiri dari A, B, C, D, dan T. Tidak terdapat nilai E, dikarenakan salah satu persyaratan sidang skripsi adalah tidak terdapat nilai E. Sehingga mahasiswa yang sudah lulus, otomatis tidak memiliki nilai E. Kemudian masing-masing data tersebut digabungkan menjadi satu. 4.2 Penentuan Data Latih dan Data Uji Data yang sudah melalui tahap praproses akan dibagi menjadi data latih dan data uji. Pada penelitian ini digunakan 10-fold cross validation untuk membagi data latih dan data uji. Data yang sudah melalui tahap praproses berjumlah record. Data ini dibagi ke dalam 10 kelompok. Proses klasifikasi akan dilakukan sebanyak 10 kali. Pada setiap proses klasifikasi, 9 kelompok akan menjadi data latih dan 1 kelompok akan menjadi data uji. Setiap kelompok akan pernah manjadi data uji satu kali dan menjadi data latih sembilan kali. 4.3 Klasifikasi Proses klasifikasi dilakukan dalam dua tahap, yaitu pembentukan decision tree dan penghitungan akurasi dari decision tree yang terbentuk. Pembentukan decision tree dilakukan dengan menggunakan algoritma NBTree dan C4.5. Gambar 2 merupakan decision tree yang dibentuk dengan menggunakan Algoritma NBTree. Pada decision tree yang dihasilkan, diketahui bahwa tidak semua atribut yang digunakan muncul sebagai node pada decision tree. Gambar 2. Decision Tree Data Lama Studi dengan Menggunakan Algoritma NBTree Mahasiswa Program Studi Sistem Informasi STMIK Indonesia Dari gambar 2 di atas, dapat dilihat bahwa dari 35 atribut yang digunakan, hanya 3 atribut yang muncul pada decision tree tersebut, yaitu cuti kuliah, MKB5203 (Mata kuliah Sistem Operasi) dan MPB2102 (Mata kuliah Komputer dan Masyarakat). Leaf node yang dihasilkan dari decision tree yang dibentuk dari algoritma NBTree merupakan sebuah model naïve bayes, dimana model ini berisi peluang untuk masing-masing kelas, dan peluang setiap atribut terhadap masing-masing kelas. Sehingga penentuan seorang mahasiswa termasuk ke dalam kelas lama studi tepat waktu atau kelas lama studi tidak tepat waktu tetap dipengaruhi oleh semua atribut. 135

Gambar 3 merupakan decision tree yang didapatkan dengan menggunakan algoritma C4.5. Pada decision tree tersebut, dapat dilihat bahwa terdapat 8 atribut yang muncul. Atribut tersebut yaitu cuti kuliah, MBB7102 (Kecakapan Antar Personal), MKB 7203 (Pemrograman Java), MKB5102 (Metodologi Penelitian), MPB 5102(Bisnis Teknologi Informasi), MPB 3102 (Pengetahuan Bisnis), MKK 5103 (Sains Manajemen) dan MKB 5303 (Sistem Basis Data). Leaf node yang dihasilkan dari decision tree yang menggunakan algoritma C4.5 ini berbeda dengan yang dihasilkan oleh leaf node pada decision tree yang dihasilkan menggunakan algoritma NBTree. Leaf node pada decision tree ini langsung berisi salah satu kelas. Pada Gambar 3 dapat dilihat bahwa leaf node berisi A atau B. Di sini A merepresentasikan kelas dan B merepresentasikan kelas Tidak. Hal ini dilakukan karena apabila leaf node nya menggunakan kata dan Tidak, decision tree nya menjadi sangat besar dan tidak dapat dilihat dengan jelas. Dari decision tree pada Gambar 3, dapat dilihat bahwa hanya 8 atribut ini yang mempengaruhi penentuan seorang mahasiswa termasuk ke dalam kelas lama studi yang mana. Sedangkan atribut lain yang tidak muncul di decision tree tidak memiliki pengaruh. Gambar 3. Decision Tree Data Lama Studi dengan Menggunakan Algoritma C4.5 Dari kedua decision tree di atas, dapat dilihat bahwa decision tree yang dihasilkan menggunakan algoritma NBTree lebih objektif dalam menentukan kelas lama studi mahasiswa. Hal ini dikarenakan untuk menentukkannya diperlukan perhitungan Naïve Bayes dengan melibatkan seluruh atribut. Tidak hanya atribut yang muncul di decision tree saja. Atribut yang muncul pada decision tree akan digunakan untuk menentukan model naïve bayes mana yang akan digunakan. Sedangkan decision tree yang dihasilkan dengan menggunakan algoritma C4.5 kurang obyektif karena hanya menggunakan atribut yang muncul pada decision tree saja dalam penentuan kelas lama studi mahasiswa. S 4.4 Akurasi Yang Diperoleh Dari Decision tree Yang Terbentuk Confusion matrix yang diperoleh dari decision tree pada Gambar 2 terdapat pada Tabel 2. Tabel 2. Confusion matrix dari decision tree dengan menggunakan Algoritma NBTree 136 Aktual = = Tidak = yang diprediksi = Tidak 260 45 95 165 Penghitungan akurasi dengan menggunakan confusion matrix adalah sebagai berikut: banyaknya prediksi yang benar akurasi= total banyaknya prediksi Dengan menggunakan data pada tabel confusion matrix, dapat dihitung akurasi dari decision tree. 260 + 165 akurasi = = 425 =0,7522

Hasil akurasi yang diperoleh adalah 75,22%. Confusion matrix yang diperoleh dari decision tree pada Gambar 3 terdapat pada Tabel 3. Tabel 3. Confusion matrix dari decision tree dengan menggunakan Algoritma C4.5 = yang diprediksi = Tidak = 240 65 = Aktual Tidak 100 165 Dengan menggunakan data pada tabel 3, dapat dihitung akurasi dari decision tree. 240 + 160 akurasi = = 400 =0,70965 Hasil akurasi yang diperoleh adalah 70,97%. Nilai threshold yang digunakan adalah 70%. Sehingga nilai akurasi yang diperoleh dari kedua decision tree tersebut telah memenuhi threshold yang diberikan. Akan tetapi, akurasi dari decision tree yang diperoleh dengan menggunakan algoritma NBTree lebih tinggi dibandingkan akurasi dari decision tree decision tree yang diperoleh dengan menggunakan Algoritma C4.5. DaftarPustaka: [1] Deng WW, Peng H, 2006, Research on A Naive Bayesian Based Short Message Filtering System, In Proceeding of the Fifth International Conference on Machine Learning and Cybernetics. [2] Han J, Kamber M, 2006, Data Mining : Concepts and Techniques, San Francisco, Morgan Kaufman Publisher. [3] Hastuti K, 2012, Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi Mahasiswa Non Aktif, Semarang : Seminar Nasional Teknologi Informasi & Komunikasi Terapan 2012. [4] Kohavi R, 1996, Scaling Up the Accuracy of Naïve-Bayes Classifiers : a Decision-Tree Hybrid. [5] Larose, T Daniel, 2005, Discovering Knowledge In Data : An Introduction To Data Mining, New Jersey, Wiley-Interscience. [6] Tan P, Michael S, dan Vipin K, 2005., Introduction to Data mining, Boston, Pearson Education, Inc. 5. Kesimpulan Berdasarkan penelitian yang telah dilakukan, dapat ditarik kesimpulan sebagai berikut : 1. Decision tree yang terbentuk menggunakan Algoritma NBTree memiliki akurasi 75,22%. Sedangkan decision tree yang terbentuk menggunakan algoritma C4.5 memiliki akurasi 70,97%. 2. Decision tree yang diperoleh dengan menggunakan Algoritma NBTree lebih obyektif dalam penentuan kelas lama studi mahasiswa. 137