PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id, 2 prita@stmik-indonesia.ac.id Abstrak Program studi perlu untuk mengetahui mana saja mahasiswa yang berpotensi mengalami lama studi tidak tepat waktu. Akan tetapi, selama ini program studi kesulitan untuk memprediksi lama studi mahasiswa. Data lama studi alumni yang terdiri dari data nilai akademik, data cuti kuliah, dan data ketepatan waktu lulus dapat diolah menggunakan teknik klasifikasi untuk menghasilkan decision tree. Dimana decision tree tersebut dapat digunakan untuk memprediksi lama studi mahasiswa. Penelitian ini bertujuan untuk membentuk decision tree dari data lama studi mahasiswa. Selain itu juga bertujuan untuk membandingkan penggunaan algoritma NBTree dan C4.5 pada data lama studi mahasiswa. Hasil yang diperoleh dari penelitian ini adalah kedua algoritma tersebut dapat digunakan untuk membentuk decision tree, akan tetapi algoritma NBTree memberikan hasil yang lebihobyektif dalam penentuan lama studi mahasiswa dan akurasi yang lebih tinggi. Kata kunci : Data lama studi mahasiswa, decision tree, NBTree, C4.5 1. Pendahuluan Lama studi mahasiswa merupakan salah satu indikator penilaian program studi. Semakin banyak mahasiswa yang memiliki lama studi tepat waktu, maka semakin baik penilaian program studi tersebut. Masa studi mahasiswa telah diatur dalam ketetapan Kementerian Pendidikan dan Kebudayaan Direktorat Jenderal Pendidikan Tinggi tentang Sistem Pendidikan Tinggi yang menyebutkan bahwa untuk memenuhi standar kompetensi lulusan bagi mahasiswa program sarjana (S1) beban wajib yang harus ditempuh adalah paling sedikit 144-160 satuan kredit semester ( sks ) dengan masa studi selama 8-10 semester atau 4 5 tahun. Jika masa studi lebih dari 10 semester, maka dapat dikatakan bahwa lama studi mahasiswa tersebut tidak tepat waktu. Akan tetapi, saat ini masih banyak perguruan tinggi yang memiliki jumlah yang cukup besar untuk lulusan dengan lama studi tidak tepat waktu. Salah satunya adalah STMIK Indonesia, dimana sampai tahun 2016, jumlah lulusan dengan lama studi tidak tepat waktu mencapai 20%. Padahal hal ini dapat dicegah jika program studi dapat mengetahui lebih awal mahasiswa mana saja yang berpotensi mengalami lama studi tidak tepat waktu. Akan tetapi saat ini program studi kesulitan untuk memprediksi lama studi mahasiswa. Data akademik serta data ketepatan waktu lulus dari alumni yang dimiliki STMIK Indonesia berpotensi untuk digunakan dalam memprediksi lama 132 studi mahasiswa. Data tersebut dapat diolah dengan teknik klasifikasi sehingga menghasilkan decision tree. Dimana decision tree yang terbentuk bisa digunakan untuk memprediksi lama studi mahasiswa. Terdapat banyak algoritma klasifikasi yang dapat digunakan. Pada penelitian ini digunakan algoritma NBTree dan C4.5. Penelitian ini bertujuan untuk membangun decision tree dengan menggunakan algoritma NBTree maupun dengan algoritma C4.5 untuk memprediksi lama studi mahasiswa. Selain itu, penelitian ini juga bertujuan untuk membandingkan hasil yang diperoleh dari penggunaan algoritma NBTree dan C4.5 dilihat dari obyektifitas penentuan kelas lama studi dan akurasi yang diperoleh. 2. Teori Yang Digunakan 2.1 Teknik Klasifikasi Klasifikasi adalah salah satu teknik dalam menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui. Model yang diturunkan didasarkan pada analisis dari pelatihan data. Proses klasifikasi dibagi menjadi dua fase yaitu pelatihan dan pengujian. Pada fase pelatihan, data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk
mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui [2]. 2.2 Decision Tree Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu [3]. Terdapat 3 jenis node yang terdapat pada decision tree, yaitu: a. Root node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Internal Node, merupakan node percabangan. Pada node ini terdapat percabangan. Pada node ini terdapat satu input dan memiliki output minimal dua. c. Leaf node atau terminal node, merupakan node akhir. Pada node ini terdapat satu input dan tidak mempunyai output. 2.3 Algoritma NBTree Salah satu algoritma pembentukan decision tree adalah algoritma NBTree. Algoritma NBTree merupakan algoritma hasil penggabungan teknik decision tree classifier dengan naïve-bayes classifier. Algoritma ini akan membangun decision tree dengan node yang mengandung univariate split seperti decision tree biasa, tetapi pada node leaf terkandung naïve-bayes classifier [4]. 2.4 Naïve Bayes Classifier P(C l X) = = (1) Class prior probability dapat diduga dengan P(C l )=, dimana s adalah jumlah dari data l pelatihan dengan kelas C l dan s adalah jumlah total data pelatihan. Naive Bayes menduga conditionally independent antara satu atribut dan atribut lainnya dengan menggunakan persamaan (2). P(X Cl)= (2) P(x C ) dapat diduga dari data. Sehingga dengan k l menggunakan persamaan (3) dapat diperoleh nilai peluang P(Cl X). P(Cl X)= (3) Untuk menggolongkan sebuah data X yang belum diketahui kelasnya, P(C l X) dievaluasi untuk setiap kelas C l. Data X akan dimasukkan dalam kelas C l jika dan hanya jika P(C l X) > P(Cj X), 1 j m, j l [1]. 2.5 Algoritma C4.5 Algoritma C4.5 adalah pengembangan dari algoritma ID3 untuk membangkitkan pohon keputusan (decision tree). Algoritma C4.5 secara rekursif mengunjungi setiap decision node, memilih pemisahan (split) atribut yang optimal, sampai tidak ada pemisahan (split) atribut yang memungkinkan. Algoritma C4.5 menggunakan konsep dari information gain atau entropy reduction untuk memilih pemisahan (split) yang optimal dengan memilih split yang memiliki information gain terbesar [5]. 2.6 Confusion Matrix Confusion matrix merupakan sebuah tabel yang berisi jumlah banyaknya test record yang diprediksi secara benar dan tidak benar oleh decision tree. Bentuk dari confusion matrix terlihat pada Tabel 1. Setiap entri pada f ij pada tabel ini menyatakan banyaknya record dari kelas i yang diprediksi ke dalam kelas j. Klasifikasi Naive Bayes dapat diuraikan sebagai berikut : Asumsi bahwa setiap instance direpresentasikan dengan sebuah vektor X=(x 1,x 2,,x n ), dimana x 1,x 2,,xn adalah ukuran dari atribut A 1,A 2,,A n. Andaikan terdapat kelas sejumlah m yaitu C 1,C 2,,C m. Diberikan suatu instance X yang belum diketahui kelasnya, dengan menggunakan teorema Bayesian, posterior probability dari X terhadap C l ditunjukkan pada persamaan (1). Tabel 1. Confussion Matrix aktual = 1 = 2 yang diprediksi = 1 = 0 f 11 f 11 f 01 f 00 133
Informasi dari confusion matrix diperlukan untuk menentukan kinerja suatu model klasifikasi (decision tree). Informasi ini dapat diringkas ke dalam suatu nilai seperti akurasi [6]. banyaknya prediksi yang benar akurasi= total banyaknya prediksi f 11 + f 00 = f 11 + f 10 + f 01 + f 00 3. Metode Penelitian Data yang digunakan dalam penelitian ini merupakan data akademik, data cuti kuliah, dan data ketepatan waktu lulus dari alumni tahun 2013-2015 di STMIK Indonesia. Data akademik terdiri dari data nilai mata kuliah yang sudah diambil oleh mahasiswa. Penelitian ini dilakukan secara bertahap sesuai tahapan yang telah disusun pada Gambar 1. Nilai threshold yang digunakan pada penelitian ini adalah 70%. kuliah yang terdapat di semester 1 sampai 4 saja yang diambil sebagai atribut. Karena hanya mata kuliah semester 1 sampai dengan semester 4 saja yang sudah diketahui nilainya saat mahasiswa memasuki semester 5. 2. Pembersihan data Pada data dilakukan pembersihan data untuk memperbaiki data yang hilang atau kosong, data yang mengandung noise, dan data yang tidak konsisten. 3. Integrasi data Pada tahap ini dilakukan penggabungan data dari berbagai sumber ke suatu basis data. Kemudian dilakukan proses reduksi data, dimana data yang tidak relevan dan data yang redudansi dibuang. 4. Transformasi data Proses perubahan bentuk ke dalam bentuk data yang tepat agar dapat digunakan untuk proses selanjutnya. Proses ini meliputi penyeragaman nama atribut. 3.2 Pembagian Data Latih dan Data Uji Proses pembagian data menjadi data latih dan data uji dilakukan dengan menggunakan 10 fold cross validation. Data latih akan digunakan untuk membentuk decision tree. Sedangkan data uji akan digunakan untuk menghitung akurasi yang diperoleh dari decision tree. Gambar 1. Metode Penelitian 3.1 Praproses Data Data dari sumber dikumpulkan dan dilakukan tahapan praproses data sebagai berikut : 1. Seleksi data Pada tahap ini, dilakukan pengelompokkan mahasiswa berdasarkan lama studinya dan memilih atribut-atribut yang sesuai dengan kategori permasalahan. Prediksi ini akan dilakukan pada saat mahasiswa memasuki semester 5, maka hanya mata 134 3.3 Klasifikasi Pada proses klasifikasi dilakukan pembentukan decision tree menggunakan metode decision tree. Kemudian dilakukan penghitungan akurasi dari decision tree yang terbentuk. Dari proses klasifikasi ini akan diperoleh decision tree yang dapat digunakan untuk mengisi label kelas dari data baru yang belum diketahui label kelasnya. Pembentukan decision tree ini dilakukan bergantian dengan menggunakan algoritma NBTree dan C4.5. Sehingga akan diperoleh 2 decision tree. 3.4 Penghitungan Akurasi Tahap ini adalah tahap untuk menghitung akurasi dari decision tree yang diperoleh dari proses klasifikasi. Metode yang digunakan dalam proses penghitungan akurasi ini adalah dengan menggunakan confussion matrix. Jika hasil akurasi yang diperoleh sudah memenuhi nilai threshold, maka decision tree itu akan digunakan untuk menentukan label kelas dari data baru. Akan tetapi jika akurasi yang diperoleh belum memenuhi nilai threshold, maka proses klasifikasi akan diulang dengan menggunakan proporsi data latih dan data uji yang berbeda atau mengulang tahap praproses dengan objek yang berbeda. 4. Hasil Yang Diperoleh
4.1 Praproses Data Data yang digunakan pada penelitian ini adalah data nilai akademik mahasiswa, data cuti akademik, dan data ketepatan waktu lulus mahasiswa program studi sistem informasi tahun 2013 2015. Tidak semua data yang terdapat pada data nilai akademik mahasiswa digunakan pada penelitian ini. Setelah melalui tahap pemilihan atribut, terdapat 36 atribut yang digunakan pada penelitian ini. Atribut itu terdiri dari 34 mata kuliah semester 1 sampai semester 4, cuti kuliah dan ketepatan lulus studi. Atribut ketepatan lulus studi menjadi kelas dari data yang digunakan pada penelitian ini. Proses selanjutnya adalah proses pembersihan data. Salah satu tujuan proses pembersihan data adalah untuk mengganti data yang kosong. Jika terdapat niali atribut yang kosong untuk suatu record, akan diganti dengan nilai T. Dimana nilai T ini berarti mahasiswa tersebut tidak mengambil mata kuliah tersebut. Hal ini terjadi karena terdapat perbedaan kurikulum antara mahasiswa yang lulus tahun 2013 dengan mahasiswa yang lulus tahun 2014 2015. Selain itu nilai masing-masing atribut mata kuliah terdiri dari A, B, C, D, dan T. Tidak terdapat nilai E, dikarenakan salah satu persyaratan sidang skripsi adalah tidak terdapat nilai E. Sehingga mahasiswa yang sudah lulus, otomatis tidak memiliki nilai E. Kemudian masing-masing data tersebut digabungkan menjadi satu. 4.2 Penentuan Data Latih dan Data Uji Data yang sudah melalui tahap praproses akan dibagi menjadi data latih dan data uji. Pada penelitian ini digunakan 10-fold cross validation untuk membagi data latih dan data uji. Data yang sudah melalui tahap praproses berjumlah record. Data ini dibagi ke dalam 10 kelompok. Proses klasifikasi akan dilakukan sebanyak 10 kali. Pada setiap proses klasifikasi, 9 kelompok akan menjadi data latih dan 1 kelompok akan menjadi data uji. Setiap kelompok akan pernah manjadi data uji satu kali dan menjadi data latih sembilan kali. 4.3 Klasifikasi Proses klasifikasi dilakukan dalam dua tahap, yaitu pembentukan decision tree dan penghitungan akurasi dari decision tree yang terbentuk. Pembentukan decision tree dilakukan dengan menggunakan algoritma NBTree dan C4.5. Gambar 2 merupakan decision tree yang dibentuk dengan menggunakan Algoritma NBTree. Pada decision tree yang dihasilkan, diketahui bahwa tidak semua atribut yang digunakan muncul sebagai node pada decision tree. Gambar 2. Decision Tree Data Lama Studi dengan Menggunakan Algoritma NBTree Mahasiswa Program Studi Sistem Informasi STMIK Indonesia Dari gambar 2 di atas, dapat dilihat bahwa dari 35 atribut yang digunakan, hanya 3 atribut yang muncul pada decision tree tersebut, yaitu cuti kuliah, MKB5203 (Mata kuliah Sistem Operasi) dan MPB2102 (Mata kuliah Komputer dan Masyarakat). Leaf node yang dihasilkan dari decision tree yang dibentuk dari algoritma NBTree merupakan sebuah model naïve bayes, dimana model ini berisi peluang untuk masing-masing kelas, dan peluang setiap atribut terhadap masing-masing kelas. Sehingga penentuan seorang mahasiswa termasuk ke dalam kelas lama studi tepat waktu atau kelas lama studi tidak tepat waktu tetap dipengaruhi oleh semua atribut. 135
Gambar 3 merupakan decision tree yang didapatkan dengan menggunakan algoritma C4.5. Pada decision tree tersebut, dapat dilihat bahwa terdapat 8 atribut yang muncul. Atribut tersebut yaitu cuti kuliah, MBB7102 (Kecakapan Antar Personal), MKB 7203 (Pemrograman Java), MKB5102 (Metodologi Penelitian), MPB 5102(Bisnis Teknologi Informasi), MPB 3102 (Pengetahuan Bisnis), MKK 5103 (Sains Manajemen) dan MKB 5303 (Sistem Basis Data). Leaf node yang dihasilkan dari decision tree yang menggunakan algoritma C4.5 ini berbeda dengan yang dihasilkan oleh leaf node pada decision tree yang dihasilkan menggunakan algoritma NBTree. Leaf node pada decision tree ini langsung berisi salah satu kelas. Pada Gambar 3 dapat dilihat bahwa leaf node berisi A atau B. Di sini A merepresentasikan kelas dan B merepresentasikan kelas Tidak. Hal ini dilakukan karena apabila leaf node nya menggunakan kata dan Tidak, decision tree nya menjadi sangat besar dan tidak dapat dilihat dengan jelas. Dari decision tree pada Gambar 3, dapat dilihat bahwa hanya 8 atribut ini yang mempengaruhi penentuan seorang mahasiswa termasuk ke dalam kelas lama studi yang mana. Sedangkan atribut lain yang tidak muncul di decision tree tidak memiliki pengaruh. Gambar 3. Decision Tree Data Lama Studi dengan Menggunakan Algoritma C4.5 Dari kedua decision tree di atas, dapat dilihat bahwa decision tree yang dihasilkan menggunakan algoritma NBTree lebih objektif dalam menentukan kelas lama studi mahasiswa. Hal ini dikarenakan untuk menentukkannya diperlukan perhitungan Naïve Bayes dengan melibatkan seluruh atribut. Tidak hanya atribut yang muncul di decision tree saja. Atribut yang muncul pada decision tree akan digunakan untuk menentukan model naïve bayes mana yang akan digunakan. Sedangkan decision tree yang dihasilkan dengan menggunakan algoritma C4.5 kurang obyektif karena hanya menggunakan atribut yang muncul pada decision tree saja dalam penentuan kelas lama studi mahasiswa. S 4.4 Akurasi Yang Diperoleh Dari Decision tree Yang Terbentuk Confusion matrix yang diperoleh dari decision tree pada Gambar 2 terdapat pada Tabel 2. Tabel 2. Confusion matrix dari decision tree dengan menggunakan Algoritma NBTree 136 Aktual = = Tidak = yang diprediksi = Tidak 260 45 95 165 Penghitungan akurasi dengan menggunakan confusion matrix adalah sebagai berikut: banyaknya prediksi yang benar akurasi= total banyaknya prediksi Dengan menggunakan data pada tabel confusion matrix, dapat dihitung akurasi dari decision tree. 260 + 165 akurasi = = 425 =0,7522
Hasil akurasi yang diperoleh adalah 75,22%. Confusion matrix yang diperoleh dari decision tree pada Gambar 3 terdapat pada Tabel 3. Tabel 3. Confusion matrix dari decision tree dengan menggunakan Algoritma C4.5 = yang diprediksi = Tidak = 240 65 = Aktual Tidak 100 165 Dengan menggunakan data pada tabel 3, dapat dihitung akurasi dari decision tree. 240 + 160 akurasi = = 400 =0,70965 Hasil akurasi yang diperoleh adalah 70,97%. Nilai threshold yang digunakan adalah 70%. Sehingga nilai akurasi yang diperoleh dari kedua decision tree tersebut telah memenuhi threshold yang diberikan. Akan tetapi, akurasi dari decision tree yang diperoleh dengan menggunakan algoritma NBTree lebih tinggi dibandingkan akurasi dari decision tree decision tree yang diperoleh dengan menggunakan Algoritma C4.5. DaftarPustaka: [1] Deng WW, Peng H, 2006, Research on A Naive Bayesian Based Short Message Filtering System, In Proceeding of the Fifth International Conference on Machine Learning and Cybernetics. [2] Han J, Kamber M, 2006, Data Mining : Concepts and Techniques, San Francisco, Morgan Kaufman Publisher. [3] Hastuti K, 2012, Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi Mahasiswa Non Aktif, Semarang : Seminar Nasional Teknologi Informasi & Komunikasi Terapan 2012. [4] Kohavi R, 1996, Scaling Up the Accuracy of Naïve-Bayes Classifiers : a Decision-Tree Hybrid. [5] Larose, T Daniel, 2005, Discovering Knowledge In Data : An Introduction To Data Mining, New Jersey, Wiley-Interscience. [6] Tan P, Michael S, dan Vipin K, 2005., Introduction to Data mining, Boston, Pearson Education, Inc. 5. Kesimpulan Berdasarkan penelitian yang telah dilakukan, dapat ditarik kesimpulan sebagai berikut : 1. Decision tree yang terbentuk menggunakan Algoritma NBTree memiliki akurasi 75,22%. Sedangkan decision tree yang terbentuk menggunakan algoritma C4.5 memiliki akurasi 70,97%. 2. Decision tree yang diperoleh dengan menggunakan Algoritma NBTree lebih obyektif dalam penentuan kelas lama studi mahasiswa. 137