PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI

Transkripsi

1 PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2009 iv

2 PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2009 v

3 ABSTRACT YUNI ARTI. Determining First year IPB s Student Success Level using Decision Tree and Bayesian Classifier. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA GIRI. Tingkat Persiapan Bersama (TPB) or Collective s Preparation Level is the term that is used to call the first-year bachelor degree students in IPB (Bogor Agricultural University). IPB decides these firstyear students graduation from their academic result in the end of TPB year. The students can continue to the next education year if they complete many graduation requirements that was decided before. The success of the first year IPB s students can be looked from their academic graduation result. One of techniques can be used to determine student success is data mining. Data mining is used to build classifier that shows the success level of the first year student of IPB. This research aimed to develop classifier to describe the level of IPB s students success and predict the new student of IPB. This research uses two data mining method, that is decision tree and Bayesian classifier (naïve Bayes). Decision tree is used to describe the level of IPB s students success and to get crusial factor that determine IPB s students success in their first year. Naïve Bayes is used to predict the new student of IPB. The results this research are a probabilistic classifier naïve bayes with accuracy 57,160 % and a decision tree classifer that contains 3 classifiaction rules with accuracy 63,542%. According to the rules that we got from decision tree, the factor that influence the first year IPB student 2007/2008 is point of high school final examination. Keywords: data mining, decision tree, naïve bayes vi

4 Judul : Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB Menggunakan Induksi Pohon Keputusan dan Bayesian Classifier Nama : Yuni Arti NIM : G Menyetujui: Pembimbing I, Pembimbing II, Imas Sukaesih Sitanggang, S.Si., M.Kom. NIP Endang Purnama Giri, S.Kom., M.Kom. NIP Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. Drh. Hasim, DEA NIP Tanggal Lulus: vii

5 PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan karunia-nya sehingga tugas akhir dengan judul Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB menggunakan Induksi Pohon Keputusan dan Bayesian Classifier dapat diselesaikan. Penelitian ini dilaksanakan mulai Januari 2009 sampai dengan Juni 2009, bertempat di Departemen Ilmu Komputer IPB. Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain: 1 Kepada Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing pertama dan Bapak Endang Purnama Giri, S.Kom., M.Kom. selaku pembimbing kedua atas bimbingan dan arahannya selama pengerjaan tugas akhir. 2 Kepada Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku penguji tugas akhir. 3 Kepada bapak, mama, Mbak Ayu, Detri, Irvan Harimena, serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya. 4 Kepada teman seperjuangan sekaligus sahabat, Ninon yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat. 5 Kepada sahabat-sahabat harmony Veve, Cumil, Karin, Ntie, dan Ninon atas semangat dan dukungannya. 6 Kepada Anindra, Dimas, dan Mego ilkomerz 42, serta Wiwid dari statistika 42 atas bantuannya dalam persiapan seminar dan sidang. 7 Kepada teman satu bimbingan, Lena, Prita, dan Fuad. 8 Kepada teman sekosan Perwira 46, Dewy, Yani, Inda, Uci, Mbak Ria, Mbak Deby, Diah, Gina, dan Aurora. 9 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini. Semoga karya ilmiah ini bermanfaat. Bogor, Juni 2009 Yuni Arti viii

6 RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 2 Juni 1987 sebagai anak kedua dari tiga bersaudara dengan ayah bernama Tholib dan ibu bernama Sutanti. Pada tahun 2005 lulus dari Sekolah Menengah Atas (SMA) Negeri 98 Jakarta dan pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat I, Tingkat Persiapan Bersama di IPB, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama menjalani perkuliahan, penulis pernah bergabung dalam organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) pada tahun 2006 sampai dengan tahun 2007 sebagai staf Kesekretariatan. Pada tahun 2008, penulis melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi selama dua bulan. ix

7 DAFTAR ISI Halaman DAFTAR TABEL... v DAFTAR GAMBAR... v DAFTAR LAMPIRAN... v PENDAHULUAN Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 Manfaat... 1 TINJAUAN PUSTAKA Klasifikasi... 1 Pohon Keputusan... 2 Bayesian Classifier... 3 Naïve Bayes Classifier... 3 M-estimate... 3 Confusion Matrix... 4 Koefisien Korelasi Peringkat Spearman... 4 Uji Kebebasan Chi-Square... 5 METODE PENELITIAN Data... 5 Metode... 6 Lingkungan Pengembangan... 9 HASIL DAN PEMBAHASAN Integrasi dan Pembersihan Data... 9 Seleksi Data Transformasi Data Penentuan Data Training dan Data Testing Teknik Klasifikasi Induksi Pohon Keputusan Naïve Bayes Perhitungan Nilai Akurasi Evaluasi Keluaran KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN iv

8 DAFTAR TABEL Halaman 1 masalah 2 kelas Data yang digunakan Tabel kontingensi antara jenis kelamin dan kelas target Nilai frekuensi harapan dan chi-square atribut jenis kelamin Hasil uji kebebasan chi-square Hasil uji Spearman Penentuan data untuk induksi pohon keputusan Penentuan data untuk naïve Bayes Aturan-aturan dari percobaan Banyak aturan yang dihasilkan setiap percobaan Model Probabilistik Percobaan percobaan 1 menggunakan induksi pohon keputusan percobaan 2 menggunakan induksi pohon keputusan percobaan 3 menggunakan induksi pohon keputusan percobaan 4 menggunakan induksi pohon keputusan percobaan 1 menggunakan naïve Bayes percobaan 2 menggunakan naïve Bayes percobaan 3 menggunakan naïve Bayes percobaan 4 menggunakan naïve Bayes Hasil akurasi dari percobaan menggunakan induksi pohon keputusan Hasil akurasi dari percobaan menggunakan naïve Bayes Data uji tanpa label kelas untuk model terbaik induksi pohon keputusan Aturan-aturan dari percobaan Data uji tanpa label kelas untuk model terbaik naïve Bayes DAFTAR GAMBAR Halaman 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan Diagram alur proses klasifikasi dengan metode naïve Bayes Cara kerja metode induksi pohon keputusan Cara kerja metode naive Bayes Pohon keputusan pada percobaan DAFTAR LAMPIRAN Halaman 1 Kode mayor IPB tahun akademik 2007/ Tabel kontingensi dan perhitungan chi-square Kode nilai atribut kategorik yang digunakan dalam proses klasifikasi menggunakan induksi pohon keputusan dan naïve Bayes Contoh data training pada proses klasifiaksi dengan menggunakan induksi pohon keputusan Model probabilistik yang diperoleh percobaan dengan metode 10-fold cross validation menggunakan naïve Bayes Kode kategori untuk atribut asal daerah teman sekamar v

9 Latar Belakang PENDAHULUAN Tingkat I Program Sarjana Institut Pertanian Bogor (IPB) atau biasa disebut dengan Tingkat Persiapan Bersama IPB merupakan tingkat pertama bagi mahasiswa IPB dalam memasuki dunia perkuliahan. Pada tingkat ini, mahasiswa mengambil mata kuliah umum seperti Biologi, Matematika, Bahasa Indonesia, Bahasa Inggris, dan sebagainya sebagai bentuk persiapan bagi mahasiswa untuk menghadapi tingkat selanjutnya. Sebagai salah satu perguruan tinggi, IPB memiliki aturan dalam menentukan kelulusan mahasiswa Program Sarjana tingkat I. IPB menentukan kelulusan ini dari hasil akademik mahasiswa pada akhir tingkat pertama. Mahasiswa yang berhasil melalui tingkat I sesuai dengan syarat kelulusan yang telah ditentukan dapat melanjutkan tingkat berikutnya. Analisis tingkat keberhasilan mahasiswa tingkat I IPB perlu dilakukan untuk memperoleh faktor-faktor penentu keberhasilan studi mahasiswa tersebut. Selanjutnya faktorfaktor tersebut, dapat digunakan untuk memprediksi keberhasilan atau kegagalan mahasiswa yang baru masuk IPB. Dengan demikian pencegahan terjadinya kegagalan mahasiswa pada tingkat I dapat dilakukan sedini mungkin. Dalam penelitian ini teknik data mining digunakan untuk membuat suatu model klasifikasi dari data mahasiswa tingkat I IPB. Model klasifikasi yang dibangun yaitu model yang menunjukkan tingkat keberhasilan mahasiswa tingkat I IPB, yang kemudian dari model tersebut dapat diperoleh informasi faktor-faktor yang mempengaruhi keberhasilan atau kegagalan mahasiswa serta dapat memprediksi keberhasilan mahasiswa yang baru masuk IPB. Tujuan Tujuan dari penelitian ini adalah menerapkan teknik klasifikasi dalam membangun suatu model (classifier) tingkat keberhasilan mahasiswa tingkat I IPB dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier, memperoleh faktorfaktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan aturan-aturan yang berasal dari pohon keputusan tersebut, serta memprediksi keberhasilan mahasiswa baru IPB menggunakan model terbaik yang telah dibangun oleh Bayesian classifier. Ruang Lingkup Ruang lingkup penelitian ini dibatasi pada penggunaan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier. Metode induksi pohon keputusan digunakan untuk memperoleh faktorfaktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan model terbaik yang memiliki akurasi tertinggi, sedangkan Bayesian classifier digunakan untuk memprediksi keberhasilan mahasiswa baru IPB menggunakan model terbaik yang memiliki akurasi tertinggi. Data yang digunakan adalah data mahasiswa IPB tahun akademik 2007/2008 yang berasal dari Direktorat Tingkat Persiapan Bersama (Direktorat TPB), Panitia Penerimaan Mahasiswa Baru IPB (PPMB IPB), dan Badan Pengelola Asrama (BPA). Manfaat Penelitian ini diharapkan dapat memberikan informasi mengenai faktor-faktor yang dapat mempengaruhi tingkat keberhasilan mahasiswa tingkat I di IPB, deskripsi tingkat keberhasilan mahasiswa, dan prediksi tingkat keberhasilan mahasiswa baru IPB. Dengan demikian, diharapkan informasi tersebut dapat dimanfaatkan oleh IPB dalam mendukung proses pengambilan keputusan terkait dengan tingkat keberhasilan pendidikan mahasiswa tingkat I. Lebih lanjut, informasi tersebut juga dapat digunakan oleh mahasiswa tingkat I untuk lebih meningkatkan prestasi akademiknya. Klasifikasi TINJAUAN PUSTAKA Klasifikasi termasuk ke dalam kategori predictive data mining. Proses klasifikasi dibagi menjadi dua fase yaitu pembelajaran dan pengujian. Pada fase pembelajaran, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006). 1

10 Pohon Keputusan Pohon keputusan memiliki tiga macam node, yaitu (Tan et al. 2006): a node akar (root), tidak memiliki edge masuk dan memiliki nol atau lebih edge keluar. b node internal, masing-masing tepat memiliki satu edge masuk dan dua atau lebih edge keluar. c node daun (leaf atau terminal), masingmasing tepat memiliki satu edge masuk dan tidak memiliki edge keluar. Pada pohon keputusan, masing-masing node daun dinyatakan sebagai label kelas. Node nonterminal meliputi node akar dan node internal lainnya, mengandung atribut keadaan pengujian untuk memisahkan data yang memiliki karakteristik yang berbeda. Keadaan pengujian sepanjang path merupakan bentuk hubungan aturan antecedent, sedangkan kelas label pada node daun dinyatakan sebagai aturan consequent (Tan et al. 2006). Salah satu algoritme yang digunakan dalam membangun pohon keputusan, yaitu algoritme Hunt. Algoritme ini merupakan dasar dari banyak algoritme induksi pohon keputusan yang telah ada, seperti ID3, C4.5 dan CART. Algoritme induksi pohon keputusan (decision tree) dinamakan TreeGrowth. Input untuk algoritme ini terdiri atas data training E dan serangkaian atribut F. Algoritme bekerja secara rekursif memilih atribut terbaik untuk membagi satu (tahap 7) dan memperluas node daun pohon (tahap 11 dan 12) sampai keadaan berhenti ditemukan (tahap 1). Berikut ini merupakan algoritme induksi pohon keputusan (Tan et al. 2006): TreeGrowth (E, F) 1: jika stopping_cond (E,F) = terpenuhi, maka 2: daun = createnode(). 3: label.daun = Classify (E). 4: kembali pada node daun. 5: lainnya 6: akar = createnode(). 7: kondisi_test.akar = find_best_split (E,F). 8: misalkan V = {v v adalah kemungkinan hasil dari kondisi_test.akar }. 9: untuk setiap v V 10: E v = {e kondisi_test.akar (e) = v dan e E}. 11: anak = TreeGrowth(E v, F). 12: tambahkan anak sebagai turunan akar (akar anak) sebagai v. 13: akhir dari kondisi perulangan 14: akhir dari kondisi syarat jika 15: kembali pada akar. Penjelasan rinci algoritme di atas, yaitu (Tan et al. 2006): 1 Fungsi createnode() memperluas pohon keputusan dengan membuat node baru. Sebuah node dalam pohon keputusan memiliki sebuah kondisi tes, yang dinotasikan kondisi_test.node, atau label kelas, yang dinotasikan sebagai label.node. 2 Fungsi find_best_split() menentukan atribut mana yang harus dipilih sebagai kondisi tes untuk pemisahan training record. Pemilihan kondisi tes tergantung pada ukuran impurity yang digunakan untuk menentukan kualitas dari pemisahan. Beberapa ukuran yang digunakan adalah entropy, Gini index, dan statistik 2. 3 Fungsi Classify() menentukan label kelas untuk diberikan ke node daun. Untuk setiap node daun, misalkan p(i t) menyatakan fraksi dari training record dari kelas I yang berhubungan dengan node t. Dalam banyak kasus, node daun diberikan ke kelas yang memiliki banyaknya training record mayoritas: label.daun = argmax p(i t) i dimana operator argmax mengembalikan argumen i yang memaksimumkan pernyataan p(i t). Selain memberikan informasi yang diperlukan untuk menentukan label kelas dari node daun, fraksi p(i t) dapat juga digunakan untuk menduga probabilitas bahwa sebuah record yang diberikan ke node daun t adalah anggota dari kelas i. 4 Fungsi stopping_cond() digunakan untuk menghentikan proses pertumbuhan tree dengan menguji apakah semua record yang sesuai dengan node tertentu memiliki label kelas yang sama atau nilai atribut yang sama. Cara lain untuk menghentikan fungsi rekursif adalah menguji apakah banyaknya record yang sesuai dengan node tertentu telah berada di bawah nilai threshold minimum tertentu. Setelah membangun pohon keputusan, tahap tree-pruning dapat dilakukan untuk mengurangi ukuran pohon keputusan. Pohon keputusan yang terlalu besar mudah terjadi overfitting. Dua strategi untuk menghindari terjadinya overfitting pada induksi pohon keputusan, yaitu 2

11 prepruning (pemangkasan dilakukan sejak awal pembentukan pohon), dan postpruning (pemangkasan dilakukan saat pohon telah terbentuk) (Tan et al. 2006). Salah satu algoritme induksi pohon keputusan adalah algoritme C4.5. Berikut merupakan algoritme C.45 (Quinlan 1993): 1 Pohon keputusan dibangun dari data training (ID3 biasa). 2 Hasil pohon diubah menjadi sekumpulan aturan. Banyaknya aturan sama dengan banyaknya path yang mungkin dari akar sampai node daun. 3 Setiap aturan dipangkas dengan menghilangkan prasyarat sehingga dapat meningkatkan akurasi klasifikasi. 4 Aturan yang telah dipangkas kemudian diurutkan, dan digunakan saat mengklasifikasikan contoh pengujian yang akan datang. Bayesian Classifier Bayesian classifier merupakan sebuah pendekatan untuk memodelkan peluang hubungan antara himpunan atribut dengan kelas variabel tersebut. Implementasi dari Bayesian classifier, yaitu naïve Bayes classifier dan Bayesian belief network. (Tan et al. 2006). Andaikan X dan Y merupakan pasangan variabel acak. Peluang bersama keduanya, P(X=x, Y=y) menunjukkan peluang bahwa variabel X akan mengambil nilai x dan variabel Y akan mengambil nilai y. Suatu peluang bersyarat merupakan peluang bahwa sebuah variabel acak mengambil nilai tertentu jika diberikan variabel acak lain yang nilainya sudah diketahui. Sebagai contoh, peluang bersyarat P(Y=y X=x) menunjukkan peluang bahwa variabel Y akan mengambil nilai y, jika diberikan variabel X yang ditinjau memiliki nilai x. Peluang bersama dan bersyarat untuk X dan Y dapat dilihat pada formula berikut (Tan et al. 2006): Dari formula itu, dapat diperoleh teorema Bayes (Tan et al. 2006): dengan Teorema Bayes merupakan dasar statistik dalam mengkombinasikan pengetahuan sebelumnya dari suatu kelas dengan keterangan baru yang terkumpul dari data. Variabel X pada persamaan 2 menunjukkan serangkaian atribut, sedangkan variabel Y menunjukkan variabel kelas. Jika variabel kelas memiliki hubungan non-deterministic dengan atribut-atribut, dapat diperlakukan X dan Y sebagai variabel acak dan menangkap hubungan keduanya secara probabilistik menggunakan P(Y X). P(Y X) merupakan peluang bersyarat yang juga dikenal sebagai posterior probability terhadap Y, sedangkan P(Y) merupakan prior probability (Tan et al. 2006). Naïve Bayes Classifier Naïve Bayes classifier menduga kelas peluang bersyarat dengan mengasumsikan atribut secara kondisi bebas, jika diberi label kelas y (Tan et al. 2006). Naïve Bayes merupakan salah satu algoritme klasifikasi yang paling efektif dan efisien. Pada masalah pembelajaran klasifikasi, suatu pembelajaran berusaha membangun classifier dari serangkaian data training yang memiliki kelas. Diasumsikan bahwa A 1,A 2,...,A n merupakan n atribut. Suatu contoh E direpresentasikan oleh sebuah vektor (a 1,a 2,...,a n ), dimana a i merupakan nilai atribut A i. Variabel C menunjukkan variabel kelas yang memiliki nilai + (kelas positif) atau nilai (kelas negatif). Variabel c menunjukkan nilai dari variabel C. Sebuah naïve Bayes classifier atau naïve Bayes sederhana didefinisikan sebagai berikut: Karena nilai p(a i c) dapat diduga dari data training, maka mudah untuk membangun naïve Bayes (Zhang & Su 2004). M-estimate Jika peluang kelas bersyarat untuk atribut adalah nol, maka keseluruhan peluang bersyarat untuk kelas akan tidak dapat dihitung. Pendekatan mengestimasi peluang kelas bersyarat menggunakan tuple pecahan mungkin terlihat kurang kuat, khususnya jika training sample yang tersedia kecil dan jumlah atribut besar (Tan et al. 2006). Masalah ini dapat diatasi dengan menggunakan pendekatan m- estimate untuk mengestimasi peluang bersyarat 3

12 dengan: n = jumlah data training dimana v = v j n c = jumlah data training dimana v = v j dan a = a i p = prior estimate untuk P(a, i\v j ) m = ukuran sampel ekuivalen Cara yang digunakan untuk memilih nilai p jika informasi lain tidak ada adalah asumsi keseragaman, yaitu p = 1/k, dimana k adalah jumlah nilai atribut a i yang dapat diambil. Untuk nilai m, jika m bernilai nol, maka m-estimate akan ekuivalen dengan n c /n. Jika n dan m keduanya tidak nol, maka fraksi yang diamati adalah n c /n dan probabilitas prior p akan dikombinasikan menurut bobot m. Nilai m dinamakan ukuran sampel ekuivalen karena dalam persamaan m-estimate terjadi penguatan observasi aktual n dengan adanya tambahan sampel virtual m yang terdistribusi menurut p. Nilai m bisa diberi nilai sembarang, misalnya 3, tetapi konsisten untuk semua atribut (Santosa 2007). Evaluasi model klasifikasi didasarkan pada perhitungan data pengujian yang diprediksi secara tepat dan tidak tepat oleh model. Perhitungan ini disusun ke dalam suatu tabel yang dikenal sebagai confusion matrix. Tabel 1 menggambarkan confusion matrix untuk masalah klasifikasi biner. Setiap masukan f ij pada tabel menunjukkan sejumlah data dari kelas i yang diprediksi menjadi kelas j. Sebagai contoh, f 01 menunjukkan sejumlah kelas 0 yang diprediksi tidak tepat sebagai kelas 1. Berdasarkan masukan pada confusion matrix, total data yang diprediksi tepat oleh model adalah (f 11 + f 00 ) dan total data yang diprediksi tidak tepat adalah (f 10 + f 01) (Tan et al. 2006). Tabel 1 masalah 2 kelas Kelas Kelas=1 Kelas=0 Kelas=1 f 11 f 10 Kelas=0 f 01 f 00 Berdasarkan data dalam confusion matrix dapat dihitung akurasi dari model klasifikasi yang dihasilkan menggunakan formula berikut: Sebagian besar algoritme klasifikasi mencari model yang mencapai akurasi tinggi, atau sama halnya, rata-rata error yang rendah saat diaplikasikan pada data uji (Tan et al. 2006). Koefisien Korelasi Peringkat Spearman Korelasi peringkat merupakan ukuran yang menunjukkan derajat keeratan hubungan diantara peubah. Salah satu ukuran asosiasi yang dikenal yaitu Koefisien Korelasi Peringkat Spearman. Asumsi pada korelasi ini antara lain (Daniel 1990): Data terdiri atas contoh acak n berpasangan pengamatan numerik atau bukan numerik. Tiap pasang pengamatan menunjukkan dua ukuran yang diperoleh dari objek atau individu yang sama. Langkah perhitungan koefisien korelasi peringkat Spearman (Daniel 1990): Jika data terdiri atas pengamatan dari suatu populasi bivariabel, ditunjukkan n pasang pengamatan yang diperoleh yaitu (X 1,Y 1 ), (X 2,Y 2 ),, (X n,y n ). Tiap X diperingkatkan terhadap seluruh pengamatan X lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari X ditunjukkan dengan R(X i ) dan R(X i ) = 1 jika X i nilai pengamatan terkecil dari X. Tiap Y diperingkatkan terhadap seluruh pengamatan Y lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari Y ditunjukkan dengan R(Y i ) dan R(Y i ) = 1 jika Y i nilai pengamatan terkecil dari Y. Jika ada nilai yang sama (ties) diantara X dan Y, digunakan peringkat rata-rata. Jika data bukan numerik, maka harus mampu diperingkatkan. Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Daniel 1990): Ho: X dan Y bebas H1: X dan Y berhubungan langsung atau kebalikan Statistik uji yang digunakan adalah statistik r s yang dirumuskan dengan (Daniel 1990): dengan: d i = jumlah kuadrat beda antara peringkat record X ke-i dengan peringkat record Y ke-i 4

13 R(X i ) = peringkat record ke-i pada atribut X R(Y i ) = peringkat record ke-i pada atribut Y n = banyaknya record r s = koefisien korelasi, dengan -1 r s 1 Kaidah keputusan yang digunakan yaitu, jika r s > nilai kritis koefisien korelasi spearman untuk n dan α(2) atau r s < nilai kritis ini, maka tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai α menunjukkan taraf nyata yang digunakan. Nilai kritis ini diperoleh dari tabel koefisien korelasi peringkat Spearman. Jika terdapat nilai yang sama pada pengamatan (ties), maka digunakan rumus sebagai berikut (Daniel 1990): dengan: tx ty = banyaknya pengamatan X yang sama untuk nilai tertentu (untuk peringkat tertentu) = banyaknya pengamatan Y yang sama untuk nilai tertentu (untuk peringkat tertentu) Saat pemeriksaan angka yang sama (ties) digunakan,maka statistik uji yang digunakan adalah Adapun perkiraan statistik uji nilai r s jika jumlah pengamatan > 100, yaitu mengunakan statistik Z, dimana Z menyebar normal baku (Daniel 1990). Uji Kebebasan Chi-Square Hubungan diantara peubah kategorik yang berskala nominal dapat dianalisis dengan menggunakan uji kebebasan chi-square. Data dalam pengujian hubungan disajikan dalam bentuk tabel kontingensi. Bentuk umum tabel kontingensi, yaitu berukuran i baris j kolom. Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Freeman 1987): Ho: P ij = P i.p j (saling bebas atau tidak ada hubungan). H1: P ij P i.p j (tidak saling bebas atau terdapat hubungan). Statistik uji yang digunakan adalah statistik 2 yang dirumuskan dengan (Freeman 1987): dengan: n i = total record pada baris ke-i n j = total record pada kolom ke-j n = total pengamatan P i = proporsi total record pada baris ke-i terhadap total pengamatan P j = proporsi total record pada kolom kej terhadap total pengamatan E ij = frekuensi harapan pada baris ke-i dan kolom ke-j O ij = frekuensi pengamatan pada baris ke-i dan kolom ke-j 2 = nilai chi-square 2 Bentuk sebaran tergantung dari derajat bebas (db), dimana derajat bebas menunjukkan banyaknya parameter (informasi) minimum yang digunakan. Kaidah keputusan yang digunakan yaitu jika 2 nilai statistik > nilai 2 (db,α) dari tabel chisquare, maka tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai db yang digunakan yaitu (i-1) (j-1). Nilai α menunjukkan taraf nyata yang digunakan. Data METODE PENELITIAN Banyak studi yang telah lakukan untuk menjelaskan prestasi akademik atau memprediksi kesuksesan akademik dalam dunia pendidikan, salah satunya adalah Parmentier pada tahun Parmentier menunjukkan bahwa prestasi akademik pertengahan dan akhir dari 5

14 mahasiswa dipengaruhi oleh tiga kumpulan faktor, yaitu berbagai hal yang berhubungan dengan latar belakang pribadi mahasiswa (identitas, pendidikan, keluarga, dan lain-lain), ekspresi keterlibatan atau tingkah laku mahasiswa terhadap pendidikan (partisipasi pada kegiatan pilihan, bertemu dengan profesor untuk bertanya atau memperoleh feedback pada ujian berkala, dan lain-lain), dan persepsi dari mahasiswa (persepsi mahasiswa terhadap konteks akademik, profesornya, kuliah, dan lain-lain) (Superby et al. 2005). Penelitian ini hanya menggunakan dua faktor Parmentier, yaitu faktor data pribadi mahasiswa dan faktor keterlibatan mahasiswa terhadap pendidikan. Data yang digunakan dapat dilihat pada Tabel 2. Pada Tabel 2, tabel biodata mahasiswa masuk ke dalam faktor data pribadi mahasiswa, sedangkan tabel IPK, gedung dan kegiatan asrama masuk ke dalam faktor keterlibatan mahasiswa terhadap pendidikan. Tabel 2 Data yang digunakan Kelompok data Biodata mahasiswa IPK Gedung asrama Kegiatan asrama Atribut NIM, riwayat pendidikan orangtua, jalur masuk, riwayat kesehatan, jenis kelamin, pendapatan orangtua, jurusan, hobi, jumlah nilai UAN, dan wilayah asal SMU NIM dan IPK TPB NIM, gedung, dan kamar NIM, dan kehadiran kegiatan Sumber data Direktorat TPB PPMB IPB BPA BPA Pengklasifikasian mahasiswa untuk menentukan tingkat keberhasilan mahasiswa tahun pertama di suatu perguruan tinggi dibagi menjadi tiga kategori, yaitu low risk (memiliki kemungkinan/resiko kecil tidak lulus), medium risk (dibolehkan lulus berdasarkan ukuran yang diambil perguruan tinggi), dan high risk (memiliki kemungkinan/resiko besar tidak lulus atau drop out) (Superby et al. 2005). Ketiga kategori ini yang akan dijadikan label kelas. Metode Data mining merupakan bagian integral dari Knowledge Discovery in Database (KDD), yang prosesnya secara keseluruhan mengubah barisan data menjadi informasi yang berguna. Proses terdiri atas rangkaian langkah transformasi dari proses preprocessing hingga postprocessing dari hasil data mining (Tan et al. 2006). Penelitian ini mengacu pada proses KDD tersebut. Tahapan penelitian ini sebagaimana diilustrasikan pada Gambar 1 dan Gambar 2. Gambar 1 menunjukkan alur proses klasifikasi dengan menggunakan metode induksi pohon keputusan, sedangkan Gambar 2 alur proses klasifikasi dengan menggunakan metode naïve Bayes. Kedua alur proses klasifikasi tersebut melalui tahap praproses yang sama, yang membedakan hanya pada evaluasi keluaran yang diperoleh. Data training Pembuatan model klasifikasi menggunakan Decision Tree Classifier (pohon keputusan) Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi Pemilihan classifier dengan nilai akurasi tertinggi Classifier terbaik (pohon keputusan) Deskripsi Mahasiswa IPB (Low Risk/Medium Risk/High Risk) berdasarkan rule-rule yang terbentuk Data mahasiswa Preprocessing Data cleaning dan data integration Data selection dan data transformation Data set Penentuan data training dan data testing Data testing Gambar 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan. 6

15 Data training Pembuatan model klasifikasi menggunakan metode Bayesian (Naïve Bayes classifier) Classifier (model probabilistik) Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi Data mahasiswa Preprocessing Data cleaning dan data integration Data selection dan data transformation Data set Penentuan data training dan data testing Data testing testing. Penentuan data set dilakukan dengan menggunakan pembagian 70% untuk training dan 30% untuk testing serta metode 10-fold cross validation. 6 Data mining, tahap ini merupakan proses yang penting, dimana metode diterapkan untuk menggali pola data yang ada. Metode yang digunakan yaitu induksi pohon keputusan dan naïve Bayes. Model klasifikasi dibuat oleh masing-masing metode dengan menggunakan teknik data mining ini. Cara kerja metode induksi pohon keputusan seperti diilustrasikan pada Gambar 3. Data training Pembagian data training ke dalam subset-subset (Dt) Pemilihan classifier dengan nilai akurasi tertinggi Ya Jika record pada Dt anggota kelas yang sama yt Tidak Classifier terbaik (model probabilistik) Prediksi Keberhasilan Mahasiswa Baru IPB dengan Menggunakan Classifier Terbaik (Low Risk/Medium Risk/High Risk) Data mahasiswa baru (dengan label kelas) Data mahasiswa baru (tanpa label kelas) Variabel t = node daun dengan label yt Penentuan atribut yang digunakan sebagai kondisi tes menggunakan ukuran impurity (information gain) Nilai information gain tiap atribut Gambar 2 Diagram alur proses klasifikasi dengan metode naïve Bayes. Alur proses klasifikasi Gambar 1 dan Gambar 2 dapat diuraikan sebagai berikut: 1 Integrasi data, menggabungkan tabel dari Direktorat TPB, PPMB IPB, dan BPA yaitu biodata mahasiswa, IPK, gedung, dan kegiatan asrama. 2 Pembersihan data, membuang data yang mengandung nilai yang hilang dan data yang duplikat. 3 Seleksi data, mengambil data yang relevan dengan cara memilih atribut yang berpengaruh menggunakan uji hipotesis kebebasan chi-square dan uji Spearman. 4 Transformasi data, mengubah data ke bentuk yang dapat di-mining sesuai dengan perangkat lunak yang digunakan pada penelitian. 5 Penentuan data training dan data testing, sebelum melalui tahap data mining, ditentukan terlebih dahulu data set yang akan digunakan. Data set dibagi menjadi dua bagian, yaiu data training dan data Ya Pemangkasan pohon Classifier (pohon keputusan sudah dipangkas) Pemilihan atribut dengan nilai information gain tertinggi Atribut terpilih Kondisi berhenti tes atribut terpenuhi Ya Classifier (pohon keputusan) Ukuran pohon keputusan besar Tidak Tidak Classifier (pohon keputusan tanpa dipangkas) Gambar 3 Cara kerja metode induksi pohon keputusan. Berikut ini merupakan uraian cara kerja induksi pohon keputusan pada Gambar 3 dalam membangun pohon keputusan: 7

16 Pembagian data training ke dalam subsetsubset. Misalkan Dt adalah himpunan dari training record yang berasosiasi dengan node t dan y = {y 1, y 2,..., y c } adalah labellabel kelas. Jika semua record dalam Dt anggota kelas yang sama yt, maka t adalah node daun dengan label yt. Jika D t mengandung record yang merupakan anggota dari lebih dari dari satu kelas, sebuah kondisi tes atribut dipilih untuk mempartisi record-record ke dalam subset-subset yang lebih kecil. Child node dibuat untuk setiap keluaran dari kondisi tes dan record-record dalam D t didistribusikan ke children berdasarkan pada keluaran dari kondisi tes. Selanjutnya, algoritme secara rekursif diaplikasikan ke setiap child node (Tan et al. 2006). Penentuan atribut yang digunakan sebagai kondisi tes atribut dilakukan dengan menggunakan ukuran impurity. Salah satu ukuran impurity yang digunakan yaitu information gain. Jadi, dalam memilih atribut untuk memecah obyek ke dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain paling besar (Santosa 2007). Kondisi berhenti dilakukan dengan menguji apakah semua record memiliki label kelas yang sama atau nilai atribut yang sama (Tan et al. 2006). Setelah membangun pohon keputusan, langkah tree-pruning dapat dilakukan untuk mengurangi ukuran dari pohon keputusan. Pruning dilakukan dengan memangkas cabang-cabang dari pohon awal untuk meningkatkan kemampuan generalisasai dari pohon keputusan (Tan et al. 2006). Cara kerja metode naïve Bayes classifier dilustrasikan pada Gambar 4. Berikut ini merupakan uraian cara kerja metode naïve Bayes pada Gambar 4: Setiap data contoh yang direpresentasikan dengan sebuah n-vektor fitur dimensional, X=(x 1,x 2, x n ), menggambarkan ukuran n yang dibuat pada contoh dari n atribut, berturut-turut A 1,A 2,,A n (Han & Kamber 2006). Tidak Data testing Suatu data X masuk kelas C3 (resiko tinggi) Penentuan data training dan data testing Tidak Untuk atribut kategorik P(xk Ci) = sik/si P(X C2) P(C2) > P(X C1) P(C1) && P(X C2) P(C2) > P(X C3) P(C3) Data training Menghitung nilai P(Ci), i=1,2,dan 3 Menghitung nilai P(xk Ci) Model probabilistik Menghitung nilai P(X Ci) dan P(Ci) per record Menghitung nilai P(Ci X) = P(X Ci) P(Ci) P(X C1) P(C1) > P(X C2) P(C2) && P(X C1) P(C1) > P(X C3) P(C3) Ya Suatu data X masuk kelas C2 (resiko sedang) Gambar 4 Cara kerja metode naïve Bayes. Untuk atribut kontinu menggunakan fungsi sebaran Gaussian P(xk Ci) = g(xk, μci.,σ Ci.) Ya Suatu data X masuk kelas C1 (resiko rendah) Andaikan terdapat m kelas, C 1,C 2,,C n. diberikan suatu data contoh X yang belum memiliki kelas, classifer akan memprediksi X masuk ke dalam suatu kelas dengan nilai posterior probability tertinggi, dengan kondisi pada X. Naïve Bayes classifier menentukan kelas data X pada kelas C i jika dan hanya jika P(C i X) > P(C j X), untuk 1 j m, j i. Jadi, dimaksimumkan P(Ci X). Kelas C i untuk P(C i X) dimaksimumkan oleh maximum posteriori hypothesis. Dengan teorema Bayes: Karena P(X) tetap untuk seluruh kelas, maka hanya nilai P(X C i ) P(C i ) yang perlu dimaksimumkan. Jika kelas prior probability tidak diketahui, maka umumnya diasumsikan bahwa prior probability kelas-kelas tersebut kemungkinan memiliki nilai yang sama, P(C 1 ) = P(C 2 ) = P(C 3 ) =... = P(C m ), dan kita dapat memaksimumkan hanya nilai P(X C i ). Kelas prior probability mungkin diduga dengan P(C i ) = s i /s, dimana s i banyaknya data training pada kelas C i dan 8

17 s total banyaknya data training (Han & Kamber 2006). Menghitung nilai P(X C i ) P(X C i ) = Π n k=1 P(x k C i ) Peluang P(x 1 C i ), P(x 1 C i ),..., P(x n C i ) dapat diduga dari data training, dimana a jika A k atribut kategorik, maka: P(x k C i ) = s ik /s i, di mana s ik banyaknya data training pada kelas C i yang memiliki nilai x k untuk A k dan s i banyaknya data training pada kelas C i. b jika A k atribut kontinu, maka atribut secara khusus diasumsikan memiliki sebaran Gaussian, sehingga: P(x k C i ) = g(x k, μc i.,σ C i. ) = 1 e -(x k -μc i )2 /2σ C i 2 σ C i. di mana g(x k, μc i.,σ C i. ) fungsi kepadatan Gaussian (normal) untuk atribut A k, sedangkan μc i. dan σ C i berturut-turut merupakan rata-rata dan standar deviasi untuk atribut A k data training kelas C i (Han & Kamber 2006). Untuk mengklasifikasikan data X yang belum memiliki kelas, nilai P(X C i ) P(C i ) untuk setiap kelas C i dievaluasi. Data X ditentukan masuk pada kelas C i jika dan hanya jika P(X C i ) P(C i ) > P(X C j ) P(C j ), untuk 1 j m, j i. Data X yang ditentukan pada kelas C i dimaksimumkan oleh P(X C i ) P(C i ) (Han & Kamber 2006). 7 Perhitungan nilai akurasi, setelah classifier telah dibangun pada kedua metode, maka dilakukan pengujian dengan menggunakan data testing untuk mengetahui keakuratan setiap classifer. Keakuratan classifer dihitung dengan menggunakan confusion matrix. Classifier terbaik dipilih berdasarkan nilai akurasi tertinggi pada masing-masing metode. 8 Evaluasi keluaran, pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi yang diperoleh dari data. Classifier yang diperoleh dari naïve Bayes berupa model probabilistik, dimana model ini dapat memprediksi keberhasilan mahasiswa baru IPB. Evaluasi keluaran dilakukan dengan memasukkan data uji tanpa kelas pada model probabilitik terbaik hingga diperoleh kelas target yang sesuai. Classifier yang diperoleh dari induksi pohon keputusan yaitu berupa aturanaturan yang diperoleh dari pohon keputusan, dimana aturan-aturan tersebut mendeskripsikan tingkat keberhasilan mahasiswa. Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut: a Perangkat keras berupa komputer personal dengan spesifikasi: Memori DDR 768 MB Harddisk 40 GB b Perangkat lunak Sistem operasi Windows XP Profesional Intel Pentium M processor 1.60GHz QtOctave Weka Microsoft Access 2007 Microsoft Excel 2007 HASIL DAN PEMBAHASAN Data yang digunakan terdiri atas empat kelompok data (tabel) dan keempatnya disimpan dalam format yang berbeda, yaitu biodata mahasiswa dalam format spreadsheet Excel, IPK mahasiswa dalam format spreadsheet Excel, gedung asrama dalam format Ms. Word, dan kegiatan asrama dalam format DBMS Ms. Access. Sebelum melalui tahap praproses, pada tabel IPK ditambahkan atribut jurusan dan label kelas. Atribut jurusan diperoleh dengan melihat NIM mahasiswa, kemudian mencocokkannya dengan kode jurusan mayor IPB tahun akademik 2007/2008. Kode jurusan mayor IPB dapat dilihat pada Lampiran 1. Selanjutnya, penentukan label kelas dari tiap mahasiswa dilakukan dengan melihat nilai IPK, dimana jika IPK 2.76 maka label kelas resiko rendah, jika 2 nilai IPK < 2.76 maka resiko sedang, dan jika IPK < 2 maka resiko tinggi. Dengan demikian, atribut pada IPK menjadi ada 6, yaitu NIM, nama, status kelanjutan studi, IPK, jurusan, dan kelas target. Integrasi dan Pembersihan Data Setelah dilakukan penambahan atribut jurusan dan label kelas pada tabel IPK, format penyimpanan biodata dan IPK mahasiswa masing-masing diubah terlebih dahulu, dari 9

18 format Ms. Excel menjadi format Ms. Access. Hal ini dilakukan untuk memudahkan dalam tahap praproses berikutnya. Data yang digabungkan pertama kali yaitu biodata mahasiswa dan IPK mahasiswa. Biodata mahasiswa memiliki 3010 record dengan atribut sebanyak 64 sedangkan IPK mahasiwa terdiri dari 2989 record dan 6 atribut. Penggabungan data IPK dan biodata mahasiswa dilakukan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut, dan hasilnya ada sebanyak 2775 record dengan 70 atribut. Selanjutnya dilakukan pemilihan atribut pada hasil gabungan data IPK dan biodata mahasiswa. Dari 70 atribut, dipilih sebanyak 13 atribut, yaitu nama, nim, jurusan, kelas target, jalur masuk, jenis kelamin, pendapatan, pendidikan, alamat, nama SMA, jumlah NEM, minat, dan sakit. Penggabungan selanjutnya dilakukan antara data gedung asrama dan data hasil gabungan IPK dan biodata. Data gedung asrama terdiri dari 6 atribut, yaitu nama, NIM, gedung, kamar, asal SMA, dan propinsi. Sebelumnya, data gedung asrama dirapihkan dan digabungkan terlebih dahulu ke dalam format Ms. Excel, karena dokumen ini tersebar dalam beberapa file dokumen per gedung asrama (A1, A2, A3, C1, C2, C3, dan RUSUNAWA). Format data gedung kemudian diubah lagi ke dalam format Ms. Access. Setelah itu, ditambahkan atribut asal daerah dan asal teman sekamar. Atribut asal daerah dibuat dalam skala pulau dengan bantuan atribut asal SMA. Kemudian atribut asal daerah teman sekamar diperoleh dengan bantuan atribut NIM, asal daerah, serta gedung dan kamar asrama. Data gedung asrama kemudian digabung dengan data hasil gabungan data IPK dan biodata mahasiswa. Penggabungan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut. Data terakhir yang digabungkan adalah kegiatan asrama. Data kegiatan asrama juga tersebar pada beberapa file dengan format Ms. Access. Sebelumnya data dirapihkan dan digabung dalam satu file kegiatan asrama. Data kegiatan asrama terdiri atas NIM, ID kegiatan, total kegiatan, total kehadiran, izin, sakit, dan tanpa keterangan. Atribut yang dipilih yaitu hanya NIM dan total kehadiran. Selanjutnya data kegiatan asrama digabung dengan data hasil gabungan data IPK, biodata mahasiswa, dan gedung asrama. Penggabungan berdasarkan kesamaan NIM pada kedua data. Ketika dilakukan tahap penggabungan data, data yang tidak memiliki NIM yang sama dengan NIM pada data lain akan secara langsung tereliminasi. Record yang mengandung nilai kosong atau duplikat pun dihilangkan dari data. Atribut yang duplikat juga dihilangkan. Hasil akhir dari proses penggabungan data IPK, biodata mahasiswa, gedung asrama, dan kegiatan asrama berupa tabel baru yang terdiri atas 1194 record dan 12 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, kehadiran kegiatan, dan kelas target. Hasil penggabungan data IPK dan biodata mahasiswa sebanyak 2775 record yang digunakan dalam proses klasifikasi dengan menggunakan metode naïve Bayes. Pada pembuatan model klasifikasi menggunakan naïve Bayes tidak mengikutsertakan data dari BPA (Badan Pengelola Asrama) karena model digunakan untuk memprediksi mahasiswa baru IPB yang belum mengikuti kegiatan BPA. Berbeda dengan proses klasifikasi dengan menggunakan metode induksi pohon keputusan, pada metode ini digunakan hasil penggabungan akhir data IPK, biodata mahasiswa, gedung, dan kegiatan asrama sebanyak 1194 record yang mengikutsertakan data dari BPA. Seleksi Data Pemilihan atribut dilakukan terhadap 11 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, dan kehadiran kegiatan dengan menggunakan uji hipotesis statistika. Uji yang digunakan yaitu uji kebebasan chi-square dan uji korelasi peringkat Spearman. Uji kebebasan diterapkan untuk atribut yang bertipe kategorik nominal, yaitu untuk atribut jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, hobi, dan riwayat kesehatan. Uji Spearman diterapkan untuk atribut yang bertipe numerik, yaitu nilai UAN SMA dan kehadiran kegiatan. Uji kebebasan dan uji Spearman dilakukan untuk melihat hubungan antara setiap atribut dengan kelas target, berpengaruh atau tidak. Jika berdasarkan uji yang dilakukan suatu atribut dinyatakan tidak berpengaruh, maka atribut tersebut dihilangkan, dan sebaliknya. Kelas target dalam hal ini yang menunjukkan tingkat keberhasilan mahasiswa. 10

19 Sebelum dilakukan uji kebebasan, dibuat 9 tabel kontingensi terlebih dahulu antara setiap atribut dengan kelas target. Tabel kontingensi antara atribut jenis kelamin dan kelas target dapat dilihat pada Tabel 3, sedangkan tabel kontingensi lainnya dapat dilihat pada Lampiran 2. Tabel 3 Tabel kontingensi antara jenis kelamin dan kelas target Jenis kelamin Resiko rendah Kelas target Resiko sedang Resiko tinggi Perempuan Laki-laki Selanjutnya, dihitung nilai frekuensi harapan (E ij ) dan nilai chi-square ( 2 ) dari setiap tabel kontingensi. Tabel 4 menunjukkan hasil perhitungan E ij dan 2 untuk atribut jenis kelamin. Tabel 4 Nilai frekuensi harapan dan chi-square atribut jenis kelamin E i1 E i2 E i3 i1 2 i2 2 i (db, α) = 2 (2, 0.05) 5.99 Nilai α yang digunakan yaitu sebesar Berdasarkan Tabel 2, nilai > 2 (db, α). Oleh karena itu, dapat disimpulkan bahwa pada taraf nyata α = 0.05, peubah jenis kelamin berpengaruh nyata dengan atribut kelas target. Untuk nilai frekuensi harapan dan chi-square atribut lainnya dapat dilihat pada Lampiran 2. Untuk hasil uji kebebasan secara keseluruhan dapat dilihat pada Tabel 5. Tabel 5 Hasil uji kebebasan chi-square Atribut Asal daerah Asal teman sekamar Hobi Jalur masuk Jenis kelamin Jurusan Pendapatan Riwayat kesehatan Riwayat pendidikan Hubungan dengan kelas target Berpengaruh Tidak berpengaruh Berpengaruh Berpengaruh Berpengaruh Berpengaruh Tidak berpengaruh Tidak berpengaruh Tidak berpengaruh Uji yang dilakukan selanjutnya yaitu uji Spearman. Uji ini hanya digunakan untuk atribut nilai UAN SMA dan kehadiran kegiatan. Hasil dari uji ini dapat dilihat pada Tabel 6. Tabel 6 Hasil uji Spearman Atribut Nilai UAN SMA Kehadiran kegiatan Transformasi Data Hubungan dengan kelas target Berpengaruh Berpengaruh Pada penelitian ini, teknik data mining yang digunakan adalah induksi pohon keputusan dan naïve Bayes. Keduanya menggunakan perangkat lunak yang berbeda. Oleh karena itu, sebelum memasuki tahap data mining, data ditransformasi terlebih dahulu ke bentuk yang dapat di-mine, disesuaikan dengan perangkat lunak yang digunakan. Proses klasifikasi menggunakan induksi pohon keputusan dikerjakan pada perangkat lunak Weka Untuk memudahkan dalam proses klasifikasi, nilai-nilai atribut pada atribut kategorik dikodekan, dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format arff WEKA dan ditambahkan inisialisasi untuk masing-masing atribut, seperti di bawah jurusan {A1, A2, A3, A4, B, C1, C2, C3, C4, C5, D, E1, E2, E3, E4, F1, F2, F3, G1, G2, G3, G4, G5, G6, G7, G8, H1, H2,H3, H4, I1, I2, asal_daerah {JA,KAL, MAL, NT, PAP, SUL, SUM, jalur_masuk {USMI, SPMB, PIN, jenis_kelamin {L, nilai_uan_sma hobi {KHS, OR, AGM, SEN, kehadiran_kegiatan kelas_target {resiko_rendah, resiko_sedang, menunjukkan nama data set yang digunakan. menunjukkan atribut dan nilai atribut, dimana bertipe data nominal atau numerik (real atau integer). Yang terakhir yang 11

20 menunjukkan inisialisasi untuk keseluruhan isi data. Proses klasifikasi menggunakan naïve Bayes dikerjakan pada perangkat lunak QtOctave Data yang bertipe kategorik (asal daerah, hobi, jalur masuk, jenis kelamin, jurusan) direpresentasikan dalam bentuk kategori angka. Hal ini dilakukan untuk mempermudah proses klasifikasi dengan menggunakan QtOctave Misalnya pada atribut kategorik kelas target, nilai atribut resiko rendah, resiko sedang, dan resiko tinggi direpresentasikan berturut-turut dengan angka 1, 2 dan 3. Untuk lebih jelasnya, nilai atribut kategorik dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format file text. Penentuan Data Training dan Data Testing Penentuan data training dan data testing menggunakan dua metode, yaitu dengan pembagian 70% training dan 30% testing, serta 10-fold cross validation. Masing-masing metode dibuat dua percobaan, yaitu percobaan menggunakan data set dengan proporsi jumlah record setiap kelas target sama dan dengan proporsi jumlah record setiap kelas target berbeda. Dalam teknik pembagian data dengan menggunakan 10-fold cross validation, data dibagi menjadi (S1,,S10) yang berbeda dengan jumlah sama besar. Setiap kali sebuah subset digunakan sebagai test set, maka 9 buah partisi lainnya akan dijadikan sebagai training set. Data set yang digunakan induksi pohon keputusan yaitu terdiri atas 7 atribut termasuk kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, kehadiran kegiatan, hobi, dan kelas target dan 1194 record, sedangkan pada naïve Bayes yaitu terdiri atas 6 atribut termasuk kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, hobi, dan kelas target, dan 2775 record. Pada masing-masing data set, sebelumnya diambil sebanyak 1% untuk data uji tanpa kelas, yang akan digunakan pada model akhir yang dihasilkan. Sehingga diperoleh sebanyak 12 record untuk data uji tanpa kelas pada pohon keputusan, sedangkan pada naïve Bayes ada sebanyak 28 record. Kemudian sisa data set yang akan digunakan untuk data training dan data testing. Penentuan data training dan data testing untuk lebih jelasnya dapat lihat pada Tabel 7 dan Tabel 8. Tabel 7 Penentuan data untuk induksi pohon keputusan Proporsi jumlah record setiap kelas target Berbeda Sama Percobaan Data set Metode uji 70% training dan 30% testing k-fold cross validation 70% training dan 30% testing k-fold cross validation Tabel 8 Penentuan data untuk naïve Bayes Proporsi jumlah record setiap kelas target Berbeda Sama Percobaan Teknik Klasifikasi Data set Metode uji 70% training dan 30% testing k-fold cross validation 70% training dan 30% testing k-fold cross validation Pada tahap ini dilakukan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan untuk membangun model pohon keputusan dan metode naïve Bayes untuk membangun model probabilistik. Dari model pohon keputusan yang diperoleh, dibentuk aturan-aturan, dimana aturan ini yang mendeskripsikan tingkat keberhasilan mahasiswa. Model probabilistik digunakan untuk memprediksi mahasiswa baru IPB. Induksi Pohon Keputusan Training Fase training dilakukan untuk membangun model klasifikasi. Percobaan pembangunan model klasifikasi dengan menggunakan induksi pohon keputusan dilakukan sebanyak 4 (empat) kali berdasarkan pembagian data training dan data testing. Sebagai contoh, akan dijelaskan pembentukan pohon keputusan dengan menggunakan proprosi jumlah record setiap 12

21 kelas target sama (percobaan 3) sebanyak 288 record, dengan training sebesar 202 record dan testing sebesar 86 record. Contoh data untuk proses training dapat dilihat pada Lampiran 4. Pembentukan aturan klasifikasi dilakukan dengan menggunakan classifier J.48 (algoritme c.45 versi Java dalam Weka) pada perangkat lunak Weka Berikut ini merupakan langkah-langkah pembentukan aturan klasifikasi dengan menggunakan algoritme induksi pohon keputusan, yaitu: 1 Melakukan pembagian data training ke dalam subset-subset. 2 Menghitung nilai information gain dari tiap atribut untuk menentukan atribut yang dijadikan sebagai kondisi tes atribut. 3 Data training diekspansi berdasarkan atribut dengan information gain tertinggi sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree. Model klasifikasi berupa pohon keputusan (percobaan 3) dapat dilihat pada Gambar 5. Dari pohon keputusan yang diperoleh, dibentuk aturan-aturan. Aturan yang terbentuk yaitu ada sebanyak 3 buah yang dapat dilihat pada Tabel 9. Keterangan nilai atribut dapat dilihat pada Lampiran 3. mahasiswa hanya dipengaruhi faktor nilai UAN SMA. Testing Fase testing dilakukan untuk memperoleh akurasi dari model yang telah dihasilkan dari fase training. Dalam hal ini, model merupakan sekumpulan aturan-aturan yang diperoleh dari pohon keputusan. Proses testing dilakukan dengan cara memasukkan data testing pada aturan yang telah terbentuk. Pada penelitian ini dilakukan empat kali percobaan, sehingga diperoleh empat model aturan yang berbeda. Tabel 10 menunjukkan banyaknya aturan yang dihasilkan setiap percobaan. Tabel 10 Banyak aturan yang dihasilkan setiap percobaan Proporsi jumlah kelas target Berbeda Berbeda Sama Sama Percobaan Data set Metode uji 70 % training dan 30% testing k-fold cross validation 70 % training dan 30% testing k-fold cross validation Banyak aturan Naïve Bayes Gambar 5 Pohon keputusan pada percobaan 3. Tabel 9 Aturan-aturan dari percobaan 3 No Aturan IF nilai_uan_sma <= THEN kelas_target = resiko_sedang IF nilai_uan_sma > AND nilai_uan_sma <= THEN kelas_target = resiko_rendah IF nilai_uan_sma > AND nilai_uan_sma > THEN kelas_target = resiko_tinggi Berdasarkan hasil aturan percobaan 3 pada Tabel 9, terlihat bahwa tingkat keberhasilan Fase Training Fase training pada naïve Bayes akan menghasilkan model berupa model probabilistik. Sebagai contoh, akan dijelaskan pembentukan model probabilistik dengan menggunakan data pada percobaan 1. Langkah-langkah dalam pembangunan model dengan menggunakan naïve Bayes, yaitu: 1 Menghitung nilai peluang prior setiap kelas (kelas resiko rendah, resiko sedang, dan resiko tinggi) 2 Menghitung nilai peluang bersyarat likelihood untuk seluruh atribut. 3 Menghitung nilai mean dan simpangan baku untuk atribut kontinu. 13

Menunjukkan lagi