PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI"

Transkripsi

1 PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2009 iv

2 PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2009 v

3 ABSTRACT YUNI ARTI. Determining First year IPB s Student Success Level using Decision Tree and Bayesian Classifier. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA GIRI. Tingkat Persiapan Bersama (TPB) or Collective s Preparation Level is the term that is used to call the first-year bachelor degree students in IPB (Bogor Agricultural University). IPB decides these firstyear students graduation from their academic result in the end of TPB year. The students can continue to the next education year if they complete many graduation requirements that was decided before. The success of the first year IPB s students can be looked from their academic graduation result. One of techniques can be used to determine student success is data mining. Data mining is used to build classifier that shows the success level of the first year student of IPB. This research aimed to develop classifier to describe the level of IPB s students success and predict the new student of IPB. This research uses two data mining method, that is decision tree and Bayesian classifier (naïve Bayes). Decision tree is used to describe the level of IPB s students success and to get crusial factor that determine IPB s students success in their first year. Naïve Bayes is used to predict the new student of IPB. The results this research are a probabilistic classifier naïve bayes with accuracy 57,160 % and a decision tree classifer that contains 3 classifiaction rules with accuracy 63,542%. According to the rules that we got from decision tree, the factor that influence the first year IPB student 2007/2008 is point of high school final examination. Keywords: data mining, decision tree, naïve bayes vi

4 Judul : Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB Menggunakan Induksi Pohon Keputusan dan Bayesian Classifier Nama : Yuni Arti NIM : G Menyetujui: Pembimbing I, Pembimbing II, Imas Sukaesih Sitanggang, S.Si., M.Kom. NIP Endang Purnama Giri, S.Kom., M.Kom. NIP Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. Drh. Hasim, DEA NIP Tanggal Lulus: vii

5 PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan karunia-nya sehingga tugas akhir dengan judul Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB menggunakan Induksi Pohon Keputusan dan Bayesian Classifier dapat diselesaikan. Penelitian ini dilaksanakan mulai Januari 2009 sampai dengan Juni 2009, bertempat di Departemen Ilmu Komputer IPB. Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain: 1 Kepada Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing pertama dan Bapak Endang Purnama Giri, S.Kom., M.Kom. selaku pembimbing kedua atas bimbingan dan arahannya selama pengerjaan tugas akhir. 2 Kepada Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku penguji tugas akhir. 3 Kepada bapak, mama, Mbak Ayu, Detri, Irvan Harimena, serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya. 4 Kepada teman seperjuangan sekaligus sahabat, Ninon yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat. 5 Kepada sahabat-sahabat harmony Veve, Cumil, Karin, Ntie, dan Ninon atas semangat dan dukungannya. 6 Kepada Anindra, Dimas, dan Mego ilkomerz 42, serta Wiwid dari statistika 42 atas bantuannya dalam persiapan seminar dan sidang. 7 Kepada teman satu bimbingan, Lena, Prita, dan Fuad. 8 Kepada teman sekosan Perwira 46, Dewy, Yani, Inda, Uci, Mbak Ria, Mbak Deby, Diah, Gina, dan Aurora. 9 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini. Semoga karya ilmiah ini bermanfaat. Bogor, Juni 2009 Yuni Arti viii

6 RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 2 Juni 1987 sebagai anak kedua dari tiga bersaudara dengan ayah bernama Tholib dan ibu bernama Sutanti. Pada tahun 2005 lulus dari Sekolah Menengah Atas (SMA) Negeri 98 Jakarta dan pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat I, Tingkat Persiapan Bersama di IPB, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama menjalani perkuliahan, penulis pernah bergabung dalam organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) pada tahun 2006 sampai dengan tahun 2007 sebagai staf Kesekretariatan. Pada tahun 2008, penulis melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi selama dua bulan. ix

7 DAFTAR ISI Halaman DAFTAR TABEL... v DAFTAR GAMBAR... v DAFTAR LAMPIRAN... v PENDAHULUAN Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 Manfaat... 1 TINJAUAN PUSTAKA Klasifikasi... 1 Pohon Keputusan... 2 Bayesian Classifier... 3 Naïve Bayes Classifier... 3 M-estimate... 3 Confusion Matrix... 4 Koefisien Korelasi Peringkat Spearman... 4 Uji Kebebasan Chi-Square... 5 METODE PENELITIAN Data... 5 Metode... 6 Lingkungan Pengembangan... 9 HASIL DAN PEMBAHASAN Integrasi dan Pembersihan Data... 9 Seleksi Data Transformasi Data Penentuan Data Training dan Data Testing Teknik Klasifikasi Induksi Pohon Keputusan Naïve Bayes Perhitungan Nilai Akurasi Evaluasi Keluaran KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN iv

8 DAFTAR TABEL Halaman 1 masalah 2 kelas Data yang digunakan Tabel kontingensi antara jenis kelamin dan kelas target Nilai frekuensi harapan dan chi-square atribut jenis kelamin Hasil uji kebebasan chi-square Hasil uji Spearman Penentuan data untuk induksi pohon keputusan Penentuan data untuk naïve Bayes Aturan-aturan dari percobaan Banyak aturan yang dihasilkan setiap percobaan Model Probabilistik Percobaan percobaan 1 menggunakan induksi pohon keputusan percobaan 2 menggunakan induksi pohon keputusan percobaan 3 menggunakan induksi pohon keputusan percobaan 4 menggunakan induksi pohon keputusan percobaan 1 menggunakan naïve Bayes percobaan 2 menggunakan naïve Bayes percobaan 3 menggunakan naïve Bayes percobaan 4 menggunakan naïve Bayes Hasil akurasi dari percobaan menggunakan induksi pohon keputusan Hasil akurasi dari percobaan menggunakan naïve Bayes Data uji tanpa label kelas untuk model terbaik induksi pohon keputusan Aturan-aturan dari percobaan Data uji tanpa label kelas untuk model terbaik naïve Bayes DAFTAR GAMBAR Halaman 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan Diagram alur proses klasifikasi dengan metode naïve Bayes Cara kerja metode induksi pohon keputusan Cara kerja metode naive Bayes Pohon keputusan pada percobaan DAFTAR LAMPIRAN Halaman 1 Kode mayor IPB tahun akademik 2007/ Tabel kontingensi dan perhitungan chi-square Kode nilai atribut kategorik yang digunakan dalam proses klasifikasi menggunakan induksi pohon keputusan dan naïve Bayes Contoh data training pada proses klasifiaksi dengan menggunakan induksi pohon keputusan Model probabilistik yang diperoleh percobaan dengan metode 10-fold cross validation menggunakan naïve Bayes Kode kategori untuk atribut asal daerah teman sekamar v

9 Latar Belakang PENDAHULUAN Tingkat I Program Sarjana Institut Pertanian Bogor (IPB) atau biasa disebut dengan Tingkat Persiapan Bersama IPB merupakan tingkat pertama bagi mahasiswa IPB dalam memasuki dunia perkuliahan. Pada tingkat ini, mahasiswa mengambil mata kuliah umum seperti Biologi, Matematika, Bahasa Indonesia, Bahasa Inggris, dan sebagainya sebagai bentuk persiapan bagi mahasiswa untuk menghadapi tingkat selanjutnya. Sebagai salah satu perguruan tinggi, IPB memiliki aturan dalam menentukan kelulusan mahasiswa Program Sarjana tingkat I. IPB menentukan kelulusan ini dari hasil akademik mahasiswa pada akhir tingkat pertama. Mahasiswa yang berhasil melalui tingkat I sesuai dengan syarat kelulusan yang telah ditentukan dapat melanjutkan tingkat berikutnya. Analisis tingkat keberhasilan mahasiswa tingkat I IPB perlu dilakukan untuk memperoleh faktor-faktor penentu keberhasilan studi mahasiswa tersebut. Selanjutnya faktorfaktor tersebut, dapat digunakan untuk memprediksi keberhasilan atau kegagalan mahasiswa yang baru masuk IPB. Dengan demikian pencegahan terjadinya kegagalan mahasiswa pada tingkat I dapat dilakukan sedini mungkin. Dalam penelitian ini teknik data mining digunakan untuk membuat suatu model klasifikasi dari data mahasiswa tingkat I IPB. Model klasifikasi yang dibangun yaitu model yang menunjukkan tingkat keberhasilan mahasiswa tingkat I IPB, yang kemudian dari model tersebut dapat diperoleh informasi faktor-faktor yang mempengaruhi keberhasilan atau kegagalan mahasiswa serta dapat memprediksi keberhasilan mahasiswa yang baru masuk IPB. Tujuan Tujuan dari penelitian ini adalah menerapkan teknik klasifikasi dalam membangun suatu model (classifier) tingkat keberhasilan mahasiswa tingkat I IPB dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier, memperoleh faktorfaktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan aturan-aturan yang berasal dari pohon keputusan tersebut, serta memprediksi keberhasilan mahasiswa baru IPB menggunakan model terbaik yang telah dibangun oleh Bayesian classifier. Ruang Lingkup Ruang lingkup penelitian ini dibatasi pada penggunaan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier. Metode induksi pohon keputusan digunakan untuk memperoleh faktorfaktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan model terbaik yang memiliki akurasi tertinggi, sedangkan Bayesian classifier digunakan untuk memprediksi keberhasilan mahasiswa baru IPB menggunakan model terbaik yang memiliki akurasi tertinggi. Data yang digunakan adalah data mahasiswa IPB tahun akademik 2007/2008 yang berasal dari Direktorat Tingkat Persiapan Bersama (Direktorat TPB), Panitia Penerimaan Mahasiswa Baru IPB (PPMB IPB), dan Badan Pengelola Asrama (BPA). Manfaat Penelitian ini diharapkan dapat memberikan informasi mengenai faktor-faktor yang dapat mempengaruhi tingkat keberhasilan mahasiswa tingkat I di IPB, deskripsi tingkat keberhasilan mahasiswa, dan prediksi tingkat keberhasilan mahasiswa baru IPB. Dengan demikian, diharapkan informasi tersebut dapat dimanfaatkan oleh IPB dalam mendukung proses pengambilan keputusan terkait dengan tingkat keberhasilan pendidikan mahasiswa tingkat I. Lebih lanjut, informasi tersebut juga dapat digunakan oleh mahasiswa tingkat I untuk lebih meningkatkan prestasi akademiknya. Klasifikasi TINJAUAN PUSTAKA Klasifikasi termasuk ke dalam kategori predictive data mining. Proses klasifikasi dibagi menjadi dua fase yaitu pembelajaran dan pengujian. Pada fase pembelajaran, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006). 1

10 Pohon Keputusan Pohon keputusan memiliki tiga macam node, yaitu (Tan et al. 2006): a node akar (root), tidak memiliki edge masuk dan memiliki nol atau lebih edge keluar. b node internal, masing-masing tepat memiliki satu edge masuk dan dua atau lebih edge keluar. c node daun (leaf atau terminal), masingmasing tepat memiliki satu edge masuk dan tidak memiliki edge keluar. Pada pohon keputusan, masing-masing node daun dinyatakan sebagai label kelas. Node nonterminal meliputi node akar dan node internal lainnya, mengandung atribut keadaan pengujian untuk memisahkan data yang memiliki karakteristik yang berbeda. Keadaan pengujian sepanjang path merupakan bentuk hubungan aturan antecedent, sedangkan kelas label pada node daun dinyatakan sebagai aturan consequent (Tan et al. 2006). Salah satu algoritme yang digunakan dalam membangun pohon keputusan, yaitu algoritme Hunt. Algoritme ini merupakan dasar dari banyak algoritme induksi pohon keputusan yang telah ada, seperti ID3, C4.5 dan CART. Algoritme induksi pohon keputusan (decision tree) dinamakan TreeGrowth. Input untuk algoritme ini terdiri atas data training E dan serangkaian atribut F. Algoritme bekerja secara rekursif memilih atribut terbaik untuk membagi satu (tahap 7) dan memperluas node daun pohon (tahap 11 dan 12) sampai keadaan berhenti ditemukan (tahap 1). Berikut ini merupakan algoritme induksi pohon keputusan (Tan et al. 2006): TreeGrowth (E, F) 1: jika stopping_cond (E,F) = terpenuhi, maka 2: daun = createnode(). 3: label.daun = Classify (E). 4: kembali pada node daun. 5: lainnya 6: akar = createnode(). 7: kondisi_test.akar = find_best_split (E,F). 8: misalkan V = {v v adalah kemungkinan hasil dari kondisi_test.akar }. 9: untuk setiap v V 10: E v = {e kondisi_test.akar (e) = v dan e E}. 11: anak = TreeGrowth(E v, F). 12: tambahkan anak sebagai turunan akar (akar anak) sebagai v. 13: akhir dari kondisi perulangan 14: akhir dari kondisi syarat jika 15: kembali pada akar. Penjelasan rinci algoritme di atas, yaitu (Tan et al. 2006): 1 Fungsi createnode() memperluas pohon keputusan dengan membuat node baru. Sebuah node dalam pohon keputusan memiliki sebuah kondisi tes, yang dinotasikan kondisi_test.node, atau label kelas, yang dinotasikan sebagai label.node. 2 Fungsi find_best_split() menentukan atribut mana yang harus dipilih sebagai kondisi tes untuk pemisahan training record. Pemilihan kondisi tes tergantung pada ukuran impurity yang digunakan untuk menentukan kualitas dari pemisahan. Beberapa ukuran yang digunakan adalah entropy, Gini index, dan statistik 2. 3 Fungsi Classify() menentukan label kelas untuk diberikan ke node daun. Untuk setiap node daun, misalkan p(i t) menyatakan fraksi dari training record dari kelas I yang berhubungan dengan node t. Dalam banyak kasus, node daun diberikan ke kelas yang memiliki banyaknya training record mayoritas: label.daun = argmax p(i t) i dimana operator argmax mengembalikan argumen i yang memaksimumkan pernyataan p(i t). Selain memberikan informasi yang diperlukan untuk menentukan label kelas dari node daun, fraksi p(i t) dapat juga digunakan untuk menduga probabilitas bahwa sebuah record yang diberikan ke node daun t adalah anggota dari kelas i. 4 Fungsi stopping_cond() digunakan untuk menghentikan proses pertumbuhan tree dengan menguji apakah semua record yang sesuai dengan node tertentu memiliki label kelas yang sama atau nilai atribut yang sama. Cara lain untuk menghentikan fungsi rekursif adalah menguji apakah banyaknya record yang sesuai dengan node tertentu telah berada di bawah nilai threshold minimum tertentu. Setelah membangun pohon keputusan, tahap tree-pruning dapat dilakukan untuk mengurangi ukuran pohon keputusan. Pohon keputusan yang terlalu besar mudah terjadi overfitting. Dua strategi untuk menghindari terjadinya overfitting pada induksi pohon keputusan, yaitu 2

11 prepruning (pemangkasan dilakukan sejak awal pembentukan pohon), dan postpruning (pemangkasan dilakukan saat pohon telah terbentuk) (Tan et al. 2006). Salah satu algoritme induksi pohon keputusan adalah algoritme C4.5. Berikut merupakan algoritme C.45 (Quinlan 1993): 1 Pohon keputusan dibangun dari data training (ID3 biasa). 2 Hasil pohon diubah menjadi sekumpulan aturan. Banyaknya aturan sama dengan banyaknya path yang mungkin dari akar sampai node daun. 3 Setiap aturan dipangkas dengan menghilangkan prasyarat sehingga dapat meningkatkan akurasi klasifikasi. 4 Aturan yang telah dipangkas kemudian diurutkan, dan digunakan saat mengklasifikasikan contoh pengujian yang akan datang. Bayesian Classifier Bayesian classifier merupakan sebuah pendekatan untuk memodelkan peluang hubungan antara himpunan atribut dengan kelas variabel tersebut. Implementasi dari Bayesian classifier, yaitu naïve Bayes classifier dan Bayesian belief network. (Tan et al. 2006). Andaikan X dan Y merupakan pasangan variabel acak. Peluang bersama keduanya, P(X=x, Y=y) menunjukkan peluang bahwa variabel X akan mengambil nilai x dan variabel Y akan mengambil nilai y. Suatu peluang bersyarat merupakan peluang bahwa sebuah variabel acak mengambil nilai tertentu jika diberikan variabel acak lain yang nilainya sudah diketahui. Sebagai contoh, peluang bersyarat P(Y=y X=x) menunjukkan peluang bahwa variabel Y akan mengambil nilai y, jika diberikan variabel X yang ditinjau memiliki nilai x. Peluang bersama dan bersyarat untuk X dan Y dapat dilihat pada formula berikut (Tan et al. 2006): Dari formula itu, dapat diperoleh teorema Bayes (Tan et al. 2006): dengan Teorema Bayes merupakan dasar statistik dalam mengkombinasikan pengetahuan sebelumnya dari suatu kelas dengan keterangan baru yang terkumpul dari data. Variabel X pada persamaan 2 menunjukkan serangkaian atribut, sedangkan variabel Y menunjukkan variabel kelas. Jika variabel kelas memiliki hubungan non-deterministic dengan atribut-atribut, dapat diperlakukan X dan Y sebagai variabel acak dan menangkap hubungan keduanya secara probabilistik menggunakan P(Y X). P(Y X) merupakan peluang bersyarat yang juga dikenal sebagai posterior probability terhadap Y, sedangkan P(Y) merupakan prior probability (Tan et al. 2006). Naïve Bayes Classifier Naïve Bayes classifier menduga kelas peluang bersyarat dengan mengasumsikan atribut secara kondisi bebas, jika diberi label kelas y (Tan et al. 2006). Naïve Bayes merupakan salah satu algoritme klasifikasi yang paling efektif dan efisien. Pada masalah pembelajaran klasifikasi, suatu pembelajaran berusaha membangun classifier dari serangkaian data training yang memiliki kelas. Diasumsikan bahwa A 1,A 2,...,A n merupakan n atribut. Suatu contoh E direpresentasikan oleh sebuah vektor (a 1,a 2,...,a n ), dimana a i merupakan nilai atribut A i. Variabel C menunjukkan variabel kelas yang memiliki nilai + (kelas positif) atau nilai (kelas negatif). Variabel c menunjukkan nilai dari variabel C. Sebuah naïve Bayes classifier atau naïve Bayes sederhana didefinisikan sebagai berikut: Karena nilai p(a i c) dapat diduga dari data training, maka mudah untuk membangun naïve Bayes (Zhang & Su 2004). M-estimate Jika peluang kelas bersyarat untuk atribut adalah nol, maka keseluruhan peluang bersyarat untuk kelas akan tidak dapat dihitung. Pendekatan mengestimasi peluang kelas bersyarat menggunakan tuple pecahan mungkin terlihat kurang kuat, khususnya jika training sample yang tersedia kecil dan jumlah atribut besar (Tan et al. 2006). Masalah ini dapat diatasi dengan menggunakan pendekatan m- estimate untuk mengestimasi peluang bersyarat 3

12 dengan: n = jumlah data training dimana v = v j n c = jumlah data training dimana v = v j dan a = a i p = prior estimate untuk P(a, i\v j ) m = ukuran sampel ekuivalen Cara yang digunakan untuk memilih nilai p jika informasi lain tidak ada adalah asumsi keseragaman, yaitu p = 1/k, dimana k adalah jumlah nilai atribut a i yang dapat diambil. Untuk nilai m, jika m bernilai nol, maka m-estimate akan ekuivalen dengan n c /n. Jika n dan m keduanya tidak nol, maka fraksi yang diamati adalah n c /n dan probabilitas prior p akan dikombinasikan menurut bobot m. Nilai m dinamakan ukuran sampel ekuivalen karena dalam persamaan m-estimate terjadi penguatan observasi aktual n dengan adanya tambahan sampel virtual m yang terdistribusi menurut p. Nilai m bisa diberi nilai sembarang, misalnya 3, tetapi konsisten untuk semua atribut (Santosa 2007). Evaluasi model klasifikasi didasarkan pada perhitungan data pengujian yang diprediksi secara tepat dan tidak tepat oleh model. Perhitungan ini disusun ke dalam suatu tabel yang dikenal sebagai confusion matrix. Tabel 1 menggambarkan confusion matrix untuk masalah klasifikasi biner. Setiap masukan f ij pada tabel menunjukkan sejumlah data dari kelas i yang diprediksi menjadi kelas j. Sebagai contoh, f 01 menunjukkan sejumlah kelas 0 yang diprediksi tidak tepat sebagai kelas 1. Berdasarkan masukan pada confusion matrix, total data yang diprediksi tepat oleh model adalah (f 11 + f 00 ) dan total data yang diprediksi tidak tepat adalah (f 10 + f 01) (Tan et al. 2006). Tabel 1 masalah 2 kelas Kelas Kelas=1 Kelas=0 Kelas=1 f 11 f 10 Kelas=0 f 01 f 00 Berdasarkan data dalam confusion matrix dapat dihitung akurasi dari model klasifikasi yang dihasilkan menggunakan formula berikut: Sebagian besar algoritme klasifikasi mencari model yang mencapai akurasi tinggi, atau sama halnya, rata-rata error yang rendah saat diaplikasikan pada data uji (Tan et al. 2006). Koefisien Korelasi Peringkat Spearman Korelasi peringkat merupakan ukuran yang menunjukkan derajat keeratan hubungan diantara peubah. Salah satu ukuran asosiasi yang dikenal yaitu Koefisien Korelasi Peringkat Spearman. Asumsi pada korelasi ini antara lain (Daniel 1990): Data terdiri atas contoh acak n berpasangan pengamatan numerik atau bukan numerik. Tiap pasang pengamatan menunjukkan dua ukuran yang diperoleh dari objek atau individu yang sama. Langkah perhitungan koefisien korelasi peringkat Spearman (Daniel 1990): Jika data terdiri atas pengamatan dari suatu populasi bivariabel, ditunjukkan n pasang pengamatan yang diperoleh yaitu (X 1,Y 1 ), (X 2,Y 2 ),, (X n,y n ). Tiap X diperingkatkan terhadap seluruh pengamatan X lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari X ditunjukkan dengan R(X i ) dan R(X i ) = 1 jika X i nilai pengamatan terkecil dari X. Tiap Y diperingkatkan terhadap seluruh pengamatan Y lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari Y ditunjukkan dengan R(Y i ) dan R(Y i ) = 1 jika Y i nilai pengamatan terkecil dari Y. Jika ada nilai yang sama (ties) diantara X dan Y, digunakan peringkat rata-rata. Jika data bukan numerik, maka harus mampu diperingkatkan. Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Daniel 1990): Ho: X dan Y bebas H1: X dan Y berhubungan langsung atau kebalikan Statistik uji yang digunakan adalah statistik r s yang dirumuskan dengan (Daniel 1990): dengan: d i = jumlah kuadrat beda antara peringkat record X ke-i dengan peringkat record Y ke-i 4

13 R(X i ) = peringkat record ke-i pada atribut X R(Y i ) = peringkat record ke-i pada atribut Y n = banyaknya record r s = koefisien korelasi, dengan -1 r s 1 Kaidah keputusan yang digunakan yaitu, jika r s > nilai kritis koefisien korelasi spearman untuk n dan α(2) atau r s < nilai kritis ini, maka tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai α menunjukkan taraf nyata yang digunakan. Nilai kritis ini diperoleh dari tabel koefisien korelasi peringkat Spearman. Jika terdapat nilai yang sama pada pengamatan (ties), maka digunakan rumus sebagai berikut (Daniel 1990): dengan: tx ty = banyaknya pengamatan X yang sama untuk nilai tertentu (untuk peringkat tertentu) = banyaknya pengamatan Y yang sama untuk nilai tertentu (untuk peringkat tertentu) Saat pemeriksaan angka yang sama (ties) digunakan,maka statistik uji yang digunakan adalah Adapun perkiraan statistik uji nilai r s jika jumlah pengamatan > 100, yaitu mengunakan statistik Z, dimana Z menyebar normal baku (Daniel 1990). Uji Kebebasan Chi-Square Hubungan diantara peubah kategorik yang berskala nominal dapat dianalisis dengan menggunakan uji kebebasan chi-square. Data dalam pengujian hubungan disajikan dalam bentuk tabel kontingensi. Bentuk umum tabel kontingensi, yaitu berukuran i baris j kolom. Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Freeman 1987): Ho: P ij = P i.p j (saling bebas atau tidak ada hubungan). H1: P ij P i.p j (tidak saling bebas atau terdapat hubungan). Statistik uji yang digunakan adalah statistik 2 yang dirumuskan dengan (Freeman 1987): dengan: n i = total record pada baris ke-i n j = total record pada kolom ke-j n = total pengamatan P i = proporsi total record pada baris ke-i terhadap total pengamatan P j = proporsi total record pada kolom kej terhadap total pengamatan E ij = frekuensi harapan pada baris ke-i dan kolom ke-j O ij = frekuensi pengamatan pada baris ke-i dan kolom ke-j 2 = nilai chi-square 2 Bentuk sebaran tergantung dari derajat bebas (db), dimana derajat bebas menunjukkan banyaknya parameter (informasi) minimum yang digunakan. Kaidah keputusan yang digunakan yaitu jika 2 nilai statistik > nilai 2 (db,α) dari tabel chisquare, maka tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai db yang digunakan yaitu (i-1) (j-1). Nilai α menunjukkan taraf nyata yang digunakan. Data METODE PENELITIAN Banyak studi yang telah lakukan untuk menjelaskan prestasi akademik atau memprediksi kesuksesan akademik dalam dunia pendidikan, salah satunya adalah Parmentier pada tahun Parmentier menunjukkan bahwa prestasi akademik pertengahan dan akhir dari 5

14 mahasiswa dipengaruhi oleh tiga kumpulan faktor, yaitu berbagai hal yang berhubungan dengan latar belakang pribadi mahasiswa (identitas, pendidikan, keluarga, dan lain-lain), ekspresi keterlibatan atau tingkah laku mahasiswa terhadap pendidikan (partisipasi pada kegiatan pilihan, bertemu dengan profesor untuk bertanya atau memperoleh feedback pada ujian berkala, dan lain-lain), dan persepsi dari mahasiswa (persepsi mahasiswa terhadap konteks akademik, profesornya, kuliah, dan lain-lain) (Superby et al. 2005). Penelitian ini hanya menggunakan dua faktor Parmentier, yaitu faktor data pribadi mahasiswa dan faktor keterlibatan mahasiswa terhadap pendidikan. Data yang digunakan dapat dilihat pada Tabel 2. Pada Tabel 2, tabel biodata mahasiswa masuk ke dalam faktor data pribadi mahasiswa, sedangkan tabel IPK, gedung dan kegiatan asrama masuk ke dalam faktor keterlibatan mahasiswa terhadap pendidikan. Tabel 2 Data yang digunakan Kelompok data Biodata mahasiswa IPK Gedung asrama Kegiatan asrama Atribut NIM, riwayat pendidikan orangtua, jalur masuk, riwayat kesehatan, jenis kelamin, pendapatan orangtua, jurusan, hobi, jumlah nilai UAN, dan wilayah asal SMU NIM dan IPK TPB NIM, gedung, dan kamar NIM, dan kehadiran kegiatan Sumber data Direktorat TPB PPMB IPB BPA BPA Pengklasifikasian mahasiswa untuk menentukan tingkat keberhasilan mahasiswa tahun pertama di suatu perguruan tinggi dibagi menjadi tiga kategori, yaitu low risk (memiliki kemungkinan/resiko kecil tidak lulus), medium risk (dibolehkan lulus berdasarkan ukuran yang diambil perguruan tinggi), dan high risk (memiliki kemungkinan/resiko besar tidak lulus atau drop out) (Superby et al. 2005). Ketiga kategori ini yang akan dijadikan label kelas. Metode Data mining merupakan bagian integral dari Knowledge Discovery in Database (KDD), yang prosesnya secara keseluruhan mengubah barisan data menjadi informasi yang berguna. Proses terdiri atas rangkaian langkah transformasi dari proses preprocessing hingga postprocessing dari hasil data mining (Tan et al. 2006). Penelitian ini mengacu pada proses KDD tersebut. Tahapan penelitian ini sebagaimana diilustrasikan pada Gambar 1 dan Gambar 2. Gambar 1 menunjukkan alur proses klasifikasi dengan menggunakan metode induksi pohon keputusan, sedangkan Gambar 2 alur proses klasifikasi dengan menggunakan metode naïve Bayes. Kedua alur proses klasifikasi tersebut melalui tahap praproses yang sama, yang membedakan hanya pada evaluasi keluaran yang diperoleh. Data training Pembuatan model klasifikasi menggunakan Decision Tree Classifier (pohon keputusan) Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi Pemilihan classifier dengan nilai akurasi tertinggi Classifier terbaik (pohon keputusan) Deskripsi Mahasiswa IPB (Low Risk/Medium Risk/High Risk) berdasarkan rule-rule yang terbentuk Data mahasiswa Preprocessing Data cleaning dan data integration Data selection dan data transformation Data set Penentuan data training dan data testing Data testing Gambar 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan. 6

15 Data training Pembuatan model klasifikasi menggunakan metode Bayesian (Naïve Bayes classifier) Classifier (model probabilistik) Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi Data mahasiswa Preprocessing Data cleaning dan data integration Data selection dan data transformation Data set Penentuan data training dan data testing Data testing testing. Penentuan data set dilakukan dengan menggunakan pembagian 70% untuk training dan 30% untuk testing serta metode 10-fold cross validation. 6 Data mining, tahap ini merupakan proses yang penting, dimana metode diterapkan untuk menggali pola data yang ada. Metode yang digunakan yaitu induksi pohon keputusan dan naïve Bayes. Model klasifikasi dibuat oleh masing-masing metode dengan menggunakan teknik data mining ini. Cara kerja metode induksi pohon keputusan seperti diilustrasikan pada Gambar 3. Data training Pembagian data training ke dalam subset-subset (Dt) Pemilihan classifier dengan nilai akurasi tertinggi Ya Jika record pada Dt anggota kelas yang sama yt Tidak Classifier terbaik (model probabilistik) Prediksi Keberhasilan Mahasiswa Baru IPB dengan Menggunakan Classifier Terbaik (Low Risk/Medium Risk/High Risk) Data mahasiswa baru (dengan label kelas) Data mahasiswa baru (tanpa label kelas) Variabel t = node daun dengan label yt Penentuan atribut yang digunakan sebagai kondisi tes menggunakan ukuran impurity (information gain) Nilai information gain tiap atribut Gambar 2 Diagram alur proses klasifikasi dengan metode naïve Bayes. Alur proses klasifikasi Gambar 1 dan Gambar 2 dapat diuraikan sebagai berikut: 1 Integrasi data, menggabungkan tabel dari Direktorat TPB, PPMB IPB, dan BPA yaitu biodata mahasiswa, IPK, gedung, dan kegiatan asrama. 2 Pembersihan data, membuang data yang mengandung nilai yang hilang dan data yang duplikat. 3 Seleksi data, mengambil data yang relevan dengan cara memilih atribut yang berpengaruh menggunakan uji hipotesis kebebasan chi-square dan uji Spearman. 4 Transformasi data, mengubah data ke bentuk yang dapat di-mining sesuai dengan perangkat lunak yang digunakan pada penelitian. 5 Penentuan data training dan data testing, sebelum melalui tahap data mining, ditentukan terlebih dahulu data set yang akan digunakan. Data set dibagi menjadi dua bagian, yaiu data training dan data Ya Pemangkasan pohon Classifier (pohon keputusan sudah dipangkas) Pemilihan atribut dengan nilai information gain tertinggi Atribut terpilih Kondisi berhenti tes atribut terpenuhi Ya Classifier (pohon keputusan) Ukuran pohon keputusan besar Tidak Tidak Classifier (pohon keputusan tanpa dipangkas) Gambar 3 Cara kerja metode induksi pohon keputusan. Berikut ini merupakan uraian cara kerja induksi pohon keputusan pada Gambar 3 dalam membangun pohon keputusan: 7

16 Pembagian data training ke dalam subsetsubset. Misalkan Dt adalah himpunan dari training record yang berasosiasi dengan node t dan y = {y 1, y 2,..., y c } adalah labellabel kelas. Jika semua record dalam Dt anggota kelas yang sama yt, maka t adalah node daun dengan label yt. Jika D t mengandung record yang merupakan anggota dari lebih dari dari satu kelas, sebuah kondisi tes atribut dipilih untuk mempartisi record-record ke dalam subset-subset yang lebih kecil. Child node dibuat untuk setiap keluaran dari kondisi tes dan record-record dalam D t didistribusikan ke children berdasarkan pada keluaran dari kondisi tes. Selanjutnya, algoritme secara rekursif diaplikasikan ke setiap child node (Tan et al. 2006). Penentuan atribut yang digunakan sebagai kondisi tes atribut dilakukan dengan menggunakan ukuran impurity. Salah satu ukuran impurity yang digunakan yaitu information gain. Jadi, dalam memilih atribut untuk memecah obyek ke dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain paling besar (Santosa 2007). Kondisi berhenti dilakukan dengan menguji apakah semua record memiliki label kelas yang sama atau nilai atribut yang sama (Tan et al. 2006). Setelah membangun pohon keputusan, langkah tree-pruning dapat dilakukan untuk mengurangi ukuran dari pohon keputusan. Pruning dilakukan dengan memangkas cabang-cabang dari pohon awal untuk meningkatkan kemampuan generalisasai dari pohon keputusan (Tan et al. 2006). Cara kerja metode naïve Bayes classifier dilustrasikan pada Gambar 4. Berikut ini merupakan uraian cara kerja metode naïve Bayes pada Gambar 4: Setiap data contoh yang direpresentasikan dengan sebuah n-vektor fitur dimensional, X=(x 1,x 2, x n ), menggambarkan ukuran n yang dibuat pada contoh dari n atribut, berturut-turut A 1,A 2,,A n (Han & Kamber 2006). Tidak Data testing Suatu data X masuk kelas C3 (resiko tinggi) Penentuan data training dan data testing Tidak Untuk atribut kategorik P(xk Ci) = sik/si P(X C2) P(C2) > P(X C1) P(C1) && P(X C2) P(C2) > P(X C3) P(C3) Data training Menghitung nilai P(Ci), i=1,2,dan 3 Menghitung nilai P(xk Ci) Model probabilistik Menghitung nilai P(X Ci) dan P(Ci) per record Menghitung nilai P(Ci X) = P(X Ci) P(Ci) P(X C1) P(C1) > P(X C2) P(C2) && P(X C1) P(C1) > P(X C3) P(C3) Ya Suatu data X masuk kelas C2 (resiko sedang) Gambar 4 Cara kerja metode naïve Bayes. Untuk atribut kontinu menggunakan fungsi sebaran Gaussian P(xk Ci) = g(xk, μci.,σ Ci.) Ya Suatu data X masuk kelas C1 (resiko rendah) Andaikan terdapat m kelas, C 1,C 2,,C n. diberikan suatu data contoh X yang belum memiliki kelas, classifer akan memprediksi X masuk ke dalam suatu kelas dengan nilai posterior probability tertinggi, dengan kondisi pada X. Naïve Bayes classifier menentukan kelas data X pada kelas C i jika dan hanya jika P(C i X) > P(C j X), untuk 1 j m, j i. Jadi, dimaksimumkan P(Ci X). Kelas C i untuk P(C i X) dimaksimumkan oleh maximum posteriori hypothesis. Dengan teorema Bayes: Karena P(X) tetap untuk seluruh kelas, maka hanya nilai P(X C i ) P(C i ) yang perlu dimaksimumkan. Jika kelas prior probability tidak diketahui, maka umumnya diasumsikan bahwa prior probability kelas-kelas tersebut kemungkinan memiliki nilai yang sama, P(C 1 ) = P(C 2 ) = P(C 3 ) =... = P(C m ), dan kita dapat memaksimumkan hanya nilai P(X C i ). Kelas prior probability mungkin diduga dengan P(C i ) = s i /s, dimana s i banyaknya data training pada kelas C i dan 8

17 s total banyaknya data training (Han & Kamber 2006). Menghitung nilai P(X C i ) P(X C i ) = Π n k=1 P(x k C i ) Peluang P(x 1 C i ), P(x 1 C i ),..., P(x n C i ) dapat diduga dari data training, dimana a jika A k atribut kategorik, maka: P(x k C i ) = s ik /s i, di mana s ik banyaknya data training pada kelas C i yang memiliki nilai x k untuk A k dan s i banyaknya data training pada kelas C i. b jika A k atribut kontinu, maka atribut secara khusus diasumsikan memiliki sebaran Gaussian, sehingga: P(x k C i ) = g(x k, μc i.,σ C i. ) = 1 e -(x k -μc i )2 /2σ C i 2 σ C i. di mana g(x k, μc i.,σ C i. ) fungsi kepadatan Gaussian (normal) untuk atribut A k, sedangkan μc i. dan σ C i berturut-turut merupakan rata-rata dan standar deviasi untuk atribut A k data training kelas C i (Han & Kamber 2006). Untuk mengklasifikasikan data X yang belum memiliki kelas, nilai P(X C i ) P(C i ) untuk setiap kelas C i dievaluasi. Data X ditentukan masuk pada kelas C i jika dan hanya jika P(X C i ) P(C i ) > P(X C j ) P(C j ), untuk 1 j m, j i. Data X yang ditentukan pada kelas C i dimaksimumkan oleh P(X C i ) P(C i ) (Han & Kamber 2006). 7 Perhitungan nilai akurasi, setelah classifier telah dibangun pada kedua metode, maka dilakukan pengujian dengan menggunakan data testing untuk mengetahui keakuratan setiap classifer. Keakuratan classifer dihitung dengan menggunakan confusion matrix. Classifier terbaik dipilih berdasarkan nilai akurasi tertinggi pada masing-masing metode. 8 Evaluasi keluaran, pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi yang diperoleh dari data. Classifier yang diperoleh dari naïve Bayes berupa model probabilistik, dimana model ini dapat memprediksi keberhasilan mahasiswa baru IPB. Evaluasi keluaran dilakukan dengan memasukkan data uji tanpa kelas pada model probabilitik terbaik hingga diperoleh kelas target yang sesuai. Classifier yang diperoleh dari induksi pohon keputusan yaitu berupa aturanaturan yang diperoleh dari pohon keputusan, dimana aturan-aturan tersebut mendeskripsikan tingkat keberhasilan mahasiswa. Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut: a Perangkat keras berupa komputer personal dengan spesifikasi: Memori DDR 768 MB Harddisk 40 GB b Perangkat lunak Sistem operasi Windows XP Profesional Intel Pentium M processor 1.60GHz QtOctave Weka Microsoft Access 2007 Microsoft Excel 2007 HASIL DAN PEMBAHASAN Data yang digunakan terdiri atas empat kelompok data (tabel) dan keempatnya disimpan dalam format yang berbeda, yaitu biodata mahasiswa dalam format spreadsheet Excel, IPK mahasiswa dalam format spreadsheet Excel, gedung asrama dalam format Ms. Word, dan kegiatan asrama dalam format DBMS Ms. Access. Sebelum melalui tahap praproses, pada tabel IPK ditambahkan atribut jurusan dan label kelas. Atribut jurusan diperoleh dengan melihat NIM mahasiswa, kemudian mencocokkannya dengan kode jurusan mayor IPB tahun akademik 2007/2008. Kode jurusan mayor IPB dapat dilihat pada Lampiran 1. Selanjutnya, penentukan label kelas dari tiap mahasiswa dilakukan dengan melihat nilai IPK, dimana jika IPK 2.76 maka label kelas resiko rendah, jika 2 nilai IPK < 2.76 maka resiko sedang, dan jika IPK < 2 maka resiko tinggi. Dengan demikian, atribut pada IPK menjadi ada 6, yaitu NIM, nama, status kelanjutan studi, IPK, jurusan, dan kelas target. Integrasi dan Pembersihan Data Setelah dilakukan penambahan atribut jurusan dan label kelas pada tabel IPK, format penyimpanan biodata dan IPK mahasiswa masing-masing diubah terlebih dahulu, dari 9

18 format Ms. Excel menjadi format Ms. Access. Hal ini dilakukan untuk memudahkan dalam tahap praproses berikutnya. Data yang digabungkan pertama kali yaitu biodata mahasiswa dan IPK mahasiswa. Biodata mahasiswa memiliki 3010 record dengan atribut sebanyak 64 sedangkan IPK mahasiwa terdiri dari 2989 record dan 6 atribut. Penggabungan data IPK dan biodata mahasiswa dilakukan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut, dan hasilnya ada sebanyak 2775 record dengan 70 atribut. Selanjutnya dilakukan pemilihan atribut pada hasil gabungan data IPK dan biodata mahasiswa. Dari 70 atribut, dipilih sebanyak 13 atribut, yaitu nama, nim, jurusan, kelas target, jalur masuk, jenis kelamin, pendapatan, pendidikan, alamat, nama SMA, jumlah NEM, minat, dan sakit. Penggabungan selanjutnya dilakukan antara data gedung asrama dan data hasil gabungan IPK dan biodata. Data gedung asrama terdiri dari 6 atribut, yaitu nama, NIM, gedung, kamar, asal SMA, dan propinsi. Sebelumnya, data gedung asrama dirapihkan dan digabungkan terlebih dahulu ke dalam format Ms. Excel, karena dokumen ini tersebar dalam beberapa file dokumen per gedung asrama (A1, A2, A3, C1, C2, C3, dan RUSUNAWA). Format data gedung kemudian diubah lagi ke dalam format Ms. Access. Setelah itu, ditambahkan atribut asal daerah dan asal teman sekamar. Atribut asal daerah dibuat dalam skala pulau dengan bantuan atribut asal SMA. Kemudian atribut asal daerah teman sekamar diperoleh dengan bantuan atribut NIM, asal daerah, serta gedung dan kamar asrama. Data gedung asrama kemudian digabung dengan data hasil gabungan data IPK dan biodata mahasiswa. Penggabungan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut. Data terakhir yang digabungkan adalah kegiatan asrama. Data kegiatan asrama juga tersebar pada beberapa file dengan format Ms. Access. Sebelumnya data dirapihkan dan digabung dalam satu file kegiatan asrama. Data kegiatan asrama terdiri atas NIM, ID kegiatan, total kegiatan, total kehadiran, izin, sakit, dan tanpa keterangan. Atribut yang dipilih yaitu hanya NIM dan total kehadiran. Selanjutnya data kegiatan asrama digabung dengan data hasil gabungan data IPK, biodata mahasiswa, dan gedung asrama. Penggabungan berdasarkan kesamaan NIM pada kedua data. Ketika dilakukan tahap penggabungan data, data yang tidak memiliki NIM yang sama dengan NIM pada data lain akan secara langsung tereliminasi. Record yang mengandung nilai kosong atau duplikat pun dihilangkan dari data. Atribut yang duplikat juga dihilangkan. Hasil akhir dari proses penggabungan data IPK, biodata mahasiswa, gedung asrama, dan kegiatan asrama berupa tabel baru yang terdiri atas 1194 record dan 12 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, kehadiran kegiatan, dan kelas target. Hasil penggabungan data IPK dan biodata mahasiswa sebanyak 2775 record yang digunakan dalam proses klasifikasi dengan menggunakan metode naïve Bayes. Pada pembuatan model klasifikasi menggunakan naïve Bayes tidak mengikutsertakan data dari BPA (Badan Pengelola Asrama) karena model digunakan untuk memprediksi mahasiswa baru IPB yang belum mengikuti kegiatan BPA. Berbeda dengan proses klasifikasi dengan menggunakan metode induksi pohon keputusan, pada metode ini digunakan hasil penggabungan akhir data IPK, biodata mahasiswa, gedung, dan kegiatan asrama sebanyak 1194 record yang mengikutsertakan data dari BPA. Seleksi Data Pemilihan atribut dilakukan terhadap 11 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, dan kehadiran kegiatan dengan menggunakan uji hipotesis statistika. Uji yang digunakan yaitu uji kebebasan chi-square dan uji korelasi peringkat Spearman. Uji kebebasan diterapkan untuk atribut yang bertipe kategorik nominal, yaitu untuk atribut jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, hobi, dan riwayat kesehatan. Uji Spearman diterapkan untuk atribut yang bertipe numerik, yaitu nilai UAN SMA dan kehadiran kegiatan. Uji kebebasan dan uji Spearman dilakukan untuk melihat hubungan antara setiap atribut dengan kelas target, berpengaruh atau tidak. Jika berdasarkan uji yang dilakukan suatu atribut dinyatakan tidak berpengaruh, maka atribut tersebut dihilangkan, dan sebaliknya. Kelas target dalam hal ini yang menunjukkan tingkat keberhasilan mahasiswa. 10

19 Sebelum dilakukan uji kebebasan, dibuat 9 tabel kontingensi terlebih dahulu antara setiap atribut dengan kelas target. Tabel kontingensi antara atribut jenis kelamin dan kelas target dapat dilihat pada Tabel 3, sedangkan tabel kontingensi lainnya dapat dilihat pada Lampiran 2. Tabel 3 Tabel kontingensi antara jenis kelamin dan kelas target Jenis kelamin Resiko rendah Kelas target Resiko sedang Resiko tinggi Perempuan Laki-laki Selanjutnya, dihitung nilai frekuensi harapan (E ij ) dan nilai chi-square ( 2 ) dari setiap tabel kontingensi. Tabel 4 menunjukkan hasil perhitungan E ij dan 2 untuk atribut jenis kelamin. Tabel 4 Nilai frekuensi harapan dan chi-square atribut jenis kelamin E i1 E i2 E i3 i1 2 i2 2 i (db, α) = 2 (2, 0.05) 5.99 Nilai α yang digunakan yaitu sebesar Berdasarkan Tabel 2, nilai > 2 (db, α). Oleh karena itu, dapat disimpulkan bahwa pada taraf nyata α = 0.05, peubah jenis kelamin berpengaruh nyata dengan atribut kelas target. Untuk nilai frekuensi harapan dan chi-square atribut lainnya dapat dilihat pada Lampiran 2. Untuk hasil uji kebebasan secara keseluruhan dapat dilihat pada Tabel 5. Tabel 5 Hasil uji kebebasan chi-square Atribut Asal daerah Asal teman sekamar Hobi Jalur masuk Jenis kelamin Jurusan Pendapatan Riwayat kesehatan Riwayat pendidikan Hubungan dengan kelas target Berpengaruh Tidak berpengaruh Berpengaruh Berpengaruh Berpengaruh Berpengaruh Tidak berpengaruh Tidak berpengaruh Tidak berpengaruh Uji yang dilakukan selanjutnya yaitu uji Spearman. Uji ini hanya digunakan untuk atribut nilai UAN SMA dan kehadiran kegiatan. Hasil dari uji ini dapat dilihat pada Tabel 6. Tabel 6 Hasil uji Spearman Atribut Nilai UAN SMA Kehadiran kegiatan Transformasi Data Hubungan dengan kelas target Berpengaruh Berpengaruh Pada penelitian ini, teknik data mining yang digunakan adalah induksi pohon keputusan dan naïve Bayes. Keduanya menggunakan perangkat lunak yang berbeda. Oleh karena itu, sebelum memasuki tahap data mining, data ditransformasi terlebih dahulu ke bentuk yang dapat di-mine, disesuaikan dengan perangkat lunak yang digunakan. Proses klasifikasi menggunakan induksi pohon keputusan dikerjakan pada perangkat lunak Weka Untuk memudahkan dalam proses klasifikasi, nilai-nilai atribut pada atribut kategorik dikodekan, dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format arff WEKA dan ditambahkan inisialisasi untuk masing-masing atribut, seperti di bawah jurusan {A1, A2, A3, A4, B, C1, C2, C3, C4, C5, D, E1, E2, E3, E4, F1, F2, F3, G1, G2, G3, G4, G5, G6, G7, G8, H1, H2,H3, H4, I1, I2, asal_daerah {JA,KAL, MAL, NT, PAP, SUL, SUM, jalur_masuk {USMI, SPMB, PIN, jenis_kelamin {L, nilai_uan_sma hobi {KHS, OR, AGM, SEN, kehadiran_kegiatan kelas_target {resiko_rendah, resiko_sedang, menunjukkan nama data set yang digunakan. menunjukkan atribut dan nilai atribut, dimana bertipe data nominal atau numerik (real atau integer). Yang terakhir yang 11

20 menunjukkan inisialisasi untuk keseluruhan isi data. Proses klasifikasi menggunakan naïve Bayes dikerjakan pada perangkat lunak QtOctave Data yang bertipe kategorik (asal daerah, hobi, jalur masuk, jenis kelamin, jurusan) direpresentasikan dalam bentuk kategori angka. Hal ini dilakukan untuk mempermudah proses klasifikasi dengan menggunakan QtOctave Misalnya pada atribut kategorik kelas target, nilai atribut resiko rendah, resiko sedang, dan resiko tinggi direpresentasikan berturut-turut dengan angka 1, 2 dan 3. Untuk lebih jelasnya, nilai atribut kategorik dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format file text. Penentuan Data Training dan Data Testing Penentuan data training dan data testing menggunakan dua metode, yaitu dengan pembagian 70% training dan 30% testing, serta 10-fold cross validation. Masing-masing metode dibuat dua percobaan, yaitu percobaan menggunakan data set dengan proporsi jumlah record setiap kelas target sama dan dengan proporsi jumlah record setiap kelas target berbeda. Dalam teknik pembagian data dengan menggunakan 10-fold cross validation, data dibagi menjadi (S1,,S10) yang berbeda dengan jumlah sama besar. Setiap kali sebuah subset digunakan sebagai test set, maka 9 buah partisi lainnya akan dijadikan sebagai training set. Data set yang digunakan induksi pohon keputusan yaitu terdiri atas 7 atribut termasuk kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, kehadiran kegiatan, hobi, dan kelas target dan 1194 record, sedangkan pada naïve Bayes yaitu terdiri atas 6 atribut termasuk kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, hobi, dan kelas target, dan 2775 record. Pada masing-masing data set, sebelumnya diambil sebanyak 1% untuk data uji tanpa kelas, yang akan digunakan pada model akhir yang dihasilkan. Sehingga diperoleh sebanyak 12 record untuk data uji tanpa kelas pada pohon keputusan, sedangkan pada naïve Bayes ada sebanyak 28 record. Kemudian sisa data set yang akan digunakan untuk data training dan data testing. Penentuan data training dan data testing untuk lebih jelasnya dapat lihat pada Tabel 7 dan Tabel 8. Tabel 7 Penentuan data untuk induksi pohon keputusan Proporsi jumlah record setiap kelas target Berbeda Sama Percobaan Data set Metode uji 70% training dan 30% testing k-fold cross validation 70% training dan 30% testing k-fold cross validation Tabel 8 Penentuan data untuk naïve Bayes Proporsi jumlah record setiap kelas target Berbeda Sama Percobaan Teknik Klasifikasi Data set Metode uji 70% training dan 30% testing k-fold cross validation 70% training dan 30% testing k-fold cross validation Pada tahap ini dilakukan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan untuk membangun model pohon keputusan dan metode naïve Bayes untuk membangun model probabilistik. Dari model pohon keputusan yang diperoleh, dibentuk aturan-aturan, dimana aturan ini yang mendeskripsikan tingkat keberhasilan mahasiswa. Model probabilistik digunakan untuk memprediksi mahasiswa baru IPB. Induksi Pohon Keputusan Training Fase training dilakukan untuk membangun model klasifikasi. Percobaan pembangunan model klasifikasi dengan menggunakan induksi pohon keputusan dilakukan sebanyak 4 (empat) kali berdasarkan pembagian data training dan data testing. Sebagai contoh, akan dijelaskan pembentukan pohon keputusan dengan menggunakan proprosi jumlah record setiap 12

21 kelas target sama (percobaan 3) sebanyak 288 record, dengan training sebesar 202 record dan testing sebesar 86 record. Contoh data untuk proses training dapat dilihat pada Lampiran 4. Pembentukan aturan klasifikasi dilakukan dengan menggunakan classifier J.48 (algoritme c.45 versi Java dalam Weka) pada perangkat lunak Weka Berikut ini merupakan langkah-langkah pembentukan aturan klasifikasi dengan menggunakan algoritme induksi pohon keputusan, yaitu: 1 Melakukan pembagian data training ke dalam subset-subset. 2 Menghitung nilai information gain dari tiap atribut untuk menentukan atribut yang dijadikan sebagai kondisi tes atribut. 3 Data training diekspansi berdasarkan atribut dengan information gain tertinggi sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree. Model klasifikasi berupa pohon keputusan (percobaan 3) dapat dilihat pada Gambar 5. Dari pohon keputusan yang diperoleh, dibentuk aturan-aturan. Aturan yang terbentuk yaitu ada sebanyak 3 buah yang dapat dilihat pada Tabel 9. Keterangan nilai atribut dapat dilihat pada Lampiran 3. mahasiswa hanya dipengaruhi faktor nilai UAN SMA. Testing Fase testing dilakukan untuk memperoleh akurasi dari model yang telah dihasilkan dari fase training. Dalam hal ini, model merupakan sekumpulan aturan-aturan yang diperoleh dari pohon keputusan. Proses testing dilakukan dengan cara memasukkan data testing pada aturan yang telah terbentuk. Pada penelitian ini dilakukan empat kali percobaan, sehingga diperoleh empat model aturan yang berbeda. Tabel 10 menunjukkan banyaknya aturan yang dihasilkan setiap percobaan. Tabel 10 Banyak aturan yang dihasilkan setiap percobaan Proporsi jumlah kelas target Berbeda Berbeda Sama Sama Percobaan Data set Metode uji 70 % training dan 30% testing k-fold cross validation 70 % training dan 30% testing k-fold cross validation Banyak aturan Naïve Bayes Gambar 5 Pohon keputusan pada percobaan 3. Tabel 9 Aturan-aturan dari percobaan 3 No Aturan IF nilai_uan_sma <= THEN kelas_target = resiko_sedang IF nilai_uan_sma > AND nilai_uan_sma <= THEN kelas_target = resiko_rendah IF nilai_uan_sma > AND nilai_uan_sma > THEN kelas_target = resiko_tinggi Berdasarkan hasil aturan percobaan 3 pada Tabel 9, terlihat bahwa tingkat keberhasilan Fase Training Fase training pada naïve Bayes akan menghasilkan model berupa model probabilistik. Sebagai contoh, akan dijelaskan pembentukan model probabilistik dengan menggunakan data pada percobaan 1. Langkah-langkah dalam pembangunan model dengan menggunakan naïve Bayes, yaitu: 1 Menghitung nilai peluang prior setiap kelas (kelas resiko rendah, resiko sedang, dan resiko tinggi) 2 Menghitung nilai peluang bersyarat likelihood untuk seluruh atribut. 3 Menghitung nilai mean dan simpangan baku untuk atribut kontinu. 13

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

Lingkungan Pengembangan HASIL DAN PEMBAHASAN aturan 3--5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

METODE PENELITIAN HASIL DAN PEMBAHASAN

METODE PENELITIAN HASIL DAN PEMBAHASAN 5. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Decision Tree Definisi Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut,

Lebih terperinci

PREDIKSI TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB DENGAN METODE k-nearest NEIGHBOR NINON NURUL FAIZA

PREDIKSI TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB DENGAN METODE k-nearest NEIGHBOR NINON NURUL FAIZA PREDIKSI TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB DENGAN METODE k-nearest NEIGHBOR NINON NURUL FAIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio 21 BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) 3.1 Regresi Logistik Biner Regresi logistik berguna untuk meramalkan ada atau tidaknya karakteristik berdasarkan prediksi

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

III. METODOLOGI PENELITIAN

III. METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN 3.1. Kerangka Pemikiran Penelitian Informasi merupakan suatu unsur kunci yang penting di dalam suatu sistem konseptual. Suatu informasi dapat terbentuk melalui berbagai cara

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA Ade Putra Fakultas Vokasi, Program Studi Komputerisasi Akuntansi Universitas Bina Darma

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 40 BAB III METODOLOGI PENELITIAN 3.1 DESAIN PENELITIAN Dalam melakukan penelitian, dibutuhkan desain penelitian agar penelitian yang dilakukan dapat berjalan dengan baik. Berikut ini merupakan desain penelitian

Lebih terperinci

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI Diajukan Kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta Sebagai

Lebih terperinci

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree Scientific Journal of Informatics Vol. 3, No. 1, Mei 2016 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi

Lebih terperinci

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG Andri 1), Yesi Novaria Kunang 2), Sri Murniati 3) 1,2,3) Jurusan Sistem Informasi Universitas

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. Data yang digunakan dalam penelitian ini adalah data warehouse

BAB IV HASIL DAN PEMBAHASAN. Data yang digunakan dalam penelitian ini adalah data warehouse 1.1.Pengumpulan data BAB IV HASIL DAN PEMBAHASAN Data yang digunakan dalam penelitian ini adalah data warehouse Graduation Universitas Muhammadiyah Yogyakarta pada Fakultas Teknik UMY tahun kelulusan 2013,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan

Lebih terperinci

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Sebelum melakukan penelitian adapun penulis mencari penelitian penelitian yang memungkinkan terkait dengan penelitian antara lain : 1. Analisis Kinerja Data

Lebih terperinci

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA Techno.COM, Vol. 15, No. 3, Agustus 216: 195-2 METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA Andrew Yova Kencana 1, Setia Astuti 2 1,2 Jurusan Teknik Ilmu

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Salah satu persoalan lingkungan yang muncul hampir setiap tahun di Indonesia terutama pasca tahun 2000 adalah kebakaran hutan, termasuk di wilayah provinsi Riau. Kebakaran hutan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru Wahyudin Program Pendidikan Ilmu Komputer, Universitas Pendidikan Indonesia Abstrak Konsep pohon merupakan salah satu

Lebih terperinci

DATA DAN METODE Data

DATA DAN METODE Data DATA DAN METODE Data Sumber data yang digunakan dalam penelitian berasal dari data mahasiswa tahun angkatan 2000 sampai dengan 2005, dan dari tiga program studi yaitu S1- Sistem Informasi, S1-Teknik Informatika,

Lebih terperinci

Penggunaan Pohon Keputusan untuk Data Mining

Penggunaan Pohon Keputusan untuk Data Mining Penggunaan Pohon Keputusan untuk Data Mining Indah Kuntum Khairina NIM 13505088 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha

Lebih terperinci

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA 1 Latar Belakang PENDAHULUAN Organisasi Kesehatan Dunia (WHO) memperkirakan, bahwa 177 juta penduduk dunia mengidap penyakit diabetes mellitus atau biasa disingkat diabetes. Jumlah ini akan terus meningkat

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi IJCCS, Vol.x, No.x, July xxxx, pp. 1~5 ISSN: 1978-1520 39 Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi Irwan

Lebih terperinci

Perkiraan Waktu Studi Mahasiswa Menggunakan Metode Klasifikasi Dengan Algoritma Naive Bayes

Perkiraan Waktu Studi Mahasiswa Menggunakan Metode Klasifikasi Dengan Algoritma Naive Bayes Perkiraan Waktu Studi Mahasiswa Menggunakan Metode Klasifikasi Dengan Algoritma Naive Bayes Lestari Handayani 1, Eka Lona Maulida 2 Teknik Informatika, Fakultas Sains dan Teknologi, UIN Sultan Syarif Kasim

Lebih terperinci

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN: KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas

Lebih terperinci

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Yuandri Trisaputra, Indriyani, Shellafuri Mardika Biru, Muhammad Ervan Departemen Ilmu Komputer, FMIPA,

Lebih terperinci

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

POHON KEPUTUSAN DENGAN ALGORITMA C4.5 POHON KEPUTUSAN DENGAN ALGORITMA C4.5 1. Pengantar Algoritma C4.5 Klasifikasi merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga dari data yang berukuran relatif

Lebih terperinci

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti Jurnal Dinamika, September 2016, halaman 34-41 P-ISSN: 2087 7889 E-ISSN: 2503 4863 Vol. 07. No.2 KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION

Lebih terperinci

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Selly Artaty Zega Program Studi Teknik Multimedia dan Jaringan, Jurusan Teknik Informatika, Politeknik

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree Disusun oleh : Budanis Dwi Meilani Achmad dan Fauzi Slamat Jurusan Sistem Informasi Fakultas Teknologi Informasi.

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA 53 ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA Marwana*) Abstract : Abstract-This study is a simulation for memperiksi victory in a football game using the C4.5 data

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA oleh NADYA AL FITRIANI M0111060 SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh

Lebih terperinci

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG TESIS IVAN JAYA 117038072 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0 PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C.0 Rachma Fauzia Azhary, Isnandar Slamet, Supriyadi Wibowo Program Studi Matematika Fakultas Matematika dan Ilmu Pengetahuan

Lebih terperinci

IDENTIFIKASI LAMA STUDI BERDASARKAN KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5

IDENTIFIKASI LAMA STUDI BERDASARKAN KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5 IDENTIFIKASI LAMA STUDI BERDASARKAN KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5 (Studi Kasus Lulusan Fakultas Sains dan Matematika Universitas Diponegoro Tahun 2013/2014) asa M arga ro) C ng Semara

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN 116 IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN Rismayanti 1 1 Dosen Tetap Program Studi Teknik Informatika, Sekolah Tinggi Teknik Harapan Medan Jl. H.M Joni No.70

Lebih terperinci

ANALISIS KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA FEM DAN FAPERTA MENGGUNAKAN METODE CHART

ANALISIS KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA FEM DAN FAPERTA MENGGUNAKAN METODE CHART Xplore, 2013, Vol. 2(1):e3(1-8) c 2013 Departemen Statistika FMIPA IPB ANALISIS KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA FEM DAN FAPERTA MENGGUNAKAN METODE CHART Fira Nurahmah Al Amin,Indahwati,Yenni

Lebih terperinci

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4 Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Catatan Kuliah untuk Bab 4 Pengantar Data Mining oleh Tan, Steinbach, Kumar dialihbahasakan oleh Tim Pengajar Konsep Data Mining

Lebih terperinci

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP Endah Rakhmawati 1, Entin Martiana K, M.Kom 2, Nur Rosyid Mubtadai,

Lebih terperinci

CONTOH KASUS DATA MINING

CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Peminatan siswa SMA Negeri 8 Bandung dilakukan di kelas X SMA setelah tahap daftar ulang. Hal tersebut berdasarkan aturan kurikulum 2013 [11]. Peminatan merupakan hal

Lebih terperinci

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien 1 Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien Ketut Wisnu Antara 1, Gede Thadeo Angga Kusuma 2 Jurusan Pendidikan Teknik Informatika Universitas Pendidikan Ganesha

Lebih terperinci

Modul IV KLASIFIKASI

Modul IV KLASIFIKASI LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul IV KLASIFIKASI TUJUAN PRAKTIKUM Setelah mengikuti praktikum modul ini diharapkan: 1. Mahasiswa

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : Tabel 2.1 Penelitian sebelumnya Parameter Penulis Objek Metode Hasil

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

BAB IV KLASIFIKASI. Modul Kuliah Data Mining 63

BAB IV KLASIFIKASI. Modul Kuliah Data Mining 63 BAB IV KLASIFIKASI Klasifikasi merupakan penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifikasi telah banyak ditemui dalam berbagai aplikasi. Sebagai

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci

BAB III METODOLOGI PENELITIAN. digunakan pada proses rekomendasi penjurusan pada jenjang menengah. Merumuskan Masalah

BAB III METODOLOGI PENELITIAN. digunakan pada proses rekomendasi penjurusan pada jenjang menengah. Merumuskan Masalah A. Desain Penelitian BAB III METODOLOGI PENELITIAN Gambar 3.1 berikut ini merupakan desain penelitian yang akan digunakan pada proses rekomendasi penjurusan pada jenjang menengah atas. Merumuskan Masalah

Lebih terperinci

Tabel 2 Jumlah data prosedur uji. Crop Variable. Jumlah data LAI 104 SPAD 105 yield 64 LAI 104 SPAD 105 yield 64 LAI 62 SPAD 63 yield 34.

Tabel 2 Jumlah data prosedur uji. Crop Variable. Jumlah data LAI 104 SPAD 105 yield 64 LAI 104 SPAD 105 yield 64 LAI 62 SPAD 63 yield 34. 2. Cross validation 5 fold dengan pemisahan data Indramayu dan, menggunakan data berikut: 3. Supplied test set : training:, testing: Hymap training:, testing: Hymap 4. Percentage split dengan data training

Lebih terperinci

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1 BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang

Lebih terperinci

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala Materi Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala Dosen Pengasuh Dr. Taufik Fuadi Abidin, M.Tech Dr. Muhammad Subianto, M.Si {tfa,subianto}@informatika.unsyiah.ac.id

Lebih terperinci

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak TEKNIK DATA MINING MENGGUNAKAN METODE BAYES CLASSIFIER UNTUK OPTIMALISASI PENCARIAN PADA APLIKASI PERPUSTAKAAN (STUDI KASUS : PERPUSTAKAAN UNIVERSITAS PASUNDAN BANDUNG) Oleh : Selvia Lorena Br Ginting,

Lebih terperinci

PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48

PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48 PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48 Sulidar Fitri Teknik Informatika STMIK AMIKOM Yogyakarta email : inboxfitri@gmail.com Abstraksi Penelitian

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Uji Hipotesis

BAB II LANDASAN TEORI. 2.1 Uji Hipotesis BAB II LANDASAN TEORI Pada bab ini akan dibahas tentang pengujian hipotesis, metode klasifikasi berstruktur pohon, metode-metode statistika yang menjadi dasar pada metode QUEST, dan algoritme QUEST..1

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi

Lebih terperinci

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering. BAB I PENDAHULUAN 1.1. Latar Belakang Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Instrumen Penelitian Pada penelitian ini bahan dan peralatan yang diperlukan sebagai berikut: 3.1.1 Bahan Dalam penelitian ini bahan yang dibutuhkan adalah data siswa kelas

Lebih terperinci

PENERAPAN DATA MINING SEBAGAI MODEL SELEKSI PENERIMA BEASISWA PENUH (STUDI KASUS: STIE PERBANAS SURABAYA)

PENERAPAN DATA MINING SEBAGAI MODEL SELEKSI PENERIMA BEASISWA PENUH (STUDI KASUS: STIE PERBANAS SURABAYA) ISSN 1858-4667 JURNAL LINK VOL. 27/No. 1/Februari 2018 PENERAPAN DATA MINING SEBAGAI MODEL SELEKSI PENERIMA BEASISWA PENUH (STUDI KASUS: STIE PERBANAS SURABAYA) Hariadi Yutanto 1, Nurcholis Setiawan 2

Lebih terperinci

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU Mardiani Jurusan Sistem Informasi, STMIK MDP Palembang Jln. Rajawali No.14 Palembang 30113 Telp. (0711) 376400, Faks.

Lebih terperinci

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 3, Tahun 2015, Halaman Online di:

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 3, Tahun 2015, Halaman Online di: ISSN: 2339-2541 JURNAL GAUSSIAN, Volume 4, Nomor 3, Tahun 2015, Halaman 651-659 Online di: http://ejournal-s1.undip.ac.id/index.php/gaussian KLASIFIKASI TINGKAT KELANCARAN NASABAH DALAM MEMBAYAR PREMI

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout  Data mining BAB 1 PENDAHULUAN Bab ini membahas mengenai latar belakang masalah, identifikasi masalah, ruang lingkup tugas akhir, maksud dan tujuan tugas akhir, metode penelitian tugas akhir, dan sistematika penulisan

Lebih terperinci