ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS

Ukuran: px
Mulai penontonan dengan halaman:

Download "ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS"

Transkripsi

1 i ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS SUDARTO MAGISTER TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2016

2 ii ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika SUDARTO PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2016

3 ii PERSETUJUAN Judul : Analisis Penanganan Ketidakseimbangan Kelas dengan menggunakan Density Based Feature Selection (DBFS) dan Adaptive Boosting (Adaboost) Kategori : Tesis Nama : Sudarto Nomor Induk Mahasiswa : Program Studi : Teknik Informatika Fakultas : Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Dr. Pahala Sirait, M.Kom Prof. Dr. Muhammad Zarlis Diketahui/disetujui oleh Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis NIP

4 iii PERNYATAAN ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing masing telah disebutkan sumbernya. Medan, 26 Juli 2016 Sudarto Nim :

5 iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini: Nama : Sudarto NIM : Program Studi : Teknik Informatika Jenis Karya Ilmiah : Tugas Akhir / Tesis Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul: ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta. Demikian pernyataan ini dibuat dengan sebenarnya. Medan, 26-Juli-2016 Sudarto NIM

6 v Telah diuji pada Tanggal: 26 Juli-2016 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Pahala Sirait, M.Kom 2. Prof. Dr. Tulus, Vor. Dipl. Math, M.si 3. Dr. Poltak Sihombing, M.Kom

7 vi RIWAYAT HIDUP DATA PRIBADI Nama : Sudarto, S.Kom Tempat dan Tanggal Lahir : Medan, 25 Januari 1978 Alamat Rumah : Jl. Perkutut gg. Mesjid No. 296 Medan-Helvetia HP : Sudarto@mikroskil.ac.id Instansi Tempat Bekerja : STMIK MIKROSKIL Alamat Kantor : Jl. Thamrin No.142 Medan DATA PENDIDIKAN SD : SDN Medan Tamat : 1990 SLTP : SMPN 15 Medan Tamat : 1993 SLTA : SMK Teladan Medan Tamat : 1996 S1 : Sistem Informasi STMK MIKROSKIL Tamat : 2004 S2 : Teknik Informatika USU Tamat : 2016

8 vii KATA PENGANTAR Puji syukur penulis panjatkan kepada Allah Subhanahu wa Ta ala atas semua berkat dan karunia-nya, sehingga penulis dapat menyelesaikan tesis yang berjudul Analisis Penanganan Ketidakseimbangan Kelas dengan menggunakan Density Based Feature Selection (DBFS) dan Adaptive Boosting (Adaboost) tepat pada waktunya. Laporan tesis ini disusun sebagai syarat guna mendapatkan gelar sarjana strata dua pada Program Studi Teknik Informatika Universitas Sumatera Utara. Penulis juga menyadari bahwa penyusunan tesis ini tidak terlepas dari pengarahan, petunjuk, bantuan, dan dukungan dari berbagai pihak. Oleh karena itu, dalam kesempatan yang baik ini, penulis tidak lupa mengucapkan rasa terima kasih dan penghargaan yang sebesar-besarnya kepada: 1. Bapak Prof. Dr. Runtung Sitepu, SH. M.Hum, selaku Rektor Universitas Sumatera Utara. 2. Bapak Prof. Dr. Muhammad Zarlis, selaku Ketua Program Studi Teknik Informatika Universitas Sumatera Utara, dosen penasehat akademik, dan dosen pembimbing utama yang telah banyak meluangkan waktunya untuk memberikan pengarahan, petunjuk, bantuan, dukungan, dan motivasi dalam tesis ini. 3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc Selaku Dekan Fakultas Ilmu Komputer dan Teknologi Infomasi Universitas Sumatera Utara. 4. Bapak Dr. Pahala Sirait, M.Kom, selaku dosen pembimbing kedua yang telah banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, bantuan, dukungan, dan motivasi dalam tesis ini. 5. Bapak Prof. Dr. Tulus, Vor. Dipl. Math, M.Si. selaku dosen penguji utama yang telah banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, dan dukungan kepada penulis. 6. Bapak Dr. Poltak Sihombing, M.Kom., selaku dosen penguji kedua yang banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, dukungan, dan motivasi kepada penulis. 7. Seluruh dosen di Program Studi Teknik Informatika Universitas Sumatera Utara yang telah mendidik dan membimbing penulis.

9 viii 8. Teristimewa kepada orang tua, keluarga, dan teman-teman yang telah banyak memberikan dukungan dan semangat baik secara langsung maupun tidak kepada penulis dalam menyelesaikan tesis ini. Penulis menyadari bahwa tesis ini masih terdapat kekurangan baik dari segi tata bahasa maupun materi yang terkandung di dalamnya. Oleh karena itu, dengan segala kerendahan hati penulis membuka diri untuk menerima segala saran dan kritik yang bersifat membangun dari semua pihak yang mengarah kepada perbaikan tesis ini. Penulis yakin dengan adanya masukan-masukan kiranya dapat semakin memperbaiki dan menyempurnakan tesis ini. Akhir kata, penulis berharap tesis ini dapat berguna, memberi manfaat, dan menjadi sumber informasi bagi pembaca. Sebelum dan sesudahnya penulis mengucapkan terima kasih. Medan, 26 Juli 2016 Penulis, Sudarto NIM

10 ix ABSTRAK Ketidakseimbangan kelas (Class Imbalance) dari dataset antara dua kelas yang berbeda yaitu kelas mayoritas dan kelas minoritas, berpengaruh pada algoritma C4.5 yang cenderung menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi menjadi tidak konduktif dalam memprediksi contoh kelas minoritas, sehingga nilai hasil akurasi pengklasifikasian (classifier) C4.5 menjadi tidak optimal. Untuk mengurangi pengaruh ketidakseimbangan kelas pada pengklasifikasi C4.5, maka perlu dilakukan dengan menerapkan kombinasi dari metode seleksi fitur yaitu algoritma Adaptive Boosting (Adaboost) dan metode Density Based Feature Selection (DBFS). Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat, sedangkan DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur agar dapat direkomendasikan pada classifier C4.5 dalam proses pengklasifikasian. Hasil penelitian menunjukkan bahwa, kinerja akurasi pengklasifikasi C4.5 pada dataset mahasiswa lulusan dengan mengkombinasikan DBFS sebelum proses adaboost, dengan pengaturan nilai confidence level 0,50 dan 30 fold cross-validation, menunjukkan tingkat akurasi klasifikasi yang relatif lebih baik dalam penanganan ketidakseimbangan kelas. Kata kunci : Class imbalance, Classifier C4.5, Adaboost, DBFS, Confidence Level, Fold Cross-Validation

11 x ANALYSIS OF CLASS IMBALANCE HANDLING USING DENSITY BASED FEATURE SELECTION (DBFS) AND ADAPTIVE BOOSTING ABSTRACT The Class Imbalance of dataset between two different class are majority and minority class, which impact on the algorithm C 4.5 that tend to produce good prediction accuracy on the class majority but not be conductive in predicting instances of minority class, so the value of accuracy of classification results C4.5 not optimal. To reduce the influence of class imbalance in the classifier C4.5, is applying a combination of feature selection methods namely Adaptive Boosting (Adaboost) algorithms and Density Based Feature Selection (DBFS) method. Application of adaboost algorithm in feature selection done to give weights to each recommended feature, so will found a feature with strong classifier, While the DBFS focusing in identifying minority classes and evaluating the impact of a useful features based on rank features, then it can be recommended classifier C 4.5 in the process of classification. The results study, shows the performance accuracy classifier C 4.5 on a dataset of student graduates with combines DBFS before the process of adaboost, value setting of the confidence level 0.50 and 30 fold cross-validation, indicates the level of accuracy thefdd classification of the relatively better in handling the class imbalance. Keyword : Class imbalance, Classifier C4.5, Adaboost, DBFS, Confidence Level, Fold Cross-Validation

12 xi DAFTAR ISI Halaman HALAMAN JUDUL... i PENGESAHAN... ii PERNYATAAN ORISINALITAS...iii PERSETUJUAN PUBLIKASI... iv PANITIA PENGUJI... v RIWAYAT HIDUP... vi UCAPAN TERIMA KASIH... vii ABSTRAK... ix ABSTRACT... x DAFTAR ISI... xi DAFTAR TABEL...xiii DAFTAR GAMBAR... xiv BAB I PENDAHULUAN Latar Belakang Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian... 5 BAB II TINJAUAN PUSTAKA Data Mining Ketidakseimbangan Kelas (Class Imbalance) Efek dari Ketidakseimbangan kelas pada classifier Tantangan dengan Ketidakseimbangan Kelas Penanganan Ketidakseimbangan Kelas Pendekatan Level Algoritma dengan Seleksi Fitur Pendekatan Level Algoritma dengan Adaptive Boosting (Adaboost) Algoritma C Validasi dan Evaluasi Kinerja Algoritma Klasifikasi... 31

13 xii Cross-Validation Confunsion Matrix Receiver Operating Character Curve (Kurva ROC) Root Mean Square Error (RMSE) Penelitian Terkait Perbedaan dengan Riset yang lain Kontribusi Riset BAB III METODOLOGI PENELITIAN Pendahuluan Metode Penelitian Metode Pengumpulan Data Pengolahan Awal (Preprocessing) Data Model yang diusulkan Evaluasi dan Validasi Alat Analisis Data BAB IV HASIL DAN PEMBAHASAN Pendahuluan Hasil Klasifikasi Algoritma C4.5 tanpa Seleksi Fitur Seleksi Fitur dengan DBFS Seleksi Fitur dengan DBFS sebelum proses Adaboost Seleksi Fitur dengan DBFS setelah proses Adaboost Pembahasan Analisis Kinerja Pengklasifikasi C Estimasi Kinerja Pengklasifikasi C BAB V KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN... 86

14 xiii DAFTAR TABEL Halaman Tabel 2.1. Dataset Tidakseimbang Tabel 2.2. Confunsion Matrix Tabel 2.3. Nilai AUC dan Keterangan Tabel 2.4. Penelitian Terkait Tabel 3.1. Dataset Pertama Mahasiswa Lulusan Tabel 3.2. Dataset Kedua Mahasiswa Lulusan Tabel 3.3. Dataset Ketiga Mahasiswa Lulusan Tabel 3.4. Gabungan Dataset Pertama, Kedua dan Ketiga Tabel 3.5. Spesifikasi dan Atribut Dataset Mahasiswa Lulusan Tabel 3.6. Nilai AUC Tabel 3.7. Spesifikasi Hardware dan Software Tabel 4.1. Hasil Nilai Gain Ratio Simpul Pertama Tabel 4.2. Hasil Pengukuran tanpa Seleksi Atribut Tabel 4.3. Peringkat Atribut Tabel 4.4. Hasil Pengukuran dengan DBFS (40%) Tabel 4.5. Hasil Pengukuran dengan DBFS (60%) Tabel 4.6. Hasil Pengukuran dengan DBFS (70%) Tabel 4.7. Hasil Seleksi Fitur dengan DBFS Sebelum Adaboost Tabel 4.8. Hasil Pengukuran dengan DBFS Sebelum Adaboost Tabel 4.9. Hasil Seleksi Fitur dengan DBFS setelah Adaboost Tabel Hasil Pengukuran dengan DBFS setelah Adaboost Tabel Perbandingan Kinerja 5-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 5-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 10-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 10-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0, Tabel Rekapitulasi Nilai AUC... 76

15 xiv DAFTAR GAMBAR Halaman Gambar 2.1. Klasifikasi Decision Tree... 9 Gambar 2.2. Clustering Gambar 2.3. Asosiasi Gambar 2.4. Time Series Gambar 2.5. Urutan Rangkaian Kejadian Gambar 2.6. Tahap tahap Data Mining Gambar 2.7. Dampak dari Sampel ukuran kecil dalam masalah Ketidakseimbangan Kelas Gambar 2.8. Contoh Ketidakseimbangan Kelas (a) overlapping antara kelas (b) small disjunct dalam ketidakseimbangan kelas Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x Gambar Area Overlapping pada setiap Fitur Gambar Area Non Overlapping pada setiap Fitur f Gambar Proses Klasifikasi Data Gambar Contoh Pohon Keputusan Gambar 3.1. Tahapan Penelitian Gambar 3.2. Kerangka Model yang diusulkan Gambar 3.3. Flowchart Algoritma Adaboost Gambar 3.4. Flowchart Algoritma DBFS Gambar 4.1. Hasil Perhitungan DBFS pada Dataset Mahasiswa Lulusan Gambar 4.2. Area Overlapping pada setiap Kelas Gambar 4.3. Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0, Gambar 4.4. Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0, Gambar 4.5. Grafik Perbandingan Kinerja 10-Fold dan Confidence Level 0, Gambar 4.6. Grafik Perbandingan Kinerja 10-Fold dan Confidence Level 0, Gambar 4.7. Grafik Perbandingan Kinerja 20-Fold dan Confidence Level 0, Gambar 4.8. Grafik Perbandingan Kinerja 20-Fold dan Confidence Level 0, Gambar 4.9. Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0, Gambar Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0, Gambar Kurva ROC Model C.45 tanpa Seleksi Fitur... 73

16 xv Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS (40%) Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS (60%) Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS (70%) Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS sebelum proses Adaboost Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS setelah proses Adaboost Gambar Grafik Rekapitulasi Nilai AUC... 77

17 BAB 1 PENDAHULUAN 1.1. Latar Belakang Saat ini bidang data mining semakin popular seiring dengan semakin meningkatnya kepedulian banyak pihak atas pentingnya pengolahan data guna menggantikan peran manual oleh manusia. Konsep data mining banyak digunakan untuk mempelajari data, mengenali pola dan membuat model berdasarkan data historis. Model tersebut dapat digunakan untuk melakukan klasifikasi dan prediksi terhadap data baru yang memungkinkan untuk membuat atau mendukung pengambilan keputusan. Dalam bidang data mining terdapat berbagai metode untuk menemukan pola tertentu dalam data. Salah satu metode yang digunakan ialah klasifikasi. Proses klasifikasi merupakan salah satu tugas dalam datamining yang digunakan untuk meramalkan sebuah nilai dari sekumpulan data. Salah satu tantangan terbesar dalam penelitian klasifikasi pada datamining adalah masalah ketidakseimbangan kelas yang umumnya ditemukan dalam aplikasi dunia nyata. (Pant, 2015). Ketidakseimbangan kelas (class imbalance) terjadi dalam jumlah training data antara dua kelas yang berbeda. Satu kelas memiliki jumlah data yang besar (mayoritas) sedangkan kelas yang lain memiliki jumlah data yang minoritas (Weiss, 2013). Dalam berbagai kasus, algoritma klasifikasi standar memiliki bias terhadap kelas dengan jumlah yang lebih besar, karena aturan yang benar dan yang umum lebih disukai dalam memprediksi contoh contoh pembobotan kelas mayoritas yang mendukung metrik keakuratan sedangkan aturan khusus yang memprediksi contoh dari kelas minoritas biasanya diabaikan atau memperlakukan mereka sebagai noise (Y.Sun et. Al, 2009). Hal ini berpengaruh pada algoritma klasifikasi standar yang menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi akan menghasilkan akurasi prediksi yang sebaliknya terhadap kelas minoritas dan cenderung menyimpangkan prediksi dari record yang aktualnya adalah kelas minoritas di prediksikan kedalam kelas mayoritas. Permasalahan ketidakseimbangan kelas (class imbalance) biasanya cenderung menyebabkan overlapping, kurangnya data yang representatif (kasus yang jarang

18 2 terjadi), small disjuncts atau adanya noise data dan borderline instances yang membuat proses belajar classifier sulit (Japkowich, 2004). Selain itu juga bahwa ketidakseimbangan kelas (class imbalance) dan noise dapat berpengaruh pada kualitas data dalam hal kinerja klasifikasi (Khoshgoftaar et al, 2011). Ini menunjukkan ketidakseimbangan kelas (class imbalance) menyebabkan terjadinya misclassification (Zhou et al, 2006). Permasalahan ketidakseimbangan kelas (class imbalance) juga dapat menyebabkan akurasi algoritma C4.5 buruk dalam pengklasifikasian (Rahayu et.al, 2015). Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numerik (Han, 2001). Hasil klasifikasi pada algoritma C4.5 dalam predikat kelulusan mahasiswa tepat waktu dengan grade cumlaude bisa diperoleh dengan syarat utama adalah pernah menjadi asisten semasa kuliah, berasal dari jurusan IPA semasa SMA, rerata SKS per semester 18 dan berjenis kelamin wanita (Yusuf, 2014). Sebagian besar kasus data yang telah dilakukan untuk klasifikasi mahasiswa tepat waktu dan tidak tepat waktu adalah tidak seimbang, yang berarti bahwa hanya sebagian kecil mahasiswa tidak tepat waktu dan sebagian besar tepat waktu. Semakin banyak mahasiswa lulus tidak tepat waktu dapat mempengaruhi nilai akreditasi sebuah perguruan tinggi. Oleh karena itu perlu adanya monitoring dan evaluasi terhadap kecenderungan kelulusan mahasiswa tidak tepat waktu. Ada tiga pendekatan untuk menangani dataset tidak seimbang (unbalanced), yaitu pendekatan pada level data, level algoritmik, dan menggabungkan atau memasangkan (ensemble) metode (Yap, et al., 2014). Pendekatan pada level data mencakup berbagai teknik resampling dan sintesis data untuk memperbaiki kecondongan distribusi kelas training data. Pada tingkat algoritmik, metode utamanya adalah menyesuaikan operasi algoritma yang ada untuk membuat pengklasifikasi (classifier) agar lebih konduktif terhadap klasifikasi kelas minoritas (Zhang, Liu, Gong, & Jin, 2011). Sedangkan pada pendekatan menggabungkan atau memasangkan (ensemble) metode, ada dua algoritma ensemble-learning paling populer, yaitu boosting dan bagging (Yap, et al., 2014). Pada pendekatan algoritma dan ensemble

19 3 memiliki tujuan yang sama, yaitu memperbaiki algoritma pengklasifikasi tanpa mengubah data, sehingga dapat dianggap ada 2 pendekatan saja, yaitu pendekatan level data dan pendekatan level algoritma (Peng & Yao, 2010). Karena masalah ketidakseimbangan kelas biasanya disertai dengan permasalahan dari dataset berdimensi tinggi, teknik sampling dan metode algoritma tidaklah cukup menangani ketidakseimbangan kelas (class imbalance). Menerapkan seleksi fitur (feature selection) adalah tindakan penting yang perlu dilakukan dalam menangani ketidakseimbangan kelas (class imbalance) dari dataset berdimensi tinggi (Tiwari, 2014). Seleksi fitur (feature selection) adalah salah satu teknik terpenting dan sering digunakan dalam pre-processing data mining. Fokus seleksi fitur adalah untuk memilih subset variabel dari masukan yang bisa menggambarkan efisiensi input data dalam mengurangi dampak dari noise atau variabel yang tidak relevan dan tetap memberikan hasil prediksi yang baik (Candrashekar, 2014). Untuk dataset tidakseimbang (imbalance), metode seleksi fitur juga harus fokus pada atribut yang membantu dalam identifikasi kelas minoritas (Pant, 2015). Selain itu, kinerja metode seleksi fitur berkembang ketika rasio ketidakseimbangan meningkat. Hasil penelitian menunjukkan bahwa di berbagai rasio ketidakseimbangan kelas, metode DBFS (Density Based Feature Selection) melebihi metode saingan seleksi fitur lainnya terutama ketika lebih dari 0,5% dari fitur yang dipilih untuk tugas klasifikasi. Peningkatan ini lebih nyata sesuai dengan evaluasi statistik AUC (area under curve) terutama dengan rasio ketidakseimbangan tinggi (Alibeigi et al, 2012). Pendekatan untuk menggabungkan seleksi fitur dengan proses boosting fokus pada dua skenario yang berbeda yaitu seleksi fitur dilakukan sebelum proses boosting dan seleksi fitur yang dilakukan dalam proses boosting. Hasil percobaan menunjukkan bahwa melakukan seleksi fitur dalam boosting umumnya lebih baik daripada menggunakan seleksi fitur sebelum proses boosting (Gao, 2014). Algoritma boosting adalah algoritma iteratif yang memberikan bobot yang berbeda pada distribusi training data di setiap iterasi. Setiap iterasi boosting menambahkan bobot pada contoh-contoh kesalahan klasifikasi dan menurunkan bobot pada contoh klasifikasi yang benar, sehingga secara efektif dapat merubah distribusi pada data training. Salah satu contoh algoritma boosting adalah adaboost. Algoritma adaptive boosting (adaboost) telah dilaporkan sebagai meta-teknik untuk mengatasi

20 4 masalah ketidakseimbangan kelas (class imbalance) (Sun, Mohamed, Wong, & Wang, 2007). AdaBoost merupakan algoritma machine learning yang dirumuskan oleh Yoav Freund and Robert Schapire. AdaBoost secara teoritis dapat secara signifikan digunakan untuk mengurangi kesalahan dari beberapa algoritma pembelajaran yang secara konsisten menghasilkan kinerja pengklasifikasi yang lebih baik. Kinerja adaboost lebih baik dari random forest untuk prediksi performansi siswa dan dapat memperbaiki kinerja classifier (Pandey, 2014). Metode adaboost terbukti efektif untuk penyelesaian masalah ketidakseimbangan kelas (class imbalance) pada penentuan kelulusan mahasiswa dengan metode decision tree (C4.5), dan menghasilkan sebuah model arsitektur yang optimal dan hasil estimasi yang akurat (Bisri, 2015). Berdasarkan latar belakang tersebut di atas, penulis mencoba melakukan penelitian untuk menyelesaikan permasalahan ketidakseimbangan kelas (Class imbalance) dengan menerapkan seleksi fitur (feature selection) dan pendekatan algoritma serta membandingkan akurasi pengklasifikasian algoritma C4.5 standar dengan kombinasi dari pendekatan seleksi fitur, pendekatan algoritma dan algoritma C4.5 pada sejumlah data sets mahasiswa lulusan program studi sistem informasi STMIK Mikrokil Medan. Pengukuran akurasi menghasilkan confusion matrix untuk penilaian accuracy, precision, recall. Berdasarkan uraian diatas maka penelitian ini diberi judul : ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DBFS (DENSITY BASED FEATURE SELECTION) DAN ADAPTIVE BOOSTING (ADABOOST) Rumusan Masalah Ketidakseimbangan kelas dari dataset antara dua kelas yang berbeda yaitu kelas mayoritas dan kelas minoritas, berpengaruh pada algoritma C4.5 yang cenderung menghasilkan akurasi prediksi yang baik pada kelas mayoritas, sementara kurang baik pada kelas minoritas, sehingga mempengaruhi keoptimalan akurasi dalam pengklasifikasian. Pada ketidakseimbangan kelas dari dataset, dibutuhkan juga fokus pada atribut yang membantu mengidentifikasi ketepatan akurasi kelas minoritas agar dapat mempengaruhi hasil dalam pengklasifikasian. Sehingga diperlukan suatu model untuk penanganan ketidakseimbangan kelas (class imbalance) dengan menggunakan metode Density Based Feature Selection (DBFS) dan Adaptive boosting pada

21 5 algoritma klasifikasi C4.5 serta pengukuran peningkatan kinerja dari sudut pandang akurasi, presisi dan sensitivitas (recall) melalui perbandingan algoritma klasifikasi C4.5 dengan menggunakan metode DBFS dan Adaboost Batasan Masalah Agar analisis ini mendapatkan gambaran yang jelas, rinci, terarah dan tidak menyimpang dari latar belakang masalah yang telah diuraikan, maka batasan masalah dalam penelitian ini adalah sebagai berikut: 1. Pengklasifikasian menggunakan algoritma C Evaluasi menggunakan K-fold cross validation. 3. Menggunakan confunsion matrix untuk mengukur accuracy, precision dan recall dalam menganalisa kinerja klasifikasi. 4. Menggambarkan estimasi kinerja klasifikasi dengan area under the ROC (AUROC atau AUC) 5. Menggunakan dataset original dari mahasiswa program studi sistem informasi STMIK Mikroskil tahun ajaran 2004, 2005, Analisis data dan pengujian menggunakan xampp 2.4. dan rapid miner studio Tujuan Penelitian Adapun tujuan dari penelitian adalah sebagai berikut : 1. Menganalisis penerapan pendekatan seleksi fitur dan pendekatan level algoritma dalam mengurangi pengaruh ketidakseimbangan kelas pada dataset mahasiswa lulusan dengan pengklasifikasi C Menganalisis kinerja metode klasifikasi C4.5 ketika diintegrasikan dengan algoritma density based feature selection (DBFS) dan algoritma adaptive boosting (adaboost) dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan Manfaat Penelitian Hasil penelitian nantinya dapat digunakan sebagai referensi alternatif untuk menangani ketidakseimbangan kelas dan meminimumkan kesalahan dalam pengklasifikasi C4.5. Selain itu dapat membangun model alternatif untuk

22 6 menyelesaikan permasalahaan ketidakseimbangan kelas pada model prediksi kelulusan mahasiswa dan diharapkan dapat memberikan sumbangan ilmu pengetahuan dimasa depan khususnya bidang klasifikasi data.

23 BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Saat ini, kebanyakan algoritma data mining menghasilkan pola yang dapat didefenisikan dalam format atau bentuk matematis. Akan tetapi, makna dari pola yang ditemukan masih sangat sedikit. Dengan kompleksitas objek yang semakin tinggi, masalah ini akan mendapat perhatian lebih dari para penggiat data mining di masa mendatang. Meskipun dimungkinkan untuk menginterpretasikan makna dari permukaan dalam sebuah ruang vektor, pola yang didapat dari objek yang lebih kompleks mungkin tidak mudah diinterpretasikan bahkan oleh pakar sendiri. Jadi, bukan hanya data input untuk data mining yang semakin kompleks, tetapi juga pola yang diperoleh akan jauh lebih kompleks (Purba, 2012). Data Mining didefinisikan sebagai sebuah proses untuk menemukan hubungan, pola dan tren baru yang bermakna dengan menyaring data yang sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik pengenalan pola seperti teknik Statistik dan Matematika (Larose, 2005). Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Berawal dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik tradisional sehingga bisa menangani: 1. Jumlah data yang sangat besar 2. Dimensi data yang tinggi 3. Data yang heterogen dan berbeda sifat Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan dua metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilih data (Jefri, 2013). Dari beberapa teori yang dijabarkan para ahli diatas, bahwa data mining adalah merupakan suatu pencarian dan analisis pada suatu koleksi data yang sangat besar

24 8 untuk menemukan suatu pola yang menarik dan dapat mengekstrak informasi serta knowledge yang akurat sehingga dapat digunakan untuk membuat suatu keputusan bisnis yang penting. Kemunculan teknologi data mining membuka harapan bagi penyelenggara Perguruan Tinggi (PT) untuk mengadopsi data mining menyangkut 3 (tiga) tugas yang diemban PT yaitu: (1) penelitian berkaitan dengan pengembangan pengetahuan, (2) pengajaran berhubungan dengan transfer pengetahuan, dan (3) penelitian oleh institusi dalam rangka pemanfaatan pengetahuan untuk pengambilan keputusan (Luan, 2001). Teknologi data mining dapat membantu menjembatani kesenjangan pengetahuan pada sistem Perguruan Tinggi (PT) melalui penemuan pola, asosiasi dan anomali yang tersembunyi, sehingga dapat meningkatkan efektifitas, efisiensi, dan kecepatan proses. Peningkatan ini akan memberi keunggulan pada sistem PT antara lain maksimalisasi sistem pendidikan yang efisien, penurunan angka drop out, peningkatan promosi, meningkatkan ingatan mahasiswa, peningkatan rasio pendidikan, peningkatan kesuksesan mahasiswa, peningkatan hasil yang dicapai mahasiswa dan pengurangan biaya proses dari sistem yang berjalan. Untuk mencapai kualitas dari peningkatan tersebut, maka aplikasi data mining sangat dibutuhkan untuk menyediakan kebutuhan pengetahuan dan wawasan bagi pengambil keputusan pada system PT (Beikzadeh dan Delavari, 2004). Menurut Han dan Kamber, (2011), secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu: Predictive Predictive merupakan proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas. Contohnya, perusahaan retail dapat menggunakan data mining untuk memprediksikan penjualan dari produk mereka di masa depan dengan menggunakan data-data yang telah didapatkan dari beberapa minggu.

25 9 Descriptive Descriptive dalam data mining merupakan proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil. Menurut Maclennan, Tang, & Crivat (2009). Berikut adalah fungsi data mining secara umum : 1. Classification Classification adalah proses untuk mencari model atau fungsi yang menggambarkan dan membedakan kelas-kelas atau konsep data. Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih. Gambar 2.1 Klasifikasi - Decision Tree (Maclennan, et al., 2009) Decision tree adalah sebuah flowchart yang menyerupai struktur pohon, dimana tiap node menunjukkan sebuah test dari nilai atribut, tiap cabang merepresentasikan sebuah hasil dari test, dan decision tree merepresantasikan kelas-kelas atau distribusi kelas. Decision trees dapat dengan mudah di konversi ke aturan klasifikasi. Neural network ketika digunakan untuk klasifikasi, biasanya koleksi dari neuron seperti unit pengolahan dengan pertimbangan koneksi antara tiap unit. Ada banyak metode untuk membangun model klasifikasi seperti naïve-bayesian classification, support vector machine (SVM) dan k-nearest neighbor classication. 2. Clustering Fungsi dari clustering adalah untuk mencari pengelompokkan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas.

26 10 Gambar 2.2 Clustering (Maclennan, et al., 2009) 3. Association Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada. Gambar 2.3 Asosiasi (Maclennan, et al., 2009) 4. Regression Fungsi dari regression hampir sama dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada. 5. Forecasting Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.

27 11 Gambar 2.4 Time Series (Maclennan, et al., 2009) 6. Sequence Analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian. Gambar 2.5 Urutan Rangkaian Kejadian (Maclennan, et al., 2009) 7. Deviation Analysis Fungsi dari deviation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal). Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di gambar 2.6. Tahap-tahap tersebut bersifat iterative dan interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

28 12 Gambar 2.6 Tahap tahap Data Mining (Han dan Kamber., 2006) Tahap-tahap data mining ada 6 (enam) yaitu: 1. Pembersihan data (data cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

29 13 2. Integrasi data (data integration) Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi Data (Data Selection) Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi data (Data Transformation) Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 5. Data mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi pola (pattern evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk

30 14 memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 7. Presentasi pengetahuan (knowledge presentation) Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (Han dan Kamber, 2006) Ketidakseimbangan Kelas (Class Imbalance) Ketidakseimbangan kelas adalah masalah lain pada kualitas data yang sering mensabotase kinerja klasifikasi. Ketidakseimbangan kelas, di mana satu kelas merupakan proporsi kecil dari contoh dataset, menimpa banyak domain dunia nyata, seperti deteksi penipuan, diagnosis penyakit, klasifikasi teks dan prediksi kualitas perangkat lunak. Banyak classifiers, dengan kondisi baik memaksimalkan keseluruhan akurasi klasifikasi atau menjadi kuat untuk data yang noisy, tetapi cenderung untuk mengorbankan kinerja pada kelas minoritas dan berpihak pada mengklasifikasikan lebih dari instance mayoritas secara benar. Jika kedua kelas itu sama pentingnya, ini tidak akan menjadi masalah, namun, dalam kebanyakan kasus ketidakseimbangan kelas, itu adalah kelas jarang terjadi yang mengusung biaya misclassification yang tertinggi. Ketidakseimbangan kelas juga merupakan adanya sebuah keadaan yang menggambarkan tidak seimbangnya porsi data training antara sebuah kelas dengan kelas yang lain. Permasalahan seperti ini menjadi penting dikarenakan pada beberapa aplikasi data mining, akurasi model prediksi terhadap kelas minoritas lebih menarik / lebih penting daripada akurasi model prediksi terhadap kelas mayoritas. Padahal data kelas mayoritas akan lebih terlatih daripada data kelas minoritas karena classifier biasa cenderung akan membiaskan prediksi kelas minoritas ke kelas

31 15 mayoritas. Hal ini mengakibatkan terjadinya misclassification yang mengakibatkan akurasi untuk prediksi kelas minoritas cenderung buruk serta memungkinkan kelas minoritas hanya dianggap sebagai outlier. Tabel 2.1. Dataset tidak seimbang (Satyasree et al, 2013) No Datasets Number of Number of Class Imbalanced Example Attribut (Minority ; Majority) Ratio 1 Breast (Recurrence ; No- Recurrence) Breast_W (Benign ; Malignant) Colic (Yes ; No) Credit-g (Good ; Bad) Diabetes (Tested-Poty ; Tested- Negty) Heart-c (<50 ; >50_1) Heart-h (<50 ; >50_1) Heart-stat (Absent ; Present) Hepatitis (Die, Live) Ionosphere (B ; G) Kr-v3-kp (Won ; Now in) Labor (Bad ; Good) Mushroom (E ; P) Sick (Negative ; Sick) Sonar (Rock ; Mine) Efek dari ketidakseimbangan kelas pada classifier Ketidakseimbangan kelas mempengaruhi tugas tugas datamining. Permasalahan ketidakseimbangan kelas juga biasanya cenderung menyebabkan terjadinya overlapping, kurangnya data yang representatif (kasus yang jarang terjadi), small disjuncts atau adanya noise data dan borderline instances yang membuat proses belajar classifier sulit (Japkowich, 2004). Selain itu juga bahwa ketidakseimbangan kelas dan noise dapat berpengaruh pada kualitas data dalam hal kinerja klasifikasi (Khoshgoftaar et al, 2011). Ini menunjukkan ketidakseimbangan kelas menyebabkan terjadinya misclassification (Zhou et al, 2006). Permasalahan ketidakseimbangan kelas (class imbalance) juga dapat menyebabkan akurasi algoritma C4.5 buruk dalam pengklasifikasian (Rahayu et.al, 2015).

32 Tantangan dengan ketidakseimbangan kelas Ketidakseimbangan kelas terjadi ketika ada contoh pelatihan secara signifikan lebih kecil dalam satu kelas dibandingkan dengan kelas lainnya. Jenis dari distribusi ketidakseimbangan kelas bisa terjadi dalam dua situasi : 1) ketika ketidakseimbangan kelas merupakan masalah intrinsik atau itu terjadi secara alami. Sebuah distribusi kelas tidak seimbang secara alami terjadi dalam kasus penipuan kartu kredit atau di deteksi penyakit langka. Situasi lainnya adalah : 2) ketika ketidakseimbangan data tersebut tidak secara alami, biaya masih terlalu mahal untuk memperoleh data tersebut bagi pembelajaran kelas minoritas, kerahasiaan dan upaya yang luar biasa untuk menemukan kumpulan data yang diwakili, seperti kejadian yang sangat langka kegagalan space-shuttle. Ketidakseimbangan kelas melibatkan sejumlah kesulitan dalam pembelajaran, termasuk distribusi kelas tidak seimbang, sample size training, overlapping dan small disjuncts. 1. Distribusi ketidakseimbangan kelas Distribusi kelas tidak seimbang dapat didefinisikan dengan rasio dari jumlah instance dari kelas minoritas untuk yang kelas mayoritas. Dalam masalah domain tertentu, rasio ketidakseimbangan akan sama ekstrimnya dengan 1: Studi tentang menginvestigasi korelasi antara rasio ketidakseimbangan dalam pelatihan diatur dengan hasil klasifikasi menggunakan classifier pohon keputusan. Dan menemukan bahwa distribusi relatif seimbang antara kelas di dataset umumnya memberikan hasil yang lebih baik, tingkat distribusi kelas ketidakseimbangan yang akan mulai menghambat kinerja klasifikasi masih belum diketahui secara pasti. Eksperimen dari penelitian menemukan bahwa distribusi antara keseimbangan kelas bukanlah jaminan untuk meningkatkan kinerja classifier karena rasio populasi 50:50 tidak selalu menjadi distribusi terbaik untuk bentuk pembelajaran. Hal ini menunjukkan bahwa distribusi ketidakseimbangan kelas bukan satu-satunya alasan yang memperburuk kinerja classifier, faktor lain seperti ukuran sampel training dan kompleksitas kelas juga yang memberikan pengaruh. Selain distribusi ketidakseimbangan kelas, alasan utama lain mengapa klasifikasi ketidakseimbang kelas menantang adalah karena kurangnya data yang disebabkan oleh ukuran sampel yang kecil di set training. Minimnya jumlah contoh akan

33 17 menyebabkan kesulitan untuk menemukan keteraturan, yaitu, keseragaman pola khususnya di kelas minoritas. Gambar 2.7. Dampak dari sampel ukuran kecil dalam masalah ketidakseimbangan kelas; (a) garis padat menentukan batas keputusan yang benar dan (b) garis putusputus mendefinisikan estimasi batas keputusan (Ali, et al, 2015). Gambar 2.7 memperlihatkan bagaimana kurangnya data mempengaruhi kinerja klasifikasi dalam pembelajaran ketidakseimbangan kelas, di mana gambar 2.7.a menjelaskan bagaimana classifier yang dibangun sekitar batas keputusan (garis putusputus) bentuk jumlah yang relatif lebih besar dari contoh-contoh dari kelas yang positif (minoritas). gambar 2.7.b adalah estimasi batas keputusan dibangun oleh algoritma klasifikasi pembelajaran dihasilkan dari terbatasnya jumlah contoh dari kelas yang positif (minoritas). 2. Kelas Overlapping atau kompleksitas kelas Salah satu masalah utama dalam klasifikasi ketidakseimbangan kelas adalah kejadian overlapping dalam dataset. Kelas Overlapping atau kadang-kadang disebut sebagai kompleksitas kelas atau kelas separability berhubungan dengan derajat dari separability antara kelas-kelas dalam data. Kesulitan untuk memisahkan kelas minoritas dari kelas mayoritas adalah faktor utama yang mempersulit pembelajaran dari kelas yang lebih kecil. Ketika pola overlapping yang hadir di setiap kelas untuk beberapa ruang fitur, atau kadang-kadang bahkan di semua ruang fitur, sangat sulit untuk menentukan ketentuan diskriminatif untuk memisahkan kelas. Ruang fitur overlapping disebabkan fitur kehilangan properti intrinsik mereka sehingga membuat

34 18 mereka redundan atau tidak relevan untuk membantu mengenal batas keputusan yang baik antara kelas. Sebelum bekerja dalam menemukan bahwa seperti tingkat kompleksitas data yang meningkat, faktor ketidakseimbangan kelas mulai mempengaruhi kemampuan generalisasi dari sebuah classifier. Bekerja dari mengusulkan agar adanya hubungan antara kelas overlapping dan ketidakseimbangan dalam klasifikasi ketidakseimbangan kelas namun tingkat tersebut tidak didefinisikan dengan baik. Banyak penyelidikan dalam kelas dari separability memberikan bukti-bukti bahwa masalah kelas overlapping memberikan kendala berat untuk kinerja classifier dibandingkan dengan distribusi kelas ketidakseimbangan. Pada classifiers standar yang beroperasi dengan berusaha untuk memaksimalkan akurasi dalam klasifikasi sering jatuh ke dalam perangkap masalah overlapping karena biasanya mereka diklasifikasikan pada daerah yang overlapping sebagai milik kelas mayoritas sementara asumsi kelas minoritas sebagai noise. 3. Small disjunct Sementara dalam pembelajaran klasifikasi ketidakseimbangan kelas, rasio antara ketidakseimbangan kelas minoritas dan kelas mayoritas sangat jelas, Kadang suatu saat ketidakseimbangan dalam satu kelas mungkin diabaikan. Di dalam ketidakseimbangan kelas, sering muncul small disjunct ketika kelas terdiri dari beberapa jumlah sub-cluster yang berbeda dari contoh. Studi tentang dan menjelajahi dalam ketidakseimbangan kelas di kelas minoritas menyatakan bahwa kelas minoritas kurang terwakili disebabkan oleh small disjunct dapat ditingkatkan dengan menerapkan upsampling diarahkan sehubungan dengan kelas minoritas. Masalah small disjuncts di ketidakseimbangan kelas mempengaruhi kinerja klasifikasi karena 1) small disjuct memberatkan classifier dalam tugas konsep pembelajaran dari kelas minoritas dan yang 2) kejadian tentang di dalam masalah kelas, sebagian besar waktu secara implisit. Di dalam masalah kelas ini selanjutnya menandakan karena banyak pendekatan saat ini untuk ketidakseimbangan kelas sebagian besar lebih tertarik untuk memecahkan antara masalah kelas dan mengabaikan distribusi ketidakseimbangan dalam setiap kelas.

35 19 Gambar 2.8. Contoh Ketidakseimbangan antara Kelas (a) overlapping antara kelas (b) small disjunct - dalam ketidakseimbangan kelas (Ali, et al, 2015) Penanganan Ketidakseimbangan kelas Secara umum, ada dua strategi untuk menangani klasifikasi ketidakseimbangan kelas ; 1) Pendekatan level data dan 2) pendekatan level algoritma. Metode pendekatan pada level data menyesuaikan rasio ketidakseimbangan kelas dengan tujuan untuk mencapai keseimbangan distribusi antara kelas sedangkan pada pendekatan level algoritma, bahwa algoritma klasifikasi konvensional diperbaiki untuk meningkatkan tugas belajar terutama relatif terhadap kelas yang lebih kecil. Pendekatan level data atau kadang-kadang dikenal sebagai teknik eksternal mempekerjakan langkah preprocessing untuk menyeimbangkan distribusi kelas. Hal ini dilakukan secara undersampling dan oversampling untuk mengurangi rasio ketidakseimbangan dalam data training. Pada metode undersampling menghilangkan sejumlah kecil contoh dari kelas mayoritas untuk meminimalkan perbedaan antara dua kelas sedangkan oversampling lebih cenderung membuat duplikat contoh dari kelas minoritas. SMOTE (Synthetic Minority Over-sampling Technique) merupakan teknik oversampling yang popular dalam menangani klasifikasi ketidakseimbangan kelas. SMOTE menambahkan contoh baru untuk kelas minoritas dengan menghitung distribusi probabilitas untuk model kelas yang lebih kecil sehingga membuat keputusan batas yang lebih besar untuk menangkap contoh kelas minoritas yang berdekatan.

36 20 Selain metode pengambilan sampel, langkah lain dalam pre-processing yang mendapatkan popularitas dalam klasifikasi ketidakseimbangan kelas adalah seleksi fitur. Ada beberapa karya melaporkan pada metode seleksi fitur yang dirancang khusus untuk mengatasi masalah pendistribusian ketidakseimbangan kelas. Sebuah saran yang diusulkan untuk seleksi fitur berbasis dekomposisi kelas baru dalam menerapkan seleksi fitur pada pseudo-subclass yang lebih kecil dibangun dari membagi kelas mayoritas Pendekatan Level data dengan Seleksi Fitur Dapat dikatakan bahwa seleksi fitur sangat mempengaruhi hasil dari proses klasifikasi. Untuk dataset tidakseimbang (imbalance), metode seleksi fitur harus fokus pada fitur yang membantu dalam mengidentifikasi kelas minoritas (Pant, 2015). Penelitian ini mengusulkan sebuah metode untuk melakukan seleksi fitur yakni Density Based Feature Selection (DBFS). Sasaran dari metode DBFS merupakan sebuah metode pengajaran heuristic yang bertujuan untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat. Dugaan yang mendorong rasa ingin tahu lewat temuan (secara heuristik) bahwa fitur yang dikatakan baik bila salah satu nilai dari masing-masing class memiliki sisa class yang overlapping, yang disebut dengan instance dari masing-masing class sebagai bagian dari instance yang mungkin dari class lain berdasarkan nilai fitur. Dengan kata lain instance dari masing-masing class tidak menyebar kedalam berbagai instance yang terdapat pada class lain. (Alibeigi et al, 2012). Untuk menelusuri lebih lanjut kontribusi dari masing masing fitur serta menetapkan urutan yang tepat, DBFS mempertimbangkan korespondensi distribusi fitur dari seluruh class yang berkorelasi. Prosedur penanganan seleksi fitur dengan metode DBFS dijelaskan berikut ini (Alibeigi et al, 2012) : 1. Mengestimasi Probability Density Function (PDF) dari fitur di setiap kelas Metode yang lazim digunakan untuk menghitung PDF dapat dikatagorisasikan melalui dua pendekatan yaitu parametrik dan non parametrik. Secara khusus, seluruh metode densitas parametrik klasik merupakan multimodal, sementara banyak permasalahan yang bersifat praktis melibatkan densitas multimodal. Sementara itu, aturan nonparametrik dapat digunakan lewat distribusi sembarang tanpa adanya dugaan bahwa bentuk kepadatan mendasar yang dipahami. Ini

37 21 merupakan penyebab mengapa aturan nonparametrik lebih menarik dan diterapkan sebagai pendekatan yang dilakukan. Bentuk umum dari penilaian nonparametik dari PDF berdasarkan persamaan beriku t:. (2.1) Dimana, (x) merupakan nilai dari penilaian PDF misalnya x,v, merupakan volume yang mencakup x,n yang merupakan instance dari total jumlah K yang merupakan jumlah instance yang terdapat dalam V. Konsep-konsep ini dapat dilihat pada gambar 2.9. Penilaian PDF menjadi lebih akurat sama dengan peningkatan N dan volume V menurun. Sejak dalam prakteknya jumlah total dari instance ditetapkan sebagai (N), untuk meningkatkan akurasi dari penilaian PDF sebagai instance x (p(x)), kita mungkin mengumpamakan volume V mendekati nol namun kemudian hal tersebut kemungkinan akan sangat kecil yang mungkin tidak melampirkan berbagai instance. Maksudnya adalah, secara praktik (dengan penetapan sejumlah instance), dengan menemukan sebuah nilai yang disepakti terhadap nilai V, bahkan dengan sebahagian kecil instance, kemungkinan densitas yang dapat diterima mungkin jadi pertimbangan. Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x (Alibeigi et al, 2012) 2. Prosedur menentukan Peringkat fitur Langkah kedua setelah penilaian PDF pada masing-masing kelas yaitu menemukan nilai dari fitur berdasarkan penilaian PDF terhadap kelas. Seperti yang disampaikan sebelumnya bahwa fitur yang baik merupakan salah satu dari masing-masing kelas memiliki overlapping minimum dengan kelas yang tersisa. Hal tersebut berarti bahwa

38 22 mencari keberadaan fitur, mengacu pada nilai-nilai yang diberikan pada masingmasing instance kelas yang merupakan bagian yang mungkin terpisah dari instance kelas lainnya. Untuk menghitung jumlah nilai overlapping antara instance dari dua kelas untuk fitur tertentu, kita menggunakan estimasi PDF untuk setiap fitur dan label kelas. Pada gambar 2.10 memaparkan, instance yang termasuk bagian dari kedua kelas yang yang ditandai sebagai C. Taksiran pada bagian C dapat dianggap sebagai probabilitas bahwa sebuah instance yang nilai fiturnya ditemukan di wilayah C melibatkan kedua kelas. Setelah terjadi peningkatan pada bagian overlapping terhadap fitur, penting dilakukan penghitungan nilai overlapping untuk fitur f di kelas cl berdasarkan rumusan berikut ini: (2.2) Gambar Area Overlapping pada setiap fitur f (Alibeigi et al, 2012) 3. Menghitung area non overlapping dari fitur f di kelas cl Nilai DiscriminantAbility untuk setiap fitur pada masing-masing kelas bermakna bahwa fitur ini sangat dapat diandalkan dalam mengklasifikasikan instance kelas. Pada gambar menunjukkan bahwa bagian dari non - overlapping untuk fitur 2322 dari dataset CNS2 pada masing-masing kelas. Dapat dikatakan bahwa bagian

39 23 yang berlabel A dan B merupakan bagian yang tidak overlapping terhadap masingmasing kelas mayoritas dan minoritas. Pada bagian non - overlapping untuk fitur f pada setiap kelas yang berdampak baik terhadap discriminant ability dari fitur yang dapat didefinisikan sebagai berikut:.... (2.3) Fitur discriminantability secara keseluruhan merupakan rata-rata nilai DiscriminantAbility dari masing-masing class. Dapat dikatakan bahwa fitur dengan luas bagian yang tidak overlapping atau dengan rata-rata nilai-nilai DiscriminantAbilitiy yang lebih tinggi, mampu mengklasifikasikan instances lebih akurat. Lebih jauh lagi seperti pada pemaparan sebelumnya, fitur yang diasumsikan sebagai sesuatu yang baik bila sesuai dengan nilai-nilai yang berdasarkan fitur instance melibatkan satu kelas yang tidak menyebar ke kelas lain. Gambar Area Non Overlapping pada setiap fitur f (Alibeigi et al, 2012) Langkah berikutnya mengenumerasi perubahan jumlah sebagai fitur numchanges. Perubahan jumlah mengacu pada jumlah waktu yang terdapat pada kotak label instance dari satu kelas ke kelas yang lain pada fitur khusus dari PDF. Setiap PDF ditentukan, label instance hanyalah kelas yang memiliki maximum probability (PDF value) pada poin tersebut menentukan skor dari fitur f berdasarkan rumus berikut : (2.4)

40 24 Skor fitur dihitung lewat hal yang mangacu pada nilai discriminant ability serta nilai numchanges. Semakin tinggi skor dari sebuah fitur, maka peringkatnya akan rendah Pendekatan Level Algoritma dengan adaptive boosting (Adaboost) Pendekatan level algoritma bisa didedikasikan sebagai algoritma yang secara langsung mempelajari distribusi ketidakseimbangan dari kelas di dataset. Pendekatan tingkat Algoritma mencoba untuk beradaptasi dengan algoritma pembelajaran classifier yang ada untuk bias belajar menuju kelas minoritas. Metode ini memerlukan pengetahuan khusus dari kedua classifier yang sesuai dan domain aplikasi, memahami kegagalan classifier ketika distribusi kelas tidak merata. Salah satu metode pendekatan level algoritma adalah metode ensemble. Metode Ensemble ini melatih beberapa pengklasifikasi data training dan adanya evaluasi dikumpulkan untuk menghasilkan keputusan klasifikasi akhir. Metode ensemble secara umum dapat dideskripsikan sebagai boosting, dimana sebuah classifier diinduksi untuk setiap contoh training set dengan memilih salah satu dari algoritma machine learning. Oleh karena itu, akan ada jumlah k classifier untuk setiap variasi k dari training set. Metode boosting melakukan percobaan pada training set menggunakan beberapa model untuk mendorong classifier menghasilkan output. Bobot yang lebih tinggi ditetapkan pada setiap classifier untuk contoh secara salah diklasifikasikan. Output kemudian diperbaiki dengan menggunakan pendekatan weighted average. Keputusan akhir diperoleh dengan menggabungkan semua classifier. Algoritma adaboost merupakan salah satu dari beberapa varian tentang ide boosting. Penggunaan boosting menarik perhatian karena memberikan jaminan dalam performansi (Witten, 2011). AdaBoost merupakan suatu algoritma pembelajaran untuk meningkatkan kinerja klasifikasi terhadap suatu algoritma pembelajaran sederhana. AdaBoost menggabungkan sekumpulan fungsi classifier lemah untuk membentuk suatu classifier yang kuat. Adaboost merupakan teknik optimasi yang handal dengan mengkombinasikan beberapa pengklasifikasian dasar (multi base classifier) untuk menghasilkan suatu pengklasifikasian yang kuat (Alpaydin,2010). Jadi AdaBoost juga Merupakan suatu meta-algorithm yang dapat digunakan bersamaan dengan banyak algoritma pembelajaran lain untuk meningkatkan kinerjanya. AdaBoost bersifat adaptif, dimana

41 25 classifiers berikutnya dibangun untuk mendukung data-data yang mengalami kesalahan klasifikasi oleh classifier sebelumnya. AdaBoost sensitif terhadap data yang noisy dan outliers. Dalam beberapa hal, AdaBoost menjadi kurang rentan terhadap masalah overfitting, jika dibandingkan dengan algoritma pembelajaran pada umumnya. Pembentukan classifier pada Adaboost didasari input dataset training (D i ) adalah (x 1,y 1 ),..,(x m,y m ) dimana setiap x i dimiliki beberapa domain atau ruang instance X dan setiap label y i dalam beberapa set label Y. Diasumsikan Y = {-1, +1}. AdaBoost disebut algoritma pembelajaran yang lemah dalam serangkaian putaran t = 1... T. Salah satu ide utama dari algoritma ini adalah untuk memelihara distribusi bobot lebih dari training set. Bobot dari distribusi ini pada contoh training i dalam putaran t adalah dilambangkan D t (i). Awalnya, semua bobot ditetapkan sama, tetapi dalam setiap putaran, bobot dari contoh yang salah diklasifikasikan meningkat sehingga pembelajaran dasar dipaksa untuk fokus pada contoh yang sulit pada set training. Pekerjaan pembelajar dasar adalah untuk menemukan classifier dasar h t : sesuai dengan distribusi D t. dalam kasus yang sederhana, range dari setiap h t adalah binary, terbatas pada {-1, +1}. tugas pembelajar dasar itu adalah meminimalkan kesalahan (error) dari h t dengan persamaan ( Schapire, 2003):. (2.5) Setelah classifier dasar h t sudah diterima, AdaBoost memilih parameter α t R sehingga pentingnya mengukur secara intuitif yang akan menetapkan h t. Untuk binary h t, biasanya diatur dengan persamaan : menetapkan bobot h t :.... (2.6).. (2.7) Perbaruhi distribusi, dimana Z t sebuah faktor normalisasi yang mengaktifkan D t+1 menjadi distribusi :. (2.8)

42 26 Classifier akhir yang didapatkan merupakan gabungan dari semua classifier lemah yang didapatkan dari setiap tahapan boosting. Gabungan classifier H adalah voting mayoritas pembobotan dari classifier dasar setiap T dimana α t adalah bobotnya ditetapkan untuk h t. Pengklasifikasi akhir / kuat :.. (2.9) Hasil studi penulis terhadap beberapa penelitian yang sudah dilakukan menggunakan algoritma Adaboost adalah : 1. Algoritma Adaboost dikolaborasikan dengan algoritma C4.5 dalam model Cross- Standard Industry for Data Mining (CRISP-DM) untuk meningkatkan hasil akurasi prediksi penyakit jantung coroner (Suwondo et al, 2013). 2. Penerapan Adaboost pada metode Decision Tree terbukti efektif menghasilkan model arsitektur yang optimal dalam penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa (Bisri, 2015). 3. Menggabungan Genetic Algorithm dan Adaboost yang disebut "Ada-GA", dimana Parameter untuk evolusi crossover rate =1, mutation rate = 0.003, population size = , jumlah generasi = menghasilkan solusi yang lebih baik ( weak classifier lebih sedikit dan sedikit peningkatan dari akurasi klasifikasi) dari pada AdaBoost klasik (Elden et al, 2013). 4. Dengan menggabungkan empat metode klasifikasi yang berbeda, yaitu AdaBoost ensemble dengan regresi logistik (direpresentasikan sebagai LA), AdaBoost ensemble dengan decision tree (direpresentasikan sebagai DTA), classifier tunggal pada DT dan classifier tunggal pada support vector machine (SVM) dan dataset bawaan mampu memberikan peningkatan untuk prediksi sebagai default ekonomi yang muncul di Malaysia (Ramakrishnan et al, 2015) Algoritma C4.5 Algoritma C4.5 merupakan salah satu algoritma klasifikasi. Algoritma ini berfungsi untuk membuat decision tree (pohon keputusan). Selain menggunakan algoritma C4.5, ID3 dan CART merupakan algoritma yang dipakai dalam pembuatan decision tree. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005). Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan

43 27 algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numeric (Han, 2001). Dalam mengkonstruksi pohon, algoritma C4.5 membaca seluruh sampel data training dari storage dan memuatnya ke memori. Hal inilah yang menjadi salah satu kelemahan algoritma C4.5 dalam kategori skalabilitas adalah algoritma ini hanya dapat digunakan jika data training dapat disimpan secara keseluruhan dan pada waktu yang bersamaan di memori (Moertini, 2007). Data (input) pada algoritma C4.5 berupa tabel dan menghasilkan output berupa pohon. Terdapat tiga prinsip algoritma C4.5 pada tahap belajar data adalah : 1. Pembuatan pohon keputusan Obyektif dari algoritma penginduksi pohon keputusan adalah mengkonstruksi struktur data pohon (dinamakan pohon keputusan) yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki kelas. C4.5 mengkonstruksi pohon keputusan dengan strategi divide and conquer. Pada awalnya, hanya dibuat node akar dengan menerapkan algoritma divide and conquer. Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain ratio, kemudian pada node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan lagi. Demikian seterusnya sampai terbentuk daun - daun. Sebagai ilustrasi, dari data pelatihan pada Gambar 2.11, C4.5 dapat menghasilkan pohon keputusan seperti terlihat pada Gambar 2.12, dengan simbol kotak menyatakan simpul dan elips menyatakan daun.

44 28 Gambar Proses klasifikasi data : (a) Tahap belajar. (b) Tahap pengujian dan penggunaan aturan aturan untuk mengklasifikasi record baru (Han et al, 2001) Gambar Contoh pohon keputusan (Han et al, 2001) 2. Pemangkasan pohon keputusan dan evaluasi (opsional) Karena pohon yang dikonstruksi dapat berukuran besar dan tidak mudah dibaca, C4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan berdasarkan nilai tingkat kepercayaan (confidence level). Selain untuk pengurangan ukuran pohon, pemangkasan juga bertujuan untuk mengurangi tingkat kesalahan prediksi pada kasus (record) baru

45 29 3. Pembuatan aturan aturan dari pohon keputusan (opsional) Aturan aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. Setiap node dan syarat pencabangannya akan diberikan di if, sedangkan nilai pada daun akan menjadi ditulis di then. Setelah semua aturan dibuat, maka aturan akan disederhanakan (digabung atau diperumum). Sebagai contoh, aturan-aturan yang diturunkan dari pohon keputusan pada Gambar 2.12 adalah: if Age < 31 or 31 <= Age<= 40 and Income = low then Fair if Age > 40 or 31 <= Age<= 40 and Income = high then Exc Jika aturan aturan dari pohon tidak dibuat maka klasifikasi kasus baru dapat dilakukan dengan menggunakan pohon baru. Keakuratan dari aturan aturan ini dinamakan kesalahan klasifikasi dan didefinisikan sebagai prosentase dari kasus kasus yang diklasifikasikan dengan salah. Pada kontruksi pohon C4.5 disetiap simpul pohon, atribut dengan nilai gain ratio yang tertinggi dipilih sebagai atribut test atau split untuk simpul rumus gain ratio adalah : (Moertini, 2007) Gain ratio(a) = gain(a) / split info(a) (2.10) Dimana gain(a) adalah information gain dan atribut a untuk himpunan sampel dan split info(a) menyatakan entropi atau informasi potensial yang didapat pada pembagian X menjadi n sub himpunan berdasarkan pemeriksaan pada atribut a. sedangkan gain(a) didefenisikan sebagai berikut : Gain(a) = info(x) info a (X).. (2.11) Dimana adalah fungsi entropi dengan k adalah jumlah kelas pada himpunan data X. freq (C j,x) menyatakan jumlah sampel pada X yang memiliki nilai kelas C j. X menyatakan kardinalitas (jumlah anggota) himpunan data X. Info a (X) = Menyatakan info(x) dan a adalah atribut yang ditelaah dan n adalah jumlah sub himpunan yang dibentuk dari X (pada atibut diskret, n adalah jumlah nilai unik pada a, sedangkan pada atribut kontinyu n = 2. sedangkan rumus split info(a) adalah : (2.12)

46 30 Dimana X i menyatakan sub himpunan ke-i pada sampel X. Alasan penggunaan gain ratio(a) pada C4.5 (bukan gain(a)) sebagai kriteria pada pemilihan atribut test adalah gain ternyata bias terhadap atribut yang memiliki banyak nilai unik. Pembagian gain(a) dengan split info(a) dimaksudkan untuk mengatasi hal ini. Untuk menghitung nilai info a (X), jika a adalah atribut diskret, maka sampel X dibagi menjadi sub sampel X1 Xn, dimana n adalah jumlah nilai unik pada atribut dan Xi adalah sub sampel yang memiliki nilai atribut a = i. Jika a adalah atribut kontinyu, maka sampel X dibagi menjadi dua sub sampel dan dengan X 1 ={ v j v j v} dan X 2 ={ v j v j v}, dimana v adalah sebuah nilai ambang. Cara mencari v adalah dengan mula mula sampel di X diurutkan berdasarkan nilai dari a. dimisalkan bahwa nilai yang terurut adalah v 1,.,v m. Jika i [1,m-1] dan v = (v i + V i+1 ) / 2 maka sampel yang dipecah dapat dinyatakan dengan dan. Untuk setiap nilai v, gain v, dihitung dengan memperhatikan pemisah sampel diatas. Information gain untuk a didefenisikan sebagai nilai maksimum dari semua gain v dan nilai v ditentukan sebagai nilai ambang (threshold) untuk atribut kontinyu. Penelitian untuk mengembangkan algoritma C4.5 yang asli sudah banyak dilakukan. Dari hasil studi penulis didapati hasil yang sudah dilakukan antara lain : 1. Algoritma C4.5 dapat diimplementasikan untuk memprediksi tingkat kelulusan mahasiswa dengan empat kategori yaitu lulus cepat, lulus tepat, lulus terlambat dan drop out. Attribut yang paling berpengaruh dalam hasil prediksi adalah IPS semester enam.(kamagi et al, 2014). 2. Algortima C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut. Selain ini algoritma C4.5 cocok digunakan untuk data yang bersifat non-numerik seperti data nilai mahasiswa yang dikelompokkan kedalam empat kelompok (best, Good, Pass, dan Fail) (Rahmayuni, 2014). 3. Algortima C4.5 berbasis Decision Tree, melakukan transformasi data numerik dan juga continue kedalam bentuk kategorikal dan dibuat skala atau interval agar menghasilkan range yang lebih kecil untuk pembelajaran algoritma C4.5 (Puspita et al, 2015).

47 Validasi dan Evaluasi Kinerja Algortima Klasifikasi Cross-Validation Dalam pendekatan cross-validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Untuk mengilustrasikan metode ini, anggaplah kita mempartisi data ke dalam dua subset yang berukuran sama. Pertama, kita pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two-fold cross-validation. Total error diperoleh dengan menjumlahkan error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk training dan satu kali untuk testing. Metode k-fold cross-validation mengeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk testing, sedangkan sisanya digunakan untuk training. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam pengunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al.2005). Metode evaluasi standard yaitu stratified 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai ratarata dari 10 kali pengujian. Keuntungan metode ini, menghindari overlapping pada data testing. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Gorunescu, 2011).

48 Confusion Matrix Evaluasi untuk mengukur kinerja model digunakan confusion matrix, karena confusion matrix merupakan alat yang berguna untuk menganalisa seberapa baik pengklasifikasi dapat mengenali tupel/fitur dari kelas yang berbeda (Han, Kamber, & Pei, 2011). Confusion matrix dapat membantu menunjukkan rincian kinerja pengklasifikasi dengan memberikan informasi jumlah fitur suatu kelas yang diklasifikasikan dengan tepat dan tidak tepat (Bramer, 2007, p. 89). Confusion matrix memberikan penilaian kinerja model klasifikasi berdasarkan jumlah objek yang diprediksi dengan benar dan salah (Gorunescu, 2011). Pengukuran akurasi dengan confusion matrix merupakan matrik 2 dimensi yang menggambarkan perbandingan antara hasil prediksi dengan kenyataan dapat dilihat pada table 2.2. Tabel 2.2. Confusion matrix (Gorunescu, 2011) Setelah dibuat confusion matrix, selanjutnya dihitung nilai akurasi, sensitivitas atau disebut recall atau True Positive Rate (TPrate), specificity (ketegasan) atau disebut True Negative Rate (TNrate), False Positive Rate (FPrate), False Negative Rate (FNrate), precision atau disebut Positive Predictive Value (PPV), Negative Predictive Value (NPV), F-Measure, Geometric Mean (GMean), dan Area Under the ROC Curve (AUC). Formulasi perhitungan yang digunakan adalah sebagai berikut (Gorunescu, 2011) : Accuracy =.... (2.13) Sensitivity =... (2.14) Specificity = TN rate =... (2.15) FP rate =... (2.16)

49 33 Precision =... (2.17) F-Measure =.. (2.18) G-Mean =. (2.19) Untuk data tidak seimbang, akurasi lebih didominasi oleh ketepatan pada data kelas minoritas, maka metrik yang tepat adalah AUC (Area Under the ROC Curve), F- Measure, G-Mean, akurasi keseluruhan, dan akurasi untuk kelas minoritas (Zhang & Wang, 2011). Evaluasi dengan F-Measure, rata-rata harmonik dari dua angka cenderung lebih dekat dengan lebih kecil dari dua, oleh karena itu nilai F-Measure yang tinggi dapat memastikan bahwa kedua recall (sensitivity) dan presisi yang cukup tinggi. Jika hanya kinerja kelas positif dianggap sebagai dua langkah penting yaitu TP rate dan Positive Predictive Value (PP value). PP value didefinisikan sebagai presisi yang menunjukan presentasi objek yang relevan yang didefinisikan untuk retrieval. Dalam pencarian informasi TP rate didefinisikan sebagai recall yang menunjukan presentasi dari objek yang diambil itu adalah relevan. Rata-rata harmonik adalah gabungan dari ukuran presisi dan recall Kurva ROC (Receiver Operating Character Curve) Evaluasi dengan Receiver Operating Character Curve (ROC Curve), secara teknis menggambarkan graifk dua dimensi, dimana tingkat True Positive (TP) terletak pada garis sumbu Y, sedangkan untuk False Positive (FP) terletak pada garis sumbu X. dengan demikian ROC menggambarkan tradeoff antara TP dan FP. Pencatatan dalam ROC dinyatakan dalam sebuah klausa yaitu semakin rendah titik kekiri (0.0), maka dianyatakan sebagai klasifikasi prediksi mendekati/menjadi negatif, sedangkan semakin keatas titik kekanan (1.1), maka dinyatakan sebagai klasifikasi prediksi mendekati/menjadi positif. Titik dengan nilai 1 dinyatakan sebagai tingkat True Positif (TP), sedangkan titik dengan nilai 0 dinyatakan sebagai tingkat False Positive (FP). Pada titik (0.1) merupakan klasifikasi prediksi adalah sempurna karena semua kasus baik positif maupun negatif dinyakatakan dengan benar (True). Sedangkan untuk (1.0) klasifikasi prediksi semuanya dinyatakan sebagai tidak benar (False).

50 34 Tabel 2.3. Nilai AUC dan keterangan (Gorunescu, 2011) Area Under the ROC (Receiver Operating Characteristic) Curve (AUROC atau AUC) adalah ukuran numerik untuk membedakan kinerja model, dan menunjukkan seberapa sukses dan benar peringkat model dengan memisahkan pengamatan positif dan negatif (Attenberg & Ertekin, 2013). AUC menyediakan ukuran tunggal dari kinerja pengklasifikasi untuk menilai model mana yang lebih baik secara rata-rata (López, Fernández, & Herrera, 2014). AUC merangkum informasi kinerja pengklasifikasi ke dalam satu angka yang mempermudah perbandingan model ketika tidak ada kurva ROC yang mendominasi (Weiss, 2013). AUC adalah cara yang baik untuk mendapatkan nilai kinerja pengklasifikasi secara umum dan untuk membandingkannya dengan pengklasifikasi yang lain (Japkowicz, 2013). AUC adalah ukuran kinerja yang populer dalam ketidakseimbangan kelas, nilai AUC yang tinggi menunjukkan kinerja yang lebih baik (Liu & Zhou, 2013). Sehingga untuk memilih model mana yang terbaik, dapat dilakukan dengan menganalisa nilai AUC. Terdapat beberapa angka yang dapat dianalisa. dari dua buah data yaitu data kelas yang dihasilkan dari classifier (Predicted Class) dan data kelas asli yang telah diketahui (Actual Class). Jika kelas yang dihasilkan classifier sama dengan actual class dari data maka data termasuk dalam TP (True Positive) untuk kelas positif (1) atau TN (True Negative) untuk kelas negatif (0). Cara membentuknya yaitu dengan mengubah parameter-parameter yang dapat dituning dari classifier sehingga membuat banyak sekali confusion table. Dari banyak confusion tabel, maka kita dapat mengambil nilai dari TP dan FP dari tabel tersebut tetapi bisa juga diambil perbandingan yang lain yaitu precision dan recall, tetapi pada beberapa kasus suatu classifier dibuat untuk menebak kelas 1 sebagai kelas yang benar sehingga kita bisa menganalisa langsung pada proses prediksi pada kelas 1 saja. Sedangkan nilai yang diplot adalah nilai TPR (True Positive Rate) dan FPR (False Positive Rate). Ukuran

51 35 AUC dihitung sebagai daerah kurva ROC dengan persamaan sebagai berikut (Lopez et al, 2014) :.. (2.20) Root Mean Square Error (RMSE) Root Mean Square Error (RMSE) adalah ukuran yang sering digunakan dari perbedaan antara nilai-nilai diprediksi oleh model atau estimator dan nilai-nilai benar - benar diamati. Perbedaan-perbedaan individual disebut residual ketika perhitungan dilakukan atas sampel data yang digunakan untuk estimasi, dan disebut kesalahan prediksi ketika dihitung out-of-sample. RMSE digunakan untuk mengevaluasi keandalan model. Uji coba dapat dilakukan dengan membandingkan nilai prediksi model dengan nilai sebenarnya. Model yang baik adalah model yang mampu memberikan nilai estimasi yang akurat, yaitu nilai y dugaan mendekati nilai y observasi sehingga error mendekati nol. Nilai RMSE (Root Mean Square Error) yang semakin kecil menunjukkan model semakin andal dalam memberikan prediksi. RMSE dihitung dengan persamaan sebagai berikut (Gorunescu, 2011) (2.21) Keterangan formulasi RMSE : y = Nilai aktual y = nilai prediksi n = jumlah sampel data i = iterasi

52 Penelitian Terkait Adapun penelitian-penelitian yang sudah dilakukan dan berkaitan dengan penelitian ini dapat dilihat pada tabel 2.4. Nama Peneliti Rahmayuni, I Elden, A. S., Moustafa, M. A., Harb, H. M. & Emara, A. Tabel 2.4. Penelitian Terkait Judul Pembahasan Tahun Perbandingan Performansi Algoritma C4.5 dan CART dalam Klasifikasi Data Nilai Mahasiswa Prodi Teknik Komputer Politeknik Negeri Padang Adaboost Ensemble with Simple Genetic Algorithm for Student Prediction Model Penelitian dilakukan dengan 2014 membandingkan Algoritma C4.5 dan CART. Hasil penelitian menunjukkan algoritma C4.5 memberikan akurasi paling baik (85,61%) sedangkan algoritma CART memberikan akurasi (84,95%). Hal ini terjadi karena algortima C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut. Penelitian ini menggabungkan 2013 Algoritma Adaboost dengan Genetic Algorithm bahwa dengan menggabungkan Genetic Algorithm dengan Adaboost menghasilkan solusi yang lebih baik ( weak classifier lebih sedikit dan sedikit peningkatan dari akurasi klasifikasi) dari pada AdaBoost klasik. Dengan menggunakan "tiga" tree split, akurasi Ada- GA sedikit meningkat

53 37 dibandingkan nilai rata rata akurasi Adaboost klasik. Juga, jumlah weak classifier algoritma AdaBoost berkurang bila menggunakan algoritma yang diusulkan Ada-GA. Bisri, A. Penerapan Adaboost Penelitian ini menggunakan 2015 untuk penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa pada metode Decision Tree Alibeigi, M., DBFS : An effective Hashemi, S. & Density Based Feature Hamzeh, A. Selection scheme for small sample size and high dimensional imbalanced data sets algoritma Adaboost dengan record jumlah mahasiswa sebanyak 429 bahwa Adaboost pada metode Decision Tree terbukti efektif menghasilkan model arsitektur yang optimal dalam penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa Pada penelitian ini melakukan 2012 pendekatan perangkingan fitur yang baru berdasarkan density based feature selection (DBFS) untuk mengatasi ukuran sampel yang kecil dan masalah dimensi tinggi di dataset tidakseimbang memberikan manfaat yang signifikan pada algoritma seleksi fitur. Dengan mengeksplorasi dari kontribusi masing masing atribut dan menetapkan peringkat atribut yang tepat serta memperhitungkan distribusi fitur yang sesuai. Gao,K., Combining Feature Penelitian ini menggunakan 2014

54 38 Khoshgoftaar, T. & Wald, R. Selection and Ensemble Learning for Software Quality Estimation. teknik ensemble yaitu adaboost bekerja bersama dengan beberapa metode seleksi fitur, hasil eksperimen yang telah dilakukan menunjukkan bahwa seleksi fitur yang dilakukan didalam teknik ensemble menghasilkan kinerja klasifikasi lebih baik dari pada saat diterapkan sebelum teknik ensemble Perbedaan dengan Riset yang lain Berdasarkan tabel 2.4, dapat disimpulkan dari penelitian yang pernah dilakukan bahwa Algoritma Adaboost dan metode DBFS dapat memiliki akurasi yang lebih baik dalam mengatasi ketidakseimbangan kelas dataset. Menggabungkan algoritma Adaboost juga terbukti efektif mengatasi ketidakseimbangan kelas dengan metode klasifikasi standar C4.5. Akan tetapi dari kombinasi kedua algoritma tersebut diatas, dalam pembelajaran metode klasifikasi C4.5 belum diketahui dan memerlukan penelitian lebih lanjut Kontribusi Riset Kombinasi penerapan seleksi fitur DBFS dan pendekatan level algoritma yaitu adaboost diharapkan mengurangi pengaruh ketidakseimbangan kelas dalam dataset mahasiswa lulusan serta meningkatkan akurasi pengklasifikasi C4.5 pada model prediksi kelulusan mahasiswa. Informasi potensial yang dihasilkan melalui model prediksi dan pemetaan data mahasiswa dijadikan sebagai peringatan dini bagi mahasiswa yang diprediksi berpotensi lulus tepat waktu maupun tidak tepat waktu serta dapat menjadi rekomendasi dan bahan pertimbangan bagi pimpinan dalam pengambilan keputusan.

55 BAB 3 METODOLOGI PENELITIAN 3.1. Pendahuluan Metodologi penelitian merupakan sekumpulan proses terstruktur mengenai peraturan, kegiatan dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu yang menceritakan bagaimana sebuah penelitian dilaksanakan (Zarlis, et al, 2015). Pada hakekatnya metodologi penelitian merupakan operasionalisasi dari epistemologi yang mengkaji perihal urutan langkah langkah yang ditempuh supaya pengetahuan yang diperoleh memenuhi ciri ciri ilmiah Metode Penelitian Metode penelitian merupakan cara ilmiah yang digunakan untuk mendapatkan data yang objektif, valid, dan realibel dengan tujuan dapat ditemukan, dibuktikan, dan dikembangkan suatu pengetahuan, sehingga dapat digunakan untuk memahami, memecahkan, dan mengantisipasi masalah (Sugiyono, 2010). Penelitian ini dilaksanakan pada Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Mikroskil Medan jurusan Sistem Informasi. Penetapan lokasi penelitian ini didasarkan pada pertimbangan akses data lebih mudah karena lokasi penelitian berada pada lingkup kerja peneliti sehingga proses pengumpulan data, pengolahan, analisis hingga implementasi relatif lebih mudah dilakukan. Metode yang digunakan dalam penelitian ini adalah eksperimental. Penelitian eksperimental bisa dilakukan pada dua kelompok. dimana kelompok satu disebut kontrol yang tanpa diberi perlakuan apapun, sedangkan pada kelompok kedua diberikan perlakuan (treatment) (Hasibuan, 2007). Adapun tahapan pada penelitian ini seperti gambar 3.1.

56 40 Pengumpulan Data Pengolahan Awal (Preprocessing)Data Model yang diusulkan Evaluasi dan Validasi Eksperimen & Pengujian Model Gambar 3.1. Tahapan Penelitian Metode Pengumpulan Data Proses ini ditujukan untuk mengumpulkan data mahasiswa lulusan pada program studi Sistem Informasi tahun ajaran 2004, 2005, 2006, berupa data akademik dan data nonakademik. Diambilnya periode tahun ajaran mahasiswa lulusan pada penelitian ini karena memiliki struktur kurikulum yang sama. Data mahasiswa lulusan dimaksudkan untuk mencari dan membentuk pola perolehan status akademik yang akan digunakan untuk memprediksi kelulusan. Data mahasiswa lulusan yang bisa digunakan sebagai dataset diperoleh dengan melakukan query data dari beberapa database SIPT (Sistem Informasi Perguruan Tinggi) STMIK Mikroskil yang dikelolah oleh Unit Pelaksana Teknis Pusat Sistem Informasi (UPTPSI). Dengan jumlah mahasiswa lulusan 1086 record, dataset pertama kelulusan mahasiswa dapat dilihat pada table 3.1. Tabel 3.1. Dataset Pertama Mahasiswa Lulusan No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Program Studi Nominal 3 Jenis Kelamin Nominal 4 Shift Kuliah Nominal 5 Indeks Prestasi Kumulatif Nominal 6 Masa Studi Nominal

57 41 Dataset pertama pada data mahasiswa lulusan terdiri dari atribut nomor induk mahasiswa, program studi, jenis kelamin, shift kuliah, indeks prestasi kumulatif, dan masa studi. Dataset kedua kelulusan mahasiswa dapat dilihat pada table 3.2. Table 3.2. Dataset Kedua Mahasiswa Lulusan No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Semester Nominal 3 Indeks Prestasi Semester 1 Nominal 4 Indeks Prestasi Semester 2 Nominal 5 Indeks Prestasi Semester 3 Nominal 6 Indeks Prestasi Semester 4 Nominal 7 Indeks Prestasi Semester 5 Nominal 8 Indeks Prestasi Semester 6 Nominal 9 Indeks Prestasi Semester 7 Nominal 10 Indeks Prestasi Semester 8 Nominal Dataset kedua mahasiswa lulusan terdiri dari atribut nomor induk mahasiswa, semester, indeks prestasi semester satu sampai dengan semester delapan. Dataset ketiga terdiri dari atribut nomor induk mahasiswa, semester, nama mata kuliah, sks mata kuliah dan nilai huruf dapat dilihat pada table 3.3. Tabel 3.3. Dataset Ketiga Mahasiswa Lulusan No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Semester Nominal 3 Nama Mata Kuliah Nominal 4 SKS Mata Kuliah Nominal 5 Nilai Huruf Nominal Selanjutnya penggabungan antara dataset pertama, dataset kedua dan dataset ketiga tersebut diatas dapat dilihat pada table 3.4.

58 42 Tabel 3.4. Gabungan Dataset Pertama, Kedua dan Ketiga No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Asal Sekolah Nominal 3 Jenis Kelamin Nominal 4 Shift Kuliah Nominal 5 Indeks Prestasi Semester 1 Nominal 6 Indeks Prestasi Semester 2 Nominal 7 Indeks Prestasi Semester 3 Nominal 8 Indeks Prestasi Semester 4 Nominal 9 Indeks Prestasi Semester 5 Nominal 10 Indeks Prestasi Semester 6 Nominal 11 Indeks Prestasi Semester 7 Nominal 12 Indeks Prestasi Semester 8 Nominal 13 Indeks Prestasi Kumulatif Nominal 14 Rerata SKS Nominal 15 Status Akademik Nominal Pengolahan Awal (Preprocessing) Data Pengolahan awal (preprocessing) terhadap data merupakan langkah selanjutnya setelah mengetahui atribut yang akan digunakan. Hal ini dilakukan untuk mendapatkan data yang tepat dan dapat diolah dengan cepat untuk menghasilkan ketepatan klasifikasi yang lebih baik. Melakukan kegiatan seleksi dan pembersihan terhadap data serta mengkonversi data dalam pengolahan awal (preprocessing) dapat menangani secara sistematis data yang tidak lengkap, atribut yang tidak relevan dan tidak konsisten agar menghasilkan kualitas data masukan yang tidak menimbulkan kesalahan pada saat mining. Data hasil dari penggabungan beberapa atribut terdapat permasalahan missing value (data yang tidak lengkap) sebanyak 132 instances dari 1086 instances. Dengan melakukan imputasi dan menghilangkannya merupakan cara penanganan missing value pada data tersebut. Jika dilakukan imputasi pada tipe data numerik, maka caranya adalah dengan memasukkan rata-rata dari atribut yang mengandung missing value tersebut. Namun jika imputasi dilakukan pada tipe data kategori, maka caranya

59 43 adalah dengan memasukkan nilai yang sering muncul pada atribut yang mengandung missing value tersebut. Dalam penelitian ini penanganan missing value tersebut dengan cara dihilangkan. Sehingga instances yang akan diolah telah menjadi sebanyak 954. Dalam beberapa algoritma klasifikasi datamining membutuhkan data dalam bentuk atribut kategorikal (Hermawati, 2013). Nilai nilai atribut yang digunakan berupa angka atau symbol yang dapat dibedakan pada tipe nilai yang diterima dikonversikan kedalam bentuk kategorikal yaitu data nominal yang tidak dapat dinyatakan bahwa kategori yang satu lebih baik dari kategori lainnya dan nilai nilainya tidak dapat diurutkan. Rincian spesifikasi dan atribut seperti pada table 3.5. Tabel 3.5. Spesifikasi dan Atribut Dataset Mahasiswa Lulusan No Atribut Nilai Nominal Dan Kategori 1. Asal Sekolah 1. Dalam Kota 2. Luar Kota 2. Jenis Kelamin 1. Laki-Laki 2. Wanita 3. Shift Kuliah 1. Pagi 2. Sore 4. Indeks Prestasi Semester 1 5. Indeks Prestasi Semester 2 6. Indeks Prestasi Semester 3 7. Indeks Prestasi Semester 4 8. Indeks Prestasi Semester 5 9. Indeks Prestasi Semester 6 1. > = > = < > = > = < > = > = < > = > = < > = > = < > = > = < 2.50 Jumlah Persentase (%) 62.5 % 37.5 % 63.8 % 36.2 % 73.2 % 26.8 % 42.8 % 29.8 % 27.5 % 37.4 % 35.0 % 27.6 % 42.5 % 30.1 % 27.5 % 43.1 % 31.7 % 25.3 % 35.7 % 34.8 % 29.5 % 45.2 % 34.7 % 20.1 %

60 Indeks Prestasi Semester Indeks Prestasi Semester Indeks Prestasi Kumulatif 1. > = > = < > = > = < > = > = < Rerata SKS 1. > < Status Akademik 1. Tepat Waktu 2. Tidak Tepat Waktu % 32.9 % 27.3 % 41.3 % 39.6 % 19.1 % 62.7 % 30.1 % 0.72 % 64.9 % 35.1 % 87.8 % 22.2 % 3.3. Model yang diusulkan Model yang diusulkan dalam menangani masalah ketidakseimbangan kelas yaitu dengan menerapkan kombinasi seleksi fitur dan pendekatan algoritma. perancangan model yang diusulkan meliputi kombinasi penerapan algoritma Adaptive boosting (Adaboost) dan density based feature selection (DBFS) untuk meningkatkan kinerja algoritma pengklasifikasi yaitu C4.5. kerangka model yang diusulkan ditunjukan pada Gambar 3.2.

61 45 Gambar 3.2. Kerangka kerja model yang diusulkan Gambar 3.2. Kerangka Model yang diusulkan Pada Gambar 3.2. dalam pengolahan awal, data yang sudah didapat, dibersihkan dan dipilah. Selanjutnya dalam penanganan ketidakseimbangan pada dataset kelulusan mahasiswa akan dilakukan dengan menerapkan metode seleksi fitur DBFS dan proses boosting yaitu adaboost. Dataset kelulusan mahasiswa yang baru dibagi menjadi X sesuai nilai validasi (X-fold cross validation), satu bagian (1/X) digunakan sebagai data uji (testing) sisanya digunakan sebagai data latih (training). Selanjutnya data training diproses dengan metode pengklasifikasi C4.5 dan kemudian diuji dengan data uji melalui proses validasi. Hasil validasi digunakan untuk mengukur kinerja masing masing model.

62 46 Beberapa eksperimen dengan menggunakan tool xampp 2.4 dan rapidminer studio 6.5. Eksperimen dilakukan dalam beberapa tahap yaitu sebagai berikut : 1. Ekperimen pertama dimulai dengan mengklasifikasikan dataset mahasiswa lulusan dengan pengklasifikasi C4.5 tanpa seleksi fitur. 2. Eksperimen kedua dimulai dengan menerapkan seleksi fitur menggunakan DBFS untuk meningkatkan akurasi algoritma pengklasifikasi C Eksperimen ketiga dilakukan dengan menerapkan kombinasi seleksi fitur menggunakan DBFS sebelum proses boosting yaitu algoritma adaboost (adaptive boosting) sehingga menjadi sebuah dataset baru untuk training dan testing dari atribut yang sudah ditentukan. 4. Dalam eksperimen keempat, seleksi fitur dengan DBFS dilakukan setelah proses boosting dengan algoritma adaboost sehingga menjadi dataset baru untuk training dan testing dari atribut yang sudah ditentukan. Algoritma Adaboost digambarkan dengan flowchart pada gambar 3.3. dimana masukan berupa sejumlah data training dan data testing serta jumlah iterasi. Langkah awal dilakukan inisialisasi bobot untuk setiap fitur sebesar 1 dibagi dengan jumlah data training. Selanjutnya dilakukan perulangan sesuai masukan jumlah iterasi. Selama iterasi dilakukan, normalisasikan distribusi setiap fitur data training agar sama dengan 1. Hitung nilai hipotesis weak classifier dan nilai kesalahannya (error rate) dari setiap fitur data training, jika nilai kesalahannya lebih besar dari 0,5 maka iterasi dihentikan. Jika tidak lebih besar dari 0,5 maka hitung ulang koefisien kesalahan dan faktor normalisasi agar bobot baru bernilai antara -1 sampai 1. Proses perhitungan dilakukan sampai jumlah iterasi tercapai atau nilai kesalahan (error rate) lebih dari 0,5. Setelah perulangan selesai, strong classifier akan didapatkan dan merupakan gabungan hasil voting dari mayoritas pembobotan dari semua weak classifier yang didapat dari setiap iterasi. jika hasil strong classifier lebih kecil dari 0 maka dikategorikan sebagai fitur yang tidak relevan, jika lebih besar dari 0 sampai dengan 1 maka dikategorikan sebagai fitur yang direkomendasikan untuk pengklasifikasian.

63 47 Gambar 3.3. Flowchart Algoritma Adaboost

64 48 Gambar Flowchart Algoritma DBFS Gambar 3.4. menunjukkan flowchart algoritma DBFS dengan sejumlah masukan berupa jumlah fitur dan jumlah label kelas pada dataset. Iterasi dilakukan berdasarkan jumlah fitur pada masing-masing label kelas. Selama perulangan maka dihitung nilai

65 49 estimasi probability density function (PDF) dari fitur disetiap label kelas. Selanjutnya, prosedur untuk menentukan perangkingan fitur dimulai dengan penghitungan nilai area overlapping setiap fitur masing masing label kelas. Untuk penghitungan jumlah nilai area overlapping menggunakan estimasi PDF untuk setiap fitur dari masing masing label kelas. Selanjutnya penghitungan area non overlapping berdasarkan nilai discriminant ability untuk setiap fitur dari masing masing label kelas agar dapat ditemukan fitur yang andal dalam mengklasifikasikan instance kelas. Jika nilai overlapping dan discriminant ability setiap fitur dari masing masing label kelas terpenuhi, langkah berikutnya mengenumerasi perubahan jumlah nilai estimasi PDF setiap fitur dari satu label kelas ke label kelas lainnya. Jumlah nilai perubahan dan rata rata nilai discriminant ability setiap fitur dari masing masing label kelas dihitung untuk menentukan skor fitur. Semakin tinggi skor dari sebuah fitur maka peringkatnya akan semakin rendah Evaluasi dan Validasi Mengevaluasi kinerja algoritma pengklasifikasi umumnya menggunakan hasil keseluruhan pada pengujian dataset (Zhang dan Wang, 2011). Pengukuran kinerja algoritma pengklasifikasi dilakukan dengan menggunakan confusion matrix. Dimana confunsion matrix diperoleh dari proses validasi menggunakan stratified k-fold cross validation. Proses stratification akan dilakukan terlebih dahulu sebelum proses cross validation untuk dapat mereduksi varian estimasi. Metode evaluasi standard yaitu stratified 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Keuntungan metode ini, menghindari overlapping pada data testing. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set (Gorunescu, 2011). Hasil pengukuran kinerja model yang diperoleh, digunakan untuk membandingkan antara model dasar yaitu algoritma C4.5 dengan model yang dibentuk menggunakan kombinasi DBFS dan adaboost. Kualitas model yang dihasilkan dapat dilihat berdasarkan nilai Area Under curve (AUC) dan Receiver Operating Character (ROC) curve. Evaluasi dengan ROC curve secara teknis menggambarkan grafik dua dimensi atau trade-off antara true positive (TP) dengan

66 50 false positive (FP). Hasil ROC curve akan digunakan untuk menemukan nilai AUC, dimana nilai AUC digunakan untuk menentukan klasifikasi keakuratan pengujian diagnostik. Tabel 3.6. Nilai AUC AUC Keterangan Excellent classification Good classification Fair classification Poor classification < 0.60 failure 3.5. Alat Analisis Data Penelitian ini menggunakan metode eksperimen (experiment), yang melibatkan penyelidikan hubungan kausal menggunakan tes yang dikendalikan oleh peneliti sendiri. Dalam eksperimen yang dilakukan menggunakan spesifikasi hardware dan software sebagai alat bantu dalam pemrosesan data seperti pada table 3.7. Hardware Tabel 3.7. Spesifikasi hardware dan software Software CPU Intel Core TM i3-2350m Sistem Operasi Windows 7 Ultimate 14.0 HD LED LCD Xampp 2.4 Intel HD Graphics 3000 Rapidminer Studi 6.5 RAM 2 GB DDR3 Microsoft Excel 2013 HDD 500 GB

67 BAB 4 HASIL DAN PEMBAHASAN 4.1. Pendahuluan Bab ini memaparkan proses dan hasil eksperimen yang sudah dilakukan. Eksperimen dilakukan dengan menggunakan aplikasi rapidminer studio 6.5 dan Xampp 2.4 pada dataset mahasiswa lulusan. Pengaturan eksperimen dilakukan untuk menghasilkan akurasi yang paling tinggi pada metode yang diusulkan. Pengaturan eksperimen juga dilakukan dengan kombinasi beberapa metode dalam penerapan seleksi fitur. Penelitian ini menghasilkan keluaran yang dapat dianalisis untuk menghasilkan informasi dan pengetahuan yang berguna. Berikut penjabaran dari hasil penelitian yang sudah dilakukan Hasil Klasifikasi Algoritma C4.5 tanpa Seleksi Fitur Pada eksperimen pertama yaitu menguji aplikasi rapidminer studio 6.5 dalam menentukan model prediksi pengklasifikasi C4.5 berdasarkan perhitungan secara manual yang dilakukan. Nilai gain ratio tertinggi bukan gain (a) digunakan dalam pemilihan atribut test untuk menghindari bias terhadap atribut yang memiliki nilai unik (Moertini, 2007). Berdasarkan persamaan 2.10, 2.11, 2.12, nilai gain ratio yang diperoleh dari perhitungan manual menunjukkan atribut rerata SKS akan dijadikan sebagai atribut root node (simpul akar) pada decision tree. Berikut hasil gain ratio untuk simpul pertama dapat dilihat pada table 4.1.

68 52 Tabel 4.1. Hasil Nilai Gain Ratio Simpul pertama Tidak Banyak Atribut Kategori Tepat Tepat Entropy Kasus Waktu Waktu Total Kasus ,5339 Asal Sekolah Jenis Kelamin Shift Kuliah IP Sem 1 IP Sem 2 IP Sem 3 IP Sem 4 IP Sem 5 IP Sem 6 IP Sem 7 IP Sem 8 Rerata SKS IPK 1. Dalam Kota , Luar Kota , Pria , Wanita , Pagi , Sore , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , > , < , >= , >= , < , < ,8937 Gain Rasio 0,0036 0,0209 0,0611 0,0435 0,0433 0,0544 0,0341 0,0601 0,0729 0,0383 0,0462 0,1306 0,0349

69 53 Berikutnya, proses pengklasifikasi C4.5 yang dilakukan dengan rapidminer studio 6.5 diawali dengan penentuan dataset yang disimpan pada file microsoft excel Dalam penentuan dataset oleh rapidminer studio 6.5, beberapa pengaturan perlu dilakukan yaitu mengubah tipe dataset mahasiswa lulusan menjadi data nominal dan menentukan atribut sebagai label kelas. Pada pengklasifikasi C4.5, untuk mengatasi permasalahan overfitting menggunakan metode pemangkasan (prunning) yaitu pre prunning untuk menghasilkan model analisis yang optimal (Whitten et al, 2011). Pemangkasan (pruning) pada pohon (tree) yang dihasilkan dilakukan berdasarkan nilai confidence level yang mengecil (Ayub et al, 2014). Oleh karena itu akan dilakukan beberapa pengujian dengan nilai confidence level yang diubah ubah mulai dari 0.95, 0.50, 0.25 dan Untuk memperkirakan akurasi estimasi untuk setiap eksperimen, pengujian nilai X pada cross validation dilakukan pada data training dan data testing. Standar yang digunakan adalah stratified 10 fold cross-validation dianggap nilai yang tepat untuk mendapatkan error estimate yang optimal dan penggunaan stratified akan meningkatkan hasil sedikit demi sedikit serta 10 fold cross-validation tidak perlu sama sehingga dimungkinkan memiliki perbandingan 5:10 atau 20 fold (Whitten et al, 2011). Setiap eksperimen, nilai X-fold cross validation mulai dari 5, 10, 20 dan 30. Berikut hasil proses klasifikasi dengan rapidminer studio 6.5 seperti pada tabel 4.2. Tabel 4.2. Hasil Pengukuran tanpa Seleksi Atribut Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % 0.303

70 54 Dari eksperimen pertama yang dilakukan secara iteratif untuk tabel 4.2 nilai confidence level 0,95 dan 0,50 maupun 0,25 dan 0,10 dalam setiap 5, 10, 20, 30 fold cross-validation memiliki kecenderungan hasil yang sama. Nilai akurasi, presisi dan sensitivitas (recall) yang tertinggi dan RMSE (Root Mean Square Error) terendah dicapai dengan menerapkan confidence level = 0,1 atau 0,25 dan 20 fold-cross validation. Pengukuran berdasarkan 838 data kelas tepat waktu dan 116 data kelas tidak tepat waktu. Diperoleh 803 data yang diprediksi benar (TP) dan 35 data prediksi salah (FP) pada kelas tepat waktu dan 63 data diprediksi benar (TN) serta 53 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu. Berikutnya dihasilkan deskripsi tree dengan aplikasi rapidminer studio 6.5 pada confidence level 0,25 dan 20 fold-cross validation. Rerata = < 20 SHK = Pagi IP6 = <2.50 IP2 = <2.50: Tidak Tepat Waktu {Tepat Waktu=3, Tidak Tepat Waktu=26} IP2 = >=2.50: Tepat Waktu {Tepat Waktu=7, Tidak Tepat Waktu=5} IP6 = >=2.50 JK = Pria: Tidak Tepat Waktu {Tepat Waktu=11, Tidak Tepat Waktu=22} JK = wanita: Tepat Waktu {Tepat Waktu=37, Tidak Tepat Waktu=13} IP6 = >=3.00 IP8 = <2.50: Tidak Tepat Waktu {Tepat Waktu=0, Tidak Tepat Waktu=1} IP8 = >=2.50: Tepat Waktu {Tepat Waktu=12, Tidak Tepat Waktu=0} IP8 = >=3.00: Tepat Waktu {Tepat Waktu=30, Tidak Tepat Waktu=4} SHK = Sore IP5 = <2.50 IP2 = <2.50: Tepat Waktu {Tepat Waktu=51, Tidak Tepat Waktu=13} IP2 = >=2.50: Tepat Waktu {Tepat Waktu=20, Tidak Tepat Waktu=10} IP2 = >=3.00: Tidak Tepat Waktu {Tepat Waktu=1, Tidak Tepat Waktu=5} IP5 = >=2.50: Tepat Waktu {Tepat Waktu=52, Tidak Tepat Waktu=2} IP5 = >=3.00 IP8 = <2.50: Tidak Tepat Waktu {Tepat Waktu=0, Tidak Tepat Waktu=3} IP8 = >=2.50: Tepat Waktu {Tepat Waktu=4, Tidak Tepat Waktu=0}

71 55 IP8 = >=3.00: Tepat Waktu {Tepat Waktu=3, Tidak Tepat Waktu=0} Rerata = > 20: Tepat Waktu {Tepat Waktu=607, Tidak Tepat Waktu=12} Seleksi Fitur dengan DBFS Pada eksperimen kedua dimulai dengan menerapkan seleksi fitur menggunakan DBFS dalam penanganan ketidakseimbangan kelas dan untuk meningkatkan akurasi pengklasifikasi C4.5. Seleksi fitur dengan menggunakan DBFS bertujuan untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Skor fitur yang terendah akan memperoleh peringkat yang tertinggi. Perhitungan DBFS didefinisikan berdasarkan persamaan 2.1, 2.2, 2.3 dan 2.4. Hasil perhitungan DBFS pada dataset mahasiswa lulusan menggunakan aplikasi Xampp versi 2.4 ditunjukan pada gambar 4.1.

72 56 Gambar 4.1. Hasil perhitungan DBFS pada dataset mahasiswa lulusan Pada gambar 4.1. terlihat hasil estimasi Probability Density Function (PDF) untuk setiap fitur pada kelas mayoritas yaitu Cepat Waktu (CW) dan Tepat Waktu (TW) serta kelas minoritas yaitu Tidak Tepat Waktu (TTW) didataset mahasiswa lulusan berdasarkan frekwensi kategori fitur dibagi dengan jumlah instance setiap label kelas. Penilaian estimasi PDF akan semakin akurat jika jumlah instance pada kelas meningkat dan volume kategori dari suatu fitur menurun.

73 57 Berikutnya, nilai estimasi PDF digunakan untuk menemukan fitur andal dari kelas mayoritas dan minoritas. Fitur yang baik merupakan salah satu dari masing masing kelas memiliki overlapping minimum dari kelas yang tersisa. Hal tersebut berarti bahwa mencari keberadaan fitur mengacu pada nilai nilai yang diberikan pada masing masing instance kelas yang merupakan bagian terpisah dari instance kelas lainnya (alibeigi, 2013). Pada gambar 4.2 ditunjukkan area overlapping pada kelas mayoritas dan kelas minoritas pada dataset mahasiswa lulusan berdasarkan nilai minimum estimasi PDF pada satu label kelas dibandingkan nilai maksimum estimasi PFD label kelas lainnya. Gambar 4.2. Area Overlapping pada setiap Kelas Pada gambar 4.2. terlihat area overlapping atau tidak terjadinya pemisahan dari ruang fitur pada kelas mayoritas dan minoritas di dataset mahasiswa lulusan yang menyebabkan redudansi atau tidak relevannya fitur dalam proses klasifikasi. Ketika pola overlapping yang hadir di setiap kelas untuk beberapa ruang fitur, atau kadangkadang bahkan di semua ruang fitur, sangat sulit dalam menentukan ketentuan diskriminatif (discriminat ability) untuk memisahkan kelas (Ali et al, 2015). Overlapping terjadi pada area dimana jumlah nilai estimasi PDF dari setiap fitur pada kelas minoritas lebih besar dari kelas mayoritas. Dari hasil perhitungan nilai overlapping maka ditentukan nilai ketentuan diskriminan (discriminant ability). Rata rata nilai ketentuan diskriminan (discriminant ability) dari setiap fitur pada masing masing kelas dibagi dengan jumlah perubahan dijadikan acuan dalam menghitung skors setiap fitur. Dimana fitur

74 58 dengan skor terkecil merupakan peringkat tertinggi dalam perangkingan dan dapat direkomendasikan dalam proses pengklasifikasian C4.5. Berikut peringkat fitur ditunjukkan pada tabel 4.3. Tabel 4.3. Peringkat Atribut Peringkat Atribut / Fitur Skor 1 Rerata SKS Asal Sekolah Shift Kuliah Jenis Kelamin IP Sem IP Sem IP Sem IP Sem IP Sem IP Sem IP Sem IP Sem IPK Perangkingan fitur dataset mahasiswa lulusan yang baru pada tabel 4.3 akan direkomendasikan dengan menggunakan persentase moderat. Parameter untuk jumlah % (persentase) proporsi dari fitur yang akan diproses pada pengklasifikasi C4.5 yaitu 40 % (5 fitur), 60 % (8 fitur) dan 70 % (9 fitur) adalah milestone dari angka angka moderat antara 0 % sampai dengan 100 % (Jamhari et al, 2014). Pengujian menggunakan aplikasi rapidminer studio 6.5 dengan menggunakan pengaturan sesuai eksperimen pertama. Berikut hasil pengukuran proses klasifikasi dengan persentase moderat 40 % ditunjukkan pada tabel 4.4. sedangkan persentase moderat 60 % maupun persentase moderat 70 % ditunjukkan pada tabel 4.5 dan tabel 4.6.

75 59 Tabel 4.4. Hasil Pengukuran dengan DBFS (40 %) Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.5. Hasil Pengukuran dengan DBFS (60 %) Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.6. Hasil Pengukuran dengan DBFS (70 %) Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % 0.263

76 60 Dari ketiga tabel diatas, diketahui bahwa pengujian dengan menerapkan seleksi fitur DBFS persentase moderat 70 % yang direkomendasikan dari keseluruhan fitur serta nilai confidence level 0.25 dan 30 fold - cross validation menghasilkan akurasi tertinggi sebesar 91,09 % dan nilai keandalan RMSE yang terendah yaitu 0,262 jika dibandingkan dengan persentase moderat 40 % dan 60 %. Hasil pengukuran berdasarkan 838 data kelas Tepat Waktu (TW) dan 116 data kelas Tidak Tepat Waktu(TTW), diperoleh 811 data yang diprediksi benar (TP) dan 28 data prediksi salah (FP) pada kelas tepat waktu dan 59 data diprediksi benar (TN) serta 57 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu Seleksi Fitur dengan DBFS sebelum proses Adaboost Pada eksperimen ketiga, menggunakan dua seleksi fitur yang bertujuan untuk meningkatkan kinerja pengklasifikasi C4.5. Dimulai dengan menerapkan seleksi fitur menggunakan DBFS untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Hasil dari perangkingan fitur pada DBFS, maka persentase moderat sebesar 70 % hasil dari eksperimen kedua memiliki nilai akurasi tertinggi akan direkomendasikan pada algoritma adaboost. Seleksi fitur dengan adaboost dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan sehingga ditemukan fitur yang merupakan classifier yang kuat. Perhitungan Adaboost didefinisikan berdasarkan persamaan 2.5, 2.6, 2.7, 2.8 dan 2.9. Dari hasil seleksi fitur dengan adaboost ditunjukkan pada tabel 4.7, bahwa nilai H x sama dengan +1 adalah fitur yang layak direkomendasikan dan nilai H x sama dengan -1 adalah fitur yang tidak direkomendasikan pada pengklasifikasian. Hasil pengukuran eksperimen ketiga ditunjukkan pada tabel 4.8. Tabel 4.7. Hasil Seleksi Fitur dengan DBFS sebelum Adaboost

77 61 Tabel 4.8. Hasil Pengukuran dengan DBFS sebelum Adaboost Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % 91.85% % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.8 menunjukkan, dengan penerapan dua seleksi fitur pada pengklasifikasi C4.5 Akurasi semakin lebih membaik dari eksperimen sebelumnya menjadi 91,39 % pada saat pengujian dilakukan pada 30 fold-cross validation dan nilai confidence level sebesar 0,50. Begitu juga nilai RMSE semakin menurun menjadi 0,263. Pengukuran berdasarkan 838 data kelas tepat waktu dan 116 data kelas tidak tepat waktu. Diperoleh 815 data yang diprediksi benar (TP) dan 23 data prediksi salah (FP) pada kelas tepat waktu dan 63 data diprediksi benar (TN) serta 53 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu Seleksi Fitur dengan DBFS setelah proses Adaboost Pada eksperimen keempat dimulai dengan menerapkan seleksi fitur menggunakan adaboost untuk melakukan pembobotan pada setiap fitur yang direkomendasikan sehingga ditemukan delapan fitur yang merupakan classifier yang kuat dan selanjutnya dilakukan evaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur menggunakan DBFS. Hasil perangkingan seleksi fitur ditunjukkan pada tabel 4.9 sedangkan hasil pengukuran eksperimen keempat ditunjukkan pada tabel 4.10.

78 62 Tabel Hasil Seleksi Atribut dengan DBFS setelah Adaboost Peringkat Atribut / Fitur Skor 1 Rerata SKS Asal Sekolah Shift Kuliah Jenis Kelamin IP Sem IP Sem IP Sem IP Sem Tabel Hasil Pengukuran dengan DBFS setelah proses Adaboost Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.10 menunjukkan bahwa nilai akurasi tertinggi dengan menerapkan seleksi fitur DBFS setelah adaboost pada nilai confidence level 0,25 atau 0,50 pada 10 fold cross-validation yaitu sebesar 90,05 %. Terjadi penurunan akurasi dari ekperimen sebelumnya sebesar 1,34 %. Nilai RMSE juga semakin lebih buruk pada pengklasifikasi C4.5 menjadi sebesar 0,288 berdasarkan nilai confidence level 0,50 dan 20 fold cross-validation. Pengukuran berdasarkan 838 data kelas tepat waktu dan 116 data kelas tidak tepat waktu. Diperoleh 813 data yang diprediksi benar (TP) dan 25 data prediksi salah (FP) pada kelas tepat waktu dan 72 data diprediksi benar (TN) serta 44 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu,

79 63 Dari beberapa hasil pengukuran yang dilakukan dapat disimpulkan bahwa peningkatan kinerja akurasi, presisi dan sensitivitas (recall) dan RMSE (keandalan) model C4.5, dipengaruhi dengan adanya penerapan seleksi fitur pada pengklasifikasi C4.5 dan penentuan jumlah fold-cross validation serta nilai confidence level. Artinya, jika nilai fold-cross validation dan nilai confidence level semakin besar maka nilai akurasi, presisi dan sensitivitas (recall) cenderung semakin meningkat dan nilai RMSE semakin kecil yang artinya akan semakin bagus kehandalan model C4.5 dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan Pembahasan Analisis Kinerja Pengklasifikasi C4.5 Pada bagian ini akan dibahas hasil pengukuran kinerja model sebelumnya. Berdasarkan pengukuran kinerja, diperoleh informasi tingkat kinerja meliputi kemampuan model classifier dalam mengklasifikasikan data secara umum (akurasi), besarnya presentase classifier dalam menebak dengan tepat kelas true positive dengan melihat perbandingan true positive yang dapat diprediksi dengan penjumlahan true positive dan false positive yang ada (presisi), serta sensitivitas (recall) yang merupakan ukuran tingkatan presentase classifier dapat mengenal contoh kelas positif (tepat waktu) berdasarkan jumlah true positive yang dapat diprediksi dengan benar berdasarkan contoh kelas positif dan RMSE pada dataset mahasiswa lulusan. Berikut ini disajikan perbandingan kinerja pengklasifikasi C4.5 tanpa seleksi fitur dan pengklasifikasi C4.5 dengan menerapkan seleksi fitur DBFS serta pengklasifikasi C4.5 dengan mengintegrasi seleksi fitur DBFS dengan adaboost berdasarkan X fold-cross validation dan nilai confidence level. Tabel 4.11 menyajikan hasil perbandingan kinerja pengklasifikasi C4.5 berdasarkan 5-fold cross validation dan 0,25 nilai confidence level.

80 64 Tabel Perbandingan Kinerja 5-fold dan Confidence level : 0.25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,31% 92,79% 95,23% 0,311 C4.5+DBFS(40%) 89,20% 91,34% 96,90% 0,287 C4.5+DBFS(60)%) 89,62% 92,92% 95,47% 0,292 C4.5+DBFS(70%) 89,10% 92,48% 93,35% 0,31 C4.5+DBFS+AB 89,62% 91,85% 96,78% 0,287 C4.5+AB+DBFS 88,99% 90,68% 97,49% 0,301 Tabel menunjukkan bahwa dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5 mampu meningkatkan kinerja nilai akurasi dan presisi. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan DBFS pada pengklasifikasi C4.5 tanpa harus menggunakan adaboost. Grafik perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 5-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.3 Gambar 4.3. Grafik Perbandingan Kinerja 5-fold dan Confidence Level 0,25 Pada gambar 4.3, terlihat bahwa kinerja model C4.5+DBFS+AB menghasilkan akurasi yang lebih baik dibandingkan model lainnya, hal ini menunjukkan bahwa model tersebut memiliki kemampuan lebih baik dalam mengklasifikasikan data secara umum (tepat waktu maupun tidak tepat waktu). sedangkan pada kinerja sensitivitas (recall) model C4.5+DBFS menghasilkan nilai sensitivitas lebih baik dan model

81 65 C4.5+AB+DBFS merupakan model yang menghasilkan nilai presisi yang lebih baik dibandingkan model lainnya. Untuk hasil perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 5-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel Tabel Perbandingan Kinerja 5-Fold dan Confidence Level : 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,20% 92,78% 95,11% 0,312 C4.5+DBFS(40%) 89,20% 91,34% 96,90% 0,287 C4.5+DBFS(60)%) 90,15% 93,16% 95,82% 0,286 C4.5+DBFS(70%) 88,99% 92,67% 94,99% 0,311 C4.5+DBFS+AB 90,25% 92,87% 96,30% 0,286 C4.5+AB+DBFS 89,20% 91,06% 97,26% 0,301 Tabel menunjukkan bahwa dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5 mampu meningkatkan kinerja nilai akurasi dan sensitivitas (recall). Pada kinerja nilai presisi meningkat dengan hanya menggunakan DBFS pada pengklasifikasi C4.5 tanpa harus menggunakan adaboost. Grafik perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 5-fold validation dan nilai confidence level = 0,5 ditunjukkan pada gambar 4.4. Gambar Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0,5

82 66 Pada gambar 4.4, terlihat bahwa kinerja model C4.5+DBFS+AB masih menghasilkan akurasi yang lebih baik dibandingkan model lainnya, hal ini menunjukkan bahwa model tersebut memiliki kemampuan lebih baik dalam mengklasifikasikan data secara umum (tepat waktu maupun tidak tepat waktu). sedangkan pada kinerja sensitivitas (recall) model C4.5+DBFS(60%) menghasilkan nilai sensitivitas lebih baik dan model C4.5+AB+DBFS merupakan model yang menghasilkan nilai presisi yang lebih baik dibandingkan model lainnya. Untuk hasil perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 10-fold validation dan nilai confidence level sebesar 0,25 ditunjukkan pada tabel Tabel Perbandingan Kinerja 10-Fold dan Confidence level 0,25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 88,37% 92,97% 94,63% 0,319 C4.5+DBFS(40%) 90,04% 92,65% 96,30% 0,276 C4.5+DBFS(60)%) 90,25% 92,77% 96,42% 0,287 C4.5+DBFS(70%) 90,04% 92,95% 95,94% 0,296 C4.5+DBFS+AB 90,35% 92,00% 97,49% 0,279 C4.5+AB+DBFS 90,05% 91,88% 97,26% 0,291 Tabel menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost.

83 67 Grafik perbandingan kinerja model C4.5 dengan menggunakan 10-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.5. Gambar 4.5. Grafik Perbandingan Kinerja 10 Fold dan Confidence Level 0,25 Pada gambar 4.5, terlihat bahwa kinerja model C4.5+DBFS+AB masih menghasilkan akurasi dan presisi yang lebih baik dibandingkan model lainnya, hal ini menunjukkan bahwa model tersebut memiliki kemampuan lebih baik dalam mengklasifikasikan data secara umum (tepat waktu maupun tidak tepat waktu). Sedangkan pada kinerja sensitivitas (recall), model C4.5 menghasilkan nilai sensitivitas lebih baik. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 10-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel Tabel Perbandingan Kinerja 10-fold dan confidence level 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 88,37% 92,61% 94,27% 0,319 C4.5+DBFS(40%) 90,67% 93,29% 96,30% 0,274 C4.5+DBFS(60)%) 90,36% 92,32% 96,30% 0,284 C4.5+DBFS(70%) 90,25% 93,16% 95,94% 0,294 C4.5+DBFS+AB 90,67% 92,41% 97,37% 0,279 C4.5+AB+DBFS 90,05% 92,07% 97,02% 0,291 Tabel menunjukkan bahwa dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang

84 68 direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5 mampu meningkatkan kinerja nilai akurasi dan presisi. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan DBFS pada pengklasifikasi C4.5 tanpa harus menggunakan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 10-fold validation dan nilai confidence level = 0, 5 ditunjukkan pada gambar 4.6 Gambar 4.6. Grafik Perbandingan Kinerja 10-Fold dan confidence level 0,5 Pada gambar 4.6, tingkat kinerja akurasi yang lebih baik pada model C4.5+DBFS(40%) dan C4.5+DBFS+AD yang cenderung sama tetapi untuk kinerja sesitivitas model C4.5+DBFS(40%) lebih baik sedangkan C4.5+DBFS+AD lebih dari model lain untuk kinerja presisi. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level sebesar 0,25 ditunjukkan pada tabel Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0,25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 90,78% 93,81% 95,82% 0,286 C4.5+DBFS(40%) 90,66% 93,00% 96,66% 0,272 C4.5+DBFS(60)%) 89,52% 93,08% 96,06% 0,285 C4.5+DBFS(70%) 89,94% 92,84% 95,94% 0,291 C4.5+DBFS+AB 90,67% 92,32% 97,49% 0,271 C4.5+AB+DBFS 89,73% 91,76% 97,02% 0,289

85 69 Tabel menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.7. Gambar 4.7. Grafik Perbandingan Kinerja 20-fold dan Confidence Level 0,25 Pada gambar 4.7. tingkat kinerja akurasi dan sensitivitas (recall) model C4.5 lebih baik dari model lainnya sedangkan untuk kinerja presisi model C4.5+DBFS+AD lebih baik dari yang lainnya. Pada pengujian 20-fold dan confidence level 0,25 bahwa dengan mereduksi fitur tidak meningkatkan kinerja akurasi dan sensitivitas pengklasifikasi C4.5. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel 4.16.

86 70 Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 90,67% 93,90% 95,58% 0,285 C4.5+DBFS(40%) 90,87% 93,21% 96,66% 0,272 C4.5+DBFS(60)%) 90,46% 92,55% 96,30% 0,279 C4.5+DBFS(70%) 90,15% 93,16% 95,82% 0,29 C4.5+DBFS+AB 90,98% 92,82% 97,26% 0,269 C4.5+AB+DBFS 89,62% 91,85% 96,78% 0,288 Tabel juga menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level = 0,5 ditunjukkan pada gambar 4.8. Gambar 4.8. Grafik Perbandingan Kinerja 20-Fold dan Confidence Level 0,5 Pada gambar 4.8 terlihat bahwa dengan menerapkan seleksi fitur terjadi peningkatan kembali tingkat kinerja akurasi dan sensitivitas (Recall). Dimana model C4.5+DBFS+AB lebih baik dari model lainnya sedangkan model C4.5+DBFS(4-%) memiliki kinerja presisi yang lebih baik dari model lainnya. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level sebesar 0,25 ditunjukkan pada tabel 4.17.

87 71 Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0,25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,61% 93,52% 94,75% 0,301 C4.5+DBFS(40%) 90,45% 93,18% 96,18% 0,274 C4.5+DBFS(60)%) 90,03% 92,55% 96,46% 0,26 C4.5+DBFS(70%) 91,09% 93,33% 96,78% 0,262 C4.5+DBFS+AB 90,77% 92,33% 97,61% 0,265 C4.5+AB+DBFS 88,90% 91,40% 96,42% 0,293 Tabel menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dapat dilakukan dengan menentukan fitur yang bermanfaat menggunakan DBFS. Untuk meningkatkan kinerja nilai presisi dilakukan dengan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.9. Gambar 4.9 Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0,25 Pada gambar 4.9, terlihat bahwa model C4.5+DBFS (70%) memiliki kinerja akurasi lebih baik dari model lainnya dan untuk sensitivitas (Recall) pengklasifikasi C4.5 lebih baik dari model lain sedangkan model C4.5+DBFS+AB memiliki kinerja presisi lebih baik dari lainnya.

88 72 Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel 4.18 Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,51 93,62 94,51 0,303 C4.5+DBFS(40%) 90,45 93,18 96,18 0,274 C4.5+DBFS(60)%) 90,66 93,29 96,3 0,264 C4.5+DBFS(70%) 91,09 93,53 96,54 0,263 C4.5+DBFS+AB 91,39 92,95 97,61 0,263 C4.5+AB+DBFS 88,9 91,59 96,18 0,293 Tabel juga menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level = 0,5 ditunjukkan pada gambar Gambar Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0,5 Pada gambar 4.10 menunjukkan bahwa model C4.5+DBFS+AB memiliki kinerja akurasi dan presisi yang lebih baik dari model lainnya sedangkan model C4.5+DBFS(70%) memiliki presisi lebih baik dari model lainnya.

89 73 Dari analisis perbandingan kinerja pada model prediksi kelulusan mahasiswa menunjukkan bahwa kecenderungan jika jumlah X-fold cross-validation semakin besar maka kinerja nilai akurasi dan nilai presisi juga meningkat, sementara nilai sensitivitas (recall) juga akan meningkat, apabila pengklasifikasi C4.5 tidak dikombinasikan dengan DBFS maupun adaboost. Sehingga terdapat model prediksi kelulusan mahasiswa yang memiliki kinerja lebih baik dari pengklasifikasi C4.5. Dengan demikian, kinerja pengklasifikasi C4.5 masih bisa ditingkatkan untuk memperbaiki model prediksi kelulusan mahasiswa Estimasi Kinerja Pengklasifikasi C4.5 pada Prediksi Kelulusan Mahasiswa Pada bagian ini akan dibahas penilaian hasil pengukuran kinerja model untuk menentukan model mana yang memiliki kinerja terbaik. Untuk dataset tidak seimbang, akurasi lebih didominasi oleh ketepatan pada data kelas minoritas, maka metrik yang tepat adalah Area Under the ROC (Receiver Operating Characteristic) Curve (Kurva AUROC atau AUC) (Wang & Yao, 2013). AUC merupakan ukuran kinerja yang popular dalam ketidakseimbangan kelas, nilai AUC yang tinggi menunjukkan kinerja yang lebih baik (Liu & Zhou, 2013). Hasil pengukuran yang lebih baik dari setiap eksperimen untuk kurva ROC dari kinerja model C4.5 tanpa seleksi fitur dengan dataset mahasiswa lulusan ditunjukkan pada gambar 4.11 sedangkan kinerja model C4.5 dengan menerapkan seleksi fitur DBFS persentase 40 %, 60%, 70% ditunjukkan pada gambar 4.12 sampai dengan gambar 4.14 dan kinerja model C4.5 dengan menerapkan seleksi fitur DBFS sebelum adaboost ditunjukkan pada gambar 4.15 dan kinerja model C4.5 dengan seleksi fitur DBFS setelah adaboost ditunjukkan pada gambar Gambar Kurva ROC model C4.5 tanpa seleksi fitur

90 74 Gambar menunjukkan kurva ROC kinerja model C4.5 tanpa seleksi fitur pada pengujian 20-fold dan confidence level 0,25 maka nilai AUC (Area Under Curve) sebesar 0,79. Maka tingkat akurasi didiagnosa sebagai klasifikasi sedang (Fair classification). Gambar Kurva ROC model C4.5 dengan seleksi fitur DBFS (40%) Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS (40 %) pada pengujian 20-fold dan confidence level 0,5 maka nilai AUC (Area Under Curve) sebesar 0,80. Maka tingkat akurasi didiagnosa sebagai klasifikasi baik (Good classification). Gambar Kurva ROC Model C4.5 dengan Seleksi Fitur DBFS (60 %)

91 75 Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS (60 %) pada pengujian 30-fold dan confidence level 0,5 maka nilai AUC (Area Under Curve) sebesar 0,79. Maka tingkat akurasi didiagnosa sebagai klasifikasi sedang (Fair classification). Gambar Model C4.5 dengan Seleksi Fitur DBFS (70 %) Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS (70 %) pada pengujian 30-Fold dan Confidence Level 0,5 maka nilai AUC (Area Under Curve) sebesar 0,80. Maka tingkat akurasi didiagnosa sebagai klasifikasi baik (Good classification). Gambar Kurva ROC Model C4.5 dengan Seleksi Fitur DBFS sebelum Adaboost

92 76 Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS sebelum adaboost pada pengujian 30-Fold dan Confidence Level 0,5 dimana nilai A4UC (Area Under Curve) sebesar 0,81. Maka tingkat akurasi didiagnosa sebagai klasifikasi baik (Good Classification). Gambar Kurva ROC Model C4.5 dengan Seleksi Fitur DBFS setelah Adaboost Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS setelah adaboost pada pengujian 10-fold dan confidence level 0,25 dimana nilai AUC (Area Under Curve) sebesar 0,79. Maka tingkat akurasi didiagnosa sebagai klasifikasi sedang (Fair Classification). Berikut hasil rekapitulasi nilai AUC ditunjukkan pada tabel 4.19 dan grafik rekapitulasi nilai AUC ditunjukkan pada gambar 4.17 Tabel Rekapitulasi Nilai AUC Eksperimen Model Nilai AUC Keterangan 20 Fold, CL : 0,25 C4.5 0,79 Fair Classification 20 Fold, CL : 0,50 C4.5+DBFS(40%) 0,8 Good Classification 30 Fold, CL : 0,50 C4.5+DBFS(60)%) 0,79 Fair Classification 30 Fold, CL : 0,50 C4.5+DBFS(70%) 0,8 Good Classification 30 Fold, CL : 0,50 C4.5+DBFS+AB 0,83 Good Classification 10 Fold, CL : 0,25 C4.5+AB+DBFS 0,79 Fair Classification

93 77 Gambar Grafik Rekapitulasi Nilai AUC Pada gambar 4.17 menunjukkan bahwa model C.45+DBFS+AB lebih baik dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan dengan tingkat diagnosa adalah klasifikasi baik (Good Classification). Sedangkan pengklasifikasi C4.5 memiliki tingkat diagnosa klasifikasi sedang (Fair Classification). Hal ini menunjukkan bahwa dengan menerapkan seleksi fitur dan proses boosting pada pengklasifikasi C4.5 dapat menangani permasalahan ketidakseimbangan kelas pada dataset mahasiswa lulusan.

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

TESIS ADYA ZIZWAN PUTRA

TESIS ADYA ZIZWAN PUTRA ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI CENTROID TESIS ADYA ZIZWAN PUTRA 147038003 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

Integrasi Density Based Feature Selection dan Adaptive Boosting dalam Mengatasi Ketidakseimbangan Kelas

Integrasi Density Based Feature Selection dan Adaptive Boosting dalam Mengatasi Ketidakseimbangan Kelas IJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 Integrasi Density Based Feature Selection dan Adaptive Boosting dalam Mengatasi Ketidakseimbangan Kelas Sudarto 1, Muhammad Zarlis 2, Pahala Sirait 3 1,2 Universitas

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG TESIS IVAN JAYA 117038072 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

ANALISIS PERBANDINGAN ONLINE DAN OFFLINE TRAINING PADA JARINGAN BACKPROPAGATION PADA KASUS PENGENALAN HURUF ABJAD TESIS

ANALISIS PERBANDINGAN ONLINE DAN OFFLINE TRAINING PADA JARINGAN BACKPROPAGATION PADA KASUS PENGENALAN HURUF ABJAD TESIS ANALISIS PERBANDINGAN ONLINE DAN OFFLINE TRAINING PADA JARINGAN BACKPROPAGATION PADA KASUS PENGENALAN HURUF ABJAD TESIS MUHAMMAD ANGGI RIVAI NST 117038015 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

MODEL RULE DENGAN PENDEKATAN FUZZY SIMPLE ADDITIVE WEIGHTING DAN WEIGHTED PRODUCT PADA PENENTUAN JABATAN DI INSTITUSI PENDIDIKAN TINGGI TESIS

MODEL RULE DENGAN PENDEKATAN FUZZY SIMPLE ADDITIVE WEIGHTING DAN WEIGHTED PRODUCT PADA PENENTUAN JABATAN DI INSTITUSI PENDIDIKAN TINGGI TESIS MODEL RULE DENGAN PENDEKATAN FUZZY SIMPLE ADDITIVE WEIGHTING DAN WEIGHTED PRODUCT PADA PENENTUAN JABATAN DI INSTITUSI PENDIDIKAN TINGGI TESIS AJULIO PADLY SEMBIRING 147038059 PROGRAM STUDI S2 TEKNIK INFORMATIKA

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH 117038036 PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Tinjauan Studi Sebelum penelitian ini dilakukan, sudah terdapat beberapa penelitian yang menjadi dasar untuk menyelesaikan penelitian ini, penelitian tersebut diantaranya sebagai

Lebih terperinci

ANALISIS PERBANDINGAN TEKNIK SUPPORT VECTOR REGRESSION (SVR) DAN DECISION TREE C4.5 DALAM DATA MINING TESIS. Oleh YUNIAR ANDI ASTUTI / TINF

ANALISIS PERBANDINGAN TEKNIK SUPPORT VECTOR REGRESSION (SVR) DAN DECISION TREE C4.5 DALAM DATA MINING TESIS. Oleh YUNIAR ANDI ASTUTI / TINF ANALISIS PERBANDINGAN TEKNIK SUPPORT VECTOR REGRESSION (SVR) DAN DECISION TREE C4.5 DALAM DATA MINING TESIS Oleh YUNIAR ANDI ASTUTI 097038020/ TINF PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine.

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine. ABSTRAK Klasifikasi dalam data mining adalah proses untuk menemukan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data atau konsep. Salah satu permasalahan klasifikasi adalah distribusi

Lebih terperinci

ANALISIS ALGORITMA C4.5 DAN FUZZY SUGENO UNTUK OPTIMASI RULE BASE FUZZY TESIS VERI ILHADI

ANALISIS ALGORITMA C4.5 DAN FUZZY SUGENO UNTUK OPTIMASI RULE BASE FUZZY TESIS VERI ILHADI ANALISIS ALGORITMA C4.5 DAN FUZZY SUGENO UNTUK OPTIMASI RULE BASE FUZZY TESIS VERI ILHADI 147038067 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA

Lebih terperinci

MODEL FUZZY EXPERT SYSTEM BERBASIS PEMAKAI PADA P.T. BATIK SEMAR CABANG MEDAN TESIS PUTRA SURI ALIM

MODEL FUZZY EXPERT SYSTEM BERBASIS PEMAKAI PADA P.T. BATIK SEMAR CABANG MEDAN TESIS PUTRA SURI ALIM MODEL FUZZY EXPERT SYSTEM BERBASIS PEMAKAI PADA P.T. BATIK SEMAR CABANG MEDAN TESIS PUTRA SURI ALIM 117038062 PROGRAM STUDI MAGISTER S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

ii

ii KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5 SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika Disusun

Lebih terperinci

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO ANALISIS PERBANDINGAN PROSES CLUSTER MENGGUNAKAN K- MEANS CLUSTERING DAN K-NEAREST NEIGHBOR PADA PENYAKIT DIABETES MELLITUS SKRIPSI RONNY BENEDIKTUS SIRINGORINGO 131421021 PROGRAM STUDI S1 ILMU KOMPUTER

Lebih terperinci

ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN DAN K-NEAREST NEIGHBOR (k-nn) TESIS HULIMAN

ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN DAN K-NEAREST NEIGHBOR (k-nn) TESIS HULIMAN ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN DAN K-NEAREST NEIGHBOR (k-nn) TESIS HULIMAN 117038025 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA

Lebih terperinci

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh : ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI Oleh : Frista Yulianora 1401128832 Muchammad Hasbi Latif 1401136065 Rika Jubel Febriana

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

ANALISIS KOMBINASI MESSAGE-DIGEST ALGORITHM 5 (MD5) DAN AFFINE BLOCK CIPHERTERHADAP SERANGAN DICTIONARY ATTACK UNTUK KEAMANAN ROUTER WEBLOGIN HOTSPOT

ANALISIS KOMBINASI MESSAGE-DIGEST ALGORITHM 5 (MD5) DAN AFFINE BLOCK CIPHERTERHADAP SERANGAN DICTIONARY ATTACK UNTUK KEAMANAN ROUTER WEBLOGIN HOTSPOT ANALISIS KOMBINASI MESSAGE-DIGEST ALGORITHM 5 (MD5) DAN AFFINE BLOCK CIPHERTERHADAP SERANGAN DICTIONARY ATTACK UNTUK KEAMANAN ROUTER WEBLOGIN HOTSPOT TESIS AIDIL HALIM LUBIS 137038029 PROGRAM STUDI S2

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017 Analisis Perbandingan Metode Over-Sampling Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADSYN-kNN) untuk Data dengan Fitur Nominal-Multi Categories Sri Rahayu 1, Teguh Bharata Adji

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013

PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013 ANALISIS SUBSPACE CLUSTERING MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI T E S I S ANNI ROTUA ARITONANG 117038064 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER

Lebih terperinci

PENGGUNAAN FUZZY QUERY DATABASE UNTUK PENGEMBANGAN MODEL EVALUASI UMPAN BALIK TERHADAP KINERJA DOSEN TESIS. Oleh PONINGSIH /TIF

PENGGUNAAN FUZZY QUERY DATABASE UNTUK PENGEMBANGAN MODEL EVALUASI UMPAN BALIK TERHADAP KINERJA DOSEN TESIS. Oleh PONINGSIH /TIF PENGGUNAAN FUZZY QUERY DATABASE UNTUK PENGEMBANGAN MODEL EVALUASI UMPAN BALIK TERHADAP KINERJA DOSEN TESIS Oleh PONINGSIH 097038011/TIF PROGRAM MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS MATEMATIKA DAN

Lebih terperinci

ANALISIS METODE ANALYTIC HIERARCHY PROCESS DENGAN PENDEKATAN LOGIKA FUZZY TESIS MEIDA SITANGGANG

ANALISIS METODE ANALYTIC HIERARCHY PROCESS DENGAN PENDEKATAN LOGIKA FUZZY TESIS MEIDA SITANGGANG i ANALISIS METODE ANALYTIC HIERARCHY PROCESS DENGAN PENDEKATAN LOGIKA FUZZY TESIS MEIDA SITANGGANG 117038005 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

1. Pendahuluan 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Perkembangan teknologi sekarang ini semakin pesat. Kebutuhan akan informasi dan komunikasi bertambah. Telah ditemukan berbagai perangkat teknologi yang memudahkan manusia

Lebih terperinci

ANALISIS METODE AHP (ANALYTICAL HIERARCHY PROCESS) BERDASARKAN NILAI CONSISTENCY RATIO TESIS IMAM MUSLEM R

ANALISIS METODE AHP (ANALYTICAL HIERARCHY PROCESS) BERDASARKAN NILAI CONSISTENCY RATIO TESIS IMAM MUSLEM R ANALISIS METODE AHP (ANALYTICAL HIERARCHY PROCESS) BERDASARKAN NILAI CONSISTENCY RATIO TESIS IMAM MUSLEM R 127038040 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

PENGENALANN GERAK ISYARAT MENGGUNAKAN LAYAR VIRTUAL DAN NEURAL NETWORK BACKPROPAGATION

PENGENALANN GERAK ISYARAT MENGGUNAKAN LAYAR VIRTUAL DAN NEURAL NETWORK BACKPROPAGATION PENGENALANN GERAK ISYARAT MENGGUNAKAN LAYAR SENTUH VIRTUAL DAN NEURAL NETWORK BACKPROPAGATION TESIS STEPHANUS PRIYOWIDODO 107038023 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

DESAIN APLIKASI UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA. Oleh : Rita Prima Bendriyanti ABSTRAK

DESAIN APLIKASI UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA. Oleh : Rita Prima Bendriyanti ABSTRAK DESAIN APLIKASI UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA Oleh : Rita Prima Bendriyanti ABSTRAK Penelitian ini menggunakan metode observasi, dengan melihat atau mengamati secara langsung

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak DATA MINING MELIHAT POLA HUBUNGAN NILAI TES MASUK MAHASISWA TERHADAP DATA KELULUSAN MAHASISWA UNTUK MEMBANTU PERGURUAN TINGGI DALAM MENGAMBIL KEBIJAKAN DALAM RANGKA PENINGKATAN MUTU PERGURUAN TINGGI Timor

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

PENGUKURAN TINGKAT KEMIRIPAN DOKUMEN TEKS DENGAN PROSES ALGORITMA GENETIKA MENGGUNAKAN POSI FORMULATION TESIS DARWIS ROBINSON MANALU

PENGUKURAN TINGKAT KEMIRIPAN DOKUMEN TEKS DENGAN PROSES ALGORITMA GENETIKA MENGGUNAKAN POSI FORMULATION TESIS DARWIS ROBINSON MANALU PENGUKURAN TINGKAT KEMIRIPAN DOKUMEN TEKS DENGAN PROSES ALGORITMA GENETIKA MENGGUNAKAN POSI FORMULATION TESIS DARWIS ROBINSON MANALU 127038077 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI II-8 BAB II LANDASAN TEORI 2.1. Perencanaan Produksi Pengertian perencanaan produksi, menurut Martin K.Starr (1997) adalah sebagai berikut production planning is an old venerable term used by engineers,

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan adalah salah satu aspek terpenting bagi kehidupan manusia, yang dapat mempengaruhi manusia itu sendiri, juga menjadi faktor pendukung dalam setiap sektor

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY DATA WAREHOUSE - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD) Penemuan Pengetahuan di Database Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm Muh. Safri Juliardi Program Studi Informatika Universitas Sebelas Maret Jl. Ir. Sutami No. 36 A Surakarta juliardi@student.uns.ac.id

Lebih terperinci

Prosiding SNATIF Ke-1 Tahun 2014 ISBN:

Prosiding SNATIF Ke-1 Tahun 2014 ISBN: SISTEM PENDUKUNG KEPUTUSAN UNTUK MEMPREDIKSI KELULUSAN MAHASISWA MENGGUNAKAN METODE NAÏVE BAYES Diana Laily Fithri, Eko Darmanto Program Studi Sistem Informasi, Fakultas Teknik, Universitas Muria Kudus

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD 1 JACOB SOARES, 2 ALBERTUS JOKO SANTOSO, 3 SUYOTO 1, 2, 3 Universitas Atma Jaya Yogyakarta E-mail:

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA Ade Putra Fakultas Vokasi, Program Studi Komputerisasi Akuntansi Universitas Bina Darma

Lebih terperinci

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE JURNA TEKNIK, (2014) 1-6 1 AIKASI DATA MINING UNTUK MEMREDIKSI ERFORMANSI MAHASISWA DENGAN METODE KASIFIKASI DECISION TREE Irfan Fahmi, Budi Santosa Jurusan Teknik Industri, Fakultas Teknologi Industri,

Lebih terperinci

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa, BAB II TINJAUAN PUSTAKA 2.1 Terdahulu Dalam penelitian ini, peneliti juga menyertakan beberapa uraian singkat mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa, klasifikasi, metode

Lebih terperinci

ANALISIS ACCURATE LEARNING PADA LEARNING VECTOR QUANTIZATION (LVQ) MENGGUNAKAN ALGORITMA GENETIKA DALAM PENGENALAN POLA ALFANUMERIK TESIS

ANALISIS ACCURATE LEARNING PADA LEARNING VECTOR QUANTIZATION (LVQ) MENGGUNAKAN ALGORITMA GENETIKA DALAM PENGENALAN POLA ALFANUMERIK TESIS ANALISIS ACCURATE LEARNING PADA LEARNING VECTOR QUANTIZATION (LVQ) MENGGUNAKAN ALGORITMA GENETIKA DALAM PENGENALAN POLA ALFANUMERIK TESIS FADHILLAH AZMI 137038027 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro

Lebih terperinci

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN Metode Klasifikasi Data Mining dan Teknik Sampling Smote... METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN Hairani

Lebih terperinci

CONTOH KASUS DATA MINING

CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan

Lebih terperinci

TESIS. Oleh HERI SANTOSO /TINF

TESIS. Oleh HERI SANTOSO /TINF ANALISIS DAN PREDIKSI PADA PERILAKU MAHASISWA DIPLOMA UNTUK MELANJUTKAN STUDI KE JENJANG SARJANA MENGGUNAKAN TEKNIK DECISION TREE DAN SUPPORT VEKTOR MACHINE TESIS Oleh HERI SANTOSO 097038017/TINF PROGRAM

Lebih terperinci

PERBANDINGAN WAKTU EKSEKUSI ALGORITMA DSATUR

PERBANDINGAN WAKTU EKSEKUSI ALGORITMA DSATUR PERBANDINGAN WAKTU EKSEKUSI ALGORITMA DSATUR DAN ALGORITMA PEWARNAAN HEURISTIK TABU SEARCH PADA PEWARNAAN GRAF TESIS JUNIDAR 117038020 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI

PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI 101402072 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA Alfa Saleh Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan Email : alfasoleh1@gmail.com Abstrak

Lebih terperinci

ANALISIS PENGARUH PEMBOBOTAN DENGAN METODE NGUYEN WIDROW DALAM BACKPROPAGATION UNTUK PREDIKSI TESIS

ANALISIS PENGARUH PEMBOBOTAN DENGAN METODE NGUYEN WIDROW DALAM BACKPROPAGATION UNTUK PREDIKSI TESIS ANALISIS PENGARUH PEMBOBOTAN DENGAN METODE NGUYEN WIDROW DALAM BACKPROPAGATION UNTUK PREDIKSI TESIS Oleh HENRA VERYWATI PURBA 107038007/TINF PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU

Lebih terperinci

http://www.brigidaarie.com proses menganalisa data untuk mencari polapola tersembunyi dengan menggunakan metodologi otomatis Istilah lain : Machine Learning Knowledge Discovery in Database (KDD) Predictive

Lebih terperinci

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5 Konferensi Nasional Ilmu Sosial & Teknologi (KNiST) Maret 2017, pp. 7~12 7 DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5 Tri Retnasari 1, Eva Rahmawati 2 1 STMIK

Lebih terperinci

BAB 2. Landasan Teori

BAB 2. Landasan Teori BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan

Lebih terperinci

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI Diajukan Kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta Sebagai

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang

Lebih terperinci

ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K-MEDOIDS PADA KLASTER DOKUMEN TESIS SUHADA

ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K-MEDOIDS PADA KLASTER DOKUMEN TESIS SUHADA ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K-MEDOIDS PADA KLASTER DOKUMEN TESIS SUHADA 117038037 PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK Dody Herdiana, S.T., M. Kom. Dosen PNS DPK pada Program Studi Teknik Informatika

Lebih terperinci

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap Data Mining Outline BAB I Pendahuluan BAB II Data BAB III Algoritma Klasifikasi BAB IV Algoritma Klastering BAB V Algoritma Asosiasi BAB VI Algoritma Estimasi BAB VII Deteksi Anomali Ricky Maulana Fajri

Lebih terperinci

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan PENERAPAN DATA MINING DENGAN METODE KLASIFIKASI NAÏVE BAYES UNTUK MEMPREDIKSI KELULUSAN MAHASISWA DALAM MENGIKUTI ENGLISH PROFICIENCY TEST (Studi Kasus : Universitas Potensi Utama) Alfa Saleh Teknik Informatika

Lebih terperinci

ANALISIS GALAT FUNGSI KEANGGOTAAN FUZZY PADA METODE MAMDANI DAN METODE SUGENO TESIS MAGDALENA SIMANJUNTAK

ANALISIS GALAT FUNGSI KEANGGOTAAN FUZZY PADA METODE MAMDANI DAN METODE SUGENO TESIS MAGDALENA SIMANJUNTAK ANALISIS GALAT FUNGSI KEANGGOTAAN FUZZY PADA METODE MAMDANI DAN METODE SUGENO TESIS MAGDALENA SIMANJUNTAK 137038003 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

ANALISIS PENERAPAN MODEL INFERENSI FUZZY TSUKAMOTO DALAM PENILAIAN PENCAPAIAN KOMPETENSI PROGRAM STUDI TESIS. Oleh JOKO SUSILO

ANALISIS PENERAPAN MODEL INFERENSI FUZZY TSUKAMOTO DALAM PENILAIAN PENCAPAIAN KOMPETENSI PROGRAM STUDI TESIS. Oleh JOKO SUSILO ANALISIS PENERAPAN MODEL INFERENSI FUZZY TSUKAMOTO DALAM PENILAIAN PENCAPAIAN KOMPETENSI PROGRAM STUDI TESIS Oleh JOKO SUSILO 127038078 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4. IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.5 Amelia Halim 1) dan Joko Lianto Buliali 2) 1) Program Studi Magister

Lebih terperinci

IMPLEMENTASI METODE GENERATE AND TEST DALAM PENYELESAIAN PUZZLE 2048 BERBASIS MOBILE SKRIPSI

IMPLEMENTASI METODE GENERATE AND TEST DALAM PENYELESAIAN PUZZLE 2048 BERBASIS MOBILE SKRIPSI IMPLEMENTASI METODE GENERATE AND TEST DALAM PENYELESAIAN PUZZLE 2048 BERBASIS MOBILE SKRIPSI DEVINA PRATIWI HALIM 101401094 PROGRAM STUDI S1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1 BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang

Lebih terperinci

MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE DECISION TREE TESIS AFEN PRANA UTAMA SEMBIRING /TIF

MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE DECISION TREE TESIS AFEN PRANA UTAMA SEMBIRING /TIF MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE DECISION TREE TESIS AFEN PRANA UTAMA SEMBIRING 097038029/TIF PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK NEGERI MEDAN DENGAN KERNEL K-MEANS CLUSTERING TESIS.

PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK NEGERI MEDAN DENGAN KERNEL K-MEANS CLUSTERING TESIS. PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK NEGERI MEDAN DENGAN KERNEL K-MEANS CLUSTERING TESIS Oleh HIKMAH ADWIN ADAM 097038004/TINF PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

TESIS ZEFRI PAULANDA /TINF

TESIS ZEFRI PAULANDA /TINF MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE TESIS Oleh ZEFRI PAULANDA 107038004/TINF PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS

Lebih terperinci

PERTEMUAN 14 DATA WAREHOUSE

PERTEMUAN 14 DATA WAREHOUSE PERTEMUAN 14 DATA WAREHOUSE Data Warehouse Definisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung

Lebih terperinci

PENGEMBANGAN SISTEM KEAMANAN KOMPUTER MENGAKSES DATA CENTER MENGGUNAKAN ALGORITMA RSA PADA WINDOWS SERVER 2012 DALAM MEDIA HOTSPOT TESIS

PENGEMBANGAN SISTEM KEAMANAN KOMPUTER MENGAKSES DATA CENTER MENGGUNAKAN ALGORITMA RSA PADA WINDOWS SERVER 2012 DALAM MEDIA HOTSPOT TESIS PENGEMBANGAN SISTEM KEAMANAN KOMPUTER MENGAKSES DATA CENTER MENGGUNAKAN ALGORITMA RSA PADA WINDOWS SERVER 2012 DALAM MEDIA HOTSPOT TESIS DIVI HANDOKO NASUTION 127038065 PROGRAM STUDI MAGISTER (S2) TEKNIK

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN

Lebih terperinci

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database 2. Tinjauan Pustaka 2.1 Data Mining Data mining merupakan ilmu yang mempelajari tentang proses ekstraksi informasi yang tersembunyi dari sekumpulan data yang berukuran sangat besar dengan menggunakan algoritma

Lebih terperinci

ANALISIS DAYA SERAP CITRA PADA PESAN BERBAHASA INDONESIA MENGGUNAKAN PENCOCOKAN WARNA GABRIEL ARDI HUTAGALUNG

ANALISIS DAYA SERAP CITRA PADA PESAN BERBAHASA INDONESIA MENGGUNAKAN PENCOCOKAN WARNA GABRIEL ARDI HUTAGALUNG ANALISIS DAYA SERAP CITRA PADA PESAN BERBAHASA INDONESIA MENGGUNAKAN PENCOCOKAN WARNA TESIS GABRIEL ARDI HUTAGALUNG 147038088 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci