ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS

Transkripsi

1 i ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS SUDARTO MAGISTER TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2016

2 ii ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika SUDARTO PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2016

3 ii PERSETUJUAN Judul : Analisis Penanganan Ketidakseimbangan Kelas dengan menggunakan Density Based Feature Selection (DBFS) dan Adaptive Boosting (Adaboost) Kategori : Tesis Nama : Sudarto Nomor Induk Mahasiswa : Program Studi : Teknik Informatika Fakultas : Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Dr. Pahala Sirait, M.Kom Prof. Dr. Muhammad Zarlis Diketahui/disetujui oleh Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis NIP

4 iii PERNYATAAN ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing masing telah disebutkan sumbernya. Medan, 26 Juli 2016 Sudarto Nim :

5 iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini: Nama : Sudarto NIM : Program Studi : Teknik Informatika Jenis Karya Ilmiah : Tugas Akhir / Tesis Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul: ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta. Demikian pernyataan ini dibuat dengan sebenarnya. Medan, 26-Juli-2016 Sudarto NIM

6 v Telah diuji pada Tanggal: 26 Juli-2016 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Pahala Sirait, M.Kom 2. Prof. Dr. Tulus, Vor. Dipl. Math, M.si 3. Dr. Poltak Sihombing, M.Kom

7 vi RIWAYAT HIDUP DATA PRIBADI Nama : Sudarto, S.Kom Tempat dan Tanggal Lahir : Medan, 25 Januari 1978 Alamat Rumah : Jl. Perkutut gg. Mesjid No. 296 Medan-Helvetia HP : Sudarto@mikroskil.ac.id Instansi Tempat Bekerja : STMIK MIKROSKIL Alamat Kantor : Jl. Thamrin No.142 Medan DATA PENDIDIKAN SD : SDN Medan Tamat : 1990 SLTP : SMPN 15 Medan Tamat : 1993 SLTA : SMK Teladan Medan Tamat : 1996 S1 : Sistem Informasi STMK MIKROSKIL Tamat : 2004 S2 : Teknik Informatika USU Tamat : 2016

8 vii KATA PENGANTAR Puji syukur penulis panjatkan kepada Allah Subhanahu wa Ta ala atas semua berkat dan karunia-nya, sehingga penulis dapat menyelesaikan tesis yang berjudul Analisis Penanganan Ketidakseimbangan Kelas dengan menggunakan Density Based Feature Selection (DBFS) dan Adaptive Boosting (Adaboost) tepat pada waktunya. Laporan tesis ini disusun sebagai syarat guna mendapatkan gelar sarjana strata dua pada Program Studi Teknik Informatika Universitas Sumatera Utara. Penulis juga menyadari bahwa penyusunan tesis ini tidak terlepas dari pengarahan, petunjuk, bantuan, dan dukungan dari berbagai pihak. Oleh karena itu, dalam kesempatan yang baik ini, penulis tidak lupa mengucapkan rasa terima kasih dan penghargaan yang sebesar-besarnya kepada: 1. Bapak Prof. Dr. Runtung Sitepu, SH. M.Hum, selaku Rektor Universitas Sumatera Utara. 2. Bapak Prof. Dr. Muhammad Zarlis, selaku Ketua Program Studi Teknik Informatika Universitas Sumatera Utara, dosen penasehat akademik, dan dosen pembimbing utama yang telah banyak meluangkan waktunya untuk memberikan pengarahan, petunjuk, bantuan, dukungan, dan motivasi dalam tesis ini. 3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc Selaku Dekan Fakultas Ilmu Komputer dan Teknologi Infomasi Universitas Sumatera Utara. 4. Bapak Dr. Pahala Sirait, M.Kom, selaku dosen pembimbing kedua yang telah banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, bantuan, dukungan, dan motivasi dalam tesis ini. 5. Bapak Prof. Dr. Tulus, Vor. Dipl. Math, M.Si. selaku dosen penguji utama yang telah banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, dan dukungan kepada penulis. 6. Bapak Dr. Poltak Sihombing, M.Kom., selaku dosen penguji kedua yang banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, dukungan, dan motivasi kepada penulis. 7. Seluruh dosen di Program Studi Teknik Informatika Universitas Sumatera Utara yang telah mendidik dan membimbing penulis.

9 viii 8. Teristimewa kepada orang tua, keluarga, dan teman-teman yang telah banyak memberikan dukungan dan semangat baik secara langsung maupun tidak kepada penulis dalam menyelesaikan tesis ini. Penulis menyadari bahwa tesis ini masih terdapat kekurangan baik dari segi tata bahasa maupun materi yang terkandung di dalamnya. Oleh karena itu, dengan segala kerendahan hati penulis membuka diri untuk menerima segala saran dan kritik yang bersifat membangun dari semua pihak yang mengarah kepada perbaikan tesis ini. Penulis yakin dengan adanya masukan-masukan kiranya dapat semakin memperbaiki dan menyempurnakan tesis ini. Akhir kata, penulis berharap tesis ini dapat berguna, memberi manfaat, dan menjadi sumber informasi bagi pembaca. Sebelum dan sesudahnya penulis mengucapkan terima kasih. Medan, 26 Juli 2016 Penulis, Sudarto NIM

10 ix ABSTRAK Ketidakseimbangan kelas (Class Imbalance) dari dataset antara dua kelas yang berbeda yaitu kelas mayoritas dan kelas minoritas, berpengaruh pada algoritma C4.5 yang cenderung menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi menjadi tidak konduktif dalam memprediksi contoh kelas minoritas, sehingga nilai hasil akurasi pengklasifikasian (classifier) C4.5 menjadi tidak optimal. Untuk mengurangi pengaruh ketidakseimbangan kelas pada pengklasifikasi C4.5, maka perlu dilakukan dengan menerapkan kombinasi dari metode seleksi fitur yaitu algoritma Adaptive Boosting (Adaboost) dan metode Density Based Feature Selection (DBFS). Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat, sedangkan DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur agar dapat direkomendasikan pada classifier C4.5 dalam proses pengklasifikasian. Hasil penelitian menunjukkan bahwa, kinerja akurasi pengklasifikasi C4.5 pada dataset mahasiswa lulusan dengan mengkombinasikan DBFS sebelum proses adaboost, dengan pengaturan nilai confidence level 0,50 dan 30 fold cross-validation, menunjukkan tingkat akurasi klasifikasi yang relatif lebih baik dalam penanganan ketidakseimbangan kelas. Kata kunci : Class imbalance, Classifier C4.5, Adaboost, DBFS, Confidence Level, Fold Cross-Validation

11 x ANALYSIS OF CLASS IMBALANCE HANDLING USING DENSITY BASED FEATURE SELECTION (DBFS) AND ADAPTIVE BOOSTING ABSTRACT The Class Imbalance of dataset between two different class are majority and minority class, which impact on the algorithm C 4.5 that tend to produce good prediction accuracy on the class majority but not be conductive in predicting instances of minority class, so the value of accuracy of classification results C4.5 not optimal. To reduce the influence of class imbalance in the classifier C4.5, is applying a combination of feature selection methods namely Adaptive Boosting (Adaboost) algorithms and Density Based Feature Selection (DBFS) method. Application of adaboost algorithm in feature selection done to give weights to each recommended feature, so will found a feature with strong classifier, While the DBFS focusing in identifying minority classes and evaluating the impact of a useful features based on rank features, then it can be recommended classifier C 4.5 in the process of classification. The results study, shows the performance accuracy classifier C 4.5 on a dataset of student graduates with combines DBFS before the process of adaboost, value setting of the confidence level 0.50 and 30 fold cross-validation, indicates the level of accuracy thefdd classification of the relatively better in handling the class imbalance. Keyword : Class imbalance, Classifier C4.5, Adaboost, DBFS, Confidence Level, Fold Cross-Validation

12 xi DAFTAR ISI Halaman HALAMAN JUDUL... i PENGESAHAN... ii PERNYATAAN ORISINALITAS...iii PERSETUJUAN PUBLIKASI... iv PANITIA PENGUJI... v RIWAYAT HIDUP... vi UCAPAN TERIMA KASIH... vii ABSTRAK... ix ABSTRACT... x DAFTAR ISI... xi DAFTAR TABEL...xiii DAFTAR GAMBAR... xiv BAB I PENDAHULUAN Latar Belakang Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian... 5 BAB II TINJAUAN PUSTAKA Data Mining Ketidakseimbangan Kelas (Class Imbalance) Efek dari Ketidakseimbangan kelas pada classifier Tantangan dengan Ketidakseimbangan Kelas Penanganan Ketidakseimbangan Kelas Pendekatan Level Algoritma dengan Seleksi Fitur Pendekatan Level Algoritma dengan Adaptive Boosting (Adaboost) Algoritma C Validasi dan Evaluasi Kinerja Algoritma Klasifikasi... 31

13 xii Cross-Validation Confunsion Matrix Receiver Operating Character Curve (Kurva ROC) Root Mean Square Error (RMSE) Penelitian Terkait Perbedaan dengan Riset yang lain Kontribusi Riset BAB III METODOLOGI PENELITIAN Pendahuluan Metode Penelitian Metode Pengumpulan Data Pengolahan Awal (Preprocessing) Data Model yang diusulkan Evaluasi dan Validasi Alat Analisis Data BAB IV HASIL DAN PEMBAHASAN Pendahuluan Hasil Klasifikasi Algoritma C4.5 tanpa Seleksi Fitur Seleksi Fitur dengan DBFS Seleksi Fitur dengan DBFS sebelum proses Adaboost Seleksi Fitur dengan DBFS setelah proses Adaboost Pembahasan Analisis Kinerja Pengklasifikasi C Estimasi Kinerja Pengklasifikasi C BAB V KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN... 86

14 xiii DAFTAR TABEL Halaman Tabel 2.1. Dataset Tidakseimbang Tabel 2.2. Confunsion Matrix Tabel 2.3. Nilai AUC dan Keterangan Tabel 2.4. Penelitian Terkait Tabel 3.1. Dataset Pertama Mahasiswa Lulusan Tabel 3.2. Dataset Kedua Mahasiswa Lulusan Tabel 3.3. Dataset Ketiga Mahasiswa Lulusan Tabel 3.4. Gabungan Dataset Pertama, Kedua dan Ketiga Tabel 3.5. Spesifikasi dan Atribut Dataset Mahasiswa Lulusan Tabel 3.6. Nilai AUC Tabel 3.7. Spesifikasi Hardware dan Software Tabel 4.1. Hasil Nilai Gain Ratio Simpul Pertama Tabel 4.2. Hasil Pengukuran tanpa Seleksi Atribut Tabel 4.3. Peringkat Atribut Tabel 4.4. Hasil Pengukuran dengan DBFS (40%) Tabel 4.5. Hasil Pengukuran dengan DBFS (60%) Tabel 4.6. Hasil Pengukuran dengan DBFS (70%) Tabel 4.7. Hasil Seleksi Fitur dengan DBFS Sebelum Adaboost Tabel 4.8. Hasil Pengukuran dengan DBFS Sebelum Adaboost Tabel 4.9. Hasil Seleksi Fitur dengan DBFS setelah Adaboost Tabel Hasil Pengukuran dengan DBFS setelah Adaboost Tabel Perbandingan Kinerja 5-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 5-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 10-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 10-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0, Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0, Tabel Rekapitulasi Nilai AUC... 76

15 xiv DAFTAR GAMBAR Halaman Gambar 2.1. Klasifikasi Decision Tree... 9 Gambar 2.2. Clustering Gambar 2.3. Asosiasi Gambar 2.4. Time Series Gambar 2.5. Urutan Rangkaian Kejadian Gambar 2.6. Tahap tahap Data Mining Gambar 2.7. Dampak dari Sampel ukuran kecil dalam masalah Ketidakseimbangan Kelas Gambar 2.8. Contoh Ketidakseimbangan Kelas (a) overlapping antara kelas (b) small disjunct dalam ketidakseimbangan kelas Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x Gambar Area Overlapping pada setiap Fitur Gambar Area Non Overlapping pada setiap Fitur f Gambar Proses Klasifikasi Data Gambar Contoh Pohon Keputusan Gambar 3.1. Tahapan Penelitian Gambar 3.2. Kerangka Model yang diusulkan Gambar 3.3. Flowchart Algoritma Adaboost Gambar 3.4. Flowchart Algoritma DBFS Gambar 4.1. Hasil Perhitungan DBFS pada Dataset Mahasiswa Lulusan Gambar 4.2. Area Overlapping pada setiap Kelas Gambar 4.3. Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0, Gambar 4.4. Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0, Gambar 4.5. Grafik Perbandingan Kinerja 10-Fold dan Confidence Level 0, Gambar 4.6. Grafik Perbandingan Kinerja 10-Fold dan Confidence Level 0, Gambar 4.7. Grafik Perbandingan Kinerja 20-Fold dan Confidence Level 0, Gambar 4.8. Grafik Perbandingan Kinerja 20-Fold dan Confidence Level 0, Gambar 4.9. Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0, Gambar Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0, Gambar Kurva ROC Model C.45 tanpa Seleksi Fitur... 73

16 xv Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS (40%) Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS (60%) Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS (70%) Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS sebelum proses Adaboost Gambar Kurva ROC Model C.45 dengan Seleksi Fitur DBFS setelah proses Adaboost Gambar Grafik Rekapitulasi Nilai AUC... 77

17 BAB 1 PENDAHULUAN 1.1. Latar Belakang Saat ini bidang data mining semakin popular seiring dengan semakin meningkatnya kepedulian banyak pihak atas pentingnya pengolahan data guna menggantikan peran manual oleh manusia. Konsep data mining banyak digunakan untuk mempelajari data, mengenali pola dan membuat model berdasarkan data historis. Model tersebut dapat digunakan untuk melakukan klasifikasi dan prediksi terhadap data baru yang memungkinkan untuk membuat atau mendukung pengambilan keputusan. Dalam bidang data mining terdapat berbagai metode untuk menemukan pola tertentu dalam data. Salah satu metode yang digunakan ialah klasifikasi. Proses klasifikasi merupakan salah satu tugas dalam datamining yang digunakan untuk meramalkan sebuah nilai dari sekumpulan data. Salah satu tantangan terbesar dalam penelitian klasifikasi pada datamining adalah masalah ketidakseimbangan kelas yang umumnya ditemukan dalam aplikasi dunia nyata. (Pant, 2015). Ketidakseimbangan kelas (class imbalance) terjadi dalam jumlah training data antara dua kelas yang berbeda. Satu kelas memiliki jumlah data yang besar (mayoritas) sedangkan kelas yang lain memiliki jumlah data yang minoritas (Weiss, 2013). Dalam berbagai kasus, algoritma klasifikasi standar memiliki bias terhadap kelas dengan jumlah yang lebih besar, karena aturan yang benar dan yang umum lebih disukai dalam memprediksi contoh contoh pembobotan kelas mayoritas yang mendukung metrik keakuratan sedangkan aturan khusus yang memprediksi contoh dari kelas minoritas biasanya diabaikan atau memperlakukan mereka sebagai noise (Y.Sun et. Al, 2009). Hal ini berpengaruh pada algoritma klasifikasi standar yang menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi akan menghasilkan akurasi prediksi yang sebaliknya terhadap kelas minoritas dan cenderung menyimpangkan prediksi dari record yang aktualnya adalah kelas minoritas di prediksikan kedalam kelas mayoritas. Permasalahan ketidakseimbangan kelas (class imbalance) biasanya cenderung menyebabkan overlapping, kurangnya data yang representatif (kasus yang jarang

18 2 terjadi), small disjuncts atau adanya noise data dan borderline instances yang membuat proses belajar classifier sulit (Japkowich, 2004). Selain itu juga bahwa ketidakseimbangan kelas (class imbalance) dan noise dapat berpengaruh pada kualitas data dalam hal kinerja klasifikasi (Khoshgoftaar et al, 2011). Ini menunjukkan ketidakseimbangan kelas (class imbalance) menyebabkan terjadinya misclassification (Zhou et al, 2006). Permasalahan ketidakseimbangan kelas (class imbalance) juga dapat menyebabkan akurasi algoritma C4.5 buruk dalam pengklasifikasian (Rahayu et.al, 2015). Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numerik (Han, 2001). Hasil klasifikasi pada algoritma C4.5 dalam predikat kelulusan mahasiswa tepat waktu dengan grade cumlaude bisa diperoleh dengan syarat utama adalah pernah menjadi asisten semasa kuliah, berasal dari jurusan IPA semasa SMA, rerata SKS per semester 18 dan berjenis kelamin wanita (Yusuf, 2014). Sebagian besar kasus data yang telah dilakukan untuk klasifikasi mahasiswa tepat waktu dan tidak tepat waktu adalah tidak seimbang, yang berarti bahwa hanya sebagian kecil mahasiswa tidak tepat waktu dan sebagian besar tepat waktu. Semakin banyak mahasiswa lulus tidak tepat waktu dapat mempengaruhi nilai akreditasi sebuah perguruan tinggi. Oleh karena itu perlu adanya monitoring dan evaluasi terhadap kecenderungan kelulusan mahasiswa tidak tepat waktu. Ada tiga pendekatan untuk menangani dataset tidak seimbang (unbalanced), yaitu pendekatan pada level data, level algoritmik, dan menggabungkan atau memasangkan (ensemble) metode (Yap, et al., 2014). Pendekatan pada level data mencakup berbagai teknik resampling dan sintesis data untuk memperbaiki kecondongan distribusi kelas training data. Pada tingkat algoritmik, metode utamanya adalah menyesuaikan operasi algoritma yang ada untuk membuat pengklasifikasi (classifier) agar lebih konduktif terhadap klasifikasi kelas minoritas (Zhang, Liu, Gong, & Jin, 2011). Sedangkan pada pendekatan menggabungkan atau memasangkan (ensemble) metode, ada dua algoritma ensemble-learning paling populer, yaitu boosting dan bagging (Yap, et al., 2014). Pada pendekatan algoritma dan ensemble

19 3 memiliki tujuan yang sama, yaitu memperbaiki algoritma pengklasifikasi tanpa mengubah data, sehingga dapat dianggap ada 2 pendekatan saja, yaitu pendekatan level data dan pendekatan level algoritma (Peng & Yao, 2010). Karena masalah ketidakseimbangan kelas biasanya disertai dengan permasalahan dari dataset berdimensi tinggi, teknik sampling dan metode algoritma tidaklah cukup menangani ketidakseimbangan kelas (class imbalance). Menerapkan seleksi fitur (feature selection) adalah tindakan penting yang perlu dilakukan dalam menangani ketidakseimbangan kelas (class imbalance) dari dataset berdimensi tinggi (Tiwari, 2014). Seleksi fitur (feature selection) adalah salah satu teknik terpenting dan sering digunakan dalam pre-processing data mining. Fokus seleksi fitur adalah untuk memilih subset variabel dari masukan yang bisa menggambarkan efisiensi input data dalam mengurangi dampak dari noise atau variabel yang tidak relevan dan tetap memberikan hasil prediksi yang baik (Candrashekar, 2014). Untuk dataset tidakseimbang (imbalance), metode seleksi fitur juga harus fokus pada atribut yang membantu dalam identifikasi kelas minoritas (Pant, 2015). Selain itu, kinerja metode seleksi fitur berkembang ketika rasio ketidakseimbangan meningkat. Hasil penelitian menunjukkan bahwa di berbagai rasio ketidakseimbangan kelas, metode DBFS (Density Based Feature Selection) melebihi metode saingan seleksi fitur lainnya terutama ketika lebih dari 0,5% dari fitur yang dipilih untuk tugas klasifikasi. Peningkatan ini lebih nyata sesuai dengan evaluasi statistik AUC (area under curve) terutama dengan rasio ketidakseimbangan tinggi (Alibeigi et al, 2012). Pendekatan untuk menggabungkan seleksi fitur dengan proses boosting fokus pada dua skenario yang berbeda yaitu seleksi fitur dilakukan sebelum proses boosting dan seleksi fitur yang dilakukan dalam proses boosting. Hasil percobaan menunjukkan bahwa melakukan seleksi fitur dalam boosting umumnya lebih baik daripada menggunakan seleksi fitur sebelum proses boosting (Gao, 2014). Algoritma boosting adalah algoritma iteratif yang memberikan bobot yang berbeda pada distribusi training data di setiap iterasi. Setiap iterasi boosting menambahkan bobot pada contoh-contoh kesalahan klasifikasi dan menurunkan bobot pada contoh klasifikasi yang benar, sehingga secara efektif dapat merubah distribusi pada data training. Salah satu contoh algoritma boosting adalah adaboost. Algoritma adaptive boosting (adaboost) telah dilaporkan sebagai meta-teknik untuk mengatasi

20 4 masalah ketidakseimbangan kelas (class imbalance) (Sun, Mohamed, Wong, & Wang, 2007). AdaBoost merupakan algoritma machine learning yang dirumuskan oleh Yoav Freund and Robert Schapire. AdaBoost secara teoritis dapat secara signifikan digunakan untuk mengurangi kesalahan dari beberapa algoritma pembelajaran yang secara konsisten menghasilkan kinerja pengklasifikasi yang lebih baik. Kinerja adaboost lebih baik dari random forest untuk prediksi performansi siswa dan dapat memperbaiki kinerja classifier (Pandey, 2014). Metode adaboost terbukti efektif untuk penyelesaian masalah ketidakseimbangan kelas (class imbalance) pada penentuan kelulusan mahasiswa dengan metode decision tree (C4.5), dan menghasilkan sebuah model arsitektur yang optimal dan hasil estimasi yang akurat (Bisri, 2015). Berdasarkan latar belakang tersebut di atas, penulis mencoba melakukan penelitian untuk menyelesaikan permasalahan ketidakseimbangan kelas (Class imbalance) dengan menerapkan seleksi fitur (feature selection) dan pendekatan algoritma serta membandingkan akurasi pengklasifikasian algoritma C4.5 standar dengan kombinasi dari pendekatan seleksi fitur, pendekatan algoritma dan algoritma C4.5 pada sejumlah data sets mahasiswa lulusan program studi sistem informasi STMIK Mikrokil Medan. Pengukuran akurasi menghasilkan confusion matrix untuk penilaian accuracy, precision, recall. Berdasarkan uraian diatas maka penelitian ini diberi judul : ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DBFS (DENSITY BASED FEATURE SELECTION) DAN ADAPTIVE BOOSTING (ADABOOST) Rumusan Masalah Ketidakseimbangan kelas dari dataset antara dua kelas yang berbeda yaitu kelas mayoritas dan kelas minoritas, berpengaruh pada algoritma C4.5 yang cenderung menghasilkan akurasi prediksi yang baik pada kelas mayoritas, sementara kurang baik pada kelas minoritas, sehingga mempengaruhi keoptimalan akurasi dalam pengklasifikasian. Pada ketidakseimbangan kelas dari dataset, dibutuhkan juga fokus pada atribut yang membantu mengidentifikasi ketepatan akurasi kelas minoritas agar dapat mempengaruhi hasil dalam pengklasifikasian. Sehingga diperlukan suatu model untuk penanganan ketidakseimbangan kelas (class imbalance) dengan menggunakan metode Density Based Feature Selection (DBFS) dan Adaptive boosting pada

21 5 algoritma klasifikasi C4.5 serta pengukuran peningkatan kinerja dari sudut pandang akurasi, presisi dan sensitivitas (recall) melalui perbandingan algoritma klasifikasi C4.5 dengan menggunakan metode DBFS dan Adaboost Batasan Masalah Agar analisis ini mendapatkan gambaran yang jelas, rinci, terarah dan tidak menyimpang dari latar belakang masalah yang telah diuraikan, maka batasan masalah dalam penelitian ini adalah sebagai berikut: 1. Pengklasifikasian menggunakan algoritma C Evaluasi menggunakan K-fold cross validation. 3. Menggunakan confunsion matrix untuk mengukur accuracy, precision dan recall dalam menganalisa kinerja klasifikasi. 4. Menggambarkan estimasi kinerja klasifikasi dengan area under the ROC (AUROC atau AUC) 5. Menggunakan dataset original dari mahasiswa program studi sistem informasi STMIK Mikroskil tahun ajaran 2004, 2005, Analisis data dan pengujian menggunakan xampp 2.4. dan rapid miner studio Tujuan Penelitian Adapun tujuan dari penelitian adalah sebagai berikut : 1. Menganalisis penerapan pendekatan seleksi fitur dan pendekatan level algoritma dalam mengurangi pengaruh ketidakseimbangan kelas pada dataset mahasiswa lulusan dengan pengklasifikasi C Menganalisis kinerja metode klasifikasi C4.5 ketika diintegrasikan dengan algoritma density based feature selection (DBFS) dan algoritma adaptive boosting (adaboost) dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan Manfaat Penelitian Hasil penelitian nantinya dapat digunakan sebagai referensi alternatif untuk menangani ketidakseimbangan kelas dan meminimumkan kesalahan dalam pengklasifikasi C4.5. Selain itu dapat membangun model alternatif untuk

22 6 menyelesaikan permasalahaan ketidakseimbangan kelas pada model prediksi kelulusan mahasiswa dan diharapkan dapat memberikan sumbangan ilmu pengetahuan dimasa depan khususnya bidang klasifikasi data.

23 BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Saat ini, kebanyakan algoritma data mining menghasilkan pola yang dapat didefenisikan dalam format atau bentuk matematis. Akan tetapi, makna dari pola yang ditemukan masih sangat sedikit. Dengan kompleksitas objek yang semakin tinggi, masalah ini akan mendapat perhatian lebih dari para penggiat data mining di masa mendatang. Meskipun dimungkinkan untuk menginterpretasikan makna dari permukaan dalam sebuah ruang vektor, pola yang didapat dari objek yang lebih kompleks mungkin tidak mudah diinterpretasikan bahkan oleh pakar sendiri. Jadi, bukan hanya data input untuk data mining yang semakin kompleks, tetapi juga pola yang diperoleh akan jauh lebih kompleks (Purba, 2012). Data Mining didefinisikan sebagai sebuah proses untuk menemukan hubungan, pola dan tren baru yang bermakna dengan menyaring data yang sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik pengenalan pola seperti teknik Statistik dan Matematika (Larose, 2005). Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Berawal dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik tradisional sehingga bisa menangani: 1. Jumlah data yang sangat besar 2. Dimensi data yang tinggi 3. Data yang heterogen dan berbeda sifat Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan dua metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilih data (Jefri, 2013). Dari beberapa teori yang dijabarkan para ahli diatas, bahwa data mining adalah merupakan suatu pencarian dan analisis pada suatu koleksi data yang sangat besar

24 8 untuk menemukan suatu pola yang menarik dan dapat mengekstrak informasi serta knowledge yang akurat sehingga dapat digunakan untuk membuat suatu keputusan bisnis yang penting. Kemunculan teknologi data mining membuka harapan bagi penyelenggara Perguruan Tinggi (PT) untuk mengadopsi data mining menyangkut 3 (tiga) tugas yang diemban PT yaitu: (1) penelitian berkaitan dengan pengembangan pengetahuan, (2) pengajaran berhubungan dengan transfer pengetahuan, dan (3) penelitian oleh institusi dalam rangka pemanfaatan pengetahuan untuk pengambilan keputusan (Luan, 2001). Teknologi data mining dapat membantu menjembatani kesenjangan pengetahuan pada sistem Perguruan Tinggi (PT) melalui penemuan pola, asosiasi dan anomali yang tersembunyi, sehingga dapat meningkatkan efektifitas, efisiensi, dan kecepatan proses. Peningkatan ini akan memberi keunggulan pada sistem PT antara lain maksimalisasi sistem pendidikan yang efisien, penurunan angka drop out, peningkatan promosi, meningkatkan ingatan mahasiswa, peningkatan rasio pendidikan, peningkatan kesuksesan mahasiswa, peningkatan hasil yang dicapai mahasiswa dan pengurangan biaya proses dari sistem yang berjalan. Untuk mencapai kualitas dari peningkatan tersebut, maka aplikasi data mining sangat dibutuhkan untuk menyediakan kebutuhan pengetahuan dan wawasan bagi pengambil keputusan pada system PT (Beikzadeh dan Delavari, 2004). Menurut Han dan Kamber, (2011), secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu: Predictive Predictive merupakan proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas. Contohnya, perusahaan retail dapat menggunakan data mining untuk memprediksikan penjualan dari produk mereka di masa depan dengan menggunakan data-data yang telah didapatkan dari beberapa minggu.

25 9 Descriptive Descriptive dalam data mining merupakan proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil. Menurut Maclennan, Tang, & Crivat (2009). Berikut adalah fungsi data mining secara umum : 1. Classification Classification adalah proses untuk mencari model atau fungsi yang menggambarkan dan membedakan kelas-kelas atau konsep data. Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih. Gambar 2.1 Klasifikasi - Decision Tree (Maclennan, et al., 2009) Decision tree adalah sebuah flowchart yang menyerupai struktur pohon, dimana tiap node menunjukkan sebuah test dari nilai atribut, tiap cabang merepresentasikan sebuah hasil dari test, dan decision tree merepresantasikan kelas-kelas atau distribusi kelas. Decision trees dapat dengan mudah di konversi ke aturan klasifikasi. Neural network ketika digunakan untuk klasifikasi, biasanya koleksi dari neuron seperti unit pengolahan dengan pertimbangan koneksi antara tiap unit. Ada banyak metode untuk membangun model klasifikasi seperti naïve-bayesian classification, support vector machine (SVM) dan k-nearest neighbor classication. 2. Clustering Fungsi dari clustering adalah untuk mencari pengelompokkan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas.

26 10 Gambar 2.2 Clustering (Maclennan, et al., 2009) 3. Association Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada. Gambar 2.3 Asosiasi (Maclennan, et al., 2009) 4. Regression Fungsi dari regression hampir sama dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada. 5. Forecasting Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.

27 11 Gambar 2.4 Time Series (Maclennan, et al., 2009) 6. Sequence Analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian. Gambar 2.5 Urutan Rangkaian Kejadian (Maclennan, et al., 2009) 7. Deviation Analysis Fungsi dari deviation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal). Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di gambar 2.6. Tahap-tahap tersebut bersifat iterative dan interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

28 12 Gambar 2.6 Tahap tahap Data Mining (Han dan Kamber., 2006) Tahap-tahap data mining ada 6 (enam) yaitu: 1. Pembersihan data (data cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

29 13 2. Integrasi data (data integration) Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi Data (Data Selection) Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi data (Data Transformation) Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 5. Data mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi pola (pattern evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk

30 14 memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 7. Presentasi pengetahuan (knowledge presentation) Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (Han dan Kamber, 2006) Ketidakseimbangan Kelas (Class Imbalance) Ketidakseimbangan kelas adalah masalah lain pada kualitas data yang sering mensabotase kinerja klasifikasi. Ketidakseimbangan kelas, di mana satu kelas merupakan proporsi kecil dari contoh dataset, menimpa banyak domain dunia nyata, seperti deteksi penipuan, diagnosis penyakit, klasifikasi teks dan prediksi kualitas perangkat lunak. Banyak classifiers, dengan kondisi baik memaksimalkan keseluruhan akurasi klasifikasi atau menjadi kuat untuk data yang noisy, tetapi cenderung untuk mengorbankan kinerja pada kelas minoritas dan berpihak pada mengklasifikasikan lebih dari instance mayoritas secara benar. Jika kedua kelas itu sama pentingnya, ini tidak akan menjadi masalah, namun, dalam kebanyakan kasus ketidakseimbangan kelas, itu adalah kelas jarang terjadi yang mengusung biaya misclassification yang tertinggi. Ketidakseimbangan kelas juga merupakan adanya sebuah keadaan yang menggambarkan tidak seimbangnya porsi data training antara sebuah kelas dengan kelas yang lain. Permasalahan seperti ini menjadi penting dikarenakan pada beberapa aplikasi data mining, akurasi model prediksi terhadap kelas minoritas lebih menarik / lebih penting daripada akurasi model prediksi terhadap kelas mayoritas. Padahal data kelas mayoritas akan lebih terlatih daripada data kelas minoritas karena classifier biasa cenderung akan membiaskan prediksi kelas minoritas ke kelas

31 15 mayoritas. Hal ini mengakibatkan terjadinya misclassification yang mengakibatkan akurasi untuk prediksi kelas minoritas cenderung buruk serta memungkinkan kelas minoritas hanya dianggap sebagai outlier. Tabel 2.1. Dataset tidak seimbang (Satyasree et al, 2013) No Datasets Number of Number of Class Imbalanced Example Attribut (Minority ; Majority) Ratio 1 Breast (Recurrence ; No- Recurrence) Breast_W (Benign ; Malignant) Colic (Yes ; No) Credit-g (Good ; Bad) Diabetes (Tested-Poty ; Tested- Negty) Heart-c (<50 ; >50_1) Heart-h (<50 ; >50_1) Heart-stat (Absent ; Present) Hepatitis (Die, Live) Ionosphere (B ; G) Kr-v3-kp (Won ; Now in) Labor (Bad ; Good) Mushroom (E ; P) Sick (Negative ; Sick) Sonar (Rock ; Mine) Efek dari ketidakseimbangan kelas pada classifier Ketidakseimbangan kelas mempengaruhi tugas tugas datamining. Permasalahan ketidakseimbangan kelas juga biasanya cenderung menyebabkan terjadinya overlapping, kurangnya data yang representatif (kasus yang jarang terjadi), small disjuncts atau adanya noise data dan borderline instances yang membuat proses belajar classifier sulit (Japkowich, 2004). Selain itu juga bahwa ketidakseimbangan kelas dan noise dapat berpengaruh pada kualitas data dalam hal kinerja klasifikasi (Khoshgoftaar et al, 2011). Ini menunjukkan ketidakseimbangan kelas menyebabkan terjadinya misclassification (Zhou et al, 2006). Permasalahan ketidakseimbangan kelas (class imbalance) juga dapat menyebabkan akurasi algoritma C4.5 buruk dalam pengklasifikasian (Rahayu et.al, 2015).

32 Tantangan dengan ketidakseimbangan kelas Ketidakseimbangan kelas terjadi ketika ada contoh pelatihan secara signifikan lebih kecil dalam satu kelas dibandingkan dengan kelas lainnya. Jenis dari distribusi ketidakseimbangan kelas bisa terjadi dalam dua situasi : 1) ketika ketidakseimbangan kelas merupakan masalah intrinsik atau itu terjadi secara alami. Sebuah distribusi kelas tidak seimbang secara alami terjadi dalam kasus penipuan kartu kredit atau di deteksi penyakit langka. Situasi lainnya adalah : 2) ketika ketidakseimbangan data tersebut tidak secara alami, biaya masih terlalu mahal untuk memperoleh data tersebut bagi pembelajaran kelas minoritas, kerahasiaan dan upaya yang luar biasa untuk menemukan kumpulan data yang diwakili, seperti kejadian yang sangat langka kegagalan space-shuttle. Ketidakseimbangan kelas melibatkan sejumlah kesulitan dalam pembelajaran, termasuk distribusi kelas tidak seimbang, sample size training, overlapping dan small disjuncts. 1. Distribusi ketidakseimbangan kelas Distribusi kelas tidak seimbang dapat didefinisikan dengan rasio dari jumlah instance dari kelas minoritas untuk yang kelas mayoritas. Dalam masalah domain tertentu, rasio ketidakseimbangan akan sama ekstrimnya dengan 1: Studi tentang menginvestigasi korelasi antara rasio ketidakseimbangan dalam pelatihan diatur dengan hasil klasifikasi menggunakan classifier pohon keputusan. Dan menemukan bahwa distribusi relatif seimbang antara kelas di dataset umumnya memberikan hasil yang lebih baik, tingkat distribusi kelas ketidakseimbangan yang akan mulai menghambat kinerja klasifikasi masih belum diketahui secara pasti. Eksperimen dari penelitian menemukan bahwa distribusi antara keseimbangan kelas bukanlah jaminan untuk meningkatkan kinerja classifier karena rasio populasi 50:50 tidak selalu menjadi distribusi terbaik untuk bentuk pembelajaran. Hal ini menunjukkan bahwa distribusi ketidakseimbangan kelas bukan satu-satunya alasan yang memperburuk kinerja classifier, faktor lain seperti ukuran sampel training dan kompleksitas kelas juga yang memberikan pengaruh. Selain distribusi ketidakseimbangan kelas, alasan utama lain mengapa klasifikasi ketidakseimbang kelas menantang adalah karena kurangnya data yang disebabkan oleh ukuran sampel yang kecil di set training. Minimnya jumlah contoh akan

33 17 menyebabkan kesulitan untuk menemukan keteraturan, yaitu, keseragaman pola khususnya di kelas minoritas. Gambar 2.7. Dampak dari sampel ukuran kecil dalam masalah ketidakseimbangan kelas; (a) garis padat menentukan batas keputusan yang benar dan (b) garis putusputus mendefinisikan estimasi batas keputusan (Ali, et al, 2015). Gambar 2.7 memperlihatkan bagaimana kurangnya data mempengaruhi kinerja klasifikasi dalam pembelajaran ketidakseimbangan kelas, di mana gambar 2.7.a menjelaskan bagaimana classifier yang dibangun sekitar batas keputusan (garis putusputus) bentuk jumlah yang relatif lebih besar dari contoh-contoh dari kelas yang positif (minoritas). gambar 2.7.b adalah estimasi batas keputusan dibangun oleh algoritma klasifikasi pembelajaran dihasilkan dari terbatasnya jumlah contoh dari kelas yang positif (minoritas). 2. Kelas Overlapping atau kompleksitas kelas Salah satu masalah utama dalam klasifikasi ketidakseimbangan kelas adalah kejadian overlapping dalam dataset. Kelas Overlapping atau kadang-kadang disebut sebagai kompleksitas kelas atau kelas separability berhubungan dengan derajat dari separability antara kelas-kelas dalam data. Kesulitan untuk memisahkan kelas minoritas dari kelas mayoritas adalah faktor utama yang mempersulit pembelajaran dari kelas yang lebih kecil. Ketika pola overlapping yang hadir di setiap kelas untuk beberapa ruang fitur, atau kadang-kadang bahkan di semua ruang fitur, sangat sulit untuk menentukan ketentuan diskriminatif untuk memisahkan kelas. Ruang fitur overlapping disebabkan fitur kehilangan properti intrinsik mereka sehingga membuat

34 18 mereka redundan atau tidak relevan untuk membantu mengenal batas keputusan yang baik antara kelas. Sebelum bekerja dalam menemukan bahwa seperti tingkat kompleksitas data yang meningkat, faktor ketidakseimbangan kelas mulai mempengaruhi kemampuan generalisasi dari sebuah classifier. Bekerja dari mengusulkan agar adanya hubungan antara kelas overlapping dan ketidakseimbangan dalam klasifikasi ketidakseimbangan kelas namun tingkat tersebut tidak didefinisikan dengan baik. Banyak penyelidikan dalam kelas dari separability memberikan bukti-bukti bahwa masalah kelas overlapping memberikan kendala berat untuk kinerja classifier dibandingkan dengan distribusi kelas ketidakseimbangan. Pada classifiers standar yang beroperasi dengan berusaha untuk memaksimalkan akurasi dalam klasifikasi sering jatuh ke dalam perangkap masalah overlapping karena biasanya mereka diklasifikasikan pada daerah yang overlapping sebagai milik kelas mayoritas sementara asumsi kelas minoritas sebagai noise. 3. Small disjunct Sementara dalam pembelajaran klasifikasi ketidakseimbangan kelas, rasio antara ketidakseimbangan kelas minoritas dan kelas mayoritas sangat jelas, Kadang suatu saat ketidakseimbangan dalam satu kelas mungkin diabaikan. Di dalam ketidakseimbangan kelas, sering muncul small disjunct ketika kelas terdiri dari beberapa jumlah sub-cluster yang berbeda dari contoh. Studi tentang dan menjelajahi dalam ketidakseimbangan kelas di kelas minoritas menyatakan bahwa kelas minoritas kurang terwakili disebabkan oleh small disjunct dapat ditingkatkan dengan menerapkan upsampling diarahkan sehubungan dengan kelas minoritas. Masalah small disjuncts di ketidakseimbangan kelas mempengaruhi kinerja klasifikasi karena 1) small disjuct memberatkan classifier dalam tugas konsep pembelajaran dari kelas minoritas dan yang 2) kejadian tentang di dalam masalah kelas, sebagian besar waktu secara implisit. Di dalam masalah kelas ini selanjutnya menandakan karena banyak pendekatan saat ini untuk ketidakseimbangan kelas sebagian besar lebih tertarik untuk memecahkan antara masalah kelas dan mengabaikan distribusi ketidakseimbangan dalam setiap kelas.

35 19 Gambar 2.8. Contoh Ketidakseimbangan antara Kelas (a) overlapping antara kelas (b) small disjunct - dalam ketidakseimbangan kelas (Ali, et al, 2015) Penanganan Ketidakseimbangan kelas Secara umum, ada dua strategi untuk menangani klasifikasi ketidakseimbangan kelas ; 1) Pendekatan level data dan 2) pendekatan level algoritma. Metode pendekatan pada level data menyesuaikan rasio ketidakseimbangan kelas dengan tujuan untuk mencapai keseimbangan distribusi antara kelas sedangkan pada pendekatan level algoritma, bahwa algoritma klasifikasi konvensional diperbaiki untuk meningkatkan tugas belajar terutama relatif terhadap kelas yang lebih kecil. Pendekatan level data atau kadang-kadang dikenal sebagai teknik eksternal mempekerjakan langkah preprocessing untuk menyeimbangkan distribusi kelas. Hal ini dilakukan secara undersampling dan oversampling untuk mengurangi rasio ketidakseimbangan dalam data training. Pada metode undersampling menghilangkan sejumlah kecil contoh dari kelas mayoritas untuk meminimalkan perbedaan antara dua kelas sedangkan oversampling lebih cenderung membuat duplikat contoh dari kelas minoritas. SMOTE (Synthetic Minority Over-sampling Technique) merupakan teknik oversampling yang popular dalam menangani klasifikasi ketidakseimbangan kelas. SMOTE menambahkan contoh baru untuk kelas minoritas dengan menghitung distribusi probabilitas untuk model kelas yang lebih kecil sehingga membuat keputusan batas yang lebih besar untuk menangkap contoh kelas minoritas yang berdekatan.

36 20 Selain metode pengambilan sampel, langkah lain dalam pre-processing yang mendapatkan popularitas dalam klasifikasi ketidakseimbangan kelas adalah seleksi fitur. Ada beberapa karya melaporkan pada metode seleksi fitur yang dirancang khusus untuk mengatasi masalah pendistribusian ketidakseimbangan kelas. Sebuah saran yang diusulkan untuk seleksi fitur berbasis dekomposisi kelas baru dalam menerapkan seleksi fitur pada pseudo-subclass yang lebih kecil dibangun dari membagi kelas mayoritas Pendekatan Level data dengan Seleksi Fitur Dapat dikatakan bahwa seleksi fitur sangat mempengaruhi hasil dari proses klasifikasi. Untuk dataset tidakseimbang (imbalance), metode seleksi fitur harus fokus pada fitur yang membantu dalam mengidentifikasi kelas minoritas (Pant, 2015). Penelitian ini mengusulkan sebuah metode untuk melakukan seleksi fitur yakni Density Based Feature Selection (DBFS). Sasaran dari metode DBFS merupakan sebuah metode pengajaran heuristic yang bertujuan untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat. Dugaan yang mendorong rasa ingin tahu lewat temuan (secara heuristik) bahwa fitur yang dikatakan baik bila salah satu nilai dari masing-masing class memiliki sisa class yang overlapping, yang disebut dengan instance dari masing-masing class sebagai bagian dari instance yang mungkin dari class lain berdasarkan nilai fitur. Dengan kata lain instance dari masing-masing class tidak menyebar kedalam berbagai instance yang terdapat pada class lain. (Alibeigi et al, 2012). Untuk menelusuri lebih lanjut kontribusi dari masing masing fitur serta menetapkan urutan yang tepat, DBFS mempertimbangkan korespondensi distribusi fitur dari seluruh class yang berkorelasi. Prosedur penanganan seleksi fitur dengan metode DBFS dijelaskan berikut ini (Alibeigi et al, 2012) : 1. Mengestimasi Probability Density Function (PDF) dari fitur di setiap kelas Metode yang lazim digunakan untuk menghitung PDF dapat dikatagorisasikan melalui dua pendekatan yaitu parametrik dan non parametrik. Secara khusus, seluruh metode densitas parametrik klasik merupakan multimodal, sementara banyak permasalahan yang bersifat praktis melibatkan densitas multimodal. Sementara itu, aturan nonparametrik dapat digunakan lewat distribusi sembarang tanpa adanya dugaan bahwa bentuk kepadatan mendasar yang dipahami. Ini

37 21 merupakan penyebab mengapa aturan nonparametrik lebih menarik dan diterapkan sebagai pendekatan yang dilakukan. Bentuk umum dari penilaian nonparametik dari PDF berdasarkan persamaan beriku t:. (2.1) Dimana, (x) merupakan nilai dari penilaian PDF misalnya x,v, merupakan volume yang mencakup x,n yang merupakan instance dari total jumlah K yang merupakan jumlah instance yang terdapat dalam V. Konsep-konsep ini dapat dilihat pada gambar 2.9. Penilaian PDF menjadi lebih akurat sama dengan peningkatan N dan volume V menurun. Sejak dalam prakteknya jumlah total dari instance ditetapkan sebagai (N), untuk meningkatkan akurasi dari penilaian PDF sebagai instance x (p(x)), kita mungkin mengumpamakan volume V mendekati nol namun kemudian hal tersebut kemungkinan akan sangat kecil yang mungkin tidak melampirkan berbagai instance. Maksudnya adalah, secara praktik (dengan penetapan sejumlah instance), dengan menemukan sebuah nilai yang disepakti terhadap nilai V, bahkan dengan sebahagian kecil instance, kemungkinan densitas yang dapat diterima mungkin jadi pertimbangan. Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x (Alibeigi et al, 2012) 2. Prosedur menentukan Peringkat fitur Langkah kedua setelah penilaian PDF pada masing-masing kelas yaitu menemukan nilai dari fitur berdasarkan penilaian PDF terhadap kelas. Seperti yang disampaikan sebelumnya bahwa fitur yang baik merupakan salah satu dari masing-masing kelas memiliki overlapping minimum dengan kelas yang tersisa. Hal tersebut berarti bahwa

38 22 mencari keberadaan fitur, mengacu pada nilai-nilai yang diberikan pada masingmasing instance kelas yang merupakan bagian yang mungkin terpisah dari instance kelas lainnya. Untuk menghitung jumlah nilai overlapping antara instance dari dua kelas untuk fitur tertentu, kita menggunakan estimasi PDF untuk setiap fitur dan label kelas. Pada gambar 2.10 memaparkan, instance yang termasuk bagian dari kedua kelas yang yang ditandai sebagai C. Taksiran pada bagian C dapat dianggap sebagai probabilitas bahwa sebuah instance yang nilai fiturnya ditemukan di wilayah C melibatkan kedua kelas. Setelah terjadi peningkatan pada bagian overlapping terhadap fitur, penting dilakukan penghitungan nilai overlapping untuk fitur f di kelas cl berdasarkan rumusan berikut ini: (2.2) Gambar Area Overlapping pada setiap fitur f (Alibeigi et al, 2012) 3. Menghitung area non overlapping dari fitur f di kelas cl Nilai DiscriminantAbility untuk setiap fitur pada masing-masing kelas bermakna bahwa fitur ini sangat dapat diandalkan dalam mengklasifikasikan instance kelas. Pada gambar menunjukkan bahwa bagian dari non - overlapping untuk fitur 2322 dari dataset CNS2 pada masing-masing kelas. Dapat dikatakan bahwa bagian

39 23 yang berlabel A dan B merupakan bagian yang tidak overlapping terhadap masingmasing kelas mayoritas dan minoritas. Pada bagian non - overlapping untuk fitur f pada setiap kelas yang berdampak baik terhadap discriminant ability dari fitur yang dapat didefinisikan sebagai berikut:.... (2.3) Fitur discriminantability secara keseluruhan merupakan rata-rata nilai DiscriminantAbility dari masing-masing class. Dapat dikatakan bahwa fitur dengan luas bagian yang tidak overlapping atau dengan rata-rata nilai-nilai DiscriminantAbilitiy yang lebih tinggi, mampu mengklasifikasikan instances lebih akurat. Lebih jauh lagi seperti pada pemaparan sebelumnya, fitur yang diasumsikan sebagai sesuatu yang baik bila sesuai dengan nilai-nilai yang berdasarkan fitur instance melibatkan satu kelas yang tidak menyebar ke kelas lain. Gambar Area Non Overlapping pada setiap fitur f (Alibeigi et al, 2012) Langkah berikutnya mengenumerasi perubahan jumlah sebagai fitur numchanges. Perubahan jumlah mengacu pada jumlah waktu yang terdapat pada kotak label instance dari satu kelas ke kelas yang lain pada fitur khusus dari PDF. Setiap PDF ditentukan, label instance hanyalah kelas yang memiliki maximum probability (PDF value) pada poin tersebut menentukan skor dari fitur f berdasarkan rumus berikut : (2.4)

40 24 Skor fitur dihitung lewat hal yang mangacu pada nilai discriminant ability serta nilai numchanges. Semakin tinggi skor dari sebuah fitur, maka peringkatnya akan rendah Pendekatan Level Algoritma dengan adaptive boosting (Adaboost) Pendekatan level algoritma bisa didedikasikan sebagai algoritma yang secara langsung mempelajari distribusi ketidakseimbangan dari kelas di dataset. Pendekatan tingkat Algoritma mencoba untuk beradaptasi dengan algoritma pembelajaran classifier yang ada untuk bias belajar menuju kelas minoritas. Metode ini memerlukan pengetahuan khusus dari kedua classifier yang sesuai dan domain aplikasi, memahami kegagalan classifier ketika distribusi kelas tidak merata. Salah satu metode pendekatan level algoritma adalah metode ensemble. Metode Ensemble ini melatih beberapa pengklasifikasi data training dan adanya evaluasi dikumpulkan untuk menghasilkan keputusan klasifikasi akhir. Metode ensemble secara umum dapat dideskripsikan sebagai boosting, dimana sebuah classifier diinduksi untuk setiap contoh training set dengan memilih salah satu dari algoritma machine learning. Oleh karena itu, akan ada jumlah k classifier untuk setiap variasi k dari training set. Metode boosting melakukan percobaan pada training set menggunakan beberapa model untuk mendorong classifier menghasilkan output. Bobot yang lebih tinggi ditetapkan pada setiap classifier untuk contoh secara salah diklasifikasikan. Output kemudian diperbaiki dengan menggunakan pendekatan weighted average. Keputusan akhir diperoleh dengan menggabungkan semua classifier. Algoritma adaboost merupakan salah satu dari beberapa varian tentang ide boosting. Penggunaan boosting menarik perhatian karena memberikan jaminan dalam performansi (Witten, 2011). AdaBoost merupakan suatu algoritma pembelajaran untuk meningkatkan kinerja klasifikasi terhadap suatu algoritma pembelajaran sederhana. AdaBoost menggabungkan sekumpulan fungsi classifier lemah untuk membentuk suatu classifier yang kuat. Adaboost merupakan teknik optimasi yang handal dengan mengkombinasikan beberapa pengklasifikasian dasar (multi base classifier) untuk menghasilkan suatu pengklasifikasian yang kuat (Alpaydin,2010). Jadi AdaBoost juga Merupakan suatu meta-algorithm yang dapat digunakan bersamaan dengan banyak algoritma pembelajaran lain untuk meningkatkan kinerjanya. AdaBoost bersifat adaptif, dimana

41 25 classifiers berikutnya dibangun untuk mendukung data-data yang mengalami kesalahan klasifikasi oleh classifier sebelumnya. AdaBoost sensitif terhadap data yang noisy dan outliers. Dalam beberapa hal, AdaBoost menjadi kurang rentan terhadap masalah overfitting, jika dibandingkan dengan algoritma pembelajaran pada umumnya. Pembentukan classifier pada Adaboost didasari input dataset training (D i ) adalah (x 1,y 1 ),..,(x m,y m ) dimana setiap x i dimiliki beberapa domain atau ruang instance X dan setiap label y i dalam beberapa set label Y. Diasumsikan Y = {-1, +1}. AdaBoost disebut algoritma pembelajaran yang lemah dalam serangkaian putaran t = 1... T. Salah satu ide utama dari algoritma ini adalah untuk memelihara distribusi bobot lebih dari training set. Bobot dari distribusi ini pada contoh training i dalam putaran t adalah dilambangkan D t (i). Awalnya, semua bobot ditetapkan sama, tetapi dalam setiap putaran, bobot dari contoh yang salah diklasifikasikan meningkat sehingga pembelajaran dasar dipaksa untuk fokus pada contoh yang sulit pada set training. Pekerjaan pembelajar dasar adalah untuk menemukan classifier dasar h t : sesuai dengan distribusi D t. dalam kasus yang sederhana, range dari setiap h t adalah binary, terbatas pada {-1, +1}. tugas pembelajar dasar itu adalah meminimalkan kesalahan (error) dari h t dengan persamaan ( Schapire, 2003):. (2.5) Setelah classifier dasar h t sudah diterima, AdaBoost memilih parameter α t R sehingga pentingnya mengukur secara intuitif yang akan menetapkan h t. Untuk binary h t, biasanya diatur dengan persamaan : menetapkan bobot h t :.... (2.6).. (2.7) Perbaruhi distribusi, dimana Z t sebuah faktor normalisasi yang mengaktifkan D t+1 menjadi distribusi :. (2.8)

42 26 Classifier akhir yang didapatkan merupakan gabungan dari semua classifier lemah yang didapatkan dari setiap tahapan boosting. Gabungan classifier H adalah voting mayoritas pembobotan dari classifier dasar setiap T dimana α t adalah bobotnya ditetapkan untuk h t. Pengklasifikasi akhir / kuat :.. (2.9) Hasil studi penulis terhadap beberapa penelitian yang sudah dilakukan menggunakan algoritma Adaboost adalah : 1. Algoritma Adaboost dikolaborasikan dengan algoritma C4.5 dalam model Cross- Standard Industry for Data Mining (CRISP-DM) untuk meningkatkan hasil akurasi prediksi penyakit jantung coroner (Suwondo et al, 2013). 2. Penerapan Adaboost pada metode Decision Tree terbukti efektif menghasilkan model arsitektur yang optimal dalam penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa (Bisri, 2015). 3. Menggabungan Genetic Algorithm dan Adaboost yang disebut "Ada-GA", dimana Parameter untuk evolusi crossover rate =1, mutation rate = 0.003, population size = , jumlah generasi = menghasilkan solusi yang lebih baik ( weak classifier lebih sedikit dan sedikit peningkatan dari akurasi klasifikasi) dari pada AdaBoost klasik (Elden et al, 2013). 4. Dengan menggabungkan empat metode klasifikasi yang berbeda, yaitu AdaBoost ensemble dengan regresi logistik (direpresentasikan sebagai LA), AdaBoost ensemble dengan decision tree (direpresentasikan sebagai DTA), classifier tunggal pada DT dan classifier tunggal pada support vector machine (SVM) dan dataset bawaan mampu memberikan peningkatan untuk prediksi sebagai default ekonomi yang muncul di Malaysia (Ramakrishnan et al, 2015) Algoritma C4.5 Algoritma C4.5 merupakan salah satu algoritma klasifikasi. Algoritma ini berfungsi untuk membuat decision tree (pohon keputusan). Selain menggunakan algoritma C4.5, ID3 dan CART merupakan algoritma yang dipakai dalam pembuatan decision tree. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005). Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan

43 27 algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numeric (Han, 2001). Dalam mengkonstruksi pohon, algoritma C4.5 membaca seluruh sampel data training dari storage dan memuatnya ke memori. Hal inilah yang menjadi salah satu kelemahan algoritma C4.5 dalam kategori skalabilitas adalah algoritma ini hanya dapat digunakan jika data training dapat disimpan secara keseluruhan dan pada waktu yang bersamaan di memori (Moertini, 2007). Data (input) pada algoritma C4.5 berupa tabel dan menghasilkan output berupa pohon. Terdapat tiga prinsip algoritma C4.5 pada tahap belajar data adalah : 1. Pembuatan pohon keputusan Obyektif dari algoritma penginduksi pohon keputusan adalah mengkonstruksi struktur data pohon (dinamakan pohon keputusan) yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki kelas. C4.5 mengkonstruksi pohon keputusan dengan strategi divide and conquer. Pada awalnya, hanya dibuat node akar dengan menerapkan algoritma divide and conquer. Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain ratio, kemudian pada node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan lagi. Demikian seterusnya sampai terbentuk daun - daun. Sebagai ilustrasi, dari data pelatihan pada Gambar 2.11, C4.5 dapat menghasilkan pohon keputusan seperti terlihat pada Gambar 2.12, dengan simbol kotak menyatakan simpul dan elips menyatakan daun.

44 28 Gambar Proses klasifikasi data : (a) Tahap belajar. (b) Tahap pengujian dan penggunaan aturan aturan untuk mengklasifikasi record baru (Han et al, 2001) Gambar Contoh pohon keputusan (Han et al, 2001) 2. Pemangkasan pohon keputusan dan evaluasi (opsional) Karena pohon yang dikonstruksi dapat berukuran besar dan tidak mudah dibaca, C4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan berdasarkan nilai tingkat kepercayaan (confidence level). Selain untuk pengurangan ukuran pohon, pemangkasan juga bertujuan untuk mengurangi tingkat kesalahan prediksi pada kasus (record) baru

45 29 3. Pembuatan aturan aturan dari pohon keputusan (opsional) Aturan aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. Setiap node dan syarat pencabangannya akan diberikan di if, sedangkan nilai pada daun akan menjadi ditulis di then. Setelah semua aturan dibuat, maka aturan akan disederhanakan (digabung atau diperumum). Sebagai contoh, aturan-aturan yang diturunkan dari pohon keputusan pada Gambar 2.12 adalah: if Age < 31 or 31 <= Age<= 40 and Income = low then Fair if Age > 40 or 31 <= Age<= 40 and Income = high then Exc Jika aturan aturan dari pohon tidak dibuat maka klasifikasi kasus baru dapat dilakukan dengan menggunakan pohon baru. Keakuratan dari aturan aturan ini dinamakan kesalahan klasifikasi dan didefinisikan sebagai prosentase dari kasus kasus yang diklasifikasikan dengan salah. Pada kontruksi pohon C4.5 disetiap simpul pohon, atribut dengan nilai gain ratio yang tertinggi dipilih sebagai atribut test atau split untuk simpul rumus gain ratio adalah : (Moertini, 2007) Gain ratio(a) = gain(a) / split info(a) (2.10) Dimana gain(a) adalah information gain dan atribut a untuk himpunan sampel dan split info(a) menyatakan entropi atau informasi potensial yang didapat pada pembagian X menjadi n sub himpunan berdasarkan pemeriksaan pada atribut a. sedangkan gain(a) didefenisikan sebagai berikut : Gain(a) = info(x) info a (X).. (2.11) Dimana adalah fungsi entropi dengan k adalah jumlah kelas pada himpunan data X. freq (C j,x) menyatakan jumlah sampel pada X yang memiliki nilai kelas C j. X menyatakan kardinalitas (jumlah anggota) himpunan data X. Info a (X) = Menyatakan info(x) dan a adalah atribut yang ditelaah dan n adalah jumlah sub himpunan yang dibentuk dari X (pada atibut diskret, n adalah jumlah nilai unik pada a, sedangkan pada atribut kontinyu n = 2. sedangkan rumus split info(a) adalah : (2.12)

46 30 Dimana X i menyatakan sub himpunan ke-i pada sampel X. Alasan penggunaan gain ratio(a) pada C4.5 (bukan gain(a)) sebagai kriteria pada pemilihan atribut test adalah gain ternyata bias terhadap atribut yang memiliki banyak nilai unik. Pembagian gain(a) dengan split info(a) dimaksudkan untuk mengatasi hal ini. Untuk menghitung nilai info a (X), jika a adalah atribut diskret, maka sampel X dibagi menjadi sub sampel X1 Xn, dimana n adalah jumlah nilai unik pada atribut dan Xi adalah sub sampel yang memiliki nilai atribut a = i. Jika a adalah atribut kontinyu, maka sampel X dibagi menjadi dua sub sampel dan dengan X 1 ={ v j v j v} dan X 2 ={ v j v j v}, dimana v adalah sebuah nilai ambang. Cara mencari v adalah dengan mula mula sampel di X diurutkan berdasarkan nilai dari a. dimisalkan bahwa nilai yang terurut adalah v 1,.,v m. Jika i [1,m-1] dan v = (v i + V i+1 ) / 2 maka sampel yang dipecah dapat dinyatakan dengan dan. Untuk setiap nilai v, gain v, dihitung dengan memperhatikan pemisah sampel diatas. Information gain untuk a didefenisikan sebagai nilai maksimum dari semua gain v dan nilai v ditentukan sebagai nilai ambang (threshold) untuk atribut kontinyu. Penelitian untuk mengembangkan algoritma C4.5 yang asli sudah banyak dilakukan. Dari hasil studi penulis didapati hasil yang sudah dilakukan antara lain : 1. Algoritma C4.5 dapat diimplementasikan untuk memprediksi tingkat kelulusan mahasiswa dengan empat kategori yaitu lulus cepat, lulus tepat, lulus terlambat dan drop out. Attribut yang paling berpengaruh dalam hasil prediksi adalah IPS semester enam.(kamagi et al, 2014). 2. Algortima C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut. Selain ini algoritma C4.5 cocok digunakan untuk data yang bersifat non-numerik seperti data nilai mahasiswa yang dikelompokkan kedalam empat kelompok (best, Good, Pass, dan Fail) (Rahmayuni, 2014). 3. Algortima C4.5 berbasis Decision Tree, melakukan transformasi data numerik dan juga continue kedalam bentuk kategorikal dan dibuat skala atau interval agar menghasilkan range yang lebih kecil untuk pembelajaran algoritma C4.5 (Puspita et al, 2015).

47 Validasi dan Evaluasi Kinerja Algortima Klasifikasi Cross-Validation Dalam pendekatan cross-validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Untuk mengilustrasikan metode ini, anggaplah kita mempartisi data ke dalam dua subset yang berukuran sama. Pertama, kita pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two-fold cross-validation. Total error diperoleh dengan menjumlahkan error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk training dan satu kali untuk testing. Metode k-fold cross-validation mengeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk testing, sedangkan sisanya digunakan untuk training. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam pengunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al.2005). Metode evaluasi standard yaitu stratified 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai ratarata dari 10 kali pengujian. Keuntungan metode ini, menghindari overlapping pada data testing. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Gorunescu, 2011).

48 Confusion Matrix Evaluasi untuk mengukur kinerja model digunakan confusion matrix, karena confusion matrix merupakan alat yang berguna untuk menganalisa seberapa baik pengklasifikasi dapat mengenali tupel/fitur dari kelas yang berbeda (Han, Kamber, & Pei, 2011). Confusion matrix dapat membantu menunjukkan rincian kinerja pengklasifikasi dengan memberikan informasi jumlah fitur suatu kelas yang diklasifikasikan dengan tepat dan tidak tepat (Bramer, 2007, p. 89). Confusion matrix memberikan penilaian kinerja model klasifikasi berdasarkan jumlah objek yang diprediksi dengan benar dan salah (Gorunescu, 2011). Pengukuran akurasi dengan confusion matrix merupakan matrik 2 dimensi yang menggambarkan perbandingan antara hasil prediksi dengan kenyataan dapat dilihat pada table 2.2. Tabel 2.2. Confusion matrix (Gorunescu, 2011) Setelah dibuat confusion matrix, selanjutnya dihitung nilai akurasi, sensitivitas atau disebut recall atau True Positive Rate (TPrate), specificity (ketegasan) atau disebut True Negative Rate (TNrate), False Positive Rate (FPrate), False Negative Rate (FNrate), precision atau disebut Positive Predictive Value (PPV), Negative Predictive Value (NPV), F-Measure, Geometric Mean (GMean), dan Area Under the ROC Curve (AUC). Formulasi perhitungan yang digunakan adalah sebagai berikut (Gorunescu, 2011) : Accuracy =.... (2.13) Sensitivity =... (2.14) Specificity = TN rate =... (2.15) FP rate =... (2.16)

49 33 Precision =... (2.17) F-Measure =.. (2.18) G-Mean =. (2.19) Untuk data tidak seimbang, akurasi lebih didominasi oleh ketepatan pada data kelas minoritas, maka metrik yang tepat adalah AUC (Area Under the ROC Curve), F- Measure, G-Mean, akurasi keseluruhan, dan akurasi untuk kelas minoritas (Zhang & Wang, 2011). Evaluasi dengan F-Measure, rata-rata harmonik dari dua angka cenderung lebih dekat dengan lebih kecil dari dua, oleh karena itu nilai F-Measure yang tinggi dapat memastikan bahwa kedua recall (sensitivity) dan presisi yang cukup tinggi. Jika hanya kinerja kelas positif dianggap sebagai dua langkah penting yaitu TP rate dan Positive Predictive Value (PP value). PP value didefinisikan sebagai presisi yang menunjukan presentasi objek yang relevan yang didefinisikan untuk retrieval. Dalam pencarian informasi TP rate didefinisikan sebagai recall yang menunjukan presentasi dari objek yang diambil itu adalah relevan. Rata-rata harmonik adalah gabungan dari ukuran presisi dan recall Kurva ROC (Receiver Operating Character Curve) Evaluasi dengan Receiver Operating Character Curve (ROC Curve), secara teknis menggambarkan graifk dua dimensi, dimana tingkat True Positive (TP) terletak pada garis sumbu Y, sedangkan untuk False Positive (FP) terletak pada garis sumbu X. dengan demikian ROC menggambarkan tradeoff antara TP dan FP. Pencatatan dalam ROC dinyatakan dalam sebuah klausa yaitu semakin rendah titik kekiri (0.0), maka dianyatakan sebagai klasifikasi prediksi mendekati/menjadi negatif, sedangkan semakin keatas titik kekanan (1.1), maka dinyatakan sebagai klasifikasi prediksi mendekati/menjadi positif. Titik dengan nilai 1 dinyatakan sebagai tingkat True Positif (TP), sedangkan titik dengan nilai 0 dinyatakan sebagai tingkat False Positive (FP). Pada titik (0.1) merupakan klasifikasi prediksi adalah sempurna karena semua kasus baik positif maupun negatif dinyakatakan dengan benar (True). Sedangkan untuk (1.0) klasifikasi prediksi semuanya dinyatakan sebagai tidak benar (False).

50 34 Tabel 2.3. Nilai AUC dan keterangan (Gorunescu, 2011) Area Under the ROC (Receiver Operating Characteristic) Curve (AUROC atau AUC) adalah ukuran numerik untuk membedakan kinerja model, dan menunjukkan seberapa sukses dan benar peringkat model dengan memisahkan pengamatan positif dan negatif (Attenberg & Ertekin, 2013). AUC menyediakan ukuran tunggal dari kinerja pengklasifikasi untuk menilai model mana yang lebih baik secara rata-rata (López, Fernández, & Herrera, 2014). AUC merangkum informasi kinerja pengklasifikasi ke dalam satu angka yang mempermudah perbandingan model ketika tidak ada kurva ROC yang mendominasi (Weiss, 2013). AUC adalah cara yang baik untuk mendapatkan nilai kinerja pengklasifikasi secara umum dan untuk membandingkannya dengan pengklasifikasi yang lain (Japkowicz, 2013). AUC adalah ukuran kinerja yang populer dalam ketidakseimbangan kelas, nilai AUC yang tinggi menunjukkan kinerja yang lebih baik (Liu & Zhou, 2013). Sehingga untuk memilih model mana yang terbaik, dapat dilakukan dengan menganalisa nilai AUC. Terdapat beberapa angka yang dapat dianalisa. dari dua buah data yaitu data kelas yang dihasilkan dari classifier (Predicted Class) dan data kelas asli yang telah diketahui (Actual Class). Jika kelas yang dihasilkan classifier sama dengan actual class dari data maka data termasuk dalam TP (True Positive) untuk kelas positif (1) atau TN (True Negative) untuk kelas negatif (0). Cara membentuknya yaitu dengan mengubah parameter-parameter yang dapat dituning dari classifier sehingga membuat banyak sekali confusion table. Dari banyak confusion tabel, maka kita dapat mengambil nilai dari TP dan FP dari tabel tersebut tetapi bisa juga diambil perbandingan yang lain yaitu precision dan recall, tetapi pada beberapa kasus suatu classifier dibuat untuk menebak kelas 1 sebagai kelas yang benar sehingga kita bisa menganalisa langsung pada proses prediksi pada kelas 1 saja. Sedangkan nilai yang diplot adalah nilai TPR (True Positive Rate) dan FPR (False Positive Rate). Ukuran

51 35 AUC dihitung sebagai daerah kurva ROC dengan persamaan sebagai berikut (Lopez et al, 2014) :.. (2.20) Root Mean Square Error (RMSE) Root Mean Square Error (RMSE) adalah ukuran yang sering digunakan dari perbedaan antara nilai-nilai diprediksi oleh model atau estimator dan nilai-nilai benar - benar diamati. Perbedaan-perbedaan individual disebut residual ketika perhitungan dilakukan atas sampel data yang digunakan untuk estimasi, dan disebut kesalahan prediksi ketika dihitung out-of-sample. RMSE digunakan untuk mengevaluasi keandalan model. Uji coba dapat dilakukan dengan membandingkan nilai prediksi model dengan nilai sebenarnya. Model yang baik adalah model yang mampu memberikan nilai estimasi yang akurat, yaitu nilai y dugaan mendekati nilai y observasi sehingga error mendekati nol. Nilai RMSE (Root Mean Square Error) yang semakin kecil menunjukkan model semakin andal dalam memberikan prediksi. RMSE dihitung dengan persamaan sebagai berikut (Gorunescu, 2011) (2.21) Keterangan formulasi RMSE : y = Nilai aktual y = nilai prediksi n = jumlah sampel data i = iterasi

52 Penelitian Terkait Adapun penelitian-penelitian yang sudah dilakukan dan berkaitan dengan penelitian ini dapat dilihat pada tabel 2.4. Nama Peneliti Rahmayuni, I Elden, A. S., Moustafa, M. A., Harb, H. M. & Emara, A. Tabel 2.4. Penelitian Terkait Judul Pembahasan Tahun Perbandingan Performansi Algoritma C4.5 dan CART dalam Klasifikasi Data Nilai Mahasiswa Prodi Teknik Komputer Politeknik Negeri Padang Adaboost Ensemble with Simple Genetic Algorithm for Student Prediction Model Penelitian dilakukan dengan 2014 membandingkan Algoritma C4.5 dan CART. Hasil penelitian menunjukkan algoritma C4.5 memberikan akurasi paling baik (85,61%) sedangkan algoritma CART memberikan akurasi (84,95%). Hal ini terjadi karena algortima C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut. Penelitian ini menggabungkan 2013 Algoritma Adaboost dengan Genetic Algorithm bahwa dengan menggabungkan Genetic Algorithm dengan Adaboost menghasilkan solusi yang lebih baik ( weak classifier lebih sedikit dan sedikit peningkatan dari akurasi klasifikasi) dari pada AdaBoost klasik. Dengan menggunakan "tiga" tree split, akurasi Ada- GA sedikit meningkat

53 37 dibandingkan nilai rata rata akurasi Adaboost klasik. Juga, jumlah weak classifier algoritma AdaBoost berkurang bila menggunakan algoritma yang diusulkan Ada-GA. Bisri, A. Penerapan Adaboost Penelitian ini menggunakan 2015 untuk penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa pada metode Decision Tree Alibeigi, M., DBFS : An effective Hashemi, S. & Density Based Feature Hamzeh, A. Selection scheme for small sample size and high dimensional imbalanced data sets algoritma Adaboost dengan record jumlah mahasiswa sebanyak 429 bahwa Adaboost pada metode Decision Tree terbukti efektif menghasilkan model arsitektur yang optimal dalam penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa Pada penelitian ini melakukan 2012 pendekatan perangkingan fitur yang baru berdasarkan density based feature selection (DBFS) untuk mengatasi ukuran sampel yang kecil dan masalah dimensi tinggi di dataset tidakseimbang memberikan manfaat yang signifikan pada algoritma seleksi fitur. Dengan mengeksplorasi dari kontribusi masing masing atribut dan menetapkan peringkat atribut yang tepat serta memperhitungkan distribusi fitur yang sesuai. Gao,K., Combining Feature Penelitian ini menggunakan 2014

54 38 Khoshgoftaar, T. & Wald, R. Selection and Ensemble Learning for Software Quality Estimation. teknik ensemble yaitu adaboost bekerja bersama dengan beberapa metode seleksi fitur, hasil eksperimen yang telah dilakukan menunjukkan bahwa seleksi fitur yang dilakukan didalam teknik ensemble menghasilkan kinerja klasifikasi lebih baik dari pada saat diterapkan sebelum teknik ensemble Perbedaan dengan Riset yang lain Berdasarkan tabel 2.4, dapat disimpulkan dari penelitian yang pernah dilakukan bahwa Algoritma Adaboost dan metode DBFS dapat memiliki akurasi yang lebih baik dalam mengatasi ketidakseimbangan kelas dataset. Menggabungkan algoritma Adaboost juga terbukti efektif mengatasi ketidakseimbangan kelas dengan metode klasifikasi standar C4.5. Akan tetapi dari kombinasi kedua algoritma tersebut diatas, dalam pembelajaran metode klasifikasi C4.5 belum diketahui dan memerlukan penelitian lebih lanjut Kontribusi Riset Kombinasi penerapan seleksi fitur DBFS dan pendekatan level algoritma yaitu adaboost diharapkan mengurangi pengaruh ketidakseimbangan kelas dalam dataset mahasiswa lulusan serta meningkatkan akurasi pengklasifikasi C4.5 pada model prediksi kelulusan mahasiswa. Informasi potensial yang dihasilkan melalui model prediksi dan pemetaan data mahasiswa dijadikan sebagai peringatan dini bagi mahasiswa yang diprediksi berpotensi lulus tepat waktu maupun tidak tepat waktu serta dapat menjadi rekomendasi dan bahan pertimbangan bagi pimpinan dalam pengambilan keputusan.

55 BAB 3 METODOLOGI PENELITIAN 3.1. Pendahuluan Metodologi penelitian merupakan sekumpulan proses terstruktur mengenai peraturan, kegiatan dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu yang menceritakan bagaimana sebuah penelitian dilaksanakan (Zarlis, et al, 2015). Pada hakekatnya metodologi penelitian merupakan operasionalisasi dari epistemologi yang mengkaji perihal urutan langkah langkah yang ditempuh supaya pengetahuan yang diperoleh memenuhi ciri ciri ilmiah Metode Penelitian Metode penelitian merupakan cara ilmiah yang digunakan untuk mendapatkan data yang objektif, valid, dan realibel dengan tujuan dapat ditemukan, dibuktikan, dan dikembangkan suatu pengetahuan, sehingga dapat digunakan untuk memahami, memecahkan, dan mengantisipasi masalah (Sugiyono, 2010). Penelitian ini dilaksanakan pada Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Mikroskil Medan jurusan Sistem Informasi. Penetapan lokasi penelitian ini didasarkan pada pertimbangan akses data lebih mudah karena lokasi penelitian berada pada lingkup kerja peneliti sehingga proses pengumpulan data, pengolahan, analisis hingga implementasi relatif lebih mudah dilakukan. Metode yang digunakan dalam penelitian ini adalah eksperimental. Penelitian eksperimental bisa dilakukan pada dua kelompok. dimana kelompok satu disebut kontrol yang tanpa diberi perlakuan apapun, sedangkan pada kelompok kedua diberikan perlakuan (treatment) (Hasibuan, 2007). Adapun tahapan pada penelitian ini seperti gambar 3.1.

56 40 Pengumpulan Data Pengolahan Awal (Preprocessing)Data Model yang diusulkan Evaluasi dan Validasi Eksperimen & Pengujian Model Gambar 3.1. Tahapan Penelitian Metode Pengumpulan Data Proses ini ditujukan untuk mengumpulkan data mahasiswa lulusan pada program studi Sistem Informasi tahun ajaran 2004, 2005, 2006, berupa data akademik dan data nonakademik. Diambilnya periode tahun ajaran mahasiswa lulusan pada penelitian ini karena memiliki struktur kurikulum yang sama. Data mahasiswa lulusan dimaksudkan untuk mencari dan membentuk pola perolehan status akademik yang akan digunakan untuk memprediksi kelulusan. Data mahasiswa lulusan yang bisa digunakan sebagai dataset diperoleh dengan melakukan query data dari beberapa database SIPT (Sistem Informasi Perguruan Tinggi) STMIK Mikroskil yang dikelolah oleh Unit Pelaksana Teknis Pusat Sistem Informasi (UPTPSI). Dengan jumlah mahasiswa lulusan 1086 record, dataset pertama kelulusan mahasiswa dapat dilihat pada table 3.1. Tabel 3.1. Dataset Pertama Mahasiswa Lulusan No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Program Studi Nominal 3 Jenis Kelamin Nominal 4 Shift Kuliah Nominal 5 Indeks Prestasi Kumulatif Nominal 6 Masa Studi Nominal

57 41 Dataset pertama pada data mahasiswa lulusan terdiri dari atribut nomor induk mahasiswa, program studi, jenis kelamin, shift kuliah, indeks prestasi kumulatif, dan masa studi. Dataset kedua kelulusan mahasiswa dapat dilihat pada table 3.2. Table 3.2. Dataset Kedua Mahasiswa Lulusan No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Semester Nominal 3 Indeks Prestasi Semester 1 Nominal 4 Indeks Prestasi Semester 2 Nominal 5 Indeks Prestasi Semester 3 Nominal 6 Indeks Prestasi Semester 4 Nominal 7 Indeks Prestasi Semester 5 Nominal 8 Indeks Prestasi Semester 6 Nominal 9 Indeks Prestasi Semester 7 Nominal 10 Indeks Prestasi Semester 8 Nominal Dataset kedua mahasiswa lulusan terdiri dari atribut nomor induk mahasiswa, semester, indeks prestasi semester satu sampai dengan semester delapan. Dataset ketiga terdiri dari atribut nomor induk mahasiswa, semester, nama mata kuliah, sks mata kuliah dan nilai huruf dapat dilihat pada table 3.3. Tabel 3.3. Dataset Ketiga Mahasiswa Lulusan No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Semester Nominal 3 Nama Mata Kuliah Nominal 4 SKS Mata Kuliah Nominal 5 Nilai Huruf Nominal Selanjutnya penggabungan antara dataset pertama, dataset kedua dan dataset ketiga tersebut diatas dapat dilihat pada table 3.4.

58 42 Tabel 3.4. Gabungan Dataset Pertama, Kedua dan Ketiga No Atribut Tipe data 1 Nomor Induk Mahasiswa Nominal 2 Asal Sekolah Nominal 3 Jenis Kelamin Nominal 4 Shift Kuliah Nominal 5 Indeks Prestasi Semester 1 Nominal 6 Indeks Prestasi Semester 2 Nominal 7 Indeks Prestasi Semester 3 Nominal 8 Indeks Prestasi Semester 4 Nominal 9 Indeks Prestasi Semester 5 Nominal 10 Indeks Prestasi Semester 6 Nominal 11 Indeks Prestasi Semester 7 Nominal 12 Indeks Prestasi Semester 8 Nominal 13 Indeks Prestasi Kumulatif Nominal 14 Rerata SKS Nominal 15 Status Akademik Nominal Pengolahan Awal (Preprocessing) Data Pengolahan awal (preprocessing) terhadap data merupakan langkah selanjutnya setelah mengetahui atribut yang akan digunakan. Hal ini dilakukan untuk mendapatkan data yang tepat dan dapat diolah dengan cepat untuk menghasilkan ketepatan klasifikasi yang lebih baik. Melakukan kegiatan seleksi dan pembersihan terhadap data serta mengkonversi data dalam pengolahan awal (preprocessing) dapat menangani secara sistematis data yang tidak lengkap, atribut yang tidak relevan dan tidak konsisten agar menghasilkan kualitas data masukan yang tidak menimbulkan kesalahan pada saat mining. Data hasil dari penggabungan beberapa atribut terdapat permasalahan missing value (data yang tidak lengkap) sebanyak 132 instances dari 1086 instances. Dengan melakukan imputasi dan menghilangkannya merupakan cara penanganan missing value pada data tersebut. Jika dilakukan imputasi pada tipe data numerik, maka caranya adalah dengan memasukkan rata-rata dari atribut yang mengandung missing value tersebut. Namun jika imputasi dilakukan pada tipe data kategori, maka caranya

59 43 adalah dengan memasukkan nilai yang sering muncul pada atribut yang mengandung missing value tersebut. Dalam penelitian ini penanganan missing value tersebut dengan cara dihilangkan. Sehingga instances yang akan diolah telah menjadi sebanyak 954. Dalam beberapa algoritma klasifikasi datamining membutuhkan data dalam bentuk atribut kategorikal (Hermawati, 2013). Nilai nilai atribut yang digunakan berupa angka atau symbol yang dapat dibedakan pada tipe nilai yang diterima dikonversikan kedalam bentuk kategorikal yaitu data nominal yang tidak dapat dinyatakan bahwa kategori yang satu lebih baik dari kategori lainnya dan nilai nilainya tidak dapat diurutkan. Rincian spesifikasi dan atribut seperti pada table 3.5. Tabel 3.5. Spesifikasi dan Atribut Dataset Mahasiswa Lulusan No Atribut Nilai Nominal Dan Kategori 1. Asal Sekolah 1. Dalam Kota 2. Luar Kota 2. Jenis Kelamin 1. Laki-Laki 2. Wanita 3. Shift Kuliah 1. Pagi 2. Sore 4. Indeks Prestasi Semester 1 5. Indeks Prestasi Semester 2 6. Indeks Prestasi Semester 3 7. Indeks Prestasi Semester 4 8. Indeks Prestasi Semester 5 9. Indeks Prestasi Semester 6 1. > = > = < > = > = < > = > = < > = > = < > = > = < > = > = < 2.50 Jumlah Persentase (%) 62.5 % 37.5 % 63.8 % 36.2 % 73.2 % 26.8 % 42.8 % 29.8 % 27.5 % 37.4 % 35.0 % 27.6 % 42.5 % 30.1 % 27.5 % 43.1 % 31.7 % 25.3 % 35.7 % 34.8 % 29.5 % 45.2 % 34.7 % 20.1 %

60 Indeks Prestasi Semester Indeks Prestasi Semester Indeks Prestasi Kumulatif 1. > = > = < > = > = < > = > = < Rerata SKS 1. > < Status Akademik 1. Tepat Waktu 2. Tidak Tepat Waktu % 32.9 % 27.3 % 41.3 % 39.6 % 19.1 % 62.7 % 30.1 % 0.72 % 64.9 % 35.1 % 87.8 % 22.2 % 3.3. Model yang diusulkan Model yang diusulkan dalam menangani masalah ketidakseimbangan kelas yaitu dengan menerapkan kombinasi seleksi fitur dan pendekatan algoritma. perancangan model yang diusulkan meliputi kombinasi penerapan algoritma Adaptive boosting (Adaboost) dan density based feature selection (DBFS) untuk meningkatkan kinerja algoritma pengklasifikasi yaitu C4.5. kerangka model yang diusulkan ditunjukan pada Gambar 3.2.

61 45 Gambar 3.2. Kerangka kerja model yang diusulkan Gambar 3.2. Kerangka Model yang diusulkan Pada Gambar 3.2. dalam pengolahan awal, data yang sudah didapat, dibersihkan dan dipilah. Selanjutnya dalam penanganan ketidakseimbangan pada dataset kelulusan mahasiswa akan dilakukan dengan menerapkan metode seleksi fitur DBFS dan proses boosting yaitu adaboost. Dataset kelulusan mahasiswa yang baru dibagi menjadi X sesuai nilai validasi (X-fold cross validation), satu bagian (1/X) digunakan sebagai data uji (testing) sisanya digunakan sebagai data latih (training). Selanjutnya data training diproses dengan metode pengklasifikasi C4.5 dan kemudian diuji dengan data uji melalui proses validasi. Hasil validasi digunakan untuk mengukur kinerja masing masing model.

62 46 Beberapa eksperimen dengan menggunakan tool xampp 2.4 dan rapidminer studio 6.5. Eksperimen dilakukan dalam beberapa tahap yaitu sebagai berikut : 1. Ekperimen pertama dimulai dengan mengklasifikasikan dataset mahasiswa lulusan dengan pengklasifikasi C4.5 tanpa seleksi fitur. 2. Eksperimen kedua dimulai dengan menerapkan seleksi fitur menggunakan DBFS untuk meningkatkan akurasi algoritma pengklasifikasi C Eksperimen ketiga dilakukan dengan menerapkan kombinasi seleksi fitur menggunakan DBFS sebelum proses boosting yaitu algoritma adaboost (adaptive boosting) sehingga menjadi sebuah dataset baru untuk training dan testing dari atribut yang sudah ditentukan. 4. Dalam eksperimen keempat, seleksi fitur dengan DBFS dilakukan setelah proses boosting dengan algoritma adaboost sehingga menjadi dataset baru untuk training dan testing dari atribut yang sudah ditentukan. Algoritma Adaboost digambarkan dengan flowchart pada gambar 3.3. dimana masukan berupa sejumlah data training dan data testing serta jumlah iterasi. Langkah awal dilakukan inisialisasi bobot untuk setiap fitur sebesar 1 dibagi dengan jumlah data training. Selanjutnya dilakukan perulangan sesuai masukan jumlah iterasi. Selama iterasi dilakukan, normalisasikan distribusi setiap fitur data training agar sama dengan 1. Hitung nilai hipotesis weak classifier dan nilai kesalahannya (error rate) dari setiap fitur data training, jika nilai kesalahannya lebih besar dari 0,5 maka iterasi dihentikan. Jika tidak lebih besar dari 0,5 maka hitung ulang koefisien kesalahan dan faktor normalisasi agar bobot baru bernilai antara -1 sampai 1. Proses perhitungan dilakukan sampai jumlah iterasi tercapai atau nilai kesalahan (error rate) lebih dari 0,5. Setelah perulangan selesai, strong classifier akan didapatkan dan merupakan gabungan hasil voting dari mayoritas pembobotan dari semua weak classifier yang didapat dari setiap iterasi. jika hasil strong classifier lebih kecil dari 0 maka dikategorikan sebagai fitur yang tidak relevan, jika lebih besar dari 0 sampai dengan 1 maka dikategorikan sebagai fitur yang direkomendasikan untuk pengklasifikasian.

63 47 Gambar 3.3. Flowchart Algoritma Adaboost

64 48 Gambar Flowchart Algoritma DBFS Gambar 3.4. menunjukkan flowchart algoritma DBFS dengan sejumlah masukan berupa jumlah fitur dan jumlah label kelas pada dataset. Iterasi dilakukan berdasarkan jumlah fitur pada masing-masing label kelas. Selama perulangan maka dihitung nilai

65 49 estimasi probability density function (PDF) dari fitur disetiap label kelas. Selanjutnya, prosedur untuk menentukan perangkingan fitur dimulai dengan penghitungan nilai area overlapping setiap fitur masing masing label kelas. Untuk penghitungan jumlah nilai area overlapping menggunakan estimasi PDF untuk setiap fitur dari masing masing label kelas. Selanjutnya penghitungan area non overlapping berdasarkan nilai discriminant ability untuk setiap fitur dari masing masing label kelas agar dapat ditemukan fitur yang andal dalam mengklasifikasikan instance kelas. Jika nilai overlapping dan discriminant ability setiap fitur dari masing masing label kelas terpenuhi, langkah berikutnya mengenumerasi perubahan jumlah nilai estimasi PDF setiap fitur dari satu label kelas ke label kelas lainnya. Jumlah nilai perubahan dan rata rata nilai discriminant ability setiap fitur dari masing masing label kelas dihitung untuk menentukan skor fitur. Semakin tinggi skor dari sebuah fitur maka peringkatnya akan semakin rendah Evaluasi dan Validasi Mengevaluasi kinerja algoritma pengklasifikasi umumnya menggunakan hasil keseluruhan pada pengujian dataset (Zhang dan Wang, 2011). Pengukuran kinerja algoritma pengklasifikasi dilakukan dengan menggunakan confusion matrix. Dimana confunsion matrix diperoleh dari proses validasi menggunakan stratified k-fold cross validation. Proses stratification akan dilakukan terlebih dahulu sebelum proses cross validation untuk dapat mereduksi varian estimasi. Metode evaluasi standard yaitu stratified 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Keuntungan metode ini, menghindari overlapping pada data testing. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set (Gorunescu, 2011). Hasil pengukuran kinerja model yang diperoleh, digunakan untuk membandingkan antara model dasar yaitu algoritma C4.5 dengan model yang dibentuk menggunakan kombinasi DBFS dan adaboost. Kualitas model yang dihasilkan dapat dilihat berdasarkan nilai Area Under curve (AUC) dan Receiver Operating Character (ROC) curve. Evaluasi dengan ROC curve secara teknis menggambarkan grafik dua dimensi atau trade-off antara true positive (TP) dengan

66 50 false positive (FP). Hasil ROC curve akan digunakan untuk menemukan nilai AUC, dimana nilai AUC digunakan untuk menentukan klasifikasi keakuratan pengujian diagnostik. Tabel 3.6. Nilai AUC AUC Keterangan Excellent classification Good classification Fair classification Poor classification < 0.60 failure 3.5. Alat Analisis Data Penelitian ini menggunakan metode eksperimen (experiment), yang melibatkan penyelidikan hubungan kausal menggunakan tes yang dikendalikan oleh peneliti sendiri. Dalam eksperimen yang dilakukan menggunakan spesifikasi hardware dan software sebagai alat bantu dalam pemrosesan data seperti pada table 3.7. Hardware Tabel 3.7. Spesifikasi hardware dan software Software CPU Intel Core TM i3-2350m Sistem Operasi Windows 7 Ultimate 14.0 HD LED LCD Xampp 2.4 Intel HD Graphics 3000 Rapidminer Studi 6.5 RAM 2 GB DDR3 Microsoft Excel 2013 HDD 500 GB

67 BAB 4 HASIL DAN PEMBAHASAN 4.1. Pendahuluan Bab ini memaparkan proses dan hasil eksperimen yang sudah dilakukan. Eksperimen dilakukan dengan menggunakan aplikasi rapidminer studio 6.5 dan Xampp 2.4 pada dataset mahasiswa lulusan. Pengaturan eksperimen dilakukan untuk menghasilkan akurasi yang paling tinggi pada metode yang diusulkan. Pengaturan eksperimen juga dilakukan dengan kombinasi beberapa metode dalam penerapan seleksi fitur. Penelitian ini menghasilkan keluaran yang dapat dianalisis untuk menghasilkan informasi dan pengetahuan yang berguna. Berikut penjabaran dari hasil penelitian yang sudah dilakukan Hasil Klasifikasi Algoritma C4.5 tanpa Seleksi Fitur Pada eksperimen pertama yaitu menguji aplikasi rapidminer studio 6.5 dalam menentukan model prediksi pengklasifikasi C4.5 berdasarkan perhitungan secara manual yang dilakukan. Nilai gain ratio tertinggi bukan gain (a) digunakan dalam pemilihan atribut test untuk menghindari bias terhadap atribut yang memiliki nilai unik (Moertini, 2007). Berdasarkan persamaan 2.10, 2.11, 2.12, nilai gain ratio yang diperoleh dari perhitungan manual menunjukkan atribut rerata SKS akan dijadikan sebagai atribut root node (simpul akar) pada decision tree. Berikut hasil gain ratio untuk simpul pertama dapat dilihat pada table 4.1.

68 52 Tabel 4.1. Hasil Nilai Gain Ratio Simpul pertama Tidak Banyak Atribut Kategori Tepat Tepat Entropy Kasus Waktu Waktu Total Kasus ,5339 Asal Sekolah Jenis Kelamin Shift Kuliah IP Sem 1 IP Sem 2 IP Sem 3 IP Sem 4 IP Sem 5 IP Sem 6 IP Sem 7 IP Sem 8 Rerata SKS IPK 1. Dalam Kota , Luar Kota , Pria , Wanita , Pagi , Sore , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , >= , >= , < , > , < , >= , >= , < , < ,8937 Gain Rasio 0,0036 0,0209 0,0611 0,0435 0,0433 0,0544 0,0341 0,0601 0,0729 0,0383 0,0462 0,1306 0,0349

69 53 Berikutnya, proses pengklasifikasi C4.5 yang dilakukan dengan rapidminer studio 6.5 diawali dengan penentuan dataset yang disimpan pada file microsoft excel Dalam penentuan dataset oleh rapidminer studio 6.5, beberapa pengaturan perlu dilakukan yaitu mengubah tipe dataset mahasiswa lulusan menjadi data nominal dan menentukan atribut sebagai label kelas. Pada pengklasifikasi C4.5, untuk mengatasi permasalahan overfitting menggunakan metode pemangkasan (prunning) yaitu pre prunning untuk menghasilkan model analisis yang optimal (Whitten et al, 2011). Pemangkasan (pruning) pada pohon (tree) yang dihasilkan dilakukan berdasarkan nilai confidence level yang mengecil (Ayub et al, 2014). Oleh karena itu akan dilakukan beberapa pengujian dengan nilai confidence level yang diubah ubah mulai dari 0.95, 0.50, 0.25 dan Untuk memperkirakan akurasi estimasi untuk setiap eksperimen, pengujian nilai X pada cross validation dilakukan pada data training dan data testing. Standar yang digunakan adalah stratified 10 fold cross-validation dianggap nilai yang tepat untuk mendapatkan error estimate yang optimal dan penggunaan stratified akan meningkatkan hasil sedikit demi sedikit serta 10 fold cross-validation tidak perlu sama sehingga dimungkinkan memiliki perbandingan 5:10 atau 20 fold (Whitten et al, 2011). Setiap eksperimen, nilai X-fold cross validation mulai dari 5, 10, 20 dan 30. Berikut hasil proses klasifikasi dengan rapidminer studio 6.5 seperti pada tabel 4.2. Tabel 4.2. Hasil Pengukuran tanpa Seleksi Atribut Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % 0.303

70 54 Dari eksperimen pertama yang dilakukan secara iteratif untuk tabel 4.2 nilai confidence level 0,95 dan 0,50 maupun 0,25 dan 0,10 dalam setiap 5, 10, 20, 30 fold cross-validation memiliki kecenderungan hasil yang sama. Nilai akurasi, presisi dan sensitivitas (recall) yang tertinggi dan RMSE (Root Mean Square Error) terendah dicapai dengan menerapkan confidence level = 0,1 atau 0,25 dan 20 fold-cross validation. Pengukuran berdasarkan 838 data kelas tepat waktu dan 116 data kelas tidak tepat waktu. Diperoleh 803 data yang diprediksi benar (TP) dan 35 data prediksi salah (FP) pada kelas tepat waktu dan 63 data diprediksi benar (TN) serta 53 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu. Berikutnya dihasilkan deskripsi tree dengan aplikasi rapidminer studio 6.5 pada confidence level 0,25 dan 20 fold-cross validation. Rerata = < 20 SHK = Pagi IP6 = <2.50 IP2 = <2.50: Tidak Tepat Waktu {Tepat Waktu=3, Tidak Tepat Waktu=26} IP2 = >=2.50: Tepat Waktu {Tepat Waktu=7, Tidak Tepat Waktu=5} IP6 = >=2.50 JK = Pria: Tidak Tepat Waktu {Tepat Waktu=11, Tidak Tepat Waktu=22} JK = wanita: Tepat Waktu {Tepat Waktu=37, Tidak Tepat Waktu=13} IP6 = >=3.00 IP8 = <2.50: Tidak Tepat Waktu {Tepat Waktu=0, Tidak Tepat Waktu=1} IP8 = >=2.50: Tepat Waktu {Tepat Waktu=12, Tidak Tepat Waktu=0} IP8 = >=3.00: Tepat Waktu {Tepat Waktu=30, Tidak Tepat Waktu=4} SHK = Sore IP5 = <2.50 IP2 = <2.50: Tepat Waktu {Tepat Waktu=51, Tidak Tepat Waktu=13} IP2 = >=2.50: Tepat Waktu {Tepat Waktu=20, Tidak Tepat Waktu=10} IP2 = >=3.00: Tidak Tepat Waktu {Tepat Waktu=1, Tidak Tepat Waktu=5} IP5 = >=2.50: Tepat Waktu {Tepat Waktu=52, Tidak Tepat Waktu=2} IP5 = >=3.00 IP8 = <2.50: Tidak Tepat Waktu {Tepat Waktu=0, Tidak Tepat Waktu=3} IP8 = >=2.50: Tepat Waktu {Tepat Waktu=4, Tidak Tepat Waktu=0}

71 55 IP8 = >=3.00: Tepat Waktu {Tepat Waktu=3, Tidak Tepat Waktu=0} Rerata = > 20: Tepat Waktu {Tepat Waktu=607, Tidak Tepat Waktu=12} Seleksi Fitur dengan DBFS Pada eksperimen kedua dimulai dengan menerapkan seleksi fitur menggunakan DBFS dalam penanganan ketidakseimbangan kelas dan untuk meningkatkan akurasi pengklasifikasi C4.5. Seleksi fitur dengan menggunakan DBFS bertujuan untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Skor fitur yang terendah akan memperoleh peringkat yang tertinggi. Perhitungan DBFS didefinisikan berdasarkan persamaan 2.1, 2.2, 2.3 dan 2.4. Hasil perhitungan DBFS pada dataset mahasiswa lulusan menggunakan aplikasi Xampp versi 2.4 ditunjukan pada gambar 4.1.

72 56 Gambar 4.1. Hasil perhitungan DBFS pada dataset mahasiswa lulusan Pada gambar 4.1. terlihat hasil estimasi Probability Density Function (PDF) untuk setiap fitur pada kelas mayoritas yaitu Cepat Waktu (CW) dan Tepat Waktu (TW) serta kelas minoritas yaitu Tidak Tepat Waktu (TTW) didataset mahasiswa lulusan berdasarkan frekwensi kategori fitur dibagi dengan jumlah instance setiap label kelas. Penilaian estimasi PDF akan semakin akurat jika jumlah instance pada kelas meningkat dan volume kategori dari suatu fitur menurun.

73 57 Berikutnya, nilai estimasi PDF digunakan untuk menemukan fitur andal dari kelas mayoritas dan minoritas. Fitur yang baik merupakan salah satu dari masing masing kelas memiliki overlapping minimum dari kelas yang tersisa. Hal tersebut berarti bahwa mencari keberadaan fitur mengacu pada nilai nilai yang diberikan pada masing masing instance kelas yang merupakan bagian terpisah dari instance kelas lainnya (alibeigi, 2013). Pada gambar 4.2 ditunjukkan area overlapping pada kelas mayoritas dan kelas minoritas pada dataset mahasiswa lulusan berdasarkan nilai minimum estimasi PDF pada satu label kelas dibandingkan nilai maksimum estimasi PFD label kelas lainnya. Gambar 4.2. Area Overlapping pada setiap Kelas Pada gambar 4.2. terlihat area overlapping atau tidak terjadinya pemisahan dari ruang fitur pada kelas mayoritas dan minoritas di dataset mahasiswa lulusan yang menyebabkan redudansi atau tidak relevannya fitur dalam proses klasifikasi. Ketika pola overlapping yang hadir di setiap kelas untuk beberapa ruang fitur, atau kadangkadang bahkan di semua ruang fitur, sangat sulit dalam menentukan ketentuan diskriminatif (discriminat ability) untuk memisahkan kelas (Ali et al, 2015). Overlapping terjadi pada area dimana jumlah nilai estimasi PDF dari setiap fitur pada kelas minoritas lebih besar dari kelas mayoritas. Dari hasil perhitungan nilai overlapping maka ditentukan nilai ketentuan diskriminan (discriminant ability). Rata rata nilai ketentuan diskriminan (discriminant ability) dari setiap fitur pada masing masing kelas dibagi dengan jumlah perubahan dijadikan acuan dalam menghitung skors setiap fitur. Dimana fitur

74 58 dengan skor terkecil merupakan peringkat tertinggi dalam perangkingan dan dapat direkomendasikan dalam proses pengklasifikasian C4.5. Berikut peringkat fitur ditunjukkan pada tabel 4.3. Tabel 4.3. Peringkat Atribut Peringkat Atribut / Fitur Skor 1 Rerata SKS Asal Sekolah Shift Kuliah Jenis Kelamin IP Sem IP Sem IP Sem IP Sem IP Sem IP Sem IP Sem IP Sem IPK Perangkingan fitur dataset mahasiswa lulusan yang baru pada tabel 4.3 akan direkomendasikan dengan menggunakan persentase moderat. Parameter untuk jumlah % (persentase) proporsi dari fitur yang akan diproses pada pengklasifikasi C4.5 yaitu 40 % (5 fitur), 60 % (8 fitur) dan 70 % (9 fitur) adalah milestone dari angka angka moderat antara 0 % sampai dengan 100 % (Jamhari et al, 2014). Pengujian menggunakan aplikasi rapidminer studio 6.5 dengan menggunakan pengaturan sesuai eksperimen pertama. Berikut hasil pengukuran proses klasifikasi dengan persentase moderat 40 % ditunjukkan pada tabel 4.4. sedangkan persentase moderat 60 % maupun persentase moderat 70 % ditunjukkan pada tabel 4.5 dan tabel 4.6.

75 59 Tabel 4.4. Hasil Pengukuran dengan DBFS (40 %) Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.5. Hasil Pengukuran dengan DBFS (60 %) Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.6. Hasil Pengukuran dengan DBFS (70 %) Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % 0.263

76 60 Dari ketiga tabel diatas, diketahui bahwa pengujian dengan menerapkan seleksi fitur DBFS persentase moderat 70 % yang direkomendasikan dari keseluruhan fitur serta nilai confidence level 0.25 dan 30 fold - cross validation menghasilkan akurasi tertinggi sebesar 91,09 % dan nilai keandalan RMSE yang terendah yaitu 0,262 jika dibandingkan dengan persentase moderat 40 % dan 60 %. Hasil pengukuran berdasarkan 838 data kelas Tepat Waktu (TW) dan 116 data kelas Tidak Tepat Waktu(TTW), diperoleh 811 data yang diprediksi benar (TP) dan 28 data prediksi salah (FP) pada kelas tepat waktu dan 59 data diprediksi benar (TN) serta 57 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu Seleksi Fitur dengan DBFS sebelum proses Adaboost Pada eksperimen ketiga, menggunakan dua seleksi fitur yang bertujuan untuk meningkatkan kinerja pengklasifikasi C4.5. Dimulai dengan menerapkan seleksi fitur menggunakan DBFS untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Hasil dari perangkingan fitur pada DBFS, maka persentase moderat sebesar 70 % hasil dari eksperimen kedua memiliki nilai akurasi tertinggi akan direkomendasikan pada algoritma adaboost. Seleksi fitur dengan adaboost dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan sehingga ditemukan fitur yang merupakan classifier yang kuat. Perhitungan Adaboost didefinisikan berdasarkan persamaan 2.5, 2.6, 2.7, 2.8 dan 2.9. Dari hasil seleksi fitur dengan adaboost ditunjukkan pada tabel 4.7, bahwa nilai H x sama dengan +1 adalah fitur yang layak direkomendasikan dan nilai H x sama dengan -1 adalah fitur yang tidak direkomendasikan pada pengklasifikasian. Hasil pengukuran eksperimen ketiga ditunjukkan pada tabel 4.8. Tabel 4.7. Hasil Seleksi Fitur dengan DBFS sebelum Adaboost

77 61 Tabel 4.8. Hasil Pengukuran dengan DBFS sebelum Adaboost Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % 91.85% % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.8 menunjukkan, dengan penerapan dua seleksi fitur pada pengklasifikasi C4.5 Akurasi semakin lebih membaik dari eksperimen sebelumnya menjadi 91,39 % pada saat pengujian dilakukan pada 30 fold-cross validation dan nilai confidence level sebesar 0,50. Begitu juga nilai RMSE semakin menurun menjadi 0,263. Pengukuran berdasarkan 838 data kelas tepat waktu dan 116 data kelas tidak tepat waktu. Diperoleh 815 data yang diprediksi benar (TP) dan 23 data prediksi salah (FP) pada kelas tepat waktu dan 63 data diprediksi benar (TN) serta 53 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu Seleksi Fitur dengan DBFS setelah proses Adaboost Pada eksperimen keempat dimulai dengan menerapkan seleksi fitur menggunakan adaboost untuk melakukan pembobotan pada setiap fitur yang direkomendasikan sehingga ditemukan delapan fitur yang merupakan classifier yang kuat dan selanjutnya dilakukan evaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur menggunakan DBFS. Hasil perangkingan seleksi fitur ditunjukkan pada tabel 4.9 sedangkan hasil pengukuran eksperimen keempat ditunjukkan pada tabel 4.10.

78 62 Tabel Hasil Seleksi Atribut dengan DBFS setelah Adaboost Peringkat Atribut / Fitur Skor 1 Rerata SKS Asal Sekolah Shift Kuliah Jenis Kelamin IP Sem IP Sem IP Sem IP Sem Tabel Hasil Pengukuran dengan DBFS setelah proses Adaboost Validasi Recall Presisi TP FP FN TN Akurasi Confidence TW TTW TW TTW RMSE 5 Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Fold % % % % % % % % % % Tabel 4.10 menunjukkan bahwa nilai akurasi tertinggi dengan menerapkan seleksi fitur DBFS setelah adaboost pada nilai confidence level 0,25 atau 0,50 pada 10 fold cross-validation yaitu sebesar 90,05 %. Terjadi penurunan akurasi dari ekperimen sebelumnya sebesar 1,34 %. Nilai RMSE juga semakin lebih buruk pada pengklasifikasi C4.5 menjadi sebesar 0,288 berdasarkan nilai confidence level 0,50 dan 20 fold cross-validation. Pengukuran berdasarkan 838 data kelas tepat waktu dan 116 data kelas tidak tepat waktu. Diperoleh 813 data yang diprediksi benar (TP) dan 25 data prediksi salah (FP) pada kelas tepat waktu dan 72 data diprediksi benar (TN) serta 44 data diprediksi tidak sesuai (FN) pada kelas tidak tepat waktu,

79 63 Dari beberapa hasil pengukuran yang dilakukan dapat disimpulkan bahwa peningkatan kinerja akurasi, presisi dan sensitivitas (recall) dan RMSE (keandalan) model C4.5, dipengaruhi dengan adanya penerapan seleksi fitur pada pengklasifikasi C4.5 dan penentuan jumlah fold-cross validation serta nilai confidence level. Artinya, jika nilai fold-cross validation dan nilai confidence level semakin besar maka nilai akurasi, presisi dan sensitivitas (recall) cenderung semakin meningkat dan nilai RMSE semakin kecil yang artinya akan semakin bagus kehandalan model C4.5 dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan Pembahasan Analisis Kinerja Pengklasifikasi C4.5 Pada bagian ini akan dibahas hasil pengukuran kinerja model sebelumnya. Berdasarkan pengukuran kinerja, diperoleh informasi tingkat kinerja meliputi kemampuan model classifier dalam mengklasifikasikan data secara umum (akurasi), besarnya presentase classifier dalam menebak dengan tepat kelas true positive dengan melihat perbandingan true positive yang dapat diprediksi dengan penjumlahan true positive dan false positive yang ada (presisi), serta sensitivitas (recall) yang merupakan ukuran tingkatan presentase classifier dapat mengenal contoh kelas positif (tepat waktu) berdasarkan jumlah true positive yang dapat diprediksi dengan benar berdasarkan contoh kelas positif dan RMSE pada dataset mahasiswa lulusan. Berikut ini disajikan perbandingan kinerja pengklasifikasi C4.5 tanpa seleksi fitur dan pengklasifikasi C4.5 dengan menerapkan seleksi fitur DBFS serta pengklasifikasi C4.5 dengan mengintegrasi seleksi fitur DBFS dengan adaboost berdasarkan X fold-cross validation dan nilai confidence level. Tabel 4.11 menyajikan hasil perbandingan kinerja pengklasifikasi C4.5 berdasarkan 5-fold cross validation dan 0,25 nilai confidence level.

80 64 Tabel Perbandingan Kinerja 5-fold dan Confidence level : 0.25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,31% 92,79% 95,23% 0,311 C4.5+DBFS(40%) 89,20% 91,34% 96,90% 0,287 C4.5+DBFS(60)%) 89,62% 92,92% 95,47% 0,292 C4.5+DBFS(70%) 89,10% 92,48% 93,35% 0,31 C4.5+DBFS+AB 89,62% 91,85% 96,78% 0,287 C4.5+AB+DBFS 88,99% 90,68% 97,49% 0,301 Tabel menunjukkan bahwa dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5 mampu meningkatkan kinerja nilai akurasi dan presisi. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan DBFS pada pengklasifikasi C4.5 tanpa harus menggunakan adaboost. Grafik perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 5-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.3 Gambar 4.3. Grafik Perbandingan Kinerja 5-fold dan Confidence Level 0,25 Pada gambar 4.3, terlihat bahwa kinerja model C4.5+DBFS+AB menghasilkan akurasi yang lebih baik dibandingkan model lainnya, hal ini menunjukkan bahwa model tersebut memiliki kemampuan lebih baik dalam mengklasifikasikan data secara umum (tepat waktu maupun tidak tepat waktu). sedangkan pada kinerja sensitivitas (recall) model C4.5+DBFS menghasilkan nilai sensitivitas lebih baik dan model

81 65 C4.5+AB+DBFS merupakan model yang menghasilkan nilai presisi yang lebih baik dibandingkan model lainnya. Untuk hasil perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 5-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel Tabel Perbandingan Kinerja 5-Fold dan Confidence Level : 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,20% 92,78% 95,11% 0,312 C4.5+DBFS(40%) 89,20% 91,34% 96,90% 0,287 C4.5+DBFS(60)%) 90,15% 93,16% 95,82% 0,286 C4.5+DBFS(70%) 88,99% 92,67% 94,99% 0,311 C4.5+DBFS+AB 90,25% 92,87% 96,30% 0,286 C4.5+AB+DBFS 89,20% 91,06% 97,26% 0,301 Tabel menunjukkan bahwa dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5 mampu meningkatkan kinerja nilai akurasi dan sensitivitas (recall). Pada kinerja nilai presisi meningkat dengan hanya menggunakan DBFS pada pengklasifikasi C4.5 tanpa harus menggunakan adaboost. Grafik perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 5-fold validation dan nilai confidence level = 0,5 ditunjukkan pada gambar 4.4. Gambar Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0,5

82 66 Pada gambar 4.4, terlihat bahwa kinerja model C4.5+DBFS+AB masih menghasilkan akurasi yang lebih baik dibandingkan model lainnya, hal ini menunjukkan bahwa model tersebut memiliki kemampuan lebih baik dalam mengklasifikasikan data secara umum (tepat waktu maupun tidak tepat waktu). sedangkan pada kinerja sensitivitas (recall) model C4.5+DBFS(60%) menghasilkan nilai sensitivitas lebih baik dan model C4.5+AB+DBFS merupakan model yang menghasilkan nilai presisi yang lebih baik dibandingkan model lainnya. Untuk hasil perbandingan kinerja pengklasifikasi C4.5 dengan menggunakan 10-fold validation dan nilai confidence level sebesar 0,25 ditunjukkan pada tabel Tabel Perbandingan Kinerja 10-Fold dan Confidence level 0,25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 88,37% 92,97% 94,63% 0,319 C4.5+DBFS(40%) 90,04% 92,65% 96,30% 0,276 C4.5+DBFS(60)%) 90,25% 92,77% 96,42% 0,287 C4.5+DBFS(70%) 90,04% 92,95% 95,94% 0,296 C4.5+DBFS+AB 90,35% 92,00% 97,49% 0,279 C4.5+AB+DBFS 90,05% 91,88% 97,26% 0,291 Tabel menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost.

83 67 Grafik perbandingan kinerja model C4.5 dengan menggunakan 10-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.5. Gambar 4.5. Grafik Perbandingan Kinerja 10 Fold dan Confidence Level 0,25 Pada gambar 4.5, terlihat bahwa kinerja model C4.5+DBFS+AB masih menghasilkan akurasi dan presisi yang lebih baik dibandingkan model lainnya, hal ini menunjukkan bahwa model tersebut memiliki kemampuan lebih baik dalam mengklasifikasikan data secara umum (tepat waktu maupun tidak tepat waktu). Sedangkan pada kinerja sensitivitas (recall), model C4.5 menghasilkan nilai sensitivitas lebih baik. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 10-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel Tabel Perbandingan Kinerja 10-fold dan confidence level 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 88,37% 92,61% 94,27% 0,319 C4.5+DBFS(40%) 90,67% 93,29% 96,30% 0,274 C4.5+DBFS(60)%) 90,36% 92,32% 96,30% 0,284 C4.5+DBFS(70%) 90,25% 93,16% 95,94% 0,294 C4.5+DBFS+AB 90,67% 92,41% 97,37% 0,279 C4.5+AB+DBFS 90,05% 92,07% 97,02% 0,291 Tabel menunjukkan bahwa dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang

84 68 direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5 mampu meningkatkan kinerja nilai akurasi dan presisi. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan DBFS pada pengklasifikasi C4.5 tanpa harus menggunakan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 10-fold validation dan nilai confidence level = 0, 5 ditunjukkan pada gambar 4.6 Gambar 4.6. Grafik Perbandingan Kinerja 10-Fold dan confidence level 0,5 Pada gambar 4.6, tingkat kinerja akurasi yang lebih baik pada model C4.5+DBFS(40%) dan C4.5+DBFS+AD yang cenderung sama tetapi untuk kinerja sesitivitas model C4.5+DBFS(40%) lebih baik sedangkan C4.5+DBFS+AD lebih dari model lain untuk kinerja presisi. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level sebesar 0,25 ditunjukkan pada tabel Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0,25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 90,78% 93,81% 95,82% 0,286 C4.5+DBFS(40%) 90,66% 93,00% 96,66% 0,272 C4.5+DBFS(60)%) 89,52% 93,08% 96,06% 0,285 C4.5+DBFS(70%) 89,94% 92,84% 95,94% 0,291 C4.5+DBFS+AB 90,67% 92,32% 97,49% 0,271 C4.5+AB+DBFS 89,73% 91,76% 97,02% 0,289

85 69 Tabel menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.7. Gambar 4.7. Grafik Perbandingan Kinerja 20-fold dan Confidence Level 0,25 Pada gambar 4.7. tingkat kinerja akurasi dan sensitivitas (recall) model C4.5 lebih baik dari model lainnya sedangkan untuk kinerja presisi model C4.5+DBFS+AD lebih baik dari yang lainnya. Pada pengujian 20-fold dan confidence level 0,25 bahwa dengan mereduksi fitur tidak meningkatkan kinerja akurasi dan sensitivitas pengklasifikasi C4.5. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel 4.16.

86 70 Tabel Perbandingan Kinerja 20-Fold dan Confidence Level 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 90,67% 93,90% 95,58% 0,285 C4.5+DBFS(40%) 90,87% 93,21% 96,66% 0,272 C4.5+DBFS(60)%) 90,46% 92,55% 96,30% 0,279 C4.5+DBFS(70%) 90,15% 93,16% 95,82% 0,29 C4.5+DBFS+AB 90,98% 92,82% 97,26% 0,269 C4.5+AB+DBFS 89,62% 91,85% 96,78% 0,288 Tabel juga menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 20-fold validation dan nilai confidence level = 0,5 ditunjukkan pada gambar 4.8. Gambar 4.8. Grafik Perbandingan Kinerja 20-Fold dan Confidence Level 0,5 Pada gambar 4.8 terlihat bahwa dengan menerapkan seleksi fitur terjadi peningkatan kembali tingkat kinerja akurasi dan sensitivitas (Recall). Dimana model C4.5+DBFS+AB lebih baik dari model lainnya sedangkan model C4.5+DBFS(4-%) memiliki kinerja presisi yang lebih baik dari model lainnya. Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level sebesar 0,25 ditunjukkan pada tabel 4.17.

87 71 Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0,25 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,61% 93,52% 94,75% 0,301 C4.5+DBFS(40%) 90,45% 93,18% 96,18% 0,274 C4.5+DBFS(60)%) 90,03% 92,55% 96,46% 0,26 C4.5+DBFS(70%) 91,09% 93,33% 96,78% 0,262 C4.5+DBFS+AB 90,77% 92,33% 97,61% 0,265 C4.5+AB+DBFS 88,90% 91,40% 96,42% 0,293 Tabel menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dapat dilakukan dengan menentukan fitur yang bermanfaat menggunakan DBFS. Untuk meningkatkan kinerja nilai presisi dilakukan dengan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level = 0,25 ditunjukkan pada gambar 4.9. Gambar 4.9 Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0,25 Pada gambar 4.9, terlihat bahwa model C4.5+DBFS (70%) memiliki kinerja akurasi lebih baik dari model lainnya dan untuk sensitivitas (Recall) pengklasifikasi C4.5 lebih baik dari model lain sedangkan model C4.5+DBFS+AB memiliki kinerja presisi lebih baik dari lainnya.

88 72 Untuk hasil perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level sebesar 0,5 ditunjukkan pada tabel 4.18 Tabel Perbandingan Kinerja 30-Fold dan Confidence Level 0,5 Model Kinerja Akurasi Recall Presisi RMSE C4.5 89,51 93,62 94,51 0,303 C4.5+DBFS(40%) 90,45 93,18 96,18 0,274 C4.5+DBFS(60)%) 90,66 93,29 96,3 0,264 C4.5+DBFS(70%) 91,09 93,53 96,54 0,263 C4.5+DBFS+AB 91,39 92,95 97,61 0,263 C4.5+AB+DBFS 88,9 91,59 96,18 0,293 Tabel juga menunjukkan bahwa untuk meningkatkan kinerja nilai akurasi dan presisi dengan terlebih dahulu menentukan fitur yang bermanfaat menggunakan DBFS dan memberikan bobot pada fitur yang direkomendasikan agar ditemukan fitur yang merupakan classifier yang kuat menggunakan adaboost pada pengklasifikasi C4.5. Pada kinerja nilai sensitivitas (recall) meningkat dengan hanya menggunakan pengklasifikasi C4.5 tanpa harus menggunakan DBFS dan adaboost. Grafik perbandingan kinerja model C4.5 dengan menggunakan 30-fold validation dan nilai confidence level = 0,5 ditunjukkan pada gambar Gambar Grafik Perbandingan Kinerja 30-Fold dan Confidence Level 0,5 Pada gambar 4.10 menunjukkan bahwa model C4.5+DBFS+AB memiliki kinerja akurasi dan presisi yang lebih baik dari model lainnya sedangkan model C4.5+DBFS(70%) memiliki presisi lebih baik dari model lainnya.

89 73 Dari analisis perbandingan kinerja pada model prediksi kelulusan mahasiswa menunjukkan bahwa kecenderungan jika jumlah X-fold cross-validation semakin besar maka kinerja nilai akurasi dan nilai presisi juga meningkat, sementara nilai sensitivitas (recall) juga akan meningkat, apabila pengklasifikasi C4.5 tidak dikombinasikan dengan DBFS maupun adaboost. Sehingga terdapat model prediksi kelulusan mahasiswa yang memiliki kinerja lebih baik dari pengklasifikasi C4.5. Dengan demikian, kinerja pengklasifikasi C4.5 masih bisa ditingkatkan untuk memperbaiki model prediksi kelulusan mahasiswa Estimasi Kinerja Pengklasifikasi C4.5 pada Prediksi Kelulusan Mahasiswa Pada bagian ini akan dibahas penilaian hasil pengukuran kinerja model untuk menentukan model mana yang memiliki kinerja terbaik. Untuk dataset tidak seimbang, akurasi lebih didominasi oleh ketepatan pada data kelas minoritas, maka metrik yang tepat adalah Area Under the ROC (Receiver Operating Characteristic) Curve (Kurva AUROC atau AUC) (Wang & Yao, 2013). AUC merupakan ukuran kinerja yang popular dalam ketidakseimbangan kelas, nilai AUC yang tinggi menunjukkan kinerja yang lebih baik (Liu & Zhou, 2013). Hasil pengukuran yang lebih baik dari setiap eksperimen untuk kurva ROC dari kinerja model C4.5 tanpa seleksi fitur dengan dataset mahasiswa lulusan ditunjukkan pada gambar 4.11 sedangkan kinerja model C4.5 dengan menerapkan seleksi fitur DBFS persentase 40 %, 60%, 70% ditunjukkan pada gambar 4.12 sampai dengan gambar 4.14 dan kinerja model C4.5 dengan menerapkan seleksi fitur DBFS sebelum adaboost ditunjukkan pada gambar 4.15 dan kinerja model C4.5 dengan seleksi fitur DBFS setelah adaboost ditunjukkan pada gambar Gambar Kurva ROC model C4.5 tanpa seleksi fitur

90 74 Gambar menunjukkan kurva ROC kinerja model C4.5 tanpa seleksi fitur pada pengujian 20-fold dan confidence level 0,25 maka nilai AUC (Area Under Curve) sebesar 0,79. Maka tingkat akurasi didiagnosa sebagai klasifikasi sedang (Fair classification). Gambar Kurva ROC model C4.5 dengan seleksi fitur DBFS (40%) Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS (40 %) pada pengujian 20-fold dan confidence level 0,5 maka nilai AUC (Area Under Curve) sebesar 0,80. Maka tingkat akurasi didiagnosa sebagai klasifikasi baik (Good classification). Gambar Kurva ROC Model C4.5 dengan Seleksi Fitur DBFS (60 %)

91 75 Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS (60 %) pada pengujian 30-fold dan confidence level 0,5 maka nilai AUC (Area Under Curve) sebesar 0,79. Maka tingkat akurasi didiagnosa sebagai klasifikasi sedang (Fair classification). Gambar Model C4.5 dengan Seleksi Fitur DBFS (70 %) Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS (70 %) pada pengujian 30-Fold dan Confidence Level 0,5 maka nilai AUC (Area Under Curve) sebesar 0,80. Maka tingkat akurasi didiagnosa sebagai klasifikasi baik (Good classification). Gambar Kurva ROC Model C4.5 dengan Seleksi Fitur DBFS sebelum Adaboost

92 76 Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS sebelum adaboost pada pengujian 30-Fold dan Confidence Level 0,5 dimana nilai A4UC (Area Under Curve) sebesar 0,81. Maka tingkat akurasi didiagnosa sebagai klasifikasi baik (Good Classification). Gambar Kurva ROC Model C4.5 dengan Seleksi Fitur DBFS setelah Adaboost Gambar menunjukkan kurva ROC kinerja model C4.5 dengan seleksi fitur DBFS setelah adaboost pada pengujian 10-fold dan confidence level 0,25 dimana nilai AUC (Area Under Curve) sebesar 0,79. Maka tingkat akurasi didiagnosa sebagai klasifikasi sedang (Fair Classification). Berikut hasil rekapitulasi nilai AUC ditunjukkan pada tabel 4.19 dan grafik rekapitulasi nilai AUC ditunjukkan pada gambar 4.17 Tabel Rekapitulasi Nilai AUC Eksperimen Model Nilai AUC Keterangan 20 Fold, CL : 0,25 C4.5 0,79 Fair Classification 20 Fold, CL : 0,50 C4.5+DBFS(40%) 0,8 Good Classification 30 Fold, CL : 0,50 C4.5+DBFS(60)%) 0,79 Fair Classification 30 Fold, CL : 0,50 C4.5+DBFS(70%) 0,8 Good Classification 30 Fold, CL : 0,50 C4.5+DBFS+AB 0,83 Good Classification 10 Fold, CL : 0,25 C4.5+AB+DBFS 0,79 Fair Classification

93 77 Gambar Grafik Rekapitulasi Nilai AUC Pada gambar 4.17 menunjukkan bahwa model C.45+DBFS+AB lebih baik dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan dengan tingkat diagnosa adalah klasifikasi baik (Good Classification). Sedangkan pengklasifikasi C4.5 memiliki tingkat diagnosa klasifikasi sedang (Fair Classification). Hal ini menunjukkan bahwa dengan menerapkan seleksi fitur dan proses boosting pada pengklasifikasi C4.5 dapat menangani permasalahan ketidakseimbangan kelas pada dataset mahasiswa lulusan.

Menunjukkan lagi