SKRIPSI ANALISIS PERBANDINGAN ALGORITMA ID3 DAN C4.5 UNTUK KLASIFIKASI PENERIMA HIBAH PEMASANGAN SAMBUNGAN AIR MINUM PADA PDAM KABUPATEN KENDAL

SKRIPSI ANALISIS PERBANDINGAN ALGORITMA ID3 DAN C4.5 UNTUK KLASIFIKASI PENERIMA HIBAH PEMASANGAN SAMBUNGAN AIR MINUM PADA PDAM KABUPATEN KENDAL COMPARATIVE ANALYSIS OF ALGORITHM ID3 AND C4.5 FOR CLASSIFICATION RECIPIENTS GRANT INSTALLATION DRINKING WATER IN PDAM KABUPATEN KENDAL Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik Informatika Disusun oleh : Nama : Dana Melina Agustina NIM : A11.2012.07023 Program Studi : Teknik Informatika S1 FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2016

PERSETUJUAN SKRIPSI Nama : Dana Melina Agustina NIM : A11.2012.07023 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : Analisis Perbandingan Algoritma ID3 dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Sambungan Air Minum Pada PDAM Kabupaten Kendal Tugas Akhir ini telah diperiksa dan disetujui, Semarang, 20 Juni 2016 Menyetujui: Pembimbing Mengetahui : Dekan Fakultas Ilmu Komputer Wijanarto, M.Kom Dr. Abdul Syukur, MM ii

PENGESAHAN DEWAN PENGUJI Nama : Dana Melina Agustina NIM : A11.2012.07023 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : Analisis Perbandingan Algoritma ID3 dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Sambungan Air Minum Pada PDAM Kabupaten Kendal Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir tanggal 20 Juni 2016. Menurut pandangan kami, tugas akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom.) Semarang, 20 Juni 2016 Dewan Penguji : Umi Rosyidah, S.Kom, M.T Anggota I Aisyatul Karima, S.Kom, MCS Anggota II Heru Agus Santoso, Ph.D Ketua Penguji iii

PERNYATAAN KEASLIAN SKRIPSI Sebagai mahasiswa Universitas Dian Nuswantoro yang bertandatangan dibawah ini, saya : Nama : Dana Melina Agustina NIM : A11.2012.07023 Menyatakan bahwa karya tulis ilmiah saya yang berjudul : Analisis Perbandingan Algoritma ID3 dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Sambungan Air Minum Pada PDAM Kabupaten Kendal Merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : 20 Juni 2016 Yang menyatakan (Dana Melina Agustina) iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya: Nama : Dana Melina Agustina NIM : A11.2012.07023 demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul: Analisis Perbandingan Algoritma ID3 dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Sambungan Air Minum Pada PDAM Kabupaten Kendal. Dengan Hak Bebas Royalti Non-Eksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : 20 Juni 2016 Yang menyatakan (Dana Melina Agustina) v

UCAPAN TERIMA KASIH Dengan memanjatkan puji syukur kehdirat Allah SWT. Tuhan Yang Maha Pengasih dan Maha Penyayang yang telah melimpahkan segala rahmat, hidayah dan inayah-nya kepada penulis sehingga laporan tugas akhir dengan judul ANALISIS PERBANDINGAN ALGORITMA ID3 DAN C4.5 UNTUK KLASIFIKASI PENERIMA HIBAH PEMASANGAN SAMBUNGAN AIR MINUM PADA PDAM KABUPATEN KENDAL dapat penulis selesaikan sesuai dengan rencana karena dukungan dari berbagai pihak yang tidak ternilai besarnya. Oleh karena itu penulis menyampaikan terima kasih kepada : 1. Dr.Ir.Edi Noersasongko, M.Kom., selaku Rektor Universitas Dian Nuswantoro Semarang. 2. Dr.Abdul Syukur, selaku Dekan Fakultas Ilmu Komputer Unversitas Dian Nuswantoro. 3. Heru Agus Santoso, Ph.D selaku ka. Progdi Teknik Informatika. 4. Wijanarto, M.Kom selaku dosen pembimbing yang telah memberikan bimbingan kepada penulis dalam menyusun laporan tugas akhir ini. 5. Dosen-dosen pengampu di Fakultas Ilmu Komputer Teknik Informatika Universitas Dian Nuswantoro Semarang yang telah memberikan banyak ilmu. 6. Bapak, Ibu, Adek Putri, Adek Hashfi yang tidak pernah lelah memberikan doa serta dorongan kepada penulis untuk maju dan terus berusaha. 7. Direksi dan semua staf PDAM Kabupaten Kendal yang telah memberikan data-data untuk keperluan penyusunan tugas akhir. 8. Sahabat-sahabat dan teman-teman penulis yang selalu memberikan semangat dan dorongan untuk terus berusaha. Semoga laporan tugas akhir ini dapat memperluas wawasan dan pengetahunan yang bermanfaat dan berguna sebagaimana fungsinya. Semarang, 20 Juni 2016 Penulis vi

ABSTRAK Program hibah air minum bertujuan untuk meningkatkan cakupan pelayanan air minum yang diprioritaskan bagi masyarakat berpenghasilan rendah dalam rangka meningkatkan derajat kualitas kesehatan masyarakat. Pengklasifikasian data masyarakat berperan untuk menentukan pemberian sambungan air minum secara objektif dan akurat. Dalam penelitian ini dilakukan perbandingan metode data mining yaitu algoritma ID3 dan C4.5 yang diterapkan pada data masyarakat berpenghasilan rendah pada PDAM Kabupaten Kendal dengan menggunakan RapidMiner. Hasil pengujian yang menunjukkan bahwa algoritma ID3 nilai akurasi sebesar 98,91%. Sedangkan pada algoritma C4.5 nilai accuracy sebesar 99,14%. Jadi algoritma C4.5 memiliki tingkat akurasi yang lebih besar dari pada algoritma ID3. Sehingga pada kasus penerima hibah pemasangan sambungan air minum diterapkan pada framework php dapat menentukan penerima hibah pemasangan sambungan air minum dengan menggunakan acuan pada algoritma C4.5 yang memiliki akurasi yang lebih baik. Kata kunci : Klasifikasi, ID3, C4.5, hibah air minum. vii

DAFTAR ISI PERSETUJUAN SKRIPSI... ii PENGESAHAN DEWAN PENGUJI... iii PERNYATAAN KEASLIAN SKRIPSI... iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS... v UCAPAN TERIMA KASIH... vi ABSTRAK... vii DAFTAR ISI... viii DAFTAR GAMBAR... x DAFTAR TABEL... xii BAB I PENDAHULUAN... 1 1. 1 Latar Belakang... 1 1. 2 Rumusan Masalah... 3 1. 3 Batasan Masalah... 3 1. 4 Tujuan Penelitian... 4 1. 5 Manfaat Penelitian... 4 BAB II TINJAUAN STUDI DAN LANDASAN TEORI... 5 2. 1 Tinjauan Studi... 5 2. 2 Landasan Teori... 8 2. 2. 1 Pengertian Hibah Air Minum... 8 2. 2. 2 Data Mining... 9 2. 2. 3 Decision Tree... 11 2. 2. 4 Klasifikasi... 14 2. 2. 5 Algoritma ID3... 15 2. 2. 6 Algoritma C4.5... 17 2. 2. 7 Confusion Matrix... 18 2. 3 Tinjauan Objek Penelitian... 20 2. 4 Kerangka Pemikiran... 21 viii

ix BAB III METODE PENELITIAN... 23 3.1 Instrumen penelitian... 23 3.1.1 Bahan... 23 3.1.2 Peralatan... 23 3.2 Prosedur pengambilan atau pengumpulan data... 24 3.3 Teknik analisis data (cara pengolahan data awal)... 25 3.4 Model atau metode yang diusulkan... 28 3.4.1 Tahapan Algoritma ID3... 29 3.4.2 Tahapan Rapid Miner pada Algoritma ID3... 30 3.4.3 Tahapan Algoritma C4.5... 31 3.4.4 Tahapan Rapid Miner pada Algoritma C4.5... 32 3.5 Evaluasi dan Validasi... 33 BAB IV HASIL DAN ANALISIS... 35 4. 1. Perhitungan Algoritma... 35 4. 1. 1 Perhitungan Algoritma ID3... 35 4. 1. 2 Perhitungan Algoritma C4.5... 47 4. 2. Evaluasi dan Validasi... 62 4. 3. Hasil Pengujian... 65 4. 3. 1. Pohon Keputusan... 65 4. 3. 2. Confusion Matrix... 66 4. 4. Analisis Hasil... 78 4. 5. Prototype... 83 BAB V KESIMPULAN DAN SARAN... 86 5. 1 Kesimpulan... 86 5. 2 Saran... 87 DAFTAR PUSTAKA... 88 Lampiran 1 Data Masyarakat Berpenghasilan Rendah 2015... 90

DAFTAR GAMBAR Gambar 2. 1: Data mining sebagai langkah dalam proses Knowledge Discovery 10 Gambar 2. 2: Model Pohon Keputusan... 12 Gambar 3. 1: Sebelum Penghapusan Atribut... 25 Gambar 3. 2: Setelah Penghapusan Atribut... 26 Gambar 3. 3: Penggabungan database... 27 Gambar 3. 4: Dataset MBR... 30 Gambar 3. 5: Dataset MBR... 32 Gambar 4. 1: Node 1 Algoritma ID3... 42 Gambar 4. 2: Node 1.1 Algoritma ID3... 44 Gambar 4. 3: Node 1.1.1 Algoritma ID3... 45 Gambar 4. 4: Node 1.1.1.1 Algoritma ID3... 47 Gambar 4. 5: Node 1 Algoritma C4.5... 56 Gambar 4. 6: Node 1.1 Algoritma C4.5... 58 Gambar 4. 7: Node 1.1.1 Algoritma C4.5... 59 Gambar 4. 8: Node 1.1.1.1 Algoritma C4.5... 61 Gambar 4. 9: Import Data... 63 Gambar 4. 10: Model Cross Validation pada Algoritma ID3... 63 Gambar 4. 11: Pengujian Cross Validation pada Algoritma ID3... 63 Gambar 4. 12: Model Cross Validation pada Algoritma C4.5... 64 Gambar 4. 13: Pengujian Cross Validation pada Algoritma C4.5... 64 Gambar 4. 14: Pohon Keputusan ID3... 65 Gambar 4. 15: Pohon Keputusan Algoritma C4.5... 66 Gambar 4. 16: Pengujian 50% dari Algoritma ID3... 67 Gambar 4. 17: Pengujian 50% dari Algoritma C4.5... 67 Gambar 4. 18: Pengujian 60% dari Algoritma ID3... 68 Gambar 4. 19: Pengujian 40% dari Algoritma ID3... 69 Gambar 4. 20: Pengujian 60% dari Algoritma C4.5... 69 Gambar 4. 21: Pengujian 40% dari Algoritma C4.5... 70 Gambar 4. 22: Pengujian 70% dari Algoritma ID3... 70 x

xi Gambar 4. 23: Pengujian 30% dari Algoritma ID3... 71 Gambar 4. 24: Pengujian 70% dari Algoritma C4.5... 72 Gambar 4. 25: Pengujian 30% dari Algoritma C4.5... 72 Gambar 4. 26: Pengujian 80% dari Algoritma ID3... 73 Gambar 4. 27: Pengujian 20% dari Algoritma ID3... 73 Gambar 4. 28: Pengujian 80% dari Algoritma C4.5... 74 Gambar 4. 29: Pengujian 20% dari Algoritma C4.5... 74 Gambar 4. 30: Pengujian 90% dari Algoritma ID3... 75 Gambar 4. 31: Pengujian 10% dari Algoritma ID3... 76 Gambar 4. 32: Pengujian 90% dari Algoritma C4.5... 76 Gambar 4. 33: Pengujian 10% dari Algoritma C4.5... 77 Gambar 4. 34: Grafik Precision... 79 Gambar 4. 35: Grafik Recall... 80 Gambar 4. 36: Grafik Accuracy... 81 Gambar 4. 37: Pohon Keputusan Dari Algoritma Tertinggi... 82 Gambar 4. 38 : Prototype... 83 Gambar 4. 39: Pengisian Data... 84 Gambar 4. 40: Hasil Keputusan... 84

DAFTAR TABEL Tabel 2. 1: State Of The Art... 6 Tabel 2. 2: Confusion Matrix 2 Kelas... 19 Tabel 2. 3: Kerangka Pemikiran... 21 Tabel 3. 1: Atribut yang akan digunakan dalam pemodelan... 28 Tabel 4. 1: Perhitungan ID3 Node 1... 41 Tabel 4. 2: Perhitungan ID3 Node 1.1... 43 Tabel 4. 3: Perhitungan ID3 Node 1.1.1... 44 Tabel 4. 4: Perhitungan ID3 Node 1.1.1.1... 46 Tabel 4. 5: Perhitungan C4.5 Node 1... 55 Tabel 4. 6: Perhitungan C4.5 Node 1.1... 57 Tabel 4. 7: Perhitungan C4.5 Node 1.1.1... 58 Tabel 4. 8: Perhitungan C4.5 Node 1.1.1.1... 60 Tabel 4. 9: Perbandingan hasil klasifikasi dari data training... 77 Tabel 4. 10 : Perbandingan hasil klasifikasi dari data testing... 78 xii

BAB I PENDAHULUAN 1. 1 Latar Belakang Program Hibah Air Minum adalah suatu upaya percepatan penambahan jumlah sambungan rumah (SR) baru berdasarkan kinerja yang terukur. Program Hibah Air Minum yang dimaksud disini adalah pemberian hibah dari pemerintah pusat kepada pemerintah daerah baik yang bersumber dari pendapatan murni APBN atau pinjaman dan /atau hibah luar negeri. Hibah air minum ini dimaksudkan juga sebagai insentif kepada pemprov atau pemkab/pemkot untuk dapat melaksanakan peran dan tanggung jawabnya dalam penyelenggaraan penyebaran pelayanan air minum di daerahnya [1]. PDAM merupakan instansi yang akan melaksanakan program hibah air minum yaitu dengan pemasangan sambungan air minum kepada Masyarakat Berpenghasilan Rendah (MBR) yang menjadi sasaran pada program tersebut. Program hibah air minum bertujuan untuk meningkatkan cakupan pelayanan air minum yang diprioritaskan bagi masyarakat berpenghasilan rendah dalam rangka meningkatkan derajat kualitas kesehatan masyarakat. Berdasarkan proposal Program Hibah Air Minum APBN Februari 2015, pada PDAM ke pemerintah pusat, bahwa pemberian pemasangan sambungan air minum merupakan bantuan dari pemerintah pusat yang terdapat 1473 masyarakat yang akan direkomendasikan untuk mendapatkan pemasangan sambungan air minum. Adapun yang mendapatkan pemasangan sambungan air minum 1223 masyarakat, sedangkan yang gagal mendapatkan sebanyak 250 masyarakat. Dalam pemberian pemasangan sambungan air minum pada masyarakat dilihat 1

2 dari daya listrik yang digunakan, fasilitas, bangunan rumah, dan kesediaan menjadi pelanggan. Pengklasifikasian data masyarakat berperan untuk menentukan pemberian sambungan air minum secara objektif dan akurat. Salah satu metode yang akan digunakan yaitu dengan data mining. Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) [2]. Mengklasifikasi calon penerima sambungan air minum dapat dikategorikan sebagai tindakan pengambilan keputusan. Salah satu metode pengambilan keputusan yang sistematis adalah dengan menyusun sebuah pohon keputusan (decision tree). Pohon keputusan merupakan representasi sederhana dari teknik klasifikasi untuk sejumlah kelas berhingga, dimana simpul internal maupun simpul akar ditandai dengan nama atribut, dan simpul daun ditandai dengan kelaskelas yang berbeda [2]. Menurut penelitian Yadav dan Pal [3] bahwa klasifikasi Decision Tree dilakukan untuk menemukan klasifikasi terbaik untuk prediksi kinerja siswa di tahun pertama ujian. Pada penelitian yang dilakukan Adhatrao [4] bahwa prediksi siswa disemester pertama menggunakan algoritma ID3 menunjukkan tingkat akurasi 75.145%, sedangkan dengan algoritma C4.5 menunjukkan tingkat akurasi 75.145%. Menurut penelitian Sharma dan Sahni [5] dalam klasifikasi data spam email, untuk menentukan apakah email tertentu termasuk spam atau tidak. Pada algoritma J48 memiliki akurasi tertinggi 92,7624%, sedangkan pada algoritma ID3 menunjukkan akurasi 89.111%. Berdasarkan studi literatur diatas, penelitian ini akan mengimplementasikan metode data mining untuk membangun model klasifikasi masyarakat berpenghasilan rendah untuk penerima

3 pemasangan sambungan air minum pada program hibah air minum di PDAM Kabupaten Kendal. Metode yang digunakan adalah metode Decision Tree dengan menggunakan algoritma ID3 dan C4.5. Metode ini dipilih karena berdasarkan penelitian sebelumnya memiliki konsep yang mudah di interpretasikan hasilnya, serta akan membandingkan algoritma ID3 dan C4.5 mana yang memiliki tingkat akurasi yang lebih tinggi pada klasifikasi penerima hibah pemasangan air minum. Data yang akan digunakan dalam klasifikasi ini yaitu data masyarakat penerima hibah pemasangan sambungan air minum pada tahun 2015. Hasil dari Decision Tree mengklasifikasikan menerima atau tidak menerima hibah pemasangan sambungan air minum. 1. 2 Rumusan Masalah Berdasarkan latar belakang diatas dapat diambil sebuah rumusan masalah yaitu : 1. Bagaimana perbandingan algoritma ID3 dan C4.5 berdasarkan data masyarakat berpenghasilan rendah dalam mendapatkan hibah pemasangan sambungan air minum. 2. Bagaimana menentukan penerima hibah pemasangan sambungan air minum berdasarkan analisis perbandingan algoritma ID3 dan C4.5 dengan memilih akurasi yang lebih tinggi. 1. 3 Batasan Masalah Adapun batasan masalah dalam penelitian ini, yaitu : 1. Dataset merupakan data masyarakat berpenghasilan rendah tahun 2015 pada PDAM Kabupaten Kendal. 2. Penelitian ini dibatasi pada penerapan algoritma ID3 dan C4.5 untuk klasifikasi masyarakat berpenghasilan rendah untuk menentukan penerima hibah pemasangan sambungan air minum yang tepat sasaran. 3. Output yang dihasilkan berupa hasil keputusan.

4 1. 4 Tujuan Penelitian Tujuan dari penelitian ini adalah : 1. Ingin mengetahui perbedaan tingkat akurasi algoritma ID3 dan C4.5 untuk kasus masyarakat berpenghasilan rendah dalam mendapatkan hibah pemasangan sambungan air minum pada PDAM. 2. Untuk menentukan penerima hibah pemasangan sambungan air minum berdasarkan algoritma yang mempunyai tingkat akurasi yang lebih tinggi. 1. 5 Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah : 1. Dapat mengetahui tingkat akurasi algoritma ID3 dan C4.5 untuk kasus masyarakat berpenghasilan rendah dalam mendapatkan hibah pemasangan sambungan air minum. 2. Dapat menentukan penerima hibah pemasangan sambungan air minum secara objektif dan akurat berdasarkan algoritma yang mempunyai tingkat akurasi yang lebih tinggi.

BAB II TINJAUAN STUDI DAN LANDASAN TEORI 2. 1 Tinjauan Studi Penelitian yang berhubungan dengan penelitian ini adalah : a. Penelitian yang dilakukan oleh Surjeet Kumar Yadav [3], yang menjelaskan metode klasifikasi yang diterapkan pada data pendidikan untuk memprediksi kinerja siswa. Prediksi ini untuk mengidentifikasi siswa yang lemah dan membantu untuk mendapat nilai yang lebih baik. Algoritma C4.5, ID3, dan CART yang akan digunakan untuk memprediksi kinerja siswa dalam ujian akhir. Hasil dari pohon keputusan diprediksi nomor siswa yang cenderung untuk lulus, gagal atau dipromosikan ke tahun depan. Dari akurasi pengklasifikasi bahwa algoritma ID3 tingkat akurasi 62.2222%, untuk algoritma C4.5 tingkat akurasinya 67.7778%, sedangkan tingkat akurasi algoritma CART yaitu 62.2222%. Sehingga algoritma C4.5 mempunyai tingkat akurasi 67.7778% dibandingakan dengan metode lain. b. Penelitian yang dilakukan oleh Kalpesh Adhatrao [4], yang memprediksi kinerja siswa dengan menggunakan algoritma ID3 dan C4.5. Dengan menganalisis siswa yang terdaftar pada tahun pertama. Data yang digunakan termasuk nama lengkap, jenis kelamin, ID, nilai kelas X dan XII, nilai ujian masuk, kategori dan jenis permintaan. Hasil dari prediksinya menunjukkan bahwa algoritma ID3 dengan total 173 siswa yang menghasilkan prediksi benar terdapat 130 siswa, tingkat akurasinya 75.145% dengan waktu 47.6 milisekon. Sedangkan pada algoritma C4.5 dengan data pengujian yang sama yaitu 173 siswa yang benar prediknya 130 siswa dengan tingkat akurasi 75.145% pada waktu 39.1 milisekon. 5

6 c. Penelitian yang dilakukan oleh Aman Kumar Sharma [5], yang menjelaskan tentang metode klasifikasi untuk menentukan apakah email tertentu termasuk spam atau tidak, dengan bantuan alat data mining yang disebut dengan WEKA. Metode klasifikasi yang digunakan yaitu ID3, J48, SimpleCART, dan ADTree. Klasifikasi data mining membuat hubungan antara variabel output dan variabel input dengan memetakan titik data, maksudnya mengidentifikasi objek sebagai kelas tertentu misalnya apakah email tertentu adalah spam atau non-spam. Hasil akurasi pada algoritma J48 memiliki tingkat akurasi yang tertinggi (92,7624%) dimana memiliki 4.268 data dengan klasifikasi benar, 333 kasus telah diklasifikasikan salah. Klasifikasi kedua tertinggi akurasi untuk algoritma CART adalah 92,632% dimana 4.262 kasus telah diklasifikasikan benar. Selain itu ADTree menunjukkan akurasi 90,915%. Algoritma ID3 hasil klasifikasi terendah yaitu 89,111%. Rangkuman dari penelitian penelitian yang sebelumnya sudah dilakukan yaitu sebagai berikut : Tabel 2. 1: State Of The Art No Publication Masalah Metode Hasil 1 S.K. Yadav and S.pal, Untuk ID3, C4.5 algoritma ID3 tingkat Data Mining: A memprediksi dan CART akurasi 62.2222%, untuk Prediction for kinerja siswa algoritma C4.5 tingkat Performance dalam ujian akurasinya 67.7778%, Improvement of akhir, dengan sedangkan tingkat akurasi Engineering Students mengidentifika algoritma CART yaitu Using Clasification, si siswa yang 62.2222%. Sehingga World od Computer lemah dan algoritma C4.5 mempunyai Science and membantu tingkat akurasi 67.7778% Information untuk dibandingakan dengan

7 Technology Journal peningkatan metode lain. (WCSIT), Vol. 2, 51- siswa. 56, ISSN : 2221-0741, 2012 2 K. Adhatrao, A. Untuk ID3 dan Hasil dari prediksinya Gaykar, A. Dhawan, memprediksi C4.5 menunjukkan bahwa R. Jha, and V. kinerja siswa algoritma ID3 dengan total Honrao, Predicting terdaftar pada 173 siswa yang Students Performance tahun pertama. menghasilkan prediksi benar Using ID3 and C4.5 terdapat 130 siswa, tingkat Clasification akurasinya 75.145% dengan Algorithms, waktu 47.6 milisekon. International Journal Sedangkan pada algoritma of Data Mining & C4.5 dengan data pengujian Knowledge yang sama yaitu 173 siswa Management Process yang benar prediknya 130 (IJDKP), Vol.3, No.5, siswa dengan tingkat September 2013 akurasi 75.145% pada waktu 39.1 milisekon 3 A.K. Sharma and Klasifikasi ID3, CART, Hasil akurasi pada algoritma S.Sahni, A untuk ADTree, J48 memiliki tingkat akurasi Comparative Study of menentukan dan J48, yang tertinggi (92,7624%) Classification apakah email dimana memiliki 4.268 data Algorithms for Spam tertentu dengan klasifikasi benar, Email Data Analysis, termasuk spam 333 kasus telah International Journal atau tidak, diklasifikasikan salah. on Computer Science dengan Klasifikasi kedua tertinggi and Engineering bantuan alat akurasi untuk algoritma (IJCSE), Vol. 3, No. data mining CART adalah 92,632% 3, ISSN : 0975-3397, yang disebut dimana 4.262 kasus telah

8 May 2011 dengan WEKA. diklasifikasikan benar. Selain itu ADTree menunjukkan akurasi 90,915%. Algoritma ID3 hasil klasifikasi terendah yaitu 89,111%. 2. 2 Landasan Teori 2. 2. 1 Pengertian Hibah Air Minum Pengertian Hibah adalah pemberian yang dilakukan oleh seseorang kepada pihak lain yang dilakukan ketika masih hidup dan pelaksanaan pembagiannya biasanya dilakukan pada waktu penghibah masih hidup [6]. Menurut Permendagri No. 23 tahun 2006 tentang Pedoman Teknis dan Tata Cara Peraturan Tarif Air Minum pada Perusahaan Daerah Air Minum, Departemen dalam Negeri Republik Indonesia, Air Minum adalah air yang melalui proses pengolahan atau tanpa pengolahan yang memenuhi syarat kesehatan dan dapat langsung diminum [7]. Program Hibah Air Minum APBN tahun 2015 adalah suatu upaya percepatan penambahan jumlah sambungan rumah (SR) baru melalui penerapan output based atau berdasarkan kinerja yang terukur. Program Hibah Air Minum yang dimaksud disini adalah pemberian hibah dari pemerintah pusat kepada pemerintah daerah yang bersumber dari penerimaan dalam negeri APBN tahun 2015. Hibah Air Minum ini dimaksudkan juga sebagai insentif kepada pemprov atau pemkab/pemkot untuk dapat melaksanakan peran dan tanggung jawabnya dalam penyelenggaraan penyediaan pelayanan air minum sampai pada output terbangunnya sambungan rumah air minum kepada

9 masyarakat. Kedepannya pelaksanaan hibah air minum dikembangkan untuk mencapai output lainnya, seperti pengurangan Non Revenue Water (NRW), energi efisiensi dan sebagainya. Pelaksanaan program hibah air minum akan menggunakan mekanisme sesuai dengan PMK No. 188/PMK.07/2012 tentang Hibah dari pemerintah pusat kepada pemerintah daerah dan/atau Perturan Perundangan-undangan terkait hibah daerah dan tata cara penyaluran hibah kepada pemerintah daerah [8]. 2. 2. 2 Data Mining Data mining adalah analisis pengamatan data set untuk menemukan hubungan tak terduga dan untuk meringkas data dengan cara baru yang baik dimengerti dan berguna untuk pemilik data [9]. Data mining merupakan proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis. Definisi lain diantaranya adalah pembelajaran berbasis induksi (induction-based learning) adalah proses pembentukan definisi-definisi konsep umum yang dilakukan dengan cara mengobservasi contoh-contoh spesifik dari konsepkonsep yang akan dipelajari. Knowledge Discovery in Database (KDD) adalah penerapan metode saintifik pada data mining. Dalam konteks ini data mining merupakan satu langkah dari proses KDD [2].

10 Gambar 2. 1: Data mining sebagai langkah dalam proses Knowledge Discovery Suatu proses Knowledge Discovery digambarkan pada Gambar 1 dan terdiri dari urutan berulang dari langkah-langkah berikut [10]: 1. Pembersihan data (Data cleaning) Pembersihan data merupakan proses untuk menghilangkan data yang invalid dan data yang tidak konsisten. 2. Integrasi data (Data integration) Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Dimana beberapa sumber data dapat dikombinasikan. 3. Seleksi data (Data selection) Data yang relevan dengan tugas analisis yang diambil dari database.

11 4. Transformasi data (Data transformation) Data diubah atau digabung ke dalam bentuk yang sesuai untuk diproses dalam data mining dengan melakukan ringkasan. 5. Data mining Proses penting dimana metode cerdas yang diterapkan untuk mengekstrak pola data. 6. Evaluasi pola (Pattern evaluation) Untuk mengidentifikaasi pola-pola yang benar menarik kedalam knowledge based yang ditemukan. 7. Presentasi pengetahuan (Knowledge presentation) Visualisasi dan representasi pengetahuan teknik yang digunakan untuk menyajikan pengetahuan ditambang untuk pengguna. Beberapa teknik dan sifat data mining adalah sebagai berikut [2]: Classification [Predictive] Clustering [Descriptive] AssociationRule Discovery [Descriptive] SequentialPattern Discovery [Descriptive] DeviationDetction [Predictive] 2. 2. 3 Decision Tree Decision tree (pohon keputusan) adalah flowchart seperti struktur pohon, dimana setiap simpul internal menunjukkan tes pada atribut, setiap cabang merupakan hasil dari tes, dan masingmasing daun simpul (leaf node) menunjukkan label kelas [10]. Model Decision tree adalah metode yang paling sering digunakan dalam data mining. Tujuannya adalah untuk menciptakan sebuah model yang memprediksi hasilnya dari variabel target berdasarkan beberapa masukan variabel yang diberikan oleh pengguna sebagai kumpulan data training [11].

12 Salah satu algoritma yang digunakan untuk membangun pohon keputusan yang berbasis algoritma induksi pohon keputusan seperti ID3, C4.5 dan CART [2]. Gambar 2. 2: Model Pohon Keputusan Seperti dilihat pada gambar, sebuah pohon keputusan untuk konsep membeli komputer, yaitu memprediksi apakah seorang pelanggan di AllElectronics kemungkinan untuk membeli komputer. Setiap node internal (non leaf) merupakan atribut tes. Setiap simpul daun merepresentasikan kelas (membeli komputer = yes atau tidak membeli komputer = no) [10]. Node internal dilambangkan dengan persegi panjang, dan node daun dilambangkan dengan oval. Beberapa algortima pohon keputusan hanya menghasilkan pohon biner (dimana masingmasing cabang simpul internal untuk dua node lain). Pembangunan pohon keputusan untuk klasifikasi tidak memerlukan pengetahunan domain atau parameter pengetahuan dan sesuai untuk penemuan pengetahuan eksplorasi. Pohon keputusan dapat menangani data dimensi tinggi. Representasi pohon keputusan dalam bentuk pohon dan mudah untuk dipelajari

13 oleh manusia. Pengklasifikasi pohon keputusan memiliki akurasi yang baik [10]. Kelebihan dari pohon keputusan yaitu sebagai berikut [12] : Daerah pengambilan keputusan lebih simpel dan spesifik. Eliminasi perhitungan-perhitungan tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sampel diuji hanya berdasarkan kriteria atau kelas tertentu. Fleksibel untuk memilih fitur dari internal node yang berbeda. Sehingga dapat meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode perhitungan satu tahap yang lebih konvesional. Dengan menggunakan pohon keputusan, penguji tidak perlu melakukan estimasi pada distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Karena metode ini menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan. Sedangkan untuk kekurangan pohon keputusan yaitu [12] : Kesulitan dalam mendesain pohon keputusan yang optimal. Hasil kualitas keputusan yang didapat sangat tergantung pada bagaimana pohon tersebut didesain. Sehingga jika pohon keputusan yang dibuat kurang optimal, maka akan berpengaruh pada kualitas dari keputusan yang didapat. Terjadi overlap terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak sehingga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan. Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon keputusan yang besar.

14 2. 2. 4 Klasifikasi Klasifikasi adalah menentukan sebuah record data baru ke salah satu dari beberapa kategori (atau kelas) yang telah didefinisikan sebelumnya. Disebut juga dengan supervised learning [2]. Proses klasifikasi didasarkan pada empat komponen mendasar [13] : 1. Kelas (Class) Variabel dependen dari model yang merupakan variabel kategori mewakili label, menempatkan pada objek setelah klasifikasinya. Contoh kelas seperti adanya kelas penyakit jantung, loyalitas pelanggan, kelas bintang (galaksi), kelas gempa bumi (badai), dll. 2. Prediktor (Predictor) Variabel independen dari model diwakili oleh karakteristik (atribut) dari data yang akan diklasifikasikan dan berdasarkan klasifikasi yang dibuat. Contoh prediktor tersebut adalah merokok, konsumsi alkohol, tekanan darah, frekuensi pembelian, status perkawinan, karakteristik (satelit) gambar, catatan geologi tertentu, dan kecepatan arah angin, musim, lokasi terjadinya fenomena, dll. 3. Pelatihan dataset (Training dataset) Himpunan data yang berisi nilai-nilai untuk dua komponen sebelumnya, dan digunakan untuk pelatihan model untuk mengenali kelas yang tepat, berdasarkan prediksi yang tersedia. Contoh set tersebut adalah kelompok pasien yang diuji pada serangan jantung, kelompok pelanggan dari supermarket (diselidiki oleh

15 jajak pendapat internal), database yang berisi gambar untuk pemantauan dan pelacakan teleskopik objek astronomi, database pada badai, database penelitian gempa. 4. Dataset pegujian (Testing Dataset) Berisi data baru yang akan diklasifikasikan oleh (classifier) model yang telah dibangun diatas, dan akurasi klasifikasi (model performance) dapat dievaluasi. Model (metode) klasifikasi yang paling populer yaitu sebagai berikut [13]: Decision/classification trees; Bayesian classifiers/naive Bayes Classifiers; Neural networks; Statistical analysis; Genetic algorithms; Rough sets; K-nearest neighbor classifier; Rule-based methods; Memory based reasoning; Support vector machines; 2. 2. 5 Algoritma ID3 Iterative Dichotomiser 3 (ID3) adalah sebuah algoritma diciptakan oleh Ross Quinlan digunakan untuk menghasilkan pohon keputusan dari dataset. ID3 biasanya digunakan dalam machine learning, teknik pohon keputusan untuk model proses klasifikasi [4]. Algoritma ID3 melakukan pencarian secara serakah/ menyeluruh, atribut terbaik diambil dan tidak pernah mempertimbangkan kembali pilihan sebelumnya [5].

16 ID3 menggunakan ukuran information gain untuk memilih membelah atribut. Hanya menerima atribut ketegorikal dalam membangun model pohon. Tidak memberikan hasil yang akurat ketika ada data yang tidak valid. Untuk menghilangkan yang tidak valid teknik pra-pengolahan harus digunakan. Untuk membangun pohon keputusan, information gain dihitung untuk masing-masing atribut dan pilih atribut dengan information gain tertinggi untuk menunjuk sebagai simpul akar. Label atribut sebagai simpul akar dan nilai yang mungkin dari atribut yang direpresentasikan sebagai busur. Semua contoh hasil yang mungkin adalah diuji untuk memeriksa apakah jatuh dibawah kelas yang sama atau tidak. Jika semua kasus yang jatuh dibawah kelas yang sama, simpul diwakili dengan nama kelas satu, jika tidak memilih membelah atribut untuk mengklasifikasikan kasus. Atribut kontinyu dapat ditangani dengan menggunakan algoritma ID3 dengan cara mendiskritkan atau langsung, dengan mempertimbangkan nilai-nilai untuk menemukan titik perpecahan terbaik dengan mengambil permulaan nilai atribut [3]. Entropi mengukur jumlah dari informasi yang ada pada atribut dengan rumus [14]: Entropy S = c i P i log 2 P i Entropy (S) = (- P + log 2 P + ) + (- P - log 2 P - ) Berdasarakan rumus di atas, P + adalah probabilitas sampel S yang mempunyai class positif. P + dihitung dengan membagi jumlah sampel positif (S + ) dengan jumlah sampel keseluruhan (S) sehingga P + = S+ S. P - adalah probabilitas sampel S yang

17 mempunyai class negatif. P - dihitung dengan jumlah sampel keseluruhan (S) sehingga P - = S_ S. Pada algoritma ID3 pengurangan entropy disebut dengan information gain. Pembagian sampel S terhadap atribut A dapat dihitung information gain dengan rumus [14] : Gain(S,A) = Entropy (S) Sv ve nilai (A) S Entropy (Sv) Keterangan : A : Atribut V : Suatu nilai yang mungkin untuk atribut A Nilai (A) : Himpunan yang mungkin untuk atribut A Sv : Jumlah sampel untuk nilai v S : Jumlah seluruh sampel data Entropy(Sv) : Entropy untuk sampel yang memiliki nilai v 2. 2. 6 Algoritma C4.5 Algoritma C4.5 adalah penerus ID3 dikembangkan oleh Quinlan Ross [3]. C4.5 adalah algoritma terkenal yang digunakan untuk menghasilkan pohon keputusan. Pohon-pohon keputusan yang dihasilkan oleh algoritma C4.5 dapat digunakan untuk klasifikasi, juga disebut sebagai classifier statistik. Algoritma C4.5 secara rekursif mengunjungi tiap simpul keputusan, memilih percabangan optimal, sampai tidak ada cabang lagi yang mungkin dihasilkan [9]. Algoritma C4.5 memiliki prinsip dasar kerja yang sama dengan algoritma ID3, C4.5 menggunakan Rasio Gain sebagai pemilihan atribut [15]: Gain Ratio(S,A) = Gain Ratio (S,A) Split Information (S,A)

18 Atribut dengan Gain Ratio tertinggi dipilih sebagai atribut. Dengan Gain adalah information gain, split information menyatakan entropy gain informasi potensial dengan rumus : Split Information(S,A) = - 0 St St i=1 log S 2 S Perhitunngan Gain dilakukan dengan rumus berikut : Gain(S,A) = Entropy(S) n i=1 Si S Entropy(Si) Keterangan : S : Himpunan kasus A : Atribut N : Jumlah partisi atribut A Si : Jumlah kasus pada partisi ke-i S : Jumlah kasus dalam S Untuk nilai entropy dapat dihitung menggunakan rumus : Entropy(S) = - Keterangan : S : Himpunan kasus A : Atribut N : Jumlah partisi S n i=1 pi + log 2 pi Pi : Prororsi dari Si terhadap S 2. 2. 7 Confusion Matrix Confusion Matrix merupakan evaluasi kinerja dari model klasifikasi berdasarkan objek dengan memperkirakan yang benar atau salah. Confusion Matrix memberikan keputusan yang diperoleh dalam data training dan testing [13].

19 Tabel 2. 2: Confusion Matrix 2 Kelas CLASSIFICATION PREDICTED CLASS Class = Class = YES NO a b OBSERVED Class = YES (true positive-tp) (false positive- CLASS FP) C d Class = NO (false negative- (true negative- FN) TN) Keterangan : True Positive (TP) : proporsi positif yang terdapat dalam data set yang diklasifikasikan positif. False Negative (FN) : proporsi negatif yang terdapat dalam data set yang diklasifikasikan negatif. False Positive (FP) : proporsi negatif yang terdapat dalam data set yang diklasifikasikan positif. True Negatif (TN) : proporsi positif yang terdapat dalam data set yang diklasifikasikan negatif. Akurasi adalah proporsi jumlah prediksi yang benar. Rumus untuk menghitung tingkat akurasi pada matrik adalah : Accuracy = a+d a+b+c+d = TP+TN TP+TN+FP+FN

20 Berikut ini adalah persamaan model confusion matrix : o Sensitivity mengukur proporsi true positive (TP) yaitu perbandingan TP terhadap tupelo positif yang diidentifikasi secara benar, yang dihitung dengan menggunakan persamaan : Sensitivity = TP TP+FN o Specificity mengukur proporsi true negative (TN) yaitu perbandingan proporsi TN terhadap tupelo negatif yang diidentifikasi secara benar, yang dihitung dengan menggunakan persamaan : Specificity = TN TN+FP o PPV (positive predictive value ) adalah proporsi kasus dengan hasil tes positif yang didiagnosis dengan benar, yang dihitung dengan menggunakan persamaan : PPV = TP TP+FP o NPV (negative predictive value) adalah proporsi kasus dengan hasil tes negatif yang didiagnosis dengan benar, yang dihitung dengan menggunakan persamaan : NPV = TN TN+FN 2. 3 Tinjauan Objek Penelitian Pada jaman pemerintahan hindia belanda kota kendal telah mendapat pelayanan air berih berawal dari pembuatan sumur-sumur artetis untuk umum (tanpa pompa air keluar sendri, rakyat mengambi gratis). Tahun 1975 dikelola oleh Kanwil PU Provinsi Jawa Tengah yang dalam pelaksanaannya oleh Proyek Pengadaan Sarana Air Bersih (P2SAB). Tahun 1978 untuk perkembangan selanjutnya pengelolaan pelayanan dan perawatan jaringan diserrahkan oleh Badan Pengelolaan Air Minum

21 (BPAM) dengan dasar Surat Keputusan Direktorat Jendral Cipta Karya DPU No.054/KOTS/CK/VII/1978. Pada tahun 1986 dalam kurun waktu pengelolaan selanjutnya berdasarkan Peraturan Daerah Kabupaten Kendal No.3 tahun 1986 tanggal 27 Pebruari 1986 status pengelolaannya diubah menjadi Perusahaan Daerah Air Minum. Tahun 2003 keberadaan PDAM Kebupaten Dati II Kendal diperbaharui dengan PERDA Kabupaten Kendal No.14 Tahun 2003 tanggal 18 Desember 2003 Tentang Perusahaan Daerah Air Minum. Tahun 2008 peraturan daerah kabupatenn Kendal No 8 tahun 2008 Tentang Perusahaan Daerah Air Minum Tirto Panguripan kabupaten Kendal. Tanggal 17 Juni 2008. 2. 4 Kerangka Pemikiran Tabel 2. 3: Kerangka Pemikiran Masalah 1. Bagaimana perbandingan algoritma ID3 dan C4.5 berdasarkan data masyarakat berpenghasilan rendah dalam mendapatkan hibah pemasangan sambungan air minum. 2. Bagaimana menentukan penerima hibah pemasangan sambungan air minum berdasarkan analisis perbandingan algoritma ID3 dan C4.5 dengan memilih akurasi yang lebih tinggi. Tujuan 1. Ingin mengetahui perbedaan tingkat akurasi algoritma ID3 dan C4.5 untuk kasus masyarakat berpenghasilan rendah dalam mendapatkan hibah pemasangan sambungan air minum pada PDAM. 2. Untuk menentukan penerima hibah pemasangan sambungan air minum berdasarkan algoritma yang mempunyai tingkat akurasi yang lebih tinggi.

22 Metode Metode yang digunakan untuk pengelompokan data ini adalah metode klasifikasi decision tree Eksperimen Data Data masyarakat berpeghasilan rendah di PDAM Kabupaten Kendal pada tahun 2015 Tools RapidMiner Pengujian Confusion matrix Hasil Akurasi algoritma ID3 dan C4.5 serta mengetahui penerima hibah pemasangan sambungan air minum secara objektif dan tepat berdasarkan algortima yang memiliki tingkat akurasi yang tinggi.

BAB III METODE PENELITIAN 3.1 Instrumen penelitian Berdasarkan permasalahan yang telah diuraikan pada bab sebelumnya, maka bahan dan peralatan yang diperlukan untuk penelitian ini meliputi : 3.1.1 Bahan Dalam penelitian ini bahan yang dibutuhkan adalah data masyarakat berpenghasilan rendah di PDAM Kabupaten Kendal tahun 2015. 3.1.2 Peralatan Peralatan dalam penelitian ini meliputi kebutuhan perangkat lunak dan kebutuhan perangkat keras. Kebutuhan perangkat lunak : 1. Microsoft Windows 7 Ultimate sebagai notebook. 2. Microsoft Exel 2007 sebagai media penulisan dataset. 3. RapidMiner versi 5.3, framework yang akan digunakan untuk melihat hasil akurasi. 4. PHP, framework yang akan digunakan untuk prototipe. Kebutuhan perangkat keras : 1. Processor Intel Core 2 Duo 2. Memori RAM 2GB 3. Hardisk 320GB 23

24 3.2 Prosedur pengambilan atau pengumpulan data Pada penelitian ini prosedur pengambilan data sesuai dengan prosedur penelitian dengan menyerahkan surat ijin penelitian yang ditujukan pada PDAM Kabupaten Kendal. Adapun kriteria dari penerima hibah pemasangan sambungan air minum adalah : 1. Masyarakat berpenghasilan rendah yang memiliki daya listrik terpasang dirumah tangga tersebut 1300 VA dan minimal 50% diantara target sasaran tersebut memiliki daya listrik 900 VA dan/atau tidak memiliki sambungan listrik. 2. Bersedia dan memenuhi persyaratan sebagai pelanggan PDAM. 3. Masyarakat penerima hibah bersedia membayar biaya pemasangan sambungan sesuai dengan yang telah ditetapkan PDAM, yang besarnya lebih murah dari pada biaya sambungan reguler. 4. Masyarakat miskin, yang tidak memiliki fasilitas mobil, dan keadaan rumah tidak bertingkat. Sehingga data yang diperoleh berupa data softcopy yang tersedia pada PDAM Kabupaten Kendal berupa data masyarakat berpenghasilan rendah tahun 2015 untuk penerima hibah pemasangan air minum sebanyak 1473 data. Dengan data tersebut terdapat atribut nama, alamat, desa, RT, RW, Kecamatan, daya listrik yang digunakan, KTP dan gambar. Atribut tambahan yang didapat dari hasil survai, yaitu berupa fasilitas yang dimiliki, kondisi bangunan, dan kesediaan. Selain itu penyusunan tugas akhir menggunakan studi pustaka yang diperoleh dari beberapa sumber yaitu : 1. Buku yang menjelaskan data mining mengenai algoritma ID3 dan C4.5.

25 2. E-book yang menjelaskan data mining beserta algoritma yang digunakan. 3. Jurnal menjelaskan kasus pada metode klasifikasi. 3.3 Teknik analisis data (cara pengolahan data awal) Teknik yang dilakukan sebagai tahap awal yaitu persiapan data, data yang diperoleh diambil sebanyak 300 data yang akan dijadikan data sampel. Teknik pengolahan data awal sebagai berikut : 1. Pembersihan data Melakukan pembersihan data dengan tujuan untuk menghilangkan data yang tidak valid dan data yang tidak konsisten. Jika terdapat data atribut yang tidak diperlukan maka atributnya dihilangkan selama proses klasifikasi, sehingga tidak mengganggu proses selanjutnya. Gambar 3. 1: Sebelum Penghapusan Atribut

26 Gambar diatas terdapat beberapa atribut yang tidak berpengaruh dan tidak diperlukan seperti atribut nama, alamat, Rt, Rw, Desa, Kecamatan dan KTP. Yang selanjutnya akan dilakukan pengelompokan pada atribut daya listrik dan keterangan dari daya listrik yang lainnya. Gambar 3. 2: Setelah Penghapusan Atribut Setelah dilakukan penghapusan atribut, sehingga atribut yang mempengaruhi dalam proses klasifikasi yaitu daya listrik yang digunakan.

27 2. Integrasi data Melakukan integrasi data dengan menggabungan data dari berbagai database ke dalam satu database baru. Dimana beberapa sumber data dapat dikombinasikan. Dalam data mining terdapat data yang tidak didapat secara langsung, seperti data yang di peroleh dari hasil survai dilakukan analisis. Sehingga data dapat di gabungkan menjadi satu dataset. Gambar 3. 3: Penggabungan database Gambar diatas menerangkan bahwa atribut fasilitas, bangunan, dan kesediaan, merupakan hasil dari hasil survai yang dilakukan. Setelah dilakukan preprosesing terhadap data set dan terdapat data sebanyak 1473 data penerima hibah pemasangan sambungan air minum. Atribut yang akan digunakan dalam klasifikasi ini ada 4 yaitu daya listrik, fasilitas, bangunan, kesediaan, serta 1 atribut yang menjadi target yaitu atribut keterangan status.

28 Tabel 3. 1: Atribut yang akan digunakan dalam pemodelan No Nama Atribut Penjelasan 1 Daya Listrik Daya listrik yang digunakan rumah penerima hibah pemasangan air minum. 2 Fasilitas Fasilitas yang dimiliki penerima. 3 Bangunan Kondisi bangunan rumah. 4 Kesediaan Kesediaan masyarakat menjadi pelanggan. 5 Keterangan Status (atribut label) Keterangan apakah berhak menerima hibah pemasangan air minum atau tidak. Tabel diatas menjelaskan atribut yang digunakan untuk pemodelan data yang mana terdapat atribut daya listrik, fasilitas, bangunan, kesediaan, dan keterangan status. Daya listrik yang digunakan pada rumah penerima hibah pemasangan air minum terdapat 5 kategori dalam daya listrik yang digunakan meliputi 450 KWH, 900 KWH, 1300 KWH, pulsa listrik, dan listrik nyalur. Pada atribut fasilitas disini yang dijadikan atribut terdapat 2 kategori fasilitas yaitu fasilitas dengan mempunyai mobil dan tidak mempunyai mobil. Untuk atribut bangunan merupakan kondisi bangunan rumah dari penerima hibah, disini terdapat 2 kategori yaitu kondisi bangunan bertingkat atau tidak. Pada atribut kesediaan merupakan kesediaan dari masyarakat yang akan menerima hibah tersebut bersedia menjadi pelanggan PDAM atau tidak. Yang terakhir atribut yang dijadikan target adalah keterangan status apakah masyarakat yang berpenghasilan rendah berhak menerima hibah pemasangan air minum atau tidak. 3.4 Model atau metode yang diusulkan Metode yang akan digunakan pada penelitian ini dengan 2 metode yaitu ID3 dan C4.5. Kemudian akan dilakukan pengukuran tingkat akurasi

29 dari kedua metode tersebut, menggunakan confusion Matrix yang terdapat pada framework RapidMiner Ver.5.3 3.4.1 Tahapan Algoritma ID3 Tahapan dari proses algoritma ID3 yaitu sebagai berikut : 1. Menyiapkan data training 2. Hitung nilai Entropy dengan rumus : Entropy S = P i log 2 P i c i Entropy (S) = (- P + log 2 P + ) (P - log 2 P - ) 3. Setelah mendapatkan nilai Entropy akan mencari Information Gain dari setiap atribut untuk mendapatkan nilai Information Gain yang paling tinggi. 4. Rumus dari Information Gain yaitu : Gain(S,A) = Entropy (S) Sv ve nilai (A) S Entropy (Sv) 5. Nilai Information Gain yang tertinggi akan terbentuk menjadi simpul yang pertama dan akan menempati paling atas. 6. Proses perhitungan Information Gain diulangi sampai semua data yang termasuk dalam kelas yang sama. 7. Sehingga akan terbentuk pohon keputusan. 8. Maka akan terbentuk Rule-Rule.

30 3.4.2 Tahapan Rapid Miner pada Algoritma ID3 1. Buat data dalam format excel seperti pada gambar berikut. Gambar 3. 4: Dataset MBR Gambar diatas merupakan data set MBR yang digunakan untuk pemodelan data dalam RapidMiner, didalam gambar terdapat 4 atribut yaitu daya listrik yang digunakan, fasilitas, bangunan dan kesediaan serta 1 atribut target yaitu keterangan yang menyatakan menerima atau tidak menerima hibah pemasangan sambungan air minum. 2. Setelah data yang tersedia dibuat dalam bentuk tabel format xls, selanjutnya melakukan Importing Data kedalam Repositori. 3. Kemudian melakukan Drag dan Drop pada tabel MBR kedalam Main Process, tabel tersebut dinamakan operator Retrieve. 4. Selanjutnya akan membutuhkan operator Decision Tree, operator tersebut terdapat pada view operator, lalu kita

31 memilih Modelling dan pilih Classification and Regression, kemudian pilih tree Induction dan pilih pada ID3. 5. Setelah menemukan operator Decision Tree, maka drag operator lalu letakkan ke dalam main process. 6. Selanjutnya hubungkan operator Retrieve dengan operator Decision Tree dengan menarik garis dari tabel MBR ke operator Decision Tree dan menarik garis lagi dari operator Decison Tree ke result yang ada disisi kanan. 7. Kemudian mengatur parameter Decision Tree sesuai dengan kebutuhan. 8. Setelah itu, klik ikon Run pada toollbar untuk menampilkan hasilnya. 9. Hasil yang keluar berupa pohon keputusan. 3.4.3 Tahapan Algoritma C4.5 Tahapan dari proses algoritma C4.5 adalah : 1. Mempersiapkan data training. 2. Hitung nilai entropy dengan rumus : Entropy(S) = - n i=1 pi + log 2 pi 3. Setelah mendapatkan nilai dari Entropy maka akan digunakan untuk mencari nilai Gain. 4. Rumus yang digunakan untuk menghitung Gain sebagai berikut : Gain(S,A) = Entropy(S) n i=1 Si S Entropy(Si) 5. Kemudian mencari nilai Split Info dengan rumus : Split Information(S,A) = - 0 St St i=1 log S 2 S 6. Setelah mendapatkan nilai Gain dan Split Info, lalu mencari nilai Gain Ratio dengan rumus sebagai berikut : Gain Ratio(S,A) = Gain Rati o(s,a) Split Information (S,A)

32 7. Nilai Gain Ratio tertinggi akan digunakan sebagai atribut akar. Dengan itu akan terbentuk pohon keputusan sebagai node 1. 8. Ulangi proses ke-2 sampai semua cabang memiliki kelas yang sama. 9. Maka akan terbentuk pohon keputusan. 10. Dari pohon keputusan yang terbentuk maka dapat ditentukan Rule-Rule. 3.4.4 Tahapan Rapid Miner pada Algoritma C4.5 1. Buat data dalam format excel seperti pada gambar berikut. Gambar 3. 5: Dataset MBR Gambar diatas merupakan data set MBR yang digunakan untuk pemodelan data dalam RapidMiner, didalam gambar terdapat 4 atribut yaitu daya listrik yang digunakan, fasilitas, bangunan dan kesediaan serta 1 atribut target yaitu keterangan yang menyatakan menerima atau tidak menerima hibah pemasangan sambungan air minum.

33 2. Setelah data yang tersedia dibuat dalam bentuk tabel format xls, selanjutnya melakukan Importing Data kedalam Repositori. 3. Kemudian melakukan Drag dan Drop pada yang sudah di tabel MBR kedalam Main Process, tabel tersebut dinamakan operator Retrieve. 4. Selanjutnya akan membutuhkan operator Decision Tree, operator tersebut terdapat pada view operator, lalu kita memilih Modelling dan pilih Classification and Regression, kemudian pilih tree Induction dan pilih pada Decision Tree. 5. Setelah menemukan operator Decision Tree, maka drag operator lalu letakkan ke dalam main process. 6. Selanjutnya hubungkan operator Retrieve dengan operator Decision Tree dengan menarik garis dari tabel MBR ke operator Decision Tree dan menarik garis lagi dari operator Decison Tree ke result yang ada disisi kanan. 7. Kemudian mengatur parameter Decision Tree sesuai dengan kebutuhan. 8. Setelah itu, klik ikon Run pada tollbar untuk menampilkan hasilnya. 9. Hasil yang keluar berupa pohon keputusan. 3.5 Evaluasi dan Validasi Pengujian pada algoritma ID3 dan C4.5 dilakukan dengan confusion matrix untuk mengetahui tingkat Sensitivity (recall), PPV (positive predictive value ) atau precision, dan akurasi dari metode klasifikasi yang dibuat : Untuk menghitung recall dengan rumus : Recall = TP TP+FN Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar.

34 Untuk perhitungan precision menggunakan rumus : Precision = TP TP+FP Precision bertujuan untuk mengukur proporsi jumlah kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya. Akurasi dihitung dengan rumus : Accuracy = a+d a+b+c+d = TP+TN TP+TN+FP+FN Akurasi bertujuan untuk menjumlah prediksi penerima hibah pemasangan air minum yang benar. Sehingga dengan mengetahui Recall, Precision, dan Akurasi dapat mengetahui suatu algoritma dikatakan cepat, presisi dan akurat sebagai nilai perbandingan antara algoritma C4.5 dengan ID3. Untuk menentukan menerima atau tidak menerima hibah sambungan air minum untuk masyarakat berpenghasilan rendah dengan melihat hasil perbandingan antara algoritma C4.5 dan ID3. Antara kedua algoritma tersebut yang memiliki tingkat akurasi yang lebih tinggi yaitu akan digunakan sebagai klasifikasi penerima hibah sambungan air minum secara objektif dan akurat dengan melihat rule-rule yang terbentuk dari algoritma yang memiliki akurasi yang lebih tinggi. Sehingga data yang diolah saat ini dan yang memiliki tingkat akurasi tinggi akan digunakan dalam pengambilan keputusan selanjutnya.

BAB IV HASIL DAN ANALISIS Didalam bab ini penulis akan membahas mengenai data yang akan digunakan dalam penelitian, data tersebut akan dihitung menggunakan algoritma ID3 dan C4.5 yang kemudian akan diuji menggunakan Cross Validation. Pada penelitian ini, data yang digunakan adalah data Masyarakat Berpenghasilan Rendah tahun 2015 pada PDAM Kabupaten Kendal dengan jumlah data 1473(lampiran 1). 4. 1. Perhitungan Algoritma 4. 1. 1 Perhitungan Algoritma ID3 Dibawah ini merupakan contoh perhitungan manual dari penerapan algoritma ID3 untuk klasifikasi penerima hibah air minum dengan menggunakan 240 data training. Pada Algoritma ID3 harus menentukan pohon keputusan yang kemudaian akan menjadi rule untuk mengklasifikasi penerima hibah air minum. 4.1.1. 1. Perhitungan Node 1 o Total Jumlah kasus (S) = 240 Jumlah Tidak Menerima (S1) = 47 Jumlah Menerima (S2) =193 Entropy(Total) = S1 S log 2 S1 S + S2 S log 2 S2 S = 47 240 log 2 47 240 + 193 240 log 2 193 240 = 0,196 2,351 + 0,804 0,315 = 0,461 + 0,253 =0,714 35

36 1. Perhitungan Daya Listrik o Daya listrik 450 Jumlah kasus (S) = 85 Jumlah Tidak Menerima (S1) = 7 Jumlah Menerima (S2) =78 Entropy(450) = S1 S log 2 S1 S + S2 S log 2 S2 S = 7 85 log 2 7 85 + 78 85 log 2 78 85 = 0,082 3,608 + 0,918 0,123 = 0,296 + 0,113 =0,409 o Daya listrik 900 Jumlah kasus (S) = 86 Jumlah Tidak Menerima (S1) = 9 Jumlah Menerima (S2) =77 Entropy(900) = S1 S log 2 S1 S + S2 S log 2 S2 S = 9 86 log 2 9 86 + 77 86 log 2 77 86 = 0,105 3,252 + 0,895 0,160 = 0,341 + 0,143 =0,484 o Daya listrik 1300 Jumlah kasus (S) = 33 Jumlah Tidak Menerima (S1) = 17 Jumlah Menerima (S2) =16 Entropy(1300) = S1 S log 2 S1 S + S2 S log 2 S2 S = 17 33 log 2 17 33 + 16 33 log 2 16 33 = 0,515 0,957 + 0,485 1,044

37 = 0,493 + 0,506 =0,999 o Daya listrik pulsa Jumlah kasus (S) = 20 Jumlah Tidak Menerima (S1) = 6 Jumlah Menerima (S2) =14 Entropy(pulsa) = S1 S log 2 S1 S + S2 S log 2 S2 S = 6 20 log 2 6 20 + 14 20 log 2 14 20 = 0,3 1,737 + 0,7 0,515 = 0,521 + 0,361 =0,882 o Daya listrik nyalur Jumlah kasus (S) = 16 Jumlah Tidak Menerima (S1) = 8 Jumlah Menerima (S2) =8 Entropy(nyalur) = S1 S log 2 S1 S + S2 S log 2 S2 S = 8 16 log 2 8 16 + 8 16 log 2 8 16 = 0,5 1 + 0,5 1 = 0,5 + 0,5 = 1 Gain Total, daya listrik = Entropy Total n i 1 Entropy daya listrik i daya listrik i Total

38 = 0,714 85 86 33 0,409 + 0,484 + 240 240 240 0,999 + 20 16 0,882 + 240 240 1 = 0,714 0,145 + 0,173 + 0,137 + 0,074 + 0,067 = 0,714 0,596 = 0,118 2. Perhitungan Fasilitas o Fasilitas Tidak Bermobil Jumlah kasus (S) = 216 Jumlah Tidak Menerima (S1) = 23 Jumlah Menerima (S2) =193 Entropy tidak bermobil = S1 S log 2 S1 S + S2 S log 2 S2 S = 23 216 log 2 23 216 + 193 216 log 2 193 216 = 0,106 3,238 + 0,894 0,162 = 0,343 + 0,145 =0,488 o Fasilitas Bermobil Jumlah kasus (S) = 24 Jumlah Tidak Menerima (S1) = 24 Jumlah Menerima (S2) =0 Entropy bermobil = S1 S log 2 S1 S + S2 S log 2 S2 S

39 = 24 24 log 2 24 24 + 0 = 0 + 0 = 0 Gain Total, fasilitas = Entropy Total Entropy fasilitas i n i 1 fasilitas i Total = 0,714 216 240 0,488 + 0 = 0,714 0,439 = 0,275 3. Perhitungan Bangunan o Bangunan Tidak Tingkat Jumlah kasus (S) = 229 Jumlah Tidak Menerima (S1) = 37 Jumlah Menerima (S2) =192 Entropy tidak tingkat = S1 S log 2 S1 S + S2 S log 2 S2 S = 37 229 log 2 37 229 + 192 229 log 2 192 229 = 0,162 2,626 + 0,838 0,255 = 0,425 + 0,214 =0,639 o Bangunan Tingkat Jumlah kasus (S) = 11 Jumlah Tidak Menerima (S1) = 10 Jumlah Menerima (S2) =1

40 Entropy tingkat = S1 S log 2 S1 S + S2 S log 2 S2 S = 10 11 log 2 10 11 + 1 11 log 2 1 11 = 0,909 0,138 + 0,091 3,458 = 0,125 + 0,315 =0,440 Gain Total, bangunan = Entropy Total Entropy bangunan i n i 1 bangunan i Total = 0,714 229 240 0,639 + 11 240 0,639 = 0,714 0,609 + 0,020 = 0,714 0,629 = 0,085 4. Perhitungan Kesediaan o Kesediaan ya Jumlah kasus (S) = 225 Jumlah Tidak Menerima (S1) = 32 Jumlah Menerima (S2) =193 Entropy ya = S1 S log 2 S1 S + S2 S log 2 S2 S = 32 225 log 2 32 225 + 193 225 log 2 193 225 = 0,142 2,816 + 0,858 0,221 = 0,399 + 0,189 =0,588

41 o Kesediaan tidak Jumlah kasus (S) = 15 Jumlah Tidak Menerima (S1) = 15 Jumlah Menerima (S2) =0 Entropy tidak = S1 S log 2 S1 S + S2 S log 2 S2 S = 15 15 log 2 15 15 + 0 = 0 + 0 = 0 Gain Total, kesediaan = Entropy Total Entropy kesediaan i n i 1 kesediaan i Total = 0,714 225 240 0,588 + 0 =0,714 0,551 =0,164 Berdasarkan komputasi dengan algoritma ID3 maka dapat disajikan tabel perhitungan node 1 sebagai berikut : Tabel 4. 1: Perhitungan ID3 Node 1 Atribut Total Kasus Daya Listrik Jumlah Kasus Tidak Menerima (S1) Menerima (S2) Entropy 240 47 193 0,714 450 85 7 78 0,409 900 86 9 77 0,484 1300 33 17 16 0,999 Pulsa 20 6 14 0,882 Nyalur 16 8 8 1 Inf Gain 0,118

42 Fasilitas 0,275 Tidak 216 23 193 0,488 Bermobil Bermobil 24 24 0 0 Bangunan 0,085 Tidak 229 37 192 0,639 Tingkat Tingkat 11 10 1 0,440 Kesediaan 0,164 Ya 225 32 193 0,588 Tidak 15 15 0 0 Tabel diatas merupakan hasil perhitungan pada Node 1, diketahui bahwa nilai Information Gain terbesar yaitu pada atribut Fasilitas yaitu 0,275. Sehingga atribut Fasilitas menjadi node akar. Pada atribut Fasilitas terdapat 2 nilai atribut yaitu tidak bermobil dan bermobil. Nilai atribut yang pertama yaitu tidak bermobil belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut bermobil sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut. Berdasarkan tabel perhitungan Node 1 dapat dibentuk pohon keputusan sebagai berikut : Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Gambar 4. 1: Node 1 Algoritma ID3 Gambar diatas merupakan pohon keputusan yang menjadi node akar yaitu atribut fasilitas yang memiliki 2 cabang yaitu sesuai dengan nilai pada fasilitas, pada nilai

43 bermobil mengklasifikasikan tidak menerima, sedangkan pada nilai tidak bermobil masih belum diketahui yaitu menjadi Node 1.1. 4.1.1. 2. Perhitungan Node 1.1 Berdasarkan komputasi dengan algoritma ID3 maka dapat disajikan tabel perhitungan Node 1.1 sebagai berikut : Tabel 4. 2: Perhitungan ID3 Node 1.1 Atribut Fasilitas Tidak bermobil Jumlah Kasus Tidak Menerima (S1) Menerima (S2) Entropy 216 23 193 0,489 Inf Gain Daya 0,108 Listrik 450 84 6 78 0,369 900 78 1 77 0,100 1300 19 3 16 0,630 Pulsa 19 5 14 0,831 Nyalur 16 8 8 1 Bangunan 0,110 Tidak 207 15 192 0,374 Tingkat Tingkat 9 8 1 0,502 Kesediaan 0,267 Ya 201 8 193 0,239 Tidak 15 15 0 0 Tabel diatas merupakan hasil perhitungan pada Node 1.1, diketahui bahwa nilai Information Gain terbesar yaitu pada atribut Kesediaan yaitu 0,267. Sehingga atribut Kesediaan menjadi node cabang dari nilai atribut fasilitas tidak bermobil. Pada atribut Kesediaan terdapat 2 nilai atribut yaitu Ya dan tidak. Nilai atribut yang pertama yaitu nilau Ya yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.

44 Berdasarkan tabel perhitungan Node 1.1 dapat digambarkan pohon keputusan sebagai berikut : Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Kesediaan Ya Tidak Node 1.1.1 Tidak Menerima Gambar 4. 2: Node 1.1 Algoritma ID3 Gambar diatas merupakan hasil dari pohon keputusan Node 1.1 yang terisi dengan atribut kesediaan yang bercabang sesuai dengan nilai yang dimiliki yaitu Ya dan Tidak. Pada nilai tidak sudah dapat diklasifikasikan pada kelas tidak diterima sedangkan pada nilai Ya masih belum diketahui sehingga masih perlu dilakukan perhitungan lagi pada node 1.1.1. 4.1.1. 3. Perhitungan Node 1.1.1 Berdasarkan hasil komputasi dengan algoritma ID3, maka dapat disajikan tabel perhitungan pada Node 1.1.1 sebagai berikut : Tabel 4. 3: Perhitungan ID3 Node 1.1.1 Atribut Kesediaan Ya Daya Listrik Jumlah Kasus Tidak Menerima (S1) Menerima (S2) Entropy 201 8 193 0,239 450 78 0 78 0 Inf Gain 0,066

45 900 77 0 77 0 1300 19 3 16 0,629 Pulsa 19 5 14 0,831 Nyalur 8 0 8 0 Bangunan 0,217 Tidak 192 0 192 0 Tingkat Tingkat 9 8 1 0,502 Tabel diatas merupakan hasil perhitungan pada node 1.1.1, diketahui bahwa nilai Information Gain terbesar yaitu pada atribut Bangunan yaitu 0,217. Sehingga atribut Bangunan menjadi node cabang dari nilai atribut kesediaan Ya. Pada atribut Bangunan terdapat 2 nilai atribut yaitu Tidak Tingkat dan Tingkat. Nilai atribut yang pertama yaitu nilau Tingkat yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak Tingkat sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut. Berikut ini merupakan hasil pohon keputusan pada Node 1.1.1 : Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Kesediaan Ya Tidak Node 1.1.1 Bangunan Tidak Menerima Tidak Tingkat Menerima Tingkat Node 1.1.1.1 Gambar 4. 3: Node 1.1.1 Algoritma ID3

46 Gambar diatas merupakan lanjutan dari Node 1.1.1 yang menjadi node yaitu atribut bangunan yang masih memiliki cabang dua sesuai dengan nilai yang dimilikinya yaitu tidak tingkat dan tingkat. Pada nilai tidak tingkat sudah terklasifikasi yaitu pada kelas menerima sedangkan pada nilai tingkat masih perlu dilakukan klasifikasi lagi pada Node 1.1.1.1. 4.1.1. 4. Perhitungan Node 1.1.1.1 Berdasarkan komputasi pada Algoritma ID3, maka dapat disajikan tabel perhitungan pada Node 1.1.1.1 sebagai berikut : Tabel 4. 4: Perhitungan ID3 Node 1.1.1.1 Atribut Kesediaan Ya Daya Listrik Jumlah Kasus Tidak Menerima (S1) Menerima (S2) Entropy 9 8 1 0,502 450 0 0 0 0 900 0 0 1 0 1300 3 3 0 0 Pulsa 5 5 0 0 Nyalur 0 0 0 0 Inf Gain 0,502 Tabel diatas merupakan hasil perhitungan pada node 1.1.1.1, yang merupakan atribut terakhir. Pada atribut daya listrik terdapat 4 nilai atribut yaitu 450, 900,1300, pulsa, dan nyalur. Nilai atribut yang pertama yaitu nilai 450, dan nyalur yang sudah tidak dapat diklasifikasikan, sedangkan nilai atribut 900 sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sedangkan untuk nilai 1300 dan pulsa mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima. Pohon keputusan yang menjadi node terakhir yaitu sebagai berikut :

47 Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Kesediaan Ya Tidak Node 1.1.1 Bangunan Tidak Menerima Tidak Tingkat Menerima Menerima 900 Tingkat Node 1.1.1.1 Daya Listrik 1300 pulsa Tidak Menerima Tidak Menerima Gambar 4. 4: Node 1.1.1.1 Algoritma ID3 Gambar diatas merupakan hasil dari pohon keputusan yang menjadi node 1.1.1.1 yaitu pada atribut daya listrik yang memiliki cabang tiga yaitu nilai 900, 1300, dan pulsa. Dan ketiga nilai tersebut sudah terklasifikasikan, sehingga atribut daya listrik menjadi node yang terakhir. 4. 1. 2 Perhitungan Algoritma C4.5 Dibawah ini merupakan contoh perhitungan manual penerapan algoritma C4.5 untuk klasifikasi penerima hibah air minum menggunakan 240 data. Pada Algoritma C4.5 sama halnya dengan Algoritma ID3 dengan menentukan pohon keputusan yang

48 kemudian akan menjadi rule untuk klasifikasi penerima hibah air minum. 4. 1. 2. 1. Perhitungan Node 1 o Total Jumlah kasus (S) = 240 Jumlah Tidak Menerima (S1) = 47 Jumlah Menerima (S2) =193 Entropy(Total) = S1 S log 2 S1 S + S2 S log 2 S2 S = 47 240 log 2 47 240 + 193 240 log 2 193 240 = 0,196 2,351 + 0,804 0,315 = 0,461 + 0,253 =0,714 1. Perhitungan Daya Listrik o Daya listrik 450 Jumlah kasus (S) = 85 Jumlah Tidak Menerima (S1) = 7 Jumlah Menerima (S2) =78 Entropy(450) = S1 S log 2 S1 S + S2 S log 2 S2 S = 7 85 log 2 7 85 + 78 85 log 2 78 85 = 0,082 3,608 + 0,918 0,123 = 0,296 + 0,113 =0,409 o Daya listrik 900 Jumlah kasus (S) = 86 Jumlah Tidak Menerima (S1) = 9

49 Jumlah Menerima (S2) =77 Entropy(900) = S1 S log 2 S1 S + S2 S log 2 S2 S = 9 86 log 2 9 86 + 77 86 log 2 77 86 = 0,105 3,252 + 0,895 0,160 = 0,341 + 0,143 =0,484 o Daya listrik 1300 Jumlah kasus (S) = 33 Jumlah Tidak Menerima (S1) = 17 Jumlah Menerima (S2) =16 Entropy(1300) = S1 S log 2 S1 S + S2 S log 2 S2 S = 17 33 log 2 17 33 + 16 33 log 2 16 33 = 0,515 0,957 + 0,485 1,044 = 0,493 + 0,506 =0,999 o Daya listrik pulsa Jumlah kasus (S) = 20 Jumlah Tidak Menerima (S1) = 6 Jumlah Menerima (S2) =14 Entropy(pulsa) = S1 S log 2 S1 S + S2 S log 2 S2 S = 6 20 log 2 6 20 + 14 20 log 2 14 20 = 0,3 1,737 + 0,7 0,515 = 0,521 + 0,361 =0,882 o Daya listrik nyalur

50 Jumlah kasus (S) = 16 Jumlah Tidak Menerima (S1) = 8 Jumlah Menerima (S2) =8 Entropy(nyalur) = S1 S log 2 S1 S + S2 S log 2 S2 S = 8 16 log 2 8 16 + 8 16 log 2 8 16 = 0,5 1 + 0,5 1 = 0,5 + 0,5 = 1 Gain Total, daya listrik = Entropy Total n i 1 daya listrik i Entropy daya listrik Total i = 0,714 85 240 0,409 + 86 240 0,484 + 33 240 0,999 + 20 240 0,882 + 16 240 1 = 0,714 0,145 + 0,173 + 0,137 + 0,074 + 0,067 = 0,714 0,596 = 0,118 SplitInfo total, daya listrik = i i=1 daya listrik log 2 daya listrik total total = 85 240 log 2 85 240 + 86 240 log 2 86 240 + 33 240 log 2 33 240 + 20 240 log 2 20 240 + 16 240 log 2 16 240

51 = 0,354 1,498 + 0,358 1,482 + 0,137 2,868 + 0,083 3,591 + 0,067 3,899 = 0,530 + 0,530 + 0,391 + 0,298 + 0,261 = 2,010 Gain Ratio total, daya listrik = = 0,119 2,010 = 0, 059 Gain total, daya listrik Split Info total, daya listrik 2. Perhitungan Fasilitas o Fasilitas Tidak Bermobil Jumlah kasus (S) = 216 Jumlah Tidak Menerima (S1) = 23 Jumlah Menerima (S2) =193 Entropy tidak bermobil = S1 S log 2 S1 S + S2 S log 2 S2 S = 23 216 log 2 23 216 + 193 216 log 2 193 216 = 0,106 3,238 + 0,894 0,162 = 0,343 + 0,145 =0,488 o Fasilitas Bermobil Jumlah kasus (S) = 24 Jumlah Tidak Menerima (S1) = 24 Jumlah Menerima (S2) =0 Entropy bermobil = S1 S log 2 S1 S + S2 S log 2 S2 S = 24 24 log 2 24 24 + 0 = 0 + 0 = 0

52 Gain Total, fasilitas = Entropy Total n i 1 fasilitas i Total = 0,714 216 240 0,488 + 0 = 0,714 0,439 = 0,275 Entropy fasilitas i SplitInfo total, fasilitas = i i=1 fasilitas log 2 fasilitas total total = 216 240 log 2 216 240 + 24 240 log 2 24 240 = 0,9 0,152 + 0,1 3,322 = 0,137 + 0,332 = 0,467 Gain Ratio total, fasilitas = = 0,275 0,467 = 0, 586 3. Perhitungan Bangunan o Bangunan Tidak Tingkat Jumlah kasus (S) = 229 Jumlah Tidak Menerima (S1) = 37 Jumlah Menerima (S2) =192 Gain total, fasilitas Split Info total, fasilitas Entropy tidak tingkat = S1 S log 2 S1 S + S2 S log 2 S2 S = 37 229 log 2 37 229 + 192 229 log 2 192 229 = 0,162 2,626 + 0,838 0,255 = 0,425 + 0,214 =0,639 o Bangunan Tingkat Jumlah kasus (S) = 11

53 Jumlah Tidak Menerima (S1) = 10 Jumlah Menerima (S2) =1 Entropy tingkat = S1 S log 2 S1 S + S2 S log 2 S2 S = 10 11 log 2 10 11 + 1 11 log 2 1 11 = 0,909 0,138 + 0,091 3,458 = 0,125 + 0,315 =0,440 Gain Total, bangunan = Entropy Total n i 1 bangunan i Total Entropy bangunan i = 0,714 229 240 0,639 + 11 240 0,639 = 0,714 0,609 + 0,020 = 0,714 0,629 = 0,085 SplitInfo total, bangunan = i i=1 bangunan log 2 bangunan total total = 229 240 log 2 229 240 + 11 240 log 2 11 240 = 0,954 0,068 + 0,046 4,442 = 0,065 + 0,204 = 0,269 Gain Ratio total, bangunan = = 0,085 0,296 = 0, 287 Gain total, bangunan Split Info total, bangunan

54 4. Perhitungan Kesediaan o Kesediaan ya Jumlah kasus (S) = 225 Jumlah Tidak Menerima (S1) = 32 Jumlah Menerima (S2) =193 Entropy ya = S1 S log 2 S1 S + S2 S log 2 S2 S = 32 225 log 2 32 225 + 193 225 log 2 193 225 = 0,142 2,816 + 0,858 0,221 = 0,399 + 0,189 =0,588 o Kesediaan tidak Jumlah kasus (S) = 15 Jumlah Tidak Menerima (S1) = 15 Jumlah Menerima (S2) =0 Entropy tidak = S1 S log 2 S1 S + S2 S log 2 S2 S = 15 15 log 2 15 15 + 0 = 0 + 0 = 0 Gain Total, kesediaan = Entropy Total n i 1 kesediaan i Total = 0,714 225 240 0,588 + 0 =0,714 0,551 =0,164 SplitInfo total, kesediaan = i i=1 kesediaan log 2 kesediaan total total Entropy kesediaan i

55 = 225 240 log 2 225 240 + 15 240 log 2 15 240 = 0,937 0,094 + 0,062 4,012 = 0,088 + 0,249 = 0,337 Gain Ratio total, kesediaan = = 0,164 0,337 = 0, 487 Gain total, kesediaan Split Info total, kesediaan Berdasarkan komputasi diatas dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1 sebagai berikut : Atribut Total Kasus Daya Listrik Tabel 4. 5: Perhitungan C4.5 Node 1 Jml Kasus Tidak Menerima (S1) Menerima (S2) 240 47 193 0,714 Entropy Gain Split Info Gain Ratio 0,118 2,010 0,059 450 85 7 78 0,409 900 86 9 77 0,484 1300 33 17 16 0,999 Pulsa 20 6 14 0,882 Nyalur 16 8 8 1 Fasilitas 0,275 0,469 0,586 Tidak 216 23 193 0,488 Bermobil Bermobil 24 24 0 0 Bangunan 0,085 0,296 0,287 Tidak 229 37 192 0,639 Tingkat Tingkat 11 10 1 0,440 Kesediaan 0,164 0,337 0,487 Ya 225 32 193 0,588 Tidak 15 15 0 0

56 Tabel diatas merupakan hasil perhitungan pada node 1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Fasilitas yaitu 0,586. Sehingga atribut Fasilitas menjadi node akar. Pada atribut Fasilitas terdapat 2 nilai atribut yaitu tidak bermobil dan bermobil. Nilai atribut yang pertama yaitu tidak bermobil belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut bermobil sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut. Berdasarkan tabel perhitungan Node 1 dapat dibentuk pohon keputusan sebagai berikut : Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Gambar 4. 5: Node 1 Algoritma C4.5 Gambar diatas merupakan pohon keputusan yang menjadi node akar yaitu atribut fasilitas yang memiliki 2 cabang yaitu sesuai dengan nilai pada fasilitas, pada nilai bermobil mengklasifikasikan tidak menerima, sedangkan pada nilai tidak bermobil masih belum diketahui yaitu menjadi Node 1.1. 4. 1. 2. 2. Perhitungan Node 1.1 Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1 sebagai berikut :

57 Atribut Tabel 4. 6: Perhitungan C4.5 Node 1.1 Jml Kasus Tidak Menerima (S1) Menerima (S2) Total Kasus 216 23 193 0,489 Daya Listrik Entropy Gain Split Info Gain Ratio 0,108 1,954 0,055 450 84 6 78 0,369 900 78 1 77 0,100 1300 19 3 16 0,630 Pulsa 19 5 14 0,831 Nyalur 16 8 8 1 Bangunan 0,110 0,251 0,438 Tidak 207 15 192 0,374 Tingkat Tingkat 9 8 8 0,502 Kesediaan 0,267 0,364 0,733 Ya 201 8 193 0,239 Tidak 15 15 0 0 Tabel diatas merupakan hasil perhitungan pada node 1.1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Kesediaan yaitu 0,733. Sehingga atribut Kesediaan menjadi node cabang dari nilai atribut fasilitas tidak bermobil. Pada atribut Kesediaan terdapat 2 nilai atribut yaitu Ya dan tidak. Nilai atribut yang pertama yaitu nilau Ya yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut. Berdasarkan tabel perhitungan Node 1.1 dapat dibentuk pohon keputusan sebagai berikut :

58 Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Kesediaan Ya Tidak Node 1.1.1 Tidak Menerima Gambar 4. 6: Node 1.1 Algoritma C4.5 Gambar diatas merupakan hasil dari pohon keputusan Node 1.1 yang terisi dengan atribut kesediaan yang bercabang sesuai dengan nilai yang dimiliki yaitu Ya dan Tidak. Pada nilai tidak sudah dapat diklasifikasikan pada kelas tidak diterima sedangkan pada nilai Ya masih belum diketahui sehingga masih perlu dilakukan perhitungan lagi pada node 1.1.1. 4. 1. 2. 3. Perhitungan Node 1.1.1 Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1.1 sebagai berikut : Atribut Tabel 4. 7: Perhitungan C4.5 Node 1.1.1 Jml Kasus Tidak Menerima (S1) Menerima (S2) Total Kasus 201 8 193 0,239 Daya Listrik Entropy Gain Split Info Gain Ratio 0,066 1,884 0,035 450 78 0 78 0 900 77 0 77 0 1300 19 3 16 0,629 Pulsa 19 5 14 0,831 Nyalur 8 0 8 0 Bangunan 0,217 0,264 0,822 Tidak 192 0 192 0

59 Tingkat Tingkat 9 8 1 0,502 Tabel diatas merupakan hasil perhitungan pada node 1.1.1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Bangunan yaitu 0,822. Sehingga atribut Bangunan menjadi node cabang dari nilai atribut kesediaan Ya. Pada atribut Bangunan terdapat 2 nilai atribut yaitu Tidak Tingkat dan Tingkat. Kedua Nilai atribut tersebut sudah mengklasifikasikan kasus menjadi satu keputusan sehingga tidak perlu dilakukan perhitungan lagi. Berdasarkan tabel perhitungan Node 1.1.1 dapat dibentuk pohon keputusan sebagai berikut : Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Kesediaan Ya Tidak Node 1.1.1 Bangunan Tidak Menerima Tidak Tingkat Menerima Tingkat Node 1.1.1.1 Gambar 4. 7: Node 1.1.1 Algoritma C4.5 Gambar diatas merupakan lanjutan dari Node 1.1.1 yang menjadi node yaitu atribut bangunan yang masih memiliki cabang dua sesuai dengan nilai yang dimilikinya yaitu tidak tingkat dan tingkat. Pada nilai tidak tingkat sudah

60 terklasifikasi yaitu pada kelas menerima sedangkan pada nilai tingkat masih perlu dilakukan klasifikasi lagi pada Node 1.1.1.1. 4. 1. 2. 4. Perhitungan Node 1.1.1.1 Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1.1.1 sebagai berikut : Atribut Tabel 4. 8: Perhitungan C4.5 Node 1.1.1.1 Jml Kasus Tidak Menerima (S1) Menerima (S2) Total Kasus 9 8 1 0,502 Daya Listrik 450 0 0 0 0 900 1 0 1 0 1300 3 3 0 0 Pulsa 5 5 0 0 Nyalur 0 0 0 0 Entropy Gain Split Info Gain Ratio 0,502 1,351 0,371 Tabel diatas merupakan hasil perhitungan pada node 1.1.1.1, yang merupakan atribut terakhir. Pada atribut daya listrik terdapat 4 nilai atribut yaitu 450, 900,1300, pulsa, dan nyalur. Nilai atribut yang pertama yaitu nilai 450, dan nyalur yang sudah tidak dapat diklasifikasikan, sedangkan nilai atribut 900 sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sedangkan untuk nilai 1300 dan pulsa mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima. Berdasarkan tabel perhitungan Node 1.1.1.1 dapat dibentuk pohon keputusan sebagai berikut :

61 Node 1 Fasilitas Bermobil Tidak Bermobil Tidak Menerima Node 1.1 Kesediaan Ya Tidak Node 1.1.1 Bangunan Tidak Menerima Tidak Tingkat Menerima Menerima 900 Tingkat Node 1.1.1.1 Daya Listrik 1300 pulsa Tidak Menerima Tidak Menerima Gambar 4. 8: Node 1.1.1.1 Algoritma C4.5 Pada gambar diatas merupakan hasil dari pohon keputusan, diketahui bahwa semua kasus sudah masuk dalam kelas. Sehingga akan terbentuk sejumlah aturan dalam pohon keputusan tersebut. Rule yang dapat terbentuk dari pohon keputusan diatas sebagai berikut : JIKA fasilitas = bermobil MAKA class = TIDAK MENERIMA JIKA fasilitas = tidak bermobil DAN kesediaan = tidak MAKA class TIDAK MENERIMA JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tidak tingkat MAKA class = MENERIMA

62 JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = 900 MAKA class MENERIMA JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = 1300 MAKA class TIDAK MENERIMA JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = pulsa MAKA class TIDAK MENERIMA 4. 2. Evaluasi dan Validasi Setelah melewati tahap preprosesing selanjutnya tahap pengujian data yang dilakukan menggunakan RapidMiner 5.3. dengan tujuan untuk melihat nilai akurasi, pohon keputusan, dan rule. Pada model klasifikasi dapat diketahui hasil evaluasi berdasarkan pada banyaknya dataset record yang diklasifikasi secara benar atau tidak benar pada model klasifikasi tersebut. Pengujian model dapat dilakukan dengan menggunakan confusion matrix. Dari 1473 akan dilakukan pengujian sebanyak 5 kali. Pembagian pengujian dengan data training dan testing yang berbeda. Pengujian data sebagai berikut : 1 Data training dan testing 50% 2 Data training 60% dan data testing 40% 3 Data training 70% dan data testing 30% 4 Data training 80% dan data testing 20% 5 Data training 90% dan data testing 10% Data training digunakan untuk membentuk model, sedangkan data testing digunakan untuk menguji ketepatan klasifikasi dari model yang telah dibentuk. Berikut merupakan tampilan proses import data Masyarakat Berpenghasilan Rendah tahun 2015 dalam RapidMiner 5.3 :

63 Gambar 4. 9: Import Data Pada proses selanjutnya adalah proses pengujian data dengan menggunakan algoritma ID3 dan C4.5 untuk melihat pohon keputusan yang dihasilkan, rule yang terbentuk dan nilai akurasi dari kedua algoritma tersebut. Berikut adalah pengujian algoritma pada RapidMiner 5.3, dengan model pengujian menggunakan cross validation : Model Algoritma ID3 Gambar 4. 10: Model Cross Validation pada Algoritma ID3 Pada gambar diatas dataset Masyarakat Berpenghasilan Rendah tahun 2015 dihubungkan dengan operator cross validation yang didalamnya terdapat proses seperti gambar dibawah ini. Gambar 4. 11: Pengujian Cross Validation pada Algoritma ID3

64 Gambar diatas merupakan model dari algoritma ID3 yang diterapkan dalam rapidminer, dimana operator dan parameter yang digunakan akan berpengaruh terhadap akurasi dan model yang terbentuk. Model Algoritma C4.5 Gambar 4. 12: Model Cross Validation pada Algoritma C4.5 Pada gambar diatas sama halnya pada Algoritma sebelumnya yaitu algoritma ID3, dimana dataset Masyarakat Berpenghasilan Rendah tahun 2015 dihubungkan dengan operator cross validation yang didalamnya terdapat proses seperti gambar dibawah ini. Gambar 4. 13: Pengujian Cross Validation pada Algoritma C4.5 Gambar diatas merupakan model dari algoritma C4.5, dimana proses dalam membangun model C4.5 penggunaan operator dan parameter sama dengan algoritma ID3. Model C4.5 juga akan berpengaruh terhadap akurasi yang dihasilkan.

65 4. 3. Hasil Pengujian Hasil dalam penelitian ini merupakan pohon keputusan dari kedua algoritma yaitu Algoritma ID3 dan C4.5 serta hasil klasifikasi dari data training sebanyak 300 data berdasarkan waktu proses, tingkat akurasi, serta jumlah data dalam kelas Menerima/ Tidak Menerima. 4. 3. 1. Pohon Keputusan Pohon Keputusan Algoritma ID3 : Gambar 4. 14: Pohon Keputusan ID3 Gambar diatas merupakan pohon keputusan yang dihasilkan dari perhitungan entropy dan gain untuk seluruh atribut. Bahwa atribut fasilitas menjadi simpul akar karena fasilitas mempunyai nilai gain tertinggi. Dari simpul akar splittingnya menjadi dua simpul sesuai dengan nilai yang dimilikinya. Untuk cabang paling kanan merupakan simpul 1.1 yaitu kesediaan, karena atribut tersebut mempunyai nilai gain tertinggi. Dibawahnya ada simpul 1.1.1 yang merupakan atribut bangunan yang memiliki nilai gain tertinggi.

66 Pohon Keputusan Algoritma C4.5 Gambar 4. 15: Pohon Keputusan Algoritma C4.5 Gambar diatas merupakan hasil pohon keputusan dari algoritma C4.5, pohon keputusan yang dihasilkan sama dengan pohon keputusan dari algoritma ID3. Yang membedakan kedua algoritma tersebut yaitu dalam hal perhitungan, untuk algoritma C4.5 pohon keputusan yang dihasilkan merupakan hasil dari perhitungan Split Information dan gain ratio seluruh atribut. Bahwa atribut fasilitas menjadi simpul akar karena mempunyai nilai gain ratio tertinggi. 4. 3. 2. Confusion Matrix 4.3.2.1 Pengujian 1 Model Confusion Matrix Algoritma ID3 Pengujian yang pertama data set sebanyak 50% yaitu 736 dari jumlah data 1473. Berikut ini merupakan hasil dari klasifikasi menggunakan RapidMiner 5.3 :

67 Gambar 4. 16: Pengujian 50% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 50% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 736 data, 613 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 113 data diprediksikan sesuai yaitu tidak menerima. Model Confusion Matrix dari Algoritma C4.5 Pengujian yang pertama data set sebanyak 50% yaitu 736 dari jumlah data 1473. Berikut ini merupakan hasil dari klasifikasi menggunakan RapidMiner 5.3 : Gambar 4. 17: Pengujian 50% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 50% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 736 data, 613

68 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 115 data diprediksikan sesuai yaitu tidak menerima. 4.3.2.2 Pengujian 2 Model Confusion Matrix dari Algoritma ID3 Berikut ini merupakan hasil pengujian dari 60% data training. Data keseluruhan 1473, data training sebanyak 884 data : Gambar 4. 18: Pengujian 60% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 60% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 884 data, 734 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 140 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 40% data testing sebanyak 589 data :

69 Gambar 4. 19: Pengujian 40% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 40% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 589 data, 497 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima. Untuk 6 data diklasifikasikan tidak menerima ternyata menerima, serta 83 data diprediksikan sesuai yaitu tidak menerima. Model Confusion Matrix dari Algoritma C4.5 Berikut ini merupakan hasil pengujian dari 60% data training. Data keseluruhan 1473, data training sebanyak 884 data : Gambar 4. 20: Pengujian 60% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 60% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 884 data, 734 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata

70 menerima, serta 142 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 40% data testing sebanyak 589 data : Gambar 4. 21: Pengujian 40% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 40% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 589 data, 497 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 6 data diklasifikasikan tidak menerima ternyata menerima, serta 85 data diprediksikan sesuai yaitu tidak menerima. 4.3.2.3 Pengujian 3 Model Confusion Matrix dari Algoritma ID3 Berikut ini merupakan hasil pengujian dari 70% data training. Data keseluruhan 1473, data training sebanyak 1031 data : Gambar 4. 22: Pengujian 70% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 70% waktu yang dibutuhkan untuk menguji adalah 0 second.

71 Confusion matrix dapat dilihat dari 1031 data, 854 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 167 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 30% data testing sebanyak 442 data : Gambar 4. 23: Pengujian 30% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 30% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 4 data diprediksikan menerima ternyata tidak menerima. Untuk 4 data diklasifikasikan tidak menerima ternyata menerima, serta 54 data diprediksikan sesuai yaitu tidak menerima. Model Confusion Matrix dari Algoritma C4.5 Berikut ini merupakan hasil pengujian dari 70% data training. Data keseluruhan 1473, data training sebanyak 1031 data :

72 Gambar 4. 24: Pengujian 70% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 70% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 1031 data, 854 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 169 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 30% data testing sebanyak 442 data : Gambar 4. 25: Pengujian 30% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 30% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 4 data diklasifikasikan tidak menerima ternyata menerima, serta 57 data diprediksikan sesuai yaitu tidak menerima.

73 4.3.2.4 Pengujian 4 Model Confusion Matrix dari Algoritma ID3 Berikut ini merupakan hasil pengujian dari 80% data training. Data keseluruhan 1473, data training sebanyak 1178 data : Gambar 4. 26: Pengujian 80% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 80% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 1178 data, 977 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 191 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 20% data testing sebanyak 295 data : Gambar 4. 27: Pengujian 20% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 20% waktu yang dibutuhkan untuk menguji adalah 0 second.

74 Confusion matrix dapat dilihat dari 295 data, 263 diklasifikasikan prediksi menerima ternyata menerima, 2 data diprediksikan menerima ternyata tidak menerima, serta 30 data diprediksikan sesuai yaitu tidak menerima. Model Confusion Matrix dari Algoritma C4.5 Berikut ini merupakan hasil pengujian dari 80% data training. Data keseluruhan 1473, data training sebanyak 1178 data : Gambar 4. 28: Pengujian 80% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 80% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 1178 data, 977 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 193 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 20% data testing sebanyak 295 data : Gambar 4. 29: Pengujian 20% dari Algoritma C4.5

75 Pada saat menggunakan data pengujian sebanyak 20% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 295 data, 261 diklasifikasikan prediksi menerima ternyata menerima. Untuk 2 data diklasifikasikan tidak menerima ternyata menerima, serta 32 data diprediksikan sesuai yaitu tidak menerima. 4.3.2.5 Pengujian 5 Model Confusion Matrix dari Algoritma ID3 Berikut ini merupakan hasil pengujian dari 90% data training. Data keseluruhan 1473, data training sebanyak 1326 data : Gambar 4. 30: Pengujian 90% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 90% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 1326 data, 1100 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima. Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 216 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 10% data testing sebanyak 147 data :

76 Gambar 4. 31: Pengujian 10% dari Algoritma ID3 Pada saat menggunakan data pengujian sebanyak 10% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 147 data, 130 diklasifikasikan prediksi menerima ternyata menerima, 1 data diklasifikasikan prediksi tidak menerima ternyata menerima, serta 16 data diprediksikan sesuai yaitu tidak menerima. Model Confusion Matrix dari Algoritma C4.5 Berikut ini merupakan hasil pengujian dari 90% data training. Data keseluruhan 1473, data training sebanyak 1326 data : Gambar 4. 32: Pengujian 90% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 90% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 1326 data, 1100 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.

77 Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 218 data diprediksikan sesuai yaitu tidak menerima. Berikut ini merupakan hasil pengujian dari 10% data testing sebanyak 147 data : Gambar 4. 33: Pengujian 10% dari Algoritma C4.5 Pada saat menggunakan data pengujian sebanyak 10% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 147 data, 130 diklasifikasikan prediksi menerima ternyata menerima. Untuk 1 data diklasifikasikan tidak menerima ternyata menerima, serta 16 data diprediksikan sesuai yaitu tidak menerima. Dari tabel confusion matrix selanjutnya dilakukan perhitungan nilai accuracy, precision, dan recall, dapat dilihat pada tabel dibawah ini. Tabel 4. 9: Perbandingan hasil klasifikasi dari data training Metode ID3 C4.5 Pengujian Data Training (%) 50 60 70 80 90 Accuracy 98,64 98,87 99,03 99,15 99,25 Precision 98,87 99,06 99,19 99,29 99,37 Recall 97,41 97,90 98,24 98,45 98,63 Accuracy 98,92 99,10 99,22 99,32 99,40 Precision 98,87 99,06 99,19 99,29 99,37 Recall 99,14 99,30 99,41 99,48 99,54

78 Tabel 4. 10 : Perbandingan hasil klasifikasi dari data testing Metode ID3 C4.5 Pengujian Data Testing (%) 10 20 30 40 50 Accuracy 99,33 99,31 98,19 98,47 98,64 Precision 99,24 100 98,96 98,81 98,87 Recall 100 93,75 93,10 96,51 97,41 Accuracy 99,33 99,32 98,87 98,81 98,92 Precision 99,24 99,24 98,96 98,81 98,87 Recall 100 100 98,28 98,84 99,14 4. 4. Analisis Hasil Proses data mining dilakukan dengan bantuan perangkat lunak data mining, yaitu RapidMiner. Motode yang digunakan yaitu klasifikasi dengan menggunakan Algoritma ID3 dan C4.5. Pengujian algoritma tersebut dilihat dari precision, recall, dan accuracy. Pengujian dilakukan berdasarkan jumlah data yang diuji berdasarkan data training dan data testing. Hasil dari Tabel 4.9 dan Tabel 4.10 menunjukkan bahwa pengujian data dilakukan mulai dari 10% hingga 90% dari data keseluruhan 1473 data. Pengujian data terbagi sebagai berikut ini 147 (10%), 295 (20%), 442 (30%), 589 (40%), 736 (50%), 884 (60%), 1031 (70%), 1178 (80%), dan 1326 (90%) data. Berikut ini merupakan grafik hasil nilai precision dari algoritma ID3 dan C4.5 :

Nilai 79 100,20% 100,00% 99,80% 99,60% 99,40% 99,20% 99,00% 98,80% 98,60% 98,40% 98,20% Precision 10% 20% 30% 40% 50% 60% 70% 80% 90% jumlah data Gambar 4. 34: Grafik Precision ID3 C4.5 Hasil pengujian menunjukkan bahwa Algoritma ID3 memiliki nilai precision 100% dengan jumlah data 295 (20%). Sedangkan pada Algoritma C4.5 nilai precision tertinggi dicapai pada data 1326 (90%) sebesar 99,37%. Sehingga algoritma ID3 menunjukkan nilai precision lebih tinggi dari pada algoritma C4.5, meskipun pada jumlah data yang lain nilai precision yang dihasilkan cenderung sama, tetapi nilai rata-rata yang dihasilkan pada algoritma ID3 lebih tinggi.

Nilai 80 Sedangkan untuk grafik dari hasil recall algoritma ID3 dan C4.5 dapat dilihat dibawah ini : 102% Recall 100% 98% 96% 94% 92% 90% ID3 C4.5 88% 10% 20% 30% 40% 50% 60% 70% 80% 90% jumlah data Gambar 4. 35: Grafik Recall Dari grafik diatas tertera tingkat recall pada jumlah data. Nilai recall tertinggi pada algoritma C4.5 dicapai pada jumlah data 147 (10%) dan 295 (20%) dengan nilai recall yang dihasilkan sama besar yaitu 100%. Sedangkan pada algoritma ID3 nilai recall yang tertinggi yaitu pada jumlah data 147 (10%) dengan nilai recall 100%.

Nilai 81 Berikut ini merupakan grafik perbedaan tingkat akurasi algoritma ID3 dan algoritma C4.5 : 99,60% 99,40% 99,20% 99,00% 98,80% 98,60% 98,40% 98,20% 98,00% 97,80% 97,60% 97,40% Accuracy 10% 20% 30% 40% 50% 60% 70% 80% 90% Jumlah data ID3 C4.5 Gambar 4. 36: Grafik Accuracy Pada gambar diatas menunjukkan bahwa pada algoritma ID3 nilai Accuracy tertinggi pada jumlah data 147 (data testing 10%) dengan nilai Accuracy 99,33%. Sedangkan pada algoritma C4.5 nilai Accuracy tertinggi adalah 99,40% yang dicapai pada jumlah data 1326 (data training 90%). Sehingga dapat disimpulkan bahwa nilai accuracy algoritma C4.5 lebih baik dari pada algoritma ID3. Dari pengujian yang telah dilakukan pada algoritma ID3 dan C4.5 dapat disimpulkan bahwa algoritma C4.5 memiliki tingkat akurasi yang lebih tinggi berdasarkan pengujian jumlah data. Sehingga untuk menentukan penerima hibah pemasangan sambungan air minum dapat dilakukan atau dapat berpedoman pada algoritma C4.5 yang lebih memiliki tingkat akurasi lebih tinggi. Pemilihan penerima sambungan air minum dapar berdasarkan pada pohon keputusan yang terbentuk pada algoritma C4.5. Berikut ini merupakan pohon keputusan yang dapat dijadikan pedoman :

82 Gambar 4. 37: Pohon Keputusan Dari Algoritma Tertinggi Pohon keputusan diatas diambil pada algoritma C4.5 yang memiliki tingkat akurasi tertinggi yaitu pada jumlah data 1326 (90%). JIKA fasilitas = bermobil MAKA = Tidak Menerima JIKA fasilitas = tidak bermobil DAN kesediaan = tidak MAKA = tidak menerima JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tidak tingkat MAKA = Menerima JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat MAKA = Tidak Menerima Pada rule-rule tersebut dapat dijadikan acuaan untuk pemilihan penerima pemasangan sambungan air minum secara objektif dan tepat sasaran.

83 4. 5. Prototype Berikut ini merupakan prototype dari decision tree dengan menggunakan framework PHP : Gambar 4. 38 : Prototype Gambar diatas merupakan penerapan dari decision tree yang dihasilkan dari nilai akurasi yang tertinggi, sehingga proses yang dilakukan merupakan proses dari rule-rule yang terakhir yaitu dari algoritma C4.5 yang memiliki akurasi tinggi. Prototype digunakan dengan memasukkan data baru yang akan digunakan untuk mengetahui hasil

84 keputusannya, dengan melakukan proses maka akan muncul hasilnya seperti gambar dibawah ini : Gambar 4. 39: Pengisian Data Gambar 4. 40: Hasil Keputusan Gambar 4.39 merupakan pengisian data dimana nama dan alamat harus diisikan dan yang lainnya dengan memilih daya listrik yang digunakan, fasilitas, bangunan dan kesediaan yang dimiliki. Sebagai contoh diatas dinyatakan bahwa daya listrik tidak mempengaruhi proses,