BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

dokumen-dokumen yang mirip
ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

Algoritma C4.5. Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 1.

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

Manfaat Pohon Keputusan

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

Algoritma Data Mining (2) Tugas Klasifikasi

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

Belajar Mudah Algoritma Data Mining : C4.5

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Pohon Keputusan. 6.1 Inductive Learning

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI

Supervised Learning Misalkan kita ingin membuat suatu program komputer yang ketika diberi gambar seseorang, dapat menentukan apakah orang dalam

MKB3462 KECERDASAN BUATAN. Muhammad Zidny Naf an, M.Kom.

BAB II TINJAUAN PUSTAKA

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA

Seminar Nasional Teknologi 2007 (SNT 2007) ISSN : Yogyakarta, 24 November 2007

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA Sejarah Singkat dan Perkembangan Umum Perusahaan [8] Perusahaan Daerah Bank Perkreditan Rakyat Kabupaten Bandung Cabang

Algoritma Dasar. 4.1 Naive Bayes

TUGAS KONSEP DASAR DATA MINING

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

BAB II TINJAUAN PUSTAKA

KLASIFIKASI DATA PROSPEKTUS LOKASI WARALABA DENGAN ALGORITMA C4.5

DECISION TREE BERBASIS ALGORITMA UNTUK PENGAMBILAN KEPUTUSAN

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Penerapan Data Mining dalam Memprediksi Pembelian cat

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI DATA MINING ALGORITMA C4.5 UNTUK MEMPREDIKSI PEMBAYARAN PINJAMAN PADA KOPERASI SIMPAN PINJAM PRIMKOVERI BINA BAKTI PEMALANG

BAB 2 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB III MODEL POHON KEPUTUSAN. Pohon keputusan merupakan metode klasfikasi dan prediksi yang sangat

Metode C45 Untuk Mengklarifikasi Pelanggan Perusahaan Telekomunikasi Seluler

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

ANALISIS E-LEARNING CENTER OBJECT RECOMMENDER UNTUK PERSONALISASI PEMAHAMAN PRIOR KNOWLEDGE

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

KONVERSI DATA TRAINING TENTANG PENYAKIT HIPERTENSI MENJADI BENTUK POHON KEPUTUSAN DENGAN TEKNIK KLASIFIKASI MENGGUNAKAN TOOLS RAPID MINER 4.

BAB III ANALISIS DAN DESAIN SISTEM

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

BAB II TINJAUAN PUSTAKA

ID3 : Induksi Decision Tree

PENERAPAN ALGORITMA DECISION TREE PADA PENENTUAN KEBERHASILAN AKADEMIK MAHASISWA

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Klasifikasi & Prediksi

PENERAPAN ALGORITMA C4.5 DALAM PENERIMAAN CALON KARYAWAN PT. TELKOM AKSES AREA LAMPUNG BERBASIS WEBSITE

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA. Bab ini berisi teori yang berhubungan dengan saham dan data mining baik

Pengenalan Pola. Klasifikasi Naïve Bayes

JURNAL IMPLEMENTASI ALGORITMA C4.5 DALAM PENENTUAN JURUSAN DI SMK PEMUDA PAPAR KEDIRI

Decision Tree. Achmad Basuki, Iwan Syarif Politeknik Elektronika Negeri Surabaya PENS-ITS 2003

PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK MEMPREDIKSI KELANCARAN PEMBAYARAN NASABAH. (Studi Kasus: BMT Al Ikhwan) NASKAH PUBLIKASI

Metode Bayes. Tim Machine Learning

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

Burhanudin Junardi Karim Dr. Lintang Yuniar Banowosari, S.Kom., M.Sc

TUGAS DATA MINING. Nama Kelompok : I Putu Ari Ratna Pratama ( ) Putu Mega Suryawan ( ) Ida Bagus Surya Winantara ( )

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

SISTEM PENDUKUNG KEPUTUSAN REWARD DAN PUNISHMENT KARYAWAN BERDASARKAN TINGKAT KEPUASAN KONSUMEN MENGGUNAKAN ALGORITMA C4.5 PADA MODEL RUMAH SAKIT

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

BAB II LANDASAN TEORI. pengetahuan di dalam basis data. Data Mining adalah proses yang menggunakan teknik statistik,

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA. Abstrak

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

BAB II STUDI PUSTAKA

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II LANDASAN TEORI

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELAYAKAN KREDIT NASABAH PADA BMT BUMI MIZAN SEJAHTERA YOGYAKARTA MENGGUNAKAN ALGORITMA C4.

Suyanto, Artificial Intelligence

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

BAB III METODE PENELITIAN

LANDASAN TEORI. Universitas Indonesia

BAB III METODE CHI-SQUARED AUTOMATIC INTERACTION DETECTION

BAB II TINJAUAN PUSTAKA

Data Mining : Klasifikasi Menggunakan Algoritma C4.5

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

BAB III ANALISA DAN DESAIN SISTEM

PENERAPAN ALGORITMA C4.5 UNTUK PENGELOMPOKAN PENYAKIT HASIL DIAGNOSA PASIEN PENGGUNA JAMKESMAS PADA PUSKESMAS KOTAGEDE II NASKAH PUBLIKASI

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

dengan harga jual yang lebih rendah. Sedangkan diskon atau potongan harga adalah pengurangan harga langsung dari suatu produk yang dilakukan dalam

IMPLEMENTASI DATA MINING PADA PENENTUAN JUMLAH SKS MENGGUNAKAN DECISION TREE

Materi 5 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

Metode klasifikasi Naïve Bayes. Team teaching

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

BAB II LANDASAN TEORI

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP

Teknik Informatika UKDW Yogyakarta

SISTEM PENDUKUNG KEPUTUSAN KELAYAKAN PEMBERIAN KREDIT PADA BANK TABUNGAN NEGARA (BTN) MENGGUNAKAN ALGORITMA C4.5 SKRIPSI

Keyword : C 4.5 algorithm, Decision Support System, Selection Employees Candidate

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

APLIKASI PENENTUAN CALON PENDONOR DARAH MENGGUNAKAN METODE ALGORITMA ID3 ( STUDI KASUS PMI KOTA KEDIRI )

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

Transkripsi:

BAB 3 ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. A. Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, dia sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry & Linoff, 2004) Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya.

Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual, atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi. Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probabilitas dari masing-masing record terhadap kategorikategori tersebut, atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue, meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini. Banyak algotima yang dapat dipakai dalam pembentukan pohon keputusan antara lain ID3, CART dan C4.5 (Larose, 2005). Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005). Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan(basuki & Syarif, 2003). Proses pada pohon keputusan adalah: mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule dan menyederhanakan rule(basuki & Syarif, 2003).

B. Algoritma Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 3.1. Tabel 3.1. Keputusan Bermain Tenis NO OUTLOOK TEMPERATURE HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE No 2 Sunny Hot High TRUE No 3 Cloudy Hot High FALSE Yes 4 Rainy Mild High FALSE Yes 5 Rainy Cool Normal FALSE Yes 6 Rainy Cool Normal TRUE Yes 7 Cloudy Cool Normal TRUE Yes 8 Sunny Mild High FALSE No 9 Sunny Cool Normal FALSE Yes 10 Rainy Mild Normal FALSE Yes 11 Sunny Mild Normal TRUE Yes 12 Cloudy Mild High TRUE Yes 13 Cloudy Hot Normal FALSE Yes 14 Rainy Mild High TRUE No Dalam kasus yang tertera pada Tabel 3.1, akan dibuat pohon keputusan untuk menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur, kelembaban dan keadaan angin. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut: a. Pilih atribut sebagai akar b. Buat cabang untuk masing-masing nilai c. Bagi kasus dalam cabang d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam Rumus 1 (Craw, S., ---). n Si Gain( S, A) = Entropy( S) * Entropy( Si) (1) S i= 1 Dengan : S : Himpunan kasus A : Atribut n : Jumlah partisi atribut A Si : Jumlah kasus pada partisi ke i S : Jumlah kasus dalam S Sedangkan penhitungan nilai entropy dapat dilihat pada rumus 2 berikut(craw, S., ---): n Entropy( S) = pi * log 2 pi (2) i= 1 dengan : S : Himpunan Kasus A : Fitur n : Jumlah partisi S : Proporsi dari S i terhadap S p i Berikut ini adalah penjelasan lebih rinci mengenai masingmasing langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan pada Tabel 3.1. a. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE, HUMIDITY dan WINDY. Setelah itu lakukan penghitungan Gain untuk masing-

masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 3.2. Tabel 3.2. Perhitungan Node 1 Jml Kasus Tidak Ya Node (S) (S 1 ) (S 2 ) Entropy Gain 1 TOTAL 14 4 10 0.863120569 OUTLOOK 0.258521037 CLOUDY 4 0 4 RAINY 5 1 4 0.721928095 SUNNY 5 3 2 0.970950594 TEMPERATURE 0.183850925 COOL 4 0 4 0 HOT 4 2 2 1 MILD 6 2 4 0.918295834 HUMIDITY 0.370506501 HIGH 7 4 3 0.985228136 NORMAL 7 0 7 0 WINDY 0.005977711 FALSE 8 2 6 0.811278124 TRUE 6 4 2 0.918295834 Baris TOTAL kolom Entropy pada Tabel 3.2 dihitung dengan rumus 2, sebagai berikut: 4 4 10 10 Entropy( Total) = ( * log 2 ( )) + ( *log 2 ( )) 14 14 14 14 Entropy ( Total) = 0.863120569 Sementara itu nilai Gain pada baris OUTLOOK dihitung dengan menggunakan rumus 1, sebagai berikut:

n Outlooki Gain( Total, Outlook) = Entropy( Total) * Entropy( Outlooki ) i= 1 Total 4 5 5 Gain( Total, Outlook) = 0.863120569 (( *0) + ( *0.723) + ( *0.97)) 14 14 14 Gain ( Total, Outlook) = 0.23 Dari hasil pada Tabel 3.2 dapat diketahui bahwa atribut dengan Gain tertinggi adalah HUMIDITY yaitu sebesar 0.37. Dengan demikian HUMIDITY dapat menjadi node akar. Ada 2 nilai atribut dari HUMIDITY yaitu HIGH dan NORMAL. Dari kedua nilai atribut tersebut, nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut HIGH masih perlu dilakukan perhitungan lagi. Dari hasil tersebut dapat digambarkan pohon keputusan sementara-nya tampak seperti Gambar 3.1 Gambar 3.1 Pohon Keputusan Hasil Perhitungan Node 1 b. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK,

Node 1.1 TEMPERATURE dan WINDY yang dapat menjadi node akar dari nilai atribut HIGH. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 3.3. Tabel 3.3. Perhitungan Node 1.1 Jml Kasus Tidak (S) (S1) Ya (S2) Entropy Gain HUMIDITY- HIGH 7 4 3 0.985228136 OUTLOOK 0.69951385 CLOUDY 2 0 2 0 RAINY 2 1 1 1 SUNNY 3 3 0 0 TEMPERATURE 0.020244207 COOL 0 0 0 0 HOT 3 2 1 0.918295834 MILD 4 2 2 1 WINDY 0.020244207 FALSE 4 2 2 1 TRUE 3 2 1 0.918295834 Dari hasil pada Tabel 3.3 dapat diketahui bahwa atribut dengan Gain tertinggi adalah OUTLOOK yaitu sebesar 0.67. Dengan demikian OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH. Ada 3 nilai atribut dari OUTLOOK yaitu CLOUDY, RAINY dan SUNNY. Dari ketiga nilai atribut tersebut, nilai atribut CLOUDY sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai atribut SUNNY sudah mengklasifikasikan kasus menjadi satu dengan keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut RAINY masih perlu dilakukan perhitungan lagi. Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada gambar 3.2 berikut:

Gambar 3.2. Pohon Keputusan Hasil Perhitungan Node 1.1 c. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut TEMPERATURE dan WINDY yang dapat menjadi node cabang dari nilai atribut RAINY. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 3.4. Dari hasil pada tabel 3.4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah WINDY yaitu sebesar 1. Dengan demikian WINDY dapat menjadi node cabang dari nilai atribut RAINY. Ada 2 nilai atribut dari WINDY yaitu FALSE dan TRUE. Dari kedua nilai atribut tersebut, nilai atribut FALSE sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai atribut TRUE sudah mengklasifikasikan kasus menjadi satu dengan keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini.

Tabel 3.4. Perhitungan Node 1.1.2 Node 1.1.2 Jml Kasus (S) Tidak (S1) Ya (S2) Entropy Gain HUMIDITY- HIGH dan OUTLOOK - RAINY 2 1 1 1 TEMPERATURE 0 COOL 0 0 0 0 HOT 0 0 0 0 MILD 2 1 1 1 WINDY 1 FALSE 1 0 1 0 TRUE 1 1 0 0 Gambar 3.3. Pohon Keputusan Hasil Perhitungan Node 1.1.2

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 3.3. Dengan memperhatikan pohon keputusan pada Gambar 3.3, diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar 3.3 merupakan pohon keputusan terakhir yang terbentuk.