Belajar Mudah Algoritma Data Mining : C4.5

dokumen-dokumen yang mirip
TUGAS DATA MINING. Nama Kelompok : I Putu Ari Ratna Pratama ( ) Putu Mega Suryawan ( ) Ida Bagus Surya Winantara ( )

BAB 2 TINJAUAN PUSTAKA

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

Algoritma C4.5. Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 1.

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

Algoritma Data Mining (2) Tugas Klasifikasi

Klasifikasi & Prediksi

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

Sebelumnya... Sistem Pakar berbasis Logika Fuzzy

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Manfaat Pohon Keputusan

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

TUGAS KONSEP DASAR DATA MINING

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

PROGRAM BANTU PEMILIHAN PAKAIAN DAN BAHAN BATIK BAGI KONSUMEN DENGAN PENDEKATAN DECISION TREE Studi Kasus : Toko InBATIK

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

ditinjau dari masalah yang ada, objek penelitian dan metode yang digunakan percobaan pada beban dan tegangan input yang berbeda dalam dua keadaan loop

Decision Tree. Achmad Basuki, Iwan Syarif Politeknik Elektronika Negeri Surabaya PENS-ITS 2003

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem

ANALISA TEKNIK PENENTUAN ATRIBUT DALAM MEMBUAT POHON KEPUTUSAN PADA PENAMBANGAN DATA

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

BAB II TINJAUAN PUSTAKA

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

IMPLEMENTASI DATA MINING UNTUK MENGETAHUI PERILAKU SESEORANG DALAM MEMBELI ALAT PANAHAN

MODUL 12 Model Prediktif

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

Classification. Decision Tree. Decision Tree. Konsep Decision Tree. Penggunaan Decision Tree. When To Consider Decision Tree?

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

PRAKTIKUM KE-5 KLASIFIKASI I

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

Penerapan Data Mining dalam Memprediksi Pembelian cat

BAB 2 LANDASAN TEORI

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK PENJURUSAN SISWA (STUDI KASUS: SMA NEGERI 1 PONTIANAK)

khazanah informatika 1 Program studi Informatika Universitas Muhammadiyah Surakarta Surakarta 1.

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN 1-1

KONVERSI DATA TRAINING TENTANG PENYAKIT HIPERTENSI MENJADI BENTUK POHON KEPUTUSAN DENGAN TEKNIK KLASIFIKASI MENGGUNAKAN TOOLS RAPID MINER 4.

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

PENGAMBILAN KEPUTUSAN UNTUK PENENTUAN BEASISWA TEPAT SASARAN MENGGUNAKAN METODE DECISION TREE DI SMK TARUNA BAKTI KERTOSONO

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

Suyanto, Artificial Intelligence

Burhanudin Junardi Karim Dr. Lintang Yuniar Banowosari, S.Kom., M.Sc

BAB IV HASIL DAN PEMBAHASAN. dan fakor-faktor penyebab masalah tersebut bisa terjadi diantaranya. dimanfaatkan dan dikelola dengan baik.

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Prediksi Kelayakan Masuk Penjurusan Ipa Siswa Sekolah Menengah Atas Menggunakan C4.5 (Studi Kasus: Sma Tarakanita Gading Serpong)

PENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL

BAB 2 LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN. Data yang digunakan dalam penelitian ini adalah data warehouse

IMPLEMENTASI TEKNIK DATA MINING DENGAN MENGGUNAKAN METODE DECISION TREE UNTUK PREDIKSI PENENTUAN RESIKO KREDIT

BAB 2 LANDASAN TEORI

JURNAL IMPLEMENTASI ALGORITMA C4.5 DALAM PENENTUAN JURUSAN DI SMK PEMUDA PAPAR KEDIRI

Analisa Kepuasan Konsumen Menggunakan Klasifikasi Decision Tree Di Restoran Dapur Solo (Cabang Kediri)

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

IMPLEMENTASI ALGORITMA C4.5 PADA VARIABEL-VARIABEL YANG MEMPENGARUHI STATUS GIZI BALITA DESA KUALA DUA KABUPATEN KUBU RAYA

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP

Penerapan Algoritme C4.5 Pada Klasifikasi Produksi Ubi Jalar di Pulau Jawa

LANDASAN TEORI. Universitas Indonesia

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Modul IV KLASIFIKASI

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Pohon Keputusan. 6.1 Inductive Learning

ABSTRAKSI 2 DECISION TREE 1 PENDAHULUAN

PENERAPAN ALGORITMA C4.5 DALAM PENERIMAAN CALON KARYAWAN PT. TELKOM AKSES AREA LAMPUNG BERBASIS WEBSITE

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah 1.2. Rumusan Masalah

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

PENGEMBANGAN SISTEM PENDUKUNG KEPUTUSAN PENERIMAAN KARYAWAN MENGGUNAKAN METODA POHON KEPUTUSAN ID3

DECISION TREE BERBASIS ALGORITMA UNTUK PENGAMBILAN KEPUTUSAN

SISTEM REKOMENDASI PEMILIHAN TIKET PESAWAT ONLINE MENGGUNAKAN METODE DECISION TREE DI PT. ANTA UTAMA KEDIRI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. waktu mendatang. Perkembangan teknologi informasi membuat pencarian. data data sangat mudah bahkan cenderung berlebihan.

Jurnal KomTekInfo Fakultas Ilmu Komputer, Volume 1, No. 2, Desember 2014 ISSN :

Transkripsi:

Belajar Mudah Algoritma Data Mining : C4.5 Algoritma data mining C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokan dan bersifat prediktif. Dasar algoritma C4.5 adalah pembentukan pohon keputusan (decision tree). Cabang-cabang pohon keputusan merupakan pertanyaan klasifikasi dan daun-daunnya merupakan kelas-kelas atau segmensegmennya. Gambar 1. Contoh Pohon Keputusan Algoritma C4.5 merupakan salah satu algoritma machine learning. Dengan algoritma ini, mesin (komputer) akan diberikan sekelompok data untuk dipelajari yang disebut learning dataset. Kemudian hasil dari pembelajaran selanjutnya akan digunakan untuk mengolah data-data yang baru yang disebut test dataset. Karena algoritma C4.5 digunakan untuk melakukan klasifikasi, jadi hasil dari pengolahan test dataset berupa pengelompokkan data ke dalam kelas-kelasnya. Berikut ini adalah uraian langkah-langkah dalam algoritma C4.5 untuk menyelesaikan kasus suatu pertandingan tenis akan dilakukan atau tidak, berdasarkan keadaan cuaca, suhu, kelembaban, dan angin. Data yang telah ada pada Tabel 1, akan digunakan untuk membentuk pohon keputusan. Pada Tabel 1, atribut-atributnya adalah Cuaca, Suhu, Kelembaban, dan Berangin. Setiap atribut memiliki nilai. Sedangkan kelasnya ada pada kolom Main yaitu kelas Tidak dan kelas Ya. Kemudian data tersebut dianalisis; dataset tersebut memiliki 14 kasus yang terdiri 10 Ya dan 4 Tidak pada kolom Main (lihat Tabel 2). 1

Tabel 1. Learning Dataset No Cuaca Suhu Kelembaban Berangin Main 1 Cerah Panas Tinggi Salah Tidak 2 Cerah Panas Tinggi Benar Tidak 3 Berawan Panas Tinggi Salah Ya 4 Hujan Sejuk Tinggi Salah Ya 5 Hujan Dingin Normal Salah Ya 6 Hujan Dingin Normal Benar Ya 7 Berawan Dingin Normal Benar Ya 8 Cerah Sejuk Tinggi Salah Tidak 9 Cerah Dingin Normal Salah Ya 10 Hujan Sejuk Normal Salah Ya 11 Cerah Sejuk Normal Benar Ya 12 Berawan Sejuk Tinggi Benar Ya 13 Berawan Panas Normal Salah Ya 14 Hujan Sejuk Tinggi Benar Tidak Kemudian hitung entropi dengan rumus sebagai berikut : = log Keterangan : S adalah himpunan (dataset) kasus adalah banyaknya partisi S adalah probabilitas yang di dapat dari Sum(Ya) dibagi Total Kasus. Jadi = log + log = 0.863120569 Tabel 2. Hasil Perhitungan pada Dataset Total Kasus Sum(Ya) Sum(Tidak) Entropi Total 14 10 4 0.863120569 Setelah mendapatkan entropi dari keseluruhan kasus, lakukan analisis pada setiap atribut dan nilai-nilainya dan hitung entropinya seperti yang ditampilkan pada Tabel 3. 2

Tabel 3. Analisis Atribut, Nilai, Banyaknya Kejadian Nilai, Entropi dan Gain Node Atribut Nilai Sum(Nilai) Sum(Ya) Sum(Tidak) Entropi Gain 1 Cuaca Berawan 4 4 0 0 Hujan 5 4 1 0.721928095 Cerah 5 2 3 0.970950594 0.258521037 Suhu Dingin 4 4 0 0 Panas 4 2 2 1 Sejuk 6 4 2 0.918295834 0.183850925 Kelembaban Tinggi 7 3 4 0.985228136 Normal 7 7 0 0 0.370506501 Berangin Salah 8 6 2 0.811278124 Benar 6 2 4 0.918295834 0.005977711 Untuk menghitung gain setiap atribut rumusnya adalah : Jadi : '( ) = + + '(,-(.( = 0.863120569/0 4 14 200 5 14 2 0.7219280950 5 2 0.9709505944 14 '(,-(.( 0.258521037 Hitung pula Gain (Suhu), Gain (Kelembaban), dan Gain (Berangin). Hasilnya dapat dilihat pada Tabel 3. Karena nilai gain terbesar adalah Gain (Kelembaban). Maka Kelembaban menjadi node akar (root node). Kemudian pada kelembaban normal, memiliki 7 kasus dan semuanya memiliki jawaban Ya (Sum(Total) / Sum(Ya) = 7/7 = 1). Dengan demikian kelembaban normal menjadi daun atau leaf. Lihat Tabel 3 yang selnya berwarna hijau. + Gambar 2. Pohon Keputusan Node 1 (root node) 3

Berdasarkan pembentukan pohon keputusan node 1 (root node), Node 1.1 akan dianalisis lebih lanjut. Untuk mempermudah, Tabel 1 difilter, dengan mengambil data yang memiliki Kelembaban = Tinggi sehingga jadilah Tabel 4. Tabel 4. Data yang Memiliki Kelembaban = Tinggi No Cuaca Suhu Kelembaban Berangin Main 1 Cerah Panas Tinggi Salah Tidak 2 Cerah Panas Tinggi Benar Tidak 3 Berawan Panas Tinggi Salah Ya 4 Hujan Sejuk Tinggi Salah Ya 5 Cerah Sejuk Tinggi Salah Tidak 6 Berawan Sejuk Tinggi Benar Ya 7 Hujan Sejuk Tinggi Benar Tidak Kemudian data di Tabel 4 dianalisis dan dihitung lagi entropi atribut Kelebaban Tinggi dan entropi setiap atribut serta gainnya sehingga hasilnya seperti data pada Tabel 5. Setelah itu tentukan pilih atribut yang memiliki gain tertinggi untuk dibuatkan node berikutnya. Tabel 5. Hasil Analisis Node 1.1 Kelembaban Tinggi Sum(Ya) Sum(Tidak) Entropi 7 3 4 0.985228136 Node Atribut Nilai Sum(Variabel) Sum(Ya) Sum(Tidak) Entropi Gain 1.1 Cuaca Berawan 2 2 0 0 Hujan 2 1 1 1 Cerah 3 0 3 0 0.69951385 Suhu Dingin 0 0 0 0 Panas 3 1 2 0.918295834 Sejuk 4 2 2 1 0.020244207 Berangin Salah 4 2 2 1 Benar 3 2 1 0.918295834 0.020244207 Dari Tabel 5, gain tertinggi ada pada atribut Cuaca, dan Nilai yang dijadikan daun atau leaf adalah Berawan dan Cerah. Jika divualisasi maka pohon keputusan tampak seperti Gambar 3. Untuk menganalisis node 1.1.2, lakukan lagi langkah-langkah yang sama seperti sebelumnya. Hasilnya ditampilkan pada Tabel 6 dan Gambar 4. 4

Gambar 3. Pohon Keputusan Analisis Node 1.1 Tabel 6. Hasil Analisis Node 1.1.2. No Cuaca Suhu Kelembaban Berangin Main 1 Hujan Sejuk Tinggi Salah Ya 2 Hujan Sejuk Tinggi Benar Tidak Kelembaban Tinggi & Hujan Sum(Ya) Sum(Tidak) Entropi 2 1 1 1 Node Atribut Nilai Sum(Nilai) Sum(Ya) Sum(Tidak) Entropi Gain 1.1.2 Suhu Dingin 0 0 0 0 Panas 0 0 0 0 Sejuk 2 1 1 1 Berangin Salah 1 1 0 0 Benar 1 0 1 0 0 1 5

Gambar 4. Pohon Keputusan Akhir 6