Pohon Keputusan. 6.1 Inductive Learning

dokumen-dokumen yang mirip
ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

Algoritma Dasar. 4.1 Naive Bayes

Bagian II. Algoritma Pembelajaran Mesin

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

ID3 : Induksi Decision Tree

Algoritma C4.5. Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 1.

Manfaat Pohon Keputusan

Algoritma Data Mining (2) Tugas Klasifikasi

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

Classification (1) Classification (3) Classification (2) Contoh Classification. Classification (4)

MKB3462 KECERDASAN BUATAN. Muhammad Zidny Naf an, M.Kom.

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

BAB II STUDI PUSTAKA

Diktat Kuliah Data Mining - Institut Informatika Indonesia Semester Genap 2006/ Maret 2007 Sub Materi: ID3: Induksi Decision Tree

Metode Bayes. Tim Machine Learning

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Bab II Dasar Teori. 2.1 Estimasi Akurasi Classifier Metode Holdout

Supervised Learning Misalkan kita ingin membuat suatu program komputer yang ketika diberi gambar seseorang, dapat menentukan apakah orang dalam

BAB II INDUCT/RIPPLE-DOWN RULE (RDR)

Klasifikasi. Diadaptasi dari slide Jiawei Han

RULE MINING UNTUK KLASIFIKASI DATA MENGGUNAKAN SEARCH TREE

BAB II TINJAUAN PUSTAKA

LANDASAN TEORI. Universitas Indonesia

Klasifikasi. Diadaptasi dari slide Jiawei Han

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

BAB II TINJAUAN PUSTAKA Sejarah Singkat dan Perkembangan Umum Perusahaan [8] Perusahaan Daerah Bank Perkreditan Rakyat Kabupaten Bandung Cabang

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB II TINJAUAN PUSTAKA

BAB III METODE CHI-SQUARED AUTOMATIC INTERACTION DETECTION

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

Belajar Mudah Algoritma Data Mining : C4.5

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

Sebelumnya... Sistem Pakar berbasis Logika Fuzzy

Pengenalan Pola. Klasifikasi Naïve Bayes

SISTEM PENDUKUNG KEPUTUSAN REWARD DAN PUNISHMENT KARYAWAN BERDASARKAN TINGKAT KEPUASAN KONSUMEN MENGGUNAKAN ALGORITMA C4.5 PADA MODEL RUMAH SAKIT

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

Versi Online tersedia di : JURNAL TECH-E (Online)

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

BAB II TINJAUAN PUSTAKA

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB I PENDAHULUAN 1.1 Latar Belakang

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

BAB 2 TINJAUAN PUSTAKA

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R)

Metode klasifikasi Naïve Bayes. Team teaching

KLASIFIKASI PADA TEXT MINING

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK

Metode C45 Untuk Mengklarifikasi Pelanggan Perusahaan Telekomunikasi Seluler

BAB II LANDASAN TEORI

Penggunaan Pohon Keputusan untuk Data Mining

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

IKI30320 Kuliah 19 3 Des Ruli Manurung. Learning. Agents. Inductive Learning. Decision Tree. Mengukur Kinerja Belajar.

BAB 2 TINJAUAN PUSTAKA

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Implementasi Pohon Keputusan Pada Penyaringan Berita Taklayak Baca di Media Sosial

Teknik Informatika UKDW Yogyakarta

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

Bab 2 Tinjauan Pustaka 2.1 Penelitian Sebelumnya

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK PENJURUSAN SISWA (STUDI KASUS: SMA NEGERI 1 PONTIANAK)

ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN

TINJAUAN PUSTAKA. Definisi Data Mining

KLASIFIKASI PADA TEXT MINING

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

TUGAS DATA MINING. Nama Kelompok : I Putu Ari Ratna Pratama ( ) Putu Mega Suryawan ( ) Ida Bagus Surya Winantara ( )

BAB III METODE PENELITIAN

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Educational Data Mining untuk Mengetahui Pola Minat Kerja Mahasiswa

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

BAB I PENDAHULUAN 1.1 Latar Belakang

Classification. Decision Tree. Decision Tree. Konsep Decision Tree. Penggunaan Decision Tree. When To Consider Decision Tree?

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB II Dasar Teori II.1 Data Mining II.1.1 Pengantar Data Mining

BAB III ANALISA DAN DESAIN SISTEM

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN

Transkripsi:

6 Pohon Keputusan Sometimes you make the right decision, sometimes you make the decision right. Phil McGraw Bab ini akan menelaskan salah satu varian pohon keputusan yaitu ID3 oleh Quinlan [27, 28] yang terinspirasi oleh teori informasi [29]. Algoritma ini sudah cukup tua, tetapi layak dimengerti. ID3 adalah salah satu varian dari supervised learning. 6.1 Inductive Learning Salah satu bentuk kecerdasan sederhana kemungkinan adalah dalam bentuk aturan (rule) yang merepresentasikan pengetahuan. Misalkan, untuk menentukan apakah suatu pasien terserang penyakit tertentu, dokter mencari tahu geala-geala yang ada. Berdasarkan geala-geala yang ada, dokter memutuskan bahwa pasien memiliki suatu penyakit. Pada zaman dahulu, peneliti mentranskripsi aturan-aturan (if then) eksplisit (berdasarkan pengetahuan ahli) untuk membuat agen cerdas (expert system). Aturan sangat berguna, tetapi proses transkripsi pengetahuan sang ahli menadi aturan formal (matematis) adalah hal yang sulit. Pada era big data seperti sekarang, kita dapat mengotomatisasi hal tersebut dengan membuat aturan-aturan secara otomatis berdasarkan contoh data yang ada (machine learning). Pendekatan ini disebut inductive learning, yaitu mengembangkan aturan klasifikasi yang dapat menentukan kelas suatu instans berdasarkan nilai atributnya (feature vector). Cara paling sederhana diberikan pada subbab 3.3 yaitu mendaftarkan seluruh kemungkinan aturan yang ada, kemudian menghapus yang kurang cocok. Algoritma lebih baik adalah dengan membangun pohon keputusan (decision tree).

68 6 Pohon Keputusan 6.2 ID3 Seperti yang dielaskan pada subbab sebelumnya, decision tree adalah varian dari inductive learning. ID3 adalah salah satu algoritma varian decision tree [28]. Decision tree dibangun berdasarkan asumsi bila atribut yang ada memberikan informasi yang cukup memadai maka kita mampu membangun decision tree yang mampu mengklasifikasikan seluruh instans di training data [28]. Akan tetapi, kita tentunya ingin melakukan generalisasi, yaitu decision tree yang uga mampu mengklasifikasikan obek dengan benar untuk instans yang tidak ada di training data (unseen instances). Oleh karena itu, kita harus mampu mencari hubungan antara kelas dan nilai atribut. Gambar 6.1. Final Decision Tree. id outlook temperature humidity windy play (class) 1 sunny hot high false no 2 sunny hot high true no 3 overcast hot high false yes 4 rainy mild high false yes 5 rainy cool normal false yes 6 rainy cool normal true no 7 overcast cool normal true yes 8 sunny mild high false no 9 sunny cool normal false yes 10 rainy mild normal false yes 11 sunny mild normal true yes 12 overcast mild high true yes 13 overcast hot normal false yes 14 rainy mild high true no Tabel 6.1. Contoh dataset play tennis (UCI machine learning repository).

6.2 ID3 69 Strategi pembangunan ID3 adalah berdasarkan top-down rekursif. Pertama, kita pilih atribut untuk root pohon, lalu membuat cabang untuk setiap nilai atribut yang mungkin. Untuk masing-masing cabang, kita buat subtree. Kita hentikan proses ini ketika kita sudah mencapai leaf (tidak bisa mencabang lebih auh). Leaf ditandai apabila seluruh instans pada cabang tersebut memiliki kelas yang sama. Atribut yang sudah dipilih pada ancestor tidak akan dicoba pada percabangan di cabang tertentu. Sebagai contoh, perhatikanlah Gambar. 6.1 yang merupakan hasil ID3 untuk Tabel. 6.1. Bentuk elips merepresentasikan nama atribut, sementara edge (panah) merepresentasikan nilai atribut. Bentuk segi empat merepresentasikan klasifikasi kelas (leaf ). Pohon keputusan pada Gambar. 6.1 dapat dikonversi menadi kumpulan aturan klasifikasi berbentuk logika preposisi dengan menelusuri setiap cabang pada pohon tersebut, yaitu: if outlook=sunny and humidity=high then play=no if outlook=sunny and humidity=normal then play=yes if outlook=overcast then play=yes if outlook=rainy and windy=false then play=yes if outlook=rainy and windy=true then play=no Pada setiap langkah membangun ID3, kita menggunakan information gain untuk memilih kandidat atribut terbaik. Information gain mengukur kemampuan suatu atribut untuk memisahkan training data berdasarkan kelas [7]. Sebelum masuk ke perumusan information gain, kami akan memperkenalkan entropy terlebih dahulu. Entropy (deraat ketidakteraturan) adalah informasi yang dibutuhkan untuk memprediksi sebuah keadian, diberikan distribusi probabilitas. Secara matematis, entropy didefinisikan pada persamaan 6.1. entropy(a, b) = a log a b log b (6.1) Kita uga definisikan Info sebagai persamaan 6.2. Info(c 1, c 2,..., c N ) = entropy( N c 1 c, N c 2 c,..., c N N c ) (6.2) dimana c i adalah umlah instans diklasifikasikan sebagai kelas ke-i (atau secara lebih umum, ke node-i). Information gain dihitung sebagai persamaan 6.3. IG(c 1, c 2,..., c N ) = Info(c 1, c 2,..., c N ) vɛv c v N i=1 c i Info(c 1 v, c 2 v,..., c N v ) (6.3)

70 6 Pohon Keputusan dimana c i adalah umlah instans untuk kelas ke-i, v adalah nilai atribut, c v adalah umlah instans ketika dicabangkan dengan nilai atribut v, c v x adalah umlah instans kelas saat percabangan. Information gain dapat dimaknai sebagai pengurangan entropy karena melakukan percabangan. Sebagai contoh, mari kita hitung Information gain untuk atribut outlook sebagai root. Dari keseluruhan data terdapat 9 instans untuk play = yes dan 5 instans untuk play = no. Kita hitung Info semesta sebagai (log basis 2) ([ 9 Info([9, 5]) = entropy = 9 14 log ( 9 14 14, 5 ]) 14 ) 5 14 log ( ) 5 14 = 0.940 Kita hitung entropy untuk masing-masing nilai atribut outlook sebagai berikut: outlook = sunny Ada dua instans dengan play = yes dan tiga instans dengan play = no saat outlook = sunny, dengan demikian kita hitung Info-nya. ( 2 Info([2, 3]) = entropy 5, 3 ) 5 = 2 ( ) 2 5 log 3 ( ) 3 5 5 log 5 = 0.971 outlook = overvast Ada empat instans dengan play = yes dan tidak ada instans dengan play = no saat outlook = overcast, dengan demikian kita hitung Infonya. ( 4 Info([4, 0]) = entropy 4, 0 ) 4 = 4 ( ) 4 4 log 0 ( ) 0 4 4 log 4 = 0 Perhatikan log 0 pada matematika adalah tidak terdefinisi, tapi kita anggap 0 log 0 sebagai 0 dalam komputasi. outlook = rainy Ada tiga instans dengan play = yes dan dua instans dengan play = no saat outlook = rainy, dengan demikian kita hitung Info-nya.

6.2 ID3 71 ( 3 Info([3, 2]) = entropy 5, 2 ) 5 = 3 ( ) 3 5 log 2 ( ) 2 5 5 log 5 = 0.971 Kita hitung informaiton gain untuk atribut outlook sebagai IG(outlook) = Info ([9, 5]) ( 5 4 Info ([3, 2]) + 14 = 0.940 = 0.940 0.693 14 Info([4, 0]) + 5 14 ( 5 14 0.971 + 4 14 0 + 5 14 0.971 ) ([3, 2]) ) = 0.247 Dengan metode yang sama, kita hitung information gain untuk atribut lainnya. IG(temperature) = 0.029 IG(humidity) = 0.152 IG(windy) = 0.048 Dengan demikian, kita memilih atribut outlook sebagai root. Kita lanutkan lagi membuat subtree setelah memilih atribut outlook sebagai root. Kita hitung atribut yang tepat pada cabang outook = sunny, seperti diilustrasikan pada Gambar. 6.2. Pada outlook = sunny, terdapat dua instans dengan kelas play = yes dan tiga instans dengan kelas play = no. Kita hitung information gain saat melanutkan cabang dengan atribut humidity. ( 3 IG(temperature) = Inf o([2, 3]) 5 Info([0, 3]) + 2 ) Info([2, 0]) 5 = 0.971 0 = 0.971 Proses ini dilanutkan sampai kita tidak bisa mencabang lagi.

72 6 Pohon Keputusan Gambar 6.2. Percabangan. 6.3 Isu pada ID3 Pada algoritma decision tree secara umum, terdapat beberapa isu diantara lain [7, 30]: 1. Mudah overfitting 2. Masalah menangani atribut kontinu 3. Information gain memiliki bias terhadap atribut yang memiliki banyak nilai (highly-branching attributes) 4. Data dengan missing value 5. Data dengan unseen value 6.4 Hubungan Decision Tree dan Model Linear Ada hubungan antara algorithma decision tree dan model linear. Pada model linear, kita semacam membagi-bagi ruang konsep (semesta data) menadi ruang per kelas menggunakan garis pembatas linear. Decision tree melakukan hal yang hampir sama, karena percabangan decision tree dapat dianggap sebagai linier. Sebagai contoh perhatikan ilustrasi Gambar. 6.3, dimana semesta adalah suatu ruang konsep. Tiap ruang merepresentasikan suatu cabang (dari root sampai leaf ) pada decision tree. Garis-garis yang membentuk ruangruang pemisah disebut sebagai decision boundary.

6.4 Hubungan Decision Tree dan Model Linear 73 Gambar 6.3. Pembagian Ruang Konsep. Soal Latihan 6.1. Isu Pada subbab 6.3, telah disebutkan isu-isu yang ada pada ID3, sebutkan dan elaskan bagaimana cara menangani masing-masing isu tersebut! 6.2. Gain Ratio Selain information gain, kita dapat menggunakan cara lain untuk memilih atribut bernama gain ratio. Jelaskan perbedaan keduanya! Yang mana lebih baik? 6.3. C4.5 ID3 disempurnakan kembali oleh pembuat aslinya menadi C4.5. Jelaskanlah perbedaan ID3 dan C4.5, beserta alasan strategi penyempurnaan! 6.4. Pruning Jelaskan apa itu pruning dan bagaimana cara melakukan pruning untuk decision tree! 6.5. Association Rule Terdapat beberapa algoritma association rule yang membentuk aturan-aturan seperti decision tree. (a) Jelaskanlah algoritma PRISM dan Apriori! (b) Jelaskan perbedaan association rule dan inductive learning! 6.6. Final Decision Tree Lanutkanlah proses konstruksi ID3 untuk Tabel. 6.1 hingga membentuk decision tree akhir seperti pada Gambar. 6.1!