Klasifikasi & Prediksi Elsen Ronando, S.Si.,M.Si.,M.Sc. elsen.ronando@untag-sby.ac.id Teknik Informatika Fakultas Teknik Universitas 17 Agustus 1945 Surabaya 2017 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 1 / 24
Rencana Presentasi 1 Pendahuluan Apa Proses Klasifikasi & Prediksi? Langkah-Langkah Proses Klasifikasi Tantangan Klasifikasi & Prediksi 2 Metode Klasifikasi Pohon Keputusan 3 Catatan Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 2 / 24
Pendahuluan Apa Proses Klasifikasi? Teknik untuk memprediksi kategori kelas label dari sekumpulan data. Proses pengelompokan data (membangun model) berdasarkan pelatihan data dan kelas labelnya dalam klasifikasi atribut dan menggunakan pemodelan untuk mengklasfikasian data baru. Termasuk pembelajaran terawasi Supervised Learning (terdapat target kelas label untuk masing-masing atribut data). Apa Proses Prediksi? Fungsi model kontinu untuk meramalkan nilai yang belum diketahui atau missing. Aplikasi : Aplikasi kredit. Aplikasi pemasaran. Aplikasi diagnosa medis. dan lain-lain Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 3 / 24
Pendahuluan Langkah-Langkah Proses Klasifikasi Membangun Model : menjelaskan kumpulan kelas yang telah ditetapkan. Setiap sampel data diasumsikan kedalam kelas yang telah ditetapkan sesuai dengan atribut label kelasnya. Sampel data digunakan untuk membangun model proses pelatihan. Model yang dibangun dapat direpresentasikan dalam aturan klasifikasi, pohon keputusan, maupun rumus matematika. Menggunakan model: mengklasifikasikan data selanjutnya atau yang belum diketahui. Mengestimasi akurasi dari model tersebut. Perbandingan hasil klafikasi model dengan data awal/uji. Tingkat akurasi dalam prosentase berdasarkan kesesuaian kebenaran. Data uji terpisah dari data pelatihan untuk mengetahui over-fitting. Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 4 / 24
Pendahuluan Langkah-Langkah Proses Klasifikasi Membangun Model : Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 5 / 24
Pendahuluan Langkah-Langkah Proses Klasifikasi Menggunakan Model : Prediksi Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 6 / 24
Pendahuluan Tantangan Klasifikasi & Prediksi Persiapan Data Pembersihan data mereduksi noise dan mengontrol nilai missing. Analisa Relevan (Seleksi Fitur) menghapus atribut tidak relevan atau redudansi. Transformasi data normalisasi data. Evaluasi Metode Klasifikasi Akurasi. Kecepatan dan skalabilitas waktu untuk membangun dan menggunakan model. Kekuatan mengontrol noise dan nilai missing. Skalabilitas efisiensi dalam basis data. Pemahaman wawasan yang disediakan oleh model. Aturan ukuran pohon keputusan & keterkaitan aturan klasifikasi. Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 7 / 24
Pohon Keputusan (Decision Tree) Konsep Dasar : Proses yang memerlukan satu atau kumpulan keputusan dalam penyelesaiannya. Berkaitan erat dengan konsep hirarki maupun pohon. Proses pengambilan keputusan melalui pendekatan statistik dalam kondisi uncertainty. Contoh Pohon Keputusan Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 8 / 24
Permasalahan Investor memiliki sejumlah dana untuk diinvestasikan pada dua alternati proyek, yaitu proyek A dan B. Peluang proyek A akan memberikan keuntungan adalah 20% dengan nilai keuntungan 50 juta. Peluang proyek B akan memberikan keuntungan adalah 45% dengan nilai keuntungan 10 juta. Tentukan pohon keputusan untuk membantu investor dalam berinvestasi! Penyelesaian : Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 9 / 24
Permasalahan Pengambilan Keputusan : Nilai Ekspektasi Ekonomi Nilai Ekspektasi Ekonomi Proyek A = (probabilitas nilai payoff) = (0.20 50juta)+(0.8 0)= 10 juta. Nilai Ekspektasi Ekonomi Proyek B = (probabilitas nilai payoff) = (0.45 10juta)+(0.55 0)= 4.5 juta. Jadi, investor tersebut harus memilih proyek A. Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 10 / 24
Permasalahan Tabel 1. Set Data Pengambil Keputusan cuaca temperatur kelembapan angin Bermain mendung dingin normal ya ya mendung panas tinggi tidak ya mendung panas normal tidak ya mendung sedang tinggi ya ya hujan dingin normal ya tidak hujan sedang tinggi ya tidak hujan dingin normal tidak ya hujan sedang tinggi tidak ya hujan sedang normal tidak ya terang panas tinggi tidak tidak terang panas tinggi ya tidak terang sedang tinggi tidak tidak terang dingin normal tidak ya terang sedang normal ya ya Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 11 / 24
Permasalahan Bagaimana hasil keputusan dalam memprediksi data baru? cuaca temperatur kelembapan angin Bermain hujan dingin tinggi tidak? Apa yang perlu dilakukan untuk menyelesaikan permasalahan prediksi diatas? Solusi Bangun sebuah model Pohon Keputusan. Salah satu teknik pohon keputusan ID3 dapat diterapkan nilai entropi dan informasi gain. Uji data baru (data prediksi) kedalam model keputusan baru diperoleh. Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 12 / 24
Pohon Keputusan ID3 Perhitungan Nilai Entropi Pohon keputusan akar pohon dan anak pohon. Algoritma ID3 menghitung kehomogenan sampel. Jika sampel adalah homogen, maka entropinya adalah nol. Jika sampel adalah seimbang, maka entropinya adalah satu. Entropi = p log 2 p q log 2 q Entropi menggunakan tabel frekuensi dari satu atribut: E(S) = c p i log 2 p i i=1 Entropi menggunakan tabel frekuensi dari dua atribut: E(T, X ) = c X P(c)E(c) Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 13 / 24
Pohon Keputusan ID3 Step 1 Perhitungan Informasi Gain berkaitan dengan penurunan entropi setelah set data dibagi pada sebuah atribut. Gain (T, X ) = Entropi(T ) Entropi(T, X ) Cari nilai gain terbesar untuk mencari atribut dalam pohon keputusan. Hitunng nilai entropi target : Entropi(target) = Entropi(ya, tidak) = Entropi(9, 5) = ( 9 14 log 2 = 0.94 9 14 + 5 14 log 2 5 14 ) Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 14 / 24
Step 2 Setdata dibagi pada atribut yang berbeda. Entropi setiap pohon dihitung. Secara proporsional, dapatkan total entropi untuk pembagi. Hasil entropi disubstrak dari entropi sebelum dibagi. Hitung informasi gain. Analisa Atribut Cuaca: Mendung Entropi(4,0) Hujan Entropi(3,2) Terang Entropi(2,3) Entropi(4, 0) = ( 4 4 log 2 Entropi(3, 2) = ( 3 5 log 2 Entropi(2, 3) = ( 2 5 log 2 4 4 + 0 4 log 0 2 4 ) = 0 3 5 + 2 5 log 2 2 5 ) = 0.97 2 5 + 3 5 log 3 2 5 ) = 0.97 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 15 / 24
Step 2 Analisa Atribut Cuaca (Lanjutan): Nilai entropi Cuaca Entropi(Cuaca) = 4 14 (0) + 5 14 (0.97) + 5 (0.97) = 0.69 14 Nilai Informasi Gain Cuaca Gain(Cuaca) = Entropi(target) Entropi(cuaca) = 0.94 0.69 = 0.25 Dengan cara yang sama pada atribut Cuaca, nilai gain untuk atribut lainya: Nilai Informasi Gain Temperatur Gain(Temperatur) = Entropi(target) Entropi(temperatur) = 0.94 0.91 = 0.03 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 16 / 24
Step 2 Dengan cara yang sama pada atribut Cuaca, nilai gain untuk atribut lainya (Lanjutan): Nilai Informasi Gain Kelembapan Gain(Kelembapan) = Entropi(target) Entropi(kelembapan) Nilai Informasi Gain Angin = 0.94 0.79 = 0.15 Gain(Angin) = Entropi(target) Entropi(angin) = 0.94 0.892 = 0.048 Nilai Informasi Gain Terbesar adalah atribut Cuaca menjadi akar pohon Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 17 / 24
Pohon Keputusan Awal Step 3 Lakukan algoritma ID3 secara berulang hingga tidak ada anak pohon yang dibentuk atau seluruh klasifikasi set data telah dicek seluruhnya. Analisa Atribut Temperatur, Kelembapan, dan Angin, ketika cuaca terang : cuaca temperatur kelembapan angin Bermain terang panas tinggi tidak tidak terang panas tinggi ya tidak terang sedang tinggi tidak tidak terang dingin normal tidak ya terang sedang normal ya ya Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 18 / 24
Analisa Atribut Temperatur: Panas Entropi(0,2) Dingin Entropi(1,0) Sedang Entropi(1,1) Nilai entropi Temperatur Entropi(0, 2) = ( 0 2 log 2 Entropi(1, 0) = ( 1 1 log 2 Entropi(1, 1) = ( 1 2 log 2 0 2 + 2 2 log 2 2 2 ) = 0 1 1 + 0 1 log 0 2 1 ) = 0 1 2 + 1 2 log 1 2 2 ) = 1 Entropi(Temperatur) = 2 5 (0) + 1 5 (0) + 2 (1) = 0.4 5 Nilai Informasi Gain Temperatur Gain(Temperatur) = Entropi(terang) Entropi(temperatur) = 0.97 0.4 = 0.57 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 19 / 24
Analisa Atribut Kelembapan: Tinggi Entropi(0,3) Normal Entropi(2,0) Nilai entropi Kelembapan Entropi(0, 3) = ( 0 3 log 2 Entropi(2, 0) = ( 2 2 log 2 Nilai Informasi Gain Kelembapan 0 3 + 3 3 log 3 2 3 ) = 0 2 2 + 0 2 log 0 2 2 ) = 0 Entropi(Kelembapan) = 3 5 (0) + 2 5 (0) = 0 Gain(Kelembapan) = Entropi(terang) Entropi(Kelembapan) = 0.97 0 = 0.97 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 20 / 24
Analisa Atribut Angin: Ya Entropi(1,1) Tidak Entropi(2,0) Nilai entropi Angin Nilai Informasi Gain Angin Entropi(1, 1) = ( 1 2 log 2 Entropi(1, 2) = ( 1 3 log 2 1 2 + 1 2 log 1 2 2 ) = 1 1 3 + 2 3 log 2 2 3 ) = 0.9182 Entropi(Angin) = 2 5 (1) + 2 (0.9182) = 0.76 5 Gain(Angin) = Entropi(terang) Entropi(Angin) = 0.97 0.76 = 0.21 Kelembapan menjadi anak pohon dari cuaca terang Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 21 / 24
Skema Pohon Keputusan Lakukan analisa atribut seperti sebelumnya, ketika cuaca hujan! Hasil Prediksi cuaca temperatur kelembapan angin Bermain hujan dingin tinggi tidak Ya Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 22 / 24
Catatan Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut : https://sites.google.com/site/elsenronandosite/teaching Klik. Apabila ada pertanyaan mengenai data mining dapat mengirim ke alamat email berikut : elsen.ronando@untag-sby.ac.id. Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 23 / 24
Terimakasih Atas Perhatiannya Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 24 / 24