MODUL 12 Model Prediktif Prediktif Analytics adalah teknologi yang menangkap proses data mining dalam rutinitas sederhana. Kadang-kadang disebut "one-click data mining," Model ini menyederhanakan dan mengotomatisasi proses data mining, seperti membuat profile, menemukan faktor-faktor yang mengarah ke hasil tertentu, memprediksi hasil yang paling mungkin, dan mengidentifikasi tingkat kepercayaan dalam prediksi. Analisis prediktif menggunakan teknologi data mining, tapi pengetahuan dari data mining tidak diperlukan untuk menggunakan analisis prediktif. Sub program dari data mining akan menganalisa data dan membuat model nya. Model ini dianalisa dan diuji untuk membentuk hasil yang dibutuhkan oleh pengguna. Bila Anda menggunakan teknologi data mining secara langsung, Anda membuat model atau menggunakan model yang diciptakan oleh orang lain. Biasanya, Anda menerapkan model untuk data baru 12.1 CLASSIFICATION Dalam konteks data mining, klasifikasi dilakukan dengan menggunakan model yang dibangun pada data histories. Tujuan klasifikasi prediktif adalah untuk memprediksi kelas target atau segmentasi secara akurat untuk setiap record data baru, yaitu, data yang tidak dalam data historis. Klasifikasi digunakan dalam segmentasi pelanggan, pemodelan bisnis, analisis kredit, dan banyak aplikasi lainnya. Sebagai contoh, sebuah perusahaan kartu kredit mungkin ingin untuk memprediksi pelanggan yang ingin melakukan pembayaran secara default atau tidak. Pelanggan dibagi menjadi dua kelas: Setiap pelangan berkorespondensi dengan kasus, data untuk masing-masing kasus mungkin terdiri dari sejumlah atribut 1
yang menggambarkan kebiasaan belanja pelanggan, pendapatan, atribut demografi dan sebagainya. Ini adalah atribut predictor. Atribut target menunjukkan ada atau tidak setiap pelanggan memiliki default. Data yang telah terbentuk digunakan untuk membuat model yang akan memprediksi untuk pelanggan baru, apakah termasuk yang melakukan pembayaran secara default atau tidak. Pada penerapan lain, classification sering digunakan untuk membuat profile pelanggan. Misalnya, setelah menentukan kecenderungan pelanggan untuk membeli kamera digital, maka kemudian dapat dibuat profil pelanggan dengan pekerjaan, seperti yang ditunjukkan pada Gambar di bawah ini Masalah yang terjadi pada klasifikasi adalah target biner atau multiclass. Target binary misalkan adalah pengambilan data hanya pada dua nilai, seperti resiko kredit baik dan resiko kredit buruk. Target multiclas memiliki nilai lebih dari dua, misalnya produk yang dibeli (sisir, sikat rambut atau pin rambut). Nilai target multiclass tidak diasumsikan ada pada suatu relasi yang berurutan. ( sikat rambut tidak dianggap lebih besar atau lebih kecil dari sisir) 2
Algoritma pada klasifikasi : Decision Tree Decision tree adalah satu metode klasifikasi yang paling popular Karena mudah diinterprestasikan oleh manusia. Decision tree digunakan untuk pengenalan pola dan termasuk dalam pengenalan pola secara acak statistik. Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara topdown untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu. Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision 3. Decision Tree Learning akan berusaha membangun pohon keputusan secara topdown, mulai dg pertanyaan : Atribut mana yang pertama kali harus dicek dan diletakkan pada root? Untuk menentukannya, diperlukan suatu ukuran statistik yaitu Entropy dan Information Gain. Entropy adalah suatu parameter untuk mengukur heterogenitas (keberagaman) suatu kumpulan data dengan rumus : Entropy(S) - pi log2 pi 3
Setelah mendapatkan nilai Entropy dari suatu atribut, maka kita dapat mengukur efektifitas suatu atribut dalam mengklasifikasikan data ( Information Gain ) dengan rumus : Gain (S,A) Entropy (S) - Entropy(Sv) Beberapa contoh pemakaian Decision Tree,yaitu : Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain Pemilihan pegawai teladan sesuai dengan kriteria tertentu Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain. Algoritma Naive Bayes Algoritma Naive Bayes (NB) dapat digunakan untuk masalah klasifikasi biner dan multiclass. NB membuat prediksi menggunakan Teorema Bayes, yang berasal probabilitas prediksi dari bukti-bukti yang mendasari. Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai teorema Bayes. Teorema tersebut dikombinasikan dengan naive dimana diasumsikan kondisi antar atribut saling bebas 4
Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang membuat algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Dasar dari teorema naive digunakan dalam pemrograman adalah rumus Bayes berikut ini: P (A B) = (P(B A) * P(A))/P(B) Artinya Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B. Contoh penggunaan Algoritma Naive Bayes antara lain: Untuk klasifikasi Dokumen Untuk deteksi SPAM atau fitering SPAM Dan masalah klasifikasi lainnya Algoritma Adaptive Bayes Network Algoritma Adaptive Bayes Network merupakan algoritma dengan bentuk yang sangat intuitif menghasilkan suatu model dalam bentuk pohon keputusan seperti bentuk dibawah ini. 5
Karena model yang dihasilkan oleh ABN adalah dalam bentuk yang terbacamanusia, seorang analis bisnis atau eksekutif akan lebih nyaman ketika menggunakannya untuk membuat keputusan bisnis. Algoritma ABN biasanya lebih akurat daripada NB, tetapi membutuhkan waktu lebih lama untuk membangun model. Orcle memberikan dua model lainnya untuk ABN yaitu Pruned Naïve Bayes dan Boosted. Namun kedua model ini tidak memberikan aturan yang mudah dibaca oleh manusia. Support Vector Machines Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaian harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition, usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinya menempatkannya sebagai state of the art dalam pattern recognition, dan dewasa ini merupakan salah satu tema yang berkembang dengan pesat. Berbagai penelitian dilakukan untuk mengevaluasi potensi SVM dalam analisa data biologi, antara lain: Analisa ekspresi gen Deteksi homologi protein Prediksi struktur protein Secara umum, perbandingan dari algoritma klasifikasi dapat dilihat pada tabel dibawah ini : 6
12.2. REGRESSION Model regresi yang mirip dengan model klasifikasi. Perbedaan antara regresi dan klasifikasi adalah regresi dilakukan pada target data numerik atau terus-menerus sedangkan klasifikasi dilakukan pada target data diskrit atau kategoris. Dengan kata lain, jika atribut target berisi nilai kontinyu (floating-point) atau nilai-nilai integer yang memiliki keteraturan, maka teknik regresi dapat digunakan. Contoh dari regresi adalah kebutuhan perusahaan untuk melakukan estimasi nilai sales pada tahun depan berdasarkan analisa trend sales tahun-tahun sebelumnya. Katakanlah nilai tahun lalu sebesar 100 juta rupiah, tahun ini sebesar 120 juta rupiah, mungkin hasilnya bisa naik atau bisa turun. Kemungkinan hasil probablitas tidak terbatas hanya 100 juta ataupun 200 juta rupiah Algoritma Regresi : Oracle Data Mining mendukung dua algoritma untuk regresi. Kedua algoritma sangat cocok untuk set data mining yang memiliki dimensi tinggi (atribut banyak), termasuk data transaksional dan tidak terstruktur. Generalized Linear Models (GLM) 7
GLM adalah teknik statistik yang populer untuk pemodelan linier. Oracle Data Mining mengimplementasikan GLM untuk regresi dan untuk klasifikasi biner. GLM menyediakan statistik koefisien luas dan statistik model, serta diagnosa baris. GLM juga mendukung batas keyakinan.support Vector Machines (SVM) SVM adalah lgoritma yang sangat bermanfaat untuk regresi linier dan nonlinier. Oracle Data Mining mengimplementasikan SVM untuk regresi dan fungsi pertambangan lainnya Sumber Cristianini N., Taylor J.S., An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods, Cambridge Press University, 2000 classification and validation of cancer tissue samples using microarray expression data, Bioinformatics, Vol.16, No.10, 2000,pp.906-914 10- Ward J.J., et Hobs Lilian, Oracle Database 10g Datawarehousing, Elsevier Digital Press Oracle Data Mining Concepts 10g Release 2 (10.2) B14339-01 8