Data Mining Outline BAB I Pendahuluan BAB II Data BAB III Algoritma Klasifikasi BAB IV Algoritma Klastering BAB V Algoritma Asosiasi BAB VI Algoritma Estimasi BAB VII Deteksi Anomali Ricky Maulana Fajri BAB IX Text Mining Recap Proses Data Mining 1. Jelaskan Apa yang dimaksud dengan data, informasi, pengetahuan. 2. Jelaskan perbedaan prediksi dan klasifikasi! 3. Jelaskan perbedaan klastering dan association! 4. Sebutkan tahapan utama proses data mining! 1. Himpunan Data (Pemahaman dan Pengolahan Data) 2. Metode Data Mining (Pilih Metode Sesuai Karakter Data) 3. Pengetahuan 4. Evaluation (Pola/Model/Rumus/ Tree/Rule/Cluster) (Akurasi, AUC, RMSE, Lift Ratio, ) DATA PRE PROCESSING Data Cleaning Data Integration Data Reduction Data Transformation Estimation Prediction Classification Clustering Association 4 1. Himpunan Data (Dataset) Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi Jenis dataset ada dua: Private dan Public Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc Public Dataset: data setdapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining UCI Repository (http://www.ics.uci.edu/~mlearn/mlrepository.html) ACM KDD Cup (http://www.sigkdd.org/kddcup/) PredictionIO (http://docs.prediction.io/datacollection/sample/) Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable Dataset (Himpunan Data) Attribute/Feature Class/Label/Target Record/ Object/ Sample/ Tuple Nominal Numerik 5 6 1
2. Metode Data Mining (DM) 1. Estimation (Estimasi): Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi): Naive Bayes, K Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): K Means, K Medoids, Self Organizing Map (SOM), Fuzzy C Means, etc 5. Association (Asosiasi): FP Growth, A Priori, Coefficient of Correlation, Chi Square, etc 3. Pengetahuan (Pola/Model) 1. Formula/Function (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Tingkat Korelasi 4. Rule (Aturan) IF ips3=2.8 THEN lulustepatwaktu 5. Cluster (Klaster) 7 8 4. Evaluasi (Akurasi, Error, etc) 1. Estimation: Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 2. Prediction/Forecasting (Prediksi/Peramalan): Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 3. Classification: Confusion Mti Matrix: Accuracy ROC Curve: Area Under Curve (AUC) 4. Clustering: Internal Evaluation: Davies Bouldin index, Dunn index, External Evaluation: Rand measure, F measure, Jaccard index, Fowlkes Mallows index, Confusion matrix 5. Association: Lift Charts: Lift Ratio Precision and Recall (F measure) Guide for Classifying the AUC 1. 0.90 1.00 = excellent classification 2. 0.80 0.90 = good classification 3. 0.70 0.80 = fair classification 4. 060 0.60 070 0.70 = poor classification 5. 0.50 0.60 = failure (Gorunescu, 2011) 9 10 Kriteria Evaluasi dan Validasi Model 1. Akurasi Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan 2. Kehandalan Ukuran di mana model data mining diterapkan pada dataset yang berbeda Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data testing yang disediakan 3. Kegunaan Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna Kualitas Data Kesalahan yang terjadi sehingga menyebabkan kualitas data menjadi tidak baik. Sering kali didapatkan kualitas data yang kurang baik dikarenakan kesalahan pengukuran (Measurement Error) dan kesalahan pengumpulan Contoh Kesalahan Pengukuran Noise Bias Precision Accurasi 11 2
Kesalahan Pengukuran Noise berkaitan dengan modifikasi dari nilai asli Bias : suatu variasi pengukuran dari kuantitas yang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui Precision : Adalah kedekatan dari pengukuran berulang (dari kuantitas yang sama) satu dengan lainnya. Diukur ddengan standard deviasi Accuracy Adalah kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas yang sedang diukur Kesalahan Pengumpulan Kesalahan pada saat data dikumpulkan seperti hilangnya objek data atau nilai atribut, dan lingkup objek data yang tidak tepat. Yang termasuk dalam kesalahan pengumpulan p adalah Outliers Missing Values Duplicate Data Outliers Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan data dalam data set. Missing Values Merupakan nilaid ari suatu atribut yang tidak ditemukan alasan terjadinya missing values adalah Informasitidak diperoleh (misal orang menolak untuk memberikan informasi umur dan berat badan) Atribut yang mungkin tidak bisa diterapkan ke semua kasus (pendapatan tahunan tidak bisa diterapkan pada anak anak) Duplicate Data Data set mungkin terdiri dari objek data yang ganda. Atau sering terjadi dupliksai antara satu dengan lainnya. Persoalan utama ketika menggabungkan data dari sumber sumber yang bervariasi Orang yang sama dengan alamat email yang lebih dari satu. 3
Data Preprocessing Sebelum diterapkan algoritma data mining terhadap sebuah data set makan diperlukan prosess pengolahan awal. Proses ini bertujuan untuk mendapatkan data set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. Data Preprocessing Proses data prepocessing antara lain. Aggregation Sampling Dimensionality Reduction Feature Subset Selection Feature Creation Discretization dan binarization Attribute Transformation Aggregation Proses pengumpulan adalah proses mengkombinasikan dua atau lebih atributatribut atau objek objek kedalam satu atribut tunggal atau objek. No Transaksi Nama barang Lokasi Toko Tanggal Harga... 1001122 Supermie Bukit 12 8 2016 1500 1001122 Gula 1 Kg Bukit 12 8 2016 9000 1001123 Buku Demang 23 8 2016 15000..... Penarikan Contoh Penarikan Contoh merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan analisis data akhir. Penarikan contoh digunakan dalam data minging karena pengolahan himpunan data yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu Dimensionality Reduction Jika Dimensi meningkat, data akan meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik yang merupakan kondisi kritis untuk clustering dan outlier detection Manfaat DR Mencegah efek dimensionalitas Mengurangi jumlah waktu dan memori untuk algoritma data mining Membuat data lebih mudah divisualisasikan Membantu menguragi fitur yang tidak relevan Feautre Subset Selection Salah satu cara untuk mengurangi dimensi dalah dengan memilih fitur yang tepat atau hanya menggunakan atribut atribut yang diperlukan Teknik Brute force Approach Embedded Approach Filter Approach Wrapper Approach 4
Feature Creation Merupakan Proses membuat atribut baru yang dapat menangkap informasi penting dalam sebuah himpunan data yang lebih efision daripada atribut yang ada. Teknik Ekstraksi Fitur Pemetaan Data ke ruang menggunakan transformasi fourier Konstruksi Fitur Discreatization and Binarization Algoritma data mining khususnya algoritma klasifikasi mebutuhkan data dalam bentuk atribut katagorikal, sedangkan algoritma asosiasi memerlukan atdata ke dalam bentuk biner. Transformasi atribut kontinyu ke dalam bentuk katagorikal disebut discreatization. Tranformasi atribut kontinyo ke dalam bentuk biner disebut binarization Summary Question Proses Data Mining Kualitas Data 5