DATA PREPROCESSING Budi Susanto (versi 1.2) Kenali Data Anda Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang kosong, memperhalus noise data, mengetahui outlier selama pemrosesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi outlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur kedekatan. 1
Data Data yang ada pada umumnya: Banyak noise Ukuran yang besar Dapat merupakan campuran dari berbagai macam sumber Memahami data sangat penting untuk tahap preprosesing. Atribut Data Mencerminkan karakteristik objek data. Tipe atribut menentukan himpunan nilai yang diperbolehkan. Nominal Binary (Binomial) Ordinal Numerik n Interval-scale n Ratio-scale Diskret atau Continue 2
Deskripsi Statistik Mengukur lokasi pusat/tengah dari distribusi data Mean Median Mode Midrange Data Mining: Concepts and Data Techniques, Preprocessing 3th ed., - Budi p. 47 Susanto - FTI UKDW Deskripsi Statistik Mengukur penyebaran data Rentang dan Kuartil Variasi dan Standard Deviasi Data Mining: Concepts and Data Techniques, Preprocessing 3th ed., - Budi p. 48 Susanto - FTI UKDW 3
BoxPlot Interquartil Range (IQR) Q3 Q1 Outlier data 1.5 x IQR Mengukur Kesamaan Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. Minkwoski distance n Euclidean dan Manhattan Cosine 4
Mengukur Kesamaan Mengapa Perlu Data Preprocessing? Data mentah yang ada sebagian besar kotor Tidak komplet n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate Banyak noise n Berisi data yang Outlier n Berisi error Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama 5
Mengapa Data Preprocessing Penting? Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula. Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%). Ukuran Kualitas Data Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility 6
Teknik Data Preprocessing Data Cleaning Data integration Data Reduction Data Transformation Data Cleaning Proses untuk membersihkan data dengan beberapa teknik Memperkecil noise membetulkan data yang tidak konsisten. Mengisi missing value Mengidentifikasi atau membuang outlier 7
Data Cleaning: Missing Values Mengabaikan record Biasanya untuk label klasifikasi yang kosong Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data normal Median digunakan jika distribusi data tidak normal (condong) Menggunakan nilai global Menggunakan nilai termungkin Menerapkan regresi Data Cleaning: Missing Values Angkatan IPK Pekerjaan Kelamin 2004 3.45 Programmer L 2005? Ibu RT P 2003 2.81? P Contoh untuk missing value IPK diisi dengan ratarata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga. Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul. 8
Data Cleaning: Noisy Data Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. Teknik-teknik Binning n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries Regression Outlier Analysis Metode Binning Metode ini akan melakukan pengelompokan terhadap kumpulan data. Metode binning merupakan salah satu pendekatan dicretization. Urutan proses: Urutkan data secara ascending Lakukan partisi ke dalam bins n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi) Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb. 9
Partisi dalam Metode Binning Partisi Equal-Width Algoritma membagi data ke dalam k interval ukuran yang sama. Lebar interval adalah n w = (max-min)/k Batasan interval adalah n min+w, min+2w,, min+(k-1)w Partisi Equal-depth Membagi data ke dalam k kelompok dimana tiap kelompok berisi jumlah yang sama Contoh Partisi Binning Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 Equal Width BIN1 = 0, 4 [-, 10] BIN2 = 12, 16, 16, 18 [10, 20] BIN3 = 24, 26, 28 [20, +] Equal Depth BIN1 = 0, 4, 12 BIN2 = 16, 16, 18 BIN3 = 24, 26, 28 10
Smoothing pada Partisi Binning Smoothing berdasar rata-rata Semua nilai di tiap bin diganti dengan rata-rata nilai tiap bin Smoothing berdasar batasan Setiap nilai bin diganti dengan nilai yang paling dekat dari batasan nilai Batasan nilai terbentuk dari [min, max] tiap bin Data Cleaning: Outliers salary cluster outlier age 11
Data Cleaning: Regresi y (salary) Y1 y = x + 1 X1 x (age) Percobaan Data Cleaning Dataset Labor-Negotiations 12
Workflow #1 reglin Data Integration Data dapat bersumber dari beberapa sumber Teknik Analisis korelasi Atribut redudan duplikasi 13
Covariance Correlation integration Data Transformation Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami. Strategi: Smoothing Attribute (feature) construction Aggregation Normalization Discretization 14
Data Transformation: Aggregation dan Smoothing coba1 Data Transformation: Normalization Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar Atribut akan memiliki bobot yang lebih besar dari atribut lain Sehingga Data perlu dinormalisasi atau dibakukan. Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering. 15
Data Transformation: Metode Normalization Min-max Z-score Decimal scaling normalization 16
Data Transformation: Discretization Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas) discretization discret 17
Data Transformation: Data Reduction Teknik Dimensionality reduction n Wavelet transform n Principal Component Analysis n Attribute Subset Selection Numerosity reduction n sampling Data compression TERIMA KASIH! Budi Susanto 18