Data Preprcessing dengan RapidMiner Budi Susant RapidMiner - Budi Susant
Atribut Data Kenali Data Anda Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang ksng, memperhalus nise data, mengetahui utlier selama pemrsesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi utlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur kedekatan. RapidMiner - Budi Susant
Data Data yang ada pada umumnya: Banyak nise Ukuran yang besar Dapat merupakan campuran dari berbagai macam sumber Memahami data sangat penting untuk tahap preprsesing. RapidMiner - Budi Susant
Atribut Data Mencerminkan karakteristik bjek data. Tipe atribut menentukan himpunan nilai yang diperblehkan. Nminal Binary (Binmial) Ordinal Numerik Interval-scale Rati-scale Diskret atau Cntinue RapidMiner - Budi Susant
Deskripsi Statistik Mengukur lkasi pusat/tengah dari distribusi data Mean Median Mde Midrange Data Mining: Cncepts and Techniques, 3th ed., p. 47 RapidMiner - Budi Susant
Deskripsi Statistik Mengukur penyebaran data Rentang dan Kuartil Variasi dan Standard Deviasi Data Mining: Cncepts and Techniques, 3th ed., p. 48 RapidMiner - Budi Susant
Interquartil Range (IQR) Q3 Q1 Outlier data 1.5 x IQR BxPlt RapidMiner - Budi Susant
Mengukur Kesamaan Dalam aplikasi data mining, seperti clustering, analisis utlier, klasifikasi nearest-neighbr, membutuhkan cara untuk menilai dua bjek data serupa atau tidak. Minkwski distance Euclidean dan Manhattan Csine RapidMiner - Budi Susant
Mengukur Kesamaan RapidMiner - Budi Susant
Data Preprcessing Teknik-teknik: Data Cleaning Data integratin Data Reductin Data Transfrmatin Mengapa penting? Untuk memenuhi data quality Accuracy Cmpleteness Cnsistency Disamping terdapat faktr data quality lain: Timeliness Believability interpretability RapidMiner - Budi Susant
Data Cleaning Prses untuk membersihkan data dengan beberapa teknik Memperkecil nise membetulkan data yang tidak knsisten. Mengisi missing value Mengidentifikasi atau membuang utlier RapidMiner - Budi Susant
Data Cleaning: Missing Values Mengabaikan recrd Biasanya untuk label klasifikasi yang ksng Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data nrmal Median digunakan jika distribusi data tidak nrmal (cndng) Menggunakan nilai glbal Menggunakan nilai termungkin Menerapkan regresi RapidMiner - Budi Susant
Data Cleaning: Nisy Data Nise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. Teknik-teknik Binning Smthing by bin means Smthing by bin medians Smthing by bin bundaries Regressin Outlier Analysis RapidMiner - Budi Susant
Percbaan Data Cleaning Dataset Labr-Negtiatins RapidMiner - Budi Susant
RapidMiner - Budi Susant Wrkflw #1
Data Integratin Data dapat bersumber dari beberapa sumber Teknik Analisis krelasi Atribut redundan duplikasi RapidMiner - Budi Susant
Cvariance Crrelatin RapidMiner - Budi Susant
Data Transfrmatin Tujuannya: diharapkan lebih efisien dalam prses data mining dan mungkin juga agar pla yang dihasilkan lebih mudah dipahami. Strategi: Smthing Attribute (feature) cnstructin Aggregatin Nrmalizatin Discretizatin RapidMiner - Budi Susant
Data Transfrmatin: Aggregatin dan Smthing RapidMiner - Budi Susant
Data Transfrmatin: Nrmalizatin Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar Atribut akan memiliki bbt yang lebih besar dari atribut lain Sehingga Data perlu dinrmalisasi atau dibakukan. Hasil suatu nrmalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural netwrk dan nearest netwrk) dan clustering. RapidMiner - Budi Susant
Data Transfrmatin: Metde Nrmalizatin Min-max Z-scre Decimal scaling RapidMiner - Budi Susant
RapidMiner - Budi Susant nrmalizatin
Data Transfrmatin: Discretizatin Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau knseptual label (misalnya: bawah, tengah, atas) RapidMiner - Budi Susant
RapidMiner - Budi Susant discretizatin
Teknik Data Transfrmatin: Data Reductin Dimensinality reductin Wavelet transfrm Principal Cmpnent Analysis Attribute Subset Selectin Numersity reductin sampling Data cmpressin RapidMiner - Budi Susant