Data Preprocessing dengan RapidMiner Budi Susanto. RapidMiner - Budi Susanto

Data Preprcessing dengan RapidMiner Budi Susant RapidMiner - Budi Susant

Atribut Data Kenali Data Anda Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang ksng, memperhalus nise data, mengetahui utlier selama pemrsesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi utlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur kedekatan. RapidMiner - Budi Susant

Data Data yang ada pada umumnya: Banyak nise Ukuran yang besar Dapat merupakan campuran dari berbagai macam sumber Memahami data sangat penting untuk tahap preprsesing. RapidMiner - Budi Susant

Atribut Data Mencerminkan karakteristik bjek data. Tipe atribut menentukan himpunan nilai yang diperblehkan. Nminal Binary (Binmial) Ordinal Numerik Interval-scale Rati-scale Diskret atau Cntinue RapidMiner - Budi Susant

Deskripsi Statistik Mengukur lkasi pusat/tengah dari distribusi data Mean Median Mde Midrange Data Mining: Cncepts and Techniques, 3th ed., p. 47 RapidMiner - Budi Susant

Deskripsi Statistik Mengukur penyebaran data Rentang dan Kuartil Variasi dan Standard Deviasi Data Mining: Cncepts and Techniques, 3th ed., p. 48 RapidMiner - Budi Susant

Interquartil Range (IQR) Q3 Q1 Outlier data 1.5 x IQR BxPlt RapidMiner - Budi Susant

Mengukur Kesamaan Dalam aplikasi data mining, seperti clustering, analisis utlier, klasifikasi nearest-neighbr, membutuhkan cara untuk menilai dua bjek data serupa atau tidak. Minkwski distance Euclidean dan Manhattan Csine RapidMiner - Budi Susant

Mengukur Kesamaan RapidMiner - Budi Susant

Data Preprcessing Teknik-teknik: Data Cleaning Data integratin Data Reductin Data Transfrmatin Mengapa penting? Untuk memenuhi data quality Accuracy Cmpleteness Cnsistency Disamping terdapat faktr data quality lain: Timeliness Believability interpretability RapidMiner - Budi Susant

Data Cleaning Prses untuk membersihkan data dengan beberapa teknik Memperkecil nise membetulkan data yang tidak knsisten. Mengisi missing value Mengidentifikasi atau membuang utlier RapidMiner - Budi Susant

Data Cleaning: Missing Values Mengabaikan recrd Biasanya untuk label klasifikasi yang ksng Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data nrmal Median digunakan jika distribusi data tidak nrmal (cndng) Menggunakan nilai glbal Menggunakan nilai termungkin Menerapkan regresi RapidMiner - Budi Susant

Data Cleaning: Nisy Data Nise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. Teknik-teknik Binning Smthing by bin means Smthing by bin medians Smthing by bin bundaries Regressin Outlier Analysis RapidMiner - Budi Susant

Percbaan Data Cleaning Dataset Labr-Negtiatins RapidMiner - Budi Susant

RapidMiner - Budi Susant Wrkflw #1

Data Integratin Data dapat bersumber dari beberapa sumber Teknik Analisis krelasi Atribut redundan duplikasi RapidMiner - Budi Susant

Cvariance Crrelatin RapidMiner - Budi Susant

Data Transfrmatin Tujuannya: diharapkan lebih efisien dalam prses data mining dan mungkin juga agar pla yang dihasilkan lebih mudah dipahami. Strategi: Smthing Attribute (feature) cnstructin Aggregatin Nrmalizatin Discretizatin RapidMiner - Budi Susant

Data Transfrmatin: Aggregatin dan Smthing RapidMiner - Budi Susant

Data Transfrmatin: Nrmalizatin Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar Atribut akan memiliki bbt yang lebih besar dari atribut lain Sehingga Data perlu dinrmalisasi atau dibakukan. Hasil suatu nrmalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural netwrk dan nearest netwrk) dan clustering. RapidMiner - Budi Susant

Data Transfrmatin: Metde Nrmalizatin Min-max Z-scre Decimal scaling RapidMiner - Budi Susant

RapidMiner - Budi Susant nrmalizatin

Data Transfrmatin: Discretizatin Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau knseptual label (misalnya: bawah, tengah, atas) RapidMiner - Budi Susant

RapidMiner - Budi Susant discretizatin

Teknik Data Transfrmatin: Data Reductin Dimensinality reductin Wavelet transfrm Principal Cmpnent Analysis Attribute Subset Selectin Numersity reductin sampling Data cmpressin RapidMiner - Budi Susant