DATA PREPROCESSING. Budi Susanto (versi 1.2)

dokumen-dokumen yang mirip

Data Preprocessing. oleh: Entin Martiana

Data Preprocessing dengan RapidMiner Budi Susanto. RapidMiner - Budi Susanto

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Materi 4 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

PE DAHULUA. Latar Belakang

ANALISIS CLUSTER PADA DOKUMEN TEKS

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

DATA TRANSFORMATION PADA DATA MINING ABSTRAK

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

MODUL MATA KULIAH DATA MINING (MIK 620 SESI 10) DISUSUN OLEH. NOVIANDI, M.Kom NIDN

ANALISIS CLUSTER PADA DOKUMEN TEKS

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

BAB I PENDAHULUAN 1.1. Latar Belakang

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

MODUL 2 DATA DAN EKSPLORASI DATA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Sekarang pada kenyataannya, banyak sekali sebuah data yang berukuran besar tidak akurat, tidak komplit dan tidak

2. Data & Proses Datamining

BAB III LANDASAN TEORI

PERTEMUAN 14 DATA WAREHOUSE

Konsep dan Teknik Data Mining

Tahapan Proses KDD (Peter Cabena)

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

Business Objective Determination (#1)

HASIL DAN PEMBAHASAN. Data

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

BAB III METODOLOGI PENELITIAN. Dataset

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB III METODE PENELITIAN

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Pengenalan Pola. K-Means Clustering

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

BAB III METODE PENELITIAN

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm

Memulai SPSS dan Mengelola File

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

STK 211 Metode statistika. Agus Mohamad Soleh

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

KLASIFIKASI PADA TEXT MINING

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

BAB II LANDASAN TEORI

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

BAB I PENDAHULUAN. Perguruan tinggi yang baik dipengaruhi oleh kualitas. mahasiswa di dalamnya. Mahasiswa merupakan objek

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB 2 TINJAUAN PUSTAKA

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

KLASIFIKASI PADA TEXT MINING

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) ISSN: Yogyakarta, Maret 2016

Clustering. Virginia Postrel

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

BAB II LANDASAN TEORI

SISTEM KLASIFIKASI PENYAKIT DIABETES MELLITUS MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN)

BAB IV PREPROCESSING DATA MINING

Statistika Deskriptif

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

PRODI S1 STATISTIKA FMIPA-ITS RENCANA PEMBELAJARAN Data Mining Kode/SKS: SS / (2/1/0) Dosen : SWP, KF Semester : VII

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

BAB III METODE PENELITIAN

MODUL V REGRESI, KORELASI, ANALISIS VARIAN, VALIDITAS DAN RELIABILITAS

BAB III METODOLOGI PENELITIAN

REVIEW BIOSTATISTIK DESKRIPTIF

BAB 2 LANDASAN TEORI

STATISTIKA DESKRIPTIF

UKDW BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar Belakang

Statistika Farmasi

Jurnal Format Volume 6 Nomor 2 Tahun 2017 :: ISSN :

STATISTIK DESKRIPTIF. Abdul Rohman, S.E

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

Statistika Farmasi

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

`tz áàxü `tçt}xåxç hç äa `â{tååtw çt{ lézçt~tüàt

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB IV PEMBAHASAN. A. Hasil Model Radial Basis Function Neural Network (RBFNN) Langkah-langkah untuk menentukan model terbaik Radial Basis Function

STK 211 Metode statistika. Materi 2 Statistika Deskriptif

BAB 2 LANDASAN TEORI

SPSS FOR WINDOWS BASIC. By : Syafrizal

Mengolah dan Menganalisis Data

4 HASIL DA PEMBAHASA

Transkripsi:

DATA PREPROCESSING Budi Susanto (versi 1.2) Kenali Data Anda Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang kosong, memperhalus noise data, mengetahui outlier selama pemrosesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi outlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur kedekatan. 1

Data Data yang ada pada umumnya: Banyak noise Ukuran yang besar Dapat merupakan campuran dari berbagai macam sumber Memahami data sangat penting untuk tahap preprosesing. Atribut Data Mencerminkan karakteristik objek data. Tipe atribut menentukan himpunan nilai yang diperbolehkan. Nominal Binary (Binomial) Ordinal Numerik n Interval-scale n Ratio-scale Diskret atau Continue 2

Deskripsi Statistik Mengukur lokasi pusat/tengah dari distribusi data Mean Median Mode Midrange Data Mining: Concepts and Data Techniques, Preprocessing 3th ed., - Budi p. 47 Susanto - FTI UKDW Deskripsi Statistik Mengukur penyebaran data Rentang dan Kuartil Variasi dan Standard Deviasi Data Mining: Concepts and Data Techniques, Preprocessing 3th ed., - Budi p. 48 Susanto - FTI UKDW 3

BoxPlot Interquartil Range (IQR) Q3 Q1 Outlier data 1.5 x IQR Mengukur Kesamaan Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. Minkwoski distance n Euclidean dan Manhattan Cosine 4

Mengukur Kesamaan Mengapa Perlu Data Preprocessing? Data mentah yang ada sebagian besar kotor Tidak komplet n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate Banyak noise n Berisi data yang Outlier n Berisi error Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama 5

Mengapa Data Preprocessing Penting? Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula. Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%). Ukuran Kualitas Data Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility 6

Teknik Data Preprocessing Data Cleaning Data integration Data Reduction Data Transformation Data Cleaning Proses untuk membersihkan data dengan beberapa teknik Memperkecil noise membetulkan data yang tidak konsisten. Mengisi missing value Mengidentifikasi atau membuang outlier 7

Data Cleaning: Missing Values Mengabaikan record Biasanya untuk label klasifikasi yang kosong Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data normal Median digunakan jika distribusi data tidak normal (condong) Menggunakan nilai global Menggunakan nilai termungkin Menerapkan regresi Data Cleaning: Missing Values Angkatan IPK Pekerjaan Kelamin 2004 3.45 Programmer L 2005? Ibu RT P 2003 2.81? P Contoh untuk missing value IPK diisi dengan ratarata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga. Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul. 8

Data Cleaning: Noisy Data Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. Teknik-teknik Binning n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries Regression Outlier Analysis Metode Binning Metode ini akan melakukan pengelompokan terhadap kumpulan data. Metode binning merupakan salah satu pendekatan dicretization. Urutan proses: Urutkan data secara ascending Lakukan partisi ke dalam bins n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi) Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb. 9

Partisi dalam Metode Binning Partisi Equal-Width Algoritma membagi data ke dalam k interval ukuran yang sama. Lebar interval adalah n w = (max-min)/k Batasan interval adalah n min+w, min+2w,, min+(k-1)w Partisi Equal-depth Membagi data ke dalam k kelompok dimana tiap kelompok berisi jumlah yang sama Contoh Partisi Binning Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 Equal Width BIN1 = 0, 4 [-, 10] BIN2 = 12, 16, 16, 18 [10, 20] BIN3 = 24, 26, 28 [20, +] Equal Depth BIN1 = 0, 4, 12 BIN2 = 16, 16, 18 BIN3 = 24, 26, 28 10

Smoothing pada Partisi Binning Smoothing berdasar rata-rata Semua nilai di tiap bin diganti dengan rata-rata nilai tiap bin Smoothing berdasar batasan Setiap nilai bin diganti dengan nilai yang paling dekat dari batasan nilai Batasan nilai terbentuk dari [min, max] tiap bin Data Cleaning: Outliers salary cluster outlier age 11

Data Cleaning: Regresi y (salary) Y1 y = x + 1 X1 x (age) Percobaan Data Cleaning Dataset Labor-Negotiations 12

Workflow #1 reglin Data Integration Data dapat bersumber dari beberapa sumber Teknik Analisis korelasi Atribut redudan duplikasi 13

Covariance Correlation integration Data Transformation Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami. Strategi: Smoothing Attribute (feature) construction Aggregation Normalization Discretization 14

Data Transformation: Aggregation dan Smoothing coba1 Data Transformation: Normalization Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar Atribut akan memiliki bobot yang lebih besar dari atribut lain Sehingga Data perlu dinormalisasi atau dibakukan. Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering. 15

Data Transformation: Metode Normalization Min-max Z-score Decimal scaling normalization 16

Data Transformation: Discretization Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas) discretization discret 17

Data Transformation: Data Reduction Teknik Dimensionality reduction n Wavelet transform n Principal Component Analysis n Attribute Subset Selection Numerosity reduction n sampling Data compression TERIMA KASIH! Budi Susanto 18