Data Preprocessing. oleh: Entin Martiana

dokumen-dokumen yang mirip
DATA PREPROCESSING. Budi Susanto (versi 1.2)

Data Preprocessing dengan RapidMiner Budi Susanto. RapidMiner - Budi Susanto

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

MODUL MATA KULIAH DATA MINING (MIK 620 SESI 10) DISUSUN OLEH. NOVIANDI, M.Kom NIDN

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Tahapan Proses KDD (Peter Cabena)

BAB 3 METODE PENELITIAN

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

PE DAHULUA. Latar Belakang

Business Objective Determination (#1)

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

Konsep dan Teknik Data Mining

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

MODUL 2 DATA DAN EKSPLORASI DATA

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

STATISTIKA DESKRIPTIF

DATA TRANSFORMATION PADA DATA MINING ABSTRAK

Memulai SPSS dan Mengelola File

Materi 4 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

BAB III METODE PENELITIAN

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

2. Data & Proses Datamining

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

BAB I PENDAHULUAN 1.1. Latar Belakang

PRODI S1 STATISTIKA FMIPA-ITS RENCANA PEMBELAJARAN Data Mining Kode/SKS: SS / (2/1/0) Dosen : SWP, KF Semester : VII

`tz áàxü `tçt}xåxç hç äa `â{tååtw çt{ lézçt~tüàt

BAB III METODOLOGI PENELITIAN. Dataset

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

PERTEMUAN 14 DATA WAREHOUSE

penyebarannya. Diharapkan dari penelitian ini dapat terbentuk sebuah basis pengetahuan spasial yang bermanfaat. PENDAHULUAN

Rancangan Percobaan dengan SPSS 13.0 (Untuk kalangan sendiri)

BAB IV ANALISIS DATA

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Gambar Tahap-Tahap Penelitian

BAB III LANDASAN TEORI

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB IV HASIL PENELITIAN. kecenderungan jawaban responden dari tiap-tiap variabel, tentang budaya. religius dan pembentukan karakter peserta didik.

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

BAB IV HASIL PENELITIAN. kecenderungan jawaban responden dari tiap-tiap variabel, baik mengenai

MAKALAH UJI PERLUASAN MEDIAN

STATISTIK DESKRIPTIF. Statistics. Strategi Membaca

BAB III METODOLOGI PENELITIAN

Statistika Deskriptif

TIPE DATA DAN EKSPLORASI DATA MENGGUNAKAN WEKA DAN R

Statistika Psikologi 2

BAB IV HASIL PENELITIAN

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

BAB III METODE PENELITIAN

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

BAB I STATISTIK DESKRIPTIF

STK 211 Metode statistika. Agus Mohamad Soleh

BAB II LANDASAN TEORI

Bagian 1. Angket Uji Coba Rekapitulasi Data Uji Coba Instrumen Uji Validitas dan Reliabilitas Instrumen

INSTRUMEN PENELITIAN

BAB IV HASIL PENELITIAN. kecenderungan jawaban responden dari tiap-tiap variabel, baik mengenai

BAB I PENDAHULUAN. 1.1 Latar Belakang

Perhitungan Uji Keseragaman & Keseragaman Data Menggunakan Excel Nama. Dicatat Oleh: Waktu Penyelesaian (detik)

BAB IV ANALISIS HASIL DAN PEMBAHASAN

BAB IV HASIL PENELITIAN

BAB IV HASIL PENELITIAN

BAB 14 UJI DESKRIPTIF, VALIDITAS DAN NORMALITAS DATA

BAB 3 METODA PENELITIAN

BAB III METODOLOGI PENELITIAN

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

STATISTIK DESKRIPTIF. Abdul Rohman, S.E

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

Berikut ini akan dijelaskan batasan variabel penelitian dan indikatornya, seperti dalam Tabel. 1, berikut ini:

BAB IV HASIL PENELITIAN

DAFTAR ISI. BAB I PENDAHULUAN 1.1 Latar Belakang Tujuan Penelitian Manfaat Penelitian... 4

DISPERSI DATA. - Jangkauan (Range) - Simpangan/deviasi Rata-rata (Mean Deviation) - Variansi (Variance) - Standar Deviasi (Standart Deviation)

BAB 4 PEMBAHASAN HASIL PENELITIAN

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

SKRIPSI. Disusun Oleh : DINI PUSPITA JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

Contoh Analisis Data Korelasi Kecerdasan Emosi terhadap Stress Kerja 1. Sebaran Data Kecerdasan Emosi Hasil Skoring Kuesioner

BAB II LANDASAN TEORI

BAB IV HASIL PENELITIAN. A. Deskripsi Data Penelitian ini dilakukan terhadap siswa di MAN se Kabupaten Blitar

BAB 2 LANDASAN TEORI

Abidah Elcholiqi, Beta Noranita, Indra Waspada

LAMPIRAN 1 KUESIONER KEPUASAN PELANGGAN

PENDAHULUAN TINJAUAN PUSTAKA

PENGENALAN WAJAH MENGGUNAKAN METODE REGRESI LINIER

BAB IV HASIL DAN PEMBAHASAN. A. Gambaran umum (intitusi/ perusahaan/ responden)

Slamet Lestari Jurusan Administrasi Pendidikan FIP UNY Mar Mar

Statistik Deskriptif dengan Microsoft Office Excel

Lampiran 1 Data Absensi dan Pengeluaran Tenaga Kerja

Lampiran 1. Langkah Penelitian. Air Limbah dengan kadar phosphate tinggi. Pengukuran Suhu dan ph sebelum perlakuan

HASIL DAN PEMBAHASAN. Data

SPSS 10: Transformasi Data. Transformasi Data

PENERAPAN DATA MINING UNTUK MENENTUKAN STRATEGI PENJUALAN PADA TOKO BUKU GRAMEDIA MENGGUNAKAN METODE CLUSTERING

ABSTRAK. v Universitas Kristen Maranatha

BELAJAR SPSS. Langkah pertama yang harus dilakukan adalah dengan cara menginstal terlebih dahulu software SPSS

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

LAMPIRAN. Tabel Distribusi Frekuensi Frequency Table

BAB IV ANALISIS DATA

ESTIMASI. A. Dasar Teori

Transkripsi:

Data Preprocessing oleh: Entin Martiana

Data Data yang ada pada umumnya: Banyak noise Ukuran yang besar Dapat merupakan campuran dari berbagai sumber Memahami data sangat penting untuk preprocessing September 11, 2013 Data Mining: Data Preprocessing 2

Kenali Data Anda Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang hilang Memperhalus noise data Mengetahui oulier selama pemrosesan data Mengukur Kesamaan dan Ketidaksamaan Dapat juga untuk mendeteksi outlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur kedekatan September 11, 2013 Data Mining: Data Preprocessing 3

Atribut Data Mencerminkan karakteristik obyek data Tipe atribut menentukan himpunan nilai yang diperbolehkan Nominal Binary Ordinal Numerik Diskret atau Continue September 11, 2013 Data Mining: Data Preprocessing 4

Deskripsi Statistik Mengukur lokasi pusat/tengah dari distribusi data Mean Median Mode Mean Median Mode September 11, 2013 Data Mining: Concepts and Techniques 5

Mengapa Perlu Data Preprocessing? Data dalam dunia nyata dirty Tidak komplet: berisi data yang hilang/kosong, kekurangan atribut yang sesuai, hanya berisi data aggregate e.g., occupation= Banyak noise : berisi data yang outlier atau error e.g., Salary= -10 Tidak konsisten: berisi nilai yang berbeda dalam suatu kode atau nama e.g., Age= 42 Birthday= 03/07/1997 e.g., Was rating 1,2,3, now rating A, B, C e.g., discrepancy between duplicate records September 11, 2013 Data Mining: Concepts and Techniques 6

Mengapa Data Preprocessing Penting? Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula. Data Preprocessing, cleanning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%). September 11, 2013 Data Mining: Data Preprocessing 7

Ukuran Kualitas Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility September 11, 2013 Data Mining: Concepts and Techniques 8

Data Cleaning Proses untuk membersihkan data dengan beberapa teknik Memperkecil noise Membetulkan data yang tidak konsisten Mengisi missing value Mengidentifikasi atau membuang outlier September 11, 2013 Data Mining: Concepts and Techniques 9

Teknik Data Preprocessing Data Cleaning Data Integration Data Reduction Data Transformation September 11, 2013 Data Mining: Concepts and Techniques 10

Bentuk dari Data Preprocessing September 11, 2013 Data Mining: Concepts and Techniques 11

Data Cleaning: Missing Values Mengabaikan record Biasanya untuk label klasifikasi yang kosong Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data normal Median digunakan jika distribusi data tidak normal (condong) Menggunakan nilai global Menggunakan nilai termungkin Menerapkan regresi September 11, 2013 Data Mining: Concepts and Techniques 12

Data Cleaning: Missing Values Mengabaikan record Biasanya untuk label klasifikasi yang kosong Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data normal Median digunakan jika distribusi data tidak normal (condong) Menggunakan nilai global Menggunakan nilai termungkin Menerapkan regresi September 11, 2013 Data Mining: Concepts and Techniques 13

Metoda Binning: Diskritisasi Sederhana Partisi kedalaman sama (frekuensi): Membagi range kedalam N interval, masingmasing memuat jumlah sampel yang hampir sama Penskalaan data yang baik Penanganan atribut yang bersifat kategori bisa rumit. September 11, 2013 Data Mining: Concepts and Techniques 14

Metoda Binning: Diskritisasi Sederhana Data terurut untuk harga (dalam dollar): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partisi kedalam bin dengan kedalaman yang sama (misal, dalam bin-3): Bin 1: 4, 8, 9, 15 Bin 2: 21, 21, 24, 25 Bin 3: 26, 28, 29, 34 Haluskan dengan rata-rata bins: Bin 1: 9, 9, 9, 9 Bin 2: 23, 23, 23, 23 Bin 3: 29, 29, 29, 29 September 11, 2013 Data Mining: Concepts and Techniques 15

Metoda Binning: Diskritisasi Sederhana Penghalusan dengan batas bin: Bin 1: 4, 4, 4, 15 Bin 2: 21, 21, 25, 25 Bin 3: 26, 26, 26, 34 September 11, 2013 Data Mining: Concepts and Techniques 16

Regression y Y1 Y1 y = x + 1 X1 x September 11, 2013 Data Mining: Concepts and Techniques 17

Cluster Analysis September 11, 2013 Data Mining: Concepts and Techniques 18

Handling Redundancy in Data Integration Redundant data occur often when integration of multiple databases Object identification: The same attribute or object may have different names in different databases Derivable data: One attribute may be a derived attribute in another table, e.g., annual revenue Redundant attributes may be able to be detected by correlation analysis Careful integration of the data from multiple sources may help reduce/avoid redundancies and inconsistencies and improve mining speed and quality September 11, 2013 Data Mining: Concepts and Techniques 19

Normalization adalah proses penskalaan nilai atribut dari data sehingga bisa jatuh pada range tertentu. Contoh: Misalnya berkenaan dengan pencatatan tingkat kematian penduduk di Indonesia per bulannya berdasarkan jenis umur. Secara sederhana, disana ada 3 dimensi data, yaitu bulan (1-12), umur (0-150 misalnya), dan jumlah kematian (0-jutaan). Kalau kita bentangkan range masing-masing dimensi, maka kita akan mendapatkan ketidak-seimbangan range pada dimensi yang ketiga, yaitu jumlah kematian. Soft Computation Research Group, EEPIS- ITS

Normalization methods Min-Max Z-Score Decimal Scaling Sigmoidal Softmax Soft Computation Research Group, EEPIS- ITS

Normalization method (Min-Max) Min-Max merupakan metode normalisasi dengan melakukan transformasi linier terhadap data asli. Rumus: newdata = (data-min)*(newmax-newmin)/(max-min)+newmin Keuntungan dari metode ini adalah keseimbangan nilai perbandingan antar data saat sebelum dan sesudah proses normalisasi. Tidak ada data bias yang dihasilkan oleh metode ini. Kekurangannya adalah jika ada data baru, metode ini akan memungkinkan terjebak pada "out of bound" error. Soft Computation Research Group, EEPIS- ITS

Normalization method (Z-Score) Z-score merupakan metode normalisasi yang berdasarkan mean (nilai rata-rata) dan standard deviation (deviasi standar) dari data. Rumus: newdata = (data-mean)/std Metode ini sangat berguna jika kita tidak mengetahui nilai aktual minimum dan maksimum dari data. Soft Computation Research Group, EEPIS- ITS

Normalization method (Decimal Scaling) Metode ini melakukan normalisasi dengan menggerakkan nilai desimal dari data ke arah yang diinginkan. Rumus: newdata = data / 10 i Soft Computation Research Group, EEPIS- ITS dimana i adalah nilai integer untuk menggerakkan nilai desimal ke arah yang diinginkan.

Normalization method (Sigmoidal) Sigmoidal normalization melakukan normalisasi data secara nonlinier ke dalam range -1-1 dengan menggunakan fungsi sigmoid. Rumus: newdata = (1-e^(-x))/(1+ e^(-x)) dimana: x = (data-mean)/std e = nilai eksponensial (2,718281828) Metode ini sangat berguna pada saat data-data yang ada melibatkan data-data outlier. Soft Computation Research Group, EEPIS- ITS

Normalization method (Softmax) Metode ini merupakan pengembangan transformasi secara linier. Output range-nya adalah 0-1. Rumus: newdata = 1/(1+e^(-transfdata)) dimana: transfdata = (data-mean)/(x*(std/(2*3.14))) x = respon linier di deviasi standar Soft Computation Research Group, EEPIS- ITS

Summary Data preparation or preprocessing is a big issue for both data warehousing and data mining Discriptive data summarization is need for quality data preprocessing Data preparation includes Data cleaning and data integration Data reduction and feature selection Discretization A lot a methods have been developed but data preprocessing still an active area of research September 11, 2013 Data Mining: Concepts and Techniques 27