Data Preprocessing dengan RapidMiner Budi Susanto. RapidMiner - Budi Susanto

dokumen-dokumen yang mirip
DATA PREPROCESSING. Budi Susanto (versi 1.2)

Data Preprocessing. oleh: Entin Martiana

Seminar Nasional Matematika dan Aplikasinya, 21 Oktober 2017 Surabaya, Universitas Airlangga. Evy Dwi Cahyati 1), Dyah Herawatie 2), Eto Wuryanto 3)

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

2. Data & Proses Datamining

MODUL MATA KULIAH DATA MINING (MIK 620 SESI 10) DISUSUN OLEH. NOVIANDI, M.Kom NIDN

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 4 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

ANALISIS CLUSTER PADA DOKUMEN TEKS

MODUL 2 DATA DAN EKSPLORASI DATA

PE DAHULUA. Latar Belakang

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

REVIEW BIOSTATISTIK DESKRIPTIF

Ari Kurniawan

penyebarannya. Diharapkan dari penelitian ini dapat terbentuk sebuah basis pengetahuan spasial yang bermanfaat. PENDAHULUAN

TIPS dan TRIK VISUAL BINNING

STK 211 Metode statistika. Agus Mohamad Soleh

BAB III METODOLOGI PENELITIAN. Dataset

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

STATISTIKA DESKRIPTIF. Wenny Maulina, S.Si., M.Si

Statistika Deskriptif

permintaan. Sedangkan untuk faktor - faktor lain dianggap tetap (tidak diteliti). Penelitian

BAB III METODE PENELITIAN

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

Pengenalan Pola. K-Means Clustering

STATISTIKA INDUSTRI I. Agustina Eunike, ST., MT., MBA.

ANALISIS CLUSTER PADA DOKUMEN TEKS

K-Means Analysis Klasterisasi Kasus HIV/AIDS di Indonesia

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

Konsep dan Teknik Data Mining

Clustering. Virginia Postrel

Statistika Farmasi

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Mengolah dan Menganalisis Data

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

HASIL DAN PEMBAHASAN. Data

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II LANDASAN TEORI

STK511 Analisis Statistika. Bagus Sartono

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

Data Mining II Estimasi

PENGUKURAN DESKRIPTIF

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

BAB 3 METODE PENELITIAN

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

IMPUTASI MISSING DATA MENGGUNAKAN METODE K-NEAREST NEIGHBOUR DENGAN OPTIMASI ALGORITMA GENETIKA. Abidatul Izzah 1) Nur Hayatin 2) 1)

MA2082 BIOSTATISTIKA Orang Biologi Tidak Anti Statistika

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

STK 211 Metode statistika. Materi 2 Statistika Deskriptif

Skala pengukuran dan Ukuran Pemusatan. Ukuran Pemusatan

PENGUKURAN DATA. 1. Terminology Populasi & Sampel. Peubah/Variabel. Peubah/Variabel

TIPE DATA DAN EKSPLORASI DATA MENGGUNAKAN WEKA DAN R

IMPLEMENTASI ALGORITMA K-MEANS DALAM PENGKLASTERAN MAHASISWA PELAMAR BEASISWA

SATUAN ACARA PERKULIAHAN

BAB III METODOLOGI PENELITIAN

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Distribusi Normal, Skewness dan Qurtosis

Memulai SPSS dan Mengelola File

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

MA2081 Statistika Dasar

Contoh: Pada data Tabel satu diperoleh range pada masing masing mata kuliah. adalah: Matakuliah Max min range A B C

PRESENTASI TUGAS AKHIR KI091391

BAB III LANDASAN TEORI

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

MA5182 Topik dalam Statistika I: Statistika Spasial. Utriweni Mukhaiyar

Pertemuan III Statistika Dasar (Basic Statistics)

KLASIFIKASI PADA TEXT MINING

Statistik dan Statistika Populasi dan Sampel Jenis-jenis Observasi Statistika Deskriptif

ARTIKEL PENILAIAN PRESTASI KERJA PEGAWAI NEGERI SIPIL

DAN ANALISIS DATA. Sari Numerik. MA 2181 Analisis Data 8 Agustus 2011 Utriweni Mukhaiyar. 1. Statistik dan Statistika. 2. Populasi dan Sampel

Statistik Deskriptif. Statistik Farmasi 2015

Tentang MA5283 Statistika BAB 1 STATISTIKA DESKRIPTIF MA5283 STATISTIKA. Dosen: Khreshna I.A. Syuhada, MSc. PhD. Orang Cerdas Belajar Statistika

STATISTIKA DESKRIPTIF

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB II TINJAUAN PUSTAKA

SPSS FOR WINDOWS BASIC. By : Syafrizal

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

SAMPLING METHODS Metode Penarikan Contoh STK221 3(2-2)

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB 1 PENDAHULUAN 1.1. Latar Belakang

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

DISPERSI DATA. - Jangkauan (Range) - Simpangan/deviasi Rata-rata (Mean Deviation) - Variansi (Variance) - Standar Deviasi (Standart Deviation)

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

Abidah Elcholiqi, Beta Noranita, Indra Waspada

PERTEMUAN 14 DATA WAREHOUSE

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori

Algoritma Dasar. 4.1 Naive Bayes

Transkripsi:

Data Preprcessing dengan RapidMiner Budi Susant RapidMiner - Budi Susant

Atribut Data Kenali Data Anda Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang ksng, memperhalus nise data, mengetahui utlier selama pemrsesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi utlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur kedekatan. RapidMiner - Budi Susant

Data Data yang ada pada umumnya: Banyak nise Ukuran yang besar Dapat merupakan campuran dari berbagai macam sumber Memahami data sangat penting untuk tahap preprsesing. RapidMiner - Budi Susant

Atribut Data Mencerminkan karakteristik bjek data. Tipe atribut menentukan himpunan nilai yang diperblehkan. Nminal Binary (Binmial) Ordinal Numerik Interval-scale Rati-scale Diskret atau Cntinue RapidMiner - Budi Susant

Deskripsi Statistik Mengukur lkasi pusat/tengah dari distribusi data Mean Median Mde Midrange Data Mining: Cncepts and Techniques, 3th ed., p. 47 RapidMiner - Budi Susant

Deskripsi Statistik Mengukur penyebaran data Rentang dan Kuartil Variasi dan Standard Deviasi Data Mining: Cncepts and Techniques, 3th ed., p. 48 RapidMiner - Budi Susant

Interquartil Range (IQR) Q3 Q1 Outlier data 1.5 x IQR BxPlt RapidMiner - Budi Susant

Mengukur Kesamaan Dalam aplikasi data mining, seperti clustering, analisis utlier, klasifikasi nearest-neighbr, membutuhkan cara untuk menilai dua bjek data serupa atau tidak. Minkwski distance Euclidean dan Manhattan Csine RapidMiner - Budi Susant

Mengukur Kesamaan RapidMiner - Budi Susant

Data Preprcessing Teknik-teknik: Data Cleaning Data integratin Data Reductin Data Transfrmatin Mengapa penting? Untuk memenuhi data quality Accuracy Cmpleteness Cnsistency Disamping terdapat faktr data quality lain: Timeliness Believability interpretability RapidMiner - Budi Susant

Data Cleaning Prses untuk membersihkan data dengan beberapa teknik Memperkecil nise membetulkan data yang tidak knsisten. Mengisi missing value Mengidentifikasi atau membuang utlier RapidMiner - Budi Susant

Data Cleaning: Missing Values Mengabaikan recrd Biasanya untuk label klasifikasi yang ksng Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value Mean dapat dipakai jika distribusi data nrmal Median digunakan jika distribusi data tidak nrmal (cndng) Menggunakan nilai glbal Menggunakan nilai termungkin Menerapkan regresi RapidMiner - Budi Susant

Data Cleaning: Nisy Data Nise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. Teknik-teknik Binning Smthing by bin means Smthing by bin medians Smthing by bin bundaries Regressin Outlier Analysis RapidMiner - Budi Susant

Percbaan Data Cleaning Dataset Labr-Negtiatins RapidMiner - Budi Susant

RapidMiner - Budi Susant Wrkflw #1

Data Integratin Data dapat bersumber dari beberapa sumber Teknik Analisis krelasi Atribut redundan duplikasi RapidMiner - Budi Susant

Cvariance Crrelatin RapidMiner - Budi Susant

Data Transfrmatin Tujuannya: diharapkan lebih efisien dalam prses data mining dan mungkin juga agar pla yang dihasilkan lebih mudah dipahami. Strategi: Smthing Attribute (feature) cnstructin Aggregatin Nrmalizatin Discretizatin RapidMiner - Budi Susant

Data Transfrmatin: Aggregatin dan Smthing RapidMiner - Budi Susant

Data Transfrmatin: Nrmalizatin Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar Atribut akan memiliki bbt yang lebih besar dari atribut lain Sehingga Data perlu dinrmalisasi atau dibakukan. Hasil suatu nrmalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural netwrk dan nearest netwrk) dan clustering. RapidMiner - Budi Susant

Data Transfrmatin: Metde Nrmalizatin Min-max Z-scre Decimal scaling RapidMiner - Budi Susant

RapidMiner - Budi Susant nrmalizatin

Data Transfrmatin: Discretizatin Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau knseptual label (misalnya: bawah, tengah, atas) RapidMiner - Budi Susant

RapidMiner - Budi Susant discretizatin

Teknik Data Transfrmatin: Data Reductin Dimensinality reductin Wavelet transfrm Principal Cmpnent Analysis Attribute Subset Selectin Numersity reductin sampling Data cmpressin RapidMiner - Budi Susant