Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

dokumen-dokumen yang mirip
2. Data & Proses Datamining

Data Mining II Estimasi

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB 3 METODE PENELITIAN

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Data Mining. Fajar Agung Nugroho, S.Kom, M.CS

BAB I PENDAHULUAN. 1.1 Latar Belakang

TINJAUAN PUSTAKA. Definisi Data Mining

DATA PREPROCESSING. Budi Susanto (versi 1.2)

Materi 4 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

1. Model Prediksi Ini Menggunakan Tools RapidMiner

DATA MINING. Pertemuan 2. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 2 TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODE PENELITIAN

BAB 2 TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

PERBANDINGAN DECISION TREE

Data Mining. Romi Satria Wahono. WA/SMS:

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

BAB I PENDAHULUAN 1.1 Latar Belakang

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Analisis Hubungan antar Faktor dan Komparasi Algoritma Klasifikasi pada Penentuan Penundaan Penerbangan

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB III METODE PENELITIAN

BAB II TINJAUAN PUSTAKA

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Pretest dan Posttest untuk Mengukur Kompetensi Kognifif Mahasiwa

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

ANALISIS CLUSTER PADA DOKUMEN TEKS

Tahapan Proses KDD (Peter Cabena)

BAB 2 TINJAUAN PUSTAKA

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

SILABUS MATAKULIAH. Indikator Pokok Bahasan/Materi Aktifitas Pembelajaran

Versi Online tersedia di : JURNAL TECH-E (Online)

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB 2. Landasan Teori

BAB I PENDAHULUAN Latar Belakang

SILABUS MATAKULIAH. Revisi : 4 Tanggal Berlaku : 04 September Indikator Pokok Bahasan/Materi Aktifitas Pembelajaran

PERTEMUAN 14 DATA WAREHOUSE

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

PENDEKATAN METODE FEATURE EXTRACTION DENGAN ALGORITMA NAÏVE BAYES

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

2. Tahapan Penelitian pemahaman merupakan awal proses penelitian

KLASIFIKASI PADA TEXT MINING

DATA MINING ABU SALAM, M.KOM

BAB I PENDAHULUAN 1.1 Latar Belakang

MODEL ALGORITMA K-NEAREST NEIGHBOR

Klasifikasi Berbasis Algoritma C4.5 untuk Deteksi Kenaikan Case Fatality Rate Demam Berdarah

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB I PENDAHULUAN 1.1 Latar Belakang

PERBANDINGAN ALGORITMA C4.5 DENGAN C4.5 BAGGING DALAM MEMPREDIKSI DAN ANALISA DATA SET PEMILIH MINYAK PELUMAS MESIN (OLI) PADA KEDARAAN RODA DUA

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

Data Preprocessing. oleh: Entin Martiana

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

BABI PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

PE DAHULUA. Latar Belakang

BAB III METODE PENELITIAN

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB 2 LANDASAN TEORI

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

KLASIFIKASI METODE NAIVE BAYES UNTUK KELANCARAN PEMBAYARAN KREDIT LEASING SEPEDA MOTOR

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

KLASIFIKASI PADA TEXT MINING

BAB III METODE PENELITIAN

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB II TINJAUAN PUSTAKA

ALGORITMA NAÏVE BAYES UNTUK MELIHAT FAKTOR-FAKTOR YANG MEMPENGARUHI KULIT TERBAKAR

KAJIAN PERANCANGAN RULE KENAIKAN JABATAN PADA PT. ABC

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

Transkripsi:

Data Mining Outline BAB I Pendahuluan BAB II Data BAB III Algoritma Klasifikasi BAB IV Algoritma Klastering BAB V Algoritma Asosiasi BAB VI Algoritma Estimasi BAB VII Deteksi Anomali Ricky Maulana Fajri BAB IX Text Mining Recap Proses Data Mining 1. Jelaskan Apa yang dimaksud dengan data, informasi, pengetahuan. 2. Jelaskan perbedaan prediksi dan klasifikasi! 3. Jelaskan perbedaan klastering dan association! 4. Sebutkan tahapan utama proses data mining! 1. Himpunan Data (Pemahaman dan Pengolahan Data) 2. Metode Data Mining (Pilih Metode Sesuai Karakter Data) 3. Pengetahuan 4. Evaluation (Pola/Model/Rumus/ Tree/Rule/Cluster) (Akurasi, AUC, RMSE, Lift Ratio, ) DATA PRE PROCESSING Data Cleaning Data Integration Data Reduction Data Transformation Estimation Prediction Classification Clustering Association 4 1. Himpunan Data (Dataset) Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi Jenis dataset ada dua: Private dan Public Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc Public Dataset: data setdapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining UCI Repository (http://www.ics.uci.edu/~mlearn/mlrepository.html) ACM KDD Cup (http://www.sigkdd.org/kddcup/) PredictionIO (http://docs.prediction.io/datacollection/sample/) Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable Dataset (Himpunan Data) Attribute/Feature Class/Label/Target Record/ Object/ Sample/ Tuple Nominal Numerik 5 6 1

2. Metode Data Mining (DM) 1. Estimation (Estimasi): Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi): Naive Bayes, K Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): K Means, K Medoids, Self Organizing Map (SOM), Fuzzy C Means, etc 5. Association (Asosiasi): FP Growth, A Priori, Coefficient of Correlation, Chi Square, etc 3. Pengetahuan (Pola/Model) 1. Formula/Function (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Tingkat Korelasi 4. Rule (Aturan) IF ips3=2.8 THEN lulustepatwaktu 5. Cluster (Klaster) 7 8 4. Evaluasi (Akurasi, Error, etc) 1. Estimation: Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 2. Prediction/Forecasting (Prediksi/Peramalan): Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 3. Classification: Confusion Mti Matrix: Accuracy ROC Curve: Area Under Curve (AUC) 4. Clustering: Internal Evaluation: Davies Bouldin index, Dunn index, External Evaluation: Rand measure, F measure, Jaccard index, Fowlkes Mallows index, Confusion matrix 5. Association: Lift Charts: Lift Ratio Precision and Recall (F measure) Guide for Classifying the AUC 1. 0.90 1.00 = excellent classification 2. 0.80 0.90 = good classification 3. 0.70 0.80 = fair classification 4. 060 0.60 070 0.70 = poor classification 5. 0.50 0.60 = failure (Gorunescu, 2011) 9 10 Kriteria Evaluasi dan Validasi Model 1. Akurasi Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan 2. Kehandalan Ukuran di mana model data mining diterapkan pada dataset yang berbeda Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data testing yang disediakan 3. Kegunaan Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna Kualitas Data Kesalahan yang terjadi sehingga menyebabkan kualitas data menjadi tidak baik. Sering kali didapatkan kualitas data yang kurang baik dikarenakan kesalahan pengukuran (Measurement Error) dan kesalahan pengumpulan Contoh Kesalahan Pengukuran Noise Bias Precision Accurasi 11 2

Kesalahan Pengukuran Noise berkaitan dengan modifikasi dari nilai asli Bias : suatu variasi pengukuran dari kuantitas yang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui Precision : Adalah kedekatan dari pengukuran berulang (dari kuantitas yang sama) satu dengan lainnya. Diukur ddengan standard deviasi Accuracy Adalah kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas yang sedang diukur Kesalahan Pengumpulan Kesalahan pada saat data dikumpulkan seperti hilangnya objek data atau nilai atribut, dan lingkup objek data yang tidak tepat. Yang termasuk dalam kesalahan pengumpulan p adalah Outliers Missing Values Duplicate Data Outliers Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan data dalam data set. Missing Values Merupakan nilaid ari suatu atribut yang tidak ditemukan alasan terjadinya missing values adalah Informasitidak diperoleh (misal orang menolak untuk memberikan informasi umur dan berat badan) Atribut yang mungkin tidak bisa diterapkan ke semua kasus (pendapatan tahunan tidak bisa diterapkan pada anak anak) Duplicate Data Data set mungkin terdiri dari objek data yang ganda. Atau sering terjadi dupliksai antara satu dengan lainnya. Persoalan utama ketika menggabungkan data dari sumber sumber yang bervariasi Orang yang sama dengan alamat email yang lebih dari satu. 3

Data Preprocessing Sebelum diterapkan algoritma data mining terhadap sebuah data set makan diperlukan prosess pengolahan awal. Proses ini bertujuan untuk mendapatkan data set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. Data Preprocessing Proses data prepocessing antara lain. Aggregation Sampling Dimensionality Reduction Feature Subset Selection Feature Creation Discretization dan binarization Attribute Transformation Aggregation Proses pengumpulan adalah proses mengkombinasikan dua atau lebih atributatribut atau objek objek kedalam satu atribut tunggal atau objek. No Transaksi Nama barang Lokasi Toko Tanggal Harga... 1001122 Supermie Bukit 12 8 2016 1500 1001122 Gula 1 Kg Bukit 12 8 2016 9000 1001123 Buku Demang 23 8 2016 15000..... Penarikan Contoh Penarikan Contoh merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan analisis data akhir. Penarikan contoh digunakan dalam data minging karena pengolahan himpunan data yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu Dimensionality Reduction Jika Dimensi meningkat, data akan meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik yang merupakan kondisi kritis untuk clustering dan outlier detection Manfaat DR Mencegah efek dimensionalitas Mengurangi jumlah waktu dan memori untuk algoritma data mining Membuat data lebih mudah divisualisasikan Membantu menguragi fitur yang tidak relevan Feautre Subset Selection Salah satu cara untuk mengurangi dimensi dalah dengan memilih fitur yang tepat atau hanya menggunakan atribut atribut yang diperlukan Teknik Brute force Approach Embedded Approach Filter Approach Wrapper Approach 4

Feature Creation Merupakan Proses membuat atribut baru yang dapat menangkap informasi penting dalam sebuah himpunan data yang lebih efision daripada atribut yang ada. Teknik Ekstraksi Fitur Pemetaan Data ke ruang menggunakan transformasi fourier Konstruksi Fitur Discreatization and Binarization Algoritma data mining khususnya algoritma klasifikasi mebutuhkan data dalam bentuk atribut katagorikal, sedangkan algoritma asosiasi memerlukan atdata ke dalam bentuk biner. Transformasi atribut kontinyu ke dalam bentuk katagorikal disebut discreatization. Tranformasi atribut kontinyo ke dalam bentuk biner disebut binarization Summary Question Proses Data Mining Kualitas Data 5