Data Mining II Estimasi

dokumen-dokumen yang mirip
Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

2. Data & Proses Datamining

Pretest dan Posttest untuk Mengukur Kompetensi Kognifif Mahasiwa

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Data Mining. Fajar Agung Nugroho, S.Kom, M.CS

Data Mining. Romi Satria Wahono. WA/SMS:

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

DATA MINING. Pertemuan 2. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

TINJAUAN PUSTAKA. Definisi Data Mining

BAB I PENDAHULUAN. 1.1 Latar Belakang

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

DATA MINING ABU SALAM, M.KOM

Algoritma Data Mining

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

BAB III METODE PENELITIAN

BAB 2 TINJAUAN PUSTAKA

PERBANDINGAN DECISION TREE

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

ALGORITMA NAÏVE BAYES UNTUK MELIHAT FAKTOR-FAKTOR YANG MEMPENGARUHI KULIT TERBAKAR

..::Data Mining::.. Prediksi

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB III METODE PENELITIAN

BAB 1 PENDAHULUAN 1-1

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Data Mining Terapan dengan Matlab

BAB 2 TINJAUAN PUSTAKA

( ) ( ) (3) II-1 ( ) ( )

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan


BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

PPDAFTAR GAMBAR Gambar Halaman Yuni Melawati, 2013

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

BAB 2 TINJAUAN PUSTAKA

MODEL ALGORITMA K-NEAREST NEIGHBOR

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Penerapan Metode Fuzzy C-Means dengan Model Fuzzy RFM (Studi Kasus : Clustering Pelanggan Potensial Online Shop)

Klasifikasi. Diadaptasi dari slide Jiawei Han

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Klasifikasi. Diadaptasi dari slide Jiawei Han

BAB I PENDAHULUAN 1.1.Latar Belakang Masalah

SILABUS MATAKULIAH. Indikator Pokok Bahasan/Materi Aktifitas Pembelajaran

BAB III METODE PENELITIAN

PENCARIAM JURUSAN SUBANG DENGAN ALGORITMA C 4.5 DAN DATA MINING STMIK SUBANG Timbo Faritcan Parlaungan Siallagan

BAB III METODOLOGI PENELITIAN. Dataset

RENCANA PEMBELAJARAN SEMESTER

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

SILABUS MATAKULIAH. Revisi : 4 Tanggal Berlaku : 04 September Indikator Pokok Bahasan/Materi Aktifitas Pembelajaran

PERBANDINGAN ALGORITMA C4.5 DENGAN C4.5 BAGGING DALAM MEMPREDIKSI DAN ANALISA DATA SET PEMILIH MINYAK PELUMAS MESIN (OLI) PADA KEDARAAN RODA DUA

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

Analisis Hubungan antar Faktor dan Komparasi Algoritma Klasifikasi pada Penentuan Penundaan Penerbangan

BAB 3 METODE PENELITIAN

BAB I PENDAHULUAN Latar Belakang Masalah

KLASIFIKASI METODE NAIVE BAYES UNTUK KELANCARAN PEMBAYARAN KREDIT LEASING SEPEDA MOTOR

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

BAB I PENDAHULUAN 1.1 Latar Belakang

Sekip Utara Yogyakarta * 1 2

Classification (1) Classification (3) Classification (2) Contoh Classification. Classification (4)

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

LAMPIRAN 1. Struktur Organisasi PT. Soho

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

BAB I PENDAHULUAN Latar Belakang

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

PREDIKSI NASABAH POTENSIAL MENGGUNAKAN METODE KLASIFIKASI POHON BINER

APLIKASI PREDIKSI KELULUSAN MAHASISWA DENGAN METODE LINEAR DISCRIMINANT ANALYSIS

DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

Data ini berisi 13 atribut, yaitu. Dengan tipe atribut, yaitu

(ESTIMASI/ PENAKSIRAN)

PREDIKSI KELULUSAN MAHASISWA PADA PERGURUAN TINGGI KABUPATEN MAJALENGKA BERBASIS KNOWLEDGE BASED SYSTEM

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

1. Model Prediksi Ini Menggunakan Tools RapidMiner

2. Tahapan Penelitian pemahaman merupakan awal proses penelitian

BAB III METODOLOGI PENELITIAN

Transkripsi:

Data Mining II Estimasi Matakuliah Data warehouse Universitas Darma Persada Oleh: Adam AB Data Mining-2012-a@b 1

Tahapan proses datamining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/ Knowledge) Evaluation (Akurasi, AUC, RMSE, etc) Data Mining-2012-a@b 2

Atribut, Class dan tipe data Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi Class adalah atribut yang akan dijadikan target, sering juga disebut dengan label Tipe data untuk variabel pada statistik terbagi menjadi empat: nominal, ordinal, interval, ratio Tapi secara praktis, tipe data untuk atribut pada data mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3

Metode/Algoritma Data mining 1. Estimation (Estimasi): Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi): Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Random Forest, Linear Discriminant Analysis, Neural Network, etc 4. Clustering (Klastering): K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc 5. Association (Asosiasi): FP-Growth, A Priori, etc Data Mining-2012-a@b 4

Output/pola/model/knowledge 1. Formula/Function (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster) Data Mining-2012-a@b 5

3 Iteration 6 2.5 2 1.5 y 1 0.5 0-2 - 1.5-1 -0.5 0 0.5 1 1.5 2 x Data Mining-2012-a@b 6

Splitting Attributes Yes Refund No NO MarSt Single, Divorced TaxInc < 80K > 80K NO NO YES Data Mining-2012-a@b 7

Kriteria Evaluasi dan Validasi Model Secara umum pengukuran model data mining mengacu kepada tiga kriteria: Akurasi (Accuracy), Kehandalan(Reliability) dan Kegunaan (Usefulness) Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna Data Mining-2012-a@b 8

Kriteria Evaluasi dan Validasi Model 1. Akurasi adalah ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan. Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan 2. Kehandalan adalah ukuran di mana model data mining diterapkan pada dataset yang berbeda akan menghasilkan sebuah model data mining dapat diandalkan jika menghasilkan pola umum sama terlepas dari data testing yang disediakan 3. Kegunaan mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna. Data Mining-2012-a@b 9

Tool software datamining WEKA RapidMiner DTREG Clementine Matlab R SPSS Data Mining-2012-a@b 10

Data mining-estimasi Estimasi merupakan fungsi minor kedua dari data mining. Suatu misal kita diberi sampel data volume air isi ulang yang diisi otomatis oleh mesin pengisi dengan isi yang bervariasi, sementara volume yang diharapkan adalah 2000 ml. Data Mining-2012-a@b 11

Data Mining-Estimasi(lanj) Data Mining-2012-a@b 12

Data Mining-Estimasi (lanj) Berdasarkan data di atas pengisian air pada mesin tidak tepat 2000 ml Berapakah volume air pada umumnya di dalam botol yang diisikan? Berapa kira-kira volume air yang akan diisi pada botol di masa datang bila mesin mengisi (berapa kali) botol tersebut? estimasi/memperkirakan Estimasi estimasi titik setimasi selang Data Mining-2012-a@b 13

Data Mining-Estimasi (lanj) Istilah Populasi : objek yang diteliti, dalam hal ini air minum dalam botol Sampel : contoh/cuplikan objek yang diambil untuk dijadikan penelitian, dalam hal ini 12 botol minuman. Populasi besarnya tidak terbatas Data Mining-2012-a@b 14

Estimasi Titik Estimasi titik : bentuk estimasi yang menghasilkan satu buah nilai estimasi saja yaitu berupa angka Populasi yang terus bertambah, tidak mungkin bagi kita untuk menghitung mean dan varians. Karena itu kita perlu sampel untuk melakukan estimasi/perkiraan pada parameter di atas Mengapa perkiraan? sebab bila kita memiliki perkiraan rata-rata dan varians yang akurat maka akan banyak pertanyaan yang dapat kita jawab dengan baik. Data Mining-2012-a@b 15

Estimasi titik (lanj) Cara memperkirakan Rata-rata populasi µ dapat diestimasi dengan rata-rata sampel Varians populasi σ 2 dapat diestimasi dengan varians sampel (s 2 ) Data Mining-2012-a@b 16

Estimasi titik - contoh Rata-rata sampel = 24084/12 = 2007 ml Varians sampel = 10620/(12-1) = 965.45 ml 2 Standar deviasi = sqrt (965.45) = 31.07 ml Data Mining-2012-a@b 17

Estimasi titik - contoh Pengetahuan apa yang diperoleh dari informasi ini? pada umumnya setiap botol akan diisi air sebanyak 2007 ml (rata-rata), dengan varians sebesar 965.45 ml Data Mining-2012-a@b 18

Estimasi - selang Estimasi titik hanya menghasilkan satu angka, bagaimana bila diinginkan angka yang selang agar lebih mengakomodasi error. Menggunakan batas bawah (L) dan batas atas (U) batas bawah (L) = X - z α /2. σ x batas atas (U) = X + z α /2. σ x Data Mining-2012-a@b 19

Estimasi - selang Rata-rata sampel = 24084/12 = 2007 ml Varians sampel = 10620/(12-1) = 965.45 ml 2 Standar deviasi = sqrt (965.45) = 31.07 ml Data Mining-2012-a@b 20

Estimasi selang (lanj) Selang kepercayaan 95%, maka α = 100% - 95% = 5% Selang kepercayaan 90% maka α = 10% Misal kita gunakan selang kepercayaan 95% α = 5% z α /2 = 5/2 = 2.5 % = 0.025 lihat tabel distribusi Data Mining-2012-a@b 21

Estimasi selang (lanj) Data Mining-2012-a@b 22

Estimasi selang (lanj) Nilai 0.024998 ~ 0.0250 terletak dalam baris 1.9 dan kolom 0.06 sehingga diperoleh 1.9 + 0.06 = 1.96 z α /2 batas bawah = - 1.96 (nilai negatif) z α /2 batas atas = 1.96 (nilai positif) Tinggal menghitung σ x σ x =σ/sqrt(n) (baca: standar deviasi dibagi akar banyaknya data) Data Mining-2012-a@b 23

Estimasi selang (lanj) σ standar deviasi 31.07 ml n banyaknya data 12 ml σ x =σ/sqrt(n) 31.07 / sqrt(12) = 8.97 Batas bawah (L) = 2007 19.6 (8.97) = 1989.42 ml Batas atas (U) = 2007 + 19.6 (8.97) = 2024.58 ml Jadi selang kepercayaan 95% berdasarkan sampel tersebut adalah (1989.42 ; 2024.58 ) ml Data Mining-2012-a@b 24

Estimasi selang (lanj) Pengetahuan apa yang bisa diperoleh dari pengolahan data di atas? bila kita melakukan prosedur 100 kali maka akan berpeluang untuk mendapatkan 95 buah selang yang benar-benar mencakup populasi sesungguhnya. Data Mining-2012-a@b 25

latihan Sebuah bagian dari depnaker bermaksud memperkirakan besarnya penghasilan penduduk di suatu daerah. Lima belas orang yang telah bekerja diambil secara acak dan ditanya penghasilan perbulan. Hasil yang diperoleh adalah Data Mining-2012-a@b 26

latihan 1. Perkirakan rata-rata dan varians penghasilan penduduk daerah tersebut 2. Buatlah selang keyakinan 99%, dan 95% untuk rata-rata penghasilan. Bandingkan dari segi intervalnya Data Mining-2012-a@b 27