MODUL 12 Model Prediktif

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB I PENDAHULUAN 1.1. Latar Belakang

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB I PENDAHULUAN Latar Belakang

BAB 2 LANDASAN TEORI

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Classification. Decision Tree. Decision Tree. Konsep Decision Tree. Penggunaan Decision Tree. When To Consider Decision Tree?

PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA

Belajar Mudah Algoritma Data Mining : C4.5

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB III METODE PENELITIAN

PERBANDINGAN DECISION TREE

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

KONVERSI DATA TRAINING TENTANG PENYAKIT HIPERTENSI MENJADI BENTUK POHON KEPUTUSAN DENGAN TEKNIK KLASIFIKASI MENGGUNAKAN TOOLS RAPID MINER 4.

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

SISTEM KLASIFIKASI PENYEBARAN PENYAKIT MATA DI JAWA BARAT DENGAN ALGORITMA ITERATIVE DICHOTOMISER 3 DAN NAÏVE BAYES CLASSIFIER

IMPLEMENTASI DATA MINING PADA PENENTUAN JUMLAH SKS MENGGUNAKAN DECISION TREE

TINJAUAN PUSTAKA. Definisi Data Mining

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

Modul IV KLASIFIKASI

BAB I PENDAHULUAN. 1.1 Latar Belakang

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

CONTOH KASUS DATA MINING

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA


BAB 1 PENDAHULUAN 1-1

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Abidah Elcholiqi, Beta Noranita, Indra Waspada

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penerimaan Mahasiswa Baru

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP

Decision Tree. Achmad Basuki, Iwan Syarif Politeknik Elektronika Negeri Surabaya PENS-ITS 2003

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

Suyanto, Artificial Intelligence

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

ABSTRAK. Keywords : Data Mining, Filter, Data Pre-Processing, Association, Classification, Deskriptif, Prediktif, Data Mahasiswa.

APLIKASI PENENTUAN CALON PENDONOR DARAH MENGGUNAKAN METODE ALGORITMA ID3 ( STUDI KASUS PMI KOTA KEDIRI )

Manfaat Pohon Keputusan

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

IMPLEMENTASI TEKNIK DATA MINING CLASSIFICATION DENGAN METODE DECISSION TREE UNTUK MENENTUKAN TINGKAT KELULUSAN MAHASISWA

Algoritma Iterative Dichotomizer 3 (ID3) Pengambilan Keputusan

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB 2 TINJAUAN PUSTAKA

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

BAB 2 TINJAUAN PUSTAKA

APLIKASI DATA MINING UNTUK MENGHASILKAN POLA KELULUSAN SISWA DENGAN METODE NAÏVE BAYES

Penerapan Data Mining dalam Memprediksi Pembelian cat

DAFTAR ISI... LEMBAR PENGESAHAN PEMBIMBING... LEMBAR PENGESAHAN PENGUJI... HALAMAN PERSEMBAHAN... HALAMAN MOTTO... KATA PENGANTAR...

khazanah informatika 1 Program studi Informatika Universitas Muhammadiyah Surakarta Surakarta 1.

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Analisis Akurasi Support Vector Machine...

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

SISTEM REKOMENDASI PENENTUAN JUDUL SKRIPSI MENGGUNAKAN ALGORITMA DECISION TREE

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Jurnal KomTekInfo Fakultas Ilmu Komputer, Volume 1, No. 2, Desember 2014 ISSN :

Transkripsi:

MODUL 12 Model Prediktif Prediktif Analytics adalah teknologi yang menangkap proses data mining dalam rutinitas sederhana. Kadang-kadang disebut "one-click data mining," Model ini menyederhanakan dan mengotomatisasi proses data mining, seperti membuat profile, menemukan faktor-faktor yang mengarah ke hasil tertentu, memprediksi hasil yang paling mungkin, dan mengidentifikasi tingkat kepercayaan dalam prediksi. Analisis prediktif menggunakan teknologi data mining, tapi pengetahuan dari data mining tidak diperlukan untuk menggunakan analisis prediktif. Sub program dari data mining akan menganalisa data dan membuat model nya. Model ini dianalisa dan diuji untuk membentuk hasil yang dibutuhkan oleh pengguna. Bila Anda menggunakan teknologi data mining secara langsung, Anda membuat model atau menggunakan model yang diciptakan oleh orang lain. Biasanya, Anda menerapkan model untuk data baru 12.1 CLASSIFICATION Dalam konteks data mining, klasifikasi dilakukan dengan menggunakan model yang dibangun pada data histories. Tujuan klasifikasi prediktif adalah untuk memprediksi kelas target atau segmentasi secara akurat untuk setiap record data baru, yaitu, data yang tidak dalam data historis. Klasifikasi digunakan dalam segmentasi pelanggan, pemodelan bisnis, analisis kredit, dan banyak aplikasi lainnya. Sebagai contoh, sebuah perusahaan kartu kredit mungkin ingin untuk memprediksi pelanggan yang ingin melakukan pembayaran secara default atau tidak. Pelanggan dibagi menjadi dua kelas: Setiap pelangan berkorespondensi dengan kasus, data untuk masing-masing kasus mungkin terdiri dari sejumlah atribut 1

yang menggambarkan kebiasaan belanja pelanggan, pendapatan, atribut demografi dan sebagainya. Ini adalah atribut predictor. Atribut target menunjukkan ada atau tidak setiap pelanggan memiliki default. Data yang telah terbentuk digunakan untuk membuat model yang akan memprediksi untuk pelanggan baru, apakah termasuk yang melakukan pembayaran secara default atau tidak. Pada penerapan lain, classification sering digunakan untuk membuat profile pelanggan. Misalnya, setelah menentukan kecenderungan pelanggan untuk membeli kamera digital, maka kemudian dapat dibuat profil pelanggan dengan pekerjaan, seperti yang ditunjukkan pada Gambar di bawah ini Masalah yang terjadi pada klasifikasi adalah target biner atau multiclass. Target binary misalkan adalah pengambilan data hanya pada dua nilai, seperti resiko kredit baik dan resiko kredit buruk. Target multiclas memiliki nilai lebih dari dua, misalnya produk yang dibeli (sisir, sikat rambut atau pin rambut). Nilai target multiclass tidak diasumsikan ada pada suatu relasi yang berurutan. ( sikat rambut tidak dianggap lebih besar atau lebih kecil dari sisir) 2

Algoritma pada klasifikasi : Decision Tree Decision tree adalah satu metode klasifikasi yang paling popular Karena mudah diinterprestasikan oleh manusia. Decision tree digunakan untuk pengenalan pola dan termasuk dalam pengenalan pola secara acak statistik. Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara topdown untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu. Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision 3. Decision Tree Learning akan berusaha membangun pohon keputusan secara topdown, mulai dg pertanyaan : Atribut mana yang pertama kali harus dicek dan diletakkan pada root? Untuk menentukannya, diperlukan suatu ukuran statistik yaitu Entropy dan Information Gain. Entropy adalah suatu parameter untuk mengukur heterogenitas (keberagaman) suatu kumpulan data dengan rumus : Entropy(S) - pi log2 pi 3

Setelah mendapatkan nilai Entropy dari suatu atribut, maka kita dapat mengukur efektifitas suatu atribut dalam mengklasifikasikan data ( Information Gain ) dengan rumus : Gain (S,A) Entropy (S) - Entropy(Sv) Beberapa contoh pemakaian Decision Tree,yaitu : Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain Pemilihan pegawai teladan sesuai dengan kriteria tertentu Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain. Algoritma Naive Bayes Algoritma Naive Bayes (NB) dapat digunakan untuk masalah klasifikasi biner dan multiclass. NB membuat prediksi menggunakan Teorema Bayes, yang berasal probabilitas prediksi dari bukti-bukti yang mendasari. Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai teorema Bayes. Teorema tersebut dikombinasikan dengan naive dimana diasumsikan kondisi antar atribut saling bebas 4

Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang membuat algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Dasar dari teorema naive digunakan dalam pemrograman adalah rumus Bayes berikut ini: P (A B) = (P(B A) * P(A))/P(B) Artinya Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B. Contoh penggunaan Algoritma Naive Bayes antara lain: Untuk klasifikasi Dokumen Untuk deteksi SPAM atau fitering SPAM Dan masalah klasifikasi lainnya Algoritma Adaptive Bayes Network Algoritma Adaptive Bayes Network merupakan algoritma dengan bentuk yang sangat intuitif menghasilkan suatu model dalam bentuk pohon keputusan seperti bentuk dibawah ini. 5

Karena model yang dihasilkan oleh ABN adalah dalam bentuk yang terbacamanusia, seorang analis bisnis atau eksekutif akan lebih nyaman ketika menggunakannya untuk membuat keputusan bisnis. Algoritma ABN biasanya lebih akurat daripada NB, tetapi membutuhkan waktu lebih lama untuk membangun model. Orcle memberikan dua model lainnya untuk ABN yaitu Pruned Naïve Bayes dan Boosted. Namun kedua model ini tidak memberikan aturan yang mudah dibaca oleh manusia. Support Vector Machines Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaian harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition, usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinya menempatkannya sebagai state of the art dalam pattern recognition, dan dewasa ini merupakan salah satu tema yang berkembang dengan pesat. Berbagai penelitian dilakukan untuk mengevaluasi potensi SVM dalam analisa data biologi, antara lain: Analisa ekspresi gen Deteksi homologi protein Prediksi struktur protein Secara umum, perbandingan dari algoritma klasifikasi dapat dilihat pada tabel dibawah ini : 6

12.2. REGRESSION Model regresi yang mirip dengan model klasifikasi. Perbedaan antara regresi dan klasifikasi adalah regresi dilakukan pada target data numerik atau terus-menerus sedangkan klasifikasi dilakukan pada target data diskrit atau kategoris. Dengan kata lain, jika atribut target berisi nilai kontinyu (floating-point) atau nilai-nilai integer yang memiliki keteraturan, maka teknik regresi dapat digunakan. Contoh dari regresi adalah kebutuhan perusahaan untuk melakukan estimasi nilai sales pada tahun depan berdasarkan analisa trend sales tahun-tahun sebelumnya. Katakanlah nilai tahun lalu sebesar 100 juta rupiah, tahun ini sebesar 120 juta rupiah, mungkin hasilnya bisa naik atau bisa turun. Kemungkinan hasil probablitas tidak terbatas hanya 100 juta ataupun 200 juta rupiah Algoritma Regresi : Oracle Data Mining mendukung dua algoritma untuk regresi. Kedua algoritma sangat cocok untuk set data mining yang memiliki dimensi tinggi (atribut banyak), termasuk data transaksional dan tidak terstruktur. Generalized Linear Models (GLM) 7

GLM adalah teknik statistik yang populer untuk pemodelan linier. Oracle Data Mining mengimplementasikan GLM untuk regresi dan untuk klasifikasi biner. GLM menyediakan statistik koefisien luas dan statistik model, serta diagnosa baris. GLM juga mendukung batas keyakinan.support Vector Machines (SVM) SVM adalah lgoritma yang sangat bermanfaat untuk regresi linier dan nonlinier. Oracle Data Mining mengimplementasikan SVM untuk regresi dan fungsi pertambangan lainnya Sumber Cristianini N., Taylor J.S., An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods, Cambridge Press University, 2000 classification and validation of cancer tissue samples using microarray expression data, Bioinformatics, Vol.16, No.10, 2000,pp.906-914 10- Ward J.J., et Hobs Lilian, Oracle Database 10g Datawarehousing, Elsevier Digital Press Oracle Data Mining Concepts 10g Release 2 (10.2) B14339-01 8