Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

dokumen-dokumen yang mirip
Bayesian Classifier. Bahan Kuliah Data Mining. Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala

BAB II LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

Dr. Taufik Fuadi Abidin, S.Si., M.Tech

BAB III METODOLOGI PENELITIAN. Dataset

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

BAB II LANDASAN TEORI

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

BAB I PENDAHULUAN 1.1 Latar Belakang

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

PENGKLASIFIKASIAN TINGKAT DANGEROUS DRIVING BEHAVIOR MENGGUNAKAN DATA ELEKTROENSEFALOGRAFI (EEG) DENGAN PENDEKATAN MACHINE LEARNING

CHURN PREDICTION PELANGGAN MENGGUNAKAN CRISP-DM (Studi Kasus Pelanggan TelkomFlexi Bandung)

Komparasi Algoritma Klasifikasi untuk dataset iris dengan rapid miner

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

Gambar 1.1 Proses Text Mining [7]

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

KLASIFIKASI PADA TEXT MINING

Penentuan Jurusan Sekolah Menengah Atas Menggunakan Metode K-Nearest Neighbor Classifier Pada SMAN 16 Semarang

KLASIFIKASI PADA TEXT MINING

Uji Perbandingan Akurasi Analisis Sentimen Pariwisata menggunakan Algoritma Support Vektor Machine dan Naive Bayes

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Klasifikasi Data Otomotif Menggunakan SVM Light

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

M. Zidny Naf an Gasal 2016/2017

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

Sekip Utara Yogyakarta * 1 2

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

Langkah Kerja Klasifikasi Data Otomotif Menggunakan SVM Light

BAB 3 METODE PENELITIAN

Pengantar Support Vector Machine

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

TINJAUAN PUSTAKA. Definisi Data Mining

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

BAB 2 LANDASAN TEORI

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB I PENDAHULUAN. sistem peredaran darah orang lain. Sebelum ditransfusikan, periksa kembali sifat

BAB II LANDASAN TEORI

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINE DENGAN DATA CLEANING (GSVM-DC) UNTUK SPAM FILTERING

PENERAPAN ADABOOST UNTUK KLASIFIKASI SUPPORT VECTOR MACHINE GUNA MENINGKATKAN AKURASI PADA DIAGNOSA CHRONIC KIDNEY DISEASE

PENERAPAN DATA MINING UNTUK MENENTUKAN POTENSI HUJAN HARIAN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES

Deteksi Mobil Menggunakan Histogram of Oriented Gradient

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

Algoritma Dasar. 4.1 Naive Bayes

BAB I PENDAHULUAN 1.1 Latar Belakang

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR

BAB II LANDASAN TEORI

SAINTEKBU: Jurnal Sains dan Teknologi Volume 9 No.2 Mei 2017 EVALUASI INTERNAL PROGRAM STUDI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER (NBC)

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

KLASIFIKASI STATUS GIZI MENGGUNAKAN K-NEAREST NEIGHBOR INTISARI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

Sistem Pendukung Keputusan Untuk Mengevaluasi Internal Program Studi

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

1. Pendahuluan. 1.1 Latar Belakang

BAB 2. Landasan Teori

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI PROFIL LULUSAN STMIK LPKIA

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA

PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA ABSTRAK

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238

BAB 2 TINJAUAN PUSTAKA

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

BAB II TINJAUAN PUSTAKA

SKRIPSI. Oleh : PUSPHITA ANNA OCTAVIANI NIM PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM)

Cross Industry Standard Process for Data Mining (CRISP-DM) Nama : Siti Maskuroh NIM : A Kel : A

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

STUDI KOMPARASI METODE KLASIFIKASI DUA KELAS

BAB I PENDAHULUAN. banyak informasi yang tersedia di internet, maka akan semakin sulit juga untuk

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB 2 LANDASAN TEORI

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

BAB 3 METODE PENELITIAN

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

Transkripsi:

Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa

Alur dan Proses Cleaning Process Dokumen Berkategori Kamus (Dictionaries) dari setiap klas Penentuan Fitur (Feature Generation) Training Sets Testing Sets SVM Hasil: Dokumen Baru dengan Kategori Models

Penentuan Fitur Topik minggu sebelumnya telah memaparkan dan mendiskusikan salah satu alternatif membangun tektual fitur dari halaman Web (jika objek berupa halaman Web), contoh fitur: tropical_d 1:0.777777777777778 2:0.333333333333333 3:0.111111111111111 4:0 5:0.111111111111111 6:0 7:0.2875 8:0.1125 9:0.0375 10:0 11:0.0125 12:0 13:0.178947368421053 14:0.0421052631578947 15:0.0210526315789474 16:0 17:0.0210526315789474 18:0 19:0.1 20:0.024 21:0.008 22:0 23:0.004 24:0 tropical_d 1:0.833333333333333 2:0.166666666666667 3:0 4:0 5:0 6:0 7:0.298507462686567 8:0.0970149253731343 9:0.0447761194029851 10:0 11:0.0298507462686567 12:0 13:0.137349397590361 14:0.0397590361445783 15:0.0036144578313253 16:0 17:0.0108433734939759 18:0 19:0.106666666666667 20:0.0155555555555556 21:0.00222222222222222 22:0 23:0.0155555555555556 24:0.00222222222222222

Tahapan Klasifikasi Learning (training): Pembelajaran menggunakan data training (untuk Naïve Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran) Testing: Menguji model menggunakan data testing Sumber: Bing Liu, Web Data Mining

Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning). Terbimbing karena kategori (class label) dari setiap training sampel diketahui Untuk melakukan klasifikasi, training set sebagai data pembelajaran harus ada Attribut dari sampel baru (unclassified sample) sama dengan atribut dari setiap sampel dalam training set hanya saja class label-nya belum diketahui

Metode Klasifikasi Naïve Bayesian Classifier (Probabilistics-Based Classification) Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence) Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain Karena asumsi atribut tidak saling terkait (conditionally independent), maka: n P( X Ci) = P( xk Ci) k = 1 Kategori dari sampel X(new sample) adalah classlabel yang memiliki P(X C i )*P(C i )maksimum

Metode Klasifikasi K-Nearest Neighbor (K-NN) Classification Adalah metode classifier yang menentukan kategori dari sampel baru berdasarkan k-tetangga terdekat. k-sampel terdekat itu dihitung berdasarkan perhitungan jarak (euclidian atau manhattan distance K-NN juga disebut lazy classifier K-NN adalah distance-based classification Sumber: http://en.wikipedia.org/wiki/k-nearest_neighbor_algorithm

Metode Klasifikasi Support Vector Machine (SVM) Dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory SVM memperkenalkan strategi baru dengan menemukan hyperplane terbaik pada ruang input (input space). Prinsip SVM adalah linear classifier, tetapi SVM kemudian dikembangkan agar mampu bekerja pada masalah non-linear dengan memasukkan kernel

SVM Light Leaning Step: svm-classify file_test file_model prediction file_training adalah file fitur yang telah disusun dalam format SVM light file_model adalah model yang telah dibangkitkan sebelumnya saat proses learning dilakukan file prediction menyimpan hasil prediksi dari SVM 1 101:0.2 205:4 209:0.2 304:0.2-1 202:0.1 203:0.1 208:0.1 209:0.3 1.045-0.987 1.045 0.987

SVM Light Situs resmi: http://svmlight.joachims.org/ Diimplementasi menggunakan bahasa pemrograman C Testing Step: svm-learn [-option] file_training file_model file_training adalah file fitur yang telah disusun dalam format SVM light file_model adalah model yang dibangkitkan oleh proses learning svm-classify file_test_fitur file_model

Confusion Matriks Sumber: Bing Liu, Web Data Mining p = TP TP + FP. r = TP TP + FN. Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif

F-Measure (F1-Score) F-Measure (F1) adalah harmonic mean dari precision dan recall Range dari nilai F-Measure adalah 0 sd 1.

Contoh Sumber: Bing Liu, Web Data Mining precision p = 100% recall r = 1% Mengapa? Karena kita hanya berhasil mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar

SVM Light Demo