Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa

Alur dan Proses Cleaning Process Dokumen Berkategori Kamus (Dictionaries) dari setiap klas Penentuan Fitur (Feature Generation) Training Sets Testing Sets SVM Hasil: Dokumen Baru dengan Kategori Models

Penentuan Fitur Topik minggu sebelumnya telah memaparkan dan mendiskusikan salah satu alternatif membangun tektual fitur dari halaman Web (jika objek berupa halaman Web), contoh fitur: tropical_d 1:0.777777777777778 2:0.333333333333333 3:0.111111111111111 4:0 5:0.111111111111111 6:0 7:0.2875 8:0.1125 9:0.0375 10:0 11:0.0125 12:0 13:0.178947368421053 14:0.0421052631578947 15:0.0210526315789474 16:0 17:0.0210526315789474 18:0 19:0.1 20:0.024 21:0.008 22:0 23:0.004 24:0 tropical_d 1:0.833333333333333 2:0.166666666666667 3:0 4:0 5:0 6:0 7:0.298507462686567 8:0.0970149253731343 9:0.0447761194029851 10:0 11:0.0298507462686567 12:0 13:0.137349397590361 14:0.0397590361445783 15:0.0036144578313253 16:0 17:0.0108433734939759 18:0 19:0.106666666666667 20:0.0155555555555556 21:0.00222222222222222 22:0 23:0.0155555555555556 24:0.00222222222222222

Tahapan Klasifikasi Learning (training): Pembelajaran menggunakan data training (untuk Naïve Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran) Testing: Menguji model menggunakan data testing Sumber: Bing Liu, Web Data Mining

Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning). Terbimbing karena kategori (class label) dari setiap training sampel diketahui Untuk melakukan klasifikasi, training set sebagai data pembelajaran harus ada Attribut dari sampel baru (unclassified sample) sama dengan atribut dari setiap sampel dalam training set hanya saja class label-nya belum diketahui

Metode Klasifikasi Naïve Bayesian Classifier (Probabilistics-Based Classification) Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence) Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain Karena asumsi atribut tidak saling terkait (conditionally independent), maka: n P( X Ci) = P( xk Ci) k = 1 Kategori dari sampel X(new sample) adalah classlabel yang memiliki P(X C i )*P(C i )maksimum

Metode Klasifikasi K-Nearest Neighbor (K-NN) Classification Adalah metode classifier yang menentukan kategori dari sampel baru berdasarkan k-tetangga terdekat. k-sampel terdekat itu dihitung berdasarkan perhitungan jarak (euclidian atau manhattan distance K-NN juga disebut lazy classifier K-NN adalah distance-based classification Sumber: http://en.wikipedia.org/wiki/k-nearest_neighbor_algorithm

Metode Klasifikasi Support Vector Machine (SVM) Dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory SVM memperkenalkan strategi baru dengan menemukan hyperplane terbaik pada ruang input (input space). Prinsip SVM adalah linear classifier, tetapi SVM kemudian dikembangkan agar mampu bekerja pada masalah non-linear dengan memasukkan kernel

SVM Light Leaning Step: svm-classify file_test file_model prediction file_training adalah file fitur yang telah disusun dalam format SVM light file_model adalah model yang telah dibangkitkan sebelumnya saat proses learning dilakukan file prediction menyimpan hasil prediksi dari SVM 1 101:0.2 205:4 209:0.2 304:0.2-1 202:0.1 203:0.1 208:0.1 209:0.3 1.045-0.987 1.045 0.987

SVM Light Situs resmi: http://svmlight.joachims.org/ Diimplementasi menggunakan bahasa pemrograman C Testing Step: svm-learn [-option] file_training file_model file_training adalah file fitur yang telah disusun dalam format SVM light file_model adalah model yang dibangkitkan oleh proses learning svm-classify file_test_fitur file_model

Confusion Matriks Sumber: Bing Liu, Web Data Mining p = TP TP + FP. r = TP TP + FN. Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif

F-Measure (F1-Score) F-Measure (F1) adalah harmonic mean dari precision dan recall Range dari nilai F-Measure adalah 0 sd 1.

Contoh Sumber: Bing Liu, Web Data Mining precision p = 100% recall r = 1% Mengapa? Karena kita hanya berhasil mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar

SVM Light Demo