Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks

Ukuran: px

Mulai penontonan dengan halaman:

Download "Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks"

Utami Salim
6 tahun lalu
Tontonan:

1 Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Penyusun: Andreas Daniel Arifin Pembimbing: Isye Arieshanti, S.Kom, M.Phil Dr. Agus Zainal Arifin, S.Kom, M.Kom

2 Latar Belakang Informasi berkembang cepat dan melimpah. Kategorisasi teks adalah sebuah solusi. KNN dikenal cukup baik performanya dan sederhana. KNN waktu kurang efisien dan butuh memori besar. Solusi one pass KNN 2

3 Rumusan Masalah Bagaimanakah membuat sistem kategorisasi teks dengan one pass KNN? Pengaruh parameter threshold & k performa one pass KNN? Performa one pass KNN vs KNN konvensional? Efisiensi waktu komputasi one pass KNN vs KNN konvensional? 3

4 Gambaran Umum Preprocessing dataset Update model klasifikasi Bangun model klasifikasi dengan one pass clustering Kategorisasi teks dengan KNN berdasarkan model Evaluasi model dengan F 1 dan Macro-F 1 4

5 17 Kategorisasi dengan KNN 5

6 17 vs 10 Kategorisasi dengan One Pass KNN 6

7 Preprocessing dataset Update model klasifikasi Bangun model klasifikasi dengan one pass clustering Kategorisasi teks dengan KNN berdasarkan model Evaluasi model dengan F 1 dan Macro-F 1 7

8 Preprocessing Parsing dataset dari berkas XML ke database 1. national average prices for farmerowned reserve. Case folding national average prices for farmer owned reserve Filtering Pembobotan dengan tf-idf Stemming term dengan Porter stemmer Ekstraksi berdasarkan stopword list 1. National Average Prices For Farmerowned Reserve. nation, averag, price, farmer, own, reserv national, average, prices, farmer, owned, reserve 8

9 Preprocessing (2) tf-idf w t,d = (1 + log tt t,d ) log 10 N dd t Output: Vector Space Model (VSM) D i = (d i1, d i2,, d it ) 9

10 Preprocessing dataset Update model klasifikasi Bangun model klasifikasi dengan one pass clustering Kategorisasi teks dengan KNN berdasarkan model Evaluasi model dengan F 1 dan Macro-F 1 10

11 One Pass Clustering Algoritma incremental. Membagi data ke dalam cluster: label sama, dalam threshold. 3 4 r

12 Metode One Pass Clustering Buat satu cluster baru dengan satu dokumen m 0 Mulai Buat cluster baru dengan dokumen p Tidak Update bobot tiap kata di cluster C* Gabungkan p ke dalam cluster C* Ya Sim(p, C*) > r dan label p = label C* Semua dokumen di corpus sudah dibaca? Tidak Ambil satu dokumen p di corpus Hitung kemiripannya tiap C i dengan fungsi cosine dengan p Ambil cluster dengan nilai kemiripan, sim(p,c*), terbesar Ya Model klasifikasi = m 0 Selesai 12

13 Nilai Threshold Penentuan nilai threshold (r): Pilih secara acak N 0 pasang teks dari corpus. Hitung kemiripan (similarity) tiap pasang teks. Hitung nilai rata-rata kemiripan (ex) yang didapat dari tahap 2. Tentukan nilai r dari persamaan ε x ex, di mana ε 1. 13

14 Update bobot w j+1 Ci (t) = w j c i (t) c i + w(t) p c i

15 Preprocessing dataset Update model klasifikasi Bangun model klasifikasi dengan one pass clustering Kategorisasi teks dengan KNN berdasarkan model Evaluasi model dengan F 1 dan Macro-F 1 15

16 Kategorisasi Teks dengan KNN Proses kategorisasi teks dengan K-Nearest Neighbour (KNN): Menghitung kemiripan teks masukan x dengan centroid semua cluster. Ambil k cluster dengan nilai kemiripan terbesar. Skor Kategori: f x = aaaaaa CCCCCCCCCCCC x, c j j = aaaaaa j sss(x, C i )y(c i, c j ) C i KKK 16

17 Preprocessing dataset Update model klasifikasi Bangun model klasifikasi dengan one pass clustering Kategorisasi teks dengan KNN berdasarkan model Evaluasi model dengan F 1 dan Macro-F 1 17

18 Evaluasi Metode F 1 dan Macro-F 1. Metode evaluasi F 1 adalah penerapan gabungan recall (r) dan precision (p) F 1 = 2 r p r + p Macro-F 1 adalah nilai rata-rata dari nilai F 1 individu masing-masing kategori. 18

19 Data Uji Coba Reuters No. Kategori Data Latih Data Uji 1 ACQ Corn Crude Earn Interest Ship Trade Total

20 Data Uji Coba (2) Judul Kategori Teks NEW DUTCH ADVANCES TOTAL 4.8 BILLION GUILDERS interest The Dutch Central Bank said it has accepted bids totalling 4.8 billion guilders at tender for new seven-day special advances at 5.3 pct covering the period March 2 to 9 aimed at relieving money market tightness. Subscriptions to 300 mln guilders were met in full, amounts above 300 mln at 50 pct. The new facility replaces old five-day advances worth 8.0billion guilders at the same rate. Dealers expect this week's money market shortage to bearound 12 billion guilders. 20

21 Skenario Uji Coba Skenario I: Menguji parameter epsilon, ε Skenario II: Membandingkan one pass KNN dengan KNN konvensional. Nilai k: 1, 5, 10, 20, 30, 45, 50, 60, 70, dan 80 21

Hasil Uji Coba I epsilon Jumlah Cluster 3 1269 4 1421 Macro-F1 0,885 0,88 0,875 0,87 5

22 Hasil Uji Coba I epsilon Jumlah Cluster Macro-F1 0,885 0,88 0,875 0, , , , , epsilon 22

23 Hasil Uji Coba II 0,9 0,85 Macro-F1 0,8 0,75 One Pass KNN KNN 0,7 0, Nilai k *ε = 4 23

24 Hasil Uji Coba II (2) Waktu (detik) % One Pass KNN KNN Nilai k *ε = 4

25 Kesimpulan One Pass KNN preprocessing, pembangunan model klasifikasi (one pass clustering), klasifikasi dengan KNN, dan evaluasi dengan F 1 dan Macro-F 1. Nilai threshold (epsilon) dan nilai k berbanding terbalik dengan performa. Nilai threshold terbaik saat epsilon 4. Performa one pass KNN=88% (ε=4, k=30) lebih baik daripada KNN konvensional=85% (k=50). Efisiensi waktu komputasi algoritma one pass KNN 70% lebih baik daripada algoritma KNN konvensional. 25

26 26

dokumen-dokumen yang mirip

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,