Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia

Transkripsi

1 Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia Tugas Akhir KI91391 Dosen Pembimbing: Dr. Agus Zainal Arifin, S. Kom, M. Kom 1 Penyusun: Aini Rachmania

2 2 Pendahuluan

3 Latar Belakang 3 Berita Laporan mengenai fakta atau ide terbaru yang benar,dan atau penting bagi sebagian besar khalayak, melalui media berkala seperti surat kabar, radio, televisi, atau media online internet. (Siti, 2009) Aliran informasi yang dinamis (Bracewell, 2009) Karakter berita: Jumlah data besar Satu berita dengan berita lainnya berbeda Topik baru terus muncul Dibutuhkan: Klasifikasi berita untuk memudahkan navigasi berita

4 4

5 Algoritma yang Umumnya Digunakan Support Vector Machine Dapat diimplementasikan secara mudah (Nugroho, 2003) Sulit dipakai dalam problem berskala besar (Nugroho, 2003) Proses pembelajaran lambat (Bracewell, 2009) Harus dilatih ulang pada saat terjadi penambahan data (Princea, 2010) Naive Bayesian Hasilnya cukup baik untuk sebagian kasus Ukuran vektor fitur yang dibutuhkan cukup besar (Johanes, 2006) Fitur fitur data training harus disimpan (Bracewell, 2009) 5

6 Algoritma yang Digunakan Topic Analysis Diusulkan oleh David B. Bracewell, Jiajun Yan, Fuji Ren dan Shingo Kuroiwa pada tahun 2009 pada paper yang berjudul Category Classification and Topic Discovery of Japanese and English News Articles Tidak memerlukan online training Membagi proses menjadi dua tahap: klasifikasi kategori dan identifikasi topik 6

7 Hirarki Berita Edukasi Bisnis & Ekonomi Beasiswa Investasi Ujian Nasional SNMPTN Sertifikasi Guru Saham Praktik Dumping Pajak Pendidikan Agama 7

8 Permasalahan Bagaimana membangun aplikasi yang mampu menglasifikasikan kategori berita tanpa harus melakukan online training Bagaimana membangun sebuah aplikasi yang dapat mengidentifikasi topik dari sebuah berita yang ada Tujuan Membuat sebuah aplikasi yang dapat menglasifikasikan berita ke kategori yang sesuai dan menemukan topik dari berita tersebut 8

9 9 Gambaran umum aplikasi

10 Klasifikasi Kategori Corpus Dokumen Berita Perhitungan Likelihood Perhitungan Threshold Training Kategori Seleksi Kategori DataBase Dokumen Berita DataBase Kamus dan Stoplist Preprocess Topik Perhitungan CosSim Seleksi t dengan CosSim terbesar Perhitungan threshold Ekstraksi Kata Kunci Database Kata Kunci Seleksi topik menggunakant hreshold 10 Identifikasi Topik

11 Training Case Folding Filtering Eliminasi Stopword Stemming Weighting 11 Keywords Extraction

12 Klasifikasi Kategori Pengambilan Kata Kunci pada Database Perhitungan Likelihood Perhitungan Rata rata dan standard Deviasi Seleksi kategori 12

13 Identifikasi Topik Perhitungan CosSim Seleksi CosSim Terbesar Perhitungan Threshold Seleksi Topik 13

14 Contoh Corpus Selasa, 19 April 2011 KOMPETISI UI Juara Kompetisi Bisnis di Paris DEPOK, KOMPAS.com - Tim Universitas Indonesia (UI) berhasil menjadi juara dunia setelah mengalahkan tujuh negara lainnya, yaitu Algeria, China, Czech Republic, Portugal, Romania, Rusia, dan Amerika Serikat di ajang kompetisi bisnis internasional tingkat mahasiswa Trust by Danone di Paris, Perancis, 4-6 April Para finalis diwajibkan berperan sebagai jajaran direksi untuk membuat perencanaan strategis di suatu negara dan mempresentasikan solusi mereka dalam bahasa Inggris di hadapan dewan juri. -- Vishnu Juwono Tim UI terdiri dari Ekky Gompa, Ivan Cahyadi, Shanty Debora, Stevenlie Satryaputra dari FEUI dan Chandra Satria Muda dari FTUI. Kelimanya tergabung dalam tim Jayawijaya yang mempresentasikan Way in Doing Business melalui media video kreatif dan sebuah objek pada babak International Final. Mereka juga diuji secara ketat dalam memahami filosofi bisnis yang tidak hanya mengejar profit tetapi juga kontribusi terhadap lingkungan dan sosial.adapun kompetisi simulasi bisnis ini terdiri dari empat babak, yaitu seleksi CV, Trust Day, Country Final, dan International Final. 14

15 15 Klasifikasi Kategori (Offline)

16 16 Identifikasi Topik (Offline)

17 Thresholding topik 17 Uji Coba

18 Identifikasi kata (Filtering) \t\n\r\f\ \ \\ !@#$%^&*()_+- {} []:;<,>.?/`~ Eliminasi Stopwords Penghilangan kata kata yang dianggap tidak berkontribusi banyak pada isi dokumen (Yates dan Neto, 1999) Jenis kata yang termasuk stoplist adalah: Kata depan Kata ganti Kata hubung Kata sandang 18

19 Stemming Terms Frekuensi Fira 1 gemar 1 memasak 1 masakannya 1 lezat 1 Terms Frekuensi Fira 1 gemar 1 masak 2 lezat 1 sesudah stemming sebelum stemming 19

20 Confix Stripping Stemmer Formula Kata berimbuhan : [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] Alur stemming-1 : Alur stemming-2 : / / / [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] / / / [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] Keterangan: DP = Derivation Prefix (awalan me-, be-, pe-, te-, di-, ke-, se- ) DS = Derivation Suffix (akhiran -i, -kan, -an ) PP = Possesive Pronoun (kata ganti kepunyaan -ku, -mu, -nya ) P = Partikel ( -kah, -lah, -tah, -pun ) / / / / / / 20

21 Weighting Pada setiap term, diberikan pembobotan TF-IDF : Terms Frekuensi Fira 1 gemar 1 masak 2 lezat 1 w = tf.log2 ij ij N df j Keterangan: w ij = bobot term j pada dokumen i tf ij = frekuensi kemunculan term j pada dokumen i N = jumlah keseluruhan dokumen yang diproses df j = jumlah dokumen yang memiliki term j 21

22 Ekstraksi kata kunci Setiap dokumen yang telah selesai distemming diambil keseluruhan termsnya Terms dokumen diberi bobot menggunakan TFIDF terms terbaik diambil dan dikumpulkan menjadi kata kunci untuk kategori dan topik 22

23 Perhitungan Likelihood cj = kategori A = artikel k = keywords Kata Kunci Dokumen Uji c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c 9 23 k 1 k 2 k 3 k 4 k 5 k 6 k 7 k 8 k 9 k 10 saham TBK mega top IHSG sektor indeks naik persen peringkat Total dokumen pada kategori

24 Perhitungan Likelihood (lanjutan) Kata Kunci P(kata kunci kategori) log 2 (P) P* log 2 (P) saham 0, , , tbk 0, , , mega top ihsg 0, , , sektor 0, , , indeks 0, , , naik 0, , , persen 0,0625-1, , peringkat saham 0, , , Nilai Likelihood 0,

25 Perhitungan Threshold L = likelihood seluruh kategori yang ada li = likelihood untuk kategori i 25 Likelihood-Mean (Likelihood Mean) 2 Likelihood 1 - Mean -0, , Likelihood 2 Mean -0, , Likelihood 3 Mean -0, , Likelihood 4 Mean -0, , Likelihood 5 Mean 0, , Likelihood 6 Mean -0, , Likelihood 7 Mean 0, , Likelihood 8 Mean -0, , Likelihood 9 - Mean 0, , Mean 0, Sum 0, L 9 Sum / L 0, Standard Deviasi 0, Threshold 0,

26 Algoritma Identifikasi Topik 1. Transformasikan kata kunci dokumen dan topik ke dalam vectorspace model yang sama Topik Artikel 2. rumus: Kurs 5 Valuta 2 Dollar 10 Kurs 3 Saham 3 Dollar 7 Kurs 5 Kurs 3 Dollar 10 Dollar 7 Saham 3 Saham 0 Valuta 0 Valuta 2 ti = topik ke-i A = artikel 26

27 3. Hitung nilai NewTSim menggunakan rumus: 4. Bandingkan CosSim topik awal dengan kedua threshold: (i) CosSim(t c,a) > 0.1 AND CosSim(t c,a) > NewTSim(t c,a) (ii) NumTopics > 10 CosSim(tc,A) AND > (2 StdDev(AllTopicSims) +Mean(AllTopicSims)) 5. Bila topik awal memenuhi kedua threshold, maka topik awal ditetapkan. Bila topik awal memenuhi <= 1 threshold, masukkan topik baru. 27

28 28 Uji Coba Perangkat Lunak

29 Uji Coba Aplikasi 29 Tujuan: Pencarian parameter optimal: Jumlah Kata Kunci Nilai threshold topik Performa Parser (tambahan) Dokumen Testing: Kategori Nasional 10 Regional 11 Internasional 11 Metropolitan 10 Bisnis dan Ekonomi 11 Olahraga 11 Sains dan Teknologi 11 Edukasi 10 Pariwisata 10 Total 95 Jumlah Dokumen

30 Uji Coba Kata Kunci Jumlah kata kunci yang diambil : 5, 10, 15, 20 Diujikan pada dua kondisi: offline dan online 30

31 Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Kategori Keyword = 5 Keyword = 10 Keyword = 15 Keyword = 20 Precision Precision Precision Precision Bisnis & Ekonomi 0,667 0,571 0,933 0,929 Edukasi 0,588 0,467 0,600 0,733 Internasional 0,286 0,563 0,563 0,563 Metropolitan 0,214 0,154 0,231 0,231 Nasional 0,952 0,947 0,947 1,000 Olahraga 0,846 0,923 1,000 1,000 Pariwisata 1,000 0,933 0,933 1,000 Regional 1,000 1,000 1,000 1,000 Sains & Teknologi 0,818 1,000 0,909 1,000 31

32 Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Keyword = 5 Keyword = 10 Keyword = 15 Keyword = 20 Recall Recall Recall Recall Kategori Bisnis & Ekonomi 0,667 0,727 0,737 0,765 Edukasi 0,909 0,875 0,900 0,917 Internasional 1,000 1,000 0,900 1,000 Metropolitan 0,429 0,400 0,500 0,600 Nasional 0,952 0,947 0,947 0,950 Olahraga 1,000 1,000 1,000 1,000 Pariwisata 0,400 0,389 0,452 0,467 Regional 0,348 0,390 0,390 0,390 Sains & Teknologi 0,643 0,733 0,769 0,786 32

33 Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Rata - Rata Akurasi A K U R A S I 94.50% 94.00% 93.50% 93.00% 92.50% 92.00% 91.50% 91.00% 90.50% 90.00% Rata - Rata Akurasi K ATA KUNCI YANG DIEKSTRAKSI 33

34 Uji Coba Kata Kunci (lanjutan) Hasil Uji Coba Online Rata - Rata Akurasi A K U R A S I 94.00% 93.80% 93.60% 93.40% 93.20% 93.00% 92.80% 92.60% 92.40% 92.20% 92.00% 91.80% K ATA KUNCI YANG DIEKSTRAKSI Rata - Rata Akurasi 34

35 Uji Coba parameter threshold Pada identifikasi topik, parameter nilai ambang CosSim ditentukan 0,1 Jumlah kta kunci yang diambil 20 Nilai threshold diuji coba pada nilai 0.1, 0.2, 0.3, dan

36 Hasil Uji Coba Identifikasi Topik Akurasi A K U R A S I 98.00% 97.00% 96.00% 95.00% Akurasi 94.00% 93.00% 92.00% T H R E S H O L D 36

37 Uji Coba Parser Menemukan kesalahan kesalahan pada parser Hasil uji coba: Tipe Kesalahan Pembacaan karakter HTML 2.0 Dokumen tidak terunduh sempurna Contoh Kasus Kesalahan Seharusnya > > " ldquo; Dokumen hanya Dokumen terunduh terunduh hingga secara lengkap pertengahan berita hingga akhir berita 37

38 Evaluasi Performa aplikasi meningkat seiring bertambahnya kata kunci yang diekstraksi Jumlah kata kunci yang dapat menghasilkan nilai akurasi optimal adalah 20 Akurasi tertinggi klasifikasi offline: 93,82% Akurasi tertinggi klasifikasi online: 93,84% Akurasi tertinggi identifikasi topik : 97,26% Parameter nilai threshold klasifikasi optimal adalah 0,3 38

39 39 Simpulan dan Saran

40 Kesimpulan Algoritma terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia dengan akurasi 93,84% Performa algoritma berkaitan erat dengan jumlah kata kunci yang diambil pada saat ekstraksi kata kunci 40

41 Saran Riset lebih dalam untuk algoritma ekstraksi kata kunci Riset untuk mengurangi waktu running time Ground truth kategori sebaiknya saling lepas Riset lebih dalam untuk parser 41

42 42 Terima Kasih