Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia Tugas Akhir KI91391 Dosen Pembimbing: Dr. Agus Zainal Arifin, S. Kom, M. Kom 1 Penyusun: Aini Rachmania 5107100077
2 Pendahuluan
Latar Belakang 3 Berita Laporan mengenai fakta atau ide terbaru yang benar,dan atau penting bagi sebagian besar khalayak, melalui media berkala seperti surat kabar, radio, televisi, atau media online internet. (Siti, 2009) Aliran informasi yang dinamis (Bracewell, 2009) Karakter berita: Jumlah data besar Satu berita dengan berita lainnya berbeda Topik baru terus muncul Dibutuhkan: Klasifikasi berita untuk memudahkan navigasi berita
4
Algoritma yang Umumnya Digunakan Support Vector Machine Dapat diimplementasikan secara mudah (Nugroho, 2003) Sulit dipakai dalam problem berskala besar (Nugroho, 2003) Proses pembelajaran lambat (Bracewell, 2009) Harus dilatih ulang pada saat terjadi penambahan data (Princea, 2010) Naive Bayesian Hasilnya cukup baik untuk sebagian kasus Ukuran vektor fitur yang dibutuhkan cukup besar (Johanes, 2006) Fitur fitur data training harus disimpan (Bracewell, 2009) 5
Algoritma yang Digunakan Topic Analysis Diusulkan oleh David B. Bracewell, Jiajun Yan, Fuji Ren dan Shingo Kuroiwa pada tahun 2009 pada paper yang berjudul Category Classification and Topic Discovery of Japanese and English News Articles Tidak memerlukan online training Membagi proses menjadi dua tahap: klasifikasi kategori dan identifikasi topik 6
Hirarki Berita Edukasi Bisnis & Ekonomi Beasiswa Investasi Ujian Nasional SNMPTN Sertifikasi Guru Saham Praktik Dumping Pajak Pendidikan Agama 7
Permasalahan Bagaimana membangun aplikasi yang mampu menglasifikasikan kategori berita tanpa harus melakukan online training Bagaimana membangun sebuah aplikasi yang dapat mengidentifikasi topik dari sebuah berita yang ada Tujuan Membuat sebuah aplikasi yang dapat menglasifikasikan berita ke kategori yang sesuai dan menemukan topik dari berita tersebut 8
9 Gambaran umum aplikasi
Klasifikasi Kategori Corpus Dokumen Berita Perhitungan Likelihood Perhitungan Threshold Training Kategori Seleksi Kategori DataBase Dokumen Berita DataBase Kamus dan Stoplist Preprocess Topik Perhitungan CosSim Seleksi t dengan CosSim terbesar Perhitungan threshold Ekstraksi Kata Kunci Database Kata Kunci Seleksi topik menggunakant hreshold 10 Identifikasi Topik
Training Case Folding Filtering Eliminasi Stopword Stemming Weighting 11 Keywords Extraction
Klasifikasi Kategori Pengambilan Kata Kunci pada Database Perhitungan Likelihood Perhitungan Rata rata dan standard Deviasi Seleksi kategori 12
Identifikasi Topik Perhitungan CosSim Seleksi CosSim Terbesar Perhitungan Threshold Seleksi Topik 13
Contoh Corpus Selasa, 19 April 2011 KOMPETISI UI Juara Kompetisi Bisnis di Paris DEPOK, KOMPAS.com - Tim Universitas Indonesia (UI) berhasil menjadi juara dunia setelah mengalahkan tujuh negara lainnya, yaitu Algeria, China, Czech Republic, Portugal, Romania, Rusia, dan Amerika Serikat di ajang kompetisi bisnis internasional tingkat mahasiswa Trust by Danone di Paris, Perancis, 4-6 April 2011. Para finalis diwajibkan berperan sebagai jajaran direksi untuk membuat perencanaan strategis di suatu negara dan mempresentasikan solusi mereka dalam bahasa Inggris di hadapan dewan juri. -- Vishnu Juwono Tim UI terdiri dari Ekky Gompa, Ivan Cahyadi, Shanty Debora, Stevenlie Satryaputra dari FEUI dan Chandra Satria Muda dari FTUI. Kelimanya tergabung dalam tim Jayawijaya yang mempresentasikan Way in Doing Business melalui media video kreatif dan sebuah objek pada babak International Final. Mereka juga diuji secara ketat dalam memahami filosofi bisnis yang tidak hanya mengejar profit tetapi juga kontribusi terhadap lingkungan dan sosial.adapun kompetisi simulasi bisnis ini terdiri dari empat babak, yaitu seleksi CV, Trust Day, Country Final, dan International Final. 14
15 Klasifikasi Kategori (Offline)
16 Identifikasi Topik (Offline)
Thresholding topik 17 Uji Coba
Identifikasi kata (Filtering) \t\n\r\f\ \ \\1234567890!@#$%^&*()_+- {} []:;<,>.?/`~ Eliminasi Stopwords Penghilangan kata kata yang dianggap tidak berkontribusi banyak pada isi dokumen (Yates dan Neto, 1999) Jenis kata yang termasuk stoplist adalah: Kata depan Kata ganti Kata hubung Kata sandang 18
Stemming Terms Frekuensi Fira 1 gemar 1 memasak 1 masakannya 1 lezat 1 Terms Frekuensi Fira 1 gemar 1 masak 2 lezat 1 sesudah stemming sebelum stemming 19
Confix Stripping Stemmer Formula Kata berimbuhan : [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] Alur stemming-1 : Alur stemming-2 : / / / [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] / / / [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] Keterangan: DP = Derivation Prefix (awalan me-, be-, pe-, te-, di-, ke-, se- ) DS = Derivation Suffix (akhiran -i, -kan, -an ) PP = Possesive Pronoun (kata ganti kepunyaan -ku, -mu, -nya ) P = Partikel ( -kah, -lah, -tah, -pun ) / / / / / / 20
Weighting Pada setiap term, diberikan pembobotan TF-IDF : Terms Frekuensi Fira 1 gemar 1 masak 2 lezat 1 w = tf.log2 ij ij N df j Keterangan: w ij = bobot term j pada dokumen i tf ij = frekuensi kemunculan term j pada dokumen i N = jumlah keseluruhan dokumen yang diproses df j = jumlah dokumen yang memiliki term j 21
Ekstraksi kata kunci Setiap dokumen yang telah selesai distemming diambil keseluruhan termsnya Terms dokumen diberi bobot menggunakan TFIDF 10-15 terms terbaik diambil dan dikumpulkan menjadi kata kunci untuk kategori dan topik 22
Perhitungan Likelihood cj = kategori A = artikel k = keywords Kata Kunci Dokumen Uji c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c 9 23 k 1 k 2 k 3 k 4 k 5 k 6 k 7 k 8 k 9 k 10 saham 0 0 0 0 3 0 0 0 0 TBK 0 0 0 0 1 0 0 0 0 mega 0 0 0 0 0 1 0 0 0 top 0 0 0 0 0 0 0 0 0 IHSG 0 0 0 0 2 0 0 0 0 sektor 0 1 1 0 3 1 0 0 0 indeks 0 0 0 0 2 0 0 0 0 naik 0 0 1 0 4 0 1 0 0 persen 0 1 0 0 6 3 0 3 1 peringkat 0 0 0 0 0 0 0 2 0 Total dokumen pada kategori 100 100 104 100 96 91 97 90 90
Perhitungan Likelihood (lanjutan) Kata Kunci P(kata kunci kategori) log 2 (P) P* log 2 (P) saham 0,03125-1,50515-0,0470359 tbk 0,01041-1,98227-0,0206487 mega 0 0 0 top 0 0 0 ihsg 0,02083-1,68124-0,0350259 sektor 0,03125-1,50515-0,0470359 indeks 0,02083-1,68124-0,0350259 naik 0,04167-1,38021-0,0575088 persen 0,0625-1,20411-0,0752575 peringkat 0 0 0 saham 0,03125-1,50515-0,0470359 Nilai Likelihood 0,317538551 24
Perhitungan Threshold L = likelihood seluruh kategori yang ada li = likelihood untuk kategori i 25 Likelihood-Mean (Likelihood Mean) 2 Likelihood 1 - Mean -0,068489938 0,004690872 Likelihood 2 Mean -0,028489938 0,000811677 Likelihood 3 Mean -0,029700835 0,00088214 Likelihood 4 Mean -0,068489938 0,004690872 Likelihood 5 Mean 0,249048614 0,062025212 Likelihood 6 Mean -0,046776132 0,002188007 Likelihood 7 Mean 0,023420427 0,000548516 Likelihood 8 Mean -0,048007755 0,002304745 Likelihood 9 - Mean 0,017485493 0,000305742 Mean 0,068489938 Sum 0,078447781 L 9 Sum / L 0,00871642 Standard Deviasi 0,09336177 Threshold 0,161851708
Algoritma Identifikasi Topik 1. Transformasikan kata kunci dokumen dan topik ke dalam vectorspace model yang sama Topik Artikel 2. rumus: Kurs 5 Valuta 2 Dollar 10 Kurs 3 Saham 3 Dollar 7 Kurs 5 Kurs 3 Dollar 10 Dollar 7 Saham 3 Saham 0 Valuta 0 Valuta 2 ti = topik ke-i A = artikel 26
3. Hitung nilai NewTSim menggunakan rumus: 4. Bandingkan CosSim topik awal dengan kedua threshold: (i) CosSim(t c,a) > 0.1 AND CosSim(t c,a) > NewTSim(t c,a) (ii) NumTopics > 10 CosSim(tc,A) AND > (2 StdDev(AllTopicSims) +Mean(AllTopicSims)) 5. Bila topik awal memenuhi kedua threshold, maka topik awal ditetapkan. Bila topik awal memenuhi <= 1 threshold, masukkan topik baru. 27
28 Uji Coba Perangkat Lunak
Uji Coba Aplikasi 29 Tujuan: Pencarian parameter optimal: Jumlah Kata Kunci Nilai threshold topik Performa Parser (tambahan) Dokumen Testing: Kategori Nasional 10 Regional 11 Internasional 11 Metropolitan 10 Bisnis dan Ekonomi 11 Olahraga 11 Sains dan Teknologi 11 Edukasi 10 Pariwisata 10 Total 95 Jumlah Dokumen
Uji Coba Kata Kunci Jumlah kata kunci yang diambil : 5, 10, 15, 20 Diujikan pada dua kondisi: offline dan online 30
Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Kategori Keyword = 5 Keyword = 10 Keyword = 15 Keyword = 20 Precision Precision Precision Precision Bisnis & Ekonomi 0,667 0,571 0,933 0,929 Edukasi 0,588 0,467 0,600 0,733 Internasional 0,286 0,563 0,563 0,563 Metropolitan 0,214 0,154 0,231 0,231 Nasional 0,952 0,947 0,947 1,000 Olahraga 0,846 0,923 1,000 1,000 Pariwisata 1,000 0,933 0,933 1,000 Regional 1,000 1,000 1,000 1,000 Sains & Teknologi 0,818 1,000 0,909 1,000 31
Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Keyword = 5 Keyword = 10 Keyword = 15 Keyword = 20 Recall Recall Recall Recall Kategori Bisnis & Ekonomi 0,667 0,727 0,737 0,765 Edukasi 0,909 0,875 0,900 0,917 Internasional 1,000 1,000 0,900 1,000 Metropolitan 0,429 0,400 0,500 0,600 Nasional 0,952 0,947 0,947 0,950 Olahraga 1,000 1,000 1,000 1,000 Pariwisata 0,400 0,389 0,452 0,467 Regional 0,348 0,390 0,390 0,390 Sains & Teknologi 0,643 0,733 0,769 0,786 32
Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Rata - Rata Akurasi A K U R A S I 94.50% 94.00% 93.50% 93.00% 92.50% 92.00% 91.50% 91.00% 90.50% 90.00% 5 10 15 20 Rata - Rata Akurasi K ATA KUNCI YANG DIEKSTRAKSI 33
Uji Coba Kata Kunci (lanjutan) Hasil Uji Coba Online Rata - Rata Akurasi A K U R A S I 94.00% 93.80% 93.60% 93.40% 93.20% 93.00% 92.80% 92.60% 92.40% 92.20% 92.00% 91.80% 5 10 15 20 K ATA KUNCI YANG DIEKSTRAKSI Rata - Rata Akurasi 34
Uji Coba parameter threshold Pada identifikasi topik, parameter nilai ambang CosSim ditentukan 0,1 Jumlah kta kunci yang diambil 20 Nilai threshold diuji coba pada nilai 0.1, 0.2, 0.3, dan 0.4 35
Hasil Uji Coba Identifikasi Topik Akurasi A K U R A S I 98.00% 97.00% 96.00% 95.00% Akurasi 94.00% 93.00% 92.00% 0.1 0.2 0.3 0.4 T H R E S H O L D 36
Uji Coba Parser Menemukan kesalahan kesalahan pada parser Hasil uji coba: Tipe Kesalahan Pembacaan karakter HTML 2.0 Dokumen tidak terunduh sempurna Contoh Kasus Kesalahan Seharusnya > > " ldquo; Dokumen hanya Dokumen terunduh terunduh hingga secara lengkap pertengahan berita hingga akhir berita 37
Evaluasi Performa aplikasi meningkat seiring bertambahnya kata kunci yang diekstraksi Jumlah kata kunci yang dapat menghasilkan nilai akurasi optimal adalah 20 Akurasi tertinggi klasifikasi offline: 93,82% Akurasi tertinggi klasifikasi online: 93,84% Akurasi tertinggi identifikasi topik : 97,26% Parameter nilai threshold klasifikasi optimal adalah 0,3 38
39 Simpulan dan Saran
Kesimpulan Algoritma terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia dengan akurasi 93,84% Performa algoritma berkaitan erat dengan jumlah kata kunci yang diambil pada saat ekstraksi kata kunci 40
Saran Riset lebih dalam untuk algoritma ekstraksi kata kunci Riset untuk mengurangi waktu running time Ground truth kategori sebaiknya saling lepas Riset lebih dalam untuk parser 41
42 Terima Kasih