Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia

dokumen-dokumen yang mirip
KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA

BAB II LANDASAN TEORI

BAB III METODELOGI PENELITIAN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

Gambar 1.1 Proses Text Mining [7]

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB III METODE PENELITIAN

BAB II TINJAUAN PUSTAKA

ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI)

commit to user BAB II TINJAUAN PUSTAKA

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

1.5 Metode Penelitian

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :

KLASIFIKASI ARTIKEL BERITA BERBAHASA INDONESIA BERBASIS NAÏVE BAYES CLASSIFIER MENGGUNAKAN CONFIX-STRIPPING STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB II LANDASDAN TEORI

Online News Classification Using Multinomial Naive Bayes

BAB III METODOLOGI PENELITIAN

BAB 3 LANDASAN TEORI

BAB II LANDASAN TEORI

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB I PENDAHULUAN I-1

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

SISTEM TEMU BALIK INFORMASI

BAB 1 PENDAHULUAN UKDW

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 2 TINJAUAN PUSTAKA

PENDAHULUAN. Latar belakang

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

JULIO ADISANTOSO - ILKOM IPB 1

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Prediksi Tren Kurs Dollar Dari Berita Finansial Amerika Serikat Berbahasa Indonesia Menggunakan Support Vector Machine

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN 1.1. Latar belakang

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN UKDW

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB 2 LANDASAN TEORI

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

Transkripsi:

Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia Tugas Akhir KI91391 Dosen Pembimbing: Dr. Agus Zainal Arifin, S. Kom, M. Kom 1 Penyusun: Aini Rachmania 5107100077

2 Pendahuluan

Latar Belakang 3 Berita Laporan mengenai fakta atau ide terbaru yang benar,dan atau penting bagi sebagian besar khalayak, melalui media berkala seperti surat kabar, radio, televisi, atau media online internet. (Siti, 2009) Aliran informasi yang dinamis (Bracewell, 2009) Karakter berita: Jumlah data besar Satu berita dengan berita lainnya berbeda Topik baru terus muncul Dibutuhkan: Klasifikasi berita untuk memudahkan navigasi berita

4

Algoritma yang Umumnya Digunakan Support Vector Machine Dapat diimplementasikan secara mudah (Nugroho, 2003) Sulit dipakai dalam problem berskala besar (Nugroho, 2003) Proses pembelajaran lambat (Bracewell, 2009) Harus dilatih ulang pada saat terjadi penambahan data (Princea, 2010) Naive Bayesian Hasilnya cukup baik untuk sebagian kasus Ukuran vektor fitur yang dibutuhkan cukup besar (Johanes, 2006) Fitur fitur data training harus disimpan (Bracewell, 2009) 5

Algoritma yang Digunakan Topic Analysis Diusulkan oleh David B. Bracewell, Jiajun Yan, Fuji Ren dan Shingo Kuroiwa pada tahun 2009 pada paper yang berjudul Category Classification and Topic Discovery of Japanese and English News Articles Tidak memerlukan online training Membagi proses menjadi dua tahap: klasifikasi kategori dan identifikasi topik 6

Hirarki Berita Edukasi Bisnis & Ekonomi Beasiswa Investasi Ujian Nasional SNMPTN Sertifikasi Guru Saham Praktik Dumping Pajak Pendidikan Agama 7

Permasalahan Bagaimana membangun aplikasi yang mampu menglasifikasikan kategori berita tanpa harus melakukan online training Bagaimana membangun sebuah aplikasi yang dapat mengidentifikasi topik dari sebuah berita yang ada Tujuan Membuat sebuah aplikasi yang dapat menglasifikasikan berita ke kategori yang sesuai dan menemukan topik dari berita tersebut 8

9 Gambaran umum aplikasi

Klasifikasi Kategori Corpus Dokumen Berita Perhitungan Likelihood Perhitungan Threshold Training Kategori Seleksi Kategori DataBase Dokumen Berita DataBase Kamus dan Stoplist Preprocess Topik Perhitungan CosSim Seleksi t dengan CosSim terbesar Perhitungan threshold Ekstraksi Kata Kunci Database Kata Kunci Seleksi topik menggunakant hreshold 10 Identifikasi Topik

Training Case Folding Filtering Eliminasi Stopword Stemming Weighting 11 Keywords Extraction

Klasifikasi Kategori Pengambilan Kata Kunci pada Database Perhitungan Likelihood Perhitungan Rata rata dan standard Deviasi Seleksi kategori 12

Identifikasi Topik Perhitungan CosSim Seleksi CosSim Terbesar Perhitungan Threshold Seleksi Topik 13

Contoh Corpus Selasa, 19 April 2011 KOMPETISI UI Juara Kompetisi Bisnis di Paris DEPOK, KOMPAS.com - Tim Universitas Indonesia (UI) berhasil menjadi juara dunia setelah mengalahkan tujuh negara lainnya, yaitu Algeria, China, Czech Republic, Portugal, Romania, Rusia, dan Amerika Serikat di ajang kompetisi bisnis internasional tingkat mahasiswa Trust by Danone di Paris, Perancis, 4-6 April 2011. Para finalis diwajibkan berperan sebagai jajaran direksi untuk membuat perencanaan strategis di suatu negara dan mempresentasikan solusi mereka dalam bahasa Inggris di hadapan dewan juri. -- Vishnu Juwono Tim UI terdiri dari Ekky Gompa, Ivan Cahyadi, Shanty Debora, Stevenlie Satryaputra dari FEUI dan Chandra Satria Muda dari FTUI. Kelimanya tergabung dalam tim Jayawijaya yang mempresentasikan Way in Doing Business melalui media video kreatif dan sebuah objek pada babak International Final. Mereka juga diuji secara ketat dalam memahami filosofi bisnis yang tidak hanya mengejar profit tetapi juga kontribusi terhadap lingkungan dan sosial.adapun kompetisi simulasi bisnis ini terdiri dari empat babak, yaitu seleksi CV, Trust Day, Country Final, dan International Final. 14

15 Klasifikasi Kategori (Offline)

16 Identifikasi Topik (Offline)

Thresholding topik 17 Uji Coba

Identifikasi kata (Filtering) \t\n\r\f\ \ \\1234567890!@#$%^&*()_+- {} []:;<,>.?/`~ Eliminasi Stopwords Penghilangan kata kata yang dianggap tidak berkontribusi banyak pada isi dokumen (Yates dan Neto, 1999) Jenis kata yang termasuk stoplist adalah: Kata depan Kata ganti Kata hubung Kata sandang 18

Stemming Terms Frekuensi Fira 1 gemar 1 memasak 1 masakannya 1 lezat 1 Terms Frekuensi Fira 1 gemar 1 masak 2 lezat 1 sesudah stemming sebelum stemming 19

Confix Stripping Stemmer Formula Kata berimbuhan : [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] Alur stemming-1 : Alur stemming-2 : / / / [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] / / / [ DP + [ DP + [ DP ] ] ] Kata-Dasar [ [+DS] [+PP] [+P] ] Keterangan: DP = Derivation Prefix (awalan me-, be-, pe-, te-, di-, ke-, se- ) DS = Derivation Suffix (akhiran -i, -kan, -an ) PP = Possesive Pronoun (kata ganti kepunyaan -ku, -mu, -nya ) P = Partikel ( -kah, -lah, -tah, -pun ) / / / / / / 20

Weighting Pada setiap term, diberikan pembobotan TF-IDF : Terms Frekuensi Fira 1 gemar 1 masak 2 lezat 1 w = tf.log2 ij ij N df j Keterangan: w ij = bobot term j pada dokumen i tf ij = frekuensi kemunculan term j pada dokumen i N = jumlah keseluruhan dokumen yang diproses df j = jumlah dokumen yang memiliki term j 21

Ekstraksi kata kunci Setiap dokumen yang telah selesai distemming diambil keseluruhan termsnya Terms dokumen diberi bobot menggunakan TFIDF 10-15 terms terbaik diambil dan dikumpulkan menjadi kata kunci untuk kategori dan topik 22

Perhitungan Likelihood cj = kategori A = artikel k = keywords Kata Kunci Dokumen Uji c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c 9 23 k 1 k 2 k 3 k 4 k 5 k 6 k 7 k 8 k 9 k 10 saham 0 0 0 0 3 0 0 0 0 TBK 0 0 0 0 1 0 0 0 0 mega 0 0 0 0 0 1 0 0 0 top 0 0 0 0 0 0 0 0 0 IHSG 0 0 0 0 2 0 0 0 0 sektor 0 1 1 0 3 1 0 0 0 indeks 0 0 0 0 2 0 0 0 0 naik 0 0 1 0 4 0 1 0 0 persen 0 1 0 0 6 3 0 3 1 peringkat 0 0 0 0 0 0 0 2 0 Total dokumen pada kategori 100 100 104 100 96 91 97 90 90

Perhitungan Likelihood (lanjutan) Kata Kunci P(kata kunci kategori) log 2 (P) P* log 2 (P) saham 0,03125-1,50515-0,0470359 tbk 0,01041-1,98227-0,0206487 mega 0 0 0 top 0 0 0 ihsg 0,02083-1,68124-0,0350259 sektor 0,03125-1,50515-0,0470359 indeks 0,02083-1,68124-0,0350259 naik 0,04167-1,38021-0,0575088 persen 0,0625-1,20411-0,0752575 peringkat 0 0 0 saham 0,03125-1,50515-0,0470359 Nilai Likelihood 0,317538551 24

Perhitungan Threshold L = likelihood seluruh kategori yang ada li = likelihood untuk kategori i 25 Likelihood-Mean (Likelihood Mean) 2 Likelihood 1 - Mean -0,068489938 0,004690872 Likelihood 2 Mean -0,028489938 0,000811677 Likelihood 3 Mean -0,029700835 0,00088214 Likelihood 4 Mean -0,068489938 0,004690872 Likelihood 5 Mean 0,249048614 0,062025212 Likelihood 6 Mean -0,046776132 0,002188007 Likelihood 7 Mean 0,023420427 0,000548516 Likelihood 8 Mean -0,048007755 0,002304745 Likelihood 9 - Mean 0,017485493 0,000305742 Mean 0,068489938 Sum 0,078447781 L 9 Sum / L 0,00871642 Standard Deviasi 0,09336177 Threshold 0,161851708

Algoritma Identifikasi Topik 1. Transformasikan kata kunci dokumen dan topik ke dalam vectorspace model yang sama Topik Artikel 2. rumus: Kurs 5 Valuta 2 Dollar 10 Kurs 3 Saham 3 Dollar 7 Kurs 5 Kurs 3 Dollar 10 Dollar 7 Saham 3 Saham 0 Valuta 0 Valuta 2 ti = topik ke-i A = artikel 26

3. Hitung nilai NewTSim menggunakan rumus: 4. Bandingkan CosSim topik awal dengan kedua threshold: (i) CosSim(t c,a) > 0.1 AND CosSim(t c,a) > NewTSim(t c,a) (ii) NumTopics > 10 CosSim(tc,A) AND > (2 StdDev(AllTopicSims) +Mean(AllTopicSims)) 5. Bila topik awal memenuhi kedua threshold, maka topik awal ditetapkan. Bila topik awal memenuhi <= 1 threshold, masukkan topik baru. 27

28 Uji Coba Perangkat Lunak

Uji Coba Aplikasi 29 Tujuan: Pencarian parameter optimal: Jumlah Kata Kunci Nilai threshold topik Performa Parser (tambahan) Dokumen Testing: Kategori Nasional 10 Regional 11 Internasional 11 Metropolitan 10 Bisnis dan Ekonomi 11 Olahraga 11 Sains dan Teknologi 11 Edukasi 10 Pariwisata 10 Total 95 Jumlah Dokumen

Uji Coba Kata Kunci Jumlah kata kunci yang diambil : 5, 10, 15, 20 Diujikan pada dua kondisi: offline dan online 30

Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Kategori Keyword = 5 Keyword = 10 Keyword = 15 Keyword = 20 Precision Precision Precision Precision Bisnis & Ekonomi 0,667 0,571 0,933 0,929 Edukasi 0,588 0,467 0,600 0,733 Internasional 0,286 0,563 0,563 0,563 Metropolitan 0,214 0,154 0,231 0,231 Nasional 0,952 0,947 0,947 1,000 Olahraga 0,846 0,923 1,000 1,000 Pariwisata 1,000 0,933 0,933 1,000 Regional 1,000 1,000 1,000 1,000 Sains & Teknologi 0,818 1,000 0,909 1,000 31

Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Keyword = 5 Keyword = 10 Keyword = 15 Keyword = 20 Recall Recall Recall Recall Kategori Bisnis & Ekonomi 0,667 0,727 0,737 0,765 Edukasi 0,909 0,875 0,900 0,917 Internasional 1,000 1,000 0,900 1,000 Metropolitan 0,429 0,400 0,500 0,600 Nasional 0,952 0,947 0,947 0,950 Olahraga 1,000 1,000 1,000 1,000 Pariwisata 0,400 0,389 0,452 0,467 Regional 0,348 0,390 0,390 0,390 Sains & Teknologi 0,643 0,733 0,769 0,786 32

Uji Coba Kata Kunci (lanjutan) Hasil uji coba offline : Rata - Rata Akurasi A K U R A S I 94.50% 94.00% 93.50% 93.00% 92.50% 92.00% 91.50% 91.00% 90.50% 90.00% 5 10 15 20 Rata - Rata Akurasi K ATA KUNCI YANG DIEKSTRAKSI 33

Uji Coba Kata Kunci (lanjutan) Hasil Uji Coba Online Rata - Rata Akurasi A K U R A S I 94.00% 93.80% 93.60% 93.40% 93.20% 93.00% 92.80% 92.60% 92.40% 92.20% 92.00% 91.80% 5 10 15 20 K ATA KUNCI YANG DIEKSTRAKSI Rata - Rata Akurasi 34

Uji Coba parameter threshold Pada identifikasi topik, parameter nilai ambang CosSim ditentukan 0,1 Jumlah kta kunci yang diambil 20 Nilai threshold diuji coba pada nilai 0.1, 0.2, 0.3, dan 0.4 35

Hasil Uji Coba Identifikasi Topik Akurasi A K U R A S I 98.00% 97.00% 96.00% 95.00% Akurasi 94.00% 93.00% 92.00% 0.1 0.2 0.3 0.4 T H R E S H O L D 36

Uji Coba Parser Menemukan kesalahan kesalahan pada parser Hasil uji coba: Tipe Kesalahan Pembacaan karakter HTML 2.0 Dokumen tidak terunduh sempurna Contoh Kasus Kesalahan Seharusnya > > " ldquo; Dokumen hanya Dokumen terunduh terunduh hingga secara lengkap pertengahan berita hingga akhir berita 37

Evaluasi Performa aplikasi meningkat seiring bertambahnya kata kunci yang diekstraksi Jumlah kata kunci yang dapat menghasilkan nilai akurasi optimal adalah 20 Akurasi tertinggi klasifikasi offline: 93,82% Akurasi tertinggi klasifikasi online: 93,84% Akurasi tertinggi identifikasi topik : 97,26% Parameter nilai threshold klasifikasi optimal adalah 0,3 38

39 Simpulan dan Saran

Kesimpulan Algoritma terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia dengan akurasi 93,84% Performa algoritma berkaitan erat dengan jumlah kata kunci yang diambil pada saat ekstraksi kata kunci 40

Saran Riset lebih dalam untuk algoritma ekstraksi kata kunci Riset untuk mengurangi waktu running time Ground truth kategori sebaiknya saling lepas Riset lebih dalam untuk parser 41

42 Terima Kasih