IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

Transkripsi

1 IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES Nur Hayatin* 1, Gita I. Marthasari 2 1,2 Informatic Engineering Departement, Engineering Departement Universitas Muhammadiyah Malang, Indonesia Kontak Person : Nur Hayatin noorhayatin@umm.ac.id Abstrak Salah satu fase penting yang ada dalam sistem peringkasan berita otomatis khususnya secara ekstraktif adalah fase pembobotan kalimat (sentence scoring). Penelitian ini bertujuan untuk memperbaiki pembobotan pada sistem peringkasan berita terhadap isu media sosial, yaitu dengan menambahkan fitur penting yang ada pada dokumen (News Feature) terhadap trending issue. Metode pembobotan News Feature (NF) mengkombinasikan 4 fitur penting pada berita : Word Frequency(WF), TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Terdapat Empat tahapan proses yang dilakukan dalam penelitian ini, yaitu : seleksi berita berdasarkan hasil ekstraksi trending issue media sosial, ekstraksi fitur berita, penghitungan bobot kalimat, dan pembangkitan ringkasan berita. Hasil pengujian dengan menggunakan ROUGE-N menunjukkan bahwa peringkasan dengan pembobotan NF lebih unggul sebesar 73% dari pembobotan Word Frequency (WF). Hal ini membuktikan bahwa pembobotan News Feature (NF) pada peringkasan multi dokumen berita mampu menghasilkan kualitas ringkasan yang lebih baik. Kata kunci: news feature, pembobotan kalimat, peringkasan berita, trending issue 1. Pendahuluan Peringkasan berita secara otomatis adalah salah satu solusi untuk menjawab kebutuhan dalam mengakses informasi khususnya situs berita online secara praktis. Menurut Karel, peringkasan dokumen didefinisikan sebagai sebuah penyulingan informasi yang paling penting dari dokumen sumber untuk menghasilkan sebuah versi singkat untuk tugas maupun pengguna tertentu [1]. Sedangkan ringkasan berita dapat diartikan sebagai sebuah teks yang dihasilkan dari satu atau lebih kalimat yang mampu menyampaikan informasi penting dari sebuah berita. Sistem peringkasan berita dapat melibatkan satu (single) atau lebih dari satu artikel berita (multi) sebagai input. Salah satu fase penting yang ada dalam sistem peringkasan berita secara otomatis khususnya secara ekstraktif adalah fase pembobotan kalimat (sentence scoring) [2]. Metode pembobotan kalimat yang biasa digunakan adalah : centroid, posisi, dan kemiripan kalimat terhadap kalimat pertama [3]; word frequency (WF) dan TF-IDF [4]. Selain itu, metode pembobotan kalimat berbasis trending issue juga digunakan terutama untuk peringkasan dari beberapa dokumen berita [5][6]. Pembobotan trending issue mempertimbangkan isu yang berkembang di media sosial sehingga harapannya ringkasan yang dihasilkan lebih koheren. Kim Daeyong telah membangun sebuah sistem peringkasan berita dengan mempertimbangkan isu media sosial berdasarkan data Twitter. Namun untuk fitur pada berita sendiri, penelitian ini hanya mempertimbangkan pembobotan berbasis Word Frequency [5]. Padahal, menurut Ferreira pembobotan kalimat pada dokumen yang memiliki karakter teks pendek dan terstruktur seperti berita, maka teknik pembobotan kalimat terbaik adalah dengan menggunakan kombinasi empat fitur yaitu : Word Frequency(WF), TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita [7]. Penelitian ini bertujuan untuk memperbaiki pembobotan kalimat pada peringkasan multi dokumen berita dengan menambahkan fitur penting yang ada pada dokumen terhadap trending issue. Adapun metode pembobotan yang digunakan adalah dengan mengkombinasikan 4 fitur penting pada berita berdasarkan penelitian Ferreira yang telah disebutkan sebelumnya. Dimana ke-empat fitur penting tersebut disebut dengan News Feature (NF). Selanjutnya dari hasil ringkasan yang didapatkan akan dianalisis pengaruh pembobotan NF terhadap kualitas ringkasan yang dihasilkan. Dari kombinasi teknik SENTRA 2017 V - 1

2 pembobotan fitur berita diharapkan dapat menyeleksi kalimat penting dari berita secara lebih tepat sehingga dihasilkan kualitas ringkasan yang lebih baik. 2. Metode Penelitian Sistem peringkasan berita terhadap isu media sosial yang dikerjakan dalam penelitian ini mempertimbangkan fitur trending issue media sosial, News Feature (NF), dan juga redundansi kalimat. Pembobotan kalimat berbasis NF mempertimbangkan 4 fitur penting berita, yaitu: Word Frequency (WF), TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Secara garis besar ada empat proses yang dilakukan pada penelitian ini. Empat tahapan proses tersebut adalah seleksi berita berdasarkan hasil ekstraksi trending issue media sosial, ekstraksi fitur berita, penghitungan bobot kalimat, dan pembangkitan ringkasan berita (gambar 1). News Collection Tweets Collection Trending Issue Extraction News Selection News Features Extraction News Summary Generate Summary Sentences Scoring Gambar 1 Tahapan proses sistem peringkasan berita berbasis isu media sosial dengan pembobotan News Feature (NF) Data yang digunakan dalam penelitian ini terdiri dari kumpulan tweets dan artikel berita dari beberapa topik. Dimana dataset dan beberapa proses yang dibutuhkan dalam penelitian ini seperti ekstraksi trending issue, seleksi berita, dan ekstraksi fitur berita, mengacu pada penelitian sebelumnya [8]. Jumlah topik koleksi berita terdiri dari 11 topik, dengan rata-rata banyak kalimat dalam 1 artikel berita adalah 160 kalimat. Topik tweets mengikuti topik berita dengan jumlah tweet untuk tiap topik kurang lebih 100 tweets. Tahap pertama adalah melakukan seleksi berita berdasarkan Trending Issue (TI). Hasil dari proses seleksi adalah didapatkan sejumlah n berita yang relevan terhadap TI. Selain itu dilakukan seleksi fitur redundansi kalimat (Rd). Fitur redundansi kalimat digunakan untuk meminimalisir adanya redundansi pada hasil akhir ringkasan. Selanjutnya dilakukan ekstraksi fitur berita untuk mendapatkan bobot dari 4 fitur berita yang digunakan (NF_ score). Setiap kalimat s j yang ada pada dokumen berita akan dihitung bobot Weight( ) dengan menggunakan persamaan 1. Sedangkan pembobotan News Feature ( ) diformulasikan pada persamaan 2. Weight(s j) = + (s j) - (s j) (1) = ( ) +, + + ( ) (2) Total fitur yang akan diekstraksi dalam penelitian ini ada 6, yaitu Resemblance to the Trending Issue, Word Frequency (WF), Term Frequency Inverse Document Frequency (TF-IDF), posisi kalimat, Resemblance to the Title, dan nilai redundansi kalimat (Rd). Nilai bobot dari fitur trending issue ( (s j)) didapatkan dari nilai kemiripan antara kalimat terhadap Trending Issue ( (, )). Metode pengukuran kemiripan kalimat terhadap TI menggunakan cosine similarity, dimana kalimat yang memiliki skor kemiripan tinggi terhadap TI akan dianggap sebagai kalimat penting. Nilai bobot redundansi kalimat (Rd) diidentifikasi dari kemiripan kalimat s j terhadap kalimat yang lain s i dengan mengadopsi konsep MMR[9]. Nilai bobot WF(s j) merupakan nilai kemiripan kalimat s i terhadap WFList menggunakan cosine similarity, dimana S={ s 1,..., s m }, sehingga WF adalah (, ). Pembobotan TFIDF merupakan hasil penjumlahan dari seluruh bobot term i yang muncul pada kalimat s j, dimana j sebanyak jumlah kalimat yang ada pada dokumen (D). Nilai bobot posisi kalimat dihitung V - 2 SENTRA 2017

3 dengan mengadopsi penelitian Mei & Chen, dimana bobot dari posisi kalimat s j adalah, dengan ( ) asumsi kalimat yang posisinya berada diawal dokumen memiliki skor lebih besar dibanding kalimat yang posisinya diakhir[10]. Nilai bobot berikutnya adalah kemiripan kalimat terhadap judul berita (Rt) yang mengadopsi dari penelitian Ferreira dkk. yaitu dengan menghitung kesamaan term yang muncul pada judul dan kalimat j, selanjutnya dibagi dengan jumlah term pada judul [2]. Tahapan proses berikutnya adalah pembangkitan ringkasan. Setiap kalimat berita pada akhirnya akan memiliki bobot ( Weight(s j)), selanjutnya seluruh kalimat akan diurutkan berdasarkan bobot tersebut. Ringkasan dokumen diambil dari n kalimat dengan bobot tertinggi. Dengan asumsi semakin besar total bobot yang dimiliki oleh sebuah kalimat maka kalimat tersebut adalah kalimat penting. 3. Hasil Penelitian dan Pembahasan Penelitian ini telah mampu menghasilkan ringkasan berita dengan menggunakan metode pembobotan berbasis News Feature dan Trending Issue. Berikut adalah contoh ringkasan yang dihasilkan dari topik ebola dengan panjang ringkasan 10 kalimat: Program Pangan Dunia (WFP) PBB menyatakan akan memberikan bantuan pangan kepada satu juta orang di tiga negara Afrika barat yang kesulitan menghadapi wabah Ebola terbaru. Wabah itu sudah membunuh 467 orang di Guinea, Liberia, dan Sierra Leone. WHO mengatakan pekan ini, penolakan masyarakat di Sierra Leone menghalangi usaha untuk mengidentifikasi dan menghubungi mereka yang mungkin telah tertular virus Ebola. Presiden organisasi internasional Dokter Tanpa Tapal Batas mengatakan wabah Ebola berada dalam tahapan yang berbeda di tiga negara. Seorang pejabat tinggi badan kesehatan PBB (WHO) mengatakan wabah ebola di Afrika Barat dapat berlangsung beberapa bulan. Penyebaran Ebola telah melambat di negara tetangganya, Guinea, dan berhenti di Liberia, setelah para pejabat kesehatan mengisolasi pasien dan memperingatkan masyarakat untuk menghindari kontak langsung dengan korban Ebola, termasuk yang sudah meninggal dunia. Pemerintah mengatakan, Ebola kini telah merenggut 16 nyawa di Sierra Leone. Sekitar 70 persen penderita telah meninggal dalam wabah saat ini. Para pakar mengatakan wabah Ebola di Afrika Barat sudah tidak terkendali. Untuk mengetahui pengaruh dari pembobotan yang diusulkan terhadap kualitas ringkasan yang dihasilkan maka perlu dilakukan pengujian. Dalam hal ini, pengujian dilakukan dengan cara membandingkan hasil ringkasan yang diusulkan (NF) dengan hasil ringkasan yang hanya mempertimbangkan bobot dari Word Frequency (WF). Adapun metode yang digunakan untuk mengukur kualitas ringkasan menggunakan metode pengukuran ROUGE-N [11]. Pengukuran ROUGE- N didasarkan pada kemunculan secara statistik dari n-gram ( N-gram Co-Occurrence Statistics). Penelitian ini menggunakan 3 groundtruth sebagai pembanding hasil ringkasan sistem. Nilai ROUGE akan diambil dari nilai maksimal ROUGE-N ( ROUGE-N multi) dari tiap pasangan ringkasan yang dihasilkan oleh sistem s terhadap ringkasan groundtruth r i. Persamaan 3 digunakan untuk mendapatkan nilai maksimal ROUGE-N. Sedangkan nilai ROUGE-N sendiri dapat dihitung dengan menggunakan persamaan 4, dimana n merepresentasikan panjang dari n-gram. Sedangkan count match adalah jumlah n-gram yang sama antara n-gram dari ringkasan oleh sistem dengan n-gram yang ada pada groundtruth. Dengan penyebut dari persamaan tersebut merupakan jumlah total n-gram yang ada pada ringkasan referensi. ROUGE N arg max ROUGE N ( r, s) (3) multi i i = ( ) ( ) (4) Hasil ringkasan yang akan dianalisis adalah ringkasan dengan panjang 30 kalimat ( n=30). Pemilihan n=30 dengan mempertimbangkan rata-rata jumlah kalimat dari beberapa artikel berita dalam 1 topik. Dimana nilai ideal dari panjang kalimat maksimal yang akan menyusun ringkasan adalah setengah dari jumlah total kalimat dalam berita. Analisis dilakukan pada nilai ROUGE dari hasil ringkasan. Dimana dari masing-masing ringkasan dengan metode pembobotan WF dan NF akan SENTRA 2017 V - 3

4 diketahui kualitasnya dengan menghitung nilai ROUGE-Nmulti. Tabel 1 berisi hasil perhitungan nilai ROUGE-Nmulti untuk ringkasan yang dihasilkan pada tiap topik berita. Tabel 1 Hasil ROUGE-Nmulti pada tiap topik untuk panjang ringkasan 30 kalimat Rouge-N multi No Topik Total Kalimat WF NF 1 Air asia banjarnegara bbm bpjs dolly ebola kurikulum Palestina Pilpres Sinabung u Semakin tinggi nilai ROUGE maka dapat disimpulkan semakin banyak kalimat yang sama antara kalimat yang ada pada hasil ringkasan oleh sistem dengan ringkasan groundtruth. Dengan kata lain semakin tinggi nilai ROUGE sebuah ringkasan maka semakin tinggi kualitas dari ringkasan tersebut. Dari tabel 1 dapat dilihat hasil nilai ROUGE-Nmulti untuk tiap topik berita. Dimana pada pembobotan NF didapatkan Nilai ROUGE tertinggi adalah 0.97 yaitu pada berita dengan topik U19. Sedangkan pada pembobotan WF nilai ROUGE tertinggi adalah 0.93 dengan topik yang sama. Sedangkan nilai ROUGE terendah untuk pembobotan NF adalah 0.65 dan untuk pembobotan WF adalah Keduanya ada di topik yang sama yaitu bbm. Dari hasil keseluruhan topik, didapatkan 8 topik dengan pembobotan NF memiliki nilai ROUGE lebih tinggi dibanding dengan hasil dari pembobotan WF (lihat Gambar 2). Hasil dari pengujian menunjukkan bahwa peringkasan dengan pembobotan NF lebih unggul sebesar 73% dari pembobotan WF. Dimana fitur yang digunakan pada pembobotan NF terdiri dari 4 fitur, yaitu : WF, TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Hal ini membuktikan bahwa peringkasan berita dengan menggunakan pembobotan News Feature (NF) menghasilkan kualitas ringkasan yang lebih baik dibanding dengan ringkasan yang dihasilkan dengan hanya menggunakan pembobotan Word Frequency (WF). Terutama pada penerapan sistem peringkasan berita dengan mempertimbangkan isu media sosial Rouge-N WF Rouge-N NF V - 4 SENTRA 2017 Gambar 2 Grafik perbandingan nilai ROUGE-N dari pembobotan WF dan NF

5 4. Kesimpulan Penelitian ini telah mampu menghasilkan ringkasan berita dengan menggunakan metode pembobotan berbasis News Feature dan Trending Issue. Berdasarkan pengujian dengan menggunakan metode ROUGE diketahui bahwa peringkasan dengan pembobotan NF lebih unggul sebesar 73% dari pembobotan WF. Dimana fitur yang digunakan pada pembobotan NF terdiri dari 4 fitur, yaitu : WF, TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Hal ini membuktikan bahwa peringkasan berita dengan menggunakan pembobotan News Feature (NF) menghasilkan kualitas ringkasan yang lebih baik dibanding dengan ringkasan yang dihasilkan dengan hanya menggunakan pembobotan Word Frequency (WF). Terutama pada penerapan sistem peringkasan berita dengan mempertimbangkan isu media sosial. Referensi [1] K. Jezek and J. Steinberger, Automatic Text Summarization (The state of the art 2007 and new challenges), pp. 1 12, [2] R. Ferreira et al., Assessing sentence scoring techniques for extractive text summarization, Expert Syst. Appl., vol. 40, no. 14, pp , [3] D. R. Radev, H. Jing, M. Styś, and D. Tam, Centroid-based summarization of multiple documents, Inf. Process. Manag., vol. 40, no. 6, pp , [4] M. Fachrurrozi, N. Yusliani, and R. U. Yoanita, Frequent Term based Text Summarization for Bahasa Indonesia, Int. Conf. Innov. Eng. Technol., pp , [5] D. Kim, D. Kim, S. Kim, M. Jo, and E. Hwang, SNS-based issue detection and related news summarization scheme, Proc. 8th Int. Conf. Ubiquitous Inf. Manag. Commun. - ICUIMC 14, pp. 1 7, [6] T.-Y. Kim, J. Kim, J. Lee, and J.-H. Lee, A tweet summarization method based on a keyword graph, Proc. 8th Int. Conf. Ubiquitous Inf. Manag. Commun. - ICUIMC 14, pp. 1 8, [7] R. Ferreira et al., A Context Based Text Summarization System, th IAPR Int. Work. Doc. Anal. Syst., pp , [8] N. Hayatin, C. Fatichah, and D. Purwitasari, PEMBOBOTAN KALIMAT BERDASARKAN FITUR BERITA DAN TRENDING ISSUE UNTUK PERINGKASAN MULTI DOKUMEN BERITA, vol. 13, no. 1, pp , [9] J. Carbonell and J. Goldstein, The use of MMR, diversity-based reranking for reordering documents and producing summaries, Proc. 21st Annu. Int. ACM SIGIR Conf. Res. Dev. Inf. Retr. - SIGIR 98, pp , [10] J. P. Mei and L. Chen, SumCR: A new subtopic-based extractive approach for text summarization, Knowl. Inf. Syst., vol. 31, no. 3, pp , [11] C. Y. Lin, Rouge: A package for automatic evaluation of summaries, Proc. Work. text Summ. branches out (WAS 2004), no. 1, pp , SENTRA 2017 V - 5