IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

dokumen-dokumen yang mirip
PEMBOBOTAN KALIMAT BERDASARKAN FITUR BERITA DAN TRENDING ISSUE UNTUK PERINGKASAN MULTI DOKUMEN BERITA

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel Bahasa Indonesia

BAB 1 PENDAHULUAN. Latar Belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

EKSTRAKSI TRENDING ISSUE DENGAN PENDEKATAN DISTRIBUSI KATA PADA PEMBOBOTAN TERM UNTUK PERINGKASAN MULTI-DOKUMEN BERITA

BAB 3 LANDASAN TEORI

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

BAB I PENDAHULUAN 1.1 Latar Belakang

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN

BAB I PENDAHULUAN. 1.1 Latar Belakang

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB IV ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

Rancang Bangun Sistem Peringkasan Teks Multi-Dokumen

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

BAB 1 PENDAHULUAN Latar Belakang

BAB V KESIMPULAN DAN SARAN

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III METODOLOGI PENELITIAN

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU

BAB 2 TINJAUAN PUSTAKA

Peringkasan Dokumen Berbahasa Inggris Menggunakan Sebaran Local Sentence

BAB I PENDAHULUAN 1.1 Latar Belakang

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR

1.5 Metode Penelitian

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

BAB II LANDASAN TEORI

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Metode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia

Pembangunan Perangkat Lunak Peringkas Dokumen dari Banyak Sumber Menggunakan Sentence Scoring dengan Metode TF-IDF

BAB I PENDAHULUAN I-1

CLUSTERING DOKUMEN DENGAN SEMANTIC WORD HOLONIM DAN FUZZY ASSOCIATION RULE MINING

Pembobotan Kata Berdasarkan Klaster pada Optimisasi Coverage, Diversity dan Coherence untuk Peringkasan Multi Dokumen

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

PEMBOBOTAN KATA BERDASARKAN KLASTER PADA OPTIMISASI COVERAGE, DIVERSITY DAN COHERENCE UNTUK PERINGKASAN MULTI DOKUMEN

APLIKASI AUTOMATIC TEXT SUMMARIZER

BAB II LANDASAN TEORI

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB I PENDAHULUAN. 1.1 Latar Belakang Permasalahan

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

Bab ini menguraikan latar belakang, rumusan masalah, tujuan, ruang lingkup dan tahapan yang dilalui dalam penelitian.

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB 3 LANDASAN TEORI

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

Penerapan Algoritma Centroid-Based Summarization untuk Sistem Peringkasan Dokumen Berbahasa Indonesia

@UKDW BAB 1 PENDAHULUAN Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB III METODE PENELITIAN

BAB I. Pendahuluan. 1. Latar Belakang Masalah

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

Text dan Web Mining - Budi Susanto UKDW 1 TEXT SUMMARIZATION. Text dan Web Mining - Budi Susanto UKDW 2

BAB III METODOLOGI PENELITIAN

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

BAB I PENDAHULUAN Latar Belakang

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

Silvia Bina Nusantara University Pitri Rukmana Bina Nusantara University

PERINGKASAN TEKS MODEL GRAF PADA SINGLE DOKUMEN DENGAN METODE SPARSE NON NEGATIVE MATRIX FACTORIZATION

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB III METODOLOGI PENELITIAN

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA

TF-IDF-ENHANCED GENETIC ALGORITHM UNTUK EXTRACTIVE AUTOMATIC TEXT SUMMARIZATION

2BAB 2 LANDASAN TEORI

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

Peta Pikiran Otomatis Teks Berbahasa Indonesia Menggunakan Word Co-occurrence dan Bobot Kalimat

BAB I PENDAHULUAN. Menurut Peraturan Menteri Pendidikan dan Kebudayaan (Permendikbud) Nomor 103

BAB II LANDASAN TEORI

Transkripsi:

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES Nur Hayatin* 1, Gita I. Marthasari 2 1,2 Informatic Engineering Departement, Engineering Departement Universitas Muhammadiyah Malang, Indonesia Kontak Person : Nur Hayatin e-mail : noorhayatin@umm.ac.id Abstrak Salah satu fase penting yang ada dalam sistem peringkasan berita otomatis khususnya secara ekstraktif adalah fase pembobotan kalimat (sentence scoring). Penelitian ini bertujuan untuk memperbaiki pembobotan pada sistem peringkasan berita terhadap isu media sosial, yaitu dengan menambahkan fitur penting yang ada pada dokumen (News Feature) terhadap trending issue. Metode pembobotan News Feature (NF) mengkombinasikan 4 fitur penting pada berita : Word Frequency(WF), TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Terdapat Empat tahapan proses yang dilakukan dalam penelitian ini, yaitu : seleksi berita berdasarkan hasil ekstraksi trending issue media sosial, ekstraksi fitur berita, penghitungan bobot kalimat, dan pembangkitan ringkasan berita. Hasil pengujian dengan menggunakan ROUGE-N menunjukkan bahwa peringkasan dengan pembobotan NF lebih unggul sebesar 73% dari pembobotan Word Frequency (WF). Hal ini membuktikan bahwa pembobotan News Feature (NF) pada peringkasan multi dokumen berita mampu menghasilkan kualitas ringkasan yang lebih baik. Kata kunci: news feature, pembobotan kalimat, peringkasan berita, trending issue 1. Pendahuluan Peringkasan berita secara otomatis adalah salah satu solusi untuk menjawab kebutuhan dalam mengakses informasi khususnya situs berita online secara praktis. Menurut Karel, peringkasan dokumen didefinisikan sebagai sebuah penyulingan informasi yang paling penting dari dokumen sumber untuk menghasilkan sebuah versi singkat untuk tugas maupun pengguna tertentu [1]. Sedangkan ringkasan berita dapat diartikan sebagai sebuah teks yang dihasilkan dari satu atau lebih kalimat yang mampu menyampaikan informasi penting dari sebuah berita. Sistem peringkasan berita dapat melibatkan satu (single) atau lebih dari satu artikel berita (multi) sebagai input. Salah satu fase penting yang ada dalam sistem peringkasan berita secara otomatis khususnya secara ekstraktif adalah fase pembobotan kalimat (sentence scoring) [2]. Metode pembobotan kalimat yang biasa digunakan adalah : centroid, posisi, dan kemiripan kalimat terhadap kalimat pertama [3]; word frequency (WF) dan TF-IDF [4]. Selain itu, metode pembobotan kalimat berbasis trending issue juga digunakan terutama untuk peringkasan dari beberapa dokumen berita [5][6]. Pembobotan trending issue mempertimbangkan isu yang berkembang di media sosial sehingga harapannya ringkasan yang dihasilkan lebih koheren. Kim Daeyong telah membangun sebuah sistem peringkasan berita dengan mempertimbangkan isu media sosial berdasarkan data Twitter. Namun untuk fitur pada berita sendiri, penelitian ini hanya mempertimbangkan pembobotan berbasis Word Frequency [5]. Padahal, menurut Ferreira pembobotan kalimat pada dokumen yang memiliki karakter teks pendek dan terstruktur seperti berita, maka teknik pembobotan kalimat terbaik adalah dengan menggunakan kombinasi empat fitur yaitu : Word Frequency(WF), TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita [7]. Penelitian ini bertujuan untuk memperbaiki pembobotan kalimat pada peringkasan multi dokumen berita dengan menambahkan fitur penting yang ada pada dokumen terhadap trending issue. Adapun metode pembobotan yang digunakan adalah dengan mengkombinasikan 4 fitur penting pada berita berdasarkan penelitian Ferreira yang telah disebutkan sebelumnya. Dimana ke-empat fitur penting tersebut disebut dengan News Feature (NF). Selanjutnya dari hasil ringkasan yang didapatkan akan dianalisis pengaruh pembobotan NF terhadap kualitas ringkasan yang dihasilkan. Dari kombinasi teknik SENTRA 2017 V - 1

pembobotan fitur berita diharapkan dapat menyeleksi kalimat penting dari berita secara lebih tepat sehingga dihasilkan kualitas ringkasan yang lebih baik. 2. Metode Penelitian Sistem peringkasan berita terhadap isu media sosial yang dikerjakan dalam penelitian ini mempertimbangkan fitur trending issue media sosial, News Feature (NF), dan juga redundansi kalimat. Pembobotan kalimat berbasis NF mempertimbangkan 4 fitur penting berita, yaitu: Word Frequency (WF), TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Secara garis besar ada empat proses yang dilakukan pada penelitian ini. Empat tahapan proses tersebut adalah seleksi berita berdasarkan hasil ekstraksi trending issue media sosial, ekstraksi fitur berita, penghitungan bobot kalimat, dan pembangkitan ringkasan berita (gambar 1). News Collection Tweets Collection Trending Issue Extraction News Selection News Features Extraction News Summary Generate Summary Sentences Scoring Gambar 1 Tahapan proses sistem peringkasan berita berbasis isu media sosial dengan pembobotan News Feature (NF) Data yang digunakan dalam penelitian ini terdiri dari kumpulan tweets dan artikel berita dari beberapa topik. Dimana dataset dan beberapa proses yang dibutuhkan dalam penelitian ini seperti ekstraksi trending issue, seleksi berita, dan ekstraksi fitur berita, mengacu pada penelitian sebelumnya [8]. Jumlah topik koleksi berita terdiri dari 11 topik, dengan rata-rata banyak kalimat dalam 1 artikel berita adalah 160 kalimat. Topik tweets mengikuti topik berita dengan jumlah tweet untuk tiap topik kurang lebih 100 tweets. Tahap pertama adalah melakukan seleksi berita berdasarkan Trending Issue (TI). Hasil dari proses seleksi adalah didapatkan sejumlah n berita yang relevan terhadap TI. Selain itu dilakukan seleksi fitur redundansi kalimat (Rd). Fitur redundansi kalimat digunakan untuk meminimalisir adanya redundansi pada hasil akhir ringkasan. Selanjutnya dilakukan ekstraksi fitur berita untuk mendapatkan bobot dari 4 fitur berita yang digunakan (NF_ score). Setiap kalimat s j yang ada pada dokumen berita akan dihitung bobot Weight( ) dengan menggunakan persamaan 1. Sedangkan pembobotan News Feature ( ) diformulasikan pada persamaan 2. Weight(s j) = + (s j) - (s j) (1) = ( ) +, + + ( ) (2) Total fitur yang akan diekstraksi dalam penelitian ini ada 6, yaitu Resemblance to the Trending Issue, Word Frequency (WF), Term Frequency Inverse Document Frequency (TF-IDF), posisi kalimat, Resemblance to the Title, dan nilai redundansi kalimat (Rd). Nilai bobot dari fitur trending issue ( (s j)) didapatkan dari nilai kemiripan antara kalimat terhadap Trending Issue ( (, )). Metode pengukuran kemiripan kalimat terhadap TI menggunakan cosine similarity, dimana kalimat yang memiliki skor kemiripan tinggi terhadap TI akan dianggap sebagai kalimat penting. Nilai bobot redundansi kalimat (Rd) diidentifikasi dari kemiripan kalimat s j terhadap kalimat yang lain s i dengan mengadopsi konsep MMR[9]. Nilai bobot WF(s j) merupakan nilai kemiripan kalimat s i terhadap WFList menggunakan cosine similarity, dimana S={ s 1,..., s m }, sehingga WF adalah (, ). Pembobotan TFIDF merupakan hasil penjumlahan dari seluruh bobot term i yang muncul pada kalimat s j, dimana j sebanyak jumlah kalimat yang ada pada dokumen (D). Nilai bobot posisi kalimat dihitung V - 2 SENTRA 2017

dengan mengadopsi penelitian Mei & Chen, dimana bobot dari posisi kalimat s j adalah, dengan ( ) asumsi kalimat yang posisinya berada diawal dokumen memiliki skor lebih besar dibanding kalimat yang posisinya diakhir[10]. Nilai bobot berikutnya adalah kemiripan kalimat terhadap judul berita (Rt) yang mengadopsi dari penelitian Ferreira dkk. yaitu dengan menghitung kesamaan term yang muncul pada judul dan kalimat j, selanjutnya dibagi dengan jumlah term pada judul [2]. Tahapan proses berikutnya adalah pembangkitan ringkasan. Setiap kalimat berita pada akhirnya akan memiliki bobot ( Weight(s j)), selanjutnya seluruh kalimat akan diurutkan berdasarkan bobot tersebut. Ringkasan dokumen diambil dari n kalimat dengan bobot tertinggi. Dengan asumsi semakin besar total bobot yang dimiliki oleh sebuah kalimat maka kalimat tersebut adalah kalimat penting. 3. Hasil Penelitian dan Pembahasan Penelitian ini telah mampu menghasilkan ringkasan berita dengan menggunakan metode pembobotan berbasis News Feature dan Trending Issue. Berikut adalah contoh ringkasan yang dihasilkan dari topik ebola dengan panjang ringkasan 10 kalimat: Program Pangan Dunia (WFP) PBB menyatakan akan memberikan bantuan pangan kepada satu juta orang di tiga negara Afrika barat yang kesulitan menghadapi wabah Ebola terbaru. Wabah itu sudah membunuh 467 orang di Guinea, Liberia, dan Sierra Leone. WHO mengatakan pekan ini, penolakan masyarakat di Sierra Leone menghalangi usaha untuk mengidentifikasi dan menghubungi mereka yang mungkin telah tertular virus Ebola. Presiden organisasi internasional Dokter Tanpa Tapal Batas mengatakan wabah Ebola berada dalam tahapan yang berbeda di tiga negara. Seorang pejabat tinggi badan kesehatan PBB (WHO) mengatakan wabah ebola di Afrika Barat dapat berlangsung beberapa bulan. Penyebaran Ebola telah melambat di negara tetangganya, Guinea, dan berhenti di Liberia, setelah para pejabat kesehatan mengisolasi pasien dan memperingatkan masyarakat untuk menghindari kontak langsung dengan korban Ebola, termasuk yang sudah meninggal dunia. Pemerintah mengatakan, Ebola kini telah merenggut 16 nyawa di Sierra Leone. Sekitar 70 persen penderita telah meninggal dalam wabah saat ini. Para pakar mengatakan wabah Ebola di Afrika Barat sudah tidak terkendali. Untuk mengetahui pengaruh dari pembobotan yang diusulkan terhadap kualitas ringkasan yang dihasilkan maka perlu dilakukan pengujian. Dalam hal ini, pengujian dilakukan dengan cara membandingkan hasil ringkasan yang diusulkan (NF) dengan hasil ringkasan yang hanya mempertimbangkan bobot dari Word Frequency (WF). Adapun metode yang digunakan untuk mengukur kualitas ringkasan menggunakan metode pengukuran ROUGE-N [11]. Pengukuran ROUGE- N didasarkan pada kemunculan secara statistik dari n-gram ( N-gram Co-Occurrence Statistics). Penelitian ini menggunakan 3 groundtruth sebagai pembanding hasil ringkasan sistem. Nilai ROUGE akan diambil dari nilai maksimal ROUGE-N ( ROUGE-N multi) dari tiap pasangan ringkasan yang dihasilkan oleh sistem s terhadap ringkasan groundtruth r i. Persamaan 3 digunakan untuk mendapatkan nilai maksimal ROUGE-N. Sedangkan nilai ROUGE-N sendiri dapat dihitung dengan menggunakan persamaan 4, dimana n merepresentasikan panjang dari n-gram. Sedangkan count match adalah jumlah n-gram yang sama antara n-gram dari ringkasan oleh sistem dengan n-gram yang ada pada groundtruth. Dengan penyebut dari persamaan tersebut merupakan jumlah total n-gram yang ada pada ringkasan referensi. ROUGE N arg max ROUGE N ( r, s) (3) multi i i = ( ) ( ) (4) Hasil ringkasan yang akan dianalisis adalah ringkasan dengan panjang 30 kalimat ( n=30). Pemilihan n=30 dengan mempertimbangkan rata-rata jumlah kalimat dari beberapa artikel berita dalam 1 topik. Dimana nilai ideal dari panjang kalimat maksimal yang akan menyusun ringkasan adalah setengah dari jumlah total kalimat dalam berita. Analisis dilakukan pada nilai ROUGE dari hasil ringkasan. Dimana dari masing-masing ringkasan dengan metode pembobotan WF dan NF akan SENTRA 2017 V - 3

diketahui kualitasnya dengan menghitung nilai ROUGE-Nmulti. Tabel 1 berisi hasil perhitungan nilai ROUGE-Nmulti untuk ringkasan yang dihasilkan pada tiap topik berita. Tabel 1 Hasil ROUGE-Nmulti pada tiap topik untuk panjang ringkasan 30 kalimat Rouge-N multi No Topik Total Kalimat WF NF 1 Air asia 78 0.71 0.79 2 banjarnegara 186 0.71 0.69 3 bbm 161 0.50 0.65 4 bpjs 244 0.57 0.79 5 dolly 151 0.80 0.81 6 ebola 75 0.89 0.77 7 kurikulum 2013 319 0.88 0.86 8 Palestina 177 0.71 0.97 9 Pilpres 201 0.89 0.98 10 Sinabung 73 0.75 0.83 11 u19 105 0.93 0.97 Semakin tinggi nilai ROUGE maka dapat disimpulkan semakin banyak kalimat yang sama antara kalimat yang ada pada hasil ringkasan oleh sistem dengan ringkasan groundtruth. Dengan kata lain semakin tinggi nilai ROUGE sebuah ringkasan maka semakin tinggi kualitas dari ringkasan tersebut. Dari tabel 1 dapat dilihat hasil nilai ROUGE-Nmulti untuk tiap topik berita. Dimana pada pembobotan NF didapatkan Nilai ROUGE tertinggi adalah 0.97 yaitu pada berita dengan topik U19. Sedangkan pada pembobotan WF nilai ROUGE tertinggi adalah 0.93 dengan topik yang sama. Sedangkan nilai ROUGE terendah untuk pembobotan NF adalah 0.65 dan untuk pembobotan WF adalah 0.50. Keduanya ada di topik yang sama yaitu bbm. Dari hasil keseluruhan topik, didapatkan 8 topik dengan pembobotan NF memiliki nilai ROUGE lebih tinggi dibanding dengan hasil dari pembobotan WF (lihat Gambar 2). Hasil dari pengujian menunjukkan bahwa peringkasan dengan pembobotan NF lebih unggul sebesar 73% dari pembobotan WF. Dimana fitur yang digunakan pada pembobotan NF terdiri dari 4 fitur, yaitu : WF, TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Hal ini membuktikan bahwa peringkasan berita dengan menggunakan pembobotan News Feature (NF) menghasilkan kualitas ringkasan yang lebih baik dibanding dengan ringkasan yang dihasilkan dengan hanya menggunakan pembobotan Word Frequency (WF). Terutama pada penerapan sistem peringkasan berita dengan mempertimbangkan isu media sosial. 1.2 1 0.8 0.6 0.4 0.2 0 Rouge-N WF Rouge-N NF V - 4 SENTRA 2017 Gambar 2 Grafik perbandingan nilai ROUGE-N dari pembobotan WF dan NF

4. Kesimpulan Penelitian ini telah mampu menghasilkan ringkasan berita dengan menggunakan metode pembobotan berbasis News Feature dan Trending Issue. Berdasarkan pengujian dengan menggunakan metode ROUGE diketahui bahwa peringkasan dengan pembobotan NF lebih unggul sebesar 73% dari pembobotan WF. Dimana fitur yang digunakan pada pembobotan NF terdiri dari 4 fitur, yaitu : WF, TFIDF, posisi kalimat, dan kemiripan kalimat terhadap judul berita. Hal ini membuktikan bahwa peringkasan berita dengan menggunakan pembobotan News Feature (NF) menghasilkan kualitas ringkasan yang lebih baik dibanding dengan ringkasan yang dihasilkan dengan hanya menggunakan pembobotan Word Frequency (WF). Terutama pada penerapan sistem peringkasan berita dengan mempertimbangkan isu media sosial. Referensi [1] K. Jezek and J. Steinberger, Automatic Text Summarization (The state of the art 2007 and new challenges), pp. 1 12, 2008. [2] R. Ferreira et al., Assessing sentence scoring techniques for extractive text summarization, Expert Syst. Appl., vol. 40, no. 14, pp. 5755 5764, 2013. [3] D. R. Radev, H. Jing, M. Styś, and D. Tam, Centroid-based summarization of multiple documents, Inf. Process. Manag., vol. 40, no. 6, pp. 919 938, 2004. [4] M. Fachrurrozi, N. Yusliani, and R. U. Yoanita, Frequent Term based Text Summarization for Bahasa Indonesia, Int. Conf. Innov. Eng. Technol., pp. 30 32, 2013. [5] D. Kim, D. Kim, S. Kim, M. Jo, and E. Hwang, SNS-based issue detection and related news summarization scheme, Proc. 8th Int. Conf. Ubiquitous Inf. Manag. Commun. - ICUIMC 14, pp. 1 7, 2014. [6] T.-Y. Kim, J. Kim, J. Lee, and J.-H. Lee, A tweet summarization method based on a keyword graph, Proc. 8th Int. Conf. Ubiquitous Inf. Manag. Commun. - ICUIMC 14, pp. 1 8, 2014. [7] R. Ferreira et al., A Context Based Text Summarization System, 2014 11th IAPR Int. Work. Doc. Anal. Syst., pp. 66 70, 2014. [8] N. Hayatin, C. Fatichah, and D. Purwitasari, PEMBOBOTAN KALIMAT BERDASARKAN FITUR BERITA DAN TRENDING ISSUE UNTUK PERINGKASAN MULTI DOKUMEN BERITA, vol. 13, no. 1, pp. 38 44, 2015. [9] J. Carbonell and J. Goldstein, The use of MMR, diversity-based reranking for reordering documents and producing summaries, Proc. 21st Annu. Int. ACM SIGIR Conf. Res. Dev. Inf. Retr. - SIGIR 98, pp. 335 336, 1998. [10] J. P. Mei and L. Chen, SumCR: A new subtopic-based extractive approach for text summarization, Knowl. Inf. Syst., vol. 31, no. 3, pp. 527 545, 2012. [11] C. Y. Lin, Rouge: A package for automatic evaluation of summaries, Proc. Work. text Summ. branches out (WAS 2004), no. 1, pp. 25 26, 2004. SENTRA 2017 V - 5