Text dan Web Mining - Budi Susanto UKDW 1 TEXT SUMMARIZATION. Text dan Web Mining - Budi Susanto UKDW 2

Ukuran: px

Mulai penontonan dengan halaman:

Download "Text dan Web Mining - Budi Susanto UKDW 1 TEXT SUMMARIZATION. Text dan Web Mining - Budi Susanto UKDW 2"

Ratna Inge Setiawan
7 tahun lalu
Tontonan:

1 ext dan Web Mining - Budi Susanto UKDW 1 EX SUMMARIZAION Sebuah Pengantar Budi Susanto I UKDW ext dan Web Mining - Budi Susanto UKDW 2 ujuan Mengenal konsep Peringkasan eks secara otomatis. Mengetahui pengelompokkan metode peringkasan teks. Memahami metode peringkasan sederhana berdasar bobot kalimat. 1

2 ext dan Web Mining - Budi Susanto UKDW 3 ext Summarization Suatu ringkasan adalah suatu teks yang dihasilkan dari satu atau lebih teks yang berisi bagian informasi yang signifikan dalam teks asal, dan yang tidak lebih dari setengah teks aslinya. Hovy, E. H. Automated ext Summa- rization. In R. Mitkov (ed), he Ox- ford Handbook of Computational Linguistics, chapter 32, pages Oxford University Press, Ringkasan eks (ext Summarization) adalah suatu proses penyulingan sebagian besar informasi penting dari sumber (beberapa sumber) untuk menghasilkan suatu ringkasan bagi pemakai atau pekerjaan tertentu. Mani, I., House, D., Klein, G., et al. he IPSER SUMMAC ext Sum- marization Evaluation. In Proceedings of EACL, ext dan Web Mining - Budi Susanto UKDW 4 Peringkasan eks Otomatis Ketika proses peringkasan teks dilakukan oleh komputer secara otomatis, maka kita sebut sebagai Automatic ext Summarization (Peringkasan eks Otomatis PO). Otomatisasi ringkasan dapat dikenakan terhadap satu dokumen (single document summarization) atau beberapa dokumen (multi-document summarization), satu bahasa (monolingual) atau beberapa bahasa (translingual/multilingual). 2

3 ext dan Web Mining - Budi Susanto UKDW 5 Keluaran Peringkasan eks Otomatis Ekstraksi (Extract) pemilihan terhadap beberapa kalimat yang dinilai penting (signifikan) dari sebuah dokumen. Abstraksi (abstract) ringkasan dapt melayani sebagai suatu substitusi (pengganti) terhadap dokumen asli. ext dan Web Mining - Budi Susanto UKDW 6 ipe Peringkasan eks Otomatis Ringkasan yang umum (Generic Summary) perwakilan dari teks asli yang mencoba untuk mempresentasikan semua feature penting dari sebuah teks asal. mengikuti pendekatan bottom-up (Information Retrieval) pemakai menginginkan segala informasi yang penting Ringkasan berpusat pada pemakai (query-driven) peringkasan bersandar pada spesifikasi kebutuhan informasi pemakai, seperti topik atau query. mengikuti pendekatan top-down (Information Extraction). 3

4 ext dan Web Mining - Budi Susanto UKDW 7 Bentuk Keluaran PO Indicative ringkasan yang dapat mengidentifikasikan topik yang terdapat pada teks sumber dan dapat memberikan ide ringkas tentang apa yang tertuang dalam teks sumber Informative ringkasan yang dapat mengidentifikasikan informasi tertentu dari dokumen sumber. ext dan Web Mining - Budi Susanto UKDW 8 Contoh Saggion, H., Lapalme, G. (2002). Generating Indicative-Informative Summaries with SumUM. Computational Linguistic, Volume 28, Number 4. 4

5 ext dan Web Mining - Budi Susanto UKDW 9 Indicative dan Informative Indicative Informative ext dan Web Mining - Budi Susanto UKDW 10 ahapan Peringkasan eks Otomatis interpretation menafsir teks sumber untuk mendapatkan representasi dari teks transformation mengubah representasi teks menjadi sebuah representasi ringkasan teks generation ringkasan teks dari representasi ringkasan teks 5

6 ext dan Web Mining - Budi Susanto UKDW 11 Mesin Peringkasan eks DOC MULIDOCS QUERY 10% 50% Very Brief Brief Headline 100 Long % ABSRACS Extract Indicative Generic Background Abstract Informative Query-oriented Just the news EXRACS? CASE FRAMES EMPLAES CORE CONCEPS CORE EVENS RELAIONSHIPS CLAUSE FRAGMENS INDEX ERMS SIGIR'99 utorial Automated ext Summarization, August 15, 1999, Berkeley, CA ext dan Web Mining - Budi Susanto UKDW 12 Modul Peringkasan eks MULIDOC EXRACS E X R A C I O N DOC EXRACS F I L E R I N G I N E R P R E A I O N G E N E R A I O N? ABSRACS CASE FRAMES EMPLAES CORE CONCEPS CORE EVENS RELAIONSHIPS CLAUSE FRAGMENS INDEX ERMS EXRACS SIGIR'99 utorial Automated ext Summarization, August 15, 1999, Berkeley, CA 6

7 ext dan Web Mining - Budi Susanto UKDW 13 Pendekatan Peringkasan eks Menurut Many dan Maybury (1999), pendekatan peringkasan teks secara otomatis dapat dikelompokkan berdasar level pemrosesannya. Surface Level Entity Level Discourse Level Mani, I., Maybury, M.., Ed. Ad- vances in Automatic ext Summariza- tion. he MI Press, ext dan Web Mining - Budi Susanto UKDW 14 Surface Level Pendekatan ini cenderung untuk mewakili informasi dengan mengambil fitur dangkal dan kemudian secara selektif menggabungkan mereka bersama-sama dalam suatu urutan untuk mendapatkan fungsi ciri khas yang dapat digunakan untuk mengekstrak informasi. hematic features Location Background Cue words 7

8 ext dan Web Mining - Budi Susanto UKDW 15 Surface Level: hematic Pendekatan hematic bergantung pada statistik kemunculan kata sehingga sebuah kalimat dengan kemunculan kata tinggi dalam teks akan memiliki bobot tinggi dari pada lainnya. kalimat yang memiliki bobot tinggi diasumsikan adalah penting. perlu dilakukan tahapan penyaringan terhadap stop-word. perhitungan bobot F*IDF sangat bermanfaat untuk menentukan keyword dalam teks. ext dan Web Mining - Budi Susanto UKDW 16 Surface Level: Location Lokasi merujuk pada posisi dalam teks, paragraf, atau sembarang bagian dalam teks dimana diasumsikan posisi-posisi tersebut mengandung kalimat yang dimasukkan dalam ringkasan. erdapat dua metode: lead-method kalimat penting muncul di awal dari teks (paragraf) mengambil sebanyak n kalimat pertama title-based method kata-kata dalam judul dan header dianggap berhubungan secara positif dengan ringkasan. 8

9 ext dan Web Mining - Budi Susanto UKDW 17 Surface Level: Background & Cue Word Background mengasumsikan bahwa unit arti penting suatu teks ditentukan kemunculan kata dari judul/heading, bagian awal dari teks atau query pemakai. Cue Word / Phrase suatu kalimat dinilai penting jika berisi frase-frase bonus tertentu. contoh: In this paper we show, In conclusion suatu kalimat dinilai kurang penting jika mengandung stigma phrase, seperti hardly, impossible. metode yang diterapkan adalah menambahkan bobot pada kalimat jika berisi frase bonus, dan mengurangi bobot pada kalimat jika berisi stigma phrase. ext dan Web Mining - Budi Susanto UKDW 18 Entity Level Pendekatan ini mencoba membangun suatu representasi teks, memodelkan entitas teks dan relasinya. ujuannya adalah untuk membantu menentukan apa yang menonjol. Relasi antar entitas antara lain: Similarity Proximity Co-ocurrence hesaural relatioships among words Coreference Logical relations Syntatic relations Meaning representation-based relations 9

10 ext dan Web Mining - Budi Susanto UKDW 19 Discourse Level ujuan pada level ini adalah untuk memodelkan struktur global dari teks dan relasinya dalam rangka untuk mencapai tujuan ringkasan yang komunikatif. Informasi yang dapat digali: Format Document hreads of opics Rethorical structure of text Aliran topik dari suatu teks dicerminkan oleh pemakaian konstruksi vocabulary dan syntatical. ext dan Web Mining - Budi Susanto UKDW 20 Peringkasan berdasar Bobot Kalimat Setiap kata dalam kalimat dihitung bobotnya dengan F- ISF (term frequency - inverse sentence frequency). F ISF(w, s) = F(w, s)* ISF(w) " S % ISF(w) = log$ ' # SF(w) & Selanjutnya, untuk setiap kalimat, s, dihitung rata-rata bobot S-ISF: Avg F ISF(s) = W (s) i=1 F ISF(w i, s) W (s) W(s) = jumlah kata dalam kalimat s 10

11 ext dan Web Mining - Budi Susanto UKDW 21 Peringkasan berdasar Bobot Kalimat Setelah Avg-F-ISF(s) dihitung, maka berikutnya semua kalimat diurutkan berdasar bobot rata-rata secara descending. Pilih kalimat yang memiliki bobot paling tinggi, Max-Avg- F-ISF(s), sebagai wakil teks. Pemakai juga dapat menentukan prosentase kalimat tertinggi yang akan diambil dengan menghitung nilai masukan prosentase (Θ) : θ F ISF = ω Max Avg F ISF Sistem akan mengembalikan semua kalimat, s, yang memiliki Avg F ISF θ F ISF ext dan Web Mining - Budi Susanto UKDW 22 Metode Lain Latent Semantic Analysis (LSA) Word Cluster Shortest Path Ranking dan Relasi Kalimat 11

12 ext dan Web Mining - Budi Susanto UKDW 23 Sumber Elena Lloret, ext Summarization : An Overview, ersedia di: extsummarization.pdf Eduard Hovy, Chin-Yew Lin, and Daniel Marcu, utorial: Automated ext Summarization. ersedia di: Horacio Saggion, and Guy Lapalme, Generating Indicative- Informative Summaries with SumUM. ersedia di: Joel Larocca Neto, and Alexandre D. Santos, Document Clustering and ext Summarization. ersedia di: doi=

dokumen-dokumen yang mirip

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di