BAB II TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

Pembangunan Perangkat Lunak Peringkas Dokumen dari Banyak Sumber Menggunakan Sentence Scoring dengan Metode TF-IDF

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB V KESIMPULAN DAN SARAN

BAB 1 PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB I PENDAHULUAN 1.1. Latar Belakang

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN. 1.1 Latar Belakang

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means

SISTEM TEMU KEMBALI INFORMASI

BAB I PENDAHULUAN. 1.1 Latar Belakang Permasalahan

PENDAHULUAN. 1.1 Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB 1 PENDAHULUAN 1.1. Latar belakang

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB II TINJAUAN PUSTAKA

Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I. Pendahuluan. 1. Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB II TINJAUAN PUSTAKA

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB II TINJAUAN PUSTAKA

BAB IV PREPROCESSING DATA MINING

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

2BAB 2 LANDASAN TEORI

1.5 Metode Penelitian

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ROCCHIO CLASSIFICATION

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

BAB I PENDAHULUAN. 1.1 Latar Belakang

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

BAB IV ANALISA DAN PERANCANGAN

1BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN Latar Belakang Latar Belakang

BAB II LANDASAN TEORI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. I.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

ANALISIS KLASTERING LIRIK LAGU INDONESIA

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

BAB 2 TINJAUAN PUSTAKA

Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel Bahasa Indonesia

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN 1.1 Latar Belakang

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

V HASIL DAN PEMBAHASAN

commit to user BAB II TINJAUAN PUSTAKA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB V EKSPERIMEN TEXT CLASSIFICATION

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

OPTIMASI SUFFIX TREE CLUSTERING DENGAN WORDNET DAN NAMED ENTITY RECOGNITION UNTUK PENGELOMPOKAN DOKUMEN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Transkripsi:

BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user (Radev et al, 2002). Secara umum terdapat dua model ringkasan dokumen yaitu model esktraktif dan model abstraktif (Long et al, 2010). Model berbasis ekstraktif mengambil kalimat yang sudah ada di dalam dokumen dan kemudian menggabungkannya untuk membentuk sebuah ringkasan (Turner et al, 2005), sehingga memungkinkan ringkasan untuk meningkatkan informasi secara keseluruhan tanpa menambah panjang ringkasan (Zajic et al, 2007). Long et al (2010), membuat sebuah framework dimana multi-dokumen summarization dapat dimodelkan menggunakan teori informasi jarak. Ringkasan terbaik didefinisikan sebagai yang mempunyai informasi jarak yang minimal (kondisi informasi jarak) ke seluruh dokumen. Carbonell et al (1998) mengusulkan metode Maximal Marginal Relevance (MMR) yang digunakan untuk memilih kalimat ringkasan berdasarkan dari query pengguna dan memiliki kemiripan dengan yang dipilih sebelumnya. Radev et al (2004) menjelaskan sebuah sistem peringkas dokumen dengan model ekstraktif yang mengambil kalimat dari banyak dokumen sesuai dengan cluster centroids dari dokumen. Dengan menggabungkan informasi yang sama dari sebuah dokumen, multidocument summarization dapat membantu pengguna dalam memperoleh informasi

23 yang relevan dengan membaca informasi yang minimal menggunakan sebuah sistem pencari informasi. Perangkat lunak peringkas dokumen dari banyak sumber ini dapat digunakan untuk membuat ringkasan yang bersumber dari berbagai dokumen yang terdapat di media online. Dokumen yang memiliki topik yang sama akan dibuat menjadi sebuah ringkasan yang memiliki informasi yang lebih relevan. Perangkat lunak ini menggunakan metode TF-IDF untuk membuat ringkasan dari banyak sumber dokumen. TF-IDF (Term Frequency-Inverse Document Frequency) merupakan salah satu metode yang biasa dipakai dalam pembobotan sebuah kata di dalam sistem pencarian informasi (Aizawa, 2002). Metode TF-IDF menghitung nilai dari masing-masing kata di dalam dokumen menggunakan frekuensi kata tersebut muncul. Kata dengan nilai TF-IDF yang tinggi berarti bahwa kata tersebut mempunyai hubungan yang kuat dengan dokumen dimana kata tersebut muncul, diasumsikan bahwa jika kata tersebut muncul di dalam query maka akan memiliki ketertarikan bagi pengguna (Ramos, 2004). TF-IDF juga dapat digunakan dalam pembobotan kata untuk mencari keputusan yang relevan (Wu et al, 2008). Dalam tesis ini metode TF-IDF digunakan untuk melakukan pembobotan kata di dalam sebuah dokumen dan kemudian dilakukan sentence scoring menggunakan nilai dari kata di dalam masing-masing kalimat dan mengambil beberapa kalimat dengan nilai tertinggi untuk kemudian digabungkan menjadi sebuah ringkasan. Dokumen yang akan diringkas didapat dari media online yang tersebar banyak di dunia maya.

24 Setelah didapat ringkasan dari masing-masing dokumen, ringkasan tersebut kemudian digabungkan dan dilakukan sentence scoring menggunakan metode TF- IDF. Beberapa kalimat yang memiliki nilai tertinggi akan dipilih dan kemudian digunakan sebagai ringkasan akhir. Perbandingan perangkat lunak peringkas dokumen dari banyak sumber berbasis web menggunakan sentence scoring dengan metode TF-IDF dengan aplikasi aplikasi yang lain dapat dilihat pada tabel 2.1.

Tabel 2.1 Tinjauan Pustaka. Penulis Judul Metode Pokok Bahasan (Radev et al, 2004) Centroid-based summarization of multiple documents. Information Processing and Management Centroidbased 1. Sistem peringkas dokumen dengan model ekstraktif yang mengambil kalimat dari banyak dokumen sesuai dengan cluster centroids dari dokumen. (Carbonell et al, The use of MMR, diversity-based MMR 1. Menggunakan metode Maximal Marginal Relevance (MMR) untuk 1998) reranking for reordering documents and producing summaries memilih kalimat ringkasan berdasarkan dari query pengguna dan memiliki kemiripan dengan yang di pilih sebelumnya. (Long et al, 2010) A New Approach for Multi-Document Update Summarization Information distance 1. Multi-dokumen summarization dapat di modelkan menggunakan teori informasi jarak. (Evan, 2014) Pembangunan Perangkat Lunak TF-IDF 1. Sistem peringkas dokumen dengan model ekstraktif yang mengambil Peringkas Dokumen dari Banyak Sumber Berbasis Web Menggunakan Sentence Scoring dengan Metode TF-IDF kalimat dari banyak dokumen sesuai dengan sentence score menggunakan metode TF-IDF dari dokumen. 2. Berbasis Web 25

26 2.2 Landasan Teori 2.2.1 Document Summarization Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user (Radev et al, 2002). Perbedaan antara single-document summarization dan multi-document summarization adalah, multi-document summarization lebih kompleks daripada single-document summarization. Ringkasan Multi-Document merupakan proses penyaringan informasi penting dari beberapa dokumen untuk menghasilkan ringkasan yang singkat untuk pengguna dan aplikasi. Ringkasan Multi-Document dapat dilihat sebagai perpanjangan dari ringkasan Single-Document (Gupta et al, 2012). Faktor yang membuat multi-document summarization lebih rumit antara lain : a. Setiap artikel yang di gunakan ditulis oleh penulis yang berbeda yang mempunyai perbedaan gaya menulis dan struktur dokumen. b. Beberapa artikel mungkin mempunyai pandangan yang berbeda tentang suatu topik yang sama. c. Fakta dan sudut pandang dapat berubah kapanpun setiap dokumen dibuat sehingga dapat menimbulkan konflik dalam penyediaan informasi. Ringkasan biasanya dihasilkan menggunakan dua teknik yang biasa disebut dengan ekstraksi dan abstraksi (Jing 2000, Knight 2002, Mani 2001). Ringkasan ekstraktif hanya mengekstrak informasi penting, seperti kalimat, dari dokumen input dan "menempatkan mereka bersama-sama" untuk membentuk sebuah ringkasan. Meskipun ringkasan yang dihasilkan dengan cara ini mungkin kurang

27 koherensi, pendekatan ekstraktif masih populer saat ini karena murah dan mudah untuk diterapkan ke domain umum. Bertujuan untuk menghasilkan ringkasan koheren gramatikal, ringkasan abstraktif menciptakan ringkasan dengan cara sintesis dan menulis ulang kalimat berdasarkan pemahaman kontekstual dan linguistik, yang sangat tergantung pada analisis yang mendalam dan teknik bahasa generasi. Ratherthan hanya menggunakan teknik tunggal saja, beberapa peneliti tertarik regenerasi sebagai pasca-proses untuk menghasilkan ringkasan ekstraktif, yaitu, membuat pemangkasan atau revisi berdasarkan ringkasan ekstraktif (Mani 2001, Otterbacher 2002). Gambar 2.2.1 Multi Document Summarization

28 2.2.2 Text Mining Text mining, juga dikenal sebagai teks data mining (Hearst, 1997) atau penemuan pengetahuan dari database tekstual (Feldman, 1995), umumnya mengacu pada proses ekstraksi pola atau pengetahuan yang menarik dari dokumen teks yang tidak terstruktur. Hal ini dapat dilihat sebagai perpanjangan dari data mining atau knowledge discovery dari database (Simoudis,1996). Sebagai bentuk paling alami dalam menyimpan sebuah informasi adalah berupa teks. Text mining diyakini memiliki potensi komersial lebih tinggi dari data mining. Bahkan, penelitian terbaru menunjukkan bahwa 80% dari informasi perusahaan terkandung dalam sebuah dokumen teks. Text mining, bagaimanapun, juga merupakan proses yang lebih kompleks (dibanding data mining) karena melibatkan data teks yang secara inheren tidak teratur dan kabur. Text mining adalah bidang multidisiplin, yang melibatkan pencarian informasi, analisis teks, ekstraksi informasi, clustering, kategorisasi, visualisasi, basis data teknologi, pembelajaran mesin, dan data mining (Tan, 1999). Text mining dapat divisualisasikan mempunyai dua tahap: Teks penyulingan yang mengubah dokumen teks dalam bentuk-bebas ke dalam bentuk peralihan yang dipilih, dan pengetahuan distilasi yang menyimpulkan pola atau pengetahuan dari bentuk peralihan. Bentuk peralihan (IF) bisa semi-terstruktur seperti representasi grafik konseptual, atau terstruktur seperti representasi data relasional. Bentuk peralihan dapat berupa dokumen dimana setiap entitas merupakan sebuah dokumen, atau berupa konsep dimana setiap entitas merupakan objek atau konsep yang memiliki kepentingan dalam domain tertentu. Pertambangan berdasar

29 dokumen dengan cara bentuk peralihan menyimpulkan pola dan hubungan antar dokumen. Dokumen pengelompokan / visualisasi dan kategorisasi adalah contoh dari pertambangan dari bentuk peralihan berdasar dokumen. Pertambangan berdasar konsep dengan cara bentuk peralihan memiliki pola dan hubungan di seluruh objek atau konsep. Operasi data mining, seperti model prediksi dan penemuan asosiatif, termasuk dalam kategori ini. Sebuah bentuk peralihan berdasar dokumen dapat diubah menjadi sebuah bentuk peralihan berdasar konsep dengan meluruskan kembali atau mengekstraksi informasi yang relevan sesuai dengan objek kepentingan dalam domain tertentu. Conceptintermed Documentintermed Clustering Categorization Visualization Text Gambar 2.2.2 Text Minning Predictive Modeling Associative Discovery Visualization 2.2.3 TF-IDF (Term Frequency Inverse Document Frequency) TF-IDF digunakan untuk menentukan nilai frekuensi sebuah kata di dalam sebuah dokumen atau artikel dan juga frekuensi di dalam banyak dokumen. Perhitungan ini menentukan seberapa relevan sebuah kata di dalam sebuah dokumen.

30 Penggunaan term frequency dan document frequency untuk memberikan peringkat pada dokumen dipelajari secara ekstensif, khususnya oleh Salton et al., untuk model ruang vektor (Salton et al, 1988). Mengikuti pertimbangan dari model diskriminasi kata (Salton et al, 1973), mereka berpendapat bahwa kata yang muncul dalam dokumen harus diberi nilai sebanding dengan frekuensi kata dan terbalik sebanding dengan frekuensi dokumen. Pembobotan skema yang mengikuti pendekatan ini disebut TF IDF (term frequency inverse document frequency). Prosedur dalam implementasi TF-IDF terdapat perbedaan kecil di dalam semua aplikasinya, tetapi pendekatannya kurang lebih sama. TF (Term Frequency) merupakan frekuensi sebuah kata terdapat di dalam sebuah dokumen. Nilai dari TF didapat menggunakan persamaan: TF(t) = f t,d t, d (1) dimana ft,d merupakan frekuensi sebuah kata (t) muncul di dalam dokumen d, sedangkan t, d merupakan total keseluruhan kata yang terdapat di dalam dokumen d (Aizawa, 2002). Kemudian untuk menghitung nilai IDF (Inverse Document Frequency) dari sebuah kata di dalam kumpulan dokumen menggunakan persamaan: IDF(t) = log( D /f t,d ) (2) D merupakan jumlah dokumen yang ada di dalam koleksi, sedangkan f t,d merupakan jumlah dokumen dimana t muncul di dalam D (Salton & Buckley, 1988,

31 Berger, et al, 2000). Dalam koleksi dokumen D, sebuah kata t dan dokumen individu d є D, dapat dihitung nilai TF-IDF menggunakan rumus: TF IDF(t) = TF(t) IDF(t) (3) Diasumsikan bahwa D ~ ft,d, ukuran dari kumpulan dokumen hampir sama dengan frekuensi t di dalam D. Jika 1 < log ( D /ft,d) < c untuk sebuah konstanta c dengan nilai yang kecil, maka wd akan lebih kecil daripada ft,d tetapi tetap bernilai positif. Hal berarti bahwa w mempunyai relasi yang biasa dengan seluruh dokumen tetapi tetap menyimpan beberapa informasi yang penting (Ramos, 2000). Sebagai contoh adalah ketika metode TF-IDF menemukan kata android di dalam kumpulan dokumen yang berisi artikel tentang android. Hal ini juga berlaku untuk beberapa kata seperti kata sambung yang tidak mempunyai arti yang releven terhadap sebuah dokumen. Kata sambung tersebut diberi nilai yang rendah menggunakan TF-IDF. Jika ft,d bernilai besar dan ft,d bernilai kecil, maka nilai dari log ( D /ft,d) cenderung tinggi dan juga TF-IDF(t) akan bernilai tinggi. Kata dengan nilai TF- IDF(t) yang tinggi berarti bahwa kata tersebut merupakan sebuah kata yang sangat penting di dalam dokumen d tetapi tidak di dalam kumpulan dokumen D.