BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

1.5 Metode Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB 3 LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1. Latar belakang

4 HASIL DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

BAB 1 PENDAHULUAN. Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB II LANDASAN TEORI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB 1 PENDAHULUAN Latar Belakang

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 3 LANDASAN TEORI

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

BAB II TINJAUAN PUSTAKA

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

BAB III METODE PENELITIAN

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

2BAB 2 LANDASAN TEORI

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

BAB II LANDASAN TEORI

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES

BAB III METODOLOGI PENELITIAN

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

OTOMATISASI PEMILIHAN KALIMAT UTAMA DALAM DOKUMEN TUNGGAL BAHASA INDONESIA DENGAN METODE MAXIMUM MARGINAL RELEVANCE TUGAS AKHIR

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Metode Terms Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

BAB 1 PENDAHULUAN UKDW

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB I PENDAHULUAN. 1.1 Latar Belakang

Gambar 1.1 Proses Text Mining [7]

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN 1.1 Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

1.2. Latar Belakang Masalah

BAB II LANDASAN TEORI

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB II TINJAUAN PUSTAKA

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

Identifikasi Plagiasi Karya Ilmiah berbasis Temu Kembali Informasi Menggunakan Algoritam Edit Distance Melalui Peringkasan Teks Otomatis

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks yang singkat dan padat yang dapat dianggap pengganti dari keseluruhan dokumen karena tetap mempertahankan kandungan informasi penting yang dimiliki dokumen oleh sumbernya. Peringkasan teks otomatis (automatic text summarization) adalah pembuatan bentuk yang lebih singkat dari suatu teks dengan memanfaatkan aplikasi yang dijalankan dan dioperasikan pada computer (Nugraha, 2008). Dengan adanya ringkasan maka pembaca dapat dengan cepat dan mudah memahami intisari dari dokumen tersebut. Oleh karena itu, sistem peringkasan dokumen diperlukan untuk membantu mengurangi waktu membaca keseluruhan isi berita dengan hanya membaca hasil ringkasannya, sehingga memudahkan dalam mencari informasi berita tersebut (Mustaqhfiri, 2011). Menurut (Jezek & Steinberger 2007) Kriteria peringkasan teks terbagi dua bagian yaitu peringkasan teks berdasarkan eksktraksi dan abstraksi. Teknik ekstraksi merupakan suatu teknik untuk menyalin unit-unit teks yang paling penting atau paling informatif dari teks sumber menjadi ringkasan, sedangkan teknik abstraksi adalah mengambil intisari dari teks sumber kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda (Jezek & Steinberger 2007 ). Pada penelitian ini sistem peringkas dokumen akan dibuat menggunakan teknik ekstraksi. Sejumlah penelitian telah dilakukan dalam membangun sistem peringkasan dokumen otomatis diantaranya penelitian tentang Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia oleh Aristoteles (2013), penerapan Terms Frequency Inverse Document Frequency

pada sistem peringkas teks otomatis dokumen tunggal berbahasa indonesia oleh Iyan Mulyana, dkk (2010), Peringkasan Teks Otomatis Berita Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance oleh Muchammad Mustaqhfiri, dkk (2011). Pada penelitian Aristoteles (2013) dilakukan penelitian tentang bagaimana meringkas dokumen tunggal berbahasa Indonesia yang berjenis file teks dengan menggunakan algoritma genetika. Tujuan penelitian ini adalah melakukan penentuan tingkat kepentingan atau pembobotan dari sebelas fitur teks untuk meringkas dokumen. Terdapat sebelas fitur teks yang diterapkan pada penelitian ini, yaitu posisi kalimat, positive keyword, negative keyword, kemiripan antar kalimat, kalimat menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, koneksi antar-kalimat, penjumlahan bobot antar-kalimat, dan kalimat semantic. Hasil ringkasan diuji dengan menggunakan F-measure, Precision, Recall. Dalam penelitian ini compression (ukuran ringkasan) yang dilakukan sebesar 10%, 20% dan 30 %. Hasil penelitian yang diperoleh bahwa algoritma genetika dapat digunakan untuk mencari tingkat kepentingan yang optimal dari tiap fitur teks. Dengan nilai akurasi 47.46% pada compression 30%, Sedangkan hasil tidak optimal pada compression 10%. Pada penelitian Mulyan Iyan, dkk (2008) dilakukan penelitian tentang bagaimana penerapan Term Frequency Inverse Document Frequency pada sistem peringkas dokumen tunggal. Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis menghasilkan ringkasan ( summary). Tahap - tahap peringkasan teks nya yaitu : melakukan text preprocessing yang mana hanya dilakukan pemecahan kalimat dan tokenizing kata, kemudian pembobotan TF- IDF, menghitung bobot(w), lalu Proses Pengurutan dari W. tiga kalimat W yang memiliki bobot tertinggi dijadikan ringkasan. Hasil penelitian yang diperoleh bahwa metode TF-IDF dapat digunakan untuk meringkas single document dan memiliki tingkat akurasi 61% pada compression 50%. Metode TF-IDF lebih besar tingkat akurasinya dibandingkan algoritma genetika. I-2

Pada penelitian Mustaqhfiri, dkk ( 2011) dilakukan penelitian tentang bagaimana meringkas dokumen menggunakan metode Maximum Marginal Relevance. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat ( summary). Penelitian diawali dengan lima tahap text preprocessing: pemecahan kalimat,case folding, tokenizing, filtering, dan stemming. Proses selanjutnya menghitung bobot TF-IDF, bobot query relevance dan bobot similarity. Ringkasan dihasilkan dari ekstraksi kalimat dengan menggunakan metode maximum marginal relevance. Metode ekstraksi maximum marginal relevance merupakan metode yang digunakan untuk mengurangi redudansi dalam perangkingan kalimat. Hasil perhitungan evaluasi diurutkan berdasarkan nilai recall, precision dan f-measure dari persentase yang tertinggi ke urutan terendah. Hasil penelitian yang diperoleh bahwa metode MMR dapat digunakan untuk meringkas single document dan memiliki tingkat akurasi 70% pada compression 60%. Namun query yang dimasukkan tidak menggambarkan isi, sehingga kalimat yang terambil tidak sesuai urutan kalimat yang baik. Dari penelitian - penelitian sebelumnya telah berhasil membangun aplikasi peringkas dokumen. Namun hasil yang didapat belum mencapai akurasi yang tinggi. Untuk meningkatkan akurasi sistem, peneliti mencoba menggabungkan metode TF-IDF dan MMR kemudian menambahkan query expansion pada dokumen. Query expansion merupakan suatu teknik dengan menambahkan keyword baru kedalam query awal sehingga meningkatkan performasi pencarian. Yang mana keyword tersebut merupakan Top-n dari perhitungan Algoritma TF- IDF. Bobot kata akan dihitung dan dirangking. Kata yang memiliki bobot tertinggi maka akan dijadikan sebagai keyword. Untuk peringkasan small document, seperti pada berita ( news), menggunakan nilai parameter λ=0.7 atau λ=0.8 pada perhitungan MMR, karena akan menghasilkan ringkasan yang baik (Jade Goldstein, 2008). Dengan adanya penelitian Automatic document summarization menggunakan metode MMR dengan Top- n TF-IDF token query expansion pada dokumen pendek ini, diharapkan mampu meringkas dokumen, membentuk query expansion dari suatu dokumen dan meningkatkan akurasi sistem. I-3

1.2 Rumusan Masalah Dari latar belakang di atas dapat di ambil suatu rumusan masalah yaitu, bagaimana mengetahui tingkat akurasi sistem dan menampilkan query expansion. 1.3 Batasan Masalah Desain dan pengembangan sistem peringkasan teks ini memiliki batasan atau ruang lingkup yang harus dikerjakan dengan cakupan sebagai berikut : 1 Penelitian ini menggunakan bahasa indonesia sebagai inputan. 2 Input dokumen bisa secara manual dan link website. 3 nilai koefisien ƛ = 0,7 pada perhitungan MMR. Karena akan menghasilkan ringkasan yang baik (Goldstein, 2008). 4 Dokumen yang di inputkan adalah dokumen pendek seperti Artikel dan Berita. 5 Keyword yang muncul adalah 5 kata yang memiliki bobot tertinggi pada perhitungan TF-IDF. 1.4 Tujuan Penelitian Adapun tujuan yang ingin dicapai oleh penulis dari penelitian dan penyusunan tugas akhir ini adalah untuk mengetahui tingkat akurasi sistem dengan menggabungkan 2 metode yaitu metode TF-IDF dan MMR kemudian menampilkan query expansion pada dokumen tersebut. 1.5 Sistematika Penulisan Sistematika penulisan laporan Tugas Akhir ini terdiri dari pokok-pokok permasalahan yang dibahas pada masing-masing yang diuraikan menjadi beberapa bagian : I-4

Bab I. Pendahuluan Bab ini membahas tentang gambaran umum isi tugas akhir yang meliputi latar belakang masalah, rumusan masalah, batasan masalah, tujuan dan sistematika penulisan. Bab II. Landasan Teori Bab ini menjelaskan tentang teori-teori yang berhubungan dengan penelitian yang terdiri dari penjelasan mengenai Automatic Text Summarization, tipe evaluasi, hipotesa, riset penelitian sebelumnya, Text Preprocessing, TF-IDF, dan Algoritma Maximum Marginal Relevance. Bab III. Metodologi Penelitian Bab ini membahas langkah-langkah yang dilaksanakan dalam proses penelitian, yaitu identifikasi masalah, merumuskan masalah, study literatur, analisa sistem, perancangan sistem, implementasi,dan pengujian. Bab IV. Analisa Dan Perancangan Sistem Berisi pembahasan mengenai analisa sistem meliputi analisa sistem dan perancangan pada aplikasi peringkas dokumen. Bab V. Implementasi Dalam bab ini membahas tentang implementasi aplikasi dokumen, serta pengujian dan evaluasi. peringkas Bab VI. Penutup Dalam bab ini akan dijelaskan mengenai beberapa kesimpulan yang didapatkan dari pembahasan pembuatan aplikasi tek otomatis disertai beberapa saran sebagai hasil akhir dari penelitian yang telah dilakukan. I-5

I-6