PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

Ukuran: px
Mulai penontonan dengan halaman:

Download "PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH"

Transkripsi

1 PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Maximum Marginal Relevance adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, November 2015 Lutfia Afifah G

4 ABSTRAK LUTFIA AFIFAH. Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Maximum Marginal Relevance. Dibawah bimbingan JULIO ADISANTOSO. Ringkasan dokumen diperlukan untuk memudahkan memahami informasi berukuran besar dengan cepat. Peringkasan dokumen otomatis merupakan solusi untuk mendapatkan ringkasan dokumen dengan cepat. Penelitian ini mengusulkan untuk membuat peringkasan dokumen otomatis menggunakan metode Maximum Marginal Relevance (MMR) dan fitur kata untuk dokumen skripsi. Metode ini menggabungkan relevansi antara kalimat dengan query dan kalimat dengan kalimat yang telah terpilih sebagai ringkasan. Hasil penelitian yang telah dilakukan menghasilkan rata-rata akurasi 60.67%, recall 24.50%, precision 48.46%, dan f %. Kata kunci: fitur kata; Maximum Marginal Relevance; MMR; peringkasan dokumen ABSTRACT LUTFIA AFIFAH. Text Summarization For Indonesian Language Using Maximum Marginal Relevance Method. Supervised by JULIO ADISANTOSO. Text summarization is required to facilitate understanding the large volume of infomation in documents. Automatic text summarization is a solution to get summary of documents quickly. This research proposes an automatic text summarization using Maximum Marginal Relevance (MMR) method and word features for minithesis documents. This method merges query-relevance and information-novelty or relevance of sentence with selected sentence. Result of this research produces average accuracy of 60.67%, recall of 24.50%, precision of 48.46%, and f-1 of 30.88%. Keywords: Maximum Marginal Relevance, MMR, text summarization, word features

5 PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji: 1. Dr Imas Sukaesih Sitanggang, SSi MKom 2. Muhammad Abrar Istiadi, SKomp MKom

7 Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Maximum Marginal Relevance Nama Mahasiswa : Lutfia Afifah NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus :

8 PRAKATA Alhamdulillahirabbil aalamiin, puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan rahmat dan hidayah-nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Maximum Marginal Relevance. Skripsi ini disusun sebagai syarat mendapat gelar Sarjana Komputer (SKomp) pada Program Sarjana Ilmu Komputer di Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor (IPB). Penulis mengucapkan terima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing skripsi yang telah memberikan saran, arahan, serta dukungannya selama penelitian ini. Ungkapan terima kasih juga penulis sampaikan kepada orang tua tercinta, ibunda Yusroniyah, ayahanda Ihun Solihun, dan adik-adik yang saya sayangi, Zia dan Fahmy, atas segala doa, kasih sayang, dukungan semangat, serta motivasi kepada penulis untuk kelancaran penelitian ini. Tak lupa juga penulis ucapkan terima kasih kepada rekan-rekan satu bimbingan, Yozi dan Boge, atas bantuan dan kerjasamanya dalam melakukan penelitian ini, serta kepada rekan-rekan seperjuangan di Ekstensi Ilmu Komputer angkatan 8, atas dukungan, bantuan, dan kebersamaannya selama menjalani masa studi. Dan terakhir, terima kasih kepada seluruh staf Departemen Ilmu Komputer, khususnya Alih Jenis, yang telah banyak membantu, baik selama pengerjaan skripsi maupun kegiatan perkuliahan. Semoga skripsi ini dapat memberikan kontribusi yang bermakna bagi pengembangan wawasan para pembaca, khususnya mahasiswa dan masyarakat pada umumnya. Semoga karya ilmiah ini bermanfaat. Bogor, November 2015 Lutfia Afifah

9 DAFTAR ISI Halaman DAFTAR TABEL DAFTAR GAMBAR v v PENDAHULUAN 1 Latar Belakang Perumusan Masalah Tujuan Penelitian Manfaat Penelitian Ruang Lingkup Penelitian METODE PENELITIAN 3 Pengumpulan Dokumen Pengindeksan Pemilihan Fitur Kata Proses Peringkasan Parsing Kalimat Pembobotan TF.ISF Penghitungan Cosine Similarity Seleksi Kalimat Menggunakan MMR Evaluasi HASIL DAN PEMBAHASAN 9 Pengumpulan Dokumen Pengindeksan Pemilihan Fitur Kata Proses Peringkasan Parsing Kalimat Pembobotan TF.ISF Seleksi Kalimat Menggunakan MMR Evaluasi Hasil Ringkasan SIMPULAN DAN SARAN 20 Simpulan Saran DAFTAR PUSTAKA 20 LAMPIRAN Daftar dokumen skripsi yang digunakan Grafik Akurasi maksimum (a), rata-rata (b), dan minimum (c) tiap kompresi ringkasan

10 IV 3. Grafik Recall maksimum (a), rata-rata (b), dan minimum (c) tiap kompresi ringkasan Grafik Recall maksimum (a), rata-rata (b), dan minimum (c) tiap nilai λ Grafik Precision maksimum (a), rata-rata (b), dan minimum (c) tiap kompresi ringkasan Grafik Precision maksimum (a), rata-rata (b), dan minimum (c) tiap nilai λ Grafik F-1 maksimum (a), rata-rata (b), dan minimum (c) tiap kompresi ringkasan Grafik F-1 maksimum (a), rata-rata (b), dan minimum (c) tiap nilai λ. 32 RIWAYAT HIDUP 33

11 DAFTAR TABEL 1 Confusion Matrix Matriks TF.ISF Statistik Recall, Precision, F-1, Akurasi DAFTAR GAMBAR 1 Skema tahapan peringkasan dokumen Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ = Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ = Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ = Akurasi rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) Recall rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) Precision rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) F-1 rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c)

12 VI

13 1 PENDAHULUAN Latar Belakang Membaca merupakan salah satu kegiatan yang tidak bisa lepas bagi manusia, baik membaca buku, majalah maupun teks iklan. Masalah muncul apabila teks atau dokumen yang akan dibaca panjang dan sangat banyak karena membutuhkan waktu yang lama untuk dapat memahami isi dokumen tersebut. Salah satu cara agar dapat memahami isi dokumen keseluruhan dengan cepat adalah dengan membaca ringkasannya. Peringkasan dokumen merupakan proses meringkas atau mengurangi panjang teks asli dengan cara mengambil kata-kata atau kalimat-kalimat penting untuk mendapatkan informasi atau gambaran umum dari suatu dokumen. Cara untuk mendapatkan ringkasan dokumen yaitu bisa dengan meringkasnya secara manual ataupun menggunakan aplikasi peringkasan otomatis. Aplikasi peringkasan dokumen otomatis bisa digunakan untuk mendapatkan ringkasan dokumen dengan cepat. Peringkasan dokumen secara otomatis telah dikembangkan sejak tahun 1958 oleh Luhn (1958). Terdapat dua jenis pendekatan untuk peringkasan dokumen yaitu ekstraksi dan abstraksi. Peringkasan dokumen dengan metode ekstraksi yaitu dengan cara mengambil kalimat-kalimat penting dari teks asli kemudian menyusunnya kembali menjadi ringkasan, sedangkan metode abstraksi yaitu mengambil intisari dari teks asli yang kemudian dituangkan ke dalam kalimat-kalimat baru yang akan menjadi sebuah ringkasan (Jezek dan Steinberger 2008). Keuntungan dari metode ekstraksi yaitu mudah untuk diterapkan dan didasarkan pada fitur-fitur statistik dalam memilih kalimat penting atau kata kunci dari dokumen. Kekurangannya adalah ringkasan yang dihasilkan cenderung tidak konsisten dan kalimat yang mengandung informasi yang tidak berhubungan tidak dapat disajikan secara akurat. Sedangkan keuntungan dari metode abstraksi yaitu menghasilkan ringkasan yang lebih akurat. Kekurangannya yaitu lebih sulit diterapkan karena membutuhkan pemahaman teks asli (Munot dan Govilkar 2014). Selain ekstraksi dan abstraksi, terdapat pendekatan lain berdasarkan ada atau tidaknya campur tangan manusia dalam memproses ringkasan otomatis yaitu supervised dan unsupervised. Perbedaan kedua metode tersebut yaitu metode supervised menggunakan ringkasan manual buatan manusia untuk mengidentifikasi parameter atau fitur ringkasan, sedangkan pada metode unsupervised tidak menggunakan ringkasan manual buatan manusia dalam menentukan parameter yang relevan (Elfayoumy dan Thoppil 2014). Secara umum, proses peringkasan dokumen otomatis terdiri atas beberapa tahapan yaitu pengumpulan dokumen, praproses, pemilihan fitur, pembobotan kalimat dan pengujian. Tahapan praproses sendiri terbagi lagi menjadi beberapa bagian, di antaranya pemecahan kalimat, case folding, tokenisasi dan filtering. Ada tahapan yang sangat penting dalam peringkasan dokumen yaitu pembobotan kalimat. Taha-

14 2 pan inilah yang menentukan diambil atau tidaknya suatu kalimat sebagai ringkasan. Pembobotan kalimat dalam peringkasan dokumen dapat dilakukan dengan berbagai macam metode antara lain yang pernah dilakukan yaitu menggunakan Algoritme Genetika oleh Aristoteles (2011). Gerbawani (2013) membuat peringkasan dokumen bahasa Indonesia menggunakan logika Fuzzy. Marlina (2012) membuat ringkasan dokumen bahasa Indonesia dengan metode Regresi Logistik Biner untuk menganalisis beberapa faktor dengan sebuah variabel yang bersifat biner. Selain metode-metode tersebut, peringkasan dokumen juga dapat dilakukan dengan menggunakan metode Maximum Marginal Relevance (MMR). MMR adalah sebuah metode untuk menggabungkan query-relevance dengan information-novelty dalam peringkasan dokumen (Carbonell dan Goldstein 1998). Metode ini menggunakan teknik ekstraksi yang digunakan untuk mengurangi redundansi kalimat dengan cara menghitung kesamaan (similarity) antara kalimat dengan query dan kalimat dengan kalimat lain yang telah terpilih sebagai ringkasan. Penelitian yang pernah dilakukan dengan menggunakan metode ini salah satunya dilakukan oleh Mustaqhfiri (2011) pada dokumen berita bahasa Indonesia. Penelitian tersebut menghasilkan rata-rata recall 60%, precision 76%, dan f-measure 65%. Penelitian yang sudah sering dilakukan umumnya digunakan untuk dokumen pendek seperti dokumen berita, sedangkan untuk dokumen panjang seperti dokumen karya ilmiah bahasa Indonesia yang terdiri atas beberapa bab belum pernah dilakukan. Oleh karena itu, penelitian yang akan dilakukan adalah membuat peringkasan dokumen otomatis untuk dokumen karya ilmiah bahasa Indonesia, yaitu skripsi, menggunakan pendekatan supervised dengan metode pembobotan MMR dan teknik ekstraksi. Perumusan Masalah Perumusan masalah dalam penelitian ini di antaranya: 1. Bagaimana metode pembobotan kalimat berdasarkan fitur kata? 2. Apakah metode MMR tepat digunakan untuk pembobotan kalimat berdasarkan fitur kata? 3. Bagaimana implementasi metode MMR untuk dokumen skripsi? Tujuan dari penelitian ini antara lain: Tujuan Penelitian 1. Mengembangkan peringkasan dokumen otomatis menggunakan pembobotan kalimat berdasarkan fitur kata. 2. Menganalisis ketepatan penggunaan metode MMR dengan pembobotan kalimat berdasarkan fitur kata untuk peringkasan dokumen otomatis. 3. Mengimplementasikan metode MMR untuk dokumen skripsi.

15 3 Manfaat Penelitian Manfaat dari penelitian ini diharapkan aplikasi yang dibangun dapat menghasilkan ringkasan yang relevan dengan informasi penting pada dokumen dan dapat membantu mahasiswa memahami isi dokumen skripsi dengan cepat. Ruang Lingkup Penelitian Penelitian ini dibatasi hanya menggunakan dokumen skripsi bahasa Indonesia, fitur kata untuk pembobotan kalimat dan metode MMR dengan teknik ekstraksi. METODE PENELITIAN Tahapan dalam peringkasan dokumen otomatis diawali dengan pengumpulan dokumen, selanjutnya dilakukan pengindeksan, proses peringkasan, dan tahap terakhir yaitu evaluasi hasil ringkasan sistem dengan ringkasan manual. Skema tahapan peringkasan dokumen dapat dilihat pada Gambar 1. Pengumpulan Dokumen Penelitian ini menggunakan dokumen skripsi mahasiswa Ilmu Komputer Institut Pertanian Bogor (IPB) sebanyak 100 dokumen dengan bentuk PDF yang berasal dari repository.ipb.ac.id. Setiap dokumen telah dibuat ringkasan manualnya yang digunakan untuk membandingkan dengan hasil ringkasan sistem, serta mengukur seberapa akurat sistem peringkasan otomatis yang dibuat. Caranya yaitu dengan menghitung secara manual ada berapa kalimat yang sama dan tidak sama pada ringkasan manual dan hasil ringkasan sistem yang kemudian dihitung nilai recall, precision, f-1, dan akurasinya. Dari hasil tersebut barulah nanti dapat terlihat apakah hasil ringkasan sistem sudah memuaskan. Dokumen dikumpulkan dan dikonversi ke dalam bentuk teks dengan format dokumen.txt dengan cara copy-paste manual setiap kalimat. Bagian tinjauan pustaka dihilangkan karena pada umumnya suatu ringkasan karya ilmiah tidak mengikutsertakan tinjauan pustaka. Di dalam pemisah judul dokumen juga ditambahkan kata kunci dokumen yang terdapat pada abstrak. Selain itu, ada beberapa aturan yang digunakan dalam pengumpulan dokumen, di antaranya: 1. Tidak termasuk tabel, gambar, lampiran, persamaan, algoritme beserta penjelasannya. 2. Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran. 3. Judul bab dan sub bab dihilangkan.

16 4 Gambar 1 Skema tahapan peringkasan dokumen 4. Catatan kaki dihilangkan. 5. Kalimat yang mengandung titik dua ditulis berulang kali sebanyak list kalimat yang menyertainya. Pada umumnya ringkasan hanya berupa kalimat, oleh karena itu dibuatlah aturan pengumpulan dokumen poin 1. Masih pada poin 1, penjelasannya disini maksudnya adalah kalimat yang menjelaskan tentang tabel, gambar, lampiran, persamaan, atau algoritme tersebut, misalnya Gambar 1 menunjukkan bahwa.... List pendek pada poin 2 juga dihilangkan karena list pendek bukan merupakan kalimat utuh kecuali pada kesimpulan dan saran karena diasumsikan bagian tersebut merupakan poin penting dari sebuah dokumen skripsi. Poin 3, judul bab dan subbab, juga bukan merupakan kalimat utuh, jadi dihilangkan, sedangkan poin 4, catatan kaki, merupakan penjelasan dari suatu kata dalam dokumen yang diletakkan secara terpisah, bukan pada isi dokumen, jadi catatan kaki juga dihilangkan. Poin 5 maksudnya adalah list panjang atau list yang mengandung kalimat utuh, tidak dihilangkan melainkan kalimat penjelasan sebelumnya mengenai list tersebut, biasanya mengandung titik dua, ditulis berulang kali di depan tiap kalimat list panjang tersebut. Tujuannya adalah agar informasi pada kalimat list panjang tersebut dapat tersampaikan secara jelas.

17 5 Pengindeksan Tahap awal pemrosesan dokumen adalah pengindeksan. Tahap ini merupakan tahap memilih fitur kata yang akan dijadikan acuan dalam pembobotan kalimat. Langkah pertama yang dilakukan yaitu case folding atau menyeragamkan jenis dan ukuran huruf. Dalam penelitian ini, jenis huruf semua dokumen akan diseragamkan menjadi huruf kecil. Pemilihan Fitur Kata Penelitian ini menggunakan fitur kata untuk memperoleh ringkasan otomatis. Langkah pertama yang harus dilakukan adalah memisahkan kata dari tiap dokumen, kemudian dilakukan pemilihan fitur kata. Terdapat 3 cara pemilihan fitur kata yaitu Mutual Information (MI), Chi-square (χ 2 ), dan berbasis frekuensi dokumen (Manning et al. 2008). MI dan χ 2 baik digunakan sebagai metode pemilihan fitur kata untuk klasifikasi teks, sedangkan metode berbasis frekuensi dokumen baik digunakan untuk peringkasan teks. Oleh karena itu, pada penelitian ini digunakan metode berbasis frekuensi dokumen, yaitu Inverse Document Frequency (IDF) untuk menentukan fitur kata. Xia dan Chai (2011) mendefinisikan IDF sebagai salah satu metode pemilihan fitur kata yang berdasarkan pada perhitungan jumlah dokumen yang diindeks oleh term. Menurut Manning et al. (2008) persamaan yang digunakan untuk menghitung nilai IDF dari suatu kata adalah IDF t = log( N DF t ) (1) dengan N merupakan jumlah seluruh dokumen dan DF t adalah jumlah dokumen yang mengandung kata t. Apabila sebuah kata muncul di banyak dokumen, maka hasil dari IDF akan semakin kecil, begitu pula sebaliknya. Kata-kata yang sering muncul pada setiap dokumen biasanya adalah kata-kata yang tidak penting. Oleh karena itu, IDF sesuai untuk diterapkan pada pemilihan fitur kata dalam peringkasan dokumen karena kata-kata dengan nilai IDF tertinggi merupakan kata-kata yang jarang muncul atau hanya muncul pada dokumen dengan kategori tertentu. Proses Peringkasan Proses peringkasan dokumen terdiri atas parsing kalimat, pembobotan Term Frequency - Inverse Sentence Frequency (TF.ISF), penghitungan nilai kemiripan (cosine similarity), dan seleksi kalimat menggunakan metode MMR. Parsing Kalimat Tahap pertama proses peringkasan dokumen yaitu memecah isi dokumen menjadi kumpulan kalimat. Parsing kalimat adalah proses memisahkan teks dalam

18 6 dokumen menjadi kalimat-kalimat berdasarkan tanda baca tertentu sebagai pemisah diantaranya tanda baca titik (.), tanda tanya (?), dan tanda seru (!). Tetapi sebelum menganalisis adanya 3 tanda pemisah tersebut, terlebih dahulu dicari adanya tanda kutip ( ) yang merupakan tanda dari kutipan langsung. Apabila terdapat kutipan langsung, kalimat dalam tanda kutip dianggap sebagai 1 kalimat. Selain memecah isi dokumen, dilakukan juga pemisahan query. Baris pertama dalam dokumen merupakan judul dokumen serta kata kunci yang akan digunakan sebagai query yang diperlukan untuk seleksi kalimat. Pembobotan TF.ISF Tahap berikutnya setelah ditentukan fitur kata yang akan digunakan, adalah melakukan pembobotan TF.ISF untuk tiap fitur kata tersebut pada masing-masing kalimat dalam dokumen. TF.ISF merupakan suatu indikator penting atau tidaknya suatu kata dalam merepresentasikan kalimat (Xia dan Chai 2011). Metode ini menggabungkan jumlah kemunculan kata pada tiap kalimat atau Term Frequency (TF) dengan banyaknya kalimat dimana suatu kata muncul atau Sentence Frequency (SF). Pembobotan diperoleh berdasarkan TF dan Inverse Sentence Frequency (ISF). Nilai ISF sebuah kata dapat dihitung menggunakan persamaan sebagai berikut: ISF t = log( n + 1 SF t ) (2) dengan n merupakan jumlah kalimat dalam dokumen dan SF t merupakan jumlah kalimat dalam dokumen yang mengandung kata t. Adapun persamaan yang digunakan untuk menentukan TF.ISF sebagai berikut: T F.ISF t,s = T F t,s ISF t (3) dengan T F t,s adalah jumlah kata t pada kalimat s, sedangkan ISF t adalah nilai ISF untuk kata t. Nilai T F.ISF t,s tinggi jika kata t muncul beberapa kali dalam kalimat dan jarang muncul pada kalimat lain, sedangkan rendah jika kata t muncul hampir di seluruh kalimat masing-masing sebanyak 1 kali (Manning et al. 2008). Penghitungan Cosine Similarity Salah satu ukuran kemiripan kalimat yang paling umum digunakan adalah Cosine Similarity dimana tiap kalimat direpresentasikan sebagai vektor (Xie dan Liu 2008). Jarak antarvektor menentukan kemiripannya, dimana semakin dekat jaraknya maka 2 vektor tersebut semakin mirip (Turney dan Pantel 2010). Manning et al. (2008) mendefinisikan cosine similarity antara kalimat s 1 dan s 2 sebagai berikut: sim(s 1,s 2 ) = s 1 s 2 s 1 s 2 = i w 1,i w 2,i i w 2 1,i i w 2 2,i (4) dengan s 1 dan s 2 adalah panjang vektor, w 1,i adalah bobot kata i pada dokumen s 1, sedangkan w 2,i adalah bobot kata i pada dokumen s 2 (Xie dan Liu 2008).

19 7 Seleksi Kalimat Menggunakan MMR Maximum Marginal Relevance (MMR) merupakan salah satu metode peringkasan dokumen yang menggunakan teknik ekstraksi. Metode ini mengkombinasikan cosine similarity antara kalimat dengan query (query-relevance) dan kalimat dengan kalimat lain yang telah terpilih sebagai ringkasan dengan tujuan memaksimalkan kesamaan kalimat dengan query dan meminimalkan redundansi kalimat atau dengan kata lain meminimalkan adanya kalimat yang mempunyai kesamaan makna pada hasil ringkasan. Salah satu cara untuk mendapatkan ringkasan yang relevan yaitu dengan mengukur relevansi antara informasi pada kalimat dengan query (Carbonell dan Goldstein 1998). Untuk setiap kalimat s i, nilai MMR dapat dicari menggunakan persamaan berikut: MMR i = argmax[λsim 1 (s i,q) (1 λ)max s j S (sim 2(s i,s j ))] (5) dengan λ merupakan parameter dengan interval [0-1] untuk mengatur tingkat kepentingan relatif antara relevansi dan redundansi. sim 1 adalah ukuran kesamaan kalimat dengan query, sedangkan sim 2 adalah ukuran kesamaan kalimat dengan kalimat lainnya yang telah terpilih sebagai ringkasan (Waliprana dan Khodra 2013). Nilai MMR tiap kalimat pada dokumen dihitung untuk tiap iterasi dan akan diambil kalimat dengan nilai MMR maksimum sebagai hasil ringkasan. Mustaqhfiri (2011) menyatakan bahwa sebuah kalimat memiliki nilai MMR tinggi jika kalimat tersebut relevan terhadap isi dokumen dan memiliki bobot kesamaan maksimum terhadap query. Seleksi kalimat dilakukan dengan mengambil kalimat dengan nilai MMR tertinggi pada setiap iterasi. Iterasi yang akan dilakukan yaitu sebanyak persentase jumlah kalimat hasil ringkasan yang ditentukan. Penelitian ini menggunakan kompresi ringkasan sebesar 10%, 20%, dan 30% yang berarti ringkasan yang terbentuk yaitu sebanyak 10%, 20%, dan 30% dari jumlah kalimat pada dokumen. Evaluasi Untuk mengetahui kualitas hasil ringkasan sistem diperlukan adanya evaluasi. Pada tahap evaluasi, hasil ringkasan sistem dibandingkan dengan hasil ringkasan manual. Metode evaluasi yang digunakan pada penelitian ini adalah menentukan nilai Recall, Precision, F-1, dan akurasi dari setiap dokumen. Recall adalah peluang kasus dengan kategori positif yang dengan tepat diprediksi positif, sedangkan Precision adalah peluang kasus yang diprediksi positif yang pada kenyataannya termasuk kasus dengan kategori positif (Powers 2007). Dalam peringkasan dokumen, Recall berarti peluang dokumen relevan yang terambil sebagai ringkasan dan Precision berarti peluang dokumen yang terambil sebagai ringkasan adalah relevan. F-Measure didapat dari hasil Recall dan Precision antara kategori hasil prediksi dengan kategori sebenarnya (Wicaksana dan Widiartha 2012).

20 8 Akurasi dalam peringkasan dokumen didapatkan dari jumlah kalimat kategori positif yang diprediksi positif dan kalimat kategori negatif yang diprediksi negatif dibagi dengan seluruh kalimat dalam dokumen. Dalam penghitungan pada tahap evaluasi ini membutuhkan matriks yang disebut Confusion Matrix yang dapat dilihat pada Tabel 1. Confusion Matrix ini berisi informasi tentang kelas sebenarnya (hasil ringkasan sistem) dan kelas prediksi (hasil ringkasan manual) (Manning et al. 2008). Kolom Relevant merupakan kalimat dalam dokumen yang termasuk ke dalam ringkasan manual, sedangkan Non-Relevant merupakan kalimat dalam dokumen yang tidak termasuk ke dalam ringkasan manual. Baris Retrieved merupakan kalimat dalam dokumen yang terambil sebagai ringkasan sistem, sedangkan baris Not Retrieved merupakan kalimat dalam dokumen yang tidak terambil sebagai ringkasan sistem. Tabel 1 Confusion Matrix Relevant Non-Relevant Retrieved tp fp Not Retrieved fn tn Berdasarkan Tabel 1 dapat dihitung nilai Recall, Precision, F-1, dan Akurasi sebagai berikut: F-1 = Recall = Precision = t p t p + f n t p t p + f p 2 Recall Precision Recall + Precision (6) (7) (8) Akurasi = t p +tn t p + f p + f n +tn dengan tp (true positive) adalah jumlah dokumen relevan yang terambil, fp (false positive) adalah jumlah dokumen yang tidak relevan yang terambil,fn (false negative) adalah jumlah dokumen relevan yang tidak terambil, dan tn (true negative) adalah jumlah dokumen yang tidak relevan yang tidak terambil. (9)

21 9 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Penelitian ini menggunakan dokumen skripsi mahasiswa Ilmu Komputer Institut Pertanian Bogor yang berasal dari repository.ipb.ac.id sebanyak 100 dokumen dalam bentuk PDF. Daftar dokumen yang digunakan pada penelitian ini dapat dilihat pada Lampiran 1. Dokumen-dokumen tersebut kemudian dikonversi secara manual ke dalam bentuk TXT dengan hanya mengambil bab pendahuluan sampai bab kesimpulan dan saran. Proses ini menghasilkan rata-rata jumlah kalimat sebanyak 212 kalimat, sedangkan jumlah kalimat maksimum sebanyak 420 kalimat pada dokumen 9 dan jumlah kalimat minimum sebanyak 100 kalimat pada dokumen 61. Proses selanjutnya yang dilakukan adalah proses pembersihan dokumen TXT sesuai dengan aturan yang telah dijelaskan pada bagian metode penelitian dengan melakukan copy-paste per kalimat dalam dokumen. Proses ini memakan waktu cukup lama karena kalimat dalam tiap dokumen harus diperiksa satu per satu bilamana terdapat kalimat yang harus dihilangkan sesuai aturan pengumpulan dokumen. Dari 100 dokumen TXT yang terkumpul rata-rata ukuran dokumennya sebesar 21 KB. Rata-rata jumlah kalimat yang dihasilkan dari proses ini sebanyak 134 kalimat per dokumen, sedangkan jumlah maksimum kalimat sebanyak 308 kalimat pada dokumen 9 dan jumlah kalimat minimum sebanyak 64 kalimat pada dokumen 31. Jika dihitung berdasarkan persentase, rata-rata jumlah kalimat yang digunakan sebagai korpus yaitu 65.67% dari jumlah kalimat awal. Dokumen 99 menjadi dokumen yang paling sedikit menghilangkan kalimat-kalimat sesuai dengan aturan pengumpulan dokumen yaitu sebesar 93.22% dengan hanya menghilangkan 8 kalimat, sedangkan dokumen yang paling banyak menghilangkan kalimat-kalimat sesuai dengan aturan pengumpulan dokumen adalah dokumen 100 yaitu sebesar 35.97% dengan menghilangkan 162 kalimat. Selain proses pembersihan dokumen, ringkasan manual untuk tiap dokumen juga dibuat sebagai pembanding hasil ringkasan sistem. Keseluruhan dokumen tersebut digunakan sebagai data latih untuk menentukan fitur kata dan juga sebagai data uji untuk pengujian sistem. Pengindeksan Tahap pengindeksan dilakukan dengan mengunggah 100 dokumen TXT satu per satu ke dalam sistem, kemudian sistem akan melakukan pemisahan kata. Kata-kata tersebut kemudian dihitung nilai IDF-nya untuk seleksi fitur kata.

22 10 Pemilihan Fitur Kata Pemilihan fitur kata dalam penelitian ini dihitung menggunakan persamaan 1 untuk tiap kata unik dalam keseluruhan dokumen. Kemudian dilakukan filtering atau penghapusan kata unik yang terdiri atas kurang dari tiga huruf. Setelah dilakukan filtering, terdapat lebih dari kata unik dari seluruh dokumen dan sebanyak 894 fitur kata terpilih merupakan kata unik yang memiliki nilai 0.1 IDF < 2.0. Alasan penentuan rentang tersebut karena ingin mengabaikan kata yang hanya muncul pada 1 dokumen dari 100 dokumen dan juga kata yang muncul pada lebih dari 80 dokumen karena kata-kata tersebut kurang baik untuk merepresentasikan fitur kata. Kata unik terpilih tersebut kemudian disimpan ke dalam database untuk digunakan sebagai fitur kata. Fitur kata terpilih tersebut masih mengandung kata-kata yang merupakan stopwords seperti kata agar, adapun, jika, dan lain sebagainya. Ada sekitar 111 stopwords yang terambil sebagai fitur kata. Namun, tidak semua stopwords muncul sebagai fitur kata, misalnya kata dan, dari, ada, dan lain sebagainya tidak terpilih sebagai fitur kata kerena kata-kata tersebut muncul di hampir seluruh dokumen. Fitur kata yang memiliki nilai IDF tertinggi sebanyak 68 kata yang masing-masing muncul pada 14 dokumen dengan nilai IDF Kata-kata tersebut diantaranya xml, pohon, inisialisasi, dan lain sebagainya. Sebaliknya, kata yang memiliki nilai IDF terendah adalah kata informasi yang muncul pada 90 dokumen dengan nilai IDF 0.05 atau jika dibulatkan menjadi 0.1 yang merupakan batas bawah nilai IDF untuk fitur kata. Proses Peringkasan Proses peringkasan dilakukan untuk tiap dokumen dengan cara mengunggah dokumen tersebut ke dalam sistem. Sistem kemudian akan melakukan proses peringkasan di antaranya: parsing kalimat, pembobotan TF.ISF, penghitungan nilai kemiripan cosine similarity, dan seleksi kalimat menggunakan metode MMR. Parsing Kalimat Tahap awal dari proses peringkasan dokumen adalah memecah dokumen menjadi potongan kalimat proses pemisahan kalimat ini dilakukan berdasarkan aturan yang telah dijelaskan pada metode penelitian. Namun, dalam prosesnya terdapat kendala pada penggunaan tanda titik (.). Dalam dokumen skripsi tanda titik (.) bukan hanya digunakan sebagai tanda akhir kalimat, tetapi juga digunakan untuk penulisan bilangan desimal atau penulisan format file. Oleh karena itu, dibuat aturan tambahan untuk mengganti tanda titik (.) pada kasus-kasus tersebut, di antaranya: 1. Tanda titik (.) pada bilangan desimal diganti dengan tanda bintang (*). Misalnya diganti menjadi 44*87. Begitu juga untuk alamat website. 2. Tanda titik (.) pada penulisan et al. dihilangkan dan menjadi et al.

23 11 3. Tanda titik (.) pada format file diganti menjadi tanda bintang (*). Misalnya.txt diganti menjadi *txt. Aturan tersebut hanya digunakan dalam pemrosesan pada sistem, sedangkan untuk hasil akhir kalimat ringkasan yang akan ditampilkan akan diubah kembali menjadi tanda titik (.). Hasil dari proses parsing kalimat menghasilkan kalimat-kalimat yang merupakan kandidat kalimat ringkasan kecuali judul dokumen atau query. Pembobotan TF.ISF Proses selanjutnya dalam proses peringkasan dokumen adalah menghitung bobot kata dalam kalimat. Asumsikan dokumen yang akan diringkas adalah D yang memiliki sebanyak n kalimat yaitu s 1,s 2,s 3,s 4,...,s n serta query s n+1, maka bobot TF.ISF w m,n dihitung menggunakan persamaan 3. Nilai ISF tiap kalimat didapat dari persamaan 2. Hasil dari pembobotan tersebut menghasilkan matriks seperti pada Tabel 2. Matriks tersebut berukuran besar dan banyak terdapat nilai 0 dikarenakan fitur kata yang muncul pada suatu kalimat tidak mencapai 10 kata dari 894 fitur kata yang digunakan. Bahkan ada beberapa kalimat yang sama sekali tidak mengandung salah satu fitur kata tersebut. Tabel 2 Matriks TF.ISF s 1 s 2 s 3... s n s n+1 t 1 w 1,1 w 1,2 w 1,3... w 1,n w 1,n+1 t 2 w 2,1 w 2,2 w 2,3... w 2,n w 2,n+1 t 3 w 3,1 w 3,2 w 3,3... w 3,n w 3,n+1 t 4 w 4,1 w 4,2 w 4,3... w 4,n w 4,n+1 t 5 w 5,1 w 5,2 w 5,3... w 5,n w 5,n t m w m,1 w m,2 w m,3... w m,n w m,n+1 Rata-rata matriks tersebut berukuran dengan jumlah data TF.ISF maksimum sebanyak data dan minimum data. Lebih dari 99% data tersebut bernilai 0 dan hanya kurang dari 1% yang ada nilainya. Dokumen yang memiliki jumlah data TF.ISF terbanyak adalah dokumen 88 sebesar 0.93% dengan jumlah data TF.ISF yang tidak 0 sebanyak 608 data dari data, sedangkan yang paling sedikit adalah dokumen 55 sebesar 0.48% dengan jumlah data TF.ISF yang tidak 0 sebanyak 643 data dari data. Seleksi Kalimat Menggunakan MMR Penghitungan MMR dilakukan dengan iterasi yang mengkombinasikan nilai kemiripan kalimat dengan query dan kalimat dengan kalimat yang telah terpilih sebagai ringkasan. Pada iterasi pertama, nilai kemiripan sim 2 (s i,s j ) bernilai 0 karena

24 12 belum ada kalimat yang terambil sebagai ringkasan. Setelah itu, untuk semua kalimat dalam dokumen dihitung nilai MMR-nya menggunakan persamaan 5. Kalimat dengan nilai MMR tertinggi pada iterasi pertama akan dijadikan ringkasan, misalnya s j1. Berikut potongan kode program untuk iterasi if($iterasi == 1){ 2. $mmr[$loopsebanyakkalimat] = ($lambda * 3. $nilai_kemiripan[0][$loopsebanyakkalimat]) - ((1-$lambda) * 0); 4. if($mmr[$loopsebanyakkalimat] > $hitmax){ 5. $hitmax = $mmr[$loopsebanyakkalimat]; 6. $inmax = $loopsebanyakkalimat; 7. } 8. } Pada iterasi kedua, dihitung kembali nilai MMR tiap kalimat selain kalimat s j1. Untuk tiap kalimat, nilai kemiripan sim 2 (s i,s j ) yang digunakan adalah nilai kemiripan antara kalimat dengan kalimat s j1 karena hanya terdapat satu kalimat ringkasan. Selanjutnya seperti pada iterasi pertama, dipilih kembali kalimat dengan nilai MMR tertinggi, misalnya kalimat s j2. Sampai disini kalimat yang telah terambil sebagai ringkasan ada 2 kalimat. Berikut potongan kode program untuk iterasi else if($iterasi == 2){ 2. if(!array_search($loopsebanyakkalimat, $array)){ 3. $mmr[$loopsebanyakkalimat] = ($lambda * $nilai_kemiripan[0][$loopsebanyakkalimat]) - 4. ((1-$lambda) * $nilai_kemiripan[$maxim][$loopsebanyakkalimat]); 5. if($mmr[$loopsebanyakkalimat] > $hitmax){ 6. $hitmax = $mmr[$loopsebanyakkalimat]; 7. $inmax = $loopsebanyakkalimat; 8. } 9. } 10. } Pada iterasi ketiga, karena ada lebih dari 1 kalimat ringkasan yaitu s j1 dan s j2, maka nilai kemiripan yang digunakan adalah nilai kemiripan maksimum yang didapat setelah membandingkan nilai kemiripan seluruh kandidat kalimat yang tersisa dengan kalimat s j1 dan s j2. Misalnya nilai kemiripan maksimum yang didapat adalah nilai kemiripan antara kalimat ke-i dengan kalimat s j1, maka yang digunakan sebagai pembanding kemiripan adalah kalimat s j1. Berarti, pada iterasi ketiga dibandingkan nilai kemiripan seluruh kandidat kalimat tersisa dengan kalimat s j1. Selanjutnya setelah dihitung kembali nilai MMR-nya, kalimat dengan nilai MMR tertinggi diambil sebagai ringkasan. Berikut potongan kode program untuk iterasi else{ 2. if(!array_search($loopsebanyakkalimat, $array)){ 3. $mmr[$loopsebanyakkalimat] = ($lambda * $nilai_kemiripan[0][$loopsebanyakkalimat]) - 4. ((1-$lambda)*$nilai_kemiripan[$indexbesar][$loopSeBanyakKalimat]); 5. if($mmr[$loopsebanyakkalimat] >= $hitmax ){ 6. $hitmax = $mmr[$loopsebanyakkalimat]; 7. $inmax = $loopsebanyakkalimat; 8. } 9. } 10. } 1. $array[$iterasi] = $inmax; 2. $maxim = $inmax; 3. if($iterasi >= 2){ 4. $bandingbesar = 0; 5. for($i = 1; $i<count($array); $i++){

25 13 6. $kalmbil = $array[$i]; 7. if($kalmbil!= 0){ 8. for($loopsebanyakkalimat2=1; $loopsebanyakkalimat2<$banyakkalimat; 9. $loopsebanyakkalimat2++){ 10. if(!array_search($loopsebanyakkalimat2, $array)){ 11. if($nilai_kemiripan[$loopsebanyakkalimat2][$kalmbil] > $bandingbesar){ 12. $bandingbesar = $nilai_kemiripan[$loopsebanyakkalimat2][$kalmbil]; 13. $indexbesar = $kalmbil; 14. } 15. } 16. } 17. } 18. } 19. } Untuk iterasi keempat dan seterusnya, lakukan hal yang sama seperti pada iterasi ketiga. Iterasi dilakukan hingga mencapai kompresi ringkasan yang telah ditentukan. Untuk penelitian ini, kompresi ringkasan yang digunakan sebesar 10%, 20%, dan 30%. Selain itu ditentukan pula nilai parameter λ yang digunakan dalam penelitian ini yaitu 0.25, 0.50, dan Parameter tersebut digunakan sebagai bobot nilai kemiripan. Nilai MMR tertinggi diperoleh kalimat 14 pada iterasi 1 di dokumen 54 untuk nilai λ = 0.75 yaitu sebesar Ini artinya nilai MMR yang didapat sempurna karena nilai kemiripan kalimat 14 dengan query sim 1 (s 14,Q) = 1. Kata-kata yang terdapat pada query dan termasuk fitur kata terdapat juga pada kalimat 14, sedangkan kalimat selain kalimat yang sama antara kalimat 14 dengan query, baik yang pada kalimat 14 maupun query, tidak terdapat pada fitur kata. Nilai MMR terendah yaitu 0. Misalnya seperti yang diperoleh kalimat 1 pada iterasi 2 di dokumen 56 untuk nilai λ = 0.5. Iterasi 2 berarti selain menghitung nilai kemiripan kalimat 1 dengan query, dihitung juga kemiripan kalimat 1 dengan kalimat hasil iterasi 1, yaitu kalimat 17. Untuk kemiripan kalimat 1 dengan query, hanya terdapat 1 kata yang sama tetapi kata tersebut bukan merupakan fitur kata, berarti nilai kemiripannya 0. Untuk kemiripan kalimat 1 dengan kalimat 17, terdapat 2 kata yang sama dan juga bukan merupakan fitur kata, berarti nilai kemiripannya 0. Oleh karena itu, kombinasi keduanya akan menghasilkan nilai MMR = 0. Hasil ringkasan menggunakan MMR masih belum bisa mengambil kalimat di setiap bagian dokumen skripsi. Misalnya pada dokumen 12, hasil ringkasan kalimat pertama yaitu kalimat 40 yang merupakan bagian dari metode penelitian, sedangkan bagian pendahuluan tidak terseleksi. Ini dikarenakan kalimat-kalimat pada bagian pendahuluan tidak relevan dengan query, dan jikalau ada kata dalam kalimat yang relevan dengan query, kata tersebut bukan termasuk fitur kata. Pada dokumen 12, hanya terdapat 2 kata pada query yang juga terdapat pada fitur kata. Ini menjadi penyebab banyaknya kalimat yang menghasilkan nilai MMR = 0. Evaluasi Hasil Ringkasan Tahap evaluasi hasil ringkasan sistem dengan ringkasan manual untuk nilai λ = 0.50, yang berarti bobot kemiripan kalimat dengan judul dan kalimat dengan kali-

26 14 mat ringkasan yang telah terpilih seimbang, menghasilkan nilai akurasi ringkasan sebesar 58.67% pada kompresi ringkasan 30%, 61.05% pada kompresi ringkasan 20%, dan 62.14% pada kompresi ringkasan 10%. Akurasi tertinggi yang didapatkan sebesar 85.67% pada kompresi ringkasan 10%, sedangkan akurasi terendah adalah sebesar 39.74% pada kompresi ringkasan 30%. Perbandingan akurasi untuk λ = 0.50 dapat dilihat pada Gambar 2. Gambar 2 Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ = 0.50 Untuk nilai λ = 0.25, dimana bobot nilai kemiripan kalimat dengan query lebih kecil dibandingkan dengan bobot nilai kemiripan kalimat dengan kalimat terpilih, akurasi yang didapatkan sebesar 57.68% pada kompresi ringkasan 30%, 60.26% pada kompresi ringkasan 20%, dan 61.61% pada kompresi ringkasan 10%. Nilai ini sedikit lebih rendah dibandingkan dengan penggunaan nilai λ = Sama seperti percobaan dengan nilai λ = 0.50, akurasi tertinggi yang didapatkan yaitu sebesar 85.67% pada kompresi ringkasan 10% dan akurasi terendah juga pada kompresi ringkasan 30% sebesar 42.86%. Perbandingan akurasi untuk nilai λ = 0.25 dapat dilihat pada Gambar 3. Nilai akurasi mengalami peningkatan setelah menaikkan nilai λ menjadi Untuk nilai λ tersebut nilai akurasinya sebesar 59.87% pada kompresi ringkasan 30%, 62.11% pada kompresi ringkasan 20%, dan 62.61% pada kompresi ringkasan 10%. Akurasi tertinggi dan terendah yang dicapai masih sama dengan percobaan sebelumnya, yaitu untuk nilai akurasi tertinggi berada pada kompresi ringkasan 10% sebesar 82.95% dan nilai akurasi terendah berada pada kompresi ringkasan 30% sebesar 43.75%. Perbandingan akurasi untuk nilai λ = 0.75 dapat dilihat pada Gambar 4. Berdasarkan percobaan yang telah dilakukan pada kompresi ringkasan 10%, 20%, dan 30% untuk masing-masing nilai λ sebesar 0.25, 0.50, dan 0.75 didapat-

27 15 Gambar 3 Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ = 0.25 Gambar 4 Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ = 0.75 kan nilai akurasi rata-rata tertinggi yaitu pada kompresi ringkasan 10% dan λ = 0.75 sebesar 62.61%. Perbandingan nilai akurasinya dapat dilihat pada Gambar 5. Penurunan yang terjadi pada saat λ = 0.25 dan peningkatan pada saat λ = 0.75 wajar terjadi karena ringkasan yang baik adalah ringkasan yang relevan terhadap query. Penggunaan nilai λ = 0.75 berarti bobot query-relevance lebih diperbesar, sehingga otomatis akurasinya menjadi lebih besar. Untuk tiap kompresi ringkasan, jumlah dokumen yang bisa dikatakan query-relevance atau semakin besar nilai λ

28 16 Gambar 5 Akurasi rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) maka semakin besar pula nilai akurasinya yaitu sebanyak 53 dokumen untuk kompresi ringkasan 30%, 59 dokumen untuk kompresi ringkasan 20%, dan 52 dokumen untuk kompresi ringkasan 10%. Jadi, bisa dikatakan hasil ringkasan sudah cukup baik karena jumlah dokumen yang query-relevance sudah lebih dari 50%. Artinya, sebagian besar hasil ringkasan sudah sesuai untuk merepresentasikan isi dokumen. Sementara itu, peningkatan nilai akurasi pada kompresi ringkasan 10% juga wajar terjadi karena nilai akurasi hasil ringkasan sistem akan lebih besar jika hasil ringkasan sistem lebih sedikit, yang berarti batas nilai MMR minimum semakin tinggi, dengan asumsi bahwa hasil ringkasan manual, yang digunakan sebagai pembanding, sudah baik. Peningkatan akurasi yang terjadi untuk setiap nilai λ tidak terlalu signifikan. Jadi dapat disimpulkan bahwa nilai λ tidak terlalu mempengaruhi hasil akurasi ringkasan, sedangkan kompresi ringkasan hanya sedikit mempengaruhi akurasi hasil ringkasan. Selain nilai akurasi, dalam evaluasi hasil ringkasan juga dihitung nilai recall, precision, dan f-1 yang menghasilkan rata-rata seperti pada Gambar 6, 7, dan 8. Recall, precision, dan f-1 merupakan ukuran keakuratan ringkasan yang hanya memperhatikan kalimat yang relevan. Recall merupakan ukuran keakuratan ringkasan terhadap ringkasan manual, precision merupakan ukuran keakuratan ringkasan terhadap ringkasan sistem, sedangkan f-1 merupakan gabungan keduanya, yakni keakuratan ringkasan diukur berdasarkan ringkasan sistem dan ringkasan manual. Sementara itu, akurasi memperhatikan seluruh kalimat, baik yang relevan maupun yang

29 17 tidak relevan. Gambar 6 Recall rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) Pada Gambar 6 terlihat nilai recall rata-rata untuk masing-masing nilai λ pada tiap kompresi ringkasan tidak jauh berbeda. Namun, untuk setiap kenaikan kompresi ringkasan pada nilai λ yang sama memiliki perbedaan kurang lebih 10%. Untuk kompresi ringkasan yang menghasilkan persentase recall rata-rata terbesar yaitu pada kompresi ringkasan 30%. Nilai recall dipengaruhi oleh jumlah kalimat yang sama dalam hasil ringkasan sistem dan ringkasan manual dengan hasil ringkasan manual. Nilai recall tertinggi yaitu 54.05% pada dokumen 3 dengan kompresi ringkasan 30% dan λ = 0.50 dan Jumlah kalimat yang sama sebanyak 20 kalimat dan jumlah kalimat ringkasan manual sebanyak 37 kalimat. Sementara itu, nilai recall terendah sebesar 2.94% pada dokumen 44 dengan kompresi ringkasan 10% dan λ = 0.75 dengan jumlah kalimat yang sama hanya 1 kalimat, sedangkan jumlah ringkasan manual ada 34 kalimat. Jika dilihat, ada selisih yang cukup banyak antara kalimat yang sama dengan ringkasan manual. Jadi, dapat disimpulkan semakin sedikit selisih jumlah kalimat yang sama dengan hasil ringkasan manualnya, maka semakin besar nilai recall-nya, begitu pula sebaliknya. Gambar 7 menunjukkan nilai precision rata-rata baik untuk masing-masing nilai λ maupun kompresi ringkasan tidak terdapat perbedaan yang signifikan. Kompresi ringkasan 10% menghasilkan nilai precision rata-rata yang paling besar karena

30 18 Gambar 7 Precision rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) peluang kemunculan kalimat hasil ringkasan sistem pada ringkasan manual akan lebih besar jika hasil ringkasan sistem lebih sedikit, sedangkan jumlah ringkasan manual sama. Namun, perbedaan nilai precision antarkompresi ringkasan maupun antarnilai λ tidak terlalu jauh, jadi setiap kalimat hasil ringkasan sistem mempunyai peluang yang hampir sama terdapat dalam ringkasan manual. Nilai precision dipengaruhi oleh jumlah kalimat yang sama dalam ringkasan sistem dan ringkasan manual dengan hasil ringkasan sistem. Nilai precision tertinggi yaitu 92.86% pada dokumen 81 untuk kompresi ringkasan 10% dan λ = Jumlah kalimat yang sama sebanyak 13 kalimat dan jumlah kalimat hasil peringkasan sistem sebanyak 14 kalimat. Sementara itu, nilai precision terendah sebesar 3.33% pada dokumen 9 untuk kompresi ringkasan 10% dan λ = 0.75 dengan jumlah kalimat yang sama hanya 1 kalimat, sedangkan jumlah hasil ringkasan sistem ada 30 kalimat. Jika dilihat, ada selisih yang cukup banyak antara kalimat yang sama dengan ringkasan sistem. Jadi, dapat disimpulkan semakin sedikit selisih jumlah kalimat yang sama dengan hasil ringkasan sistemnya, maka semakin besar nilai precision-nya. Pada Gambar 8 terlihat nilai f-1 yang didapat untuk tiap nilai λ pada kompresi ringkasan yang sama tidak berbeda jauh, sedangkan untuk kompresi ringkasan yang berbeda terlihat cukup ada perbedaan. Kompresi ringkasan 30% menghasilkan nilai f-1 tertinggi.

31 19 Gambar 8 F-1 rata-rata hasil ringkasan untuk nilai λ = 0.75 (a), λ = 0.50 (b), dan λ = 0.25 (c) Nilai f-1 dipengaruhi oleh jumlah kalimat yang sama di dalam ringkasan manual dan hasil ringkasan sistem karena f-1 hanya memperhatikan jumlah kalimat yang relevan. Nilai f-1 tertinggi adalah 62.61% pada dokumen 81 dengan kompresi ringkasan 30% dan λ = Jumlah kalimat yang sama sebanyak 36 kalimat dari hasil ringkasan sistem sebanyak 44 kalimat dan ringkasan manual sebanyak 71 kalimat. Sementara itu, untuk nilai f-1 terendah adalah 3.45% berada pada dokumen 9 dengan kompresi ringkasan 10% dan λ = Jumlah kalimat yang sama pada dokumen tersebut hanya 1 kalimat dari hasil ringkasan sistem sebanyak 30 kalimat dan ringkasan manual 28 kalimat. Dengan demikian, dapat disimpulkan bahwa semakin banyak kalimat yang sama, maka nilai f-1 semakin tinggi, begitu pula sebaliknya. Dalam hal ini, pada kompresi ringkasan 30% jumlah kalimat hasil ringkasan lebih banyak, jadi kemungkinan terdapat kata yang sama akan lebih besar. Statistik hasil recall, precision, f-1, dan akurasi dapat dilihat pada Tabel 3.

32 Tabel 3 Statistik Recall, Precision, F-1, Akurasi Minimum Maksimum Rata-rata Recall (%) Precision (%) F-1 (%) Akurasi (%) SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan beberapa hal sebagai berikut: 1. Sistem peringkasan dokumen otomatis berdasarkan fitur kata telah berhasil dikembangkan. 2. Penggunaan metode MMR dengan pembobotan berdasarkan fitur kata menghasilkan rata-rata akurasi 60.67%, recall 24.50%, precision 48.46%, dan f %. 3. Untuk dokumen panjang seperti skripsi, hasil akurasi yang didapatkan telah cukup baik karena meringkas dokumen skripsi yang terdiri atas beberapa bab tidaklah mudah. Dibutuhkan keterampilan untuk memilih kalimat ringkasan manual. Atas dasar itulah kemungkinan ada kalimat yang seharusnya tidak dijadikan kalimat ringkasan manual malah dipilih sebagai ringkasan manual atau sebaliknya. Dengan kata lain ada pertimbangan terjadinya human error. Saran Jumlah kalimat dalam ringkasan manual sebaiknya diatur proporsinya terhadap jumlah kalimat pada dokumen korpus karena itu mempengaruhi akurasi. Selain itu, pembuatan ringkasan manual untuk setiap dokumen sebaiknya dibuat oleh lebih dari satu orang dengan harapan akurasi yang didapatkan akan lebih baik. DAFTAR PUSTAKA Aristoteles Pembobotan Fitur Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritme Genetika. Tesis. Departemen Ilmu Komputer, Institut Pertanian Bogor. Carbonell, J dan J Goldstein The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, pp Elfayoumy, S dan J Thoppil A Survey of Unstructured Text Summarization Techniques dalam: IJACSA 5 (4), pp

33 Gerbawani, RAS Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy. Skripsi. Departemen Ilmu Komputer, Institut Pertanian Bogor. Jezek, K dan J Steinberger Automatic Text Summarization (The State of The Art 2007 and New Challenges), pp Luhn, HP The Automatic Creation of Literature Abstracts dalam: IBM Journal, pp Manning, C.D, P Raghavan, dan H Schutze Introduction to Information Retrieval. Cambridge: Cambridge University Press. Marlina, M Sistem Peringkasan Dokumen Berita Bahasa Indonesia Menggunakan Metode Regresi Logistik Biner. Skripsi. Departemen Ilmu Komputer, Institut Pertanian Bogor. Munot, N dan SS Govilkar Comparative Study of Text Summarization Methods dalam: International Journal of Computer Applicants 102 (12), pp Mustaqhfiri, M Peringkasan Teks Otomatis Berita Olahraga Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance. Skripsi. Universitas Islam Negeri Maulana Malik Ibrahim. Powers, DMW Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness and Correlation dalam: School of Informatics and Engineering, pp Turney, PD dan P Pantel From Frequency to Meaning: Vector Space Models of Semantics dalam: JAIR 37 (5), pp Waliprana, WE dan ML Khodra Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia dalam: Jurnal Cybermatika 1 (2), pp Wicaksana, IMK dan IM Widiartha Penerapan Metode Ant Colony Optimization Pada Metode K-Harmonic Means Untuk Klasterisasi Data dalam: Jurnal Ilmu Komputer 5 (1), pp Wijakso, B, L Muflikhah, dan A Ridok Klasifikasi Jurnal Ilmiah Berbahasa Inggris Berdasarkan Abstrak Menggunakan Algoritma ID3, pp Xia, T dan Y Chai An Improvement to TF-IDF: Term Distribution based Term Weight Algorithm dalam: Journal of Software 6 (3), pp Xie, S dan Y Liu Using Corpus and Knowledge Based Similarity Measure In Maximum Marginal Relevance for Meeting Summarization dalam: ICASSP, pp

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia Widhaprasa E. Waliprana Institut Teknologi Bandung if18080@students.if.itb.ac.id Masayu Leylia Khodra Institut Teknologi Bandung masayu@stei.itb.ac.id

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Matematika dan Ilmu Pengetahuan

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES Nur Hayatin* 1, Gita I. Marthasari 2 1,2 Informatic Engineering Departement, Engineering Departement Universitas

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI LUH GEDE PUTRI SUARDANI NIM. 1208605018 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval

Sistem Temu Kembali Informasi/ Information Retrieval Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci