PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA

Ukuran: px
Mulai penontonan dengan halaman:

Download "PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA"

Transkripsi

1 PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2 ABSTRACT RENDY RIVALDI PINANDHITA. Indonesian Document Summarization Based on Nouns with BM25. Under supervision of AHMAD RIDHA. This research develops summarization of Indonesian documents based on nouns. The problem in this study is that high number of digital documents makes it difficult for the reader to find the desired information. We use cosine similarity, content overlap, and Okapi BM25 in the summarization. This research used newspaper articles from previous research. In the process of summarization, before calculating the similarities, the documents were preprocessed using stoplist, stemming, and selection of nouns. Then, the documents were ranked using PageRank. We used kappa measure to evaluate the level of agreement among evaluators in assessing the relevance of the summaries. Dice coefficient was used to compare automatic summarization to manual ones. Based on the observations, we find that Okapi BM25 is better than cosine similarity and content overlap. Keywords: Content overlap, Cosine similarity, Okapi BM25, PageRank, Text Summarization.

3 PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

4 Judul Skripsi Nama NIM : Peringkas Dokumen Berbahasa Indonesia Berbasis Kata Benda dengan BM25 : Rendy Rivaldi Pinandhita : G Menyetujui: Pembimbing, Ahmad Ridha, S.Kom., M.S. NIP Mengetahui: Ketua Departemen, Dr. Ir. Agus Buono, M.Si., M.Kom. NIP Tanggal Lulus:

5 Dosen Penguji: Firman Ardiansyah, S.Kom., M.Si Sony Hartono Wijaya, S.Kom., M.Kom

6 RIWAYAT HIDUP Penulis dilahirkan di Tangerang, tanggal 7 Oktober Penulis merupakan anak kedua dari tiga bersaudara dari pasangan Supriadi dan Cici Kusmayati. Penulis lulus dari SMA Negeri 6 Tangerang, Banten pada tahun 2006 dan melanjutkan studi di Departemen Ilmu Komputer IPB melalui jalur USMI. Pada tahun 2007, penulis diterima di Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama menjadi mahasiswa, penulis pernah aktif di Himpunan Mahasiswa Ilmu Komputer (Himalkom). Selain itu, penulis juga aktif di klub organisasi budaya Jepang (ONIGIRI). Pada tahun 2009, penulis melaksanakan Praktik Kerja Lapangan di Perusahaan Angkasa Pura II.

7 PRAKATA Puji dan syukur penulis panjatkan kepada Allah Subhanahu wata ala atas segala nikmat dan karunia-nya sehingga penulis dapat menyelesaikan penelitian ini. Tulisan ini merupakan hasil penelitian penulis dalam bidang kajian temu kembali informasi yang berjudul Peringkas Dokumen Berbahasa Indonesia Berbasis Kata Benda dengan BM25. Penulisan hasil penelitian ini ditujukan sebagai salah satu syarat untuk meraih gelar Sarjana Komputer. Tidaklah mudah bagi penulis untuk menyelesaikan penelitian ini jika tanpa bantuan dan bimbingan dari berbagai pihak. Oleh karena itu, penulis mengucapkan terima kasih kepada: 1 Bapak Ahmad Ridha, S.Kom., M.S. selaku dosen pembimbing yang telah sabar membimbing, memotivasi, dan berbagi ilmu yang baru bagi penulis. 2 Orang tua penulis, Supriadi dan Cici Kusmayati, dan juga saudara penulis, Fani dan Rayhan serta keluarga besar penulis atas semua kasih sayang, motivasi, kepercayaan, dan do a yang tidak pernah berhenti dipanjatkan. 3 Guru-guru dan teman-teman di Tangerang yang telah bersedia menjadi pembaca dan penilai terhadap hasil penelitian penulis sehinggga berkat penilaian-penilaian tersebut, penulis dapat menyelesaikan tulisan ini. 4 Teman-teman Ilkomerz 43 atas dukungan dan pengalaman-pengalaman yang berharga. Penulis berharap semoga semua bantuan yang telah diberikan mendapat balasan yang lebih baik dari Allah Subhanahu wata ala. Juga, semoga apa yang telah dikerjakan dapat bermanfaat bagi semua pihak. Bogor, Februari 2013 Rendy Rivaldi Pinandhita

8 DAFTAR ISI Halaman DAFTAR TABEL... vii DAFTAR GAMBAR... vii PENDAHULUAN Latar Belakang... 1 Tujuan... 2 Ruang Lingkup... 2 METODE PENELITIAN Pengumpulan Data... 2 Perancangan dan Pengembangan Sistem... 3 Evaluasi Sistem... 5 Lingkungan Pengembangan Sistem... 6 HASIL DAN PEMBAHASAN Koleksi Dokumen... 6 Peringkasan Dokumen... 6 Waktu Uji... 6 Hasil Evaluasi Kumpulan Dokumen Pertama (Tiga Puluh Satu Dokumen)... 7 Hasil Evaluasi Kumpulan Dokumen Kedua (Seratus Dokumen)... 8 KESIMPULAN DAN SARAN Kesimpulan... 9 Saran... 9 DAFTAR PUSTAKA... 9 LAMPIRAN vi

9 DAFTAR TABEL Halaman 1 Hasil kappa measure percobaan 1, 2, dan Hasil kappa measure percobaan 4, 5, dan Koefisien dice menggunakan PageRank atau tanpa judul Koefisien dice menggunakan judul... 8 DAFTAR GAMBAR Halaman 1 Diagram proses peringkasan teks Format dokumen Perbandingan jumlah kata benda dan waktu proses DAFTAR LAMPIRAN Halaman 1 Diagram proses pemilihan kata benda Hasil perhitungan koefisien dice antara sistem dan manual pada percobaan vii

10 1 Latar Belakang PENDAHULUAN Teknologi internet telah menjadi basis penting dalam pemanfaatan media digital. Namun, timbul masalah ketika banyaknya informasi yang masuk setiap harinya membuat banjirnya informasi yang belum tentu sesuai dengan yang diinginkan. Oleh sebab itu, dibutuhkan sebuah sistem yang dapat mempermudah pencarian informasi yang sesuai dengan kebutuhan pengguna. Peningkatan jumlah informasi pada media digital memunculkan ide untuk membuat ringkasan teks digital. Ringkasan merupakan ekspresi yang ketat dari isi utama suatu bacaan untuk menginformasikan pembaca tentang isi asli mengenai suatu pikiran utama atau ide sentral dari bacaan tersebut. Pembaca akan lebih tertarik membaca sesuatu baik itu artikel, dokumentasi, dan sebagainya jika terdapat ringkasan dari bacaan tersebut. Pembaca dapat menghemat waktu dalam memperoleh intisari tulisan dengan bentuk yang lebih pendek. Ringkasan teks umumnya mempunyai dua bentuk, yaitu ekstraktif dan abstraktif. Ringkasan ekstraktif merupakan ringkasan teks yang berupa kumpulan dari bagian-bagian penting tulisan, sedangkan ringkasan abstraktif adalah ringkasan teks berupa kalimat-kalimat baru yang merepresentasikan teks sumber dalam bentuk lain. Akan tetapi, sekarang ini masih banyak dokumen digital yang belum memiliki abstrak atau ringkasan. Pembuatan abstrak atau ringkasan secara manual akan memakan banyak waktu dan biaya sehingga perlu dikembangkan sistem pembuatan ringkasan secara otomatis oleh komputer. Peringkas teks otomatis merupakan pemanfaatan suatu aplikasi dalam proses pembuatan ringkasan yang lebih pendek dari sumber bacaan dan berisi kumpulan informasi utama bacaan tersebut. Miptahudin (2010) membuat peringkas teks otomatis berdasarkan kata benda dari dokumen berbahasa Indonesia. Kata benda atau nomina adalah jenis kata dalam bahasa Indonesia yang dapat diterangkan menggunakan jenis kata-kata lain, misalnya kata sifat dan kata sandang. Contoh penggunaannya ialah mobil mewah. Kata mobil termasuk dalam jenis kata benda, sedangkan kata mewah termasuk dalam jenis kata sifat. Dalam contoh tersebut, kata sifat mewah menerangkan kata benda mobil. Hasil penelitian Miptahudin (2010) memberikan tingkat relevansi penilaian ahli sebesar 100%, sedangkan penilaian pembaca umum adalah 87.09%. Ukuran kesamaan yang digunakan Miptahudin (2010) dalam perhitungannya ialah cosine similarity dan content overlap. Sebelum melakukan perhitungan similarity terlebih dahulu dilakukan preprocessing seperti segmentasi, tokenizing, stemming, dan pemilihan kata benda. Cosine similarity atau ukuran kesamaan kosinus adalah ukuran kesamaan antara dua vektor dengan mengukur kosinus sudut antara mereka (Manning et al. 2009). Vektor merepresentasikan tiap kalimat dan berisi bobot dari tiap term. Nilai bobot dihitung menggunakan pembobotan tf.idf terhadap setiap kalimat bukan dokumen pada umumnya. Ukuran kesamaan Content overlap antara dua kalimat didefinisikan sebagai jumlah kata yang sama antara keduanya. Sim (S i, S j ) adalah nilai kesamaan antar-kalimat S i dan S j yang akan dihitung untuk setiap pasangan kalimat. Formula ini menghitung jumlah kata yang sama (word overlap) antar-pasangan kalimat dan dinormalisasi dengan membagi jumlah word overlap dengan panjang tiap kalimat. Banyaknya kata yang sama dalam satu kalimat tidak memengaruhi perhitungan. Misalnya, jumlah kata makan dalam kalimat S i adalah 3 maka content overlap tetap dihitung sebagai 1 word overlap. Selain cosine similarity dan content overlap, masih banyak lagi ukuran kesamaan yang dapat digunakan, seperti Okapi BM25. Okapi BM25 adalah pembobotan dokumen yang mengurutkan set dokumen berdasarkan term kueri yang muncul pada setiap dokumen koleksi. Hubungan antara term kueri dan dokumen dipengaruhi oleh parameter k 1 dan b. Miptahudin (2010) mempertimbangkan pemakaian kalimat judul sehingga pemeringkatan kalimat dibagi menjadi dua kategori, yaitu: pemeringkatan tanpa menggunakan judul dan pemeringkatan dengan menggunakan judul. Pada pemeringkatan tanpa menggunakan judul digunakan algoritme PageRank untuk memeringkat kalimat hasil perhitungan similarity. Algoritme PageRank adalah algoritme pemeringkatan berbasiskan graf yang mengintegrasikan link masuk dan link keluar dalam satu model untuk menghasilkan suatu nilai (Mihalcea 2005). Algoritme pemeringkatan berbasis graf tersebut adalah metode untuk menentukan seberapa penting suatu verteks dalam graf berdasarkan

11 2 informasi yang diambil dari struktur graf tersebut. Penelitian ini mengimplementasikan algoritme pada weighted directed graph (graf yang berarah yang terboboti). Setiap edge pada graf dianggap sebagai dua edge yang saling berlawanan dengan memiliki nilai atau bobot yang sama pada tiap arah. Ilustrasinya sebagai berikut: A B dengan edge antara verteks A dan verteks B. Edge tersebut dianggap memiliki dua arah yang berlawanan pada implementasi algoritme, yaitu link verteks A ke verteks B dan link verteks B ke verteks A. Setelah algoritme ini dijalankan, dihasilkan sebuah nilai yang merepresentasikan tingkat kepentingan verteks di dalam graf. Nilai-nilai tersebut nantinya diurutkan dari nilai terbesar sampai terkecil. Berdasarkan tingkat kompresi yang telah ditentukan dihasilkan sejumlah verteks teratas sebagai keluaran peringkas otomatis. Pengujian yang dilakukan Miptahudin (2010) menggunakan kappa measure. Kappa measure bertujuan mengukur tingkat kesepakatan (agreement) dalam menilai suatu klasifikasi data antara beberapa ahli (Manning et al. 2009). Kappa measure menggunakan penilaian ahli (human judgement) dalam menentukan tingkat keberhasilan sistem. Penilaian para ahli kemudian diukur tingkat kesepakatannya. Aristoteles (2011) membuat sistem pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika. Sistem ini bertujuan melakukan optimasi peringkasan teks dengan menggunakan algoritme genetika dan menganalisis penambahan ekstraksi fitur teks kalimat semantik menggunakan teknik singular value decomposition. Hasil ringkasan menggunakan tiga tingkat pemampatan atau compression rate sebesar 10%, 20%, dan 30%. Hasil terbaik pengujian dicapai pada tingkat pemampatan 30% dengan tingkat akurasi sebesar 41%. Tingkat akurasi Aristoteles dihitung menggunakan F- Measure. F-Measure secara fungsi dan rumus mirip dengan koefisien dice. Menurut Kim dan Choi (1999), ukuran kesamaan istilah antara x dan y selain cosine similarity dapat menggunakan koefisien dice. Tujuan Tujuan penelitian ini adalah: Mengembangkan sistem peringkas teks berbahasa Indonesia dengan berdasarkan kata benda. Menganalisis kinerja sistem dengan beberapa ukuran kesamaan. Membandingkan penelitian terhadap penelitian Miptahudin (2010) dan Aristoteles (2011). Ruang Lingkup Penelitian yang dilakukan dibatasi pada pemrosesan peringkasan teks berdasarkan kata benda. Ukuran kesamaan yang digunakan meliputi cosine similarity, Okapi BM25, content overlap dan koefisien dice serta menggunakan algoritme PageRank dengan mempertimbangkan pemakaian kalimat judul atau tidak. Metode evaluasi yang digunakan untuk menilai klasifikasi data antara beberapa ahli dalam menentukan tingkat keberhasilan sistem, yaitu kappa measure. Koefisien dice digunakan untuk membandingkan peringkasan teks sistem dengan manual. Dokumen penelitian diperoleh dari penelitian Miptahudin (2010) dan Aristoteles (2011). METODE PENELITIAN Tahapan yang dilakukan pada penelitian ini meliputi: Pengumpulan data. Perancangan dan pengembangan sistem. Pengujian sistem. Pengumpulan Data Penelitian ini menggunakan dua kumpulan dokumen. Kumpulan dokumen pertama terdiri atas tiga puluh satu dokumen artikel koran dengan topik di luar pertanian. Dokumendokumen tersebut dikumpulkan dan dievaluasi dengan cara yang sama dengan yang dilakukan oleh Miptahudin (2010). Dokumendokumen tersebut tidak memiliki ringkasan manual. Kumpulan dokumen kedua terdiri atas seratus dokumen dari penelitian Aristoteles (2011) pada pemampatan sebesar 30%. Dokumen-dokumen Aristoteles tersebut memiliki ringkasan manual. Semua dokumen berbentuk teks berbahasa Indonesia. Secara umum, diagram proses

12 3 peringkasan teks pada penelitian ini dapat dilihat pada Gambar 1. Segmentasi Dengan Judul Ringkasan Cosine Dokumen Praprocessing Tokenizing Pemilihan Kata Benda Perhitungan Similarity Pemeringkatan Penyusunan Kalimat-Kalimat Hasil Pemeringkatan Ringkasan Content Overlap Evaluasi Gambar 1 Diagram proses peringkasan teks. Perancangan dan Pengembangan Sistem Langkah pemrosesan dokumen awal diuraikan sebagai berikut: Mempersiapkan dokumen awal berupa fail teks dan memberi tag XML. Melakukan ekstraksi judul dan kalimat isi setiap dokumen. Melakukan praprocessing. Setelah dokumen siap, dilakukan prosesproses sebagai berikut: Praprocessing dibagi menjadi empat yaitu: segmentasi, tokenizing, stemming, dan pemilihan kata benda. Perhitungan similarity. Stemming Tanpa Judul (PageRank) Ringkasan BM25 Pemeringkatan similarity dan PageRank. Penyusunan kalimat-kalimat hasil pemeringkatan. 1 Praprocessing Pada praprocessing ini terdapat tiga proses yang dilakukan yaitu segmentasi, tokenizing, dan pemilihan kata benda. Segmentasi Segmentasi pada dokumen dilakukan dengan memecah dokumen menjadi kalimat-kalimat terpisah yang kemudian dikumpulkan dalam suatu koleksi. Pemecahan dokumen dilakukan dengan menggunakan separator titik (. ), tanda seru (! ), tanda tanya (? ), dan newline. Pada penelitian ini kalimat judul diikutsertakan pada percobaan. Tokenizing Setelah dilakukan segmentasi, kalimatkalimat yang dihasilkan dilakukan proses tokenizing. Proses ini dilakukan dengan cara memeriksa setiap karakter pada dokumen dan memecah string kalimat menjadi token yang merupakan kata unik. Pada proses ini juga dilakukan pembersihan terhadap kata buang (stoplist) untuk mendapatkan token atau term yang diinginkan. Stemming dan Pemilihan kata benda Setelah melalui proses tokenizing maka dilakukan proses stemming dan pemilihan kata benda terhadap term yang dihasilkan. Pemakaian imbuhan baik prefiks dan sufiks pada bahasa Indonesia menjadikan proses stemming penting dalam temu kembali informasi, walaupun tidak memengaruhi kinerja secara signifikan. Pemilihan kata benda dilakukan menggunakan Kamus Besar Bahasa Indonesia (KBBI) edisi ke-3 yang tersimpan dalam berkas KBBI dan daftar kata benda KBBI yang tersimpan dalam berkas noun. Langkah-langkah pemilihan kata benda Miptahudin (2010) dapat dilihat pada Lampiran 1. 2 Perhitungan Similarity Metode kesamaan yang diterapkan dalam sistem terdiri atas empat metode, yaitu Okapi BM25, cosine similarity, content overlap, dan koefisien dice. Metode kesamaan yang pertama ialah cosine similarity. Rumus yang digunakan sebagai berikut: cos(θ) = =

13 4 dengan: cos(θ) = nilai cosine similarity antara kalimat A dan kalimat B. A i = frekuensi term i pada kalimat A. B i = frekuensi term i pada kalimat B. n = jumlah semua term pada kalimat A dan kalimat B. Kesamaan ini menggunakan pembobotan tf.idf untuk memboboti setiap term. Perhitungan idf menggunakan. Setelah pembobotan, perhitungan cosine similarity dilakukan. Metode kesamaan yang kedua ialah Okapi BM25. Kesamaan ini mirip dengan cosine similarity yaitu menggunakan pembobotan tf dan idf untuk memboboti setiap term. Bedanya selain tf dan idf, juga ditambahkan parameter bebas k 1 dan b. Nilai yang optimal untuk parameter k 1 dan b adalah k 1 = 1.2 dan b = 0.75 (Manning et al. 2009). Kemudian, diperhitungkan pula pemakaian panjang kalimat dan panjang seluruh koleksi kalimat. Rumus yang digunakan sebagai berikut: RSV d = dengan: ( ( )) disebut juga nilai idf term t. k 1 dan b = parameter penskalaan terhadap tf dan panjang dokumen. tf td = frekuensi term t pada kalimat d. L d dan L ave = panjang kalimat d dan ratarata dari panjang seluruh koleksi kalimat. Metode kesamaan selanjutnya ialah content overlap. Content overlap antara dua kalimat didefinisikan sebagai jumlah kata yang sama (word overlap) antara keduanya dan dinormalisasi dengan membagi jumlah word overlap dengan panjang tiap kalimat. Pembobotan tidak dilakukan karena nilai kesamaan antar-kalimat langsung dihitung berdasarkan banyaknya kata yang sama antarkalimat. Rumus perhitungannya adalah sebagai berikut: Sim (S i, S j ) = dengan:. w k = jumlah kata (term) yang sama antara kalimat S i dan S j. S i = panjang kalimat S i. S j = panjang kalimat S j. Banyaknya kata yang sama dalam satu kalimat tidak memengaruhi perhitungan. Misalnya jumlah kata mobil dalam kalimat S i adalah tiga, perhitungan content overlap tetap menganggapnya sebagai satu word overlap. Yang terakhir ialah metode koefisien dice. Sebelum dilakukan perhitungan koefisien dice, hasil pemeringkatan manual dan sistem disiapkan. Pemeringkatan secara sistem menggunakan aplikasi dengan melibatkan cosine similarity, Okapi BM25, dan content overlap serta penggunakan judul dan tanpa judul atau menggunakan PageRank. Pemeringkatan manual didapat dengan cara memeringkat hasil peringkasan sistem Aristoteles (2011) secara manual. Kemudian, hasil sistem tersebut dibandingkan dengan hasil pemeringkatan manual, dengan asumsi hasil pemeringkatan Aristoteles (2011) adalah benar. Rumus perhitungannya sebagai berikut: S2(x, y) = dengan: x dan y = nomor kalimat hasil perhitungan manual dan hasil perhitungan sistem. = jumlah irisan x dan y. = jumlah x. = jumlah y. 3 Pemeringkatan Similarity dan PageRank Untuk tiga puluh satu dokumen di luar topik pertanian, nilai yang dihasilkan oleh perhitungan similarity diurutkan dari yang terbesar hingga terkecil dan merupakan 25% dari dokumen karena Miptahudin (2010) menyatakan bahwa 25% hasil ekstrak dari teks sumber memiliki tingkat informasi yang sama besar dengan teks itu sendiri. Pada dokumen Aristoteles (2011), perhitungan kesamaan menggunakan persentase sebesar 30% sesuai dengan penelitian tersebut. Peringkasan didapatkan dari kalimat dengan n peringkat tertinggi

14 5 tersebut yang disusun sesuai dengan posisi keterurutan kalimat pada dokumen. Sistem menerapkan beberapa percobaan berdasarkan judul, tanpa judul, dan koefisien dice. Pada percobaan tanpa menggunakan judul, kalimat judul tidak diikutsertakan dalam pemrosesan sehingga pemeringkatan hasil peringkasan dilakukan memakai algoritme PageRank. Pada percobaan menggunakan judul, kalimat judul dianggap sebagai kueri. Adapun pengelompokannya menurut kategori dokumen yang digunakan adalah sebagai berikut: Percobaan dengan kategori dokumen pertama (tiga puluh satu dokumen) - Penerapan algoritme PageRank dengan cosine similarity (percobaan 1). - Penerapan algoritme PageRank dengan ukuran kesamaan Okapi BM25 (percobaan 2). - Penerapan algoritme PageRank dengan ukuran kesamaan content overlap (percobaan 3). - Penerapan cosine similarity tanpa penggunaan algoritme PageRank (percobaan 4). - Penerapan ukuran kesamaan Okapi BM25 tanpa penggunaan algoritme PageRank (percobaan 5). - Penerapan ukuran kesamaan content overlap tanpa penggunaan algoritme PageRank (percobaan 6). Percobaan dengan kategori dokumen kedua (seratus dokumen) Percobaan ini membandingkan hasil perhitungan manual dengan hasil perhitungan sistem. Perhitungan manual menggunakan hasil ringkasan Aristoteles (2011), sedangkan perhitungan sistem melibatkan cosine similarity, Okapi BM25 dan content overlap pada peringkasan dokumen serta memperhitungkan pemakaian judul dan tanpa judul (dengan PageRank) (percobaan 7). Percobaan 1 hingga 6 menggunakan 31 dokumen di luar pertanian dan percobaan 7 menggunakan dokumen Aristoteles (2011). Setelah perhitungan similarity selanjutnya adalah proses pembentukan graf untuk menghitung nilai PageRank pada percobaan tanpa menggunakan judul. Rumus untuk menghitung nilai PageRank pada penelitian ini adalah sebagai berikut: PR w (v i ) = (1 - d) + d * dengan d adalah damping factor bernilai antara 0 dan 1. Nilai d yang biasa dipakai adalah 0.85 (Rogers 2002). Edge antar-verteks dinilai dengan bobot (weight) w ij. 4 Penyusunan Kalimat-Kalimat Hasil Pemeringkatan Setelah semua perhitungan dilakukan, kalimat-kalimat tersebut diperingkat dengan diurutkan berdasar pada nilai perhitungan tertinggi hingga terendah. Nilai kesamaan teratas menjadi bagian dari ringkasan dengan menggunakan tingkat kompresi dokumen sebesar 25% pada percobaan 1 hingga percobaan 6, dan 30% pada percobaan 7. Tingkat kompresi tersebut berdasarkan penelitian Miptahudin (2010) dan Aristoteles (2011). Pada percobaan dengan menggunakan judul, ekstraksi kalimat dilakukan setelah pemeringkatan nilai kesamaan. Pada percobaan PageRank, ekstraksi kalimat dilakukan setelah pemeringkatan nilai PageRank. Evaluasi Sistem Parameter yang digunakan dalam evaluasi dokumen kategori pertama adalah kappa measure. Kappa measure digunakan untuk mengukur tingkat kesepakatan beberapa ahli dalam menilai suatu klasifikasi data. Rumusnya sebagai berikut: Kappa = dengan P(A) adalah proporsi materi yang bernilai sama dalam penilaian oleh ahli dan P(E) adalah proporsi materi yang kemungkinan bernilai berbeda dalam penilaian. Pengujian yang dilakukan pada percobaan satu hingga enam melibatkan tiga ahli dan tiga pembaca umum yang menilai tingkat relevansi hasil ringkasan sistem dengan isi dokumen. Para ahli berasal dari Jurusan Sastra Indonesia dan memiliki latar belakang profesi sebagai guru bahasa Indonesia di sekolah yang berbeda, sedangkan para pembaca umum yaitu mahasiswa yang berbeda jurusan dan Universitas. Semua penguji melakukan penilaian terhadap hasil ringkasan secara terpisah. Penilaian dilakukan dengan cara

15 6 membandingkan dokumen asli dengan hasil ringkasan, kemudian tiap dokumen diberikan nilai relevan atau tidak. Hasil tersebut kemudian dikumpulkan untuk dilakukan perhitungan kappa measure. Tingkat relevansi hasil ringkasan dapat dikategorikan menjadi beberapa bagian yaitu relevan, agak relevan, kurang relevan dan tidak relevan. Namun, penelitian ini hanya berdasarkan dua kategori, yaitu relevan dan tidak relevan. Nilai kappa measure dihitung untuk setiap pasangan penguji yaitu antara ahli dengan ahli dan umum dengan umum. Parameter yang digunakan dalam evaluasi dokumen kategori kedua atau pada dokumen Aristoteles (2011) adalah koefisien dice. Untuk perhitungan sistem digunakan dokumen berupa artikel koran. Untuk perhitungan manual digunakan hasil ringkasan dari artikel tersebut. Lingkungan Pengembangan Sistem Penelitian ini dilakukan dalam lingkungan pengembangan sebagai berikut: Perangkat lunak: Microsoft Windows XP Professional SP3, Microsoft Visual Basic 2008 dan Microsoft SQL Server 2005 Express. Perangkat keras: Intel Pentium GHz, 2 GB RAM. HASIL DAN PEMBAHASAN Koleksi Dokumen Penelitian ini, baik dokumen kategori pertama maupun kedua, menggunakan dokumen berbahasa Indonesia yang disimpan dalam fail teks (*.txt) dan diberi tag XML. Tag yang berpengaruh dalam peringkasan yaitu tag title dan text. Tag title digunakan untuk ekstraksi judul dan text untuk ekstraksi isi bacaan. Ekstraksi judul digunakan sebagai kueri dalam perhitungan similarity pada percobaan menggunakan judul. Pada dokumen kategori pertama ukuran dokumen minimal 3 KB dan maksimal 10 KB. Rata-rata jumlah kalimat teks sumber adalah 47 kalimat. Rata-rata banyaknya kata benda setiap dokumen adalah 282 kata dengan ukuran minimal 107 kata dan maksimal 601 kata. Rata-rata kata benda setiap kalimat berjumlah 6 kata dengan jumlah minimal 4 kata dan maksimal 10 kata. Contoh format dokumen dapat dilihat pada Gambar 2. <DOC> <DOCNO>10</DOCNO> <TITLE>Dana Banpres Harusnya Dikelola dalam APBN</TITLE> <AUTHOR>A/N</AUTHOR> <DATE> A/N</DATE> <TEXT>......Yang perlu dilakukan sekarang, segera menghentikan semua penggunaan anggaran nonbudgeter, </TEXT> </DOC> Gambar 2 Format dokumen. Waktu Proses (ms) Jumlah Kata Benda Gambar 3 Perbandingan jumlah kata benda dan waktu proses.

16 7 Peringkasan Dokumen Dalam proses peringkasan, sistem hanya akan mengenali dokumen masukan dengan format XML, selainnya tidak dikenali dan tidak bisa dijadikan dokumen masukan. Saat diproses, terlebih dahulu dilakukan praprocessing untuk mendapatkan term-term yang diinginkan. Kemudian, term-term tersebut digunakan untuk menghitung similarity dan diperingkat secara terpisah sesuai dengan percobaan yang dilakukan. Waktu Uji Waktu yang dibutuhkan dalam proses peringkasan rata-rata detik dengan minimal detik dengan 107 kata benda dan maksimal dengan 601 kata benda. Dari Gambar 3 dapat disimpulkan bahwa secara umum semakin banyak kata benda yang diproses, semakin panjang waktu proses yang dibutuhkan. Fluktuasi yang terjadi pada kata benda dengan jumlah kata benda yang hampir sama terjadi karena faktor internal kinerja sistem pada komputer yang digunakan. Hasil Evaluasi Kumpulan Dokumen Pertama (Tiga Puluh Satu Dokumen) Persentase tingkat relevansi hasil ringkasan terhadap isi dokumen untuk keseluruhan percobaan oleh ketiga penilai ahli sangat tinggi yaitu di atas 96%. Untuk percobaan 1 dan 3 persentase tingkat relevansi hasil ringkasan rata-rata sebesar 96.77% sedangkan untuk percobaan 2, 4, 5, dan 6 sebesar 100%. Pada percobaan Miptahudin (2010), semua penilai ahli memberikan persentase tingkat relevansi sebesar 100%, kecuali pada percobaan 2 dan 5, karena Miptahudin (2010) tidak melakukan percobaan menggunakan Okapi BM25. Hasil ini memperlihatkan bahwa peranan kata benda pada suatu dokumen memang sangat penting dan berpengaruh besar dalam menghasilkan suatu ringkasan. Dari nilai relevansi yang didapat, dapat dikatakan bahwa para penilai ahli secara umum memiliki pandangan yang sama terhadap hasil ringkasan. Persentase tingkat relevansi hasil ringkasan terhadap isi dokumen oleh penilai umum rata-rata sebesar 76.34%, 84.95%, dan 74.19% untuk percobaan 1, 2, dan 3. Pada percobaan 4, 5, dan 6 para pembaca menilai 91.39%, 77.42%, dan 91.39%. Percobaan Miptahudin (2010) memberikan hasil rata-rata masing-masing percobaan 1, 3, 4, dan 6 sebesar 69.89%, 65.59%, 82.79%, dan 79.57%. Hasil tersebut memperlihatkan bahwa nilai ringkasan yang didapat bervariasi, bergantung kepada penilai. Dapat disimpulkan pula bahwa percobaan menggunakan judul oleh penilai umum dinilai dapat memberikan hasil ringkasan yang lebih baik. Tabel 1 menunjukkan nilai kappa measure pada percobaan 1, 2, dan 3 yaitu percobaan dengan menggunakan cosine similarity, Okapi BM25 dan content overlap menggunakan algoritme PageRank untuk pemeringkatannya. P1, P2, dan P3 adalah penilai ahli dan P4, P5, dan P6 adalah penilai umum serta P melambangkan percobaan. Tabel 1 Hasil kappa measure percobaan 1, 2, dan 3 P Penilai P(A) P(E) Kappa P1&P P1&P P2&P P4&P P4&P P5&P P4&P P4&P P5&P P1&P P1&P P2&P P4&P P4&P P5&P Secara keseluruhan P1, P2, dan P3 ratarata mempunyai tingkat kesepakatan yang tinggi dalam menilai hasil ringkasan. Nilai kappa measure dari percobaan 1 hingga 3 bernilai 1 dengan nilai P(E) pada percobaan 1 dan 3 sebesar yang diakibatkan oleh persentase penilaian P1, P2, dan P3 pada percobaan 1 dan 3 sebesar 96.78%. Pada percobaan 2 seluruh penilai umum menghasilkan 100% nilai kesepakatan sehingga tidak dimunculkan dalam tabel. Untuk P4, P5, dan P6 hasil uji kappa yang terlihat pada Tabel 1 menunjukkan tingkat

17 8 kesepakatan yang rendah dalam menilai hasil ringkasan. Hal ini mungkin disebabkan oleh latar belakang pendidikan penilai yang berbeda sehingga menghasilkan nilai di bawah hingga minus. Menurut Manning et al. (2009), nilai kappa measure yang baik berada di atas Jika nilai berada di antara dan 0.800, tingkat kesepakatan dikatakan cukup. Jika kappa measure berada di bawah 0.670, berarti tingkat kesepakatan rendah. Tabel 2 Hasil kappa measure percobaan 4, 5, dan 6 P Penilai P(A) P(E) Kappa P4&P P4&P P5&P P4&P P4&P P5&P P4&P P4&P P5&P Hasil uji kappa measure P1, P2, dan P3 pada percobaan 4, 5, dan 6 bernilai 1. Ini menunjukkan bahwa seluruh penilai mempunyai tingkat kesepakatan 100%. Dapat disimpulkan bahwa semua penilai ahli memiliki pandangan yang hampir sama terhadap hasil ringkasan. Sedangkan hasil uji kappa measure P4, P5, dan P6 mempunyai tingkat kesepakatan yang rendah yaitu di bawah Secara umum, hasil uji kappa measure pada penilai pembaca umum untuk setiap percobaan menunjukkan tingkat kesepakatan yang rendah. Nilai kappa measure tertinggi pada penilai umum adalah pada percobaan 1. Hasil Evaluasi Kumpulan Dokumen Kedua (Seratus Dokumen) Percobaan ini meliputi perhitungan koefisien dice antara hasil ringkasan manual dan hasil ringkasan sistem yang menggunakan cosine similarity, Okapi BM25, dan content overlap. Berikut hasil perhitungan koefisien dice pada percobaan 7. Cos merupakan perhitungan cosine similarity, BM25 merupakan perhitungan Okapi BM25, dan Con merupakan perhitungan content overlap. Tabel 3 Koefisien dice menggunakan PageRank atau tanpa judul Cos BM25 Con Min Max Rata-rata Tabel 4 Koefisien dice menggunakan judul Cos BM25 Con Min Max Rata-rata Dari Tabel 3 dan 4 dapat dilihat bahwa nilai rata-rata hasil perhitungan koefisien dice dengan menggunakan PageRank lebih baik dari percobaan dengan menggunakan judul. Itu terbukti dari rentang nilai rata-rata PageRank berkisar antara minimum 36% dan maksimum 44%, sedangkan pada percobaan dengan menggunakan judul berkisar antara minimum 31% sampai maksimum 32%. Perhitungan Okapi BM25 pada Tabel 3 dan Tabel 4 memiliki nilai rata-rata lebih besar dari cosine similarity dan content overlap. Sedangkan, jika nilai Okapi BM25 pada Tabel 3 dan Tabel 4 dibandingkan, maka dapat disimpulkan bahwa nilai terbesar yang dihasilkan, yaitu pada percobaan tanpa menggunakan judul (PageRank). Hasil rata-rata seluruh koefisien dice tiap dokumen yang didapatkan sebesar dengan rata-rata minimal sebesar dan maksimal Pada percobaan 7 nilai koefisien dice yang dihasilkan sebesar 36%, sedangkan nilai akurasi yang didapatkan dari data dan compression rate sebesar 30% pada penelitian Aristoteles (2011) yaitu berada di atas 41%. Hasil perhitungan koefisien dice dapat dilihat pada Lampiran 2. KESIMPULAN DAN SARAN Kesimpulan Berdasarkan hasil penelitian ini, dapat ditarik kesimpulan sebagai berikut: Kinerja ringkasan dengan Okapi BM25 lebih tinggi dari cosine similarity dan

18 9 content overlap. Hasil terbaik dihasilkan oleh Okapi BM25 pada percobaan tanpa menggunakan judul (PageRank). Penilaian pakar cenderung bersifat homogen daripada penilaian penilai umum. Perbedaan penilaian antara pakar dan penilai umum mungkin disebabkan oleh latar belakang pendidikan dan bidang kajian ilmu masing-masing. Evaluasi dengan penilai memiliki subjektifitas yang tinggi untuk penilai umum sehingga sulit untuk mendapatkan kesepakatan yang tinggi. Penilaian dengan menggunakan koefisien dice lebih efektif karena dilakukan secara objektif dengan asumsi terdapat hasil ringkasan manual. Saran Penilaian relevansi dapat dilakukan oleh manusia secara per kalimat untuk melihat tingkat homogenitas penilaian pakar dan penilai umum. DAFTAR PUSTAKA Aristoteles Pembobotan fitur pada rangkaian teks bahasa Indonesia menggunakan algoritme genetika [tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Kim M, Choi K A comparison of collocation-based similarity measures in query expansion. Information Processing and Management. 35(1): Manning C, Raghavan P, Schutze H An Introduction to Information Retrieval. Cambridge: University Press. Mihalcea R Language independent extractive summarization. Proceedings of the Association for Computational Linguistics Interactive Poster and Demonstration Sessions; Stroudsburg, US, Juni hlm doi: / Miptahudin D Peringkasan dokumen berbahasa Indonesia berbasis kata benda [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rogers I The Google PageRank algorithm and how it works. Google Page Rank Whitepaper [Internet]. [diunduh 2012 Mei 6]. Tersedia pada:

19 LAMPIRAN

20 11 Lampiran 1 Diagram proses pemilihan kata benda Token Ada di berkas noun Ya Ada di berkas KBBI Tidak Awal kapital Tidak Tidak Ya Terdapat akhiran -an, -in, -at, -wan, -wati, -isme, -isasi, -logi, -tas, -nya, -ku, -mu, -kau Tidak Terdapat imbuhan ke-, pe-, ke-an, pe-an Tidak Ya Kata ulang Ya Ya Terdapat akhiran -nya, -ku, -mu, -kau Tidak Ya Potong akhiran. Kata dasar ada di berkas noun Kata dasar ada di berkas noun Tidak Ya Tidak Tidak Ya Return token Return null Ya

21 12 Lampiran 2 Hasil perhitungan koefisien dice antara sistem dan manual pada percobaan 7 No Dokumen Koefisien Dice CosTJ BmTJ ConTJ CosJ BmJ ConJ Rata-rata Seluruh Dice

22 13 Lampiran 2 Lanjutan No Dokumen Koefisien Dice CosTJ BmTJ ConTJ CosJ BmJ ConJ Rata-rata Seluruh Dice

23 14 Lampiran 2 Lanjutan No Dokumen Koefisien Dice CosTJ BmTJ ConTJ CosJ BmJ ConJ Rata-rata Seluruh Dice Min Max Rata- Rata Keterangan: CosTJ : Percobaan cosine similarity tanpa menggunakan judul. BMTJ : Percobaan Okapi BM25 tanpa menggunakan judul. ConTJ : Percobaan content overlap tanpa menggunakan judul. CosJ : Percobaan cosine similarity dengan menggunakan judul. BMJ : Percobaan OkapiBM25 dengan menggunakan judul. ConJ : Percobaan content overlap dengan menggunakan judul.

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI LUH GEDE PUTRI SUARDANI NIM. 1208605018 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

PENERAPAN ALGORITMA TEXTRANK UNTUK AUTOMATIC SUMMARIZATION PADA DOKUMEN BERBAHASA INDONESIA

PENERAPAN ALGORITMA TEXTRANK UNTUK AUTOMATIC SUMMARIZATION PADA DOKUMEN BERBAHASA INDONESIA PENERAPAN ALGORITMA TEXTRANK UNTUK AUTOMATIC SUMMARIZATION PADA DOKUMEN BERBAHASA INDONESIA Eris 1, Viny Christanti M 2, Jeanny Pragantha 3 Teknik Informatika, Fakultas Teknologi Informasi, Universitas

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

1.2. Latar Belakang Masalah

1.2. Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Komputer dimanfaatkan dalam segala bidang dikarenakan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN 19 BAB 3 METODE PENELITIAN 3.1. Tahap Pembentukan Knowledge Graph Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL BERBAHASA INDONESIA MENGGUNAKAN GRAPH-BASED SUMMARIZATION ALGORITHM DAN SIMILARITY (STUDI KASUS ARTIKEL BERITA) Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x APLIKASI PENDETEKSI PLAGIAT TERHADAP KARYA TULIS BERBASIS WEB MENGGUNAKAN NATURAL LANGUAGE PROCESSING DAN ALGORITMA KNUTH-MORRIS-PRATT [1] Rio Alamanda, [2] Cucu Suhery, [3] Yulrio Brianorman [1][2][3]

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

ANALISIS PEMBENTUKAN WORD GRAPH KATA BENDA MENGGUNAKAN TEORI KNOWLEDGE GRAPH HAIRUL SALEH

ANALISIS PEMBENTUKAN WORD GRAPH KATA BENDA MENGGUNAKAN TEORI KNOWLEDGE GRAPH HAIRUL SALEH ANALISIS PEMBENTUKAN WORD GRAPH KATA BENDA MENGGUNAKAN TEORI KNOWLEDGE GRAPH HAIRUL SALEH SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM HALAMAN JUDU L PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM SKRIPSI Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL MPLEMENTAS METODE PROBABLSTC LATENT SEMANTC ANALYSS UNTUK OPNON RETREVAL Yusup Miftahuddin,asman Pardede 2, Afdhalul Zikri 3 urusan Teknik nformatika, Fakultas Teknik ndustri, tenas Bandung ln. PHH. Mustopha

Lebih terperinci

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci