PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI

Ukuran: px
Mulai penontonan dengan halaman:

Download "PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI"

Transkripsi

1 PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010

2 PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010

3 ABSTRACT HENDREX HERDI. Weighting in Indexing Process for Document in Bahasa Indonesia Using Indri Framework. Under direction of JULIO ADISANTOSO. A very large amount of information has stimulated the development of information search engine to help users in finding information they need. To retrieve the information according to the user s needs, information search engine should be able to work well. One of the factors that can affect the performance of search engines is indexing. The purpose of this research is to implement automatic indexing process using Indri framework with tf-idf and BM25 term weighting. This testing used 30 queries and 2000 documents. The testing result showed that the performance of information search engine is better when we use the BM25 term weighting than tf-idf term weighting. However, the performance of information search engine with BM25 term weighting and tf-idf term weighting gave good results with around 64% average precision. The number of indexed documents for indexing will affect the indexing time. Increasing of the number of indexed documents will increase the indexing time. Keywords: index, information search engine, tf-idf, BM25.

4 Judul Penelitian : Pembobotan dalam Proses Pengindeksan Dokumen Bahasa Indonesia dengan Menggunakan Framework Indri Nama : Hendrex Herdi NRP : G Menyetujui: Pembimbing, Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Ilmu Komputer, Dr. Ir. Sri Nurdiati, M.Sc. NIP Tanggal Lulus:

5 KATA PENGANTAR Puji syukur Penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan karunia-nya sehingga skripsi ini berhasil diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Februari sampai Agustus 2010 dengan bidang kajian Pembobotan dalam Proses Pengindeksan Dokumen Bahasa Indonesia Menggunakan Framework Indri. Penulis mengucapkan terima kasih kepada Bapak Ir. Julio Adisantoso M.Kom selaku pembimbing yang telah memberi saran, masukan, dan ide-ide kepada Penulis dalam menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Ahmad Ridha S.Kom, MS dan Bapak Sony Hartono Wijaya S.Kom, M.Kom sebagai dosen penguji. Penulis juga mengucapkan terima kasih kepada: 1 Ibu dan Bapak serta kakak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga dapat menyelesaikan tugas akhir ini. 2 Aditya Wahyu Baskoro, Rio Ramadhan, Eka Yuliani Simanjuntak, dan Kartina yang telah banyak membantu penulis dalam menyelesaikan tugas akhir ini serta teman-teman satu bimbingan lainnya Maryam Noviana B, Sri Rahayu I, Awet Samana, dan Wildan Rachman yang selalu memberi semangat dan motivasi. 3 Ario Hakim Wicaksono yang memberikan motivasi kepada Penulis. 4 Tri Cahya Uthari, Indyastari C, Riferson S, Yohan, dan teman-teman Ilkom angkatan 43 yang telah banyak membantu Penulis. 5 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan. Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak. Semoga penelitian ini dapat memberikan manfaat. Bogor, September 2010 Hendrex Herdi

6 RIWAYAT HIDUP Penulis dilahirkan di Siak Riau pada tanggal 13 April 1989 dari ayah Herdi Kasmadi dan ibu Nati. Penulis merupakan putra terakhir dari enam bersaudara. Tahun 2006 penulis lulus dari SMA Negeri 1 Siak dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Beasiswa Utusan Daerah (BUD). Tahun 2007 penulis diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan, penulis menjadi asisten mata kuliah Sistem Operasi pada tahun Penulis melakukan Praktik Kerja Lapangan di Fakultas Peternakan IPB dengan bidang kajian Sistem Informasi Kepegawaian.

7 DAFTAR ISI Halaman DAFTAR TABEL... v DAFTAR GAMBAR... v DAFTAR LAMPIRAN... v PENDAHULUAN Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 Manfaat Penelitian... 1 TINJAUAN PUSTAKA Information Retrieval (Temu-Kembali Informasi)... 1 Indri... 2 Pembobotan Tf-Idf... 2 Pembobotan BM Recall dan Precision... 3 METODE PENELITIAN Gambaran Umum Sistem... 3 Evaluasi Sistem... 4 Asumsi... 4 Lingkungan Implementasi... 4 HASIL DAN PEMBAHASAN Koleksi Dokumen... 4 Pengindeksan... 5 Pemrosesan Kueri... 5 Hasil Temu-Kembali... 6 Evaluasi Sistem... 7 Kelebihan dan Kekurangan Sistem... 9 KESIMPULAN DAN SARAN Kesimpulan... 9 Saran DAFTAR PUSTAKA LAMPIRAN iv

8 DAFTAR TABEL Halaman 1 Hasil perhitungan average precision Waktu pengindeksan Indri... 8 DAFTAR GAMBAR Halaman 1 Proses penulisan MemoryIndex ke dalam disk (DiskIndex) secara bertahap Pengukuran Recall dan Precision Gambaran Umum Sistem Format dokumen dengan struktur tag XML Format dokumen setelah dilakukan pembuangan tagging Kurva recall-precision 1000 dokumen Kurva recall-precision 2000 dokumen Waktu pengindeksan Indri untuk berbagai jumlah koleksi dokumen... 9 DAFTAR LAMPIRAN Halaman 1 Daftar kata buang (stoplist) Daftar kueri yang digunakan Contoh hasil perolehan 30 dokumen teratas Hasil perhitungan precision pada elevent standard recall Kinerja pengindeksan Indri dengan menggunakan berbagai ukuran memori v

9 Latar Belakang PENDAHULUAN Pada saat ini informasi dapat diperoleh dengan mudah dan cepat. Salah satunya adalah menggunakan mesin pencari yang memberikan informasi kepada penggunanya berdasarkan kueri tertentu. Informasi yang diberikan berupa dokumen yang terurut sesuai relevansinya dengan kueri. Namun kadang kala dokumen yang diberikan tidak sesuai dengan yang diinginkan pengguna. Untuk itu, telah banyak dikembangkan sistem temu-kembali informasi dengan berbagai metode dan sistem pengindeksan. Dalam sistem temu-kembali informasi tahapan pengindeksan merupakan tahapan yang sangat penting peranannya dalam menemukembalikan informasi sesuai keinginan pengguna. Oleh karena itu, telah banyak dilakukan penelitian untuk menentukan metode dan sistem pengindeksan yang baik dalam sistem temu-kembali informasi. Salah satunya adalah penentuan metode pembobotan yang digunakan dalam pengindeksan. Donald Metzler et al. (2004) pada TREC 2004 menggunakan mesin pencari Indri untuk mengindeks koleksi dokumen berukuran 426 GB (25 juta dokumen) selama 6 jam. Donald Metzler et al. (2005) melanjutkan penelitiannya untuk menentukan seberapa efisien dan efektif mesin pencari Indri dalam menemukembalikan named page pada koleksi dokumen web. Hasil yang diperoleh menunjukan bahwa dengan menggunakan pseudo-relevance feedback dan dependece modeling, Indri akan lebih efektif dalam menemukembalikan named page. Selanjutnya Donald Metzler et al. (2006) melakukan penelitian untuk mendapatkan kesimpulan akhir dari kinerja Indri. Hasil yang diperoleh adalah Indri sangat efektif dan efisien dalam mengindeks dokumen dalam jumlah yang besar. Berbeda dengan penelitian yang dilakukan sebelumnya, Xing Yi dan James Allan (2007) melakukan penelitian untuk menguji kinerja dari mesin pencari Indri dalam menangani kueri dalam jumlah yang besar pada dokumen web. Pada penelitian ini digunakan pendekatan koreksi ejaan pada kueri yang diuji. Penelitian yang telah dilakukan dengan menggunakan mesin pencari Indri baru diterapkan untuk koleksi dokumen Bahasa Inggris. Untuk itu, penelitian kali ini akan digunakan mesin pencari Indri dalam mengindeks dokumen Bahasa Indonesia dengan format dokumen yang ada yaitu dokumen teks dengan struktur tag XML. Tujuan Tujuan dari penelitian ini adalah: 1. Mengimplementasikan pengindeksan secara otomatis pada dokumen Bahasa Indonesia dengan menggunakan framework Indri. 2. Menganalisis kinerja Indri dalam mengindeks dokumen. 3. Menganalisis pengaruh pembobotan dalam pengindeksan menggunakan Indri. Ruang Lingkup Ruang lingkup penelitian ini adalah: 1. Menggunakan korpus yang terdiri atas 2000 dokumen Bahasa Indonesia dengan struktur tag XML. 2. Menggunakan 30 kueri yang tersedia di Laboratorium Temu-Kembali Informasi Departemen Ilmu Komputer IPB. Manfaat Penelitian Kinerja framework Indri diharapkan dapat meningkatkan efisiensi waktu dalam proses pengindeksan dokumen berbahasa Indonesia. Pengindeksan yang lebih efisien diharapkan dapat meningkatkan kinerja sistem temukembali informasi. TINJAUAN PUSTAKA Information Retrieval (Temu-Kembali Informasi) Temu-kembali informasi berkaitan dengan cara merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus mentransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR system), sehingga kueri tersebut akan merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan dengan kueri (Baeza-Yates & Ribeiro-Neto 1999). 1

10 Indri Indri merupakan suatu Application Programming Interface (API) yang digunakan untuk melakukan pengindeksan dan pencarian teks yang dapat diintegrasikan ke dalam sebuah aplikasi. Indri merupakan bagian dari proyek Lemur, yaitu sebuah kerja sama antara University of Massachusetts dan Carnegie Mellon University dalam pengembangan sistem temu-kembali informasi. Indri dapat mengolah dokumen dalam berbagai format, seperti dokumen TREC dengan format text, XML, HTML, dan dokumen plain text (Strohman 2005). Indri memiliki dua tipe pengindeksan yaitu MemoryIndex dan DiskIndex. MemoryIndex melakukan pengindeksan di dalam RAM sedangkan DiskIndex di dalam disk. Pada saat pembentukan tempat penyimpanan dari suatu koleksi dokumen teks (inverted index), Indri menambahkan dokumen yang masuk ke MemoryIndex yang aktif. Ketika dokumen tersebut masuk ke dalam MemoryIndex, maka akan dilakukan langsung proses tokenisasi terhadap dokumen tersebut. Proses tokenisasi ini akan dilakukan sampai semua isi dokumen telah ditokenisasi sebelum menambahkan dokumen baru ke dalam MemoryIndex. Gambar 1 Proses penulisan MemoryIndex ke dalam disk (DiskIndex) secara bertahap. Untuk koleksi dokumen teks yang kecil, pengindeksan hanya dilakukan dalam MemoryIndex. Akan tetapi untuk koleksi yang besar MemoryIndex akan menuliskan hasil pengindeksannya ke dalam disk (DiskIndex) karena melebihi dari batas memori yang dimiliki. Pada saat penulisan ke dalam disk, MemoryIndex baru akan dibuat dan akan berfungsi sebagai active index yang siap melakukan pengindeksan terhadap dokumen selanjutnya. Proses penulisan ke dalam disk dapat dilihat pada Gambar 1. Hasil pengindeksan yang disimpan di dalam memory berupa sebuah tabel hash, sedangkan hasil pengindeksan yang disimpan di dalam disk berupa dua B-Tree, yaitu B-Tree untuk frequent term dan B-Tree untuk infrequent term. Untuk keseluruhan informasi term (inverted index) Indri menyimpannya dalam satu file yang terurut berdasarkan term tersebut (Strohman & Croft 2006). Pada proses pengindeksan, Indri menghasilkan beberapa struktur data (Metzler 2004): 1. Inverted index untuk koleksi, termasuk informasi posisi term, 2. Inverted index untuk setiap field dalam koleksi, 3. Vektor dokumen untuk setiap dokumen dalam koleksi, termasuk informasi posisi term dan informasi posisi field, 4. Isi koleksi yang telah dikompresi. Pembobotan Tf-Idf Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Document frequency (df) merupakan banyaknya dokumen di dalam korpus yang mengandung kata tertentu (Manning et al. 2008). Pembobotan tf-idf memberikan bobot pada term t dalam dokumen d dengan nilai: dengan tttt tt,dd iiiiii tt 1. iiiiii tt = llllll NN dddd tt 2. tf t,d merupakan frekuensi term t pada dokumen d 3. N merupakan jumlah dokumen dalam koleksi 4. df t merupakan jumlah dokumen yang mengandung term t. Kesamaan antara kueri dan dokumen dapat ditentukan dengan menghitung cosine similarity dari vektor istilah kueri (VV (QQ)) dan vektor istilah dokumen (VV (DD ii )) (Manning et al. 2008): ssssss(qq, DD ii ) = VV (QQ). VV (DD ii ) VV (QQ). VV (DD ii ) 2

11 dengan pembilang merupakan dot product (dikenal juga sebagai inner product) antara VV (QQ) dan VV (DD ii ). Dot product antara dua vektor MM ii=1 xx. yy didefinisikan sebagai xx ii yy ii, sedangkan penyebut merupakan perkalian panjang Euclidean. Panjang Euclidean d didefinisikan Gambar 2 menjelaskan recall dan precision yang disebutkan diatas. Relevance docs in answer set Ra collection sebagai MM ii=1 VV 2 ii (dd). Pembobotan BM25 Pembobotan BM25, disebut juga sebagai pembobotan Okapi, merupakan pembobotan yang digunakan sejak TREC ketiga. Pembobotan BM25 menggabungkan bobot idf dengan koleksi pengskalaan khusus untuk dokumen dan kueri (Kontostathis 2008). Pembobotan BM25 dengan dokumen dan kueri yang diberikan dapat dilihat pada persamaan berikut (Manning et al. 2008): ssssss(qq, DD ii ) = llllll dengan tt qq NN dddd tt. (kk1 + 1)tttt tttt KK + tttt tttt 1. KK = kk1 (1 bb) + bb (LL dddd LL aaaaaa ) 2. tf ti merupakan frekuensi term t pada dokumen i 3. L di dan L ave merupakan panjang dokumen D i dan rata-rata panjang dokumen dalam koleksi 4. k1 dan b merupakan parameter-parameter pengskalaan terhadap tf dokumen dan panjang dokumen. Pada pembobotan BM25, bobot istilahistilah kueri merupakan nilai statistik dokumen yang ada dalam koleksi (Song 2009). Nilai parameter yang digunakan adalah masing-masing k 1 = 1,2 dan b = 0,75 (Jones 1999). Recall dan Precision Recall merupakan perbandingan antara dokumen relevan yang ditemukembalikan ( Ra ) dengan dokumen relevan yang ada pada korpus ( R ). RRRRRRRRRRRR = RR aa RR Precision adalah perbandingan antara dokumen relevan yang ditemukembalikan ( Ra ) dengan dokumen yang ditemukembalikan ( A ) (Baeza-Yates & Ribeiro-Neto 1999). PPPPPPPPPPPPPPPPPP = RR aa AA Relevance docs R Gambar 2 Pengukuran Recall dan Precision. Average precision adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall, biasanya digunakan sebelas tingkat recall standar yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1 (Baeza-Yates & Ribeiro-Neto 1999). METODE PENELITIAN Gambaran Umum Sistem Answer set A Gambaran umum sistem pengindeksan otomatis yang dikembangkan dapat dilihat pada Gambar 3. Proses pengindeksan otomatis dimulai dengan mengambil koleksi dokumen berekstensi text (*.txt) yang tedapat pada satu direktori kemudian dilakukan indexing terhadap dokumen dengan Indri. Dari hasil pengindeksan dilakukan pembentukan inverted index oleh Indri. Setelah inverted index terbentuk pencarian dokumen dengan kueri yang diberikan dapat dilakukan. Untuk melakukan pencarian, kueri dilakukan proses parsing terlebih dahulu. Kemudian hasil dari pencarian yang sudah terurut berdasarkan bobot yang dimiliki, dilakukan evaluasi terhadap sistem. Evaluasi dilakukan terhadap 30 dokumen teratas dari setiap hasil temu-kembali sistem berdasarkan kueri yang diberikan. 3

12 Documents Query Indexing with Indri Inverted Index Searching Top n Documents Evaluation.Gambar 3 Gambaran umum sistem. Evaluasi Sistem Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan precision. Dalam perhitungan recall, digunakan elevent standard recall yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan ini dilakukan untuk masing-masing tipe pembobotan. Hasil perhitungan recall dan precision untuk masing-masing pembobotan akan dibandingkan dalam bentuk grafik recall-precision. selain itu juga akan dihitung average precision dari kedua tipe pembobotan tersebut untuk memperoleh tipe pembobotan yang baik dalam pengindeksan menggunakan Indri. Untuk melihat tipe pembobotan yang baik dalam pengindeksan menggunakan Indri dilakukan empat kali pengujian yakni: 1. Pengujian 1000 dokumen dengan pembobotan tf-idf 2. Pengujian 2000 dokumen dengan pembobotan tf-idf 3. Pengujian 1000 dokumen dengan pembobotan BM25 4. Pengujian 2000 dokumen dengan pembobotan BM25. Selain menguji kinerja temu-kembali dengan pengindeksan menggunakan Indri, dilakukan juga pengujian terhadap kinerja Indri dalam mengindeks dokumen yang besar dengan melihat waktu yang dibutuhkan Indri dalam melakukan pengindeksan. Pengindeksan dilakukan dengan menggunakan jumlah koleksi dokumen yang berbeda-beda yakni jumlah koleksi dokumen dengan kelipatan 200. Penentuan dokumen dalam menguji kinerja Indri dilakukan secara acak. Pengujian kinerja Indri juga dilakukan dengan menggunakan berbagai ukuran memori dalam mengindeks dokumen. Ukuran memori yang digunakan adalah 512 KB, 256 MB, 512 MB, dan 1 GB. Asumsi Asumsi-asumsi yang digunakan dalam pembangunan sistem ini adalah: 1. Perhitungan recall dan precision dilakukan dengan manual oleh penulis, 2. Stoplist yang digunakan sama seperti yang digunakan pada penelitian Anbiana (2009), 3. Tidak ada kesalahan dalam pengetikan kueri, 4. Setiap kata pada kueri dipisahkan oleh whitespace atau spasi. Lingkungan Implementasi Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat lunak: 1. Sistem operasi Windows 7 Profesional sebagai sistem operasi, 2. Netbeans IDE 6.8 sebagai IDE untuk pembangunan sistem, 3. JDK Update 17 sebagai compiler yang digunakan untuk pengembangan sistem, 4. Indri 2.7 sebagai framework yang digunakan untuk melakukan pengindeksan automatis dan proses pencarian, 5. Microsoft Excel 2007 sebagai aplikasi yg digunakan untuk melakukan perhitungan recall dan precision. Perangkat keras: 1. Prosesor Intel Core 2 duo 2.2 GHz 2. RAM 3 GB 3. Harddisk 160 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Jumlah dokumen yang akan digunakan pada penelitian ini adalah 2000 dokumen yang diambil dari beberapa sumber seperti balai penelitian, departemen pertanian, kompas, media indonesia, dan lain-lain. Dari keseluruhan 4

13 dokumen uji yang digunakan, ukuran dokumen terkecil adalah 1 KB dan terbesar 53 KB, sedangkan jumlah kata terbesar adalah 6942 kata yaitu pada dokumen jurnal dan jumlah kata terkecil adalah 53 kata pada dokumen situshijau Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML, yaitu setiap file terdiri atas satu dokumen yang ditunjukkan dengan tag <DOC>. Setiap dokumen memiliki nomor dokumen yang unik yang ditunjukkan dengan tag <DOCNO>, judul dokumen (<TITLE>), dan pengarang (<AUTHOR>). Untuk isi dari dokumen sendiri terletak diantara tag <TEXT>. Gambar 4 menunjukkan format dokumen yang digunakan. Koleksi dokumen memiliki Struktur tag XML yang berbeda-beda. Sebagian besar strukturnya seperti yang ditunjukkan Gambar 4, sedangkan untuk koleksi dokumen yang lain memiliki tambahan tag yaitu <DATE> yang menunjukkan tanggal dokumen. <DOC> <DOCNO>balaipenelitian </DOCNO> <TITLE>PRODUKTIVITAS SOM JAWA </TITLE> <AUTHOR>Ireng Darwati </AUTHOR> <TEXT> Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik. Kondisi tersebut dapat dicapai dengan penggunaan bahan organik (kasting, kompos daun bambu dan pupuk kandang). </TEXT> </DOC> Gambar 4 Format dokumen dengan struktur tag XML. Sebelum dilakukan proses pengindeksan koleksi dokumen terlebih dahulu dilakukan pembuangan tagging. Pembuangan tagging ini dilakukan karena tagging bukan merupakan suatu penciri dari dokumen. Gambar 5 menunjukkan format dokumen setelah dilakukan pembuangan tagging. balaipenelitian PRODUKTIVITAS SOM JAWA Ireng Darwati Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik. Kondisi tersebut dapat dicapai dengan penggunaan bahan organik (kasting, kompos daun bambu dan pupuk kandang). Gambar 5 Format dokumen setelah dilakukan pembuangan tagging. Pengindeksan Pengindeksan dokumen dimulai dengan melakukan parsing terhadap dokumen, kemudian dilakukan proses pembuangan stopword, pembuangan tanda baca, dan mengubah term ke lower case. Daftar kata buang (stoplist) yang digunakan dapat dilihat pada Lampiran 1. Setelah itu Indri akan melakukan perhitungan statistik sehingga diperoleh suatu inverted index dan df setiap dokumen. Pengindeksan koleksi dokumen dengan menggunakan Indri menghasilkan beberapa file biner seperti: 1. invertedfile: berisi inverted index dan df serta posisi term pada dokumen, 2. frequentid: berisi daftar pemetaan dari termid ke term string, 3. frequentstring: berisi daftar pemetaan dari term string ke termid, 4. infrequentid: berisi daftar pemetaan dari termid ke term string, 5. infrequentstring: berisi daftar pemetaan dari term string ke termid. File biner ini akan digunakan dalam proses pencarian teks. Untuk dapat membaca file biner tersebut, digunakan suatu fungsi yang ada pada Indri yakni IndexManager.openIndex (indexpath) dengan indexpath merupakan direktori tempat file biner disimpan. Dari file biner invertedfile yang dihasilkan dari proses pengindeksan, pengindeksan 1000 dokumen menghasilkan ukuran file sebesar 1,613 MB dan pengindeksan 2000 dokumen sebesar 2,399 MB. Dari masing-masing file invertedfile tersebut, jumlah kata unik yang dihasilkan untuk pengindeksan 1000 dokumen adalah kata dengan frekuensi total kata dan untuk pengindeksan 2000 dokumen adalah kata dengan frekuensi total kata. Pemrosesan Kueri Jumlah kueri yang digunakan pada penelitian ini adalah 30 yang tersedia di Laboratorium Temu-Kembali Informasi Departemen Ilmu Komputer IPB. Daftar kueri yang digunakan dapat dilihat pada Lampiran 2. Pemrosesan kueri dilakukan dengan mengubah kueri terlebih dahulu ke lowercase, kemudian kueri (Q) ditokenisasi dengan menggunakan fungsi yang tersedia oleh java.util yaitu StringTokenizer(Q, delimeter) dan disimpan dalam array tokenquery. Delimeter yang digunakan untuk tokenisasi 5

14 kueri adalah whitespace atau spasi. Dalam tahap pemrosesan kueri ini tidak dilakukan penghilangan stopwords, karena term kueri yang berupa stopwords secara automatis tidak akan digunakan dalam proses pemilihan n dokumen teratas. Isi dari array tokenquery adalah berupa suatu nilai integer, yaitu nilai urutan token pada hasil indexing koleksi dokumen. Perubahan term kueri (t) yang berupa string menjadi suatu integer dilakukan dengan menggunakan fungsi yang tersedia pada Indri yaitu term(t). Array tokenquery ini akan digunakan dalam proses perolehan n dokumen teratas. Berikut ini adalah contoh perolehan array tokenquery yang berupa suatu nilai integer dengan kueri, Penerapan bioteknologi di Indonesia Array( [0] => [1] => 3846 [2] => 0 [3] => 4 ) Nilai array tokenquery ini tergantung pada koleksi dokumen yang digunakan. Pada contoh diatas, koleksi dokumen yang digunakan adalah koleksi 1000 dokumen yang ada di Laboratorium Temu-Kembali Informasi Departermen Ilmu Komputer IPB. Jika koleksi dokumen ditambahkan dengan dokumen yang baru, maka hasil yang diperoleh dengan kueri yang sama ditunjukkan pada ilustrasi di bawah ini (dengan penambahan 1000 dokumen). Array( [0] => [1] => 5165 [2] => 0 [3] => 10 ) Pada saat proses perolehan n dokumen teratas array tokenquery berfungsi untuk pemilihan dokumen dalam koleksi yang memiliki salah satu atau lebih term kueri di dalamnya, sehingga dalam pemilihan n dokumen teratas hanya dokumen yang memiliki term kueri saja yang akan dilakukan proses perolehan n dokumen teratas. Hasil Temu-Kembali Perolehan n dokumen teratas tergantung pada tipe pembobotan yang digunakan. Pada penelitian ini tipe pembobotan yang digunakan yaitu pembobotan tf-idf dan pembobotan BM25. Jumlah dokumen teratas yang diambil adalah 30. Contoh hasil perolehan 30 dokumen teratas untuk kueri perdagangan hasil pertanian dengan jumlah koleksi dokumen adalah 1000 pada pembobotan tf-idf dapat dilihat pada Lampiran Pembobotan tf-idf Untuk memperoleh n dokumen teratas dengan pembobotan dilakukan dengan langkahlangkah berikut: 1. Melakukan pembobotan tf-idf terhadap kata pada kueri yang diberikan kemudian dilakukan perhitungan terhadap panjang kueri. 2. Menyimpan informasi kata unik yang ada pada dokumen. 3. Menghitung idf dan tf-idf untuk setiap kata unik dokumen dengan menggunakan df dan tf yang diperoleh pada proses indexing. 4. Menghitung panjang dokumen. 5. Menjumlahkan perkalian antara tf-idf kata kueri dengan tf-idf kata dokumen (yang akhirnya menjadi nilai dotproduct antara kueri dan dokumen). 6. Menghitung bobot dokumen dengan cosine similarity antara dokumen dengan kueri. Kemudian menyimpan hasilnya dalam array dokscoring dan menyimpan nama dokumen dalam array docname. 7. Melanjutkan proses untuk dokumen berikutnya hingga seluruh koleksi telah dibandingkan dengan kueri. 8. Melakukan proses sorting terhadap array dokscoring dan docname untuk memperoleh n dokumen teratas dengan menggunakan fungsi Sort(dokScoring). Array dokscoring dan docname berisi bobot dokumen dan nama dokumen dari dokumen yang memiliki nilai dotproduct lebih besar dari nol (0). Berikut ini adalah contoh dari isi 10 teratas dari array dokscoring dan docname dengan kueri, gagal panen pada pengindeksan 1000 koleksi dokumen dokscoring( [0] => [1] => [2] => [3] => [4] => [5] => [6] => [7] => [8] => [9] => ) 6

15 docname( [0] => republika txt [1] => kompas txt [2] => indosiar txt [3] => indosiar txt [4] => indosiar txt [5] => suaramerdeka txt [6] => situshijau txt [7] => republika txt [8] => indosiar txt [9] => gatra txt ) 2. Pembobotan BM25 Pembobotan BM25 untuk memperoleh n dokumen teratas dilakukan dengan langkahlangkah sebagai berikut: 1. Menghitung rata-rata panjang koleksi dokumen dengan doclengthavg(). 2. Menghitung panjang dokumen dengan doclength (iddoc) untuk setiap koleksi dokumen. 3. Menyimpan setiap kata unik pada dokumen. 4. Menghitung similarity (pembobotan BM25) dokumen dengan kueri untuk setiap kata yang sama, kemudian dilakukan penjumlahan setiap similarity tersebut. Kemudian menyimpan hasilnya dalam array dokscoring dan menyimpan nama dokumen dalam array docname. 5. Melanjutkan proses untuk dokumen berikutnya hingga seluruh koleksi telah dibandingkan dengan kueri. 6. Melakukan proses sorting terhadap array dokscoring dan docname untuk memperoleh n dokumen teratas dengan menggunakan fungsi Sort(dokScoring). Isi dari array dokscoring dan array docname sama seperti yang ada pada perolehan n dokumen teratas dengan pembobotan tf-idf. Evaluasi Sistem Pada penelitian ini pengujian sistem dilakukan dengan menguji kinerja temukembali dan menguji kinerja Indri dalam mengindeks dokumen dalam jumlah yang besar. 1. Kinerja Temu-Kembali Pada tahapan evaluasi digunakan 30 kueri seperti yang ada pada Lampiran 2. Untuk setiap kueri dilakukan perhitungan recall dan precision untuk 30 dokumen teratas yang ditemukembalikan oleh sistem. Hasil perhitungan precision pada elevent standard recall dapat dilihat pada Lampiran 4. Average precision masing-masing pembobotan dan jumlah koleksi dokumen ditunjukkan pada Tabel 1. Untuk melihat kinerja temu-kembali sistem maka diilustrasikan dengan kurva average precision pada elevent standard recall yang ditunjukkan oleh Gambar 6 dan 7. Precision 1,0000 0,9000 0,8000 0,7000 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0, ,2 0,4 0,6 0,8 1 Recall BM25 TF-IDF Gambar 6 Kurva recall-precision 1000 dokumen. 7

16 Precision 1,0000 0,9000 0,8000 0,7000 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0, ,2 0,4 0,6 0,8 1 Recall BM25 TF-IDF Gambar 7 Kurva recall-precision 2000 dokumen. Tabel 1 Hasil perhitungan average precision Jumlah Dokumen Tf-Idf BM ,6540 0, ,6248 0,7586 Hasil pada Tabel 1 menunjukkan pembobotan BM25 memberikan temu-kembali lebih baik, yakni pengindeksan 1000 dokumen untuk pembobotan BM25 mencapai 73,64% atau meningkat 8,24% dari pembobotan tf-idf dan untuk pengindeksan 2000 dokumen untuk pembobotan BM25 mencapai 75,86% atau meningkat sebesar 13,38% dari pembobotan tfidf. Hasil uji yang dilakukan juga menunjukkan bahwa untuk pembobotan tf-idf dan BM25 memiliki perbedaan yang signifikan dengan pembobotan BM25 memiliki nilai average precision yang lebih besar dari pembobotan tfidf untuk pengindeksan 1000 dokumen dan 2000 dokumen. Kinerja pengindeksan dengan menggunakan Indri secara umum dapat dikatakan baik karena dengan average precision sekitar dari 64% berarti secara rata-rata pada tiap recall point, 64% hasil temu-kembali relevan dengan kueri. 2. Kinerja Pengindeksan Indri Hasil pengujian kinerja pengindeksan Indri dengan menggunakan jumlah koleksi dokumen yang berbeda-beda yakni 200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, dan 2000 dapat dilihat pada Tabel 2 dan diilustrasikan pada Gambar 8. Tabel 2 Waktu pengindeksan Indri Jumlah Dokumen Waktu Pengindeksan Ke-n (s) Rata-rata 200 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

17 3,00000 Waktu Pengindeksan (s) 2, , , , ,50000 y = 0,001046x + 0, , Banyaknya Dokumen Gambar 8 Kurva waktu pengindeksan Indri untuk berbagai jumlah koleksi dokumen. Pengujian kinerja dilakukan dengan melakukan analisis regresi linear dan uji korelasi untuk memperoleh hubungan antara waktu pengindeksan dan banyaknya dokumen. Hasil pengujian korelasi menunjukkan bahwa waktu pengindeksan dan banyaknya dokumen memiliki korelasi yang sangat kuat dengan nilai korelasinya (r) adalah 0,98622, sedangkan dari hasil analisis regresi linear diperoleh: yy = 0,001046xx + 0, (p=1,645) dengan 1. y = waktu pengindeksan dokumen 2. x = banyaknya dokumen yang menunjukkan bahwa waktu pengindeksan dan jumlah dokumen memiliki hubungan yang positif (+) pada taraf nyata 5% yaitu semakin besar jumlah dokumen maka semakin lama proses pengindeksan. Pengujian kinerja pengindeksan Indri yang telah dilakukan di atas menggunakan memori sebesar 256 MB dalam melakukan pengindeksan. Hasil pengujian tersebut menunjukkan untuk setiap dokumen membutuhkan waktu pengindeksan sebesar 0, detik. Pengujian kinerja pengindeksan Indri juga dilakukan untuk ukuran memori yang lebih kecil yaitu 512 KB. Pengujian ini dilakukan untuk melihat waktu pengindeksan pada saat memoryindex harus menuliskan hasil pengindeksan ke dalam disk karena melebihi dari kapasitas memori. Pengujian juga dilakukan untuk ukuran memori 512 MB dan 1 GB. Hasil pengujian dapat dilihat pada Lampiran 5. Hasil uji pengindeksan Indri dengan ukuran memori 512 KB, 256 MB, 512 MB, dan 1 GB menunjukkan bahwa tidak terdapat perbedaan waktu pengindeksan untuk keempat ukuran memori tersebut. Kelebihan dan Kekurangan Sistem Kelebihan dan kekurangan automatic indexing menggunakan Indri adalah sebagai berikut: Kelebihan: 1. Pengindeksan dokumen hanya dilakukan satu kali yaitu pada awal pembangunan sistem. 2. Jika terdapat dokumen baru, maka pengindeksan dapat di-update langsung tanpa harus melakukan pengindeksan ulang. 3. Penggunaan n dokumen teratas yang memudahkan pengguna untuk menentukan jumlah dokumen yang harus dikembalikan. Kekurangan: 1. Tidak dilakukan proses stemming sehingga jumlah kata unik yang dihasilkan lebih banyak. 2. Tidak dilakukan kajian terhadap makna semantik pada kueri. 9

18 Kesimpulan KESIMPULAN DAN SARAN Berdasarkan penelitian dan pengujian yang dilakukan, dapat disimpulkan bahwa pembobotan BM25 yang digunakan untuk temu-kembali dengan pengindeksan menggunakan Indri memberikan hasil yang lebih baik. Hal ini terlihat pada pengindeksan dengan pembobotan BM25 untuk 1000 dokumen memiliki nilai average precision 0,7364 sedangkan untuk pembobotan tf-idf 0,6540 dan untuk 2000 dokumen dengan pembobotan BM25 memiliki nilai average precision 0,7586 sedangkan pembobotan tf-idf 0,6248. Pengujian kinerja pengindeksan dengan melakukan uji korelasi dan analisis regresi linear menunjukkan jumlah dokumen dan waktu pengindeksan memiliki hubungan yang kuat dengan nilai korelasi (r) adalah 0,98622 dan positif yaitu semakin banyak jumlah dokumen maka semakin lama (tinggi) waktu pengindeksan. Penggunaan ukuran memori yang berbeda-beda dalam pengindeksan akan menghasilkan waktu pengindeksan yang berbeda pula. Akan tetapi, hasil uji menunjukkan untuk ukuran memori 512 KB, 256 MB, 512 MB, dan 1 GB tidak terdapat perbedaan waktu pengindeksan. Saran Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian ke depan seperti: 1. Menggunakan dokumen dalam berbagai format seperti HTML, doc, ppt, pdf, dan XML. 2. Menggunakan stemming untuk melihat pengaruh stemming terhadap kinerja pengindeksan Indri untuk masing-masing pembobotan. Jones K S A probabilistic model of information retrieval: development and comparative experiments Part 2. Cambridge: Cambridge University. Kontostathis. April Distributed EDLSI, BM25, and Power Norm at TREC USA, Department of Mathematics and Computer Science, Ursinus College. Manning CD, Prabhakar R, Hinrich S Introduction to Information Retrieval. Cambridge University Press. Metzler et al Indri at Trec 2004: Terabyte Track. USA. Metzler et al Indri at Trec 2005: Terabyte Track. USA. Metzler et al Indri at Trec 2006: Lessons Learned From Three Terabyte Tracks. USA Song Jin DUTIR at TREC 2009: Chemical IR Track. China, Information Retrieval Lab, Dalian University of Technology. Strohman T Dynamic Collection in Indri. USA. Strohman T, W. Bruce C Low Latency Index Maintenance in Indri. USA. Xing Yi, James A Indri at Trec 2007: Million Query (1MQ) track. USA. DAFTAR PUSTAKA Anbiana ED Pseudo-Relevance Feedback pada Temu-Kembali Menggunakan Segmentasi Dokumen [skripsi]. Bogor: Fakultas Matemetika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Addison-Wesley. 10

19 LAMPIRAN

20 Lampiran 1 Daftar kata buang (stoplist) acapkali apanya begitupula berkesempatan contohkan diberinya ada apapun begitupun berkesimpulan contohnya dibiarkan adakah arti belakang berlalu cukup dibiasakan adakan artian belakangan berlalunya Cuma dibilang adalah artinya belum berlama daerah dicontoh adanya asalan belumlah berlangsung dahulu dicontohkan adapun asalkan benar bermula dalam dicontohkannya aduh asumsi benarkah bersama dan didapat agak asumsinya benarnya bersamaan dapat didapati agaknya atas berada bertepatan dapatkah didapatkan agar atasnya berakhir beruntun dapatkan didapatnya aja atau berakhirnya berupa dapatlah didasarkan akalan ataukah berakibat besarnya dari digolongkan akan ataupun berakibatkan beserta darinya digunakan akankah awal beralasan besok daripada diharapkan akhir bagai beralih besoknya dekat dijadikan akhirnya bagaikan beralihnya betapa dekatnya dijadikannya akibat bagaimana beranggapan biar demi dikarenakan akibatkan bagaimanakah berapa biarlah demikian dikasih akibatnya bagaimanapun berapanya biasa demikianlah dikata aku bagi berapapun biasanya dengan dikatakan ala baginya berarti bicarakan dengannya dikatakannya alangkah bagus berasumsi bicaranya depan dikategorikan alasan bagusnya berbagai bila depannya dikembangkan alasannya bahkan berbagi bilamana di diketahui alih bahwa berbanding bilang dia diketahuinya alihkan baik berbeda bisa dialah dilaksanakan amat baiknya berdampak bisakah dialami dilakukan amatlah balik berdasarkan bisanya dialihkan dimana ambil banding berhadapan boleh diambil dimulai anda bandingkan berharap boro diambilkan dimulailah andai banyak berhubung buat diambilnya dimulainya anggap banyaknya berhubungan buatnya dianggap dimungkinkan anggapan barangkali beri bukan diantara dipaparkan antar baru berikan bukankah diantaranya dipersilahkan antara bawah berikanlah bukanlah diapakan disaat antaranya bawahnya berikut bukannya dibagi disebabkan apa beberapa berikutnya buktikan dibagikan disejumlah apabila begini berjumlah cara dibeberapa diseluruh apakah beginilah berkat cerita diberbagai disertai apalagi begitu berkenaan ceritanya diberi disertakan apalah begitulah berkesan contoh diberikan disimpulkan 12

21 Lanjutan Lampiran 1 Daftar kata buang (stoplist) disitulah itupun kemana manalagi mengaku mulanya ditanggapi iya kemanakah manapun mengalami muncul ditanya jadi kembali masa mengalihkan mungkin ditanyakan jadikan kemudian masih mengambil mungkinkah dituturkan jadilah kemungkinan masihkah mengambilnya namun diucapkan jadinya kemungkinannya masing menganggap nanti dkk jangan kenapa masuk menganggapnya negara dll jarang kenapakah masyarakat mengapa nilai dsb jauh kepada mau mengatakan nyaris dua jelaskan kepadanya maupun mengembangkan nyiakan dulu jika kepala melainkan mengenai oleh dulunya jikalau ketika melakukan menggunakan orang empat juga ketimbang melalui mengungkapkan pada enggak jumlah khususnya melihat meningkat padahal engkau jumlahnya kini memang meningkatkan padanannya esok justru kita memaparkan menjadi paling gimana juta kondisi membagi menjadikan panjangnya habis kabupaten kurang membagikan menjadikannya papar habisan kadang lagi memberi menjelang paparan habiskan kalau lagian memberikan menjelaskan paparkan habisnya kalaupun lagipula memberinya menuju paparnya hal kali lain membiarkan menunjukkan para hampir kalian lainnya membolehkan menurut pasti hanya kami laksana membuat menurutnya pastilah hanyalah kamu lakukan memeperoleh menuturkan pastinya hari kan lalu memiliki menyatakan pelak harus kapan lalui meminta menyebabkan pelbagai haruskah karena lama memperbolehkannya menyebutkan pemaparan haruslah karenanya lanjut mempersilahkan menyia pembagian harusnya kata lantaran mempunyai mereka pembagiannnya hendak katakan lantas memungkinkan merupakan pendapat hendaklah katakanlah lebih menanggapi meski pengalihan hendaknya katanya lepas menanggapinya meskipun pengambil hingga kau lewat menanyakan mesti pengambilan how kayak lokasi mencapai mestinya pengandaian ialah kayaknya maka mencontohkan misal per ingin ke makin mendapat misalkan peralihan ini kebanyakan mampu mendapati misalnya percuma inilah kebetulan mampukah mendapatkan mudah peri inipun kebiasaan mampunya mendapatkannya mula perihal itu kecil mana menerus mulai perlahan itulah kecuali manakala mengada mulainya perlu 13

22 Lanjutan Lampiran 1 Daftar kata buang (stoplist) pernah sebenarnya semakin sesungguhnya tentunya umum persen seberapa semampunya setelah tepatnya umumnya pertamanya seberat semenjak setelahnya terbagi ungkap pinggir sebesar sementara seterusnya terbalik ungkapan pula sebetulnya semestinya setiap terbiasa ungkapkan pulalah sebuah semisal setidak terbilang ungkapnya pun secara semoga setidaknya terdapat untuk rata sedalam semua seusai terdapat usah relevankah sedang semuanya sewaktu tergolong usahlah rendah sedangkan semula seyogyanya terhadap usai saat sedapat seolah sia terjadi usianya saatnya sedemikian seorang sialnya terjadilah waktu saatnyalah sedikit seorangpun siap terjadinya waktulah saja sedikitnya sepadan siapa terkadang waktunya salah segera sepanjang siapakah terkait walau sama sehabis sepasang siapapun terkecuali walaupun sambil seharusnya sepele silahkan terlalu warga sambutannya seharusnyalah sependapat singkatnya terlebih yaitu sampai sehingga seperti sini termasuk yakni sana sehubungan sepertinya sinilah ternyata yang sang sejak seputar situ tersebut sangat sejauhmana seraya sosok tertentu sangatlah sejumlah serba sosoknya terus satunya sekalian serentak suatu tetap saya sekaligus sering sudah tetapi sayangnya sekalipun seringkali sulit tiap seakan sekarang seringkalinya sungguh tiba seandainya sekata seringlah sungguhpun tidak seantero sekedar seringnya supaya tidaklah sebab sekeliling serta tak tidaknya sebabkan seketika sertanya tambahnya tiga sebabnya sekian sesaat tanggapan tinggi sebagai sekitar sesama tanggapannya tutur sebagaimana selagi sesamamu tanggapnya tuturnya sebagainya selain sesedikit tanpa ucap sebagian selalu seseorang tapi ucapan sebaik selama sesuai tatkala ucapannya sebaiknya selanjutnya sesuatu telah ucapkan sebaliknya selesai sesuatunya tempat ucapnya sebanyak selesaikah sesudah tengah ujar sebelum seluruh sesudahnya tentang ujarnya sebelumnya seluruhnya sesukanya tentu umpamanya 14

23 Lampiran 2 Daftar kueri yang digunakan No Kueri 1 gagal panen/puso 2 petani tebu 3 industri gula 4 perdagangan hasil pertanian 5 penerapan teknologi pertanian 6 pupuk organik 7 penyakit hewan ternak/penyakit ternak 8 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 9 laboratorium pertanian 10 riset pertanian 11 harga komoditas pertanian 12 tanaman pangan 13 kelompok masyarakat tani/kelompok tani 14 musim panen 15 tanaman obat 16 gabah kering giling 17 impor beras indonesia 18 pertanian organik/sistem pertanian organik 19 swasembada pangan 20 penyuluhan pertanian 21 tadah hujan 22 bencana kekeringan 23 peternak unggas/peternak ayam/peternak burung 24 flu burung 25 institut pertanian bogor 26 pembangunan untuk sektor pertanian 27 upaya peningkatan pendapatan petani/peningkatan pendapatan petani 28 produk usaha peternakan rakyat/produk peternakan 29 kelangkaan pupuk 30 dukungan pemerintah pada pertanian 15

24 Lampiran 3 Contoh hasil perolehan 30 dokumen teratas Bobot Dokumen Nama Dokumen Relevansi* kompas txt R jurnal txt R jurnal txt R republika txt R jurnal txt NR jurnal txt R suarakarya txt NR suarapembaruan txt NR situshijau txt R suarapembaruan020603_-_no.txt R jurnal txt NR republika txt R mediaindonesia txt NR kompas txt R situshijau txt R republika txt R republika txt R wartapenelitian txt R republika txt NR situshijau txt R indosiar txt NR situshijau txt R puslitbang txt NR situshijau txt R situshijau txt NR suarakarya txt NR situshijau txt NR republika txt R situshijau txt R situshijau txt R *R = Relevan dan NR = Non-Relevan 16

25 Lampiran 4 Hasil perhitungan precision pada elevent standard recall Precision Recall 1000 dokumen 2000 dokumen Tf-Idf BM25 Tf-Idf BM25 0 0,9094 0,9472 0,8821 0,9504 0,1 0,7960 0,8890 0,7063 0,8664 0,2 0,7015 0,8164 0,6528 0,8019 0,3 0,6589 0,7551 0,6144 0,7593 0,4 0,6300 0,7404 0,5895 0,7365 0,5 0,6070 0,7023 0,5729 0,7246 0,6 0,5911 0,6662 0,5709 0,7046 0,7 0,5792 0,6589 0,5709 0,7003 0,8 0,5750 0,6453 0,5709 0,7003 0,9 0,5732 0,6413 0,5709 0, ,5722 0,6386 0,5709 0,7003 Average Precision 0,6540 0,7364 0,6248 0,

26 Lampiran 5 Kinerja pengindeksan Indri dengan menggunakan berbagai ukuran memori Tabel Pengindeksan menggunakan memori 512 MB Jumlah Dokumen Waktu Pengindeksan Ke-n Rata-rata 200 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,16551 Tabel Pengindeksan menggunakan memori 1 GB Jumlah Dokumen Waktu Pengindeksan Ke-n Rata-rata 200 0, , ,3649 0, , , , , , , , , , , , , ,6564 0, , , , , , , , , ,0255 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,08540 Tabel Pengindeksan menggunakan memori 512 KB Jumlah Dokumen Waktu Pengindeksan Ke-n Rata-rata 200 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

27 Lanjutan Lampiran 5 Kinerja pengindeksan Indri dengan menggunakan berbagai ukuran memori Kurva waktu pengindeksan Indri untuk berbagai ukuran memori 3,5 3 Waku Pengindeksan (s) 2,5 2 1,5 1 0,5 512 KB 256 MB 512 MB 1 GB Banyaknya Dokumen 19

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt LAMPIRAN 13 Lampiran 1 Daftar kueri uji dan dokumen yang relevan Kueri Uji cabai merah buah tropika padi budidaya anggrek Dokumen Relevan dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt,

Lebih terperinci

Lampiran 1 Contoh koleksi dokumen. <DOC> <DOCNO>gatra </DOCNO> <TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE> <AUTHOR>Tma,

Lampiran 1 Contoh koleksi dokumen. <DOC> <DOCNO>gatra </DOCNO> <TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE> <AUTHOR>Tma, LAMPIRAN 11 12 Lampiran 1 Contoh koleksi dokumen. gatra230103-002 Semarang Kembangkan Sapi Potong Gemuk Tma, Ant 23 Januari 2003

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

2. Ketepatan untuk setiap jawaban.

2. Ketepatan untuk setiap jawaban. dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek

Lebih terperinci

Mengenal Information Retrieval

Mengenal Information Retrieval STBI-2011 Sistem Temu Balik Informasi 2011 Mengenal Information Retrieval Husni husni@if.trunojoyo.ac.id Husni.trunojoyo.ac.id Komputasi.wordpress.com 2 3 Amazon.com 4 Amazon.com 5 6 7 8 9 Wordpress.com

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE Sri Ulinar Romatua N B¹, Yanuar Firdaus A.w.², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Dengan semakin

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN JB Budi Darmawan Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA

ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 1 ANALISIS

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Oleh: Andika Wahyu Agusetyawan G64101007 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi (TKI) Information Retrieval (IR) Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita

Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita [VOL.VI NO.2 AGUSTUS 2017] JURNAL SISTEM INFORMASI STMIK ANTAR BANGSA Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita Jamal Maulana

Lebih terperinci

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL i SKRIPSI S U L H A N 041401025 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ LEMBAR JUDUL SKRIPSI DENI SUPRIAWAN NIM. 1108605001 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Sumber informasi atau referensi sudah merupakan hal yang tidak asing lagi bagi seorang peneliti, terutamanya bagi para mahasiswa yang sedang melakukan penelitian untuk

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi.

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi. 5 Mulai HASIL DAN PEMBAHASAN Kromosom P = rand [0,1] Ya P < Pm R = random Gen(r) dimutasi Selesai Tidak Gambar 7 Diagram alur proses mutasi. Hasil populasi baru yang terbentuk akan dievaluasi kembali dan

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query 5 Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Sistem Operasi Windows 7. Sphinx Search. XAMPP versi 1.7.3. Named Entity Tagger bahasa Indonesia. Perangkat keras yang digunakan

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012 PENINGKAAN RELEVANSI HASIL PENCARIAN KAA KUNCI DENGAN PENERAPAN MODEL RUANG VEKOR PADA SISEM INFORMASI RUANG BACA DI JURUSAN ILMU KOMPUER UNIVERSIAS UDAYANA Ngurah Agus Sanjaya ER a, Agus Muliantara b,

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Identifikasi Masalah Merumuskan Masalah Study Literatur Perancangan Struktur Menu Interface Analisa

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci