EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN

Ukuran: px
Mulai penontonan dengan halaman:

Download "EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN"

Transkripsi

1 1 EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

2 2 EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

3 3 ABSTRACT MOHAMAD REZA PANCAWAN. Query Expansion on Information Retrieval System Using Thesaurus and Intersection Weight. Supervised by AHMAD RIDHA. Query expansion is a technique to change the intial query from user in order to improve and optimize result of a retrieval system by getting more relevant documents. Thesaurus is a collection of synonyms and antonyms that can be utilized to get additional terms in query expansion. We propose a method to choose additional terms for query expansion based on insersection betweeen results from original query and results from expanded query. We experiment with synonyms and antonyms using 2095 documents and 20 queries that we made for this research. To make these queries, we use words that are generally different from the words that are contained in the document collection. The result of this research shows that the use of query expansion can improve the performance of the retrieval system in getting more relevant documents. It also shows that the use of two synonym terms result in the best query expansion, retrieving 98.1% relevant documents with an average precision of 0.252, while the use of an antonym is only able to retrieve 86.9% relevant documents with an average precision of Keywords: antonym, intersection weight, synonym, thesaurus, query expansion.

4 ii Judul Skripsi : Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot Irisan Nama : Mohamad Reza Pancawan NIM : G Disetujui Pembimbing Ahmad Ridha SKom MS NIP Diketahui Ketua Departemen Ilmu Komputer Dr Ir Agus Buono MSi MKom NIP Tanggal Lulus:

5 iii RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 11 November 1988 dari bapak bernama Achmad Sjamsu Anwar Asir, dan Ibu Lisma Angrianie. Penulis merupakan anak kelima dari lima bersaudara. Pada tahun 2003, penulis melanjutkan pendidikan di SMA Negeri 106 Jakarta dan lulus pada tahun Pada tahun 2006, penulis melanjutkan pendidikan di Politeknik Negeri Jakarta dan lulus pada tahun 2009, dan kemudian melanjutkan pendidikan di Program Sarjana Alih Jenis Ilmu Komputer Insititut Pertanian Bogor, Fakultas Matematika dan Ilmu Pengetahuan Alam di tahun yang sama.

6 iv PRAKATA Alhamdulillahirobbil alamin, puji syukur penulis panjatkan ke hadirat Allah Subhanahuwata'ala atas segala rahmat, petunjuk, nikmat, dan karunia-nya, sehingga penulis dapat menyelesaikan penelitian dengan judul Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot Irisan. Penulis menyadari bahwa penelitian ini tidak akan selesai tanpa bantuan beberapa pihak. Pada kesempatan ini, penulis ingin mengucapkan rasa terima kasih yang sebesar-besarnya kepada: Kedua orang tua tercinta Bapak Achmad Sjamsu Anwar Asir dan Ibu Lisma Angrianie, serta kakak-kakak tersayang Budi Mahendra Sukarno, Dwi Gita Setiowati, Tri Lestari Indriyani, dan Dyah Senjani Retnosari. Terima kasih atas segala bantuan doa, motivasi, dan dukungan moril yang selalu diberikan untuk penulis. Bapak Ahmad Ridha SKom MS selaku pembimbing. Terima kasih atas bantuan, kesabaran, bimbingan, dukungan, serta waktu dalam proses penyelesaian penelitian ini. Bapak Sony Hartono Wijaya SKom MKom dan Bapak Ir Julio Adisantoso MKom selaku penguji. Terima kasih atas segala saran dan kritik membangun yang diberikan untuk penulis. Rakhma Laila Bing. Terima kasih atas segala bantuan doa dan motivasi yang selalu diberikan untuk penulis. Sahabat-sahabatku satu bimbingan Adi Darliansyah dan Syahrul Fathi. Terima kasih atas kebersamaan dan semangat selama penyelesaian penelitian ini. Sahabat-sahabatku Selamet Subu, Rendy, Sudharmono, Renhard, Sony Muhammad, Ahmad Aunullah dan seluruh sahabatku yang lain di alih jenis Ilkom angkatan 4. Terima kasih atas motivasi dan kebersamaan selama ini. Sahabat-sahabatku di Kost Tm. Malabar 12 Cebong, Bang Oki, Anjas, Adi, Rizka. Terima kasih atas kebersamaan dan keceriaanya selama ini. Auzi Asfarian. Terima kasih atas bantuan yang sudah diberikan untuk penulis. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan dan penyelesaian penelitian ini, yang tidak dapat penulis sebutkan satu per satu. Semoga Allah Subhanahuwata'ala membalas semua kebaikan kalian, amin. Akhir kata penulis berharap semoga penelitian ini dapat bermanfaat. Bogor, Maret 2012 Mohamad Reza Pancawan

7 v DAFTAR ISI Halaman DAFTAR TABEL... DAFTAR GAMBAR... DAFTAR LAMPIRAN... PENDAHULUAN... 1 Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 METODE PENELITIAN... 1 Perolehan Dokumen Pengujian... 2 Praproses Dokumen... 2 Pengambilan Istilah Ekspansi... 2 Pemilihan Istilah Ekspansi... 2 Evaluasi Temu Kembali... 3 Lingkungan Pengembangan... 4 HASIL DAN PEMBAHASAN... 4 Koleksi Dokumen Pengujian... 4 Praproses Dokumen... 4 Ekspansi Kueri... 5 Pengambilan Istilah Ekspansi... 5 Pemilihan Istilah Ekspansi... 5 Evaluasi Temu Kembali... 5 Evaluasi Tanpa Ekspansi Kueri... 6 Evaluasi Ekspansi Kueri dengan Sinonim... 6 Evaluasi Ekspansi Kueri dengan Antonim... 7 Evaluasi Perbandingan Ekspansi Kueri dengan Sinonim dan Antonim... 8 Analisis Perbandingan Sistem... 8 Analisis Perbandingan Sistem Tanpa Ekspansi Kueri... 8 Analisis Perbandingan Sistem dengan Ekspansi Kueri... 9 Kelemahan Sistem KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN vi vi vi v

8 vi DAFTAR TABEL Halaman 1 Contoh perhitungan bobot irisan Perhitungan recall dan precision Deskripsi koleksi dokumen Nilai recall dan AVP QE Nilai recall dan AVP QES1, QES2, dan QES Nilai recall dan AVP QE0 dan QEA Nilai recall dan AVP QES2, dan QEA Perbandingan recall dan AVP sistem temu kembali tanpa ekspansi Perbandingan recall dan AVP sistem dengan ekspansi kueri Waktu komputasi sistem temu kembali DAFTAR GAMBAR Halaman 1 Gambaran umum proses temu kembali dengan ekspansi kueri Dua buah hasil temu kembali yang beririsan Hasil pembentukan kueri baru Contoh hasil perhitungan bobot irisan Kurva recall dan precision QE Kurva recall dan precision QES1, QES2, dan QES3 dengan BM Kurva recall dan precision QES1, QES2, dan QES3 dengan Proximity BM Kurva recall dan precision QEA Kurva recall dan precision QEA dan QES Kurva recall dan precision tanpa ekspansi cosine atau IDF dan bobot irisan Kurva recall dan precision dengan ekspansi cosine atau IDF dan bobot irisan... 9 DAFTAR LAMPIRAN Halaman 1 Contoh dokumen pengujian Pasangan kueri uji dan dokumen relevan Deskripsi kueri uji vi

9 1 Latar Belakang PENDAHULUAN Sistem temu kembali informasi bertujuan membantu pengguna mendapatkan informasi yang sesuai dengan kebutuhannya dengan mudah. Untuk mendapatkan informasi tersebut sistem temu kembali membutuhkan masukan yang disebut dengan kueri. Masalah yang sering muncul ialah ketika kueri yang dibuat oleh pengguna masih bersifat terlalu umum atau ketika kata-kata yang digunakan pada kueri tidak sama dengan kata yang umumnya terdapat dalam koleksi dokumen. Masalah-masalah tersebut seringkali akan mempengaruhi kinerja sistem untuk menemukan dokumen relevan. Salah satu cara untuk mengatasi masalahmasalah tersebut ialah dengan ekspansi kueri. Menurut (Imran & Sharan 2009) ekspansi kueri adalah proses penambahan kata atau frasa ke dalam kueri asli untuk meningkatkan kemampuan sistem dalam menemukan dokumen relevan. Menurut Aly (2008) terdapat tiga jenis ekspansi kueri, yaitu Manual Query Expansion (MQE), Interactive Query Expansion (IQE), dan Automatic Query Expansion (AQE). MQE dan IQE memerlukan keterlibatan pengguna untuk menghasilkan kueri baru, sedangkan AQE adalah proses ekspansi kueri tanpa melibatkan pengguna. Sitohang (2010) dan Samana (2011) telah melakukan penelitian tentang ekspansi kueri dengan melakukan penerjemahan kata dari bahasa asing menggunakan kamus dwibahasa. Dari penelitian Samana (2011), diketahui bahwa penggunaan peluang bersyarat untuk memilih istilah ekspansi relatif lebih baik dari penggunaan nilai IDF Sitohang (2010). Akan tetapi, penggunaan kamus dwibahasa untuk mendapatkan istilah ekspansi dirasakan masih kurang optimal karena istilah terjemahan yang dihasilkan kurang baik. Metode ekspansi kueri lain yang diharapkan bisa lebih meningkatkan kinerja sistem temu kembali adalah dengan tesaurus. Berbeda dengan kamus atau kamus dwibahasa yang berisikan makna dari suatu kata, tesaurus adalah kumpulan kata-kata yang memiliki keterkaitan makna satu dengan lainnya seperti sinonim dan antonim. Rahayuni (2011) telah melakukan penelitian tentang ekspansi kueri dengan tesaurus dan menggunakan dua metode pemilihan istilah ekspansi. Rahayuni (2011) menggunakan nilai cosine similarity terbesar sebagai metode pemilihan istilah ekspansi yang pertama dan IDF terendah sebagai metode pemilihan istilah yang kedua. Nilai IDF terendah hanya digunakan ketika kata pada kueri tidak ada dalam koleksi dokumen, namun tetap memiliki makna dalam tesaurus. Dari penelitian Rahayuni (2011), diperoleh kesimpulan bahwa kinerja sistem yang menerapkan ekspansi kueri menggunakan tesaurus lebih baik dari penggunaan kamus dwibahasa Samana (2011) dan pseudo relevance feedback segmentasi dokumen Anbiana (2009). Akan tetapi, pada penelitian Rahayuni (2011) belum dapat diketahui apakah istilah sinonim atau antonim yang lebih baik digunakan untuk ekspansi kueri. Mengacu pada penelitian-penelitian sebelumnya, penelitian ini menerapkan dan mengevaluasi penerapan automatic query expansion dengan istilah sinonim dan antonim yang diperoleh dari tesaurus. Penelitian ini juga mengembangkan metode bobot irisan sebagai metode pemilihan istilah ekspansi. Bobot irisan adalah metode pemilihan istilah yang memperhatikan jumlah dan peringkat dokumen yang merupakan komplemen dari dokumen dalam irisan. Dokumen dalam irisan ini merupakan dokumen-dokumen yang dihasilkan dari proses temu kembali dengan kueri awal dan temu kembali dengan kueri awal yang sudah ditambahkan istilah sinonim atau antonim. Tujuan Tujuan penelitian ini ialah: Menerapkan dan mengevaluasi penerapan ekspansi kueri pada sistem temu kembali yang menggunakan istilah sinonim dan antonim. Membandingkan hasil penggunaan metode pemilihan istilah ekspansi Rahayuni (2011) dengan metode bobot irisan. Membandingkan hasil pemeringkatan BM25 dengan Proximity BM25 yang terdapat pada framework Sphinx. Ruang Lingkup Ruang lingkup dari penelitian ini ialah: Sinonim dan antonim hanya berasal dari tesaurus berbahasa Indonesia. Menggunakan dokumen dan kueri berbahasa Indonesia. METODE PENELITIAN Penelitian ini dilakukan dalam lima tahap, yaitu perolehan dokumen pengujian, praproses dokumen, pengambilan istilah ekspansi, pemilihan istilah ekspansi, dan evaluasi temu kembali. Gambaran umum proses temu kembali dengan ekspansi kueri dapat dilihat pada Gambar 1.

10 2 Perolehan Dokumen Pengujian Penelitian ini menggunakan 2095 dokumen pertanian. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 95 dokumen tambahan yang dikumpulkan dari beberapa sumber di internet. Contoh dokumen pengujian dapat dilihat pada Lampiran 1. Praproses Dokumen Tahap awal dari praproses dokumen ialah tokenisasi. Tokenisasi adalah proses untuk mendapatkan seluruh karakter dari seluruh koleksi dokumen yang sudah dibersihkan dari tanda baca pemisah, seperti titik, koma, dan whitespace. Proses tokenisasi diikuti dengan proses pembuangan kata yang tidak layak untuk dijadikan penciri atau stopwords. Kemudian, tahapan terakhir adalah proses pembobotan untuk menentukan tingkat kepentingan seluruh kata unik hasil tokenisasi. Ekspansi Kueri Kueri Awal Pengambilan Istilah Ekspansi Pemilihan Istilah Ekspansi Kueri Baru Temu Kembali Dokumen Hasil Temu Kembali Evaluasi Temu Kembali Dokumen Praproses Dokumen Inverted Index Gambar 1 Gambaran umum proses temu kembali dengan ekspansi kueri. Pengambilan Istilah Ekspansi Pengambilan isitilah ekspansi bertujuan mendapatkan istilah sinonim dan antonim dari setiap kata pada kueri. Istilah sinonim dan antonim ini diperoleh dari tesaurus berbahasa Indonesia. Pemilihan Istilah Ekspansi Pemilihan istilah ekspansi bertujuan memilih istilah sinonim atau antonim yang akan digunakan untuk ekspansi kueri. Pemilihan istilah dilakukan menggunakan metode bobot irisan yang terdiri atas dua tahap. Tahap awal pada metode bobot irisan ialah membandingkan similiarity antara kueri awal dan kueri awal yang sudah ditambah istilah sinonim atau antonim, berdasarkan hasil temu kembalinya. Jika q a adalah kueri awal dan q b adalah kueri awal yang sudah ditambah istilah, sim(q a, q b ) dapat dihitung dengan menjumlahkan nilai similarity dokumen-dokumen hasil temu kembali q b yang merupakan komplemen dari hasil temu kembali (q a q b ), dan dibagi dengan total nilai similarity semua dokumen hasil temu kembali q b. Mengacu dari persamaan di atas, perhitungan awal bobot irisan dapat dirumuskan sebagai berikut: sim(q a, q b ) = dengan: di T b (T a T b ) sim di, qb.(1) dj T b sim dj, qb T a :.adalah hasil temu kembali q a T b :.adalah hasil temu kembali q b (T a T b ) :.dokumen irisan hasil temu :.kembali q a dan q b T b (T a T b ) :.dokumen Tb yang merupakan :.komplemen dari irisan T a dan :.T b sim(d i, q b ) :.nilai similarity dokumen ke-i :.pada T b yang merupakan :.anggota irisan T a dan T b sim(d i, q b ) :.similarity dokumen ke-j dari T b Persamaan (1) akan menghasilkan nilai sim(q a, q b ) dengan rentang nilai sama dengan nol dan kurang dari satu. Nilai sim(q a, q b ) tidak mungkin bernilai satu karena penelitian ini menggunakan operator OR untuk setiap kata pada kueri. Penggunaan operator OR membuat hasil temu kembali kueri awal yang sudah ditambahkan suatu istilah pasti juga memiliki dokumen-dokumen hasil temu kembali dari kueri awal sebelum ditambahkan istilah. Sementara itu, nilai sim(q a, q b ) sama dengan nol menandakan bahwa kueri yang sudah ditambahkan dengan suatu istilah menghasilkan dokumen yang benar-benar sama dengan hasil

11 3 temu kembali kueri awal. Oleh karena itu, istilah yang dipilih untuk ekspansi kueri adalah istilah yang memiliki nilai similarity terendah atau istilah dengan nilai dissimilarity terbesar. Proses untuk mencari istilah dengan nilai dissimilarity terbesar ini merupakan tahap akhir metode bobot irisan yang dapat dihitung dengan persamaan (2). dissim (q a, q b ) = 1 - sim(q a, q b )...(2) dengan: sim(q a, q b ): adalah nilai similarity q a dan q b Tingginya nilai dissimilarity menunjukkan bahwa penggunaan istilah tambahan dapat memberikan banyak perbedaan pada hasil temu kembali awal. Perbedaan-perbedaan tersebut diharapkan dapat meningkatkan peluang terambilnya dokumen relevan. Tabel 1 menunjukkan hasil perhitungan bobot irisan dengan persamaan (1) dan (2) untuk Gambar 2. Tabel 1 Contoh perhitungan bobot irisan T b T a (similarity) T a T b dissim(q a, q b ) d a d g (1) d a (0.9) d a d b d b (0.8) d b 0.6 d e (0.7) d e d e d r (0.6) Metode bobot irisan memerlukan nilai similarity antara dokumen dan kueri. Nilai similarity dokumen dan kueri ini diperoleh dari hasil pemeringkatan BM25 dan Proximity BM25 yang terdapat pada framework Sphinx, yang sama-sama menggunakanfaktor BM25 dalam proses perhitungannya. Adapun pseudocode untuk memperoleh faktor BM25 adalah: 1 BM25=0 2 foreach(inmatching_keywords){ 3 n=total_matching_docs(keyword) 4 N=total_documents_collection d a d b d e d g d r Gambar 2 Dua buah hasil temu kembali yang beririsan. 5 k1=1.2 6 TF=occurrence_count(keyword) 9 IDF=log((N-n+1)/n)/log(1+N) 10 BM25= BM25 + TF*IDF/(TF+k1) 11 } 12 Normalization: 13 BM25=0.5+BM25 /(2*num_keywords(query)) Pseudo-code pemeringkatan BM25 adalah: 1 SPH_BM25 Ranker: 2 field_weights = 0 3 foreach(field inmatching_fields) 4 field_weights +=user_weight (field) 5 weight=field_weights*1000 +integer(bm25*999) Berbeda dengan metode pemeringkatan BM25, metode pemeringkatan Proximity BM25 adalah metode pemeringkatan yang menggabungkan faktor Proximity dan faktor BM25. Proximity hanya memperhatikan urutan kata yang terdapat pada kueri dan dokumen sehingga semakin mirip urutan kata-kata yang dalam kueri dengan urutan kata-kata yang ada dalam dokumen maka nilai Proximity-nya menjadi lebih besar. Adapun pseudo-code metode pemeringkatan Proximity BM25 adalah: 1 Proximity Value: 2 doc_phrase_weight = 0 2 foreach (field in matching_fields) 3 { 4 field_phrase_weight = max_common_subsequence_length (query, field) 5 doc_phrase_weight += user_weight (field) * field_phrase_weight 6 } 7 SPH_RANK_PROXIMITY_BM25: weight = doc_phrase_weight* integer(doc_bm25*999) Evaluasi Temu Kembali Metode evaluasi yang digunakan ialah recall dan precision. Recall merupakan rasio dari jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen. Precision adalah rasio dari jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemukembalikan. Perhitungan recall dan precision dapat diilustrasikan pada Tabel 2. Tabel 2 Perhitungan recall dan precision Relevant Non Relevant Retrieved tp fp Non Retrieved fn tn dengan:

12 4 tp R= tp + fn...(3) tp P = tp + fp...(4) Evaluasi dilakukan dengan 20 pasang kueri dan dokumen relevan yang dibuat khusus untuk penelitian ini. Daftar pasangan kueri uji dan dokumen relevan dapat dilihat pada Lampiran 2, sedangkan Lampiran 3 berisikan deskripsi dari kueri uji. Nilai recall dan precision yang diperoleh dari seluruh kueri uji kemudian diinterpolasi maksimum dengan 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0,4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Hasil interpolasi maksimum kemudian dirata-ratakan untuk mendapatkan nilai average precision sistem. Adapun 5 jenis evaluasi yang dilakukan pada penelitian ini adalah: QE0, yaitu evaluasi temu kembali tanpa menggunakan ekspansi kueri. QES1, yaitu evaluasi temu kembali dengan menambahkan satu istilah sinonim dengan nilai bobot irisan terendah. QES2, yaitu evaluasi temu kembali dengan menambahkan dua istilah sinonim dengan nilai bobot irisan terendah. QES3, yaitu evaluasi temu kembali dengan menambahkan tiga istilah sinonim dengan nilai bobot irisan terendah. QEA, yaitu evaluasi temu kembali dengan menambahkan satu istilah antonim dengan nilai bobot irisan terendah. Selain melakukan evaluasi terhadap hasil temu kembali dengan ekspansi kueri, pada penelitian ini juga dilakukan analisis perbandingan metode pemilihan istilah ekspansi kueri Rahayuni (2011) yang menggunakan cosine similarity atau IDF dengan metode bobot irisan. Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Windows 7 Ultimate sebagai sistem operasi. XAMPP-win sebagai web server. Notepad sebagai text editor. Sphinx search sebagai framework search engine. Microsoft Excel 2007, sebagai aplikasi untuk evaluasi sistem. Perangkat keras yang digunakan dalam penelitian ialah: AMD Turion-X2 2.2 GHz. RAM 3 GB. Harddisk dengan kapasitas 250 GB. HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Koleksi dokumen yang digunakan dalam penelitian ini sebanyak 2095 dokumen pertanian. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 95 dokumen lainnya dikumpulkan dari berbagai sumber di internet. Tabel 3 merupakan deskripsi koleksi dokumen uji. Tabel 3 Deskripsi koleksi dokumen Keterangan Ukuran (byte) Ukuran seluruh dokumen Ukuran rata-rata dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil 412 Koleksi dokumen yang digunakan berformat teks (.txt) dengan struktur tag XML pada setiap dokumennya. Tag XML yang terdapat dalam koleksi dokumen pengujian ialah: <DOC> </DOC>, mewakili keseluruhan dokumen. Di dalamnya juga terdapat beberapa tag lain yang mendeskripsikan isi dokumen secara lebih jelas. <DOCNO> </DOCNO>, mewakili ID dokumen. ID yang dipakai merupakan kombinasi dari sumber berita, tanggal, dan urutan berita dari tanggal yang sama. <TITLE> </TITLE>, mewakili judul dokumen. <AUTHOR> </AUTHOR>, mewakili penulis dokumen. <DATE> </DATE>, mewakili tanggal penulisan atau tanggal terbit dokumen. <TEXT> </TEXT>, mewakili isi dokumen. Praproses Dokumen Praproses dokumen melibatkan beberapa proses yaitu tokenisasi, pembuangan stopwords, dan pembobotan. Praproses dokumen dilakukan secara otomatis menggunakan fungsi indexing Sphinx. Proses tokenisasi bertujuan mendapatkan token atau kata unik dari seluruh koleksi dokumen yang sudah dipisahkan dari karakter pemisah, seperti titik, koma, dan whitespace. Praproses dokumen hanya dilakukan pada bagian dokumen yang diapit oleh tag <DOCNO> </DOCNO>,<TITLE> </TITLE>, dan <TEXT> </TEXT>.

13 5 Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan. Proses pembuangan stopwords dilakukan dengan cara mencocokan token hasil tokenisasi dengan kata-kata yang ada dalam stoplist. Apabila token tersebut ada dalam stoplist, token akan dihapus. Hasil proses tokenisasi dan pembuangan stopwords adalah sejumlah token dan frekuensi kemunculannya (tf) pada tiap-tiap dokumen serta jumlah dokumen yang mengandung token tersebut (df). Nilai (df) kemudian digunakan untuk menghasilkan nilai (idf). Nilai (tf) maupun (idf) dari masing-masing token digunakan sebagai komponen pembobot pada pembobotan BM25. Ekspansi Kueri Proses ekspansi kueri yang diterapkan pada penelitian ini terdiri atas dua tahap, yaitu pengambilan istilah ekspansi dan pemilihan istilah ekspansi. Pengambilan Istilah Ekspansi Pengambilan istilah ekspansi bertujuan untuk mendapatkan istilah sinonim atau antonim dari tesaurus. Terdapat dua kondisi pengambilan istilah ekspansi yaitu pengambilan istilah sinonim dan pengambilan istilah antonim. Pengambilan istilah sinonim dilakukan dengan mengikuti Algoritme 1. Algoritme 1. 1 for each (term_in_query){ 2 get synonym(term)from_thesaurus 3 if(!synonym(term)in_stoplist)) 4 synonym_list=synonym(term) 5 } Algoritme 1 menerangkan bahwa istilah sinonim diperoleh dari setiap kata pada kueri awal. Istilah sinonim yang digunakan adalah istilah yang tidak ada dalam stoplist. Istilah sinonim yang terpilih kemudian diapit dengan tanda kutip agar istilah sinonim yang terdiri dari dua kata dianggap menjadi satu kata. Sementara itu, proses pengambilan istilah antonim dilakukan dengan mengikuti Algoritme 2. Algoritme 2. 1 for each (term_in_query){ 2 get synonym(term)from_thesaurus 3 get antonym(synonym(term)) from_thesaurus 4 if(!antonim(term)in_stoplist)) 5 antonym_list = tidak.antonym(term) 6 } Algoritme 2 menerangkan bahwa istilah antonim diperoleh dari semua istilah sinonim yang diperoleh dari setiap kata pada kueri awal. Istilah antonim yang digunakan adalah istilah yang tidak terdapat dalam stoplist. Istilah antonim yang terpilih kemudian dimodifikasi dengan menambahkan kata tidak sebelum setiap antonim. Kemudian, istilah antonim yang sudah ditambahkan kata tidak ini diapit dengan tanda kutip agar istilah tersebut dianggap menjadi satu kata. Penambahan kata tidak sebelum istilah antonim ini bertujuan agar istilah antonim memiliki makna yang sama dengan kata yang ada pada kueri awal sehingga tidak mengubah konteks pencarian. Pemilihan Istilah Ekspansi Istilah-istilah yang sudah diperoleh pada tahap pengambilan istilah ekspansi digunakan untuk membentuk beberapa kueri baru. Kueri baru dibentuk dengan cara menambahkan istilah sinonim atau antonim ke dalam kueri awal. Kemudian, dilakukan proses temu kembali dengan semua kueri baru tersebut untuk memperoleh dokumen-dokumen yang digunakan dalam proses perhitungan bobot irisan dengan persamaan (1) dan (2). Gambar 3 adalah contoh hasil pembentukan kueri baru dan Gambar 4 adalah contoh hasil perhitungan bobot irisan. Istilah yang dipilih adalah istilah yang memiliki nilai dissimilarity terbesar yang berada dalam rentang nilai sama dengan nol dan kurang dari satu. Nilai dissimilarity yang rendah menandakan bahwa istilah tersebut tidak dapat memberikan banyak perbedaan pada hasil temu kembali awal. Sementara itu, nilai dissimilarity yang tinggi menandakan bahwa istilah tersebut mampu menghasilkan beberapa dokumen baru yang sebelumnya tidak ditemukan. Evaluasi Temu Kembali Evaluasi temu kembali bertujuan mengetahui kinerja sistem temu kembali sebelum dan setelah menerapkan ekspansi kueri. Evaluasi juga bertujuan membandingkan hasil temu kembali yang menggunakan metode Kueri awal: sawah rusak berat Kueri baru dengan sinonim: (sawah rusak berat lahan ) (sawah rusak berat sulit ) (sawah rusak berat hancur ) Kueri baru dengan antonim: (sawah rusak berat tidak mudah ) Gambar 3 Hasil pembentukan kueri baru.

14 6 Array ( [0] => Array( [bobot] => [istilah] => lahan ) [1] => Array( [bobot] => [istilah] => sulit ) [2] => Array( [bobot] => [istilah] => hancur ) [3] => Array( [bobot] => 1 [istilah] => ladang ) ) Gambar 4 Contoh hasil perhitungan bobot irisan. pemeringkatan BM25 dan Proximity BM25. Evaluasi Tanpa Ekspansi Kueri Evaluasi tanpa ekspansi kueri (QE0) dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 20 kueri uji. Hasil evaluasi QE0 ditunjukkan pada Tabel 4. Tabel 4 Nilai recall dan AVP QE0 Metode Recall AVP QE0 (BM25) QE0 (Proximity BM25) Dari Tabel 4, dapat diketahui bahwa sistem temu kembali tanpa ekspansi yang digunakan pada penelitian ini mampu menghasilkan nilai recall sebesar Hal ini menunjukkan bahwa sistem mampu mengembalikan 89% dokumen relevan dari seluruh dokumen relevan yang ada dalam koleksi. Dari Tabel 4, juga dapat diketahui bahwa nilai AVP yang dihasilkan oleh pemeringkatan Proximity BM25 lebih tinggi 4.41% dari AVP yang dihasilkan oleh pemeringkatan BM25. Proximity BM25 akan menghasilkan bobot atau nilai similarity yang lebih tinggi untuk kueri-kueri yang memiliki pola urutan kata yang sama dengan urutan kata yang ada dalam koleksi dokumen. Untuk beberapa kueri uji, Proximity BM25 mampu mengembalikan dokumen relevan dengan peringkat yang lebih baik daripada pemeringkatan BM25, sehingga nilai AVP yang dihasilkan oleh pemeringkatan Proximity BM25 menjadi sedikit lebih baik dari pemeringkatan BM25. Gambar 5 adalah kurva recall dan precision dari QE0. Evaluasi Ekspansi Kueri dengan Sinonim Evaluasi ekspansi kueri dengan 1 sinonim (QES1), 2 sinonim (QES2), dan 3 sinonim (QES3) dilakukan untuk melihat pengaruh penggunaan istilah sinonim untuk ekspansi kueri. Evaluasi dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 20 kueri uji. Hasil evaluasi QES1, QES2, dan QES3 ditunjukkan pada Tabel 5. Tabel 5 Nilai recall dan AVP QES1, QES2, dan QES3 Metode Recall AVP QES1 (BM25) QES2 (BM25) QES3 (BM25) QES1 (Proximity BM25) QES2 (Proximity BM25) QES3 (Proximity BM25) Dari Tabel 5, dapat diketahui bahwa semakin banyak istilah sinonim yang ditambahkan dalam kueri awal, akan semakin meningkatkan recall. Peningkatan recall ini disebabkan oleh adanya dokumen-dokumen relevan yang baru ditemukan setelah menggunakan istilah ekspansi. Jika dibandingkan dengan hasil temu kembali QE0, peningkatan nilai recall untuk QES1 ialah sebesar 6.60%, 10.66% untuk QES2, dan 11.05% untuk QES3. Selain meningkatkan recall, ekspansi kueri dengan istilah sinonim juga mampu meningkatkan nilai AVP. Jika dibandingkan dengan nilai AVP QE0 dari masing-masing metode pemeringkatan, P r e c i s i o n QE0-BM25 QE0-Proximity BM R e c a l l Gambar 5 Kurva recall dan precision QE0.

15 7 peningkatan AVP untuk metode pemeringkatan BM25 ialah sebesar 34.01% untuk QES1, 36.71% untuk QES2, dan 31.30% untuk QES3. Sementara itu, peningkatan AVP untuk metode pemeringkatan Proximity BM25 ialah sebesar 20.74% untuk QES1, 27.79% untuk QES2, dan 32.75% untuk QES3. Peningkatan AVP yang terjadi pada ketiga tipe ekspansi kueri sinonim ini disebabkan oleh adanya istilah-istilah ekspansi yang mampu memperbaiki peringkat dokumen relevan untuk menempati peringkat yang lebih tinggi dari peringkat sebelumnya. Dari Tabel 5, juga diketahui bahwa QES3 dari metode pemeringkatan BM25 memiliki nilai recall yang paling tinggi jika dibandingkan dengan QES1 dan QES2, namun nilai AVP yang dihasilkan QES3 justru lebih rendah dari nilai AVP QES2. Hal ini disebabkan oleh jumlah dokumen tidak relevan yang ikut terambil dalam proses temu kembali QES3 lebih banyak dan di antaranya juga menempati peringkat yang lebih tinggi dari dokumen relevan. Pada metode pemeringkatan Proximity BM25, diketahui bahwa semakin banyak jumlah istilah ekspansi ternyata dapat semakin meningkatkan nilai AVP. Hal ini disebabkan oleh adanya istilah-istilah ekspansi yang mampu meningkatkan nilai Proximity sehingga dapat memperbaiki peringkat dokumen relevan untuk menempati peringkat yang lebih tinggi. Berdasarkan pada peningkatan AVP yang terjadi pada kedua metode pemeringkatan ini, metode pemeringkatan BM25 dapat dikatakan sedikit lebih baik daripada metode pemeringkatan Proximity BM25. Metode pemeringkatan BM25 mampu meningkatkan nilai AVP sampai dengan 36.71% (QES2), sedangkan metode Proximity BM25 hanya P r e c i s i o n QE1-BM25 QE2-BM25 QE3-BM R e c a l l Gambar 6 Kurva recall dan precision QES1, QES2, dan QES3 dengan BM25. mampu meningkatkan nilai AVP sampai dengan 32.75% (QES3). Gambar 6 adalah kurva recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan BM25. Gambar 7 adalah kurva recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan Proximity BM25. Evaluasi Ekspansi Kueri dengan Antonim Evaluasi ekspansi kueri dengan istilah antonim (QEA) dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 16 kueri uji. Istilah antonim yang digunakan adalah istilah antonim yang sudah ditambahkan kata tidak pada awalan antonim. Penambahan kata tidak pada setiap awalan antonim bertujuan agar istilah tersebut memiliki makna yang sama dengan kata pada kueri awal sehingga tidak merubah konteks pencarian. Tabel 6 menunjukkan hasil evaluasi QE0 dan QEA dengan 16 kueri uji. Tabel 6 Nilai recall dan AVP QE0 dan QEA Metode Recall AVP QE0 (BM25) QEA (BM25) QE0 (Proximity BM25) QEA (Proximity BM25) Dari Tabel 6, dapat diketahui bahwa penambahan istilah antonim untuk ekspansi kueri hanya mampu meningkatkan recall sebesar 0.21%. Dari Tabel 6, juga dapat diketahui bahwa penggunaan Proximity BM25 pada ekspansi kueri antonim justru menurunkan nilai AVP sebesar 4.59%. Hal ini disebabkan oleh adanya dokumen-dokumen tidak relevan yang memiliki nilai similarity yang lebih tinggi sehingga dokumen-dokumen tersebut P r e c i s i o n QE1- Proximity BM25 QE2- Proximity BM25 QE3- Proximity BM R e c a l l Gambar 7 Kurva recall dan precision QES1, QES2, dan QES3 dengan Proximity BM25.

16 8 menempati peringkat yang lebih tinggi dari dokumen relevan. Gambar 8 adalah kurva recall dan precision QEA dengan pemeringkatan BM25 dan Proximity BM25. Evaluasi Perbandingan Ekspansi Kueri dengan Sinonim dan Antonim Evaluasi perbandingan ekspansi kueri bertujuan mengetahui penggunaan istilah sinonim atau antonim yang lebih baik digunakan untuk ekspansi kueri. Tipe ekspansi sinonim dan antonim yang dibandingkan adalah QES2 dan QEA dengan metode pemeringkatan BM25. Evaluasi perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 16 kueri uji. Perbandingan nilai recall dan AVP dari hasil evaluasi ekspansi sinonim dan antonim ditunjukkan pada Tabel 7. Tabel 7 Nilai recall dan AVP QES2, dan QEA Metode Recall AVP QES QEA Dari Tabel 7, dapat diketahui bahwa penggunaan dua istilah sinonim (QES2) untuk ekspansi kueri lebih baik daripada penggunaan istilah antonim (QEA). Jika dibandingkan dengan hasil evaluasi QE0, QES2 dapat meningkatkan nilai recall dan juga AVP masing-masing sebesar 13.12% dan 45.93%, sedangkan QEA hanya dapat meningkatkan nilai recall sebesar 0.21%. Perbedaan tersebut disebabkan oleh jumlah dokumen yang dihasilkan oleh QES2 dan QEA tidak sama. Pada umumnya, koleksi dokumen lebih banyak mengandung istilah sinonim daripada istilah antonim yang sudah ditambahkan kata tidak di awal antonim. Hal tersebut membuat jumlah dokumen tambahan yang dihasilkan oleh istilah P r e c i s i o n QEA-BM25 QEA-Proximity BM R e c a l l Gambar 8 Kurva recall dan precision QEA. sinonim menjadi lebih banyak. Hasil temu kembali yang lebih banyak inilah yang membuat metode ekspansi kueri dengan istilah sinonim memiliki peluang yang lebih besar untuk mendapatkan dokumen relevan lebih banyak. Gambar 9 adalah kurva recall dan precision QEA dan QES2. Analisis Perbandingan Sistem Analisis perbandingan sistem bertujuan membandingkan hasil temu kembali dari sistem yang digunakan Rahayuni (2011) dengan sistem yang digunakan pada penelitian ini. Terdapat dua kondisi analisis perbandingan, yaitu perbandingan sistem tanpa ekspansi kueri dan perbandingan sistem dengan ekspansi kueri. Analisis Perbandingan Sistem Tanpa Ekspansi Kueri Analisis perbandingan sistem tanpa ekspansi kueri bertujuan membandingkan kinerja kedua sistem sebelum menerapkan ekspansi kueri. Analisis perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 20 kueri uji yang dihasilkan oleh masing-masing sistem. Tabel 8 menunjukkan perbandingan nilai recall dan AVP yang dihasilkan oleh kedua sistem tanpa ekspansi kueri. Tabel 8 Perbandingan recall dan AVP sistem temu kembali tanpa ekspansi Metode Recall AVP Tanpa ekspansi cosine atau IDF Tanpa ekspansi bobot irisan Dari Tabel 8, dapat diketahui bahwa sistem temu kembali tanpa ekspansi yang digunakan pada penelitian ini mampu memperoleh nilai P r e c i s i o n QEA QES R e c a l l Gambar 9 Kurva recall dan precision QEA dan QES2.

17 9 recall dan AVP yang lebih baik daripada sistem yang digunakan Rahayuni (2011), dengan perbedaan nilai recall sebesar dan AVP sebesar Faktor utama yang menyebabkan terjadinya perbedaan tersebut ialah pemrosesan kueri. Pada sistem temu kembali tanpa ekspansi Rahayuni (2011), dokumen yang dianggap relevan adalah dokumen yang benar-benar mengandung semua kata dalam kueri, atau dengan kata lain terdapat operator AND pada setiap kata di dalam kueri. Penggunaan operator AND mengakibatkan hasil temu kembali yang dihasilkan menjadi lebih sedikit dan terbatas. Sementara itu, penelitian ini menganggap dokumen relevan adalah dokumen yang mengandung minimal satu atau seluruh kata di dalam kueri, atau dengan kata lain terdapat operator OR untuk setiap kata pada kueri. Hasil temu kembali yang lebih banyak ini yang membuat sistem temu kembali tanpa ekspansi pada penelitian ini mampu menghasilkan nilai recall dan AVP yang lebih tinggi dari sistem temu kembali tanpa ekspansi Rahayuni (2011). Gambar 10 adalah kurva recall dan precision hasil temu kembali tanpa ekspansi Rahayuni (2011) dan temu kembali tanpa bobot irisan. Analisis Perbandingan Sistem dengan Ekspansi Kueri Analisis perbandingan sistem dengan ekspansi kueri bertujuan untuk membandingkan kinerja kedua sistem setelah menerapkan ekspansi kueri dengan metode pemilihan istilah ekspansi yang berbeda. Analisis perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 20 kueri uji. Tipe ekspansi kueri yang digunakan untuk perbandingan adalah QES2 dengan metode pemeringkatan BM25. Adapun tipe ekspansi kueri Rahayuni (2011) yang digunakan untuk perbandingan adalah P r e c i s i o n Tanpa Ekspansi Cosine atau IDF Tanpa Ekspansi Bobot Irisan R e c a l l Gambar 10 Kurva recall dan precision tanpa ekspansi cosine atau IDF dan bobot irisan. ekspansi kueri dengan penambahan satu istilah. Tabel 9 menunjukkan perbandingan nilai recall dan AVP dari kedua sistem setelah menerapkan ekspansi kueri. Tabel 9 Perbandingan recall dan AVP sistem dengan ekspansi kueri Metode Recall AVP Ekspansi tesaurus cosine atau IDF Ekspansi tesaurus bobot irisan Dari Tabel 9, dapat diketahui bahwa ekspansi kueri yang diterapkan oleh kedua sistem sama-sama mampu meningkatkan nilai recall dan juga AVP. Sistem temu kembali dengan ekspansi kueri Rahayuni (2011) mampu meningkatkan nilai recall dan AVP masingmasing sebesar 57.10% dan 22.54%, sedangkan sistem temu kembali dengan ekspansi kueri pada penelitian ini mampu meningkatkan nilai recall dan AVP masing-masing sebesar 10.22% dan 36.71%. Gambar 11 adalah kurva recall dan precision untuk hasil temu kembali ekspansi kueri Rahayuni (2011) dan bobot irisan. Rahayuni (2011) menggunakan cosine similarity terbesar sebagai metode pertama untuk memilih istilah ekspansi. Pemilihan istilah dengan cosine similarity cukup baik, karena cosine similarity memperhatikan pola dan panjang vektor istilah dari semua koleksi dokumen. Semakin mirip kedua vektor, maka nilai similarity akan semakin besar, namun metode ini hanya dapat dilakukan ketika kata dalam kueri ada dalam koleksi dokumen. Jika kata dalam kueri tidak ada dalam koleksi dokumen, namun masih memiliki makna di tesaurus, istilah ekspansi dipilih berdasarkan nilai IDF terendah. Penggunaan nilai IDF terendah sebagai pelengkap seringkali akan P r e c i s i o n Ekspansi Kueri Cosine atau IDF Ekspansi Kueri Bobot Irisan R e c a l l Gambar 11 Kurva recall dan precision dengan ekspansi cosine atau IDF dan bobot irisan.

18 10 menurunkan kinerja sistem. Nilai IDF adalah nilai yang menunjukkan tingkat kepentingan suatu istilah di dalam koleksi dokumen. Nilai IDF yang tinggi menandakan bahwa istilah tersebut hanya berada di beberapa dokumen tertentu dan baik untuk dijadikan penciri dokumen. Nilai IDF yang rendah menandakan bahwa istilah tersebut banyak terdapat di koleksi dokumen, dan kurang baik untuk dijadikan penciri dokumen. Penelitian ini menggunakan metode bobot irisan untuk memilih istilah ekspansi. Metode bobot irisan memilih istilah dengan mempertimbangkan keberagaman hasil temu kembali dan nilai similarity dokumen yang dihasilkan oleh suatu kueri. Nilai similarity dokumen digunakan untuk memperhatikan posisi dan peringkat dokumen yang terdapat di dalam komplemen irisan. Kueri-kueri yang menghasilkan dokumen komplemen irisan pada peringkat yang tinggi semakin berpeluang untuk terpilih sebagai istilah ekspansi. Posisi peringkat yang tinggi menandakan bahwa beberapa dokumen komplemen dari irisan tersebut lebih relevan dari dokumen yang ada dalam irisan. Jadi, semakin berbeda (dissimilar) hasil temu kembali kueri awal sdengan kueri awal setelah ditambah suatu istilah, nilai bobot irisannya akan semakin besar dan istilah tersebut cocok untuk dijadikan istilah ekspansi. Dari peningkatan AVP yang dihasilkan oleh kedua sistem, metode bobot irisan untuk memilih istilah ekspansi dapat dikatakan relatif lebih baik dari metode pemilihan istilah ekspansi cosine similarity atau IDF Rahayuni (2011). Medode bobot irisan mampu meningkatkan nilai AVP sampai dengan 36.71%, sedangkan metode cosine atau IDF Rahayuni (2011) hanya mampu meningkatkan nilai AVP sebesar 22.54%. Kelemahan Sistem Kelemahan sistem yang pertama ialah algoritme pengambilan istilah ekspansi. Algoritme pengambilan istilah ekspansi masih bersifat word by word sehingga dua kata yang merupakan satu frase akan dikenali sebagai dua kata yang terpisah. Sebagai contoh, ketika terdapat frasa air bah pada kueri, sistem akan mencari makna sinonim atau antonim untuk kata air dan kata bah secara terpisah. Kelemahan lainnya ialah waktu proses temu kembali ketika menerapkan ekspansi kueri. Tabel 10 menunjukkan perbandingan waktu komputasi sistem tanpa ekspansi kueri dan waktu komputasi sistem ketika menerapkan ekspansi kueri. Tabel 10 Waktu komputasi sistem temu kembali Metode Waktu Komputasi (detik) Rata-Rata Simpangan Baku QE QES QES QES QEA Nilai rata-rata dan simpangan baku pada Tabel 10, menunjukkan bahwa waktu komputasi untuk setiap kueri uji cukup bervariasi dengan waktu komputasi tertinggi ialah detik, untuk kueri dana bidang pertanian rendah dan waktu komputasi terendah ialah 6.06 detik, untuk kueri permintaan humus naik. Variasi waktu komputasi pada setiap kueri tersebut disebabkan oleh adanya perbedaan jumlah istilah sinonim atau antonim yang diperoleh dari tesaurus dan juga perbedaan jumlah dokumen yang dihasilkan pada setiap iterasi temu kembali. Dari Tabel 10, juga dapat diketahui bahwa penerapan ekspansi kueri dengan istilah sinonim membutuhkan waktu komputasi yang jauh lebih lama daripada ekspansi kueri dengan istilah antonim. Hal ini disebabkan oleh istilah antonim yang terdapat dalam tesaurus jumlahnya jauh lebih sedikit daripada istilah sinonim. Hal tersebut menyebabkan jumlah iterasi pada proses perhitungan bobot irisan untuk ekspansi kueri dengan sinonim menjadi lebih banyak. Selain dipengaruhi oleh banyaknya jumlah istilah dalam tesaurus, perbedaan waktu komputasi ini juga disebabkan oleh adanya perbedaan jumlah dokumen yang dihasilkan oleh kedua tipe ekspansi. Ekspansi kueri dengan istilah antonim menghasilkan dokumen yang jauh lebih sedikit daripada ekspansi kueri dengan istilah sinonim. Banyaknya dokumen yang diproses pada setiap iterasi inilah yang menyebabkan waktu proses temu kembali dengan ekspansi kueri sinonim menjadi jauh lebih lama. KESIMPULAN DAN SARAN Kesimpulan Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa: Penggunaan istilah sinonim untuk ekspansi kueri lebih baik jika dibandingkan dengan penggunaan istilah antonim.

19 11 Metode pemeringkatan BM25 mengalami peningkatkan nilai AVP yang lebih tinggi dari metode pemeringkatan Proximity BM25 untuk proses temu kembali dengan ekspansi kueri. Penggunaan bobot irisan untuk menentukan istilah ekspansi relatif lebih baik jika dibandingkan dengan pemilihan istilah cosine similarity atau IDF. Hasil temu kembali dari sistem yang menggunakan operator OR untuk setiap kata pada kueri lebih baik jika dibandingkan dengan sistem yang menggunakan operator AND. Saran Untuk penelitian selanjutnya yang terkait dengan ekspansi kueri, disarankan untuk melakukan penelitian dengan: Menggunakan jumlah koleksi dokumen dan kueri uji yang lebih beragam. Melakukan analisis pengaruh penggunaan sample dokumen pada proses perhitungan bobot irisan untuk mempersingkat waktu perhitungan. Membandingkan hasil ekspansi kueri yang menerapkan metode pemilihan istilah dengan bobot irisan dengan metode pemilhan istilah lain. DAFTAR PUSTAKA Anbiana ED Pseudo-Relevance Feedback pada sistem temu kembali menggunakan segementasi dokumen [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Imran H, Sharan A Thesaurus and query expansion. International Journal of Computer Science & Information Technology (IJCSIT) 1(2): Rahayuni N Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan thesaurus [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rusidi Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan peluang bersyarat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Samana MA Ekspansi kueri berdasarkan kamus dwibahasa menggunakan peluang bersyarat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Sitohang NL Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia Menggunakan kamus dwibahasa [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Aly AA Using a query expansion technique to improve document retrieval. International Journal Information of Technologies and Knowledge 2:

20 LAMPIRAN 12

21 13 Lampiran 1 Contoh dokumen pengujian <DOC> <DOCNO>kompas031100</DOCNO> <TITLE>Pertanian Tak Menjanjikan Petani Jepara Beralih ke Sektor Industri </TITLE> <AUTHOR>(son)</AUTHOR> <DATE>Jumat, 3 November 2000</DATE> <TEXT> <P>Jepara, Kompas</P> <P>Akibat harga gabah dan hasil pertanian lain tidak pernah sesuai dengan harapan, sementara upah buruh tani rendah, ribuan petani di Kabupaten Jepara, Jawa Tengah (Jateng) beralih ke sektor industri. Bahkan tenaga kerja industri mebel ukir Jepara yang ada saat ini, hampir semuanya berasal dari petani. Secara keseluruhan jumlah petani di Jepara berkisar orang.</p> <P>Tidak hanya itu, lahan pertanian di beberapa tempat terutama di Kota Jepara dan sekitarnya kini mulai terancam berkurang, karena dialihfungsikan menjadi tempat industri mebel ukir. Kondisi ini terjadi sejak lima tahun terakhir, yakni tahun 1995 hingga saat ini.</p> <P>Bupati Jepara Drs Soenarto, didampingi Kepala Kanwil (Kakanwil) Departemen Pertanian (Deptan) Jateng Ir Triyono, mengemukakan ini kepada wartawan yang mengikuti press tour bersama Sekretariat Pengendali Bimbingan Massal (Bimas), Deptan dan Kehutanan, Rabu (1/11) di Jepara.</P> <P>"Bagi sejumlah petani Jepara, sektor pertanian kini tidak lagi menjanjikan. Mereka kini lebih memilih bekerja di sektor industri mebel ketimbang menjadi petani. Apalagi sejak krisis ekonomi, ekspor mebel di Jepara meningkat," jelas Soenarto.</P> <P>Selama ini, kata Soenarto, produksi pertanian terutama padi selalu mengecewakan. Bahkan, antara biaya dan tenaga yang dikeluarkan petani dengan hasil yang diperoleh, selalu saja tidak sebanding. "Biaya yang dikeluarkan petani mulai dari tenaga kerja, bibit, pupuk dan obat-obatan terlalu besar, sementara ketika panen nilai jualnya rendah. Gabah kering panen (GKP) misalnya, tidak pernah lebih dari Rp 800 per kilogram atau jauh dari harga patokan pemerintah," katanya.</p> <P>Oleh karena itu, perlahan-lahan minat petani beralih bekerja di sektor industri. Apalagi, beberapa tahun terakhir terutama saat krisis ekonomi berlangsung, industri mebel ukir Jepara menjadi andalan ekspor Jateng. "Saat ini Jepara memiliki pengusaha mebel, 200 di antaranya eksportir. Ini menyebabkan, banyak tenaga kerja di sektor agraris ditarik ke sektor industri," tandasnya.</p> <P>Diakuinya, dorongan petani beralih ke sektor industri cukup besar. Sebab, bekerja di sektor pertanian membutuhkan waktu, tenaga dan biaya yang cukup besar, hasilnya pun tidak bisa diprediksi. Bekerja di sektor industri, hasilnya bisa dinikmati dalam waktu tidak terlalu panjang. Dia mencontohkan, untuk mengampelas (menghaluskan) mebel saja, sehari mendapat bayaran Rp per orang.</p> <P>Krida Pertanian</P> <P>Mengatasi persoalan ini, Soenarto menyatakan, sejak tahun 1997 pemerintah Jepara melaksanakan Gerakan Krida Pertanian. Salah satu gebrakan yang dilakukan adalah pencanangan gerakan pisangisasi (penanaman tananan pisang) di seluruh Jepara.</P> <P>"Saat ini Jepara sudah menghasilkan pisang, termasuk jenis chavendis. Kini sedang dipikirkan pemasarannya," katanya.</p> <P>Tekad Pemda Jepara menggerakkan sektor pertanian di Jepara didukung Satpel Bimas Deptan. "Tugas Satpel Bimas menggerakkan sektor pertanian di Jepara cukup berat karena pergeseran struktur ekonomi dari agrobisnis ke industri," jelas Soenarto.</P> <P>Sedangkan untuk mencegah supaya luas lahan pertanian tidak semakin banyak dialihfungsikan ke sektor industri, Bupati Jepara menginstruksikan pejabat terkait agar menyeleksi ketat izin pembangunan kawasan industri. "Selain proses per</p> <P>izinannya dipersulit, harus ada uji kelayakan," tandasnya.</p> </TEXT> </DOC>

22 14 Lampiran 2 Pasangan kueri uji dan dokumen relevan Kueri nilai jual komoditas rendah persediaan padi memadai sawah hancur terendam air sawah kering kekurangan air Dokumen Relavan balipost030608, BisnisIndonesia , gatra030408, indosiar071103, indosiar , indosiar240604, indosiar300304, indosiar , jurnalhorti113, kompas , kompas031100, kompas101004, kompas161000, kompas171002, kompas200803, kompas240803, kompas250901, kompas , kompas , kompas , mediaindonesia060803, mediaindonesia170303, mediaindonesia250304, mediaindonesia310503, okezone , panturanews220611, pertaniansehat , pertaniansehat , pikiranrakyat , pikiranrakyat240404, pikiranrakyat300604, poskota , republika020804, republika , republika060503, republika , republika , republika140503, republika , republika , republika , republika , situshijau15, situshijau , situshijau280203, situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka , suaramerdeka290303, suarapembaruan110903, suarapembaruan antarajawabarat211211, beritasore080711, bisnis_jabar191211, bisnisindonesia140911, deptan , eksposnews161211, gatra161711, gatra190902, gatra , gatra230408, gatra230802, globalnews190911, harian_aceh291011, incestordaily310711, indosiar221003, indosiar240703, kbrh211111, kompas160704, kompas221011, kompas260711, korankaltim260811, malukunews090811, mediaindonesia231111, menkokesra71211, okezone080711, okezone130711, okezone31701, poskota , radarbangka040811, republika061102, republika , republika , republika , republika , sinartani1075, suaramerdeka090911, suaramerdeka170602, tempointeraktif , tempointeraktif , tribunnews300711, vivanews122111, vivanews gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104, indosiar , indosiar031203, indosiar , indosiar130104, indosiar130504, indosiar140204, indosiar160304, indosiar180304, kompas170504, kompas210403, mediaindonesia , mediaindonesia130210, mediaindonesia140203, mediaindonesia170209, mediaindonesia180110, mediaindonesia200110, okezone , okezone , okezone , okezone , pertaniansehat , pikiranrakyat , pikiranrakyat , pikiranrakyat , pikiranrakyat , radarbogor020110, situshijau , suarakarya , suarakarya , suaramerdeka251001, surabayapost29010, tempointeraktif deptan , gatra060907, gatra070203, gatra190802, gatra210704, gatra270709, gatra301002, gatra , gatra310709, indosiar010903, indosiar040903, indosiar170603, indosiar180304, indosiar220503, indosiar240703, indosiar , indosiar , indosiar310504, kompas030704, korantempo3, mediaindonesia , mediaindonesia110703, mediaindonesia160603, mediaindonesia210709, mediaindonesia240503, mediaindonesia300909, mediaindonesia310503, okezone , okezone , okezone , okezone , okezone , okezone , okezone , radarbogor050608, radarbogor , republika , republika ,

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN PENDEKATAN BOOLEAN LEONARDO SIAGIAN

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN PENDEKATAN BOOLEAN LEONARDO SIAGIAN EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN PENDEKATAN BOOLEAN LEONARDO SIAGIAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Oleh: Andika Wahyu Agusetyawan G64101007 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

2. Ketepatan untuk setiap jawaban.

2. Ketepatan untuk setiap jawaban. dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA Broto Poernomo T.P. 1 dan Ir. Gunawan 2 1 Teknik Informtika Sekolah Tinggi

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query 5 Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Sistem Operasi Windows 7. Sphinx Search. XAMPP versi 1.7.3. Named Entity Tagger bahasa Indonesia. Perangkat keras yang digunakan

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN KAMUS DWIBAHASA NETTY LAORA SITOHANG

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN KAMUS DWIBAHASA NETTY LAORA SITOHANG EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN KAMUS DWIBAHASA NETTY LAORA SITOHANG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUANN ALAM INSTITUT PERTANIAN

Lebih terperinci

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK

Lebih terperinci

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 IR MODEL Mengapa Model? 1 Banyak pengembangan teknologi IR seperti web search, translator system, spam filter, dsb membutuhkan teori dan percobaan.

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN MENGGUNAKAN METODE N-GRAM DAN EKSPANSI KUERI Disusun oleh : Dwi iswanto L200100014 Pembimbing : Husni Thamrin PROGRAM STUDI INFORMATIKA FAKULTAS

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi Proses Temu-Kembali KULIAH #5 Evaluasi IR query : sby query: flu burung Evaluasi IR Indikator yang dapat diukur: Seberapa cepat dia meng-indeks Banyaknya dokumen/jam Terkait

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 4 TOLERANCE RETRIEVAL Tugas Extended Boolean Pelajari Extended Boolean Mengapa dikembangkan model ini? Bagaimana prinsip dasar model ini? Bagaimana

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

KINERJA PROTOKOL ROUTING DALAM KOMUNIKASI REAL-TIME PADA JARINGAN BERKABEL DAMAS WIDYATMOKO

KINERJA PROTOKOL ROUTING DALAM KOMUNIKASI REAL-TIME PADA JARINGAN BERKABEL DAMAS WIDYATMOKO KINERJA PROTOKOL ROUTING DALAM KOMUNIKASI REAL-TIME PADA JARINGAN BERKABEL DAMAS WIDYATMOKO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 KINERJA

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Identifikasi Masalah Merumuskan Masalah Study Literatur Perancangan Struktur Menu Interface Analisa

Lebih terperinci

Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita

Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita [VOL.VI NO.2 AGUSTUS 2017] JURNAL SISTEM INFORMASI STMIK ANTAR BANGSA Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita Jamal Maulana

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Julio Adisantoso, Ahmad Ridha, Andika Wahyu Agusetyawan Staf Departemen Ilmu Komputer, Fakultas Matematika

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ LEMBAR JUDUL SKRIPSI DENI SUPRIAWAN NIM. 1108605001 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci