PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI"

Transkripsi

1 PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Pencarian Teks Bahasa Indonesia Pada Mesin Pencari Berbasis Soundex adalah benar karya saya denganarahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir disertasi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Edo Apriyadi NIM G

4 ABSTRAK EDO APRIYADI. Pencarian Teks Bahasa Indonesia pada Mesin Pencari Berbasis Soundex. Dibimbing oleh JULIO ADISANTOSO Algoritme Soundex merupakan cara untuk menyelesaikan kesalahankesalahan penulisan kueri pada mesin pencari. Pada penelitian ini, akan dibuktikan apakah algoritme Soundex dapat diaplikasikan pada dokumen berbahasa Indonesia. Algoritme Soundex yang digunakan adalah Soundex Fusion karena algoritme ini merupakan gabungan Soundex Russell, Soundex Celko, dan Soundex Fuzzy. Pembobotan menggunakan algoritme BM25 sebagai nilai relevansi terhadap dokumen, dan algoritme Dice coefficient sebagai nilai relevansi terhadap kode Soundex yang dihasilkan. Penggunaan algoritme Soundex untuk kueri lebih dari satu kata tidak memberikan hasil yang baik. Hasil dari rata-rata precision untuk query menggunakan satu kata adalah Sedangkan untuk query lebih dari satu kata hanya diperoleh nilai rata-rata precision sebesar Ini disebabkan karena pada penelitian ini hanya menghitung tingkat kesamaan kode per kata. Kata Kunci : Temu-Kembali Informasi, Algoritme Soundex, Algoritme Holmes Soundex, Algoritme Fonetik ABSTRACT EDO APRIYADI. Indonesian Text Search on Soundex-Based Search Engines. Supervised by JULIO ADISANTOSO Soundex algorithm is one way to rectify the misspelling or mistyping in writing a query on search engines. In this study, we will conduct empirical validation to establish the applicability of Soundex algorithm to Indonesian document. The algorithm used is the Fusion Soundex algorithm because it is a combination of Russell Soundex, Celko Soundex, and Fuzzy Soundex. The document relevance value is measured by BM25 weighting algorithm, while the generated code relevance value is by DiceCoefficient algorithm. The results show that single word query outperformed double or more words one with the average precisions and 0.145, respectively. This is because only single word was considered. Keywords:Information Retrieval, Soundex Algorithm, Holmes Soundex Algorithm, Phonetic Algorithm

5 PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6 Penguji : 1. Irman Hermadi, SKom MSc 2. Karlisa Priandana, ST MEng

7 Judul Skripsi : Pencarian Teks Bahasa Indonesia pada Mesin Pencari Berbasis Soundex Nama : Edo Apriyadi NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan November 2012 ini ialah temu-kembali informasi, dengan judul Pencarian Teks Bahasa Indonesia pada Mesin Pencari Berbasis Soundex. Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso MKom selaku pembimbing, Bapak Ahmad Ridha MS dan Bapak Sony Hartono Wijaya MKom selaku penguji, juga teman-teman seperjuangan Tedy Saputra, Achmad Manshur Zuhdi, Rahmatika Dewi, Fitria Rahmadina, Arini Daribti Putri, dan Damayanti Elisabeth Sibarani atas kebersamaannya selama ini. Terima kasih kepada Yoan Puspitasari beserta keluarga atas semangat, doa, dan motivasinya selama ini. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat. Bogor, Juli 2013 Edo Apriyadi

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi ABSTRAK ii PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 1 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 2 Pengumpulan Dokumen 2 Tokenisasi 2 Pembuangan Stopwords 3 Pemilihan Fitur 4 Pembobotan 4 Perubahan Kata ke Kode Soundex 5 Similarity 8 Evaluasi 11 HASIL DAN PEMBAHASAN 11 Pengumpulan Dokumen 11 Tokenisasi 12 Pembuangan Stopwords 12 Pemilihan Fitur 12 Pembobotan 13 Perubahan Kata ke Kode Soundex 13 Similarity 14 Evaluasi 16 SIMPULAN DAN SARAN 18 Simpulan 18 Saran 18 DAFTAR PUSTAKA 18 LAMPIRAN 20

10 DAFTAR TABEL 1. Klasifikasi Error (Damerau 1964) 6 2. Tabel pengelompokan konsonan algoritme Soundex Russell dan Celko (Holmes & McCabe 2002) 7 3. Translasi Soundex Fuzzy (Holmes dan McCabe 2002) 7 4. Translasi Soundex Fusion 8 5. Substitusi n-gram 9 6. Fusion Soundex Translate Query Soundex Fusion Translate 15 DAFTAR GAMBAR 1. Diagram metodologi penelitian 3 2. Contoh dokumen 4 3. Algoritme Soundex Russell 6 4. Algoritme perhitungan Soundex untuk satu kata Algoritme Perhitungan Soundex untuk lebih dari satu kata Proses pencarian kata berdasarkan kode soundex Perhitungan Okapi BM Grafik recall precision untuk 1300 dokumen Grafik recall precision untuk 1000 dokumen 17 DAFTAR LAMPIRAN 1. Antarmuka Implementasi Gugus Query dan Jawaban Untuk Lebih Dari Satu Kata Gugus Query dan Jawaban Untuk Satu Kata 21

11 PENDAHULUAN Latar Belakang Sistem temu-kembali informasi yang dapat menampilkan hasil pencarian teks bahasa Indonesia seringkali menemukan masalah antara lain kesalahan penulisan, kesalahan pengejaan, dan lain-lain. Kesalahan yang dilakukan pengguna dalam penulisan query menyebabkan informasi yang ditemukembalikan tidak relevan. Masalah kesalahan dalam penulisan atau pengejaan tersebut dapat diselesaikan dengan algoritme kesamaan fonetik, diantaranya Soundex, phoenix, Pfeifer, dan Soundex Fuzzy (Holmes dan McCabe 2002). Algoritme Soundex telah dikembangkan untuk query dalam bahasa Indonesia dengan memodifikasi pengelompokan konsonan sesuai dengan kaidah bahasa Indonesia oleh Primasari (1997) dengan menggunakan konversi nilai biner untuk sistem perangkingannya. Ternyata data tidak berpengaruh terhadap jenis bahasa karena algoritme Soundex dalam bahasa Inggris dapat bekerja dengan baik pada bahasa Indonesia. Hal ini karena bahasa Inggris dan Indonesia menggolongkan konsonannya dengan keistimewaan yang sama. Penggunaan algoritme untuk proses Soundex masih menemui beberapa kendala. Penggunaan algoritme Soundex seperti Fuzzy, Russell, dan Celko memiliki nilai kesalahan yang cukup besar. Nilai precision yang dihasilkan untuk algoritme Fuzzy, Russell, dan Celko pada penelitian Holmes dan McCabe (2002) hanya dibawah 0.5. Penelitian Holmes dan McCabe (2002) juga memperkenalkan algoritme baru yang memperbaiki kesalahan-kesalahan yang ada pada algoritme Soundex sebelumnya. Penelitian ini menggabungkan beberapa algoritme sebelumnya yaitu Fuzzy, Russell, dan Celko yang dibantu dengan tehnik code shift. Perhitungan nilai kesamaan antara kode Fuzzy menggunakan Dice coefficient. Penelitian ini mampu meningkatkan nilai recall menjadi 96%. Teknik ini disebut dengan Soundex Fusion. Penelitian tentang peningkatan kinerja sistem pencarian berbasis Soundex telah banyak dikembangkan. Penelitian ini memperbaiki teori sebelumnya untuk pencarian kesamaan fonetik. Tujuan dari penelitian tersebut umumnya sama yaitu untuk meningkatkan nilai recall dan precision yang dapat meningkatkan kinerja sistem pencarian. Tetapi penelitian tersebut sebagian besar menggunakan kata berbahasa Inggris dan hanya menggunakan sebuah nama untuk pencarian, sedangkan untuk seluruh kata dalam bahasa Indonesia, pengucapan huruf mungkin akan berbeda. Kombinasi yang digunakan dalam bahasa Indonesia seringkali tidak ditemukan pada bahasa Inggris. Perumusan Masalah Penelitian ini dilakukan untuk mengatasi masalah : 1. Apakah algoritme Soundex sesuai untuk teks bahasa Indonesia? 2. Apakah algoritme Soundex Fusion akan tetap menghasilkan nilai recall dan precision yang sesuai dengan penelitian Holmes & McCabe (2002) terhadap teks bahasa Indonesia?

12 2 Tujuan Penelitian Penelitian ini bertujuan untuk mengimplementasikan algoritme Soundex Fusion terhadap teks bahasa Indonesia. Manfaat Penelitian Penelitian ini diharapkan dapat membantu seseorang ketika melakukan pencarian teks berbahasa Indonesia pada mesin pencari. Diharapkan penelitian ini bermanfaat untuk mesin pencari dengan penambahan pembetulan pada kesalahankesalahan bahasa alami seperti kesalahan penulisan dan pengejaan. Pengurangan terhadap tingkat kesalahan tersebut akan meningkatkan hasil pencarian yang lebih relevan untuk pengguna. Ruang Lingkup Penelitian Jenis algoritme yang digunakan dalam penelitian ini adalah algoritme Soundex Fusion hasil penelitian Holmes dan McCabe (2002). Koleksi dokumen dan query yang digunakan adalah dokumen yang mengandung teks bahasa Indonesia METODE Untuk melakukan penelitian ini diperlukan beberapa tahap yang akan dijalankan seperti pengumpulan dokumen, indexing, perubahan kata menjadi kode Soundex, similarity, dan evaluasi (Gambar 1). Pengumpulan Dokumen Penelitian ini diawali dengan pengumpulan dokumen yang memiliki teks berbahasa Indonesia. Dokumen yang diambil adalah dokumen berita yang terdapat di Internet berupa berita olahraga, berita kriminal, dan lain-lain. Jumlah dokumen yang digunakan sebanyak 1300 dokumen. Contoh dokumen dicantumkan pada Gambar 2. Tokenisasi Tokenisasi merupakan sebuah algoritme untuk mendapatkan token dari suatu berkas teks (Manning et al. 2008). Tokenisasi melakukan pemisahan terhadap isi dokumen menjadi unit yang paling kecil atau biasa disebut juga kata. Tokenisasi dapat menangani pengolahan linguistik tambahan seperti normalisasi tanggal, stemming, dan lain-lain. Tokenisasi dapat diperluas untuk menangani sumber data baru, jenis file baru, dan bahasa baru (Dumais et al. 2003). Proses tokenisasi dilakukan untuk seluruh korpus yang telah tersedia.

13 3 Pengumpulan Dokumen Tokenisasi Query Pembuangan Stopwords Indexing Pemilihan Fitur Pembobotan Indexing Perubahan kata ke kode Soundex Similarity Evaluasi Gambar 1 Diagram metodologi penelitian Pembuangan Stopwords Stopwords merupakan kata umum yang biasanya sering muncul dalam jumlah besar pada suatu dokumen tetapi tidak memiliki makna. Stopwords dibuang pada sistem temu-kembali informasi karena dianggap akan mengurangi nilai akurasi dari suatu informasi yang di temu-kembalikan (Manning et al. 2008). Stopwords dihapus selama pengindeksan sebelum dimasukkan query pada suatu sistem temu-kembali informasi. Penggunaan stopwords tunggal yang tetap pada beberapa dokumen yang berbeda akan mempengaruhi efektivitas dari hasil yang ditemu-kembalikan(lo et al. 2005). Contoh dari kata stopwords antara lain ke, dan, atau, dan lain-lain. Kata stopwords tidak selalu sebagai kata hubung, dapat sebagai kata-kata biasa yang banyak ditemukan di dokumen tetapi tidak relevan terhadap ciri dari dokumen tersebut.

14 4 Gambar 2 Contoh dokumen Pemilihan Fitur Pemilihan istilah untuk dijadikan indeks merupakan isu yang penting dalam sistem temu-kembali informasi. Proses pemilihan istilah ini disebut dengan seleksi fitur. Seleksi fitur dapat menyebabkan berkurangnya ukuran indeks sehingga proses retrieval suatu dokumen menjadi lebih cepat. Tugas utama seleksi fitur adalah menentukan istilah-istilah yang layak dijadikan term index atau membuang istilah-istilah yang tidak mungkin dijadikan indeks dari sebuah dokumen. Pada penelitian ini digunakan inverse document frequency (IDF) sebagai teknik pemilihan fitur. IDF mampu menentukan bobot term yang ada pada sebuah dokumen. Bobot pada term menandakan tingkat relevan suatu term terhadap dokumen. Suatu term dengan nilai IDF kecil berarti term tersebut tidak mungkin dijadikan indeks dari dokumen. Pada penelitian ini digunakan threshold sebesar Term yang memiliki nilai IDF yang lebih kecil dari nilai threshold akan dihilangkan. Dengan ukuran indeks yang lebih kecil proses retrieval suatu dokumen akan lebih cepat. IDF dari kata t adalah : idf t = log N df t (1) dengan N adalah jumlah dokumen yang tersedia, dan df t adalah banyaknya dokumen yang memiliki term t. Teknik ini berguna untuk dokumen yang tidak memiliki panjang yang sama, tetapi tetap efektif dalam penentuan bobot suatu term pada dokumen (Manning et al. 2008). Pembobotan Pembobotan merupakan tahap yang paling penting dalam proses pengindeksan. Tujuan dari proses ini adalah untuk memberikan nilai bobot pada suatu term untuk merepresentasikan ciri dari suatu dokumen. Nilai yang didapatkan pada proses pembobotan akan membentuk suatu sistem peringkat,

15 yang akan mengurutkan term terhadap dokumen dengan tingkat kemiripan tertinggi ke tingkat kemiripan terendah. Pemeringkatan adalah mekanisme pengurutan term berdasarkan tingkat relevansi antara dokumen tersebut dengan query yang diberikan oleh pengguna. Term frequency (TF) dan IDF merupakan teknik pembobotan yang sering digunakan untuk membentuk suatu sistem temu-kembali informasi. Term Frequency Term frequency (TF) merupakan suatu teknik pembobotan yang menghitung jumlah kemunculan term pada suatu dokumen d. Cara menghitung TF adalah dengan menghitung jumlah kemunculan kata yang telah diproses pada proses sebelumnya lalu hitung jumlah kemunculannya pada masing-masing dokumen. Hasilnya dapat diurutkan sesuai dengan jumlah kemunculan suatu kata pada dokumen. Pada perkembangan teknik ini, dibutuhkan nilai threshold untuk memotong sebuah index yang telah dibobotkan pada bagian atas atau bawahnya. Ini berguna untuk mengambil suatu term yang benar-benar berpengaruh pada suatu dokumen yang nantinya akan dijadikan sebuah ciri dari suatu dokumen (Manning et al. 2008). Kelemahan dari teknik ini adalah ketika beberapa dokumen tidak memiliki panjang dokumen yang sama, kesesuaian teknik TF menjadi samar. Misalnya pada dokumen pertama yang memiliki panjang dokumen lebih besar dibandingkan dokumen kedua, kata informasi mungkin lebih banyak dimiliki oleh dokumen pertama. Padahal belum tentu kata tersebut dapat dijadikan suatu ciri untuk dokumen pertama. Inverse Document Frequency Inverse document frequency (IDF) merupakan suatu teknik perbaikan dari TF. IDF menghitung jumlah dokumen yang memiliki suatu term tertentu dibandingkan dengan jumlah keseluruhan dokumen. Rumus dari IDF sesuai dengan Persamaan 1. Pada kenyataannya hasil dari IDF hanya melihat dari sisi dokumen sehingga TF dan IDF digabungkan menjadi : 5 tf.idf t,d = tf t,d idf t dengan tf t,d adalah hasil TF untuk kata t pada dokumen d, dan idf t adalah hasil IDF untuk kata t. Perubahan Kata ke Kode Soundex Soundex merupakan algoritme fonetik yang digunakan untuk mengurangi kesalahan pengetikan query akibat kesalahan pengucapan. Algoritme Soundex dikembangkan pertama kali oleh Russell (dalam Holmes dan McCabe 2002) dengan membuat pengkodean untuk kata yang memiliki lafal sama. Pendekatan algoritme Soundex tradisional masih memiliki kelemahan. Dengan memberikan sebuah kode fonetik untuk sebuah kata berarti menganggap algoritme tersebut cocok untuk segala kondisi, padahal tidak demikian. Sebagai alternatif, algoritme

16 6 Tabel 1 Klasifikasi Error (Damerau 1964) Type of error Baseline name Deviation Insertion Fisher Fischer Omission Johnston Johnson Substitution Catherine Katherine Transposition Hagler Halger yang ada bisa digabung supaya lebih baik dan cocok di segala kondisi (Holmes dan McCabe 2002). Pada perkembangannya, teknik Soundex sudah memiliki banyak perbaikan. Kemunculan algoritme baru tentang pengkodean Soundex telah berkembang untuk menghasilkan nilai precision dan recall yang lebih baik. Algoritme yang muncul antara lain adalah Russell, Celko, Fuzzy, dan Soundex Fusion. Teknik Soundex memiliki spelling errors (Tabel 1) yang masih menjadi masalah utama dalam algoritme Soundex. Soundex Russell Algoritme Soundex Russell adalah sebuah algoritme Soundex pertama kali yang dikembangkan dengan melakukan pengelompokan terhadap enam klasifikasi fonetik dari suara manusia (bilabial, labiodental, dental, alveolar, velar, dan glottal), dimana klasifikasi tersebut berdasarkan posisi bibir dan lidah untuk membuat suara (Arifin, 2006). Untuk suatu kata t algoritme Soundex Russell adalah sebagai berikut: 1. Ubah seluruh huruf pada kata t menjadi huruf kapital 2. Buang seluruh tanda baca pada kata t 3. Huruf pertama pada kata t tidak diikutkan dalam konversi kode 4. Konversi kata t ke kode Soundex (Tabel 2). 5. Jika terdapat kode yang sama dengan kode sebelumnya, maka kode tersebut dibuang 6. Buang semua kode '0' 7. Panjang kode Soundex maksimal empat karakter. Jika kurang dari empat karakter, maka ditambahkan angka 0. Jika lebih dari 4 karakter, maka 4 karakter yang paling awal yang diambil. Gambar 3 Algoritme Soundex Russell Soundex Celko Pada umumnya, Soundex Celko tidak jauh berbeda dibandingkan dengan algoritme Soundex Russell (Tabel 2). Tetapi, pada Soundex Celko tidak mengubah sebuah konsonan menjadi angka. Ada beberapa huruf yang menjadi gabungan suatu huruf yang lain. Aturan ini didasarkan pada penelitian Celko (Holmes dan McCabe 2002) untuk meningkatkan nilai relevansi suatu query. Celko mengembangkan algoritme untuk perubahan suara huruf yang bergantung dari n-gram. Sebagai contoh, algoritme ini akan mengganti huruf t dengan s ketika ditemukan pada trigam nst, atau mengganti ca dengan ka dan seterusnya akan mengurangi nilai error substitutions seperti yang dijelaskan

17 oleh Damerau (1964). Berikut adalah aturan yang dijelaskan oleh Celko (Holmes & McCabe 2002) : 1. Prefix substitution, pergantian yang terbatas pada prefiks. Contohnya adalah mengganti Mac dengan Mcc. 2. Suffix substitution, yaitu pergantian pada suffiks. Contohnya adalah mengganti terminal t ketika didahului oleh huruf n atau ns. 3. Non-positional substitution. Kebanyakan substitusi n-gram memiliki rule yang tidak memiliki ketergantungan pada kata. Contohnya, adalah menempatkan ca dengan ka. 4. Silent letters. Contohnya adalah mengubah sch dengan sss. Contoh kata yang menggunakan ini adalah Bush dan Busch, Fisher dan Fischer. 7 Tabel 2 Tabel pengelompokan konsonan algoritme Soundex Russell dan Celko (Holmes & McCabe 2002) Alfabet Russell Celko A,I,U,E,O,H,W,Y 0 A,I,U,E,O,H,W,Y B,F,P,V 1 B,F,P,V C,G,J,K,Q,S,X,Z 2 C,G,J,K,Q,S,X,Z D,T 3 D,T L 4 L M,N 5 M,N R 6 R Soundex Fuzzy Pada Soundex Fuzzy, aturan substitusi n-gram mengikuti aturan Soundex Celko. Tetapi, huruf yang diambil untuk proses Soundex ditambah menjadi lima huruf. Dengan menambahkan huruf menjadi lima pada terjemahan menggunakan Soundex Fuzzy, kesalahan yang terdapat pada akhir kata dapat diidentifikasi. Tabel 3 menjelaskan translasi untuk Soundex Fuzzy. Tabel 3 Translasi Soundex Fuzzy (Holmes dan McCabe 2002) Kelompok Alfabet 0 A,I,U,E,O,H,W,Y 1 F,V 2 S,X,Z 3 L 4 R 5 M,N 6 B,C,D,P,K,T,G,J,Q Soundex Fusion Dengan mengkombinasikan aturan Fuzzy, Celko, dan Russell, Holmes dan McCabe mencoba untuk menghasilkan kode Soundex yang beraneka ragam pada kata yang dicoba. Metode Fusion menggunakan Dice coefficient dan n-gram

18 8 Tabel 4. Translasi Soundex Fusion Tipe Soundex Kristen Krissy Christen Fuzzy K6935 K6900 K6935 Fuzzy K693 K690 K693 Fuzzy K69 K69 K69 Fuzzy K6 K6 K6 Celko KRST KRSY CRST Celko KRS KRS CRS Celko KR KR CR Russell K623 K620 C623 Russell K62 K62 C62 Russell K6 K6 C6 menghasilkan nilai kemiripan dari sebuah kode Soundex (Holmes dan McCabe 2002). Contoh translate menggunakan Soundex Fusion pada Tabel 4. Pada perkembangannya, algoritme yang dilakukan oleh Holmes dan McCabe (2002) menggunakan code shifting. Code shifting adalah algoritme yang membagi kode menjadi beberapa panjang kode. Dengan menggunakan code shifting, kita dapat menemukan kesalahan pada akhir sebuah kata. Code shifting digunakan untuk mengurangi insertion dan omission errors yang dijelaskan Damerau (1964). Code shifting dapat meningkatkan nilai recall dan precision hinggal 96% (Holmes & McCabe 2002). Tabel 5 menjelaskan untuk perhitungan substitusi n-gram pada translasi menggunakan algoritme Soundex Fusion Similarity Nilai kemiripan digunakan untuk membandingkan hasil query dengan inverted index yang sudah diubah berdasarkan kode Soundex. Nilai kemiripan akan berpengaruh terhadap hasil yang ditemu-kembalikan oleh sistem. Cara menghitung nilai kemiripan dengan menggunakan Dice coefficient dan Okapi BM25. Dice coefficient merupakan perhitungan kemiripan untuk kode Soundex query dengan kode Soundex pada database, sedangkan BM25 untuk menghitung hubungan antara suatu kata dengan dokumen. Dice Coefficient Perhitungan Dice coefficient digunakan untuk menghitung nilai kemiripan antara kedua kode Soundex. Rumus dari Dice coefficient adalah sebagai berikut δ = (2X) (α + β) dengan α adalah jumlah kode Soundex pada query, β adalah jumlah kode Soundex pada term yang ada di inverted index, dan X adalah jumlah irisan yang sama antara query dan term. Perhitungan Dice coefficient digunakan pada algoritme Fuzzy dan Fusion. Khusus untuk algoritme Fuzzy, dilakukan prosen n-gram substitution terlebih dahulu pada proses translate sebelum menghitung nilai similarity.

19 9 Tabel 5 Substitusi n-gram N-grams Prefix Suffix Any CA KA CC, CK KK CE SE CH KK CHL, CL KL CHR, CR KR CI SI CO KO CS, CZ, TS, TZ SS CU KU CY SY DG GG GH HH GN NN HR, WR RR HW WW KN, NG NN MAC, MC MK NST NSS NT TT PF, PH FF RT, RDT RR SCH SSS TIO, TIA SIO TCH CHH Okapi BM25 Perhitungan Okapi BM25 berguna untuk menghitung hubungan antara query dengan dokumen. Rumus untuk Okapi BM25 adalah sebagai berikut (Manning et al. 2008). BM25= ( log N- n t ). (k 1+ 1)f d,t. (k 3+ 1)f q,t t Q n t K+ f d,t k 3 + f q,t dengan n t adalah total dokumen yang mengandung term tersebut, N adalah jumlah total keseluruhan dokumen, f d,t adalah jumlah term t yang muncul dalam dokumen d, dan f q,t adalah jumlah term t yang muncul pada query q, dan nilai K (Manning et al. 2008) yaitu K= k 1.( 1-b + b.dl d avl ) dengan dl d adalah panjang dokumen d, avl adalah panjang rata-rata seluruh dokumen, dan k 1, k 3, b adalah tuning parameters. Tuning parameters adalah suatu variabel yang nilai nya dapat kita ubah sesuai dengan kebutuhan kita. Pada percobaan ini nilai k 1 = 1.2, k 3 = 1.2, dan b = 0.75.

20 10 Query yang digunakan pada percobaan ini 60 query. 30 query menggunakan satu kata dan 30 lainnya menggunakan lebih dari satu kata. Untuk perlakuan antara query tersebut berbeda-beda. 1. Input query q satu kata 2. Ubah query q ke kode Soundex Fusion 3. Cari kata yang memiliki kode Soundex yang mirip dengan query q 4. Untuk setiap kata yang didapat dari hasil pencarian, ubah ke kode Soundex 5. Hasil kata dihitung nilai Dice coefficient terhadap query q dan Okapi BM25 terhadap dokumen. 6. Untuk setiap kata t dan dokumen d, dihitung hasil kali dari Dice coefficient dan BM25 7. Untuk setiap record data yang di retrieve, jika memiliki dokumen yang sama, dihitung rata-rata dari hasil kali Dice coefficient dan BM25 8. Urutkan hasil perhitungan langkah sebelumnya 9. Cari dokumen berdasarkan dokumen ID dan urutan lalu ditampilkan ke pengguna Gambar 4 Algoritme perhitungan Soundex untuk satu kata 1. Input query q lebih dari satu kata 2. Pisah query q menjadi satu kata query q1, q2, q3, dan selanjutnya. 3. Ubah query q1 ke kode Soundex Fusion 4. Cari kata yang memiliki kode Soundex yang mirip dengan query q1 5. Untuk setiap kata yang didapat dari hasil pencarian query q1, ubah ke kode Soundex 6. Hasil kata dihitung nilai Dice coefficient terhadap query q dan Okapi BM25 terhadap dokumen. 7. Untuk setiap kata t dan dokumen d, dihitung hasil kali dari Dice coefficient dan BM25 8. Ulangi langkah 3 sampai 7 untu query q2, q3, dan selanjutnya. Simpan data pada satu tempat yang sama dengan q1. 9. Untuk setiap record data yang di retrieve, jika memiliki dokumen yang sama, dihitung rata - rata dari hasil kali Dice coefficient dan BM Urutkan hasil perhitungan langkah sebelumnya 11. Cari dokumen berdasarkan dokumen ID dan urutan lalu ditampilkan ke pengguna. Gambar 5 Algoritme Perhitungan Soundex untuk lebih dari satu kata Untuk query satu kata hasil pencarian memiliki informasi yang lebih relevan. Ini disebabkan pencarian Soundex hanya terpusat pada satu kata (Gambar 4). Query dengan lebih dari satu kata diperlukan pemisahan kata terlebih dahulu lalu dicari untuk masing-masing kata dalam query tersebut menggunakan algoritme Soundex. Hasil dari masing-masing kata query dikumpulkan dalam satu tempat lalu diurutkan (Gambar 5).

21 11 Evaluasi Recall dan precision adalah dua ukuran yang umum digunakan untuk mengevaluasi kualitas dari temu-kembali informasi. Dalam temu-kembali informasi, precision didefinisikan sebagai jumlah dari dokumen relevan yang ditemu-kembalikan dibagi dengan jumlah total dokumen yang ditemu-kembalikan dari hasil pencarian. Recall didefinisikan sebagai jumlah dari dokumen relevan yang ditemu-kembalikan dibagi dengan jumlah total dokumen relevan yang ada dalam koleksi. Recall dan precision dapat dinyatakan sebagai berikut (Baeza-Yates dan Ribeiro-Neto 1999). A R Recall = R A R Precision = A dengan A adalah jumlah dokumen yang ditemukan, R adalah jumlah dokumen yang relevan dalam koleksi, dan A R adalah jumlah dokumen yang relevan yang ditemukan. Menurut Baeza-Yates dan Ribeiro-Neto (1999), temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai recall dan precision yang berbeda untuk masing-masing query. Average precision (AVP) dengan interpolasi maksimum diperlukan untuk menghitung rata-rata precision pada berbagai 11 tingkat recall. Perhitungan AVP ditunjukkan oleh rumus sebagai berikut: P(r j ) = N q i=1 P i (r) N q dengan P(r j ) adalah nilai AVP pada tingkat recall r, N q adalah jumlah query yang digunakan dan P i (r) adalah nilai precision pada level recall r untuk query ke-i. HASIL DAN PEMBAHASAN Pengumpulan Dokumen Dokumen yang digunakan untuk pengujian berjumlah 1300 dokumen dokumen pertanian berasal dari korpus yang tersedia di Laboratorium Temu Kembali Informasi dan 300 lainnya berasal dari portal berita online. Dokumen yang digunakan berformat plain text dengan struktur XML. Dokumen dikelompokkan menjadi tag-tag sebagai berikut: <document id= 1 ></document>, menunjukkan ID dari dokumen. <title></title>, menunjukkan judul dari dokumen. <content></content>, menunjukkan isi dari dokumen.

22 12 Dokumen yang telah terkumpul berupa file (xml) dimasukkan kedalam tabel dokumen pada database MySQL. Field pada tabel dokumen antara lain id dokumen, title, dan content. Judul berita akan dimasukkan pada field title. Isi dari berita akan dimasukkan pada field content. Selain dokumen yang telah disiapkan, pada 1000 dokumen pertanian tersebut juga ikut tersedia 60 query yang akan digunakan dalam pencarian, berikut dengan daftar dokumen yang relevan dari query-query tersebut. Query yang digunakan dibedakan menjadi dua bagian, query yang hanya memiliki lebih dari satu kata (Lampiran 2) dan query yang hanya memiliki satu kata (Error! Reference source not found.). Tokenisasi Setelah dokumen dimasukkan ke dalam database, kemudian dilakukan tokenisasi. Proses tokenisasi dilakukan dengan bantuan Sphinx Search karena tokenisasi dengan Sphinx tergolong mudah dan cepat dalam prosesnya. Selain itu, Sphinx juga mendukung pemrosesan dokumen yang berasal dari database. Sebelum dilakukan proses indexing, terlebih dahulu dilakukan konfigurasi pada Sphinx. File konfigurasi untuk Sphinx yang digunakan adalah file sphinxmin.conf.in. Pada file konfigurasi ini terdapat pengaturan koneksi database dan pengaturan lainnya termasuk jumlah minimal huruf pada kata yang akan diindeks. Kata yang diindeks adalah kata yang memiliki jumlah minimal 3 huruf, sehingga untuk kata yang kurang dari 3 huruf tidak akan diindeks. Setelah service dari Sphinx dibuat dan koneksi ke database untuk tabel document telah dibuat pada file konfigurasi Sphinx, proses indexing dapat dilakukan. Pada akhirnya didapatkan indeks kata yang berasal dari 1300 dokumen yang berada pada tabel document di dalam database. Proses tokenisasi dengan menggunakan Sphinx sangat membantu karena prosesnya sangat cepat dibandingkan dilakukan secara manual. Pembagian menggunakan Sphinx mengurangi tingkat kesalahan human error dalam proses tokenisasi. Tetapi pada Sphinx tidak dilakukan stemming untuk kata-kata yang memiliki imbuhan. Pembuangan Stopwords File yang berisi stopwords telah tersedia sebelumnya dan berjumlah 732 kata stopwords. Pada file konfigurasi Sphinx terdapat bagian untuk menentukan letak dari file stopwords yang berupa text file. Setelah dimasukkan path dari file stopwords tersebut, maka saat proses indexing dijalankan, kata-kata yang terdapat pada file stopwords tersebut otomatis tidak akan ikut terindeks. Akan tetapi, masih terdapat kata-kata yang mengandung angka, seperti tahun, tanggal lahir, dan angka lainnya. Kata yang mengandung angka tersebut tidak diperlukan karena pada query yang digunakan, tidak ada query yang memiliki angka. Angka-angka yang ikut terindeks tersebut dihilangkan.

23 13 Pemilihan Fitur Untuk setiap token yang didapatkan dihitung nilai IDF sesuai Persamaan 1. IDF digunakan untuk mencari token yang tidak penting dalam sebuah dokumen. Threshold yang digunakan pada tahap ini adalah 0,14. Untuk setiap token yang memiliki nilai IDF di bawah nilai threshold dihilangkan dari list token. Tahap ini membantu untuk pencarian informasi yang lebih relevan dengan membuang token di bawah nilai IDF tersebut. Penentuan nilai threshold diperhitungkan berdasarkan tingkat sebaran nilai IDF dari kata-kata yang didapat dari proses tokenisasi. Selain itu, diperhatikan pula nilai dari suatu kata yang terdapat pada query. Sebagai contoh untuk kata "pertanian" memiliki nilai IDF sebesar 0.14 tidak dilakukan proses pemilihan fitur. Ini disebabkan banyaknya query yang mengandung kata tersebut dan akan berpengaruh pada hasil penelitian jika kata tersebut dibuang. Atas pertimbangan tersebut maka nilai threshold ditetapkan sebesar 0.14 dengan 5 kata yang dihapus karena memiliki nilai IDF kurang dari Pembobotan Untuk meningkatkan hasil pencarian sebuah informasi dibutuhkan perhitungan pembobotan untuk setiap dokumen dan token. Tahap ini menggunakan perhitungan TF-IDF sebagai nilai bobot. Untuk setiap token dilakukan pencarian nilai TF pada setiap dokumen. Misalnya terdapat n kata untuk token t pada dokumen i. Hasil dari perhitungan IDF dikalikan dengan hasil TF untuk id dokumen dan id token yang sama. Hasil dari perhitungan TF-IDF ini disimpan dalam database. Karena format dari tabel TF-IDF sama dengan TF, maka nilai TF-IDF dimasukkan pada tabel TF dengan menambah field baru yaitu TF-IDF. Nilai TF-IDF, TF, dan IDF digunakan untuk proses perhitungan BM25 antara query dan dokumen. Proses penyimpanan nilai ini sangat berguna pada proses perhitungan karena akan mempercepat proses kalkulasi bobot dari dokumen yang ditemukan. Tabel 6 Fusion Soundex Translate Tipe Soundex Russell Russell Russell Celko Celko Celko Fuzzy Fuzzy Fuzzy Fuzzy Institut I523 I52 I5 INST INS IN I5266 I526 I52 I5

24 14 Perubahan Kata ke Kode Soundex Untuk setiap token, dilakukan konfersi ke seluruh algoritme kode Soundex. Diawali dengan Soundex Russell, setiap token memiliki kode Soundex Russell masing-masing dengan mengikuti aturan terjemahan Soundex Russell. Perubahan token ke Soundex Celko dan Soundex Fuzzy dilakukan seperti pada Soundex Russell. Tapi pada algoritme Celko dan Fuzzy, diperlukan aturan substitusi n- gram terlebih dahulu. Aturan ini diperlukan untuk mengurangi kesalahankesalahan translate ke kode Soundex pada konsonan yang dimungkinkan mirip dengan konsonan lainnya. Aturan ini dapat mengurangi kesalahan pada prefix dan suffix pada sebuah kata. Aturan ini pun dapat mengurangi konsonan yang memiliki ucapan yang sama ketika bersebelahan. Soundex Fusion berbeda dengan algoritme sebelumnya. Soundex Fusion memakai kode Russell, Celko, dan Soundex Fuzzy lalu melakukan pengurangan terhadap bit pada hasil translasi di setiap algoritme. Hasil dari translasi pada algoritme sebelumnya digunakan pada Soundex Fusion. Contoh untuk Soundex Fusion pada kata institut dijelaskan pada Tabel 6. Translasi kode Soundex dilakukan untuk seluruh token yang ada menggunakan algoritme Soundex Fusion. Hasil kode Soundex disimpan dalam database dalam field untuk semua jenis kode. Field "russell4" menyimpan kode Soundex Russell kata t sebanyak 4 bit. Begitupun dengan field "russell3", "russell2", "celko4", dan selanjutnya. Kode Soundex ini dibutuhkan untuk proses Soundex Fusion. Proses translate pun dilakukan untuk query. Pencarian kode Soundex yang mirip dilakukan dengan mencari kode Soundex yang sama dengan kata pada database minimal satu kode misalnya hanya untuk kode Soundex Russell dengan 4 bit saja, 3 bit saja, atau yang lainnya. Kata yang diambil akan diproses selanjutnya untuk proses perhitungan Dice coefficient. Similarity Gambar 6 Proses pencarian kata berdasarkan kode soundex Tahap ini menggunakan perhitungan Dice coefficient dan Okapi BM25 sebagai perhitungan tingkat kemiripan. Untuk query dilakukan translasi ke Soundex Fusion terlebih dahulu. Lalu dilakukan pencarian dengan kode Soundex Fusion pada database terhadap kode Soundex Fusion pada query (Gambar 6). Contohnya pada query instan akan membentuk kode Soundex Fusion dijelaskan pada Tabel 7.

25 Query yang sudah di-translate dilakukan pencarian kata pada database. Sebagai contoh, sebuah query "institut" akan menemukan kata "instan" karena memiliki beberapa kode Soundex yang sama. Perhitungan nilai Dice coefficient sebagai berikut : 15 Tabel 7 Query Soundex Fusion Translate Soundex Type Russell Russell Russell Celko Celko Celko Fuzzy Fuzzy Fuzzy Fuzzy Instan I523 I52 I5 INSN INS IN I5250 I525 I52 I5 δ = (2 7) ( ) = 0.7 Nilai tujuh didapatkan dari seberapa banyak kode query yang sama dengan kode term. Nilai sepuluh didapatkan dari banyaknya variasi kode pada sebuah kata tersebut. Pada penelitian ini nilai minimum dari Dice coefficient ditentukan sebesar 0.9. Pembatasan nilai Dice coefficient bermaksud untuk mempercepat proses perhitungan sehingga akan menghilangkan kata-kata yang tidak relevan. Setelah melakukan perhitungan Dice coefficient, dilakukan perhitungan Okapi BM25 untuk setiap kata yang relevan dengan query. Adapun nilai tuning parameters yang digunakan yaitu k 1 = 1.2, k 3 = 1.2, dan b = Untuk mempermudah perhitungan rumus dari BM25 dibagi menjadi tiga bagian. Bagian pertama yaitu menghitung nilai K, lalu perhitungan nilai part1 yaitu nilai IDF dari suatu term t. Part2 yaitu nilai k 1 yang dikalikan dengan TF suatu term t pada dokumen d dan dibagi dengan hasil dari nilai K dikurangi TF suatu term t pada dokumen d. Sedangkan untuk part3 memperhitungkan nilai k 3 dengan qt suatu term t pada dokumen d. BM25 akan didapatkan dengan mengalikan seluruh perhitungan part1, part2, dan part3 (Gambar 7). Hasil dari perhitungan Dice coefficient dan Okapi BM25 untuk setiap term t pada dokumen d akan dikalikan. Hasil dari perhitungan tersebut digunakan sebagai nilai dari similarity suatu query t terhadap dokumen d. Hasil tersebut akan diurutkan dari terbesar hingga terkecil untuk mengurutkan hasil pencarian. Jika pada hasil yang ditemukan ada beberapa term yang memiliki id dokumen Gambar 7 Perhitungan Okapi BM25

26 16 yang sama, nilai dari hasil perkalian Dice coefficient dan Okapi BM25 akan dihitung kembali untuk mencari rata-rata terhadap dokumen tersebut. Sebagai contoh jika suatu query Institut memiliki term yang relevan yaitu Instan dan Instuisi dan berada pada id dokumen yang sama, maka nilai dari perkalian Dice coefficient dan Okapi BM25 dari term Instan dan Instuisi akan diambil rata-rata. Seluruh perhitungan yang ada disajikan dalam sebuah software menggunakan platform website untuk mempermudah implementasi. User dapat menggunakan query sebagai bahan pencarian dokumen. Query akan diproses seluruhnya menggunakan website tersebut. Pada website, user dapat melihat hasil dokumen yang ditemukembalikan serta dapat melihat perhitungan dari masing-masing dokumen yang ditemu-kembalikan (Lampiran 1) Evaluasi Setelah dilakukan proses similarity dan didapatkan skor kesamaan antara query dengan dokumen yang ada, selanjutnya dilakukan proses evaluasi. Proses evaluasi dilakukan dengan mencari nilai precision dan nilai recall. Untuk setiap query, dihitung nilai precision pada setiap nilai recall standar (eleven standard recall), yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Setelah didapatkan nilai precision pada sebelas nilai recall untuk setiap query, kemudian dicari nilai average precision (AVP). Nilai inilah yang digunakan untuk mengetahui kinerja dari tiap-tiap perubahan nilai k 1 dan b yang diujikan.setelah didapatkan nilai precision pada sebelas nilai recall untuk setiap query, kemudian dicari nilai average precision (AVP). Dari percobaan yang dilakukan terhadap 30 query dengan jumlah kata lebih dari satu didapatkan nilai precision sebesar Sedangkan untuk 30 query dengan jumlah kata satu didapatkan nilai precision sebesar Percobaan ini dilakukan pula untuk 1000 dokumen yang didapat dari lab Temu Kembali Grafik Recall Precision 1300 Dokumen P R E C I S I O N 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 RECALL Banyak Kata Query Satu Kata Query Gambar 8 Grafik recall precision untuk 1300 dokumen

27 17 Grafik Recall Precision 1000 Dokumen P R E C I S I O N 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 RECALL Banyak Kata Query Satu Kata Query Gambar 9 Grafik recall precision untuk 1000 dokumen Informasi. Dari percobaan yang dilakukan terhadap 30 query dengan jumlah kata lebih dari satu didapatkan nilai precision sebesar Sedangkan untuk 30 query dengan jumlah kata satu didapatkan nilai precision sebesar Perbedaan ini disebabkan oleh banyak hal, seperti jumlah query yang lebih dari satu kata, dokumen tambahan sebanyak 300 dokumen tidak memiliki topik yang sama dengan 1000 dokumen yang ada sebelumnya, dan sistem pemeringkatan yang sulit dilakukan karena banyaknya term yang terkumpul dengan kode Soundex yang sama. Query yang digunakan lebih dari satu akan mempengaruhi hasil yang ditemukan oleh sistem. Ini disebabkan karena data yang disimpan pada database merupakan suatu kata, bukan suatu frasa ataupun kalimat. Sedangkan untuk membandingkan sebuah kode Soundex yang baik harus mengikuti jumlah kata dari query yang digunakan. Misalkan untuk sebuah query gagal panen, pada database harus disimpan sebuah data frasa seperti gagal pergi, gigi perih, dan lain-lain. Hal tersebut berguna untuk memperhitungkan seberapa besar nilai Dice coefficient dari dua kata tersebut. Tetapi pada penelitian ini, query yang digunakan akan dipisah menjadi satu kata. Misalkan untuk query gagal panen, akan dipisahkan menjadi gagal dan panen. Kata gagal memiliki Soundex yang relevan dengan kata gigi, guling, dan gagal, sedangkan untuk kata panen memiliki Soundex yang relevan dengan kata panas, pintu dan panen. Hasil dari kata yang relevan dari kedua kata query tersebut digabungkan dan dicari dokumen yang relevan berdasarkan nilai BM25 lalu diurutkan. Perhitungan ini yang menyebabkan perbedaan hasil antara query yang lebih dari satu kata dengan query yang hanya satu kata. Pencarian 300 dokumen tambahan dengan topik yang berbeda dari 1000 dokumen yang ada sebelumnya mempengaruhi hasil yang ditemukan. Terlihat pada hasil grafik untuk 1300 dokumen (Gambar 8) dengan grafik untuk 1000

28 18 dokumen saja (Gambar 9) memiliki perbedaan hasil. Percobaan yang hanya menggunakan 1000 dokumen memiliki hasil yang lebih baik dibandingkan dengan 1300 dokumen. Dapat disimpulkan bahwa dokumen yang berbeda topik tersebut merupakan noise pada percobaan ini. Ini karena kata-kata yang berada pada 300 dokumen tersebut banyak yang berbeda. Sedangkan query yang digunakan seluruhnya hanya relevan terhadap 1000 dokumen tersebut. SIMPULAN DAN SARAN Simpulan Hasil penelitian ini menunjukkan bahwa: 1. Telah dilakukannya algoritme Soundex dengan menggunakan Soundex Fusion terhadap dokumen teks Bahasa Indonesia. Algoritme Soundex Fusion dapat digunakan untuk dokumen teks Bahasa Indonesia. 2. Telah dilakukannya sistem pencarian berbasis Soundex Fusion terhadap dokumen teks Bahasa Indonesia dengan menggunakan nilai kesamaan Dice coefficient dan Okapi BM25. Dari percobaan yang dilakukan untuk 1300 dokumen terhadap 30 query dengan jumlah kata lebih dari satu didapatkan nilai precision sebesar dan untuk 30 query dengan jumlah kata satu didapatkan nilai precision sebesar Sedangkan percobaan yang dilakukan untuk 1000 dokumen terhadap 30 query dengan jumlah kata lebih dari satu didapatkan nilai precision sebesar dan untuk 30 query dengan jumlah kata satu didapatkan nilai precision sebesar Dari hasil tersebut dapat disimpulkan bahwa sistem pencarian berbasis Soundex Fusion tidak dapat bekerja dengan optimal untuk query dengan jumlah kata lebih dari satu. Ini disebabkan oleh term yang digunakan tidak memiliki frasa atau tidak memiliki hubungan kata dengan yang lainnya, keterbatasan karakter yang dimiliki oleh algoritme Soundex karena tujuan dari pembuatan algoritme Soundex bukan untuk mencari dokumen dengan teks tetapi dengan suara. Saran Terdapat beberapa hal yang dapat ditambahkan ataupun diperbaiki untuk penelitian-penelitian selanjutnya, di antaranya: Menggunakan dokumen dengan topik yang seragam dan tidak adanya kesalahan pengetikan agar hasil nilai Okapi BM25 sesuai dengan yang diharapkan. Menggunakan gabungan dari kata dan frasa sebagai term yang digunakan agar hasil dari Dice coefficient yang lebih baik Memilih term yang baik untuk pemrosesan Soundex agar tidak banyak term yang memiliki kode Soundex yang sama.

29 19 DAFTAR PUSTAKA Arifin SRZF Peranan substitusi n-grams dan code shift pada algoritme Soundex [skripsi]. Bogor (ID): Institut Pertanian Bogor. Baeza-Yates, Ribeiro-Neto Modern Information Retrieval. England: Addison-Wesly Publishing Company. Damerau FJ A technique for computer detection and correction of spelling errors. Communication of the ACM; 1964 Mar; New York, USA. New York (USA). Communication of the ACM. hlm Dumais S, Cutrell E, Cadiz JJ, Jancke G, Sarin R, Robbins DC Stuff I've seen: a system for personal information retrieval and re-use. di dalam 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval; 2003 Jul; Redmond (USA). hlm Holmes D, McCabe MC Improving precision and recall for Soundex retrieval. International Symposium on Information Technology; 2002 Apr 8-10; Las Vegas, USA. Las Vegas (USA). IEEE Computer Society. hlm Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge University. Primasari D Metode pencarian dan temu-kembali nama berdasarkan kesamaan fonetik [skripsi]. Bogor (ID): Institut Pertanian Bogor.

30 20 LAMPIRAN Lampiran 1 Antarmuka Implementasi

31 21 Lampiran 2 Gugus query dan jawaban untuk lebih dari satu kata Kueri Bencana kekeringan Dukungan pemerintah pada pertanian Flu burung Gabah kering giling Gugus jawaban gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar , indosiar310504, kompas210504, kompas250803, mediaindonesia , mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika , republika , republika , republika , republika , republika , republika , republika200603, republika , republika250604, republika270503, republika , situshijau , suarakarya , suarakarya , suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan indosiar070504, jurnal , kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika , republika , republika , situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka130902, wartapenelitian , wartapenelitian gatra220604, gatra , gatra , gatra300104, indosiar020304, indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka160204, suaramerdeka indosiar180603, indosiar240703, indosiar300304, kompas , kompas , kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika , republika , republika100804, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suaramerdeka

32 22 Lampiran 2 Lanjutan Kueri Gagal panen Impor beras Indonesia Industri gula Gugus Jawaban gatra070203, gatra190802, gatra , gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar , indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar , indosiar , kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia , mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika , republika , republika080703, republika , republika , republika , republika , republika200603, republika , republika , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan , suarapembaruan gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar , kompas , kompas , kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas , kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika , republika , republika090902, republika100703, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130104, suaramerdeka , suaramerdeka270601, suarapembaruan100903, suarapembaruan gatra200103, kompas031003, kompas250901, mediaindonesia , pikiranrakyat , republika , republika020804, republika090902, republika100902, republika , republika , republika301002, situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

33 23 Lampiran 2 Lanjutan Kueri Institut pertanian bogor Kelangkaan pupuk Kelompok masyarakat tani Laboratorium pertanian Gugus Jawaban gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas , kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia , republika , republika061003, republika , republika , republika , republika , republika , republika , republika , republika180303, republika180604, republika , republika , republika211002, republika , republika , situshijau070503, situshijau , situshijau , suarakarya , suarakarya , suarapembaruan150903, suarapembaruan indosiar010704, indosiar060204, indosiar , indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas , pikiranrakyat , republika050604, republika , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka bitraindonesia , indosiar , jurnal , kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas , kompas , kompas , replubika110804, republika030304, republika , republika , republika140703, republika151202, republika180303, republika , republika280703, republika , situshijau070503, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka260902, suarapembaruan090202, suarapembaruan balaipenelitian , gatra100203, indobic , indosiar010704, jurnal , kompas220801, kompas241203, kompas , mediaindonesia , republika , republika , republika , republika , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka031101

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

Code shift Asumsi-asumsi Pengaburan Kode Lingkungan Pengembangan HASIL DAN PEMBAHASAN Karakteristik Dokumen Perlakuan ( Treatment

Code shift Asumsi-asumsi Pengaburan Kode Lingkungan Pengembangan HASIL DAN PEMBAHASAN Karakteristik Dokumen Perlakuan ( Treatment 6 dengan FF. Jenis karakter substitusi dapat dilihat pada Tabel 6. Code shift Karakter yang dibuang dari lima bit kode dalam penelitian ini adalah karakter ke dua. Hal ini dengan pertimbangan pengucapan

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN

KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN Utis Sutisna 1), Julio Adisantoso 2) 1,2 Departemen Ilmu Komputer, Institut Pertanian Bogor Kampus Darmaga, Wing 20 Level

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

SISTEM TEMU KEMBALI NAMA ILMIAH DENGAN MENGGUNAKAN ALGORITME FONETIK WAHYU DIAS HARSOWIYONO

SISTEM TEMU KEMBALI NAMA ILMIAH DENGAN MENGGUNAKAN ALGORITME FONETIK WAHYU DIAS HARSOWIYONO SISTEM TEMU KEMBALI NAMA ILMIAH DENGAN MENGGUNAKAN ALGORITME FONETIK WAHYU DIAS HARSOWIYONO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 4 TOLERANCE RETRIEVAL Tugas Extended Boolean Pelajari Extended Boolean Mengapa dikembangkan model ini? Bagaimana prinsip dasar model ini? Bagaimana

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

IMPLEMENTASI ALGORITMA CAVERPHONE 2.0 UNTUK PENCARIAN KATA BERDASARKAN KEMIRIPAN PENGUCAPAN PADA APLIKASI KAMUS INGGRIS- INDONESIA

IMPLEMENTASI ALGORITMA CAVERPHONE 2.0 UNTUK PENCARIAN KATA BERDASARKAN KEMIRIPAN PENGUCAPAN PADA APLIKASI KAMUS INGGRIS- INDONESIA IMPLEMENTASI ALGORITMA CAVERPHONE 2.0 UNTUK PENCARIAN KATA BERDASARKAN KEMIRIPAN PENGUCAPAN PADA APLIKASI KAMUS INGGRIS- INDONESIA Andreas Tommy Christiawan, Arief Andy Soebroto, Achmad Ridok Prodi Teknik

Lebih terperinci

PENGEMBANGAN APLIKASI LOST & FOUND BERBASIS WEBSITE DENGAN FITUR PENCARIAN MENGGUNAKAN COSINE SIMILARITY. Tugas Akhir

PENGEMBANGAN APLIKASI LOST & FOUND BERBASIS WEBSITE DENGAN FITUR PENCARIAN MENGGUNAKAN COSINE SIMILARITY. Tugas Akhir PENGEMBANGAN APLIKASI LOST & FOUND BERBASIS WEBSITE DENGAN FITUR PENCARIAN MENGGUNAKAN COSINE SIMILARITY Tugas Akhir Diajukan untuk Memenuhi Persyaratan Meraih Gelar Sarjana Strata 1 Teknik Informatika

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Oleh: Andika Wahyu Agusetyawan G64101007 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

HASIL DAN PEMBAHASAN. profil dokumen adalah pada banyaknya tabel yang dihasilkan. Tabel 2 Kategori dokumen Kategori

HASIL DAN PEMBAHASAN. profil dokumen adalah pada banyaknya tabel yang dihasilkan. Tabel 2 Kategori dokumen Kategori 4 HASIL DAN PEMBAHASAN Koleksi Dokumen Koleksi dokumen yang digunakan pada penelitian ini berasal dari corpus Adisantoso & Ridha (2004). Jumlah dokumen pada koleksi ini adalah 1000 dokumen. Akan tetapi,

Lebih terperinci

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci