HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

dokumen-dokumen yang mirip
HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya.

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

HASIL DAN PEMBAHASAN. sim(, )=

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI DIGITAL FULLTEXT ARTIKEL JURNAL DI PDII LIPI

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI ARTIKEL JURNAL DIGITAL DI PDII LIPI SJAEFUL AFANDI

BAB III METODOLOGI PENELITIAN

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

PENDAHULUAN. Latar belakang

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH

BAB III METODOLOGI PENELITIAN

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

BAB III METODOLOGI PENELITIAN

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

BAB III METODOLOGI PENELITIAN

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi.

BAB III METODOLOGI PENELITIAN

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

III METODOLOGI PENELITIAN

BAB 3 PERANCANGAN SISTEM

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

BAB 1 PENDAHULUAN UKDW

BAB III METODELOGI PENELITIAN

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB V IMPLEMENTASI DAN PENGUJIAN

HASIL DAN PEMBAHASAN. B fch a. d b

PEMBUATAN RESULT SNIPPET PADA MESIN PENCARI BERBAHASA INDONESIA DENGAN MENGGUNAKAN PSEUDO-RELEVANCE FEEDBACK MUHAMMAD GINANJAR RAMADHAN

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

2. Ketepatan untuk setiap jawaban.

1.1 Latar Belakang Masalah

BAB III METODE PENELITIAN. Penelitian ini dilakukan di Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

JULIO ADISANTOSO - ILKOM IPB 1

Code shift Asumsi-asumsi Pengaburan Kode Lingkungan Pengembangan HASIL DAN PEMBAHASAN Karakteristik Dokumen Perlakuan ( Treatment

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB III METODE PENELITIAN

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM

BAB I PENDAHULUAN. Teknologi Informasi saat ini mengalami perkembangan yang signifikan.

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

Rata-rata token unik tiap dokumen

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

1.1 Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

BAB III ANALISA MASALAH DAN SISTEM

BAB III METODOLOGI PENELITIAN

BAB III ANALISIS DAN PERANCANGAN SISTEM

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB IV ANALISA DAN PERANCANGAN

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB III METODOLOGI PENELITIAN

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1.

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

METODE PENELITIAN. Gambar 2 Metodologi penelitian.

RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

HASIL DAN PEMBAHASAN

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

HASIL DAN PEMBAHASAN. Data

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB I PERSYARATAN PRODUK

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH

BAB V IMPLEMENTASI DAN PENGUJIAN

BAB 3 METODE PENELITIAN. dalam melakukan penelitian untuk memudahkan penyusun dalam

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

BAB II TINJAUAN PUSTAKA

V HASIL DAN PEMBAHASAN

JULIO ADISANTOSO - ILKOM IPB 1

BAB III METODOLOGI PENELITIAN

4 HASIL DAN PEMBAHASAN

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G

BAB III METODOLOGI PENELITIAN. Untuk memperlancar proses penelitian, maka dibentuk desain penelitian yang

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB III METODE PENELITIAN. Penelitian ini dilakukan di Jurusan Ilmu Komputer Fakultas Matematika Dan Ilmu

BAB III METODE PENELITIAN. desain atau tahapan penelitian, model pengembangan sistem serta alat dan bahan

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

BAB IV HASIL DAN UJI COBA

Transkripsi:

3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan oleh pengguna. Pada setiap kata, akan dilakukan penilaian dengan menggunakan formula sebagai berikut: p c 2) adalah model kueri perbaikan, R ={ }: adalah variabel indikator, nilai yang digunakan pada penelitian ini bernilai 1, adalah total kata yang dinilai relevan. Setiap kata yang dinilai relevan akan diberikan penilaian menggunakan formula(2) dengan memberikan nilai adalah 1 dan setiap kata yang dianggap tidak relevan diberikan nilai adalah 0. Hasil perhitungan tersebut akan digunakan untuk modifikasi kueri awal. Formulasi kueri baru dilakukan untuk memperbaiki hasil temu-kembali, yaitu dapat menggeser dokumen relevan ke atas dan dokumen yang tidak relevan ke bawah. Kata dengan peluang tertinggi yang merupakan term dari hasil feedback pengguna digunakan untuk merumuskan kueri baru yang diformulasikan sebagai berikut: A 3) adalah formulasi kueri baru, adalah formulasi kueri awal, dan adalah kueri dari perhitungan peluang term feedback dari penilaian pengguna. Kueri baru yang telah diformulasikan digunakan dalam proses temu kembali selanjutnya. Evaluasi Hasil Pada proses evaluasi hasil similarity, dilakukan penilaian kinerja sistem dengan melakukan pengukuran - pada Tabel 1 untuk menentukan tingkat keefektifan proses temu-kembali. Average (AVP) dihitung berdasarkan 11 standard levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza- Yates & Ribeiro-Neto 1999). Tabel 1 Perhitungan - Recall- didefinisikan sebagai berikut: Precision = P = tp/(tp + fp). 4) Recall = R = tp/(tp+fn).. 5) Perhitungan AVP dapat diformulasikan sebagai berikut: (r j ) i. 6) (r j ) adalah AVP pada level r, N adalah jumlah kueri yang digunakan, dan P i (r) adalah pada level r untuk kueri ke-i. Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat lunak: Sistem operasi Windows 7 Ultimate sebagai sistem operasi, PHP sebagai bahasa pemrograman. Sphinx Search sebagai platform untuk pencarian berbasis teks, Wamp Server Apache version 2.5 sebagai web server, Notepad++ sebagai editor, dan Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras: Relevant Processor Intel Core 2 Duo 1,66GHz RAM 2 GB Harddisk dengan kapasitas 120 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 2095 dokumen yang ada di Laboratorium Temu Kembali. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2. i r Not Relevant Retrieved tp fp Not Retrieved fn tn

4 Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen 6 568 124 Ukuran rata-rata dokumen 3 135 Ukuran dokumen terbesar 52 955 Ukuran dokumen terkecil 412 Dokumen pertanian tersebut dikelompokkan ke dalam tag-tag sebagai berikut: <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik. <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen. <TITLE></TITLE>, menunjukkan judul berita. <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut. <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen. Contoh salah satu dokumen pertanian yang digunakan tercantum pada Gambar 2. <DOC> <DOCNO> situshijau07</docno> <TITLE Temulawak untuk Gangguan Hati </TITLE> <AUTHOR> dtk</author> <TEXT> Gunakan ramuan temulawak untuk mengobati gangguan pada hati. </TEXT> </DOC> Gambar 2 Contoh dokumen pertanian. Pemrosesan Dokumen Tahapan awal yang dilakukan pada penelitian ini adalah tahap pemrosesan dokumen dengan Sphinx. Pada tahap awal dilakukan proses konfigurasi dokumen. Cuplikan konfigurasi untuk dokumen pertanian tercantum pada Gambar 3. Penjelasan untuk konfigurasi yang digunakan pada Sphinx yaitu: source = srcxml, konfigurasi untuk menandakan bahwa sumber yang digunakan atau file yang akan diindeks berupa file dengan format XML. path=c:/dtf/data/test2, konfigurasi untuk mengatur lokasi file hasil indexing disimpan. index test2 { source = srcxml path = c:/dtf/data/test2 docinfo = extern min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0 stopwords = c:/dtf/data/stopwords.txt } Gambar 3 Konfigurasi dokumen pertanian pada Sphinx. docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini, konfigurasi extern menunjukkan bahwa hasil indexing akan disimpan dalam file terpisah dengan nama file yang sama. min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks, yaitu minimal 3 karakter. charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan, yaitu utf-8. enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks. html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag. Stopwords=c:/DTF/data/StopWords.txt, konfigurasi untuk eliminasi kata buangan. Indexing Proses indexing dilakukan dengan beberapa proses, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Proses tokenisasi dilakukan untuk mendapatkan kata token atau kata unik dari seluruh dokumen. Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk

5 dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan. Hasil proses indexing menghasilkan matriks term-dokumen dan proses indexing juga dilakukan pada kueri yang dimasukkan oleh pengguna yang menghasilkan matriks kueri yang akan digunakan pada tahap ukuran kesamaan. Ukuran Kesamaan (Similarity) Pada tahap ini, setelah terbentuknya matriks term-dokumen dan matriks termkueri, dilakukan ukuran kesamaan antara kueri dokumen untuk mengetahui dokumen yang memiliki similarity tertinggi terhadap kueri yang dimasukkan. Dokumen yang memiliki similarity tertinggi akan berada pada peringkat teratas. Ukuran kesamaan yang digunakan pada penelitian ini ialah ukuran kesamaan default SpinxSearch, yaitu SPH_RANK_PROXIMITY_BM25. Urutan dokumen yang ditampilkan sesuai dengan kemiripan antara suatu dokumen dan kueri yang diberikan menggunakan mode SPH_SORT_RELEVANCE pada Sphinx yang merupakan urutan dokumen default pada Sphinx. Pada tahap ini, diperoleh n dokumen teratas dari hasil pencarian dan diambil konten/isi dari dokumen format XML yang merupakan dokumen dengan kemiripan tertinggi dengan kueri. Informasi lain dalam dokumen tersebut seperti id dokumen, tanggal, judul, dan nama pengarang tidak disertakan. Pemilihan Kata Hasil top n tersebut kemudian diambil dan digunakan untuk proses pemilihan kata yang akan ditampilkan kepada pengguna untuk dinilai relevansinya. Top n dokumen yang didapat kemudian dipecah menjadi term/kata yang sudah dilakukan pembuangan stopword. Untuk setiap term tersebut, kemudian dilakukan perhitungan peluang kata pada dokumen menggunakan formula (1). Proses perhitungan tersebut dilakukan untuk melihat peluang kemunculan kata pada dokumen. Setelah diperoleh nilai dari setiap term, term tersebut diurutkan dari peluang terbesar ke peluang terkecil. N term peluang terbesar akan ditampilkan kepada pengguna untuk dinilai relevansinya. Proses formulasi kueri ini dilakukan dengan melihat term yang dinilai relevan dan tidak relevan oleh pengguna. Pada hasil dari proses penilaian relevansi tersebut, kemudian dilakukan perhitungan dengan menggunakan metode DTF persamaan (2) untuk setiap term yang dinilai relevan dan tidak relevan oleh pengguna. Hasil yang diperoleh dari masing-masing term akan diurutkan dari nilai terbesar ke terkecil dan term dengan nilai terbesar digunakan untuk formulasi kueri baru menggunakan operator AND persamaan (3). Pengujian Kinerja Sistem Proses evaluasi dalam penelitian ini dilakukan pada koleksi dokumen pertanian. Proses evaluasi pada dokumen pertanian menggunakan 20 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Metode pemilihan kata yang digunakan untuk pengujian sistem dilakukan secara acak dan sesuai menurut penulis berdasrkan kueri yang dimasukkan. Proses evaluasi dilakukan dengan menghitung - dari masing-masing kueri uji menggunakan source code yang telah dibuat oleh Rahayuni (2011) dan dimodifikasi oleh penulis. Dokumen Relevan Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal yang menganggap n dokumen teratas sebagai dokumen yang relevan. Evaluasi PRF dengan mengambil dokumen peringkat 1, 2, dan 3 teratas dilakukan untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas. Gambar 4 mengilustrasikan pengambilan satu dokumen teratas (Lampiran 3). Kondisi pengambilan satu dokumen teratas menghasilkan nilai average (AVP) sebesar 0.3214. Hal ini menunjukkan bahwa kondisi pencarian dengan satu dokumen teratas memiliki tingkat relevansi sebesar 32%. Kinerja sistem pada pengambilan dua dokumen teratas diilustrasikan pada Gambar 5 dan Lampiran 4. Pada kondisi pencarian ini, didapatkan nilai AVP sebesar 0.3230. Hal ini menunjukkan bahwa pencarian dengan dua dokumen teratas memiliki tingkat relevansi yang hampir sama dengan satu dokumen teratas yaitu sebesar 32%.

6 Gambar 4 Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian. Gambar 5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian. Gambar 6 Grafik R-P untuk pengambilan tiga dokumen teratas pada dokumen pertanian. Gambar 6 menunjukkan kinerja pencarian dengan pengambilan tiga dokumen teratas (Lampiran 5). Pada kondisi pencarian dengan pengambilan tiga dokumen teratas, didapatkan nilai AVP yang lebih besar dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas, yaitu sebesar 0.3582 atau sebesar 35%. Hasil pengujian menunjukkan bahwa pengambilan top n tertinggi diperoleh pada pengambilan tiga dokumen teratas. Hal ini disebabkan pengambilan tiga dokumen teratas memiliki dokumen dengan kata yang lebih beragam dan memiliki kata yang lebih relevan untuk dinilai relevansinya oleh pengguna jika dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas. Pengambilan tiga dokumen teratas memiliki nilai AVP lebih lebih tinggi dibandingkan dengan dokumen satu teratas dan dua dokumen teratas yaitu sebesar 35%. Hal ini disebabkan banyaknya dokumen yang terambil menyebabkan banyaknya kata-kata yang lebih beragam dan lebih relevan untuk dinilai relevansinya oleh pengguna sehingga nilai AVP pada tiga dokumen teratas lebih baik jika dibandingkan dengan dua dokumen teratas lainnya. Panjang Kueri Panjang kueri diduga akan mempengaruhi kinerja perluasan kueri. Dalam penelitian ini, digunakan dua kelompok kueri, yaitu kueri dengan panjang tiga dan empat kata. Kueri uji yang berjumlah dua puluh dipisahkan menjadi dua kelompok sesuai dengan panjang kata. Kelompok pertama untuk kueri dengan panjang tiga kata sebanyak sepuluh kueri dan kelompok kedua untuk kueri dengan panjang empat kata sebanyak sepuluh kueri. Kedua kelompok kueri tersebut selanjutnya diekspansi atau diperluas dengan menambahkan satu kata ekspansi dan dua kata ekspansi. Pemilihan kata yang digunakan untuk masing-masing kueri uji dilakukan secara acak dengan memperhatikan kesesuaian kata dengan kueri berdasarkan kesesuaian menurut penulis. Tabel 3 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok kueri yang diperluas dengan satu kata (Lampiran 6) dan dua kata (Lampiran 7). Ekspansi kueri untuk setiap kelompok dilakukan dengan mengambil tiga dokumen teratas.

7 Tabel 3 Perbandingan nilai AVP untuk setiap panjang kueri Panjang Kueri Ekspansi Satu Kata Ekspansi Dua Kata 3 Kata 0.19378 0.18195 4 Kata 0.49274 0.46042 Pada Tabel 3, terlihat bahwa nilai AVP tertinggi untuk ekspansi kueri berada pada saat ekspansi kueri satu kata untuk masingmasing panjang kueri. Hal ini menyatakan bahwa perluasan kueri satu kata membuat kinerja sistem lebih baik dibanding perluasan kueri dua kata karena perluasan kueri yang semakin banyak akan membuat kueri menjadi tidak lebih baik untuk dilakukan proses ekspansi. Pada Tabel 3, terlihat bahwa nilai AVP tertinggi berada pada saat ekspansi kueri satu kata dengan panjang kueri empat kata yaitu sebesar 49%. Pemilihan Term Pada pengukuran kinerja sistem ini, pemilihan term untuk masing-masing kueri uji dilakukan secara acak dan banyaknya term yang dipilih untuk setiap kueri uji sebanyak lima term (Lampiran 8). Hal ini disebabkan kinerja sistem pada DTF menghasilkan nilai ekspansi paling bagus untuk ekspansi penambahan satu kata yang menyebabkan berapapun banyaknya term yang dipilih maka untuk proses ekspansi kueri hanya dilakukan perluasan ekspansi satu kata untuk masingmasing kueri. Kelima kata tersebut dipilih secara acak dan dilakukan dengan mempertimbangkan sesuai atau tidaknya kata tersebut menurut penulis. Semakin kata tersebut relevan terhadap kueri, hasil ekspansi kueri akan semakin lebih baik. Pada kinerja sistem ini, kandidat kata yang memiliki kesesuaian yang baik dengan kueri uji adalah pada saat pengambilan tiga dokumen teratas. Hal ini terlihat pada nilai AVP yang lebih besar dibandingkan dengan satu dokumen dan dua dokumen teratas. Pengukuran formulasi kueri pada kinerja sistem dibagi menjadi dua kelompok, yaitu pengujian dengan melakukan formulasi kueri menggunakan operator AND (Lampiran 1) dan pengujian dengan melakukan formulasi kueri menggunakan operator OR (Lampiran 9). Tabel 4 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok formulasi kueri yang digunakan. Tabel 4 Perbandingan nilai AVP untuk kedua jenis operator Top n dokumen OR AND top 1 0.1418 0.3214 top 2 0.1498 0.3230 top 3 0.1568 0.3582 Pada Tabel 4, terlihat bahwa nilai AVP terbesar untuk setiap pengambilan top n dokumen pada formulasi kueri menggunakan operator AND dengan nilai tertinggi berada pada pengambilan tiga dokumen teratas. Formulasi kueri menggunakan operator AND menemukembalikan dokumen dalam jumlah yang lebih sedikit dibandingkan dengan formulasi kueri menggunakan operator OR. Akan tetapi, dokumen yang ditemukembalikan pada formulasi operator AND lebih relevan, sedangkan untuk operator OR meskipun menemukembalikan dokumen lebih banyak, tidak semua dokumen yang di temukembalikan adalah relevan sehingga nilai AVP menggunakan formulasi AND lebih baik dibandingkan dengan formulasi OR. Kinerja DTF Gambar 7 menunjukkan perbandingan kinerja sistem DTF dengan ekspansi kueri dan DTF tanpa ekspansi. non ekspansi ekspansi DTF Gambar 7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi. Nilai AVP untuk sistem DTF tanpa ekspansi kueri yaitu 33 (Lampiran 10), sedangkan sistem DTF dengan ekspansi kueri memiliki nilai AVP yang lebih besar, yaitu