HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

Transkripsi

1 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan oleh pengguna. Pada setiap kata, akan dilakukan penilaian dengan menggunakan formula sebagai berikut: p c 2) adalah model kueri perbaikan, R ={ }: adalah variabel indikator, nilai yang digunakan pada penelitian ini bernilai 1, adalah total kata yang dinilai relevan. Setiap kata yang dinilai relevan akan diberikan penilaian menggunakan formula(2) dengan memberikan nilai adalah 1 dan setiap kata yang dianggap tidak relevan diberikan nilai adalah 0. Hasil perhitungan tersebut akan digunakan untuk modifikasi kueri awal. Formulasi kueri baru dilakukan untuk memperbaiki hasil temu-kembali, yaitu dapat menggeser dokumen relevan ke atas dan dokumen yang tidak relevan ke bawah. Kata dengan peluang tertinggi yang merupakan term dari hasil feedback pengguna digunakan untuk merumuskan kueri baru yang diformulasikan sebagai berikut: A 3) adalah formulasi kueri baru, adalah formulasi kueri awal, dan adalah kueri dari perhitungan peluang term feedback dari penilaian pengguna. Kueri baru yang telah diformulasikan digunakan dalam proses temu kembali selanjutnya. Evaluasi Hasil Pada proses evaluasi hasil similarity, dilakukan penilaian kinerja sistem dengan melakukan pengukuran - pada Tabel 1 untuk menentukan tingkat keefektifan proses temu-kembali. Average (AVP) dihitung berdasarkan 11 standard levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza- Yates & Ribeiro-Neto 1999). Tabel 1 Perhitungan - Recall- didefinisikan sebagai berikut: Precision = P = tp/(tp + fp). 4) Recall = R = tp/(tp+fn).. 5) Perhitungan AVP dapat diformulasikan sebagai berikut: (r j ) i. 6) (r j ) adalah AVP pada level r, N adalah jumlah kueri yang digunakan, dan P i (r) adalah pada level r untuk kueri ke-i. Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat lunak: Sistem operasi Windows 7 Ultimate sebagai sistem operasi, PHP sebagai bahasa pemrograman. Sphinx Search sebagai platform untuk pencarian berbasis teks, Wamp Server Apache version 2.5 sebagai web server, Notepad++ sebagai editor, dan Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras: Relevant Processor Intel Core 2 Duo 1,66GHz RAM 2 GB Harddisk dengan kapasitas 120 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 2095 dokumen yang ada di Laboratorium Temu Kembali. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2. i r Not Relevant Retrieved tp fp Not Retrieved fn tn

2 4 Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen Ukuran rata-rata dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil 412 Dokumen pertanian tersebut dikelompokkan ke dalam tag-tag sebagai berikut: <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik. <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen. <TITLE></TITLE>, menunjukkan judul berita. <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut. <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen. Contoh salah satu dokumen pertanian yang digunakan tercantum pada Gambar 2. <DOC> <DOCNO> situshijau07</docno> <TITLE Temulawak untuk Gangguan Hati </TITLE> <AUTHOR> dtk</author> <TEXT> Gunakan ramuan temulawak untuk mengobati gangguan pada hati. </TEXT> </DOC> Gambar 2 Contoh dokumen pertanian. Pemrosesan Dokumen Tahapan awal yang dilakukan pada penelitian ini adalah tahap pemrosesan dokumen dengan Sphinx. Pada tahap awal dilakukan proses konfigurasi dokumen. Cuplikan konfigurasi untuk dokumen pertanian tercantum pada Gambar 3. Penjelasan untuk konfigurasi yang digunakan pada Sphinx yaitu: source = srcxml, konfigurasi untuk menandakan bahwa sumber yang digunakan atau file yang akan diindeks berupa file dengan format XML. path=c:/dtf/data/test2, konfigurasi untuk mengatur lokasi file hasil indexing disimpan. index test2 { source = srcxml path = c:/dtf/data/test2 docinfo = extern min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0 stopwords = c:/dtf/data/stopwords.txt } Gambar 3 Konfigurasi dokumen pertanian pada Sphinx. docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini, konfigurasi extern menunjukkan bahwa hasil indexing akan disimpan dalam file terpisah dengan nama file yang sama. min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks, yaitu minimal 3 karakter. charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan, yaitu utf-8. enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks. html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag. Stopwords=c:/DTF/data/StopWords.txt, konfigurasi untuk eliminasi kata buangan. Indexing Proses indexing dilakukan dengan beberapa proses, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Proses tokenisasi dilakukan untuk mendapatkan kata token atau kata unik dari seluruh dokumen. Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk

3 5 dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan. Hasil proses indexing menghasilkan matriks term-dokumen dan proses indexing juga dilakukan pada kueri yang dimasukkan oleh pengguna yang menghasilkan matriks kueri yang akan digunakan pada tahap ukuran kesamaan. Ukuran Kesamaan (Similarity) Pada tahap ini, setelah terbentuknya matriks term-dokumen dan matriks termkueri, dilakukan ukuran kesamaan antara kueri dokumen untuk mengetahui dokumen yang memiliki similarity tertinggi terhadap kueri yang dimasukkan. Dokumen yang memiliki similarity tertinggi akan berada pada peringkat teratas. Ukuran kesamaan yang digunakan pada penelitian ini ialah ukuran kesamaan default SpinxSearch, yaitu SPH_RANK_PROXIMITY_BM25. Urutan dokumen yang ditampilkan sesuai dengan kemiripan antara suatu dokumen dan kueri yang diberikan menggunakan mode SPH_SORT_RELEVANCE pada Sphinx yang merupakan urutan dokumen default pada Sphinx. Pada tahap ini, diperoleh n dokumen teratas dari hasil pencarian dan diambil konten/isi dari dokumen format XML yang merupakan dokumen dengan kemiripan tertinggi dengan kueri. Informasi lain dalam dokumen tersebut seperti id dokumen, tanggal, judul, dan nama pengarang tidak disertakan. Pemilihan Kata Hasil top n tersebut kemudian diambil dan digunakan untuk proses pemilihan kata yang akan ditampilkan kepada pengguna untuk dinilai relevansinya. Top n dokumen yang didapat kemudian dipecah menjadi term/kata yang sudah dilakukan pembuangan stopword. Untuk setiap term tersebut, kemudian dilakukan perhitungan peluang kata pada dokumen menggunakan formula (1). Proses perhitungan tersebut dilakukan untuk melihat peluang kemunculan kata pada dokumen. Setelah diperoleh nilai dari setiap term, term tersebut diurutkan dari peluang terbesar ke peluang terkecil. N term peluang terbesar akan ditampilkan kepada pengguna untuk dinilai relevansinya. Proses formulasi kueri ini dilakukan dengan melihat term yang dinilai relevan dan tidak relevan oleh pengguna. Pada hasil dari proses penilaian relevansi tersebut, kemudian dilakukan perhitungan dengan menggunakan metode DTF persamaan (2) untuk setiap term yang dinilai relevan dan tidak relevan oleh pengguna. Hasil yang diperoleh dari masing-masing term akan diurutkan dari nilai terbesar ke terkecil dan term dengan nilai terbesar digunakan untuk formulasi kueri baru menggunakan operator AND persamaan (3). Pengujian Kinerja Sistem Proses evaluasi dalam penelitian ini dilakukan pada koleksi dokumen pertanian. Proses evaluasi pada dokumen pertanian menggunakan 20 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Metode pemilihan kata yang digunakan untuk pengujian sistem dilakukan secara acak dan sesuai menurut penulis berdasrkan kueri yang dimasukkan. Proses evaluasi dilakukan dengan menghitung - dari masing-masing kueri uji menggunakan source code yang telah dibuat oleh Rahayuni (2011) dan dimodifikasi oleh penulis. Dokumen Relevan Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal yang menganggap n dokumen teratas sebagai dokumen yang relevan. Evaluasi PRF dengan mengambil dokumen peringkat 1, 2, dan 3 teratas dilakukan untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas. Gambar 4 mengilustrasikan pengambilan satu dokumen teratas (Lampiran 3). Kondisi pengambilan satu dokumen teratas menghasilkan nilai average (AVP) sebesar Hal ini menunjukkan bahwa kondisi pencarian dengan satu dokumen teratas memiliki tingkat relevansi sebesar 32%. Kinerja sistem pada pengambilan dua dokumen teratas diilustrasikan pada Gambar 5 dan Lampiran 4. Pada kondisi pencarian ini, didapatkan nilai AVP sebesar Hal ini menunjukkan bahwa pencarian dengan dua dokumen teratas memiliki tingkat relevansi yang hampir sama dengan satu dokumen teratas yaitu sebesar 32%.

4 6 Gambar 4 Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian. Gambar 5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian. Gambar 6 Grafik R-P untuk pengambilan tiga dokumen teratas pada dokumen pertanian. Gambar 6 menunjukkan kinerja pencarian dengan pengambilan tiga dokumen teratas (Lampiran 5). Pada kondisi pencarian dengan pengambilan tiga dokumen teratas, didapatkan nilai AVP yang lebih besar dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas, yaitu sebesar atau sebesar 35%. Hasil pengujian menunjukkan bahwa pengambilan top n tertinggi diperoleh pada pengambilan tiga dokumen teratas. Hal ini disebabkan pengambilan tiga dokumen teratas memiliki dokumen dengan kata yang lebih beragam dan memiliki kata yang lebih relevan untuk dinilai relevansinya oleh pengguna jika dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas. Pengambilan tiga dokumen teratas memiliki nilai AVP lebih lebih tinggi dibandingkan dengan dokumen satu teratas dan dua dokumen teratas yaitu sebesar 35%. Hal ini disebabkan banyaknya dokumen yang terambil menyebabkan banyaknya kata-kata yang lebih beragam dan lebih relevan untuk dinilai relevansinya oleh pengguna sehingga nilai AVP pada tiga dokumen teratas lebih baik jika dibandingkan dengan dua dokumen teratas lainnya. Panjang Kueri Panjang kueri diduga akan mempengaruhi kinerja perluasan kueri. Dalam penelitian ini, digunakan dua kelompok kueri, yaitu kueri dengan panjang tiga dan empat kata. Kueri uji yang berjumlah dua puluh dipisahkan menjadi dua kelompok sesuai dengan panjang kata. Kelompok pertama untuk kueri dengan panjang tiga kata sebanyak sepuluh kueri dan kelompok kedua untuk kueri dengan panjang empat kata sebanyak sepuluh kueri. Kedua kelompok kueri tersebut selanjutnya diekspansi atau diperluas dengan menambahkan satu kata ekspansi dan dua kata ekspansi. Pemilihan kata yang digunakan untuk masing-masing kueri uji dilakukan secara acak dengan memperhatikan kesesuaian kata dengan kueri berdasarkan kesesuaian menurut penulis. Tabel 3 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok kueri yang diperluas dengan satu kata (Lampiran 6) dan dua kata (Lampiran 7). Ekspansi kueri untuk setiap kelompok dilakukan dengan mengambil tiga dokumen teratas.

5 7 Tabel 3 Perbandingan nilai AVP untuk setiap panjang kueri Panjang Kueri Ekspansi Satu Kata Ekspansi Dua Kata 3 Kata Kata Pada Tabel 3, terlihat bahwa nilai AVP tertinggi untuk ekspansi kueri berada pada saat ekspansi kueri satu kata untuk masingmasing panjang kueri. Hal ini menyatakan bahwa perluasan kueri satu kata membuat kinerja sistem lebih baik dibanding perluasan kueri dua kata karena perluasan kueri yang semakin banyak akan membuat kueri menjadi tidak lebih baik untuk dilakukan proses ekspansi. Pada Tabel 3, terlihat bahwa nilai AVP tertinggi berada pada saat ekspansi kueri satu kata dengan panjang kueri empat kata yaitu sebesar 49%. Pemilihan Term Pada pengukuran kinerja sistem ini, pemilihan term untuk masing-masing kueri uji dilakukan secara acak dan banyaknya term yang dipilih untuk setiap kueri uji sebanyak lima term (Lampiran 8). Hal ini disebabkan kinerja sistem pada DTF menghasilkan nilai ekspansi paling bagus untuk ekspansi penambahan satu kata yang menyebabkan berapapun banyaknya term yang dipilih maka untuk proses ekspansi kueri hanya dilakukan perluasan ekspansi satu kata untuk masingmasing kueri. Kelima kata tersebut dipilih secara acak dan dilakukan dengan mempertimbangkan sesuai atau tidaknya kata tersebut menurut penulis. Semakin kata tersebut relevan terhadap kueri, hasil ekspansi kueri akan semakin lebih baik. Pada kinerja sistem ini, kandidat kata yang memiliki kesesuaian yang baik dengan kueri uji adalah pada saat pengambilan tiga dokumen teratas. Hal ini terlihat pada nilai AVP yang lebih besar dibandingkan dengan satu dokumen dan dua dokumen teratas. Pengukuran formulasi kueri pada kinerja sistem dibagi menjadi dua kelompok, yaitu pengujian dengan melakukan formulasi kueri menggunakan operator AND (Lampiran 1) dan pengujian dengan melakukan formulasi kueri menggunakan operator OR (Lampiran 9). Tabel 4 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok formulasi kueri yang digunakan. Tabel 4 Perbandingan nilai AVP untuk kedua jenis operator Top n dokumen OR AND top top top Pada Tabel 4, terlihat bahwa nilai AVP terbesar untuk setiap pengambilan top n dokumen pada formulasi kueri menggunakan operator AND dengan nilai tertinggi berada pada pengambilan tiga dokumen teratas. Formulasi kueri menggunakan operator AND menemukembalikan dokumen dalam jumlah yang lebih sedikit dibandingkan dengan formulasi kueri menggunakan operator OR. Akan tetapi, dokumen yang ditemukembalikan pada formulasi operator AND lebih relevan, sedangkan untuk operator OR meskipun menemukembalikan dokumen lebih banyak, tidak semua dokumen yang di temukembalikan adalah relevan sehingga nilai AVP menggunakan formulasi AND lebih baik dibandingkan dengan formulasi OR. Kinerja DTF Gambar 7 menunjukkan perbandingan kinerja sistem DTF dengan ekspansi kueri dan DTF tanpa ekspansi. non ekspansi ekspansi DTF Gambar 7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi. Nilai AVP untuk sistem DTF tanpa ekspansi kueri yaitu 33 (Lampiran 10), sedangkan sistem DTF dengan ekspansi kueri memiliki nilai AVP yang lebih besar, yaitu