TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

Transkripsi

1 TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Temu Kembali Informasi Dokumen XML dengan pembobotan per konteks adalah benar karya saya denganarahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2014 Rina Kurniawati NIM G

4 ABSTRAK RINA KURNIAWATI. Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks. Dibimbing oleh JULIO ADISANTOSO. Penelitian temu kembali informasi menggunakan dokumen XML sudah banyak dilakukan, namun sistem yang dikembangkan belum memperhatikan struktur atau tag dari dokumen XML. Penelitian ini mengembangkan sistem temu kembali informasi dengan menggunakan pembobotan per konteks atau tag. Setiap bobot yang dikenakan terhadap masing-masing konteks didapat dari hasil pencarian keterhubungan antara kemiripan tiap konteks pada dokumen terhadap kueri dengan kemiripan dokumen secara keseluruhan terhadap kueri dengan menggunakan metode regresi linier. Pada penelitian ini sistem temu kembali informasi yang telah dibangun dengan menggunakan pembobotan per konteks dievaluasi dengan menggunakan 30 pasang kueri. Percobaan ini menghasilkan penurunan nilai rata-rata mean average precision(map)sebesar 1.15% jika dibandingkan dengan sistem temu kembali informasi tanpa menggunakan pembobotan per konteks. Kata kunci:pembobotan tag XML, temu kembali informasi ABSTRACT RINA KURNIAWATI. XML Document Information Retrieval using Context Weighting. Supervised by JULIO ADISANTOSO Various research in the field of information retrieval using XML documents have been conducted.however, those systems didnot consider the structure or tags of the XML documents. To improve the performance of the information retrieval system, we develop an information retrieval system using context weighting. Each weight which is implemented on each context is obtained from the result of correlation between the similarity of each context of the document to the queries and the similarity of the whole document to the queries using linear regression method. The information retrieval system that has been developed using the context weighting is evaluated by using 30 queries. It is found that this experiment decreases the average Mean Average Precision (MAP) value by 1.15% if compared with the information retrieval system without context. Keywords :information retrieval, XMLtag weighting

5 TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

6 Penguji: 1 Mushthofa, SKom MSc 2 Toto Haryanto, SKom MSi

7 Judul Skripsi Nama NIM : Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks : Rina Kurniawati : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 Judul Skripsi Nama NIM Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks Rina Kurniawati G Disetujui oleh Pembimbing...==:::~.::::: Tanggal Lulus: 2 7 JA N 20 14

9 PRAKATA Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wata alayang telah melimpahkan rahmat sehingga penulis dapat menyelesaikan penelitian dan tulisan yang berjudul Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks ini. Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso M. Kom selaku pembimbing yang telah memberikan arahan, dan saran selama penelitian ini berlangsung. Ungkapan terima kasih juga disampaikan kepada orang tua serta seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung atas doa dan dukungannya. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran dan kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini, sehingga dapat bermanfaat. Bogor, Januari 2014 Rina Kurniawati

10 DAFTAR ISI DAFTAR TABEL iv DAFTAR GAMBAR iv DAFTAR LAMPIRAN iv PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 1 Ruang Lingkup Penelitian 1 METODE PENELITIAN 2 Perolehan Dokumen 3 Praproses 3 Perhitungan Koefisien 4 Perhitungan Kedekatan 4 Evaluasi Sistem 5 Lingkungan Penelitian 6 HASIL DAN PEMBAHASAN 6 Perolehan koleksi dokumen 6 Praproses 7 Perhitungan Koefisien 7 Perhitungan Kemiripan 8 Evaluasi 9 SIMPULAN DAN SARAN 10 Simpulan 10 Saran 11 DAFTAR PUSTAKA 11 LAMPIRAN 13 RIWAYAT HIDUP 27

11 DAFTAR TABEL 1 Kemiripan dokumen terhadap kueri 4 2 Ilustrasi inverted index yang ditambahkan dengan bobot per konteks 5 3 Ilustrasi recall dan precision 5 4 Nilai kemiripan dokumen terhadap kueri gagal panen 8 5 Perbandingan nilai AVP dan MAP 9 DAFTAR GAMBAR 1 Flowchart penelitian secara umum 2 2 Persamaan regresi 8 3 Grafik perbandingan antara masing-masing AVP 10 DAFTAR LAMPIRAN 1 Contoh dokumen pengujian 12 2 Daftar kueri dan jumlah dokumen relevan 13 3 Daftarstopword 14 4 Interpolasi precision dan recall pada sistem temu kembali informasi tanpa memperhatikan konteks 18 5 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title, author dan text 19 6 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title dan author 20 7 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks author dan text 21 8 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title dan text 22 9 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks author Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks text Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title Tampilan antarmuka sistem temu kembali informasi 26

12 1 PENDAHULUAN Latar Belakang Kebutuhan terhadap informasi yang semakin tinggi mengakibatkan munculnya permasalahan bagaimana teknik memperoleh informasi yang efektif dan efisien.tujuan dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates dan Ribeiro-Neto 1999). Terdapat dua pendekatan yang mungkin dalam temu kembali informasi pada dokumen extensible markup language (XML) (Kamps et al. 2003): 1 Full document retrieval system, sistem ini menggunakan dokumen standar sebagai indexing unit dan dokumen secara keseluruhan dianggap sebagai retrieval unit 2 XML element retrieval system, sistem ini menggunakan elemen XML sebagai indexing unit dan setiap elemen yang membentuk struktur dokumen dipertimbangkan sebagai retrieval unit (Rahman 2006). Sistem temu kembali informasi menggunakan dokumen XML dapat digunakan untuk menjawab permasalahan tersebut. Teknologi XML yang dikembangkan sejak tahun 1996, selain dapat digunakan untuk menampilkan informasi juga memiliki kemampuan untuk menyimpan data secara terstruktur serta sebagai format pertukaran data. Penelitian dibidang temu kembali informasi menggunakan dokumen XML sudah banyak dilakukan, akan tetapi sistem temu kembali informasi dokumen XML yang dikembangkan belum memperhatikan struktur atau tag dari dokumen. Karena hal tersebut, maka penelitian ini akan mengembangkan sistem temu kembali informasi pada dokumen terstruktur XML dengan memperhatikan struktur dokumen yaitu dengan memberikan bobot pada setiap konteks (tag) yang ada pada dokumen XML. Penelitian ini diharapkan dapat memperbaiki nilai average precision danmean average precision pada temu kembali informasi dokumen XML. Tujuan Penelitian Penelitian ini bertujuan mengimplementasikan sistem temu kembali informasi menggunakan dokumen XML dengan memperhatikan struktur dokumen. Ruang Lingkup Penelitian Penelitian menggunakan dokumen XML berbahasa Indonesia yang masingmasing memiliki struktur yang seragam.

13 2 METODE PENELITIAN Suatu penelitian yang baik diperlukan perencanaan yang matang atas metode yang telah ditetapkan. Secara garis besar penelitian dilakukan dalam beberapa tahap, yaitu perolehan dokumen, praproses, perhitungan koefisien perkonteks, perhitungan kedekatan, dan evaluasi.flowchart penelitian secara garis besar dapat dilihat pada Gambar 1. Korpus Perolehan dokumen Parsing Kueri Penghapusan stopwords Inverted index Hitung kemiripan Hitung koefisien Persamaan regresi Hitung kemiripan baru Top n dokumen Evaluasi Gambar 1 Flowchart penelitian secara umum

14 3 Perolehan Dokumen Penelitian ini menggunakan dokumen berbahasa Indonesia yang memiliki struktur XML seragam yang terdiri atas 1000 dokumen berita di bidang pertanian yang bersumber dari Laboratorium Temu Kembali Informasi di Institut Pertanian Bogor. Kumpulan dokumen tersebut memiliki struktur sebagai berikut: <document id= > <docno>...</docno> <title>...</title> <author> </author> <text> </text> </document> Praproses Tahap praproses terdiri atas parsing yaitu proses yang mengubah dokumen menjadi unit-unit kecil berupa kata, frasa, atau kalimat dengan menggunakan algoritme tokenizer. Unit-unit ini disebut sebagai token. Proses parsing dilanjutkan dengan proses pembuangan kata yang dianggap tidak relevan dan tidak bermakna terhadap dokumen sesuai dengan stoplist. Daftar term yang dihasilkan dari proses parsing kemudian mengalami pembobotan term (weighting) dengan menggunakan metode BM25 secara otomatis oleh Sphinx sehingga menghasilkan inverted index yang berisi informasi seperti frekuensi kemunculan dan posisi term tertentu. Pembobotan BM25 menggabungkan bobot idf dengan koleksi pengskalan khusus untuk dokumen dan kueri (Kontostathis et al. 2008). Pembobotan ini digunakan untuk membuat peringkat antardokumen dan mengukur kesamaan antara kueri dengan dokumen pada korpus. Perhitungan yang digunakan untuk mengukur kemiripan dokumen terhadap kueri menggunakan pembobotan BM25 yang sudah disediakan Sphinx dengan rumussebagai berikut: BM25 = dengan N-n+1 log n IDF(i) = log N w TF i 1+k IDF(i) DL TF i +k(1-b+b avgdl ) i=1 Keterangan: w : jumlah kata pada kueri TF(i) : frekuensi kata pada kueri yang ditemukan pada dokumen IDF(i): invers dari frekuensi dokumen yang terdapat kemunculan kata pada kueri N : jumlah dokumen pada korpus n : jumlah dokumen yang relevan dengan kueri b : konstanta bernilai 0.75 k : konstanta bernilai 1.2 DL : panjang dokumen. avgdl : rata-rata panjang dokumen pada korpus.

15 4 Perhitungan Koefisien Pengukuran kemiripan antara dokumen terhadap kueri dilakukan pada masing-masing konteks dan juga dilakukan pada dokumen secara keseluruhan, sehingga didapat tabel ukuran kemiripan dokumen untuk masing-masing kueri yang diujikan seperti yang ditunjukkan pada Tabel 1. Tabel 1 Kemiripan dokumen terhadap kueri Doc Sim(flat) Sim(title) Sim(author) Sim(text) 1 w1 w11 w12 w13 2 w2 w21 w22 w23 3 w3 w31 w32 w33 Pada Tabel 1, kolom Doc menunjukan nomor dokumen, kolom Sim(flat) menunjukkan nilai kemiripan dokumen terhadap kueri tanpa memperhatikan konteks, sedangkan kolom Sim(title), Sim(author) dan Sim(text) menunjukkan nilai kemiripan dokumen terhadap kueri pada masing-masing konteks. Perhitungan koefisien sebagai pembobot masing-masing konteks pada dokumen dicari dengan menggunakan Tabel 1, yakni dengan cara mencari hubungan antara kemiripan dokumen terhadap kueri per-konteks dengan kemiripan dokumen terhadap kueri yang tidak memperhatikan konteks(flat) menggunakan regresi linier sehingga didapat persamaan seperti berikut: y = a + bx1 + c x2 + d x3 Keterangan: y : kemiripan dokumen terhadap kueri sebagai variabel terikat. a : konstanta intersep. x1 : kemiripan konteks title terhadap kueri sebagai variabel bebas. b : koefisien bobot konteks title. x2 : bobot konteks author terhadap kueri sebagai variabel bebas. c : koefisien bobot konteks author. x3 : bobot konteks text terhadap kueri sebagai variabel bebas. d : koefisien bobot konteks text. Perhitungan Kedekatan Koefisien masing-masing konteks pada persamaan regresi dijadikan bobot terhadap nilai kemiripan dokumen terhadap kueri dengan cara mengembalikan nilai koefisien ke dalam persamaan regresi linier yang didapat dari tahap sebelumnya sehingga didapat nilai kemiripan yang baru. Ilustrasi perhitungan nilai kemiripan antara dokumen dan kueri pada pembobotan per konteks dapat diwakilkan dengan tabel seperti pada Tabel 2. Setelah user melakukan input kueri (q), didapat nilai kemiripan antara masing-masing dokumen dengan kueri (q) pada tiap konteks (ci) secara otomatis menggunakan Sphinx dengan menggunakan pengukuran BM25. Masing-masing nilai kemiripan dokumen terhadap kueri secara per konteks dikembalikan ke dalam persamaan regresi linier sehingga menghasilkan nilai

16 kemiripan dokumen terhadap kueri baru yang sudah memperhatikan bobot per konteks, yang disusun berdasarkan nilai yang paling besar sampai terkecil. Tabel 2 Ilustrasi inverted index yang ditambahkan dengan bobot per konteks Konteks Term Dokumen-i Koefisien Title(c1) gagal d1 k1 panen d2 Author(c2) gagal d1 k2 panen d2 Text (c3) gagal d1 k3 panen d2 Keterangan: Konteks :konteks pada dokumen. Term :term/kata pada kueri. Dokumen :nomor dokumen. Koefisien : koefisien yang diimplementasikan pada masing-masing konteks. 5 Evaluasi Sistem Dua ukuran yang sering dipakai untuk mengukur efektifitas suatu sistem temu kembali informasi adalah recall dan precision (Manning et al. 2008). Recall menyatakan jumlah dokumen relevan yang dapat dibangkitkan oleh sistem temu kembali informasi yang merupakan proporsi antara jumlah dokumen relevan yang ditemukembalikan dengan jumlah semua dokumen relevan yang terdapat pada koleksi dokumen. Sedangkan precision adalah perbandingan antara jumlah dokumen relevan yang ditemukembalikan dengan jumlah seluruh dokumen yang ditemukembalikan. Nilai recall dan precision dapat diilustrasikan seperti tertera pada Tabel 3. Keterangan: Recall = Tabel 3 Ilustrasi recall dan precision Document Relevant Nonrelevant Retrieved True positives (tp) False positive (fp) Not retrieved False negatives (fn) True negatives (tn) tp tp+fn Precision = tp tp +fp Sistem diuji dengan menggunakan average precision danmean average precision. Setiap hasil temu kembali informasi dilakukan penghitungan nilai precision pada 11 tingkat nilai recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Nilai precision kemudian dirata-ratakan untuk mendapatkan nilai average precision (AP). Sebuah sistem temu kembali informasi dianggap baik jika nilai average precision dan mean average precision-nya tinggi.

17 6 Lingkungan Penelitian Lingkungan yang digunakan untuk penelitian ini memiliki spesifikasi sebagai berikut: Perangkat keras: 1 Processor Intel 2 RAM kapasitas 2 GB, 3 Harddisk kapasitas 100GB, Perangkat lunak: 1 Windows 7 Ultimate sebagai sistem operasi 2 Apache XAMPP sebagai web server 3 Sphinx search Notepad++ v6.1.3 sebagai script editor 5 Minitab 16 statistical software sebagai aplikasi untuk membantu penentuan persamaan regresi linier 6 Microsoft Excel 2007 sebagai aplikasi untuk membantu evaluasi sistem. HASIL DAN PEMBAHASAN Perolehan Koleksi Dokumen Koleksi dokumen yang digunakan dalam penelitian ini bersumber dari korpus yang sudah tersedia di laboratorium Temu Kembali Informasi Departemen Ilmu Komputer Institut Pertanian Bogor. Koleksi terdiri atas 1000 dokumen dengan format spreadsheet(.xml) dengan struktur tag XML yang seragam pada masing-masing dokumen. Contoh dokumen pengujian yang digunakan dapat dilihat pada Lampiran 1. Tag XML pada koleksi dokumen uji yang digunakan adalah sebagai berikut: <document></document> yang mewakili keseluruhan dokumen, di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih detail. <docno></docno>yang mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal berita atau urutan berita pada tanggal yang sama. <title></title> yang mewakili judul dokumen. <author></author> yang mewakili penulis dokumen. <text></text> yang mewakili isi dokumen. Selain itu, untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan pasangan kueri-dokumen relevan yang dapat dilihat pada Lampiran 2. Kueri yang digunakan pada penelitian ini terdiri atas 30 kueri dengan 10 kueri yang mewakili konteks title, 10 kueri yang mewakili konteks author dan 10 kueri yang mewakili konteks text.

18 7 Praproses Praproses dokumen terdiri atas proses parsing atau tokenisasi, serta proses pembuangan stopwords dan pembobotan. Proses ini dilakukan secara otomatis dengan menggunakan fungsi indexing yang ada pada Sphinx. Proses parsing dilakukan untuk mendapatkan kata unik atau term dari seluruh koleksi dokumen dengan cara memisahkan tiap-tiap kata dengan karakter pemisah seperti titik, koma dan whitespace. Proses parsing kemudian diikuti dengan proses pembuangan stopwords, yaitu membuang kata yang dianggap tidak memiliki arti seperti kata sambung, kata depan. Kata-kata yang termasuk dalam stopwords (Lampiran 3) diperoleh dari laboratorium Temu Kembali Informasi. Proses pembuangan stopwords dilakukan dengan mencocokan term yang terdapat pada hasil parsing dengan term pada stoplist yang berisi daftar term yang akan dihapus. Hasil proses parsing dan pembuangan stopwords berupa tabel yang terdiri atas daftar term beserta frekuensi kemunculan pada tiap dokumen dan jumlah dokumen yang mengandung term tersebut. Tahap terakhir dari praproses yaitu pembobotan. Proses pembobotan menggunakan metode BM25 dilakukan secara otomatis dengan menggunakan Sphinx. Praproses untuk sistem temu kembali yang belum memperhatikan konteks dilakukan pada tag <docno>, <title>, <author>, <text> sedangkan untuk penelitian ini proses indexing berlaku pada tag<title>, <author>, dan <text> saja. Perhitungan Koefisien Koefisien bobot merupakan koefisien yang berperan sebagai bobot baru yang digunakan untuk mendapatkan nilai kemiripan dokumen dengan kueri pada uji coba sistem temu kembali informasi dengan pembobotan per konteks, maka dari itu digunakan nilai kemiripan dokumen dengan kueri pada sistem temu kembali informasi tanpa pembobotan sebagai variabel dalam penentuan koefisien. Metode yang digunakan dalam menentukan koefisien bobot yaitu regresi linier, dimana pada proses perhitungan regresi, penulis menggunakan Minitab 16. Karena nilai kemiripan antara dokumen dan kueri pada sistem temu kembali informasi tanpa menggunakan pembobotan diperlukan sebagai variabel pada perhitungan koefisien, maka tahap pertama pada proses ini yaitu melakukan temu kembali informasi seperti yang biasa dilakukan, dengan beberapa kondisi. Yang pertama, temu kembali pada konteks secara keseluruhan, yaitu text, title dan author, kemudian melakukan temu kembali informasi pada masing-masing konteks tersebut, sehingga didapat nilai kemiripan per kueri per dokumen sebanyak 4 buah untuk masing-masing konteks. Proses temu kembali informasi ini menggunakan library yang ada pada Sphinx dengan ranker SPH_RANK_PROXIMITY_BM25. Sebagai contoh, nilai kemiripan dokumen terhadap kueri 2, yaitu gagal panen, ditunjukkan pada Tabel 4. Pada Tabel 4 terlihat bahwa nilai kemiripan antara kueri gagal panen dengan dokumen nomor 979 bernilai 2597 pada konteks keseluruhan, bernilai 1597 pada konteks title, dan bernilai 1597 pada konteks text. Data yang didapat dari proses temu kembali ini dipilah berdasarkan dokumen yang relevan saja. Data ini kemudian diolah dengan menggunakan metode regresi linier untuk dicari keterhubungan antara nilai kemiripan yang didapat dari temu kembali per konteks dengan nilai kemiripan yang didapat dari

19 8 temu kembali secara keseluruhan, dimana nilai kemiripan yang didapat dari hasil temu kembali per konteks berlaku sebagai variabel bebas dan nilai kemiripan yang didapat dari hasil temu kembali secara keseluruhan berlaku sebagai variabel terikat. Dari proses ini didapat persamaan regresi berikut. Tabel 4 Nilai kemiripan dokumen terhadap kueri gagal panen Doc Sim(Flat) Sim(Title) Sim(Author) Sim(Text) y = x x x3 Gambar 2 Persamaan regresi Keterangan: y : nilai kemiripan dokumen secara utuh terhadap kueri. x1 : nilai kemiripan konteks title pada dokumen terhadap kueri. x2 : nilai kemiripan konteks author pada dokumen terhadap kueri. x3 : nilai kemiripan konteks text pada dokumen terhadap kueri. Persamaan regresi pada Gambar 2 menunjukkan bahwa title memiliki bobot lebih tinggi disbanding text dan author. Dari persamaan regresi pada Gambar 2 dapat diambil kesimpulan bahwa konteks title memiliki pengaruh sebesar 0.532, konteks title memiliki pengaruh sebesar 0.39,dan konteks text memiliki pengaruh sebesar Perhitungan Kemiripan Koefisien regresi dari masing-masing konteks yang didapat dari persamaan regresi linier kemudian diimplementasikan kedalam sistem temu kembali, dimana koefisien regresi masing-masing konteks dikalikan dengan bobot dokumen sesuai konteks masing-masing sehingga didapat nilai kemiripan baru untuk masingmasing dokumen terhadap kueri yang diujikan. Sebagai contoh pada Tabel 4 yang menunjukkan nilai kemiripan kueri gagal panen terhadap dokumen secara keseluruhan maupun per konteks. Dokumen nomor 979 yang relevan terhadap kueri gagal panen dan memiliki nilai kemiripan sebesar 2597 terhadap keseluruhan dokumen tanpa memperhatikan konteks, dan memiliki nilai kemiripan sebesar 1597 pada konteks title dan 1597 pada konteks text. Untuk mendapatkan nilai kemiripan baru maka setiap nilai kemiripan yang sebelumnya didapat masing-masing dikalikan dengan koefisien regresi sesuai masing-masing konteks. y adalah nilai kemiripan yang baru y = x x x3 y = (0.532 x 1597) + (0.390 x 0 ) + (0.503 x 1597) y =

20 9 Nilai kemiripan yang baru ini kemudian diurutkan dari nilai yang terbesar hingga nilai yang terkecil, semakin besar nilai kemiripan dokumen terhadap kueri maka dianggap relevansinya semakin tinggi. Evaluasi Proses evaluasi dilakukan setelah hasil temu kembali informasi diperoleh. Sistem dievaluasi dengan membandingkan nilai average precision (AVP) dan mean average precision(map) dari sistem temu kembali informasi yang belum memperhatikan konteks dengan sistem yang menggunakan pembobotan per konteks. Tahap pertama pada pengujian dilakukan dengan melakukan kegiatan temu kembali dengan menggunakan 30 kueri (Lampiran 2). Kegiatan temu kembali informasi dilakukan pembobotan dan sistem temu kembali informasi dengan pembobotan per konteks dengan 6 kombinasi yaitu dengan memperhatikan konteks title, author dan text, konteks title dan author, konteks author dan text, konteks title dan text, konteks author saja, konteks text saja, dan konteks title saja. Untuk ujicoba sistem temu kembali informasi dengan pembobotan pada konteks tertentudilakukan dengan menggunakan hanya bobot konteks tertentusaja yang digunakan, sedangkan bobot pada konteks lainnyatidak digunakan dan koefisiennya dianggap sama dengan 0. Tahap selanjutnya yaitu menghitung nilai recall dan precision pada masingmasing hasil sistem temu kembali informasi. Untuk mengetahui kinerja sistem secara keseluruhan,map dan AVP digunakan. MAP dihitung dengan menggunakan nilai precision yang sudah dihitung sebelumnya yang kemudian dicari rata-ratanya. AVP didapatkan dengan melakukan interpolasi terhadap nilai precision pada sebelas tingkat nilai recall yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Nilai perbandingan AVP dan MAP pada masing-masing uji coba ditunjukkan pada Tabel 5. Tabel 5Perbandingan nilai AVP dan MAP Sistem AVP MAP Tanpa pembobotan Pembobotan pada konteks title, author dan text Pembobotan pada konteks title dan author Pembobotan pada konteks author dan text Pembobotan pada konteks title dan text Pembobotan pada konteks author Pembobotan pada konteks text Pembobotan pada konteks title Grafik perbandingan hasil interpolasi antara precision dan recall pada masing-masing sistem temu kembali informasi yang diujicobakan dapat dilihat pada Gambar 3. Sedangkan nilai AVP dan MAP pada keempat sistem temu kembali informasi ini secara rinci dapat dilihat pada Lampiran 4 sampai 11.

21 10 1 0,9 0,8 0,7 precision 0,6 0,5 0,4 0,3 0,2 0, recall AVP reguler AVP regresi title.author AVP regresi title.text AVP regresi text AVP regresi title.author.text AVP regresi author.text AVP regresi author AVP regresi title Gambar 3 Grafik perbandingan antara masing-masing AVP SIMPULAN DAN SARAN Simpulan Berdasarkan perbandingan nilai mean average precision(map) dari hasil evaluasi diketahui bahwa terjadi penurunan nilai rata-rata MAP sebesar 1.15% pada sistem temu kembali informasi tanpa pembobotan dengan pembobotan per konteks. Adapun dengan membandingkan nilai rata-rata AVP dan MAP pada masing-masing sistem temu kembali informasi dengan pembobotan per konteks dan dengan melihat grafik perbandingan antara masing-masing nilai Average Precision diketahui bahwa sistem temu kembali informasi dengan pembobotan pada konteks title dan author menghasilkan kinerja yang paling baik dibanding percobaan lainnya. Dari penurunan nilai rata-rata AVP dan MAP yang dihasilkan dari evaluasi, dapat disimpulkan bahwa sistem temu kembali informasi dengan menggunakan regresi linier dengan menggunakan kueri yang digunakan belum dapat meningkatkan kinerja sistem temu kembali informasi.

22 11 Saran Beberapa hal yang perlu dikembangkan lebih lanjut dari penelitian ini antara lain sebagai berikut: 1 Menggunakan jumlah koleksi dokumen yang lebih banyak 2 Menggunakan kueri uji selain yang digunakan dalam penelitian ini 3 Melakukan analisa perbandingan dengan metode pencarian koefisien bobot per konteks yang lain. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval.Wokingham (UK) : Addison Wesley. Kamps J, Marx M, de-rijke M, Sigurbjornsson B XML:What to Retrieve?. Di dalam: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval; 2003 July 28 august 1. Toronto (CAD) : ACM. Hlm 1. Kontostathis A,Lilly A, Spiteri RJ Distributed EDLSI, BM25, and power normat TREC Di dalam: Proceedings of The Seventeenth Text Retrieval Conference; 2008 Nov Maryland (US) : National Institute of Standards and Technology. Hlm 4. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval.New York(US) : Cambridge University. Rahman A Perbandingan kinerja beberapa ukuran kesamaan pada temukembali informasi dokumen XML.[Skripsi].Bogor(ID) : Institut Pertanian Bogor.

23 12 Lampiran 1Contoh dokumen pengujian <sphinx:document id="1"> <docno>balaipenelitian </docno> <title>produktivitas som jawa (talinum paniculatum gaertn.) pada beberapa komposisi bahan organik</title> <author> ireng darwati, mono rahardjo, dan rosita smd </author> <text> <p>som jawa merupakan tanaman yang menghasilkan umbi. untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik. kondisi tersebut dapat dicapai dengan penggunaan bahan organik (kasting, kompos daun bambu dan pupuk kandang). penelitian ini bertujuan mempelajari pengaruh beberapa macam komposisi bahan organik sebagai media tanam dalam pot (polybag) terhadap produksi umbi som jawa. pot diisi 20 kg media tanam, ditempatkan di lapangan terbuka ip cimanggu di balittro. percobaan berlangsung mulai bulan september 1996 sampai september rancangan yang digunakan adalah rancangan acak kelompok dengan empat ulangan. perlakuan komposisi media bahan organik yang diuji adalah (1) tanah; (2) tanah + pupuk kandang (3:1); (3) tanah + kasting (3:1); (4) tanah + kompos daun bambu (3:1); (5) tanah + kasting + kompos daun bambu (6:1:1); (6) tanah + pupuk kandang + kompos daun bambu (6:1:1); (7) tanah + pupuk kandang + kasting (6:1:1). tanaman diberi pupuk dasar 1 g urea, 3 g tsp, dan 3 g kcl, serta 2 g urea sebagai pupuk susulan pada 3 bulan setelah tanam. tanaman dipanen pada umur 1 tahun setelah tanam. hasil penelitian menunjukkan bahwa ketiga macam bahan organik yang diuji dapat meningkatkan ukuran umbi, jumlah umbi, bobot segar, dan bobot kering umbi som jawa. produksi umbi segar tertinggi g/ tanaman dan umbi kering g/tanaman diperoleh pada perlakuan bahan organik terdiri atas campuran tanah dan kasting dengan perbandingan 3:1.</p> </text> </sphinx:document>

24 13 Lampiran 2 Daftar kueri dan jumlah dokumen relevan Kueri Jumlah dokumen relevan gagal panen 32 petani tebu 20 industri gula 15 perdagangan hasil pertanian 22 penerapan teknologi pertanian 24 pupuk organik 20 penyakit hewan ternak 13 penerapan teknologi bioteknologi di indonesia 6 laboratorium pertanian 21 riset pertanian 26 harga komoditas pertanian 30 tanaman pangan 42 Utami 4 Mar 18 tanaman obat 28 Evy 3 impor beras indonesia 33 pertanian organik 22 Kerusakan lingkungan 19 Hutan kota 13 Musim kemarau 32 Ant 181 Tma 39 flu burung 21 Eliza 2 Damar 3 tom 13 Ahmad 19 kelangkaan pupuk 19 idh 28

25 14 Lampiran 3Daftar stopword acapkali bicarakan iya menurutnya semakin ada bicaranya jadi menuturkan semampunya adakah bila jadikan menyatakan semenjak adakan bilamana jadilah menyebabkan sementara adalah bilang jadinya menyebutkan semestinya adanya bisa jangan menyia semisal adapun bisakah jarang mereka semoga aduh bisanya jauh merupakan semua agak boleh jelaskan meski semuanya agaknya boro jika meskipun semula agar buat jikalau mesti seolah aja buatnya juga mestinya seorang akalan bukan jumlah misal seorangpun akan bukankah jumlahnya misalkan sepadan akankah bukanlah justru misalnya sepanjang akhir bukannya juta mudah separah akhirnya buktikan kabupaten mula sepasang akibat cara kadang mulai sepele akibatkan cerita kalau mulainya sependapat akibatnya ceritanya kalaupun mulanya seperti aku contoh kali muncul sepertinya ala contohkan kalian mungkin seputar alangkah contohnya kami mungkinkah seraya alasan cukup kamu namun serba alasannya cuma kan nanti serentak alih daerah kapan negara sering alihkan dahulu karena nilai seringkali amat dalam karenanya nyaris seringkalinya amatlah dan kata nyiakan seringlah ambil dapat katakan oleh seringnya anda dapatkah katakanlah orang serta andai dapatkan katanya pada sertanya anggap dapatlah kau padahal sesaat anggapan dari kayak padanannya sesama antar darinya kayaknya paling sesamamu antara daripada kebanyakan panjangnya sesedikit antaranya dekat kebetulan papar seseorang apa dekatnya kebiasaan paparan sesuai apabila demi kecil paparkan sesuatu apakah demikian kecuali paparnya sesuatunya apalagi demikianlah kemana para sesudah

26 15 Lampiran 3 Lanjutan apalah dengan kemanakah pasti sesudahnya apanya dengannya kembali pastilah sesukanya apapun depan kemudian pastinya sesungguhnya arti depannya kemungkinan pelak setelah artian dia kemungkinannya pelbagai setelahnya artinya dialah kenapa pemaparan seterusnya asalan dialami kenapakah pembagian setiap asalkan dialihkan kepada pembagiannnya setidak asumsi diambil kepadanya pendapat setidaknya asumsinya diambilkan kepala pengalihan seusai atas diambilnya ketika pengambil sewaktu atasnya dianggap ketimbang pengambilan seyogyanya atau diantara khususnya pengandaian sia ataukah diantaranya kini per sialnya ataupun diapakan kita peralihan siap awal dibagi kondisi percuma siapa bagai dibagikan kurang peri siapakah bagaikan dibeberapa lagi perihal siapapun bagaimana diberbagai lagian perlahan silahkan bagaimanakah diberi lagipula perlu singkatnya bagaimanapun diberikan lain pernah sini bagi diberinya lainnya persen sinilah baginya dibiarkan laksana pertamanya situ bagus dibiasakan lakukan pertanian sosok bagusnya dibilang lalu petani sosoknya bahkan dicontoh lalui pinggir suatu bahwa dicontohkan lama pula sudah baik dicontohkannya lanjut pulalah sulit baiknya didapat lantaran pun sungguh balik didapati lantas rata sungguhpun banding didapatkan lebih relevankah supaya bandingkan didapatnya lepas rendah tak banyak didasarkan lewat saat tambahnya banyaknya digolongkan lokasi saatnya tanggapan barangkali digunakan maka saatnyalah tanggapannya baru diharapkan makin saja tanggapnya bawah dijadikan mampu salah tanpa bawahnya dijadikannya mampukah sama tapi beberapa dikarenakan mampunya sambil tatkala begini dikasih mana sambutannya telah beginilah dikata manakala sampai tempat

27 16 Lampiran 3 Lanjutan begitu dikatakan manalagi sana tengah begitulah dikatakannya manapun sang tentang begitupula dikategorikan masa sangat tentu begitupun dikembangkan masih sangatlah tentunya belakang diketahui masihkah satunya tepatnya belakangan diketahuinya masing saya terbagi belum dilaksanakan masuk sayangnya terbalik belumlah dilakukan masyarakat seakan terbiasa benar dimana mau seandainya terbilang benarkah dimulai maupun seantero terdapat benarnya dimulailah melainkan sebab tergolong berada dimulainya melakukan sebabkan terhadap berakhir dimungkinkan melalui sebabnya terjadi berakhirnya dipaparkan melihat sebagai terjadilah berakibat dipersilahkan memang sebagaimana terjadinya berakibatkan disaat memaparkan sebagainya terkadang beralasan disebabkan membagi sebagian terkait beralih disejumlah membagikan sebaik terkecuali beralihnya diseluruh memberi sebaiknya terlalu beranggapan disertai memberikan sebaliknya terlebih berapa disertakan memberinya sebanyak termasuk berapanya disimpulkan membiarkan sebelum ternyata berapapun disitulah membolehkan sebelumnya tersebut berarti ditanggapi membuat sebenarnya tertentu berasumsi ditanya memeperoleh seberapa terus berbagai ditanyakan memiliki seberat tetap berbagi dituturkan meminta sebesar tetapi berbanding diucapkan memperbolehkannya sebetulnya tiap berbeda dkk mempersilahkan sebuah tiba berdampak dll mempunyai secara tidak berdasarkan dsb memungkinkan sedalam tidaklah berhadapan dua menanggapi sedang tidaknya berharap dulu menanggapinya sedangkan tiga berhubung dulunya menanyakan sedapat tinggi berhubungan empat mencapai sedemikian tutur beri enggak mencontohkan sedikit tuturnya berikan engkau mendapat sedikitnya ucap berikanlah esok mendapati segera ucapan berikut gimana mendapatkan sehabis ucapannya berikutnya habis mendapatkannya seharusnya ucapkan berjumlah habisan menerus seharusnyalah ucapnya

28 17 Lampiran 3 Lanjutan berkat habiskan mengada sehingga ujar berkenaan habisnya mengaku sehubungan ujarnya berkesan hal mengalami sejak umpamanya berkesempatan hampir mengalihkan sejauhmana umum berkesimpulan hanya mengambil sejumlah umumnya berlalu hanyalah mengambilnya sekalian ungkap berlalunya hari menganggap sekaligus ungkapan berlama harus menganggapnya sekalipun ungkapkan berlangsung haruskah mengapa sekarang ungkapnya bermula haruslah mengatakan sekata untuk bersama harusnya mengembangkan sekedar usah bersamaan hendak mengenai sekeliling usahlah bertepatan hendaklah menggunakan seketika usai beruntun hendaknya mengungkapkan sekian usianya berupa hingga meningkat sekitar waktu besarnya how meningkatkan selagi waktulah beserta ialah menjadi selain waktunya besok ingin menjadikan selalu walau besoknya ini menjadikannya selama walaupun betapa inilah menjelang selanjutnya warga biar inipun menjelaskan selesai well biarlah itu menuju selesaikah yaitu biasa itulah menunjukkan seluruh yakni biasanya itupun menurut seluruhnya yang

29 18 Lampiran 4 Interpolasi precision dan recall pada sistem temu kembali informasi tanpa memperhatikan konteks p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

30 Lampiran 5Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title, author dan text 19 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

31 20 Lampiran 6Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title dan author p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

32 Lampiran 7Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks author dan text 21 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

33 22 Lampiran 8Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title dan text p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

34 Lampiran 9Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks author 23 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

35 24 Lampiran 10 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks text p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

36 Lampiran 11Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title 25 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP p16 p17 p18 p19 p20 p21 p22 p23 p24 p25 p26 p27 p28 p29 p30 ave MAP

37 26 Lampiran 12Tampilan antar muka sistem temu kembali informasi

Menunjukkan lagi