PEMILIHAN DEPARTEMEN FAKULTAS

Transkripsi

1 PEMILIHAN PASSAGES DALAM QUESTION ANSWEING SYSTEM UNTUK DOKUMEN BEBAHASA INDONESIA SUCI AMELIA SANU DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIANN BOGO BOGO 2011

2 PEMILIHAN PASSAGES DALAM QUESTION ANSWEING SYSTEM UNTUK DOKUMEN BEBAHASA INDONESIA SUCI AMELIA SANU Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO BOGO

3 ABSTACT SUCI AMELIA SANU. Passages Selection in Question Answering System for Indonesian Language Documents. Supervised by JULIO ADISANTOSO. The first step on Question Answering System was the user enter question query. The used question query is limited to question type: WHO, WHEE, WHEN, and HOW MANY or HOW MUCH. The question word on query is used to obtain an answer candidate, while other words beside the question word are used to analyze the question. Question analysis process is started by parsing into keyword become tokens. The question sentence that has parsed is used to retrieve document and top passage. Top passage is obtained of question from passages that has highest point. Passages was done by three scoring method : rule-based, heuristic, and combination of rule-based with heuristic. The answer extraction is conducted by calculating the nearest distance between each answer candidate in top passage and each word in keyword. Answer correction is evaluated by using these criteria: right, unsupported, wrong, and null. The evaluation of the research was seen on the set of question and document, also the accuracy for each answer. The result of rule-based scoring used 10 top documents was 77.5 % for criteria right, 2.5 % for criteria unsupported, 17.5 % for criteria wrong, and 2.5 % for criteria null. The result of heuristic scoring was 75 % for criteria right, 2.5 % for criteria unsupported, 20 % for criteria wrong, and 2.5 % for criteria null. The result of rule-based and heuristic scoring was 72.5 % for criteria right, 2.5 % for criteria unsupported, 22.5 % for criteria wrong, and 2.5 % for criteria null. The result of heuristic scoring used 2 top documents was 75 % for criteria right, 22.5 % for criteria wrong, and 2.5 % for criteria null. The result of rule-based scoring was 60 % for criteria right, 37.5 % for criteria wrong, and 2.5 % for criteria null. The result of rule-based and heuristic scoring was 75 % for criteria right, 22.5 % for criteria wrong, and 2.5 % for criteria null. Keywords: question answering, rule-based scoring, heuristic scoring 1

4 Judul : Pemilihan Passages dalam Question Answering System untuk Dokumen Berbahasa Indonesia Nama : Suci Armelia Sanur NP : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Dr. Ir. Sri Nurdiati, M.Sc NIP Tanggal Lulus: i

5 PAKATA Alhamdulilahirobbil alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala karunia-nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian adalah Pemilihan Passages dalam Question Answering System untuk Dokumen Berbahasa Indonesia. Penulis sadar bahwa tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada : 1. Orang tua tercinta, adikku tersayang Dwi Lestari, serta segenap keluarga besar, terima kasih atas doa dan dukungan yang tiada henti. 2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini. 3. Bapak Sony Hartono Wijaya, S. Kom, M.Kom dan Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta seluruh dosen dan staf Departemen Ilmu Komputer FMIPA IPB. 4. Sahabat-sahabatku Mamet, Kak Wanda, Utie, Vira dan seluruh teman-teman Ilkomerz angkatan 3. Terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini. 5. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat. Bogor, Maret 2011 Suci Armelia Sanur ii

6 IWAYAT HIDUP Penulis dilahirkan di Kepala Hilalang Sumatera Barat pada tanggal 04 Mei 1988 dari ayah Sayadi dan ibu Nurlela. Penulis merupakan putri pertama dari dua bersaudara. Tahun 2005 penulis lulus dari SMA Negeri 1 2x11 Enam Lingkung dan pada tahun yang sama lulus seleksi masuk Diploma IPB melalui jalur USMI (Undangan Seleksi Masuk IPB). Tahun 2008 penulis lulus dari Diploma IPB dan pada tahun yang sama diterima di Ekstensi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. iii

7 DAFTA ISI Halaman DAFTA TABEL v DAFTA LAMPIAN v PENDAHULUAN Latar Belakang Tujuan uang Lingkup TINJAUAN PUSTAKA Question Answering (QA) Pembobotan Ekstraksi Jawaban Pembobotan heuristic Pembobotan rule-based... 3 METODE PENELITIAN Pemrosesan Offline... 4 Pemrosesan Online Evaluasi Hasil Percobaan Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian... 5 Pemrosesan Dokumen Perhitungan tf-idf Pembentukan Passages Pemrosesan Kueri... 6 Perolehan dokumen teratas Perolehan Top Passages... 7 Pembobotan Heuristic Pembobotan Heuristic dan ule-based Ekstraksi Jawaban Hasil Percobaan KESIMPULAN DAN SAAN Kesimpulan Saran DAFTA PUSTAKA LAMPIAN iv

8 DAFTA GAMBA Halaman 1 Ilustrasi matriks inverted index Kedekatan dokumen dalam ruang vektor (Manning 2008) Alur pemrosesan offline Diagram alur pemrosesan online Struktur dokumen pengujian Ilustrasi bagian dokumen yang digunakan untuk pemrosesan Contoh hasil tagging dokumen Grafik hasil percobaan keseluruhan kata tanya menggunakan 10 dokumen teratas Grafik hasil percobaan keseluruhan kata tanya menggunakan 2 dokumen teratas DAFTA TABEL Halaman 1 Daftar pasangan kata tanya dan named entity Persentase perolehan jawaban oleh Cidhy (2009) dan penulis... 9 DAFTA LAMPIAN Halaman 1 Antarmuka implementasi Contoh dokumen XML dalam koleksi pengujian Contoh pemberian entitas dokumen text dalam koleksi pengujian Tabel hasil kata tanya Siapa Tabel hasil kata tanya Kapan Tabel hasil kata tanya Dimana Tabel hasil kata tanya Berapa v

9 Latar Belakang PENDAHULUAN Sistem temu kembali informasi memiliki kaitan erat dengan sistem pencarian (search engine). Untuk menemukembalikan suatu informasi, sistem pencarian membutuhkan masukan yang dikenal dengan query. Salah satu sistem pencarian yang sudah dikembangkan adalah sistem pencarian yang memiliki fitur query berupa pertanyaan. Sistem ini dikenal dengan Question Answering System (QAS) misalnya Dengan adanya fitur pertanyaan sebagai query, diharapkan informasi yang diperoleh lebih relevan dan spesifik sesuai kebutuhan pengguna. Penelitian tentang Question Answering System dalam perkembangannya sudah diimplementasikan oleh Ballesteros dan Xiaoyan-Li (2007) berupa Question Answering yang digunakan untuk bahasa Inggris dan Mandarin. Dalam penelitian tersebut digunakan pembobotan heuristic dan syntactic untuk mengidentifikasi kandidat kalimat yang relevan. Cidhy (2009) mengimplementasikan penggunaan pembobotan heuristic yang dilakukan Ballesteros dan Xiaoyan-Li (2007) ke dalam dokumen berbahasa Indonesia. Berbeda dengan penelitian yang dilakukan oleh Cidhy (2009), Sianturi (2008) menyempurnakan penelitian Ikhsani (2006) untuk membangun sistem temu kembali jawaban tidak hanya menggunakan satu dokumen bacaan dan bahasa baku, tetapi membangun sistem temu kembali jawaban atas query pertanyaan terhadap banyak dokumen yang tidak baku. Penelitian Ikhsani (2006) dan Sianturi (2008) mengacu pada penelitian iloff dan Thelen (2000) yang menggunakan konsep rule-based untuk mendapatkan kalimat jawaban. Mengacu pada penelitian yang dikembangkan Sianturi (2008) proses pengembalian jawaban masih terbatas pada menemukembalikan kalimat jawaban sedangkan Cidhy (2009) sudah mengembalikan jawaban berupa entitas tetapi masih memiliki persentase jawaban benar yang rendah. Hal ini karena pemilihan passages yang kurang tepat. Penelitian ini akan mencoba membuat sistem dengan pembobotan rule-based yang dapat mengembalikan jawaban berupa entitas dan menggabungkan metode ule-based (Sianturi 2008) dan pembobotan heuristic (Cidhy 2009) sehingga dapat diperoleh passages yang tepat untuk mengembalikan jawaban yang benar. Tujuan Penelitian ini bertujuan memperoleh pembobotan passages yang tepat dalam Question Answering System yang dapat mengembalikan jawaban yang benar. uang Lingkup uang lingkup penelitian ini adalah: 1. Korpus terdiri atas beberapa dokumen berbahasa Indonesia 2. Menggunakan kata tanya yaitu siapa, dimana, kapan, dan berapa. 3. Kueri pertanyaan yang dimasukkan dibatasi pada tipe factoid question, yaitu pertanyaan yang memiliki jawaban tunggal. 4. Hasil dari penelitian dievaluasi menggunakan persepsi manusia. TINJAUAN PUSTAKA Question Answering (QA) Question Answering System (QAS) merupakan kombinasi antara Information etrieval (I) dengan Natural Language Processing (NLP). QA memiliki tujuan menampilkan jawaban berdasarkan kueri dalam bentuk pertanyaan yang diajukan oleh pengguna (Lin 2004). Perbedaan yang mendasar antara QA dengan I terletak pada masukan (kueri) dan keluaran yang dihasilkan. Pada I kueri yang dimasukkan berupa kata atau kalimat pertanyaan dan keluaran yang dihasilkan adalah dokumen yang dianggap relevan oleh sistem. Sedangkan pada QA, kueri berupa kalimat tanya dan keluarannya berupa jawaban (entitas) yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun. Pembobotan Information etrieval pada dasarnya adalah membandingkan kata yang ada pada kueri dengan kata yang ada dalam dokumen. Untuk memperoleh kata tertentu dalam dokumen yang mengandung informasi yang berkaitan dengan query tertentu juga, dilakukan dengan cara menghitung kesamaan antara vektor dokumen dan vektor kueri. Informasi yang diperlukan yaitu term frequency (tf), document frequency (df), dan invers document frequency (idf). Nilai tf menggambarkan frekuensi kemunculan suatu kata t dalam dokumen d, yang dilambangkan dengan tf t,d. Nilai df menggambarkan banyaknya dokumen di dalam koleksi yang mengandung kata tertentu. Nilai idf merupakan pembagian nilai df t dengan total 1

10 dokumen yang ada dalam koleksi menghasilkan nilai idf untuk setiap kata sebagai berikut : log dengan N merupakan notasi untuk jumlah dokumen yang ada dalam koleksi. Melalui idf dapat diketahui kata-kata tertentu yang merupakan penciri suatu dokumen. Dengan demikian, dapat diperoleh bobot untuk masingmasing kata dalam dokumen, yaitu w t,d yang merupakan hasil perkalian antara tf t,d dan idf t. Gambar 1 menunjukkan ilustrasi matriks inverted index, yang berisi bobot setiap kata t dalam suatu dokumen d d 1 d 2 d 3 t 1 w t1d1 w t1d2 w t1dn t 2 w t2d1 w t2d2 w t2dn t 3 w tkd1 w tkd2 w tkdn Gambar 1 Ilustrasi matriks inverted index Ide untuk mengukur kesamaan dokumen dengan menggunakan kesamaan cosine adalah dokumen yang saling berdekatan dalam ruang vektor memiliki kecenderungan berisi informasi yang sama. Gambar 2 mengilustrasikan vektor dokumen yang terdapat dalam ruang vektor, yang diberi nilai oleh bobot kata. t 1 d j θ query Gambar 2 Kedekatan dokumen dalam ruang vektor (Manning 2008). Formula untuk memperoleh kesamaan cosine untuk d j dan d k adalah: d. d, d d Berdasarkan formula kesamaan cosine, d j dan d k adalah dokumen yang terdapat dalam ruang vektor M kata. Dalam implementasi perolehan n dokumen teratas, hal serupa dilakukan untuk mengukur kesamaan antara vektor kueri dengan dokumen. Dokumen diurutkan berdasarkan perolehan nilai cosine d k d l 0 t 2 dengan kueri, kemudian dipilih n dokumen teratas dengan nilai cosine tertinggi. Ekstraksi Jawaban Setelah diperoleh n dokumen teratas, tahap selanjutnya adalah ekstraksi jawaban. Setiap n dokumen teratas yang terambil dianalisis kembali untuk mengidentifikasi kandidat jawaban dengan cara sebagai berikut (Ballesteros & Xiaoyan-Li 2007): 1. Dilakukan identifikasi named entity yang terdiri atas orang, organisasi, lokasi, ekspresi waktu, tanggal, ekspresi numerik, uang, dan persen. 2. Dokumen dibagi menjadi passage. Passage terdiri atas dua kalimat yang berdampingan. Setiap passage memiliki satu kalimat yang overlap. 3. Dilakukan pembobotan pada setiap passage. 4. Dilakukan pengurutan terhadap seluruh passage dari setiap n dokumen teratas. Pengurutan dilakukan berdasarkan bobot yang dimiliki oleh setiap passage. 5. Ekstraksi kandidat jawaban dari passage peringkat teratas. Jarak antara kandidat jawaban dan posisi dari setiap query yang cocok dalam passage dihitung. Kandidat jawaban yang memiliki total jarak terkecil terpilih sebagai jawaban akhir. Pembobotan heuristic Pembobotan heuristic merupakan metode pembobotan passages yang dikembangkan oleh Ballesteros dan Xiaoyan-Li (2007). Pertama didefinisikan count_query adalah jumlah kata yang terdapat pada query (kalimat tanya), count_match adalah jumlah hasil pencocokan antara kata yang terdapat pada query dan passage (wordmatch), score adalah bobot dari passage dan wordmatch_words adalah hasil wordmatch. Yang diperhitungkan dalam pembobotan heuristic diantaranya count_match, nilai count_match yang terdapat dalam passage yang sama, ukuran dari passage tertentu, dan jarak antara sebuah kandidat jawaban dengan wordmatch_words. Proses pembobotan adalah sebagai berikut: 1. Jika tidak ada named entity yang ditampilkan, passage menerima nilai 0. Jika named entity ditampilkan pada passage namun tidak memiliki tipe yang sama dengan pertanyaan, named entity diabaikan. 2. Dilakukan pencocokan kata-kata pada query dengan kata-kata pada passage (proses 2

11 wordmatch). Jika nilai count_match kurang dari threshold (t), score = 0. Selain itu score = count_match. Nilai threshold (t), didefinisikan dengan cara sebagai berikut: a. Jika count_query kurang dari 4, t=count_query. b. Jika count_query antara 4 dan 8, t=count_query/ c. Jika lebih besar dari 8, t=count_query/ Nilai threshold digunakan untuk mengambil kata yang penting pada passages. Dengan kata lain, paragraf apapun yang tidak mengandung kata-kata yang terdapat pada query tidak diperhitungkan. 3. Kata yang berdekatan memiliki hubungan keterkaitan informasi yang lebih tinggi. Jika seluruh kata yang cocok dengan query terdapat pada satu passages Sm=1, selain itu Sm=0. Maka, score = score + (Sm*0.5). 4. Seperti yang diketahui urutan kata dapat mempengaruhi arti. Oleh karena itu, diberikan bobot yang lebih tinggi (Ord=1) terhadap passage jika kata-kata yang cocok dengan query memiliki urutan yang sama seperti pada pertanyaan asli. Selain itu Ord=0. Dengan demikian, score = score + (Ord*0.5). 5. Score = score + (count_match/w), dimana W adalah jumlah kata dari passage dengan bobot tertinggi. Pembobotan terakhir yaitu menghitung total perolehan nilai yang disimpan dalam variabel heuristic_score yaitu count_match + 0.5*Sm + 0.5*Ord + count_match/w. Pembobotan rule-based Metode rule-based adalah metode yang dikembangkan oleh iloff & Thelen (2000). Cara kerja metode rule-based adalah menghitung nilai dari masing-masing passages pada dokumen dengan kueri yang diberikan. Nilai yang diberikan berdasarkan pada jumlah nilai hasil perbandingan kata yang sama antara kueri dengan kata yang ada pada passages dan nilai pada masing-masing rule berdasarkan tipe pertanyaan. Suatu rule dapat memberikan empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20). Menurut iloff dan Thelen (2000), nilai yang digunakan hanya berdasarkan intuisi yang bertujuan untuk memperkirakan seberapa pentingnya rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri. Jawaban atas queri yang diberikan adalah passages yang memiliki nilai tertinggi. Algoritme rule telah dimodifikasi oleh Ikhsani (2006) dari rule yang dibuat oleh iloff dan Thelen (2000) karena melakukan penyesuaian terhadap kaidah bahasa Indonesia. Adapun rule yang dibuat Sianturi (2008) sebagai berikut: 1. KAPAN Score(S) += WordMatch(Q,S) If contains(s, WAKTU) and contains (S,{saat, ketika, kala, semenjak,sejak, waktu, setelah, sebelum})then Score(S) += slam_dunk If contains(s, WAKTU) then Score(S) += good_clue If contains(s,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) +=clue 2. DIMANA Score(S) += WordMatch(Q,S) If contains(s,tempat) and contains (S,{dalam,dari, pada}) then Score(S) += slam_dunk If contains(s,{dalam, dari, pada}) then Score(S) += clue If contains(s, TEMPAT) then Score(S) += good_clue 3. SIAPA Score(S) += WordMatch(Q,S) If ~contains(q,oang) and contains (Q,OANG) then score(s) += slam_dunk 4. APA Score(S) += WordMatch(Q,S) If contains(q,{tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident Elseif contains(q,{maksud}) and contains (S,{adalah,ialah}) then Score(S) += slam_dunk Keterangan: S = sentence (passages) Q = query (kalimat kueri) 3

12 METODE PENELITIAN Penelitian ini dilakukan dalam tiga tahap, yaitu pemrosesan offline, pemrosesan online, dan evaluasi hasil percobaan (Gambar 3 dan 4) ). Pemrosesan Offline Pemrosesan offline terdiri atas tahap preproses dokumen, indexing dokumen, dan embentukan passages. Pemrosesan ini dilakukan untuk mendapatkan nilai tf-idf dan passage yang akan digunakan pada pemrosesan online. Pemrosesan Online Pemrosesan online terdiri atas tahap preproses kueri, perolehan 10 dokumen teratas, perolehan top passages, pembobotan passages, dan ekstraksi jawaban. Gambar 3 Alur pemrosesan offline 1. Preproses Dokumen Pada tahap ini dilakukan proses parsing dan penghilangan stopwords terhadap koleksi dokumen uji. Koleksi dokumen uji dan daftar stopwords diambil dari Labotarium Temu Kembali Informasi Departemen Ilmu Komputer IPB. 2. Indexing Dokumen Proses indexing dokumen pada tahap ini menggunakan pembobotan tf-idf. Hasil indexing berupa nilai idf dan tf-idf dari seluruh dokumen. 3. Pembentukan Passages Tahap selanjutnya adalah pembentukan passages yang masing-masing terdiri atas dua kalimat yang saling berdampingan. Sebelum dilakukan pembentukan passages, terlebih dahulu dilakukan penamaan entitas (entitas) padaa koleksi dokumen pengujian. Penamaan entitas atau tagging dilakukan dengan memanfaatkan hasil penelitiann Citraningputra (2009). Entitas yang dihasilkan pada penelitian Citraningputra (2009) yaitu NAME, OGANIZATION, DATE TIME, LOCATION, NUMBE, dan CUENCY. Gambar 4 Diagram alur pemrosesan online 1. Preproses Kueri Kueri berupa kalimat pertanyaan yang dimasukkan pengguna, dilakukan parsing dan penghilangan stopwords untuk mendapatkan kata tanya dan keyword (kata-kataa selain kata tanya). Kata tanya yang digunakan dibatasi pada kata : SIAPA, KAPAN, DIMANA, DAN BEAPA. 2. Perolehan 10 Dokumen Teratas Sistem akan mengembalikan sepuluh dokumen teratas yang memiliki kesamaan cosine teratas. 3. Perolehan Passage Kandidat passage diperoleh dari passages yang terletak pada sepuluh dokumen teratas. 4. Pembobotan Passage Pembobotan terhadap passage dilakukan dengann tiga metode yaitu heuristic, rule-based dan gabungan heuristic dan rule-based. Passage yang mendapatkann nilai tertinggi akan 4

13 dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek dengan kata kunci pada kalimat tanya (kueri) akan menjadi entitas jawaban. Evaluasi Hasil Percobaan Tahap evaluasi dilakukan secara objektif dari segi: 1. Pasangan jawaban dan dokumen (esponsiveness) 2. Ketepatan untuk setiap jawaban. Pemberian nilai dilakukan berdasarkan empat kriteria, yaitu: 1. Wrong (W): jawaban tidak benar. 2. Unsupported (U): jawaban benar tapi dokumen tidak mendukung. 3. Inexact (X): jawaban dan dokumen benar tapi terlalu panjang. 4. ight (): jawaban dan dokumen benar Lingkungan Pengembangan Perangkat lunak yang digunakan untuk penelitian yaitu : 1. Windows 7 sebagai sistem operasi, 2. Apache Xampp-win sebagai web server, 3. Notepad ++ sebagai editor program. Perangkat keras yang digunakan untuk penelitian yaitu : 1. Processor Intel Centrino 2.3 GHz, 2. AM 4 GB, 3. Harddisk kapasitas 250 GB. HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Dokumen uji yang digunakan adalah dokumen berbahasa Indonesia yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Sumber koleksi dokumen diambil dari media koran, majalah, dan jurnal penelitian. Dokumen ini disimpan dalam satu direktori. Secara umum, nama dokumen diberi nama berdasarkan sumber data dan tanggal data diterbitkan, misalnya suaramerdeka txt yang berarti data berasal dari majalah Suara Merdeka dan diterbitkan oleh Suara Merdeka pada tanggal 04 bulan Januari tahun Dokumen memiliki ukuran terkecil 1 KB dan terbesar 53 KB. Masing-masing dokumen uji berekstensi teks (*.txt) dan struktur XML di dalamnya. Gambar 5 menunjukkan contoh format strukur dokumen yang digunakan. <DOC> <DOCNO> suaramerdeka </DOCNO> <TITLE> ibuan Bibit untuk Lahan Kritis </TITLE> <AUTHO> </AUTHO> <DATE> Minggu, 4 Januari 2004 </DATE> <TEXT> NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. </TEXT> </DOC> Gambar 5 Struktur dokumen pengujian. Pemrosesan dokumen pada tahap indexing, hanya diambil bagian dokumen yang diapit oleh tag <TITLE> dan <TEXT>, sedangkan untuk pembentukan passages, hanya digunakan bagian dokumen yang diapit oleh tag <TEXT>. Gambar 6 menunjukkan ilustrasi bagian dokumen yang diproses. <DOC> <DOCNO> </DOCNO> <TITLE>... </TITLE> <AUTHO> </AUTHO> <DATE> </DATE> <TEXT>... </TEXT> </DOC> Gambar 6 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. 5

14 Pemrosesan Dokumen Langkah pertama pada pemrosesan dokumen adalah penamaan entitas (named entity) yang disebut tagging pada dokumen dengan menggunakan hasil penelitian dari Citrainingputra (2009). Penamaan entitas dilakukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaannya. Adapun named entity yang digunakan terdiri dari NAME, OGANIZATION, NUMBE, PECENT, CUENCY, DATE, TIME, dan LOCATION. Pada tahap ini dilakukan dengan memasukkan satu per satu setiap bagian dokumen yang diapit tag <TEXT> ke dalam sistem name entity tagging (Citraningputra 2009). Gambar 7 menunjukkan hasil tagging untuk dokumen suaramerdeka txt. Selanjutnya semua dokumen hasil tagging kemudian disimpan dalam korpus. NGALIYAN- <LOCATION> Kecamatan Ngaliyan </LOCATION> telah mendistribusikan sekitar <NUMBE>30</NUMBE> ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan <NUMBE> </NUMBE> bibit tanaman dari <OGANIZATION> Departemen Pertanian </OGANIZATION>. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. Gambar 7 Contoh hasil tagging dokumen. Langkah kedua adalah pembacaan terhadap isi file dari korpus. Pembacaan hanya berlaku pada isi file yang berada pada tag <TITLE> dan <TEXT>. Kemudian pada isi file tersebut dilakukan parsing dengan pemisah kata yang tersimpan dalam variabel pemisahkata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Tidak semua hasil parsing disimpan, karena hasil parsing diseleksi kembali oleh stopwords yang merupakan kata buangan atau daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti. File ini tersimpan dalam file stopwords.txt yang terdiri atas 733 kata yang dipisahkan dengan karakter enter, contoh kata tersebut antara lain acapkali, dalam, dan, dapat, sesaat, dari, dan lain-lain. Perhitungan tf-idf Langkah pertama melakukan perhitungan tfidf adalah mendapatkan informasi term frequency, dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency diperoleh dari pasangan dokumen dan hasil parsing (token-token) dari masing-masing file disimpan dalam suatu array pada variabel tf. Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata. Langkah selanjutnya adalah mendapatkan document frequency (df). Document frequency adalah jumlah dokumen yang mengadung kata tertentu. Kemudian dari hasil tersebut dapat dihitung nilai invers document frequency (idf). Tujuan dari idf adalah untuk menentukan katakata (term) yang merupakan penciri dari suatu dokumen, oleh karena itu dalam penelitian ini hanya kata dengan nilai idf lebih besar sama dengan 0.3 yang disimpan. Hal ini bertujuan untuk menghapus kata-kata yang tidak termasuk dalam stopwords namun bukan penciri dari sebuah dokumen. Hasil idf disimpan dalam filegenerate/idf.txt dengan menggunakan tanda >> sebagai pemisah. Melalui idf dapat diperoleh informasi untuk menghitung nilai tf-idf yang merupakan perkalian antara nilai tf dan idf. Selanjutnya hasil tf-idf kata juga disimpan dalam satu file filegenerate/tfidf.txt dengan menggunakan tanda >> sebagai pemisah. Pembentukan Passages Tahap awal pembentukan passages adalah dilakukan pembentukan kalimat untuk setiap dokumen dengan menggunakan tanda pemisah antar kalimat yaitu [.?!]. Setiap passage dibentuk dari dua kalimat yang berurutan sehingga passage yang posisinya berdekatan saling overlap. Hasil pembentukan passages ini disimpan dalam satu file../filegenerate/passages.txt. Nilai yang disimpan adalah id passage, nama dokumen, dan passage. Masing-masing variabel dipisahkan dengan tanda >>. Pemrosesan Kueri Kueri berupa kalimat Tanya yang diawali dengan kata tanya dan diakhiri dengan tanda tanya (?). Kata tanya yang digunakan pada penelitian ini adalah SIAPA, KAPAN, DIMANA, dan BEAPA. Langkah pertama yang dilakukan pada pemrosesan kueri adalah parsing terhadap kalimat tanya dengan pemisah kata yang tersimpan dalam variabel pemisahkata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Kueri di-parsing terlebih dahulu, kemudian dilakukan proses case folding yaitu pengubahan semua huruf menjadi huruf kecil. Selanjutnya dilakukan tokenisasi untuk mendapatkan katakata penyusun kueri berupa kata tanya dan keyword (kata-kata selain kata tanya). Hasil tokenisasi disimpan dalam array $query. Melalui $query, kita dapat melakukan 6

15 identifikasi dan menyimpan kata tanya dari kueri pertanyaan berupa array dengan index ke- 0 atau query[0]. Tujuannya adalah menentukan tipe jawaban yang akan dikembalikan oleh sistem. Tipe jawaban dicirikan dengan tag named entity yang terdapat pada dokumen. Tabel 1 menunjukkan daftar pasangan jenis kata tanya dan named entity yang menjadi acuan dari jawaban yang akan dikembalikan. Tabel 1 Daftar pasangan kata tanya dan named entity Kata Tanya Siapa Kapan Dimana Berapa Tag Entitas NAME, OGANIZATION DATE, TIME LOCATION NUMBE, CUENCY Perolehan dokumen teratas Dokumen yang digunakan untuk proses perolehan jawaban adalah 10 dokumen dengan bobot kesamaan cosine tertinggi. Dengan memanfaatkan nilai idf dan tf-idf dapat dilakukan perolehan norm dari kueri dan dokumen. Kueri dimasukkan secara manual kemudian dilakukan perhitungan terhadap norm query, tf-idf query, dan norm untuk setiap dokumen. Langkah selanjutnya adalah memasangkan nilai norm query dengan query setiap dokumen untuk menghasilkan nilai dotproduct dan cosine. Setelah diperoleh nilai cosine, dilakukan pengurutan nilai cosine. Dokumen yang diambil untuk memasuki langkah selanjutnya adalah 2 dan 10 dokumen dengan nilai cosine tertinggi. Selanjutnya dilakukan pemilihan passages pada kamus passage yang termasuk dalam 10 dokumen di atas. Hasil pemilihan passages ini disimpan dalam variabel $passagesdoctop untuk digunakan pada tahap perolehan top passages. Perolehan Top Passages Passages yang akan digunakan dalam proses pembobotan adalah passages yang mengandung tag named entity yang dibutuhkan, yang dalam pembahasan kali ini disebut arraytag. arraytag merupakan hasil dari identifikasi kata tanya. Misalnya Siapa yang mengacu pada PESON- OGANIZATION, dan Kapan yang mengacu pada DATE-TIME. Selanjutnya passage yang disimpan variabel $passagesdoctop kemudian disaring untuk diambil passages yang memiliki TAG sesuai kata tanya kueri pertanyaan. Selanjutnya dilakukan pembobotan passages menggunakan pembobotan heuristic dan pembobotan menggunakan metode rule-based. Pembobotan Heuristic Sesuai dengan tahapan yang terdapat dalam jurnal Ballesteros dan Xiaoyan-Li (2007) serta penelitian Cidhy (2009) yang digunakan sebagai acuan dalam penelitian ini, pembobotan passages terdiri atas : 1. Pembobotan passages berdasarkan hasil dari proses wordmatch sesuai threshold. Hasilnya disimpan dalam variabel count_match. 2. Pembobotan passages berdasarkan urutan nilai dari arraywordquestion (kata-kata selain kata tanya pada kueri) dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Ord. 3. Pembobotan passages berdasarkan nilai dari arraywordquestion dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Sm. 4. Pembobotan berdasarkan hasil dari proses wordmatch sesuai threshold berbanding ukuran passage (jumlah kata dalam satu passage). Setelah diperoleh nilai dari ke-empat variabel di atas kemudian dihitung skor heuristic setiap passage yaitu: heuristic_score = count_match + count_match/w + Sm*0.5 + Ord*0.5. Pembobotan ule-based Mengacu pada rule yang terdapat dalam iloff dan Thelen (2000) serta penelitian Sianturi (2008), yang digunakan sebagai acuan dalam penelitian ini pembobotan passages terdiri atas: 1. Fungsi WordMatch. WordMatch adalah nilai perbandingan antara kalimat kueri dengan kalimat pada dokumen. Algoritme WordMatch dilakukan dengan cara membandingkan token-token pada setiap passages dengan token-token pada kalimat kueri. Setiap token yang sama akan menambahkan nilai pada passages tersebut. Hasilnya disimpan dalam variabel WordMatch. 2. Algoritme ule. Penelitian ini membuat algoritme rule dengan melakukan beberapa modifikasi yang digunakan dalam pembobotan passages. Algoritme rules yang 7

16 digunakan sebagai acuan dalam penelitian ini: 1. SIAPA Score(S) +=WordMatch (Q,S) If contains(q,human) && (S,Human) then Score(S) += slam_dunk Algoritme rule untuk kueri pertanyaan dengan kata tanya SIAPA pada sistem yang dibangun pada penelitian ini berbeda dengan algoritme rule yang telah diimplementasikan oleh Sianturi (2008). Perbedaannya terletak pada penambahan rule dan pemberian nilai score. 2. KAPAN Score(S) +=WordMatch (Q,S) If contains(s, {saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) and contains(s,time) then Score(S) += slam_dunk If contains(s,time) and contains(q,time) then Score(S) += confident If contains(s, {saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) or contains(s,time) then Score(S) += good_clue Algoritme rule untuk kueri pertanyaan dengan kata tanya KAPAN yang dibangun pada penelitian ini dengan algoritme rule yang telah diimplementasikan oleh Sianturi (2008) hanya berbeda pada pemberian nilai score. 3. DIMANA Score(S) +=WordMatch (Q,S) If contains(s, {dalam, dari, pada}) and contains(s,location) then Score(S) += slam_dunk If contains(s,location) then Score(S) += good_clue If contains(s, {dalam, dari, pada }) then Score(S) += clue Algoritme rule yang digunakan sama dengan rule yang telah diimplementasikan oleh Sianturi (2008). 4. BEAPA Score(S) +=WordMatch (Q,S) If contains(q,numbe) and contains(s,numbe) then Score(S) += slam_dunk If contains(s,numbe) then Score(S) += confident Algoritme rule yang digunakan dibuat sendiri oleh penulis. Fungsi dan notasi yang digunakan dalam rules tersebut adalah sebagai berikut : 1. Notasi S = sentence (kalimat dokumen). 2. Notasi Q = query (kalimat kueri). 3. Fungsi contains adalah fungsi untuk memeriksa kalimat dokumen dan kalimat kueri pertanyaan, apakah mengandung kata yang telah ditentukan. 4. Fungsi WordMatch adalah fungsi untuk memeriksa kesamaan kata. 5. Fungsi score adalah fungsi pemberian nilai pada kalimat dokumen. Setelah diperoleh nilai dari Wordmatch dan rule dihitung skor setiap passage. Pembobotan Heuristic dan ule-based Pembobotan passages gabungan heuristic dan rule-based dilakukan berdasarkan nilai hasil dari proses pembobotan heuristic yang diperoleh dari pencocokan kata kueri dengan passages dan nilai pembobotan rule-based diperoleh dari rule yang digunakan. Formula untuk penggabungan kedua metode: $scoretotal = α*$heuristic+(1-α)* $rule-based dengan α=0.5. Ekstraksi Jawaban Tahap berikutnya adalah ekstraksi jawaban dari top passages yang diperoleh. Passage yang memiliki nilai tertinggi pada pembobotan passages menjadi top passage. Kata yang menjadi kandidat jawaban adalah kata yang memiliki entitas sesuai dengan kata tanya pada kueri pertanyaan. Yang perlu diperhatikan dalam perolehan entitas jawaban adalah top passage dapat terdiri atas satu atau lebih passage dan setiap passage dapat memiliki satu atau lebih kandidat jawaban. Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara setiap kandidat jawaban pada setiap passage dengan masingmasing kata pada $arraywordmatch. $arraywordmatch merupakan array yang menampung kumpulan kata hasil pencocokan antara keyword dengan kata-kata pada passage. Kandidat jawaban yang memiliki jarak 8

17 terpendek dianggap sebagai jawaban yang paling tepat. Contoh hasil percobaan menggunakan kueri Siapa Muwardi P. Simatupang?, diperoleh 19 passages pada satu dokumen teratas. Setelah diambil passage yang mengandung tag <NAME> atau <OGANIZATION> diperoleh 12 passage dari 19 passage. TopPassage yang diperoleh dengan heuristic, rule-based serta gabungan heuristic dan rule-based adalah sama. Nilai pembobotan untuk rule-based 5,078,heuristic 10 dan gabungan kedua metode adalah 7,53. Top passages yang diperoleh: Ini mungkin karena pendekatan pembangunan pertanian masih bersifat subsisten kata <OGANIZATION> Ketua Umum Dewan Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor </OGANIZATION> <NAME> Muwardi P Simatupang </NAME> pada acara diskusi 'Membangun Pertanian <LOCATION> Indonesia </LOCATION> Untuk Meningkatkan Pendapatan Petani dan Negara' di <LOCATION> Jakarta </LOCATION> <DATE> Kamis(22/4) </DATE> <NAME> Muwardi</NAME> mengatakan pendekatan subsisten merupakan pendekatan yang menitikberatkan pada peningkatan produksi Kandidat jawaban yang diperoleh hanya ada satu yaitu kata Ketua Umum Dewan Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor sehingga kata tersebut menjadi jawaban akhir. Hasil Percobaan dokumen yang ditemukembalikan dengan menggunakan tiga pembobotan passages yaitu heuristic (Cidhy 2009), rule-based serta gabungan heuristic dan rule-based dengan menggunakan 10 dokumen teratas. Jumlah koleksi dokumen yang digunakan sebanyak 106 dokumen dan sebanyak 40 kueri. Kueri tersebut diambil dari penelitian Cidhy (2009). Proses dokumentasi evaluasi kueri dicatat dalam bentuk tabel yang terdiri atas sumber dokumen, pertanyaan (kueri), perolehan passages, ketepatan dokumen, ketepatan jawaban, dan koreksi. Kemudian dilakukan pencocokan antara hasil pencarian yang diperoleh terhadap pasangan dokumen dan kueri pertanyaan yang seharusnya. Berdasarkan kesesuaian pasangan jawaban dan dokumen, penilaian dibedakan menjadi 4 jenis yaitu : right, wrong, unsupported, dan null. Persentase evaluasi hasil percobaan yang dilakukan oleh Cidhy dan penulis dapat dilihat pada Tabel 2. Berikut pembahasan untuk masing-masing percobaan : 1. Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Siapa Bungaran Saringgih?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) : Hasil percobaan dilakukan dengan membandingkan hasil penelitian yang dilakukan oleh penulis dengan hasil penelitian Cidhy (2009). Perbandingan dilakukan dengan melihat perolehan top passage, ketepatan jawaban dan Tabel 2 Persentase perolehan jawaban oleh Cidhy (2009) dan penulis menggunakan 10 dokumen teratas Kata Penelitian Cidhy (2009) Penelitian Oleh Penulis Tanya Pembobotan Heuristic (%) Pembobotan ule-based (%) Heuristic dan ule-based (%) Siapa Berapa Dimana Kapan Keterangan 1: ight 2: Unsupported 3: Wrong 4: Null 9

18 Menurut <NAME> Bungaran Saragih </NAME>, hal tersebut wajar dengan keadaan setiap penyalur pupuk, dimana mereka memerlukan waktu dalam proses pengepakan kembali. Mengenai kelangkaan pupuk di <LOCATION> Cirebon </LOCATION> yang hanya terjadi di beberapa kecamatan, <NAME> Bungaran Saragih </NAME> menegaskan bahwa produsen pupuk setempat telah menutupi kelangkaan tersebut dengan pengiriman pupuk dari luar wilayah <LOCATION> Cirebon </LOCATION>. Top passage di atas diperoleh dari dokumen indosiar txt. Berdasarkan hasil top passage, tidak diperoleh kandidat jawaban sehingga jawaban yang dikembalikan null. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based menghasilkan kriteria right yaitu Menteri Pertanian. Jawaban ini diperoleh setelah sistem mengembalikan top passage sebagai berikut : Dalam acara yang dihadiri <OGANIZATION> Menteri Pertanian </OGANIZATION> <NAME>Bungaran Saragih</NAME>, <OGANIZATION> Menteri Kelautan dan Perikanan </OGANIZATION> <NAME> okhmin Dahuri </NAME>, serta Menakertrans <NAME> Jacob Nuwa Wea </NAME>, <NAME> Presiden Megawati </NAME> menyampaikan rasa terima kasihnya kepada masyarakat <LOCATION> Gorontalo </LOCATION> yang telah bekerja keras menanam dan memproduksi jagung. Dalam pidato tanpa teks, <NAME>Mega</NAME> mengatakan, ''Saya melihat potensi menanam jagung di <LOCATION> Gorontalo</LOCATION> memang bisa digerakkan, bahkan bisa menjadi satu potensi yang sangat luar biasa. Top passage di atas diperoleh dari dokumen indosiar txt. Masih menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan gabungan heuristic dan rule-based juga menghasilkan kriteria null yaitu tidak mengembalikan jawaban. Hal ini disebabkan top passage yang dihasilkan sama dengan top passage pada penelitian Cidhy (2009). Jawaban yang diperoleh dengan rule-based lebih tepat dibanding metode yang lain. Hal ini disebabkan oleh top passage yang dihasilkan rule-based lebih relevan dibanding metode yang lain. Persentase ketepatan jawaban untuk kata tanya SIAPA pada penelitian Cidhy (2009) menghasilkan persentase kriteria right sebesar 70%, wrong 20% dan null 10%, sedangkan hasil penelitian penulis menghasilkan persentase kriteria right sebesar 80%, wrong 10% dan null 10% untuk rule-based dan kriteria right sebesar 70%, wrong 20% dan null 10% untuk gabungan heuristic dan rule-based. Daftar kueri pertanyaan dan evaluasi untuk kata tanya SIAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya KAPAN Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Kapan dilakukan penelitian di rumah kaca Balitro?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas, top passage dan jawaban yang dihasilkan pada ketiga percobaan adalah sama. Jawaban yang diperoleh adalah 1998/1999. Berikut top passage yang bersumber dari dokumen balaipenelitian txt: Penelitian ini bertujuan untuk menguji potensi agensi hayati dalam menekan perkembangan penyakit layu bakteri jahe. Untuk itu telah dilakukan penelitian di <LOCATION>rumah kaca Balittro Bogor </LOCATION> pada tahun <DATE>1997/1998 </DATE> dan di lanjutkan penelitian di lapang di <LOCATION> IP Sukamulya (Sukabumi)</LOCATION> pada tahun <DATE>1998/1999</DATE>. Persentase ketepatan jawaban untuk kata tanya KAPAN merupakan yang paling tinggi dibanding kata tanya yang lain. Baik penelitian Cidhy maupun yang dilakukan penulis, menghasilkan persentase kriteria right sebesar 100%. Hal ini disebabkan kedua penelitian menghasilkan top passage yang sama dengan tepat sehingga diperoleh jawaban yang sama. Daftar kueri pertanyaan dan evaluasi untuk kata tanya KAPAN dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya DIMANA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Dimana terjadi kekeringan dengan jumlah terbanyak?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) terdapat 10

19 pada dokumen mediaindonesia txt. Adapun top passages yang dihasilkan: Mereka yang terkena dampak kekeringan khususnya pada kebutuhan rumah tangga itu terdapat di wilayah <LOCATION> Kabupaten Gunungkidul</LOCATION>, <LOCATION> Sleman, dan Kulonprogo </LOCATION>. Jumlah yang terkena kekeringan terbanyak di wilayah <LOCATION> Kabupaten Gunungkidul</LOCATION> yang mencapai lebih dari <NUMBE> 100 ribu jiwa </NUMBE>. Berdasarkan hasil top passage, diperoleh kriteria right dengan kandidat jawaban Sleman, dan Kulonprogo. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based menghasilkan kriteria wrong yaitu Kabupaten embang. Jawaban ini diperoleh setelah sistem mengembalikan top passage yang kurang tepat sebagai berikut : Provinsi <LOCATION> Jateng </LOCATION> menghadapi kekeringan tahun ini telah memprioritaskan pembuatan embung-embung air agar dapat mengairi lahan pertanian yang dilanda kekeringan. "Kita tengah mempercepat pembuatan embung di <LOCATION>Kabupaten embang</location> pada tahun <DATE>2005</DATE>, agar lahan pertanian di <LOCATION>Kabupaten embang</location> yang sering dilanda kekeringan dapat terairi," katanya. Masih menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan gabungan heuristic dan rule-based juga menghasilkan kriteria wrong yaitu Kabupaten embang. Hal ini disebabkan top passage yang dihasilkan sama dengan top passage pada rulebased. Persentase ketepatan jawaban untuk kata tanya DIMANA pada penelitian Cidhy (2009) lebih baik dari metode yang lain, karena menghasilkan persentase kriteria right sebesar 90% dan wrong 10%, sedangkan hasil penelitian penulis dengan rule-based dan untuk gabungan heuristic dan rule-based menghasilkan persentase yang sama dengan kriteria right sebesar 80% dan wrong 20%. Daftar kueri pertanyaan dan evaluasi untuk kata tanya DIMANA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya BEAPA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Berapa luas wilayah yang ditanami tanaman padi di Kalimantan Timur?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) maupun gabungan heuristic dan rule-based mengembalikan kriteria wrong dengan jawaban 6 kecamatan. Adapun top passage yang diperoleh dari dokumen indosiar txt, yaitu : Dari catatan <OGANIZATION>Dinas Pertanian dan Tanaman Pangan Provinsi Jambi</OGANIZATION>, rusaknya tanaman pertanian akibat banjir yang terjadi pada tanaman padi, cabe, kacang tanah, dan jeruk. Hal itu terjadi di <NUMBE>6 kecamatan</numbe> yang ada di <LOCATION>Kabupaten Kerinci</LOCATION>, seperti tanaman padi seluas <NUMBE>11,87 hektar</numbe> tergenang air, dan sebanyak <NUMBE>148 hektar</numbe> mengalami puso. Pada kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based mengembalikan jawaban yang benar yaitu 11,5 juta dengan top passage sebagai berikut : Semua pelaku usaha perbenihan masih mengonsentrasikan pemasarannya di <LOCATION> Pulau Jawa </LOCATION> yang dinilai sudah maju dalam usaha tanaman pangan, sedangkan di luar <LOCATION> Pulau Jawa </LOCATION> belum banyak disentuh atau dimanfaatkan produsen benih sehingga produktivitas padi yang dihasilkannya pun masih rendah. <NAME> Susena </NAME> mengatakan, peluang pemasaran benih padi unggul saat ini masih terbuka lebar karena dari areal tanaman padi sekira <NUMBE>11,5 juta</numbe> ha, hanya sekira <NUMBE> 4 juta </NUMBE> ha yang menggunakan benih padi unggul. Jawaban yang diperoleh dengan rule-based lebih tepat dibanding metode yang lain. Hal ini disebabkan oleh top passage yang dihasilkan rule-based lebih relevan dibanding metode yang lain. 11

20 Persentase ketepatan jawaban untuk kata tanya BEAPA merupakan yang paling rendah dibanding kata tanya yang lain. Dengan metode rule-based menghasilkan persentase kriteria right sebesar 50%, unsupported 10%, dan wrong 40%, sedangkan penelitian Cidhy (2009) maupun metode gabungan menghasilkan persentase kriteria right sebesar 40%, unsupported 10%, dan wrong 50%. Hal ini disebabkan pada panamaan entitas (Name- Entity-Tagger) untuk Kata Tanya BEAPA masih dalam ruang lingkup yang kecil, yaitu hanya menggunakan tangging <NUMBE>, <CUENCY>, dan <PECENT> sedangkan penulisan teks dan informasi untuk jawaban BEAPA seringkali disajikan dengan cara lebih variatif. Seperti adanya penulisan dalam bentuk rincian untuk jumlah, luas dan lain-lain. Daftar kueri pertanyaan dan evaluasi untuk kata tanya BEAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan untuk keseluruhan Kata Tanya Percobaan dilakukan dengan membandingkan ketepatan passage dan jawaban yang ditemukembalikan pada keseluruhan Kata Tanya menggunakan tiga metode pembobotan passages. Perbandingan Hasil Percobaan menggunakan 10 Dokumen Teratas Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Gambar Heuristic ulebased ule Based dan Heuristic right unsupported wrong null Gambar 8 Grafik hasil percobaa keseluruhan kata tanya menggunakan 10 dokumen teratas. Berdasarkan Gambar 8 dapat dilihat bahwa metode pembobotan rule-based menghasilkan persentase kriteria right yang tinggi dibanding metode yang lain. Persentase untuk kriteria right untuk rule-based sebesar 77,5%, heuristic persentasenya lebih rendah daripada rule-based sebesar 75%, dan untuk penggabungan kedua metode hasil persentasenya lebih kecil dari masing-masing metode sebesar persentase 72,5%. Perbandingan Hasil Percobaan menggunakan 2 Dokumen Teratas Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Gambar Heuristic ulebased right unsupported wrong null ule Based dan Heuristic Gambar 9 Grafik hasil percobaan keseluruhan kata tanya menggunakan 2 dokumen teratas. Berdasarkan Gambar 9 dapat dilihat bahwa metode pembobotan heuristic serta gabungan heuristic dan rule-based menghasilkan persentase kriteria right yang tinggi dibanding metode rule-based. Persentase heuristic dan penggabungan kedua metode hasil persentasenya sebesar 75% sedangkan persentase untuk kriteria right untuk rule-based sebesar 60%. Dengan menggunakan keseluruhan Kata Tanya yang diambil dari 10 dokumen teratas, metode rule-based lebih banyak mengembalikan top passages dan jawaban yang tepat. Diambil dari 2 dokumen teratas, metode heuristic serta gabungan heuristic dan rulebased yang lebih banyak mengembalikan top passages dan jawaban yang tepat. Dengan demikian, dilihat untuk masing-masing pembobotan dapat mengembalikan jawaban yang tepat namun tergantung pada banyaknya dokumen yang digunakan. Untuk pembobotan dengan metode rule-based berpengaruh pada banyaknya dokumen namun tergantung pada rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri, sedangkan pembobotan heuristic berpengaruh pada banyaknya dokumen dan keterkaitan informasi dan urutan susunan kata pada kueri dengan passages. 12

21 Untuk penggabungan metode rule-based dan heuristic ternyata metode ini belum dapat mengembalikan top passages yang lebih tepat, Hal ini disebabkan karena ada kemungkinan beberapa top passage yang ditemukembalikan pada metode rule-based memiliki satu atau lebih top passages dengan nilai yang sama, sehingga nilai gabungan kedua metode cenderung mengikuti nilai top passages pada nilai yang diperoleh pada pembobotan heuristic. Ada beberapa top-passages yang tepat, baik menggunakan heuristic, rule-based dan gabungan kedua metode, namun memperoleh nilai wrong. Hal ini disebabkan perolehan entitas jawaban yang kurang tepat. Contoh dengan menggunakan kueri Berapa luas areal sagu dunia? dapat di peroleh passage yang tepat berikut dengan bobot tertinggi: <OGANIZATION>Indonesia</OGANIZA TION> adalah pemilik areal sagu terbesar, dengan luas areal sekitar <NUMBE>1 128 juta ha</numbe> atau <PECENT> 51.3% <.PECENT> dari <NUMBE>2 201 juta ha</numbe> areal sagu dunia, disusul oleh <OGANIZATION> Papua New Guinea </OGANIZATION> <PECENT> 43.3% </PECENT>. Namun dari segi pemanfaatannya, <OGANIZATION> Indonesia</OGANIZATION> masih jauh tertinggal dibandingkan dengan <OGANIZATION> Malaysia </OGANIZATION> dan <OGANIZATION> Thailand </OGANIZATION> yang masing-masing hanya memiliki areal seluas <PECENT>1.5%</PECENT> dan <PECENT>0.2%</PECENT>. Jawaban yang tepat harusnya juta ha, namun karena perolehan entitas jawaban berdasarkan pada rataan kedekatan jarak antara kandidat jawaban dengan kata hasil wordmatch, maka jawaban yang dikembalikan juta ha. Pada kriteria null atau tidak mengembalikan jawaban apapun dikarenakan tidak ditemukan entitas yang sesuai pada top passage. Dengan demikian, tidak ditemukan jawaban dari top passage tersebut. Hasil ketiga metode menunjukkan ketepatan top passage yang diperoleh sangat mempengaruhi jawaban yang dihasilkan. Oleh karena itu, semakin baik metode untuk melakukan pembobotan passage maka semakin tepat jawaban yang diperoleh. Kesimpulan KESIMPULAN DAN SAAN Hasil penelitian menunjukkan pembobotan passages menggunakan metode rule-based tidak berpengaruh pada banyaknya dokumen namun tergantung pada rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri, sedangkan pembobotan heuristic berpengaruh pada banyaknya dokumen dan keterkaitan informasi dan urutan susunan kata pada kueri dengan passages. Saran 1. Perlu dilakukan perbaikan metode perolehan entitas jawaban secara semantik dengan POS-Tagging pada penelitian-penelitian selanjutnya. 2. Perlu dilakukan penambahan Name-Entity- Tagger untuk Kata Tanya BEAPA. DAFTA PUSTAKA Ballesteros, L. A dan Xiaoyan-Li Heuristic and Syntactic for Cross-language Question Answering. Di dalam: Proceedings of NTCI-6 Workshop Meeting. Tokyo, Mei hlm Cidhy D A T K Implementasi Question Answering System dengan Pembobotan Heuristic [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Citraningputra P Entitas Tagging untuk Dokumen Berbahasa Indonesia Menggunakan Metode Berbasis Aturan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning C D, aghavan P, Schütze H Introduction to Information etrieval. Cambridge: Cambridge University Press. iloff E, Thelen M A ule-based Question Answering System for eading Comprehension Tests. ANLP/NAACL-2000 Workshop on eading Comprehension Tests as Evaluation for Computer-Based Language Understanding System. Sianturi Implementasi Question Answering System dengan Metode ule- Based pada Banyak Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. 13

22 LAMPIAN 14

23 Lampiran 1 Antarmuka implementasi 15

Menunjukkan lagi