Gambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan.

dokumen-dokumen yang mirip
2. Ketepatan untuk setiap jawaban.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

PEMILIHAN DEPARTEMEN FAKULTAS

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA

beberapa tag-tag lain yang lebih spesifik di dalamnya.

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN MULTIDOKUMEN FADILA ANDRE MULYANTO

BAB I PENDAHULUAN Latar Belakang

JULIO ADISANTOSO - ILKOM IPB 1

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

BAB 1 PENDAHULUAN UKDW

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

HASIL DAN PEMBAHASAN

BAB 3 LANDASAN TEORI

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Abstract. Keywords : Banker, Bank system, Bank secrecy,

BAB IV ANALISA DAN PERANCANGAN

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

ABSTRAK. Universitas Kristen Maranatha

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

SMP kelas 8 - BAHASA INGGRIS CHAPTER 9LATIHAN SOAL CHAPTER 9

TEMU KEMBALI INFORMASI

ABSTRAK. iii. Kata kunci : pengelolaan, wedding event organizer, vendor. Universitas Kristen Maranatha

BAB 1 PENDAHULUAN Latar Belakang

Teknik Kreatif Menyajikan Presentasi Memukau (Indonesian Edition)

ABSTRAK. Kata Kunci : Sistem Pakar, Jeruk, Hama dan Penyakit,GIS. iii Universitas Kristen Maranatha

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB II LANDASAN TEORI

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

KEMAMPUAN MENDENGARKAN LAGU BERBAHASA INGGRIS PADA SISWA KELAS X SMA ISLAMIC CENTRE DEMAK PADA TAHUN AJARAN 2006/2007

SISTEM PENILAIAN OTOMATIS JAWABAN ESAI PADA ELEARNING BELAJARDISINI.COM

ABSTRAK. Kata kunci: Parkir, Sisa Parkir, Aplikasi Parkir, Analisis Parkir. vii

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

ABSTRAK. Kata kunci: Pencarian, resep masakan. Universitas Kristen Maranatha

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

SISTEM PENGENALAN PENGUCAPAN HURUF VOKAL DENGAN METODA PENGUKURAN SUDUT BIBIR PADA CITRA 2 DIMENSI ABSTRAK

Manual Prosedur Self Access Centre

SCALING SOLUTION OF LAND USE CHALLENGES. Musdhalifah Machmud Deputy to Coordinating Minister for Food and Agriculture

APPENDICES. Appendix A. Data 1 (Student A)

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA ROMAIDA DOLAROSA SIANTURI

BAB 3 METODE PENELITIAN

SKRIPSI PENGARUH KREDIT PERTANIAN TERHADAP KESEJAHTERAAN PETANI KELAPA SAWIT DI KABUPATEN LABUHAN BATU UTARA OLEH. Mardiana Lumbanraja

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

Rahasia Cermat & Mahir Menguasai Akuntansi Keuangan Menengah (Indonesian Edition)

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

DAFTAR ISI. BAB 3 PERANCANGAN PERANGKAT LUNAK 3.1 Diagram Alir Utama Kamera Web iii

HASIL DAN PEMBAHASAN. sim(, )=

ABSTRAK Program Magister Psikologi Februari Gianti Gunawan

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

TATA CARA TINDAK LANJUT TERHADAP PERMINTAAN PERTUKARAN INFORMASI DARI NEGARA MITRA P3B

BAB IV ANALISA DAN PERANCANGAN

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Jurnal Pustakawan Indonesia Volume 10 No. 1 VISUALISASI KETERHUBUNGAN ANTARISTILAH SUBJEK PADA METADATA TESIS IPB MENGGUNAKAN PELUANG BERSYARAT

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

PIRANTI LUNAK UNTUK MENDESAIN PROGRAM DALAM BAHASA PEMROGRAMAN C BERDASARKAN HOARE LOGIC

MODEL PENGANGKATAN TENAGA HONORER MENJADI CPNS ( Studi tentang Implementasi PP Nomor 56 Tahun 2012 di Kabupaten Klaten )

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

BAB III PERANCANGAN. Tabel 3.1 Detil Tabel mpage

MODULE 1 GRADE XI VARIATION OF EXPRESSIONS

ABSTRAK. Kata kunci : Program Wajib Belajar 12 Tahun, Kampanye. vii Universitas Kristen Maranatha

CHAPTER III RESULT OF THE STUDY. 1. The problems faced by the tenth grade students of SMK YP SEI. PALANGKA RAYA in using letter s/es as plural nouns

PENERJEMAH KALIMAT INGGRIS INDONESIA MENGGUNAKAN SMS GATEWAY

RANCANGAN STRATEGI BISNIS BERTAHAN BANK DASA GANESHA SUATU USULAN ALTERNATIF

Students Understanding on Corporate Social Responsibility (CSR)

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TINJAUAN YURIDIS PELAKSANAAN ASURANSI PERTANIAN DIHUBUNGKAN DENGAN UNDANG-UNDANG NOMOR 19 TAHUN 2013 TENTANG PERLINDUNGAN DAN PEMBERDAYAAN PETANI

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

E VA D A E L U M M A H K H O I R, M. A B. P E R T E M U A N 2 A N A

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB II TINJAUAN PUSTAKA

SISTEM TEMU KEMBALI INFORMASI

1/5. while and do Loops The remaining types of loops are while and do. As with for loops, while and do loops Praktikum Alpro Modul 3.

ANALISIS CAPAIAN OPTIMASI NILAI SUKU BUNGA BANK SENTRAL INDONESIA: SUATU PENGENALAN METODE BARU DALAM MENGANALISIS 47 VARIABEL EKONOMI UNTU

TELKOM EDUCATION PARK Jl. Telekomunikasi No 1 Bandung Technoplex Indonesia. The Most Comprehensive Education Park in Indonesia

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

PEMBELAJARAN KEMAMPUAN GERAK DASAR

Transkripsi:

6 pada akhir, seperti newsipb11111-2.txt yang berarti data berasal dari berita IPB dan diterbitkan pada tanggal 11 bulan Januari tahun 211 urutan ke-2. Dokumen memiliki ukuran terkecil 1 KB dan terbesar 9 KB. Masingmasing dokumen uji berekstensi teks (*.txt) dengan struktur XML di dalamnya. Berikut adalah contoh struktur dokumen pengujian: <DOC> <DOCNO> newsipb11111-2 </DOCNO> <TITLE> President of the BEM-KM IPB Talk about Human Rights </TITLE> <AUTHOR> admin ipb </AUTHOR> <DATE> January 11 211 </DATE> <TEXT> Commemorating Human Rights Day (HAM) on December 1, the RRI Dialog (14/12) presented the President of BEM-KM (Student Executive Body) IPB, Moh. Reza Pahlevi. We know that it is the students that most frequently and diligently call on human rights, especially after the death of a human rights defender, Munir. "Our demonstrations are of pure calls for the rights of the many people who want to benefit from the facilities provided by the government without having to distinguish between the rich and the poor. We've tweaked (criticized) the local government of West Java by growing catfish on Jalan Baru (a street s name), so that the government would promptly fix the damaged road with holes on it," said Reza (mtd) </TEXT> </DOC> Pada tahap indexing, pemrosesan dokumen hanya diambil bagian yang diapit oleh tag <TITLE> dan <TEXT>, sedangkan untuk pembentukan passages, yang digunakan hanya bagian dokumen yang diapit oleh tag <TEXT>. Gambar 4 menunjukkan ilustrasi bagian dokumen yang diproses. Gambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. Pemrosesan Dokumen Tahap pertama yang dilakukan pada pemrosesan dokumen adalah penamaan entitas (named entity) atau biasa dikenal dengan sebutan tagging. Proses tagging ini dilakukan secara manual untuk mendapatkan koleksi dokumen yang baik sehingga nantinya dapat dijadikan acuan untuk penelitian berikutnya. Aplikasi untuk melakukan tagging secara otomatis baik sistem yang komersial maupun yang open source untuk bahasa Inggris sebenarnya sudah banyak dikembangkan, misalnya LingPipe, BOEMIE, FreeLing, dan OpenEyes. Namun karena pertimbangan waktu penelitian, penggunaan aplikasi tersebut tidak dilakukan. Penamaan entitas ditujukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaannya. Adapun named entity yang digunakan terdiri atas NAME, ORGANIZATION, NUMBER, CURRENCY, DATE, dan LOCATION. Semua dokumen hasil tagging kemudian disimpan dalam direktori korpus. Berikut adalah contoh hasil tagging untuk dokumen newsipb11111-2.txt. Commemorating Human Rights Day (HAM) on <DATE>December 1</DATE>, the <ORGANIZATION>RRI</ORGANIZATION> Dialog <DATE>(14/12)</DATE> presented the <ORGANIZATION>President of BEM- KM(Student Executive Body) IPB </ORGANIZATION>, <NAME> Moh. Reza Pahlevi</NAME>. We know that it is the students that most frequently and diligently call on human rights, especially after the death of a human rights defender, <NAME>Munir</NAME>. "Our demonstrations are of pure calls for the rights of the many people who want to benefit from the facilities provided by the government without having to distinguish between the rich and the poor. We've tweaked (criticized) the local government of <LOCATION>West Java</LOCATION> by growing catfish on <LOCATION>Jalan Baru (a street s name)</location>, so that the government would promptly fix the damaged road with holes on it," said <NAME>Reza</NAME> Tahap kedua melakukan pembacaan terhadap isi file yang ada pada direktori korpus. Proses ini dilakukan hanya pada isi dokumen dengan tag <TITLE> dan <TEXT>. Isi file tersebut kemudian dilakukan parsing dengan pemisah kata yang tersimpan dalam variabel $pemisahkata yang terdiri atas tanda baca dalam ekspresi regular /[\s\- +\/,.\"\];()\':=`?\[!@>]+/. Semua hasil parsing disimpan kecuali kata-kata yang berada dalam daftar stopwords atau kata buangan yang merupakan daftar kata umum 6

7 yang mempunyai fungsi tapi tidak dapat dijadikan sebagai penciri dokumen. Daftar ini tersimpan dalam file stopwords-en.txt yang terdiri atas 57 kata yang dipisahkan dengan karakter enter. Contoh kata-kata tersebut, antara lain a,about,above dan lain-lain. Perhitungan tf-idf Tahap pertama pada proses perhitungan tfidf ialah memperoleh informasi term frequency (tf) dengan memanfaatkan hasil dari tahap sebelumnya yaitu pemrosesan dokumen. Term frequency merupakan pasangan dari dokumen dan hasil parsing (token-token) dari tiap-tiap file yang disimpan dalam suatu array pada variabel $tf. Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata. Tahap selanjutnya yaitu mendapatkan document frequency (df). Pada hasil tersebut, kemudian dilakukan perhitungan nilai invers document frequency (idf). Penelitian ini menggunakan kata dengan nilai idf yang lebih besar dan sama dengan.5 karena terdapat beberapa kata penting seperti IPB dan Bogor yang muncul hampir di semua dokumen. Oleh sebab itu, setelah dilakukan percobaan aka nilai.5 enjadi nilai yang ideal untuk penelitian ini. Hasilnya disimpan dalam filegenerate/ipb/idf-en.txt dengan enggunakan tanda >> sebagai pemisah antara kata dan nilai idf-nya. Nilai idf kemudian dikalikan dengan tf untuk mendapatkan nilai tf-idf. Nilai hasil perhitungan tf-idf disimpan pada file filegenerate/ipb/tfidf-en.txt dengan enggunakan tanda >> sebagai pe isah antara kata dan nilai tf-idf-nya. Pembentukan Passages Pembentukan kalimat untuk setiap dokumen didasarkan pada tanda pemisah antar kalimat yaitu [.?!]. Setiap passage dibentuk dari dua kalimat yang berurutan dan saling overlap. Hasilnya disimpan dalam satu file filegenerate/ipb/passages-en.txt. Isi dari file tersebut adalah id passage, nama dokumen, dan passage. Masing-masing variabel dipisahkan dengan tanda >>. Pemrosesan Query Query yang digunakan berupa kalimat tanya yang diawali dengan kata tanya SIAPA, KAPAN, DI MANA, dan BERAPA. Pertama dilakukan proses parsing terhadap kalimat tanya dengan pemisah kata yang tersimpan dalam variabel $pemisahkata. Query kemudian diterjemahkan ke dalam bahasa Inggris dengan menggunakan kamus Indonesia-Inggris. Semua kata dalam query diterjemahkan, kecuali kata tanya karena kata tanya hanya digunakan untuk menentukan kandidat jawaban. Proses penerjemahan ini dilakukan per dua kata yang saling overlap. Apabila tidak ditemukan terjemahannya maka akan diterjemahkan per satu kata saja. Kemudian, apabila satu kata juga tidak ditemukan terjemahannya, maka kata tersebut tetap akan digunakan tanpa diterjemahkan. Kata yang memiliki terjemahan lebih dari satu, akan dicari terjemahan kata yang memiliki idf tertingi. Proses case folding kemudian dilakukan terhadap query yaitu mengubah query menjadi huruf kecil. Setelah itu, dilakukan proses tokenisasi untuk mendapatkan kata-kata penyusun query berupa kata tanya dan kata kunci atau keyword. Variabel array $query akan menyimpan hasil tokenisasi tersebut sehingga nantinya dapat dilakukan proses identifikasi kata tanya dari query berupa array dengan indeks ke- atau query[]. Tabel 2 menunjukkan daftar pasangan kata tanya dan named entity yang menjadi acuan dari jawaban yang akan dikembalikan. Tabel 2 Daftar pasangan kata tanya dan named entity Kata Tanya Siapa Kapan Di mana Berapa Tag Entitas NAME, ORGANIZATION DATE LOCATION Perolehan Dokumen Teratas NUMBER, CURRENCY Pembobotan cosine dilakukan untuk memperoleh 1 dokumen teratas. Dengan memanfaatkan nilai idf dan tf-idf dapat dilakukan perolehan norm dari query dan dokumen. Query dimasukkan secara manual, kemudian dilakukan perhitungan terhadap norm query, tf-idf query, dan norm untuk setiap dokumen. Nilai norm query kemudian dipasangkan dengan query setiap dokumen untuk menghasilkan nilai dot product dan cosine. Nilai cosine inilah yang kemudian diurutkan untuk memperoleh 1 dokumen teratas. Perolehan Top Passages Perolehan top passages pada kamus passage kemudian dilakukan berdasarkan 1 dokumen teratas yang ditemukembalikan. Hasilnya 7

8 disimpan dalam variabel $passagesdoctop untuk kemudian digunakan pada tahap perolehan top passages. Passages yang akan digunakan dalam proses pembobotan adalah passages yang mengandung tag named entity yang dibutuhkan, yang disebut arraytag. ArrayTag merupakan hasil dari identifikasi kata tanya terhadap named entity. Passage disimpan pada variabel $passagesdoctop untuk kemudian disaring guna mendapatkan passages yang memiliki tag sesuai dengan kata tanya. Pembobotan heuristic dan rule-based kemudian diterapkan pada passage tersebut. Pembobotan Tahapan yang terdapat dalam jurnal Ballesteros dan Li (27) serta penelitian Cidhy (29) digunakan sebagai acuan dalam penelitian ini. Tahap pembobotan passages terdiri atas: 1 Pembobotan passages berdasarkan hasil dari proses wordmatch sesuai threshold. Hasilnya disimpan dalam variabel $count_match. 2 Pembobotan passages berdasarkan urutan nilai dari $arraywordquestion (katakata selain kata tanya pada query) dalam passages. Hasilnya bernilai boolean, disimpan dalam variabel $Ord. 3 Pembobotan passages berdasarkan nilai dari $arraywordquestion dalam passages. Hasilnya bernilai Boolean dan disimpan dalam variabel $Sm. 4 Pembobotan berdasarkan hasil dari proses wordmatch sesuai threshold berbanding ukuran passage (jumlah kata dalam satu passage). Nilai dari keempat variabel di atas kemudian dihitung skor heuristic setiap passage yaitu: heuristic_score = count_match + count_match/w + Sm*.5 + Ord*.5. Pembobotan Rule based Rule yang terdapat pada penelitian Riloff dan Thelen (2) serta penelitian Sanur (211) digunakan sebagai acuan dalam penelitian ini. Tahap pembobotan passages terdiri atas: 1 Fungsi WordMatch. WordMatch adalah nilai perbandingan antara kalimat query dengan kalimat pada dokumen. Algoritme WordMatch dilakukan dengan cara membandingkan token-token pada setiap passages dengan token-token pada kalimat query. Setiap token yang sama akan menambahkan nilai pada passages tersebut. Hasilnya disimpan dalam variabel $WordMatch. 2 Algoritme Rule. Penelitian ini membuat algoritme rule dengan melakukan beberapa modifikasi yang digunakan dalam pembobotan passages. Algoritme rules yang digunakan sebagai acuan dalam penelitian ini: 1 SIAPA If contains(q,human) && (S,Human) Algoritme rule untuk query pertanyaan dengan kata tanya SIAPA mengikuti algoritme yang sudah diimplementasikan Sanur (211). Perbedaannya ialah pada bahasa yang digunakan yaitu bahasa Inggris. Maksudnya aturan yang telah ada sebelumnya diterjemahkan ke dalam bahasa Inggris dan ditambahkan beberapa penyesuaian. 2 KAPAN If contains(s, {time, when, time, since, since, time, after, before, after, during, on, in, at}) and contains(s,time) If contains(s,time) and contains(q,time) Score(S) += confident If contains(s, {time, when, time, since, since, time, after, before, after, during, on, in, at}) or contains(s,time) Score(S) += good_clue Algoritme rule untuk query pertanyaan dengan kata tanya KAPAN yang dibangun pada penelitian ini menikuti algoritme rule yang telah diimplementasikan oleh Sanur (211) hanya berbeda pada bahasa yang digunakan yaitu bahasa Inggris dan ditambahkan beberapa penyesuaian. 3 DI MANA If contains(s, {in, on, from}) and contains(s,location) If contains(s,location) Score(S) += good_clue If contains(s, {in, on, from}) Score(S) += clue 8

9 Algoritme rule yang digunakan sesuai dengan algoritme yang diimplementasikan oleh Sanur (211) hanya berbeda pada bahasa yang digunakan yaitu bahasa Inggris dan ditambahkan beberapa penyesuaian. 4 BERAPA If contains(q,number) and contains(s,number) If contains(s,number) Score(S) += confident Algoritme rule yang digunakan sesuai dengan algoritme yang diterapkan oleh Sanur (211) hanya berbeda pada bahasa yang digunakan yaitu bahasa Inggris dan ditambahkan beberapa penyesuaian. Fungsi dan notasi yang digunakan dalam rules tersebut adalah sebagai berikut : 1 Notasi S = sentence (kalimat dokumen). 2 Notasi Q = query (kalimat query). 3 Fungsi contains adalah fungsi untuk memeriksa kalimat dokumen dan kalimat query pertanyaan, apakah mengandung kata yang telah ditentukan. 4 Fungsi WordMatch adalah fungsi untuk memeriksa kesamaan kata. 5 Fungsi score adalah fungsi pemberian nilai pada kalimat dokumen. Setelah diperoleh nilai dari Wordmatch dan rule, dihitung skor setiap passage. Ekstraksi Jawaban Jawaban yang nantinya akan diekstrak berasal dari passage dengan nilai tertinggi pada pembobotan passages. Passages tersebuat kemudian akan menjadi top passage. Kata atau kalimat yang menjadi kandidat jawaban adalah yang memiliki entitas nama sesuai dengan kata tanya pada query pertanyaan. Perolehan entitas jawaban pada top passage dapat terdiri atas satu atau lebih passage dan setiap passage dapat memiliki satu atau lebih kandidat jawaban. Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara kandidat jawaban pada setiap passage dengan masing-masing kata pada $arraywordmatch dibagi jumlah $arraywordmatch yang merupakan kumpulan kata hasil pencocokan antara keyword dengan kata-kata pada passage. Kandidat jawaban yang memiliki jarak terpendek yang kemudian akan dikembalikan sebagai jawaban dari query. Hasil Percobaan Percobaan dilakukan dengan cara membandingkan hasil dari pembobotan passage heuristic dan rule based. Perbandingan dilakukan dengan melihat perolehan top passage dan ketepatan jawaban dari kedua jenis pembobotan passage tersebut. Jumlah koleksi dokumen yang digunakan pada penelitian ini ialah 151 dengan query pertanyaan. Pasangan query dan jawaban dibuat sendiri oleh penulis. Proses evaluasi berdasarkan pada perolehan top passage dan ketepatan jawaban. Berdasarkan kesesuaian pasangan jawaban dan dokumen, penilaian dibedakan menjadi 4 jenis yaitu right, wrong, unsupported, dan null. 1 Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA Pada percobaan ini misalkan dari 1 query diambil 1 contoh pertanyaan Siapa kepala PPSHB IPB?. Pembobotan heuristic dan rule based mengembalikan top passage yang berbeda. Pembobotan heuristic mengembalikan passage berikut : As this study will end in <DATE>October 211</DATE>, he suggested further research with other funding schemes. In the discussion, <ORGANIZATION>Head of PPSHB IPB</ORGANIZATION>, Dr. <NAME>Suharsono</NAME>, proposed a specific funding scheme to complement the laboratory equipment in <ORGANIZATION>IPB</ORGANIZATION>, especially in <ORGANIZATION>PPSHB</ORGANIZATION>. newsipb1311-1.txt, sedangkan rule based mengembalikan passage berikut : The <ORGANIZATION> Women Study Program (PSW) of IPB </ORGANIZATION> is considered to have sufficiently long assistance to separate from the <ORGANIZATION>Center for Agricultural and Rural Development Studies (PSP3) Institute for Research and Community Service (LPPM) IPB </ORGANIZATION>. This assessment was delivered by the <ORGANIZATION>Head of LPPM IPB</ORGANIZATION>, Prof. Dr. <NAME> Bambang Pramudya </NAME> in the discussion on the formulation of Strategic Plan of <ORGANIZATION> PSW IPB </ORGANIZATION>, <DATE>Friday (22/1) </DATE> in <LOCATION>Baranangsiang</LOCATION> Campus of <ORGANIZATION>IPB </ORGANIZATION>. newsipb1111-1.txt. 9

1 Jawaban yang diperoleh dengan pembobotan heuristic menghasilkan passage yang mengandung kandidat jawaban yang benar dengan nilai bobot 6.111 dan jawaban Suharsono, sedangkan pembobotan rule based mengembalikan passage dengan kandidat jawaban salah dengan nilai bobot 26 dan jawaban Bambang Pramudya. Pembobotan heuristic untuk kata tanya SIAPA menghasilkan persentase ketepatan jawaban untuk kriteria right sebesar, unsupported, wrong 2, null, sedangkan rule based menghasilkan kriteria right 7, unsupproted, wrong 3, dan null. Grafik hasil percobaan untuk kata tanya SIAPA dapat dilihat pada Gambar 5. Daftar query dan evaluasinya dapat dilihat pada Lampiran 2. 2 Gambar 5 Grafik hasil percobaan untuk kata tanya SIAPA. 2 Perbandingan Hasil Percobaan Untuk Kata Tanya KAPAN Pada kata tanya KAPAN misalkan diambil pertanyaan sebagai contoh Kapan Agrinex Expo 211?. Pembobotan heuristic dan rule based juga mengembalikan top passage yang berbeda namun dari dokumen yang sama yaitu newsipb22311-2.txt. Metode heuristic mengembalikan passage sebagai berikut: The government should provide Integrated Plant Clinical Car to help farmers in the field in overcoming crop failure due to pests and diseases. This was stated by <ORGANIZATION>Coordinating Minister for Economic Affairs</ORGANIZATION>, <NAME>Hatta Radjasa</NAME> when he visited the <ORGANIZATION>Clinical Car for Integrated Plant of the Faculty of Agriculture - Bogor Agricultural University</ORGANIZATION>, at the the University stand at the Agrinex Expo <DATE>211</DATE>, <DATE> Friday, 4 March 211 </DATE>, at the <LOCATION> Jakarta Convention Center </LOCATION> (JCC). Sedangkan rule based mengembalikan passage berikut : This was stated by <ORGANIZATION>Coordinating Minister for Economic Affairs</ORGANIZATION>, <NAME>Hatta Radjasa</NAME> when he visited the <ORGANIZATION>Clinical Car for Integrated Plant of the Faculty of Agriculture - Bogor Agricultural University</ORGANIZATION>, at the the University stand at the Agrinex Expo <DATE>211</DATE>, <DATE> Friday, 4 March 211 </DATE>, at the <LOCATION> Jakarta Convention Center </LOCATION> (JCC). "Farmers experienced crop failure due to pests and diseases several times already, the existence of an integrated plant clinical car is expected to help farmers overcome contraints they encountered in the field," said <NAME>Hatta</NAME>. Pembobotan heuristic menghasilkan passage yang mengandung kandidat jawaban yang benar dengan nilai bobot 5.48 sedangkan pembobotan rule based mengembalikan passage dengan kandidat jawaban yang juga benar dengan nilai bobot 8 yang keduanya menghasilkan jawaban yang sama Friday, 4 March 211. Pembobotan heuristic dan rule based untuk kata tanya KAPAN menghasilkan persentase ketepatan jawaban yang sama untuk kriteria right sebesar, unsupported, wrong, null. Hasil percobaan untuk kata tanya KAPAN dapat dilihat pada Gambar 6. Daftar query dan evaluasinya dapat dilihat pada Lampiran 3. 2 Gambar 6 Grafik hasil percobaan untuk kata tanya KAPAN. 3 Perbandingan Hasil Percobaan Untuk Kata Tanya DI MANA Query Di mana seminar sagu IPB? diambil sebagai contoh untuk kata tanya DI MANA. Pembobotan heuristic dan rule based mengembalikan passage sama sebagai top passage sebagai berikut: 1

11 We should now have enjoyed the development of sago; the satire tone was expressed by an agricultural industry scholar of <ORGANIZATION>Bogor Agricultural University</ORGANIZATION> (IPB), <NAME>Dr. Tajuddin Bantacut</NAME> when speaking at the Seminar and Workshop on Sago held by IPB, (<DATE>14-1</DATE>) at <LOCATION> IPB International Convention Center</LOCATION> (IICC). In the country, sago grows lot in various areas such as <LOCATION>Papua </LOCATION>, <LOCATION>Maluku </LOCATION>, <LOCATION>North Maluku</LOCATION>, <LOCATION>Southeast Sulawesi</LOCATION>, <LOCATION>West Kalimantan</LOCATION> and <LOCATION>Riau Islands</LOCATION>. yang sama yaitu newsipb1811-1.txt. Pembobotan heuristic menghasilkan passage yang mengandung kandidat jawaban yang benar dengan nilai bobot 7.75 sedangkan pembobotan rule based mengembalikan passage dengan kandidat jawaban yang juga benar dengan nilai bobot 1 yang keduanya menghasilkan jawaban sama yang benar, yaitu IPB International Convention Center. Pembobotan heuristic dan rule based untuk kata tanya DI MANA menghasilkan persentase ketepatan jawaban yang sama untuk kriteria right sebesar, unsupported, wrong, dan null. Hasil percobaan untuk kata tanya DI MANA dapat dilihat pada Gambar 7. Daftar query dan evaluasinya dapat dilihat pada Lampiran 4. 2 Gambar 7 Grafik hasil percobaan untuk kata tanya DI MANA. 4 Perbandingan Hasil Percobaan Untuk Kata Tanya BERAPA Query pertanyaan Berapa beasiswa Bank Mandiri pada mahasiswa IPB? diambil sebagai contoh untuk kata tanya BERAPA. Pembobotan heuristic dan rule based mengembalikan top passage yang sama sebagai berikut: <ORGANIZATION>Director of Commercial and Business of Bank Mandiri</ORGANIZATION> <NAME> Sunarso </NAME> who is also a graduate of the <ORGANIZATION>Department of Agronomy and Horticulture</ORGANIZATION> <ORGANIZATION>IPB</ORGANIZATION>, said that this is an annual routine program of <ORGANIZATION>Bank Mandiri</ORGANIZATION> and now it is the <NUMBER>3</NUMBER> rd year held by <ORGANIZATION>Bank Mandiri</ORGANIZATION>. This program will be an effective media for <ORGANIZATION>Bank Mandiri</ORGANIZATION> to share their experiences with future leaders of our nation about the characteristics of leaders who are able to create success and the importance of creativity for a business entity in seizing market opportunities, he concluded. newsipb2511-3.txt. Jawaban yang diperoleh dengan pembobotan heuristic menghasilkan passage yang mengandung kandidat jawaban yang salah dengan nilai bobot 9.93 dan pembobotan rule based mengembalikan passage dengan kandidat jawaban yang juga salah dengan nilai bobot 13 dan keduanya juga menghasilkan jawaban yang sama yaitu 3. Pembobotan heuristic dan rule based untuk kata tanya BERAPA menghasilkan persentase ketepatan jawaban yang sama untuk kriteria right sebesar 9, unsupported, wrong 1, dan null. Hasil percobaan untuk kata tanya BERAPA dapat dilihat pada Gambar 8. Daftar query dan evaluasinya dapat dilihat pada Lampiran 5. 2 Gambar 8 Grafik hasil percobaan untuk kata tanya BERAPA. Perbandingan Hasil Percobaan untuk Semua Kata Tanya Persentase ketepatan jawaban pada pembobotan heuristic dan rule based secara keseluruhan untuk semua kata tanya dapat dilihat pada Gambar 9. Berdasarkan Gambar 9, pembobotan passage heuristic menghasilkan 11