PEMILIHAN DEPARTEMEN FAKULTAS

Ukuran: px
Mulai penontonan dengan halaman:

Download "PEMILIHAN DEPARTEMEN FAKULTAS"

Transkripsi

1 PEMILIHAN PASSAGES DALAM QUESTION ANSWEING SYSTEM UNTUK DOKUMEN BEBAHASA INDONESIA SUCI AMELIA SANU DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIANN BOGO BOGO 2011

2 PEMILIHAN PASSAGES DALAM QUESTION ANSWEING SYSTEM UNTUK DOKUMEN BEBAHASA INDONESIA SUCI AMELIA SANU Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO BOGO

3 ABSTACT SUCI AMELIA SANU. Passages Selection in Question Answering System for Indonesian Language Documents. Supervised by JULIO ADISANTOSO. The first step on Question Answering System was the user enter question query. The used question query is limited to question type: WHO, WHEE, WHEN, and HOW MANY or HOW MUCH. The question word on query is used to obtain an answer candidate, while other words beside the question word are used to analyze the question. Question analysis process is started by parsing into keyword become tokens. The question sentence that has parsed is used to retrieve document and top passage. Top passage is obtained of question from passages that has highest point. Passages was done by three scoring method : rule-based, heuristic, and combination of rule-based with heuristic. The answer extraction is conducted by calculating the nearest distance between each answer candidate in top passage and each word in keyword. Answer correction is evaluated by using these criteria: right, unsupported, wrong, and null. The evaluation of the research was seen on the set of question and document, also the accuracy for each answer. The result of rule-based scoring used 10 top documents was 77.5 % for criteria right, 2.5 % for criteria unsupported, 17.5 % for criteria wrong, and 2.5 % for criteria null. The result of heuristic scoring was 75 % for criteria right, 2.5 % for criteria unsupported, 20 % for criteria wrong, and 2.5 % for criteria null. The result of rule-based and heuristic scoring was 72.5 % for criteria right, 2.5 % for criteria unsupported, 22.5 % for criteria wrong, and 2.5 % for criteria null. The result of heuristic scoring used 2 top documents was 75 % for criteria right, 22.5 % for criteria wrong, and 2.5 % for criteria null. The result of rule-based scoring was 60 % for criteria right, 37.5 % for criteria wrong, and 2.5 % for criteria null. The result of rule-based and heuristic scoring was 75 % for criteria right, 22.5 % for criteria wrong, and 2.5 % for criteria null. Keywords: question answering, rule-based scoring, heuristic scoring 1

4 Judul : Pemilihan Passages dalam Question Answering System untuk Dokumen Berbahasa Indonesia Nama : Suci Armelia Sanur NP : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Dr. Ir. Sri Nurdiati, M.Sc NIP Tanggal Lulus: i

5 PAKATA Alhamdulilahirobbil alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala karunia-nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian adalah Pemilihan Passages dalam Question Answering System untuk Dokumen Berbahasa Indonesia. Penulis sadar bahwa tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada : 1. Orang tua tercinta, adikku tersayang Dwi Lestari, serta segenap keluarga besar, terima kasih atas doa dan dukungan yang tiada henti. 2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini. 3. Bapak Sony Hartono Wijaya, S. Kom, M.Kom dan Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta seluruh dosen dan staf Departemen Ilmu Komputer FMIPA IPB. 4. Sahabat-sahabatku Mamet, Kak Wanda, Utie, Vira dan seluruh teman-teman Ilkomerz angkatan 3. Terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini. 5. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat. Bogor, Maret 2011 Suci Armelia Sanur ii

6 IWAYAT HIDUP Penulis dilahirkan di Kepala Hilalang Sumatera Barat pada tanggal 04 Mei 1988 dari ayah Sayadi dan ibu Nurlela. Penulis merupakan putri pertama dari dua bersaudara. Tahun 2005 penulis lulus dari SMA Negeri 1 2x11 Enam Lingkung dan pada tahun yang sama lulus seleksi masuk Diploma IPB melalui jalur USMI (Undangan Seleksi Masuk IPB). Tahun 2008 penulis lulus dari Diploma IPB dan pada tahun yang sama diterima di Ekstensi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. iii

7 DAFTA ISI Halaman DAFTA TABEL v DAFTA LAMPIAN v PENDAHULUAN Latar Belakang Tujuan uang Lingkup TINJAUAN PUSTAKA Question Answering (QA) Pembobotan Ekstraksi Jawaban Pembobotan heuristic Pembobotan rule-based... 3 METODE PENELITIAN Pemrosesan Offline... 4 Pemrosesan Online Evaluasi Hasil Percobaan Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian... 5 Pemrosesan Dokumen Perhitungan tf-idf Pembentukan Passages Pemrosesan Kueri... 6 Perolehan dokumen teratas Perolehan Top Passages... 7 Pembobotan Heuristic Pembobotan Heuristic dan ule-based Ekstraksi Jawaban Hasil Percobaan KESIMPULAN DAN SAAN Kesimpulan Saran DAFTA PUSTAKA LAMPIAN iv

8 DAFTA GAMBA Halaman 1 Ilustrasi matriks inverted index Kedekatan dokumen dalam ruang vektor (Manning 2008) Alur pemrosesan offline Diagram alur pemrosesan online Struktur dokumen pengujian Ilustrasi bagian dokumen yang digunakan untuk pemrosesan Contoh hasil tagging dokumen Grafik hasil percobaan keseluruhan kata tanya menggunakan 10 dokumen teratas Grafik hasil percobaan keseluruhan kata tanya menggunakan 2 dokumen teratas DAFTA TABEL Halaman 1 Daftar pasangan kata tanya dan named entity Persentase perolehan jawaban oleh Cidhy (2009) dan penulis... 9 DAFTA LAMPIAN Halaman 1 Antarmuka implementasi Contoh dokumen XML dalam koleksi pengujian Contoh pemberian entitas dokumen text dalam koleksi pengujian Tabel hasil kata tanya Siapa Tabel hasil kata tanya Kapan Tabel hasil kata tanya Dimana Tabel hasil kata tanya Berapa v

9 Latar Belakang PENDAHULUAN Sistem temu kembali informasi memiliki kaitan erat dengan sistem pencarian (search engine). Untuk menemukembalikan suatu informasi, sistem pencarian membutuhkan masukan yang dikenal dengan query. Salah satu sistem pencarian yang sudah dikembangkan adalah sistem pencarian yang memiliki fitur query berupa pertanyaan. Sistem ini dikenal dengan Question Answering System (QAS) misalnya Dengan adanya fitur pertanyaan sebagai query, diharapkan informasi yang diperoleh lebih relevan dan spesifik sesuai kebutuhan pengguna. Penelitian tentang Question Answering System dalam perkembangannya sudah diimplementasikan oleh Ballesteros dan Xiaoyan-Li (2007) berupa Question Answering yang digunakan untuk bahasa Inggris dan Mandarin. Dalam penelitian tersebut digunakan pembobotan heuristic dan syntactic untuk mengidentifikasi kandidat kalimat yang relevan. Cidhy (2009) mengimplementasikan penggunaan pembobotan heuristic yang dilakukan Ballesteros dan Xiaoyan-Li (2007) ke dalam dokumen berbahasa Indonesia. Berbeda dengan penelitian yang dilakukan oleh Cidhy (2009), Sianturi (2008) menyempurnakan penelitian Ikhsani (2006) untuk membangun sistem temu kembali jawaban tidak hanya menggunakan satu dokumen bacaan dan bahasa baku, tetapi membangun sistem temu kembali jawaban atas query pertanyaan terhadap banyak dokumen yang tidak baku. Penelitian Ikhsani (2006) dan Sianturi (2008) mengacu pada penelitian iloff dan Thelen (2000) yang menggunakan konsep rule-based untuk mendapatkan kalimat jawaban. Mengacu pada penelitian yang dikembangkan Sianturi (2008) proses pengembalian jawaban masih terbatas pada menemukembalikan kalimat jawaban sedangkan Cidhy (2009) sudah mengembalikan jawaban berupa entitas tetapi masih memiliki persentase jawaban benar yang rendah. Hal ini karena pemilihan passages yang kurang tepat. Penelitian ini akan mencoba membuat sistem dengan pembobotan rule-based yang dapat mengembalikan jawaban berupa entitas dan menggabungkan metode ule-based (Sianturi 2008) dan pembobotan heuristic (Cidhy 2009) sehingga dapat diperoleh passages yang tepat untuk mengembalikan jawaban yang benar. Tujuan Penelitian ini bertujuan memperoleh pembobotan passages yang tepat dalam Question Answering System yang dapat mengembalikan jawaban yang benar. uang Lingkup uang lingkup penelitian ini adalah: 1. Korpus terdiri atas beberapa dokumen berbahasa Indonesia 2. Menggunakan kata tanya yaitu siapa, dimana, kapan, dan berapa. 3. Kueri pertanyaan yang dimasukkan dibatasi pada tipe factoid question, yaitu pertanyaan yang memiliki jawaban tunggal. 4. Hasil dari penelitian dievaluasi menggunakan persepsi manusia. TINJAUAN PUSTAKA Question Answering (QA) Question Answering System (QAS) merupakan kombinasi antara Information etrieval (I) dengan Natural Language Processing (NLP). QA memiliki tujuan menampilkan jawaban berdasarkan kueri dalam bentuk pertanyaan yang diajukan oleh pengguna (Lin 2004). Perbedaan yang mendasar antara QA dengan I terletak pada masukan (kueri) dan keluaran yang dihasilkan. Pada I kueri yang dimasukkan berupa kata atau kalimat pertanyaan dan keluaran yang dihasilkan adalah dokumen yang dianggap relevan oleh sistem. Sedangkan pada QA, kueri berupa kalimat tanya dan keluarannya berupa jawaban (entitas) yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun. Pembobotan Information etrieval pada dasarnya adalah membandingkan kata yang ada pada kueri dengan kata yang ada dalam dokumen. Untuk memperoleh kata tertentu dalam dokumen yang mengandung informasi yang berkaitan dengan query tertentu juga, dilakukan dengan cara menghitung kesamaan antara vektor dokumen dan vektor kueri. Informasi yang diperlukan yaitu term frequency (tf), document frequency (df), dan invers document frequency (idf). Nilai tf menggambarkan frekuensi kemunculan suatu kata t dalam dokumen d, yang dilambangkan dengan tf t,d. Nilai df menggambarkan banyaknya dokumen di dalam koleksi yang mengandung kata tertentu. Nilai idf merupakan pembagian nilai df t dengan total 1

10 dokumen yang ada dalam koleksi menghasilkan nilai idf untuk setiap kata sebagai berikut : log dengan N merupakan notasi untuk jumlah dokumen yang ada dalam koleksi. Melalui idf dapat diketahui kata-kata tertentu yang merupakan penciri suatu dokumen. Dengan demikian, dapat diperoleh bobot untuk masingmasing kata dalam dokumen, yaitu w t,d yang merupakan hasil perkalian antara tf t,d dan idf t. Gambar 1 menunjukkan ilustrasi matriks inverted index, yang berisi bobot setiap kata t dalam suatu dokumen d d 1 d 2 d 3 t 1 w t1d1 w t1d2 w t1dn t 2 w t2d1 w t2d2 w t2dn t 3 w tkd1 w tkd2 w tkdn Gambar 1 Ilustrasi matriks inverted index Ide untuk mengukur kesamaan dokumen dengan menggunakan kesamaan cosine adalah dokumen yang saling berdekatan dalam ruang vektor memiliki kecenderungan berisi informasi yang sama. Gambar 2 mengilustrasikan vektor dokumen yang terdapat dalam ruang vektor, yang diberi nilai oleh bobot kata. t 1 d j θ query Gambar 2 Kedekatan dokumen dalam ruang vektor (Manning 2008). Formula untuk memperoleh kesamaan cosine untuk d j dan d k adalah: d. d, d d Berdasarkan formula kesamaan cosine, d j dan d k adalah dokumen yang terdapat dalam ruang vektor M kata. Dalam implementasi perolehan n dokumen teratas, hal serupa dilakukan untuk mengukur kesamaan antara vektor kueri dengan dokumen. Dokumen diurutkan berdasarkan perolehan nilai cosine d k d l 0 t 2 dengan kueri, kemudian dipilih n dokumen teratas dengan nilai cosine tertinggi. Ekstraksi Jawaban Setelah diperoleh n dokumen teratas, tahap selanjutnya adalah ekstraksi jawaban. Setiap n dokumen teratas yang terambil dianalisis kembali untuk mengidentifikasi kandidat jawaban dengan cara sebagai berikut (Ballesteros & Xiaoyan-Li 2007): 1. Dilakukan identifikasi named entity yang terdiri atas orang, organisasi, lokasi, ekspresi waktu, tanggal, ekspresi numerik, uang, dan persen. 2. Dokumen dibagi menjadi passage. Passage terdiri atas dua kalimat yang berdampingan. Setiap passage memiliki satu kalimat yang overlap. 3. Dilakukan pembobotan pada setiap passage. 4. Dilakukan pengurutan terhadap seluruh passage dari setiap n dokumen teratas. Pengurutan dilakukan berdasarkan bobot yang dimiliki oleh setiap passage. 5. Ekstraksi kandidat jawaban dari passage peringkat teratas. Jarak antara kandidat jawaban dan posisi dari setiap query yang cocok dalam passage dihitung. Kandidat jawaban yang memiliki total jarak terkecil terpilih sebagai jawaban akhir. Pembobotan heuristic Pembobotan heuristic merupakan metode pembobotan passages yang dikembangkan oleh Ballesteros dan Xiaoyan-Li (2007). Pertama didefinisikan count_query adalah jumlah kata yang terdapat pada query (kalimat tanya), count_match adalah jumlah hasil pencocokan antara kata yang terdapat pada query dan passage (wordmatch), score adalah bobot dari passage dan wordmatch_words adalah hasil wordmatch. Yang diperhitungkan dalam pembobotan heuristic diantaranya count_match, nilai count_match yang terdapat dalam passage yang sama, ukuran dari passage tertentu, dan jarak antara sebuah kandidat jawaban dengan wordmatch_words. Proses pembobotan adalah sebagai berikut: 1. Jika tidak ada named entity yang ditampilkan, passage menerima nilai 0. Jika named entity ditampilkan pada passage namun tidak memiliki tipe yang sama dengan pertanyaan, named entity diabaikan. 2. Dilakukan pencocokan kata-kata pada query dengan kata-kata pada passage (proses 2

11 wordmatch). Jika nilai count_match kurang dari threshold (t), score = 0. Selain itu score = count_match. Nilai threshold (t), didefinisikan dengan cara sebagai berikut: a. Jika count_query kurang dari 4, t=count_query. b. Jika count_query antara 4 dan 8, t=count_query/ c. Jika lebih besar dari 8, t=count_query/ Nilai threshold digunakan untuk mengambil kata yang penting pada passages. Dengan kata lain, paragraf apapun yang tidak mengandung kata-kata yang terdapat pada query tidak diperhitungkan. 3. Kata yang berdekatan memiliki hubungan keterkaitan informasi yang lebih tinggi. Jika seluruh kata yang cocok dengan query terdapat pada satu passages Sm=1, selain itu Sm=0. Maka, score = score + (Sm*0.5). 4. Seperti yang diketahui urutan kata dapat mempengaruhi arti. Oleh karena itu, diberikan bobot yang lebih tinggi (Ord=1) terhadap passage jika kata-kata yang cocok dengan query memiliki urutan yang sama seperti pada pertanyaan asli. Selain itu Ord=0. Dengan demikian, score = score + (Ord*0.5). 5. Score = score + (count_match/w), dimana W adalah jumlah kata dari passage dengan bobot tertinggi. Pembobotan terakhir yaitu menghitung total perolehan nilai yang disimpan dalam variabel heuristic_score yaitu count_match + 0.5*Sm + 0.5*Ord + count_match/w. Pembobotan rule-based Metode rule-based adalah metode yang dikembangkan oleh iloff & Thelen (2000). Cara kerja metode rule-based adalah menghitung nilai dari masing-masing passages pada dokumen dengan kueri yang diberikan. Nilai yang diberikan berdasarkan pada jumlah nilai hasil perbandingan kata yang sama antara kueri dengan kata yang ada pada passages dan nilai pada masing-masing rule berdasarkan tipe pertanyaan. Suatu rule dapat memberikan empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20). Menurut iloff dan Thelen (2000), nilai yang digunakan hanya berdasarkan intuisi yang bertujuan untuk memperkirakan seberapa pentingnya rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri. Jawaban atas queri yang diberikan adalah passages yang memiliki nilai tertinggi. Algoritme rule telah dimodifikasi oleh Ikhsani (2006) dari rule yang dibuat oleh iloff dan Thelen (2000) karena melakukan penyesuaian terhadap kaidah bahasa Indonesia. Adapun rule yang dibuat Sianturi (2008) sebagai berikut: 1. KAPAN Score(S) += WordMatch(Q,S) If contains(s, WAKTU) and contains (S,{saat, ketika, kala, semenjak,sejak, waktu, setelah, sebelum})then Score(S) += slam_dunk If contains(s, WAKTU) then Score(S) += good_clue If contains(s,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) +=clue 2. DIMANA Score(S) += WordMatch(Q,S) If contains(s,tempat) and contains (S,{dalam,dari, pada}) then Score(S) += slam_dunk If contains(s,{dalam, dari, pada}) then Score(S) += clue If contains(s, TEMPAT) then Score(S) += good_clue 3. SIAPA Score(S) += WordMatch(Q,S) If ~contains(q,oang) and contains (Q,OANG) then score(s) += slam_dunk 4. APA Score(S) += WordMatch(Q,S) If contains(q,{tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident Elseif contains(q,{maksud}) and contains (S,{adalah,ialah}) then Score(S) += slam_dunk Keterangan: S = sentence (passages) Q = query (kalimat kueri) 3

12 METODE PENELITIAN Penelitian ini dilakukan dalam tiga tahap, yaitu pemrosesan offline, pemrosesan online, dan evaluasi hasil percobaan (Gambar 3 dan 4) ). Pemrosesan Offline Pemrosesan offline terdiri atas tahap preproses dokumen, indexing dokumen, dan embentukan passages. Pemrosesan ini dilakukan untuk mendapatkan nilai tf-idf dan passage yang akan digunakan pada pemrosesan online. Pemrosesan Online Pemrosesan online terdiri atas tahap preproses kueri, perolehan 10 dokumen teratas, perolehan top passages, pembobotan passages, dan ekstraksi jawaban. Gambar 3 Alur pemrosesan offline 1. Preproses Dokumen Pada tahap ini dilakukan proses parsing dan penghilangan stopwords terhadap koleksi dokumen uji. Koleksi dokumen uji dan daftar stopwords diambil dari Labotarium Temu Kembali Informasi Departemen Ilmu Komputer IPB. 2. Indexing Dokumen Proses indexing dokumen pada tahap ini menggunakan pembobotan tf-idf. Hasil indexing berupa nilai idf dan tf-idf dari seluruh dokumen. 3. Pembentukan Passages Tahap selanjutnya adalah pembentukan passages yang masing-masing terdiri atas dua kalimat yang saling berdampingan. Sebelum dilakukan pembentukan passages, terlebih dahulu dilakukan penamaan entitas (entitas) padaa koleksi dokumen pengujian. Penamaan entitas atau tagging dilakukan dengan memanfaatkan hasil penelitiann Citraningputra (2009). Entitas yang dihasilkan pada penelitian Citraningputra (2009) yaitu NAME, OGANIZATION, DATE TIME, LOCATION, NUMBE, dan CUENCY. Gambar 4 Diagram alur pemrosesan online 1. Preproses Kueri Kueri berupa kalimat pertanyaan yang dimasukkan pengguna, dilakukan parsing dan penghilangan stopwords untuk mendapatkan kata tanya dan keyword (kata-kataa selain kata tanya). Kata tanya yang digunakan dibatasi pada kata : SIAPA, KAPAN, DIMANA, DAN BEAPA. 2. Perolehan 10 Dokumen Teratas Sistem akan mengembalikan sepuluh dokumen teratas yang memiliki kesamaan cosine teratas. 3. Perolehan Passage Kandidat passage diperoleh dari passages yang terletak pada sepuluh dokumen teratas. 4. Pembobotan Passage Pembobotan terhadap passage dilakukan dengann tiga metode yaitu heuristic, rule-based dan gabungan heuristic dan rule-based. Passage yang mendapatkann nilai tertinggi akan 4

13 dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek dengan kata kunci pada kalimat tanya (kueri) akan menjadi entitas jawaban. Evaluasi Hasil Percobaan Tahap evaluasi dilakukan secara objektif dari segi: 1. Pasangan jawaban dan dokumen (esponsiveness) 2. Ketepatan untuk setiap jawaban. Pemberian nilai dilakukan berdasarkan empat kriteria, yaitu: 1. Wrong (W): jawaban tidak benar. 2. Unsupported (U): jawaban benar tapi dokumen tidak mendukung. 3. Inexact (X): jawaban dan dokumen benar tapi terlalu panjang. 4. ight (): jawaban dan dokumen benar Lingkungan Pengembangan Perangkat lunak yang digunakan untuk penelitian yaitu : 1. Windows 7 sebagai sistem operasi, 2. Apache Xampp-win sebagai web server, 3. Notepad ++ sebagai editor program. Perangkat keras yang digunakan untuk penelitian yaitu : 1. Processor Intel Centrino 2.3 GHz, 2. AM 4 GB, 3. Harddisk kapasitas 250 GB. HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Dokumen uji yang digunakan adalah dokumen berbahasa Indonesia yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Sumber koleksi dokumen diambil dari media koran, majalah, dan jurnal penelitian. Dokumen ini disimpan dalam satu direktori. Secara umum, nama dokumen diberi nama berdasarkan sumber data dan tanggal data diterbitkan, misalnya suaramerdeka txt yang berarti data berasal dari majalah Suara Merdeka dan diterbitkan oleh Suara Merdeka pada tanggal 04 bulan Januari tahun Dokumen memiliki ukuran terkecil 1 KB dan terbesar 53 KB. Masing-masing dokumen uji berekstensi teks (*.txt) dan struktur XML di dalamnya. Gambar 5 menunjukkan contoh format strukur dokumen yang digunakan. <DOC> <DOCNO> suaramerdeka </DOCNO> <TITLE> ibuan Bibit untuk Lahan Kritis </TITLE> <AUTHO> </AUTHO> <DATE> Minggu, 4 Januari 2004 </DATE> <TEXT> NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. </TEXT> </DOC> Gambar 5 Struktur dokumen pengujian. Pemrosesan dokumen pada tahap indexing, hanya diambil bagian dokumen yang diapit oleh tag <TITLE> dan <TEXT>, sedangkan untuk pembentukan passages, hanya digunakan bagian dokumen yang diapit oleh tag <TEXT>. Gambar 6 menunjukkan ilustrasi bagian dokumen yang diproses. <DOC> <DOCNO> </DOCNO> <TITLE>... </TITLE> <AUTHO> </AUTHO> <DATE> </DATE> <TEXT>... </TEXT> </DOC> Gambar 6 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. 5

14 Pemrosesan Dokumen Langkah pertama pada pemrosesan dokumen adalah penamaan entitas (named entity) yang disebut tagging pada dokumen dengan menggunakan hasil penelitian dari Citrainingputra (2009). Penamaan entitas dilakukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaannya. Adapun named entity yang digunakan terdiri dari NAME, OGANIZATION, NUMBE, PECENT, CUENCY, DATE, TIME, dan LOCATION. Pada tahap ini dilakukan dengan memasukkan satu per satu setiap bagian dokumen yang diapit tag <TEXT> ke dalam sistem name entity tagging (Citraningputra 2009). Gambar 7 menunjukkan hasil tagging untuk dokumen suaramerdeka txt. Selanjutnya semua dokumen hasil tagging kemudian disimpan dalam korpus. NGALIYAN- <LOCATION> Kecamatan Ngaliyan </LOCATION> telah mendistribusikan sekitar <NUMBE>30</NUMBE> ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan <NUMBE> </NUMBE> bibit tanaman dari <OGANIZATION> Departemen Pertanian </OGANIZATION>. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. Gambar 7 Contoh hasil tagging dokumen. Langkah kedua adalah pembacaan terhadap isi file dari korpus. Pembacaan hanya berlaku pada isi file yang berada pada tag <TITLE> dan <TEXT>. Kemudian pada isi file tersebut dilakukan parsing dengan pemisah kata yang tersimpan dalam variabel pemisahkata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Tidak semua hasil parsing disimpan, karena hasil parsing diseleksi kembali oleh stopwords yang merupakan kata buangan atau daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti. File ini tersimpan dalam file stopwords.txt yang terdiri atas 733 kata yang dipisahkan dengan karakter enter, contoh kata tersebut antara lain acapkali, dalam, dan, dapat, sesaat, dari, dan lain-lain. Perhitungan tf-idf Langkah pertama melakukan perhitungan tfidf adalah mendapatkan informasi term frequency, dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency diperoleh dari pasangan dokumen dan hasil parsing (token-token) dari masing-masing file disimpan dalam suatu array pada variabel tf. Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata. Langkah selanjutnya adalah mendapatkan document frequency (df). Document frequency adalah jumlah dokumen yang mengadung kata tertentu. Kemudian dari hasil tersebut dapat dihitung nilai invers document frequency (idf). Tujuan dari idf adalah untuk menentukan katakata (term) yang merupakan penciri dari suatu dokumen, oleh karena itu dalam penelitian ini hanya kata dengan nilai idf lebih besar sama dengan 0.3 yang disimpan. Hal ini bertujuan untuk menghapus kata-kata yang tidak termasuk dalam stopwords namun bukan penciri dari sebuah dokumen. Hasil idf disimpan dalam filegenerate/idf.txt dengan menggunakan tanda >> sebagai pemisah. Melalui idf dapat diperoleh informasi untuk menghitung nilai tf-idf yang merupakan perkalian antara nilai tf dan idf. Selanjutnya hasil tf-idf kata juga disimpan dalam satu file filegenerate/tfidf.txt dengan menggunakan tanda >> sebagai pemisah. Pembentukan Passages Tahap awal pembentukan passages adalah dilakukan pembentukan kalimat untuk setiap dokumen dengan menggunakan tanda pemisah antar kalimat yaitu [.?!]. Setiap passage dibentuk dari dua kalimat yang berurutan sehingga passage yang posisinya berdekatan saling overlap. Hasil pembentukan passages ini disimpan dalam satu file../filegenerate/passages.txt. Nilai yang disimpan adalah id passage, nama dokumen, dan passage. Masing-masing variabel dipisahkan dengan tanda >>. Pemrosesan Kueri Kueri berupa kalimat Tanya yang diawali dengan kata tanya dan diakhiri dengan tanda tanya (?). Kata tanya yang digunakan pada penelitian ini adalah SIAPA, KAPAN, DIMANA, dan BEAPA. Langkah pertama yang dilakukan pada pemrosesan kueri adalah parsing terhadap kalimat tanya dengan pemisah kata yang tersimpan dalam variabel pemisahkata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Kueri di-parsing terlebih dahulu, kemudian dilakukan proses case folding yaitu pengubahan semua huruf menjadi huruf kecil. Selanjutnya dilakukan tokenisasi untuk mendapatkan katakata penyusun kueri berupa kata tanya dan keyword (kata-kata selain kata tanya). Hasil tokenisasi disimpan dalam array $query. Melalui $query, kita dapat melakukan 6

15 identifikasi dan menyimpan kata tanya dari kueri pertanyaan berupa array dengan index ke- 0 atau query[0]. Tujuannya adalah menentukan tipe jawaban yang akan dikembalikan oleh sistem. Tipe jawaban dicirikan dengan tag named entity yang terdapat pada dokumen. Tabel 1 menunjukkan daftar pasangan jenis kata tanya dan named entity yang menjadi acuan dari jawaban yang akan dikembalikan. Tabel 1 Daftar pasangan kata tanya dan named entity Kata Tanya Siapa Kapan Dimana Berapa Tag Entitas NAME, OGANIZATION DATE, TIME LOCATION NUMBE, CUENCY Perolehan dokumen teratas Dokumen yang digunakan untuk proses perolehan jawaban adalah 10 dokumen dengan bobot kesamaan cosine tertinggi. Dengan memanfaatkan nilai idf dan tf-idf dapat dilakukan perolehan norm dari kueri dan dokumen. Kueri dimasukkan secara manual kemudian dilakukan perhitungan terhadap norm query, tf-idf query, dan norm untuk setiap dokumen. Langkah selanjutnya adalah memasangkan nilai norm query dengan query setiap dokumen untuk menghasilkan nilai dotproduct dan cosine. Setelah diperoleh nilai cosine, dilakukan pengurutan nilai cosine. Dokumen yang diambil untuk memasuki langkah selanjutnya adalah 2 dan 10 dokumen dengan nilai cosine tertinggi. Selanjutnya dilakukan pemilihan passages pada kamus passage yang termasuk dalam 10 dokumen di atas. Hasil pemilihan passages ini disimpan dalam variabel $passagesdoctop untuk digunakan pada tahap perolehan top passages. Perolehan Top Passages Passages yang akan digunakan dalam proses pembobotan adalah passages yang mengandung tag named entity yang dibutuhkan, yang dalam pembahasan kali ini disebut arraytag. arraytag merupakan hasil dari identifikasi kata tanya. Misalnya Siapa yang mengacu pada PESON- OGANIZATION, dan Kapan yang mengacu pada DATE-TIME. Selanjutnya passage yang disimpan variabel $passagesdoctop kemudian disaring untuk diambil passages yang memiliki TAG sesuai kata tanya kueri pertanyaan. Selanjutnya dilakukan pembobotan passages menggunakan pembobotan heuristic dan pembobotan menggunakan metode rule-based. Pembobotan Heuristic Sesuai dengan tahapan yang terdapat dalam jurnal Ballesteros dan Xiaoyan-Li (2007) serta penelitian Cidhy (2009) yang digunakan sebagai acuan dalam penelitian ini, pembobotan passages terdiri atas : 1. Pembobotan passages berdasarkan hasil dari proses wordmatch sesuai threshold. Hasilnya disimpan dalam variabel count_match. 2. Pembobotan passages berdasarkan urutan nilai dari arraywordquestion (kata-kata selain kata tanya pada kueri) dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Ord. 3. Pembobotan passages berdasarkan nilai dari arraywordquestion dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Sm. 4. Pembobotan berdasarkan hasil dari proses wordmatch sesuai threshold berbanding ukuran passage (jumlah kata dalam satu passage). Setelah diperoleh nilai dari ke-empat variabel di atas kemudian dihitung skor heuristic setiap passage yaitu: heuristic_score = count_match + count_match/w + Sm*0.5 + Ord*0.5. Pembobotan ule-based Mengacu pada rule yang terdapat dalam iloff dan Thelen (2000) serta penelitian Sianturi (2008), yang digunakan sebagai acuan dalam penelitian ini pembobotan passages terdiri atas: 1. Fungsi WordMatch. WordMatch adalah nilai perbandingan antara kalimat kueri dengan kalimat pada dokumen. Algoritme WordMatch dilakukan dengan cara membandingkan token-token pada setiap passages dengan token-token pada kalimat kueri. Setiap token yang sama akan menambahkan nilai pada passages tersebut. Hasilnya disimpan dalam variabel WordMatch. 2. Algoritme ule. Penelitian ini membuat algoritme rule dengan melakukan beberapa modifikasi yang digunakan dalam pembobotan passages. Algoritme rules yang 7

16 digunakan sebagai acuan dalam penelitian ini: 1. SIAPA Score(S) +=WordMatch (Q,S) If contains(q,human) && (S,Human) then Score(S) += slam_dunk Algoritme rule untuk kueri pertanyaan dengan kata tanya SIAPA pada sistem yang dibangun pada penelitian ini berbeda dengan algoritme rule yang telah diimplementasikan oleh Sianturi (2008). Perbedaannya terletak pada penambahan rule dan pemberian nilai score. 2. KAPAN Score(S) +=WordMatch (Q,S) If contains(s, {saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) and contains(s,time) then Score(S) += slam_dunk If contains(s,time) and contains(q,time) then Score(S) += confident If contains(s, {saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) or contains(s,time) then Score(S) += good_clue Algoritme rule untuk kueri pertanyaan dengan kata tanya KAPAN yang dibangun pada penelitian ini dengan algoritme rule yang telah diimplementasikan oleh Sianturi (2008) hanya berbeda pada pemberian nilai score. 3. DIMANA Score(S) +=WordMatch (Q,S) If contains(s, {dalam, dari, pada}) and contains(s,location) then Score(S) += slam_dunk If contains(s,location) then Score(S) += good_clue If contains(s, {dalam, dari, pada }) then Score(S) += clue Algoritme rule yang digunakan sama dengan rule yang telah diimplementasikan oleh Sianturi (2008). 4. BEAPA Score(S) +=WordMatch (Q,S) If contains(q,numbe) and contains(s,numbe) then Score(S) += slam_dunk If contains(s,numbe) then Score(S) += confident Algoritme rule yang digunakan dibuat sendiri oleh penulis. Fungsi dan notasi yang digunakan dalam rules tersebut adalah sebagai berikut : 1. Notasi S = sentence (kalimat dokumen). 2. Notasi Q = query (kalimat kueri). 3. Fungsi contains adalah fungsi untuk memeriksa kalimat dokumen dan kalimat kueri pertanyaan, apakah mengandung kata yang telah ditentukan. 4. Fungsi WordMatch adalah fungsi untuk memeriksa kesamaan kata. 5. Fungsi score adalah fungsi pemberian nilai pada kalimat dokumen. Setelah diperoleh nilai dari Wordmatch dan rule dihitung skor setiap passage. Pembobotan Heuristic dan ule-based Pembobotan passages gabungan heuristic dan rule-based dilakukan berdasarkan nilai hasil dari proses pembobotan heuristic yang diperoleh dari pencocokan kata kueri dengan passages dan nilai pembobotan rule-based diperoleh dari rule yang digunakan. Formula untuk penggabungan kedua metode: $scoretotal = α*$heuristic+(1-α)* $rule-based dengan α=0.5. Ekstraksi Jawaban Tahap berikutnya adalah ekstraksi jawaban dari top passages yang diperoleh. Passage yang memiliki nilai tertinggi pada pembobotan passages menjadi top passage. Kata yang menjadi kandidat jawaban adalah kata yang memiliki entitas sesuai dengan kata tanya pada kueri pertanyaan. Yang perlu diperhatikan dalam perolehan entitas jawaban adalah top passage dapat terdiri atas satu atau lebih passage dan setiap passage dapat memiliki satu atau lebih kandidat jawaban. Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara setiap kandidat jawaban pada setiap passage dengan masingmasing kata pada $arraywordmatch. $arraywordmatch merupakan array yang menampung kumpulan kata hasil pencocokan antara keyword dengan kata-kata pada passage. Kandidat jawaban yang memiliki jarak 8

17 terpendek dianggap sebagai jawaban yang paling tepat. Contoh hasil percobaan menggunakan kueri Siapa Muwardi P. Simatupang?, diperoleh 19 passages pada satu dokumen teratas. Setelah diambil passage yang mengandung tag <NAME> atau <OGANIZATION> diperoleh 12 passage dari 19 passage. TopPassage yang diperoleh dengan heuristic, rule-based serta gabungan heuristic dan rule-based adalah sama. Nilai pembobotan untuk rule-based 5,078,heuristic 10 dan gabungan kedua metode adalah 7,53. Top passages yang diperoleh: Ini mungkin karena pendekatan pembangunan pertanian masih bersifat subsisten kata <OGANIZATION> Ketua Umum Dewan Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor </OGANIZATION> <NAME> Muwardi P Simatupang </NAME> pada acara diskusi 'Membangun Pertanian <LOCATION> Indonesia </LOCATION> Untuk Meningkatkan Pendapatan Petani dan Negara' di <LOCATION> Jakarta </LOCATION> <DATE> Kamis(22/4) </DATE> <NAME> Muwardi</NAME> mengatakan pendekatan subsisten merupakan pendekatan yang menitikberatkan pada peningkatan produksi Kandidat jawaban yang diperoleh hanya ada satu yaitu kata Ketua Umum Dewan Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor sehingga kata tersebut menjadi jawaban akhir. Hasil Percobaan dokumen yang ditemukembalikan dengan menggunakan tiga pembobotan passages yaitu heuristic (Cidhy 2009), rule-based serta gabungan heuristic dan rule-based dengan menggunakan 10 dokumen teratas. Jumlah koleksi dokumen yang digunakan sebanyak 106 dokumen dan sebanyak 40 kueri. Kueri tersebut diambil dari penelitian Cidhy (2009). Proses dokumentasi evaluasi kueri dicatat dalam bentuk tabel yang terdiri atas sumber dokumen, pertanyaan (kueri), perolehan passages, ketepatan dokumen, ketepatan jawaban, dan koreksi. Kemudian dilakukan pencocokan antara hasil pencarian yang diperoleh terhadap pasangan dokumen dan kueri pertanyaan yang seharusnya. Berdasarkan kesesuaian pasangan jawaban dan dokumen, penilaian dibedakan menjadi 4 jenis yaitu : right, wrong, unsupported, dan null. Persentase evaluasi hasil percobaan yang dilakukan oleh Cidhy dan penulis dapat dilihat pada Tabel 2. Berikut pembahasan untuk masing-masing percobaan : 1. Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Siapa Bungaran Saringgih?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) : Hasil percobaan dilakukan dengan membandingkan hasil penelitian yang dilakukan oleh penulis dengan hasil penelitian Cidhy (2009). Perbandingan dilakukan dengan melihat perolehan top passage, ketepatan jawaban dan Tabel 2 Persentase perolehan jawaban oleh Cidhy (2009) dan penulis menggunakan 10 dokumen teratas Kata Penelitian Cidhy (2009) Penelitian Oleh Penulis Tanya Pembobotan Heuristic (%) Pembobotan ule-based (%) Heuristic dan ule-based (%) Siapa Berapa Dimana Kapan Keterangan 1: ight 2: Unsupported 3: Wrong 4: Null 9

18 Menurut <NAME> Bungaran Saragih </NAME>, hal tersebut wajar dengan keadaan setiap penyalur pupuk, dimana mereka memerlukan waktu dalam proses pengepakan kembali. Mengenai kelangkaan pupuk di <LOCATION> Cirebon </LOCATION> yang hanya terjadi di beberapa kecamatan, <NAME> Bungaran Saragih </NAME> menegaskan bahwa produsen pupuk setempat telah menutupi kelangkaan tersebut dengan pengiriman pupuk dari luar wilayah <LOCATION> Cirebon </LOCATION>. Top passage di atas diperoleh dari dokumen indosiar txt. Berdasarkan hasil top passage, tidak diperoleh kandidat jawaban sehingga jawaban yang dikembalikan null. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based menghasilkan kriteria right yaitu Menteri Pertanian. Jawaban ini diperoleh setelah sistem mengembalikan top passage sebagai berikut : Dalam acara yang dihadiri <OGANIZATION> Menteri Pertanian </OGANIZATION> <NAME>Bungaran Saragih</NAME>, <OGANIZATION> Menteri Kelautan dan Perikanan </OGANIZATION> <NAME> okhmin Dahuri </NAME>, serta Menakertrans <NAME> Jacob Nuwa Wea </NAME>, <NAME> Presiden Megawati </NAME> menyampaikan rasa terima kasihnya kepada masyarakat <LOCATION> Gorontalo </LOCATION> yang telah bekerja keras menanam dan memproduksi jagung. Dalam pidato tanpa teks, <NAME>Mega</NAME> mengatakan, ''Saya melihat potensi menanam jagung di <LOCATION> Gorontalo</LOCATION> memang bisa digerakkan, bahkan bisa menjadi satu potensi yang sangat luar biasa. Top passage di atas diperoleh dari dokumen indosiar txt. Masih menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan gabungan heuristic dan rule-based juga menghasilkan kriteria null yaitu tidak mengembalikan jawaban. Hal ini disebabkan top passage yang dihasilkan sama dengan top passage pada penelitian Cidhy (2009). Jawaban yang diperoleh dengan rule-based lebih tepat dibanding metode yang lain. Hal ini disebabkan oleh top passage yang dihasilkan rule-based lebih relevan dibanding metode yang lain. Persentase ketepatan jawaban untuk kata tanya SIAPA pada penelitian Cidhy (2009) menghasilkan persentase kriteria right sebesar 70%, wrong 20% dan null 10%, sedangkan hasil penelitian penulis menghasilkan persentase kriteria right sebesar 80%, wrong 10% dan null 10% untuk rule-based dan kriteria right sebesar 70%, wrong 20% dan null 10% untuk gabungan heuristic dan rule-based. Daftar kueri pertanyaan dan evaluasi untuk kata tanya SIAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya KAPAN Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Kapan dilakukan penelitian di rumah kaca Balitro?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas, top passage dan jawaban yang dihasilkan pada ketiga percobaan adalah sama. Jawaban yang diperoleh adalah 1998/1999. Berikut top passage yang bersumber dari dokumen balaipenelitian txt: Penelitian ini bertujuan untuk menguji potensi agensi hayati dalam menekan perkembangan penyakit layu bakteri jahe. Untuk itu telah dilakukan penelitian di <LOCATION>rumah kaca Balittro Bogor </LOCATION> pada tahun <DATE>1997/1998 </DATE> dan di lanjutkan penelitian di lapang di <LOCATION> IP Sukamulya (Sukabumi)</LOCATION> pada tahun <DATE>1998/1999</DATE>. Persentase ketepatan jawaban untuk kata tanya KAPAN merupakan yang paling tinggi dibanding kata tanya yang lain. Baik penelitian Cidhy maupun yang dilakukan penulis, menghasilkan persentase kriteria right sebesar 100%. Hal ini disebabkan kedua penelitian menghasilkan top passage yang sama dengan tepat sehingga diperoleh jawaban yang sama. Daftar kueri pertanyaan dan evaluasi untuk kata tanya KAPAN dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya DIMANA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Dimana terjadi kekeringan dengan jumlah terbanyak?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) terdapat 10

19 pada dokumen mediaindonesia txt. Adapun top passages yang dihasilkan: Mereka yang terkena dampak kekeringan khususnya pada kebutuhan rumah tangga itu terdapat di wilayah <LOCATION> Kabupaten Gunungkidul</LOCATION>, <LOCATION> Sleman, dan Kulonprogo </LOCATION>. Jumlah yang terkena kekeringan terbanyak di wilayah <LOCATION> Kabupaten Gunungkidul</LOCATION> yang mencapai lebih dari <NUMBE> 100 ribu jiwa </NUMBE>. Berdasarkan hasil top passage, diperoleh kriteria right dengan kandidat jawaban Sleman, dan Kulonprogo. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based menghasilkan kriteria wrong yaitu Kabupaten embang. Jawaban ini diperoleh setelah sistem mengembalikan top passage yang kurang tepat sebagai berikut : Provinsi <LOCATION> Jateng </LOCATION> menghadapi kekeringan tahun ini telah memprioritaskan pembuatan embung-embung air agar dapat mengairi lahan pertanian yang dilanda kekeringan. "Kita tengah mempercepat pembuatan embung di <LOCATION>Kabupaten embang</location> pada tahun <DATE>2005</DATE>, agar lahan pertanian di <LOCATION>Kabupaten embang</location> yang sering dilanda kekeringan dapat terairi," katanya. Masih menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan gabungan heuristic dan rule-based juga menghasilkan kriteria wrong yaitu Kabupaten embang. Hal ini disebabkan top passage yang dihasilkan sama dengan top passage pada rulebased. Persentase ketepatan jawaban untuk kata tanya DIMANA pada penelitian Cidhy (2009) lebih baik dari metode yang lain, karena menghasilkan persentase kriteria right sebesar 90% dan wrong 10%, sedangkan hasil penelitian penulis dengan rule-based dan untuk gabungan heuristic dan rule-based menghasilkan persentase yang sama dengan kriteria right sebesar 80% dan wrong 20%. Daftar kueri pertanyaan dan evaluasi untuk kata tanya DIMANA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya BEAPA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Berapa luas wilayah yang ditanami tanaman padi di Kalimantan Timur?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) maupun gabungan heuristic dan rule-based mengembalikan kriteria wrong dengan jawaban 6 kecamatan. Adapun top passage yang diperoleh dari dokumen indosiar txt, yaitu : Dari catatan <OGANIZATION>Dinas Pertanian dan Tanaman Pangan Provinsi Jambi</OGANIZATION>, rusaknya tanaman pertanian akibat banjir yang terjadi pada tanaman padi, cabe, kacang tanah, dan jeruk. Hal itu terjadi di <NUMBE>6 kecamatan</numbe> yang ada di <LOCATION>Kabupaten Kerinci</LOCATION>, seperti tanaman padi seluas <NUMBE>11,87 hektar</numbe> tergenang air, dan sebanyak <NUMBE>148 hektar</numbe> mengalami puso. Pada kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based mengembalikan jawaban yang benar yaitu 11,5 juta dengan top passage sebagai berikut : Semua pelaku usaha perbenihan masih mengonsentrasikan pemasarannya di <LOCATION> Pulau Jawa </LOCATION> yang dinilai sudah maju dalam usaha tanaman pangan, sedangkan di luar <LOCATION> Pulau Jawa </LOCATION> belum banyak disentuh atau dimanfaatkan produsen benih sehingga produktivitas padi yang dihasilkannya pun masih rendah. <NAME> Susena </NAME> mengatakan, peluang pemasaran benih padi unggul saat ini masih terbuka lebar karena dari areal tanaman padi sekira <NUMBE>11,5 juta</numbe> ha, hanya sekira <NUMBE> 4 juta </NUMBE> ha yang menggunakan benih padi unggul. Jawaban yang diperoleh dengan rule-based lebih tepat dibanding metode yang lain. Hal ini disebabkan oleh top passage yang dihasilkan rule-based lebih relevan dibanding metode yang lain. 11

20 Persentase ketepatan jawaban untuk kata tanya BEAPA merupakan yang paling rendah dibanding kata tanya yang lain. Dengan metode rule-based menghasilkan persentase kriteria right sebesar 50%, unsupported 10%, dan wrong 40%, sedangkan penelitian Cidhy (2009) maupun metode gabungan menghasilkan persentase kriteria right sebesar 40%, unsupported 10%, dan wrong 50%. Hal ini disebabkan pada panamaan entitas (Name- Entity-Tagger) untuk Kata Tanya BEAPA masih dalam ruang lingkup yang kecil, yaitu hanya menggunakan tangging <NUMBE>, <CUENCY>, dan <PECENT> sedangkan penulisan teks dan informasi untuk jawaban BEAPA seringkali disajikan dengan cara lebih variatif. Seperti adanya penulisan dalam bentuk rincian untuk jumlah, luas dan lain-lain. Daftar kueri pertanyaan dan evaluasi untuk kata tanya BEAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan untuk keseluruhan Kata Tanya Percobaan dilakukan dengan membandingkan ketepatan passage dan jawaban yang ditemukembalikan pada keseluruhan Kata Tanya menggunakan tiga metode pembobotan passages. Perbandingan Hasil Percobaan menggunakan 10 Dokumen Teratas Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Gambar Heuristic ulebased ule Based dan Heuristic right unsupported wrong null Gambar 8 Grafik hasil percobaa keseluruhan kata tanya menggunakan 10 dokumen teratas. Berdasarkan Gambar 8 dapat dilihat bahwa metode pembobotan rule-based menghasilkan persentase kriteria right yang tinggi dibanding metode yang lain. Persentase untuk kriteria right untuk rule-based sebesar 77,5%, heuristic persentasenya lebih rendah daripada rule-based sebesar 75%, dan untuk penggabungan kedua metode hasil persentasenya lebih kecil dari masing-masing metode sebesar persentase 72,5%. Perbandingan Hasil Percobaan menggunakan 2 Dokumen Teratas Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Gambar Heuristic ulebased right unsupported wrong null ule Based dan Heuristic Gambar 9 Grafik hasil percobaan keseluruhan kata tanya menggunakan 2 dokumen teratas. Berdasarkan Gambar 9 dapat dilihat bahwa metode pembobotan heuristic serta gabungan heuristic dan rule-based menghasilkan persentase kriteria right yang tinggi dibanding metode rule-based. Persentase heuristic dan penggabungan kedua metode hasil persentasenya sebesar 75% sedangkan persentase untuk kriteria right untuk rule-based sebesar 60%. Dengan menggunakan keseluruhan Kata Tanya yang diambil dari 10 dokumen teratas, metode rule-based lebih banyak mengembalikan top passages dan jawaban yang tepat. Diambil dari 2 dokumen teratas, metode heuristic serta gabungan heuristic dan rulebased yang lebih banyak mengembalikan top passages dan jawaban yang tepat. Dengan demikian, dilihat untuk masing-masing pembobotan dapat mengembalikan jawaban yang tepat namun tergantung pada banyaknya dokumen yang digunakan. Untuk pembobotan dengan metode rule-based berpengaruh pada banyaknya dokumen namun tergantung pada rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri, sedangkan pembobotan heuristic berpengaruh pada banyaknya dokumen dan keterkaitan informasi dan urutan susunan kata pada kueri dengan passages. 12

21 Untuk penggabungan metode rule-based dan heuristic ternyata metode ini belum dapat mengembalikan top passages yang lebih tepat, Hal ini disebabkan karena ada kemungkinan beberapa top passage yang ditemukembalikan pada metode rule-based memiliki satu atau lebih top passages dengan nilai yang sama, sehingga nilai gabungan kedua metode cenderung mengikuti nilai top passages pada nilai yang diperoleh pada pembobotan heuristic. Ada beberapa top-passages yang tepat, baik menggunakan heuristic, rule-based dan gabungan kedua metode, namun memperoleh nilai wrong. Hal ini disebabkan perolehan entitas jawaban yang kurang tepat. Contoh dengan menggunakan kueri Berapa luas areal sagu dunia? dapat di peroleh passage yang tepat berikut dengan bobot tertinggi: <OGANIZATION>Indonesia</OGANIZA TION> adalah pemilik areal sagu terbesar, dengan luas areal sekitar <NUMBE>1 128 juta ha</numbe> atau <PECENT> 51.3% <.PECENT> dari <NUMBE>2 201 juta ha</numbe> areal sagu dunia, disusul oleh <OGANIZATION> Papua New Guinea </OGANIZATION> <PECENT> 43.3% </PECENT>. Namun dari segi pemanfaatannya, <OGANIZATION> Indonesia</OGANIZATION> masih jauh tertinggal dibandingkan dengan <OGANIZATION> Malaysia </OGANIZATION> dan <OGANIZATION> Thailand </OGANIZATION> yang masing-masing hanya memiliki areal seluas <PECENT>1.5%</PECENT> dan <PECENT>0.2%</PECENT>. Jawaban yang tepat harusnya juta ha, namun karena perolehan entitas jawaban berdasarkan pada rataan kedekatan jarak antara kandidat jawaban dengan kata hasil wordmatch, maka jawaban yang dikembalikan juta ha. Pada kriteria null atau tidak mengembalikan jawaban apapun dikarenakan tidak ditemukan entitas yang sesuai pada top passage. Dengan demikian, tidak ditemukan jawaban dari top passage tersebut. Hasil ketiga metode menunjukkan ketepatan top passage yang diperoleh sangat mempengaruhi jawaban yang dihasilkan. Oleh karena itu, semakin baik metode untuk melakukan pembobotan passage maka semakin tepat jawaban yang diperoleh. Kesimpulan KESIMPULAN DAN SAAN Hasil penelitian menunjukkan pembobotan passages menggunakan metode rule-based tidak berpengaruh pada banyaknya dokumen namun tergantung pada rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri, sedangkan pembobotan heuristic berpengaruh pada banyaknya dokumen dan keterkaitan informasi dan urutan susunan kata pada kueri dengan passages. Saran 1. Perlu dilakukan perbaikan metode perolehan entitas jawaban secara semantik dengan POS-Tagging pada penelitian-penelitian selanjutnya. 2. Perlu dilakukan penambahan Name-Entity- Tagger untuk Kata Tanya BEAPA. DAFTA PUSTAKA Ballesteros, L. A dan Xiaoyan-Li Heuristic and Syntactic for Cross-language Question Answering. Di dalam: Proceedings of NTCI-6 Workshop Meeting. Tokyo, Mei hlm Cidhy D A T K Implementasi Question Answering System dengan Pembobotan Heuristic [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Citraningputra P Entitas Tagging untuk Dokumen Berbahasa Indonesia Menggunakan Metode Berbasis Aturan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning C D, aghavan P, Schütze H Introduction to Information etrieval. Cambridge: Cambridge University Press. iloff E, Thelen M A ule-based Question Answering System for eading Comprehension Tests. ANLP/NAACL-2000 Workshop on eading Comprehension Tests as Evaluation for Computer-Based Language Understanding System. Sianturi Implementasi Question Answering System dengan Metode ule- Based pada Banyak Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. 13

22 LAMPIAN 14

23 Lampiran 1 Antarmuka implementasi 15

2. Ketepatan untuk setiap jawaban.

2. Ketepatan untuk setiap jawaban. dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI

QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI QUESTION ANSWEING SYSTEM MENGGUNAKAN N-GAM TEM WEIGHT MODEL DEBBY PUSPA BAHI DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO BOGO 2013 QUESTION ANSWEING SYSTEM

Lebih terperinci

ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA

ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 1 ANALISIS

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Gambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan.

Gambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. 6 pada akhir, seperti newsipb11111-2.txt yang berarti data berasal dari berita IPB dan diterbitkan pada tanggal 11 bulan Januari tahun 211 urutan ke-2. Dokumen memiliki ukuran terkecil 1 KB dan terbesar

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query 5 Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Sistem Operasi Windows 7. Sphinx Search. XAMPP versi 1.7.3. Named Entity Tagger bahasa Indonesia. Perangkat keras yang digunakan

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA ROMAIDA DOLAROSA SIANTURI

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA ROMAIDA DOLAROSA SIANTURI IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA ROMAIDA DOLAROSA SIANTURI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN MULTIDOKUMEN FADILA ANDRE MULYANTO

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN MULTIDOKUMEN FADILA ANDRE MULYANTO COSS LANGUAGE QUESTION ANSWEING SYSTEM MENGGUNAKAN PEMBOBOTAN HEUISTIC DAN MULTIDOKUMEN FADILA ANDE MULYANTO DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dipaparkan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan laporan. 1.1 Latar Belakang

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

SKRIPSI RANTI RAMADHIANA

SKRIPSI RANTI RAMADHIANA EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA. Oleh: NAFI IKHSANI G

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA. Oleh: NAFI IKHSANI G IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Oleh: NAFI IKHSANI G64102016 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

Bab 1 Pendahuluan. 1.1 Latar Belakang

Bab 1 Pendahuluan. 1.1 Latar Belakang Bab 1 Pendahuluan Bab ini berisi penjelasan mengenai latar belakang penelitian, rumusan masalah, tujuan yang ingin dicapai dan ruang lingkup yang membatasi pelaksanaan penelitian, metodologi penelitian

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Aplikasi Question Answering System dengan Metode Rule-Based Question Answering System pada Alkitab

Aplikasi Question Answering System dengan Metode Rule-Based Question Answering System pada Alkitab Aplikasi Question Answering System dengan Metode Rule-Based Question Answering System pada Alkitab Andreas Handojo, Erwin Lie, Rolly Intan Jurusan Teknik Informatika Fakultas Teknologi Industri Universitas

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

APLIKASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED QUESTION ANSWERING SYSTEM PADA ALKITAB

APLIKASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED QUESTION ANSWERING SYSTEM PADA ALKITAB APLIKASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED QUESTION ANSWERING SYSTEM PADA ALKITAB Andreas Handojo 1, Erwin Lie 2, dan Rolly Intan 3 1,2,3 Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB I PENDAHULUAN! 1.1 Latar Belakang 1.1 Latar Belakang BAB I PENDAHULUAN Untuk dapat tetap bisa menjalankan proses bisnisnya dengan baik, suatu instansi harus memenuhi suatu standar dalam melayani keinginan konsumen atau yang biasa dikenal

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN MENGGUNAKAN METODE N-GRAM DAN EKSPANSI KUERI Disusun oleh : Dwi iswanto L200100014 Pembimbing : Husni Thamrin PROGRAM STUDI INFORMATIKA FAKULTAS

Lebih terperinci

PERANCANGAN SISTEM PENGAMANAN DAN KOMPRESI DATA TEKS DENGAN FIBONACCI ENCODING DAN ALGORITMA SHANNON-FANO SERTA ALGORITMA DEFLATE SKRIPSI

PERANCANGAN SISTEM PENGAMANAN DAN KOMPRESI DATA TEKS DENGAN FIBONACCI ENCODING DAN ALGORITMA SHANNON-FANO SERTA ALGORITMA DEFLATE SKRIPSI PERANCANGAN SISTEM PENGAMANAN DAN KOMPRESI DATA TEKS DENGAN FIBONACCI ENCODING DAN ALGORITMA SHANNON-FANO SERTA ALGORITMA DEFLATE SKRIPSI MUHAMMAD SOLIHIN 111421078 PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval

Sistem Temu Kembali Informasi/ Information Retrieval Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

PERSEPSI DAN SIKAP KONSUMEN TERHADAP KEAMANAN PANGAN SUSU FORMULA DENGAN ADANYA ISU BAKTERI Enterobacter sakazakii DI KECAMATAN TANAH SAREAL BOGOR

PERSEPSI DAN SIKAP KONSUMEN TERHADAP KEAMANAN PANGAN SUSU FORMULA DENGAN ADANYA ISU BAKTERI Enterobacter sakazakii DI KECAMATAN TANAH SAREAL BOGOR PERSEPSI DAN SIKAP KONSUMEN TERHADAP KEAMANAN PANGAN SUSU FORMULA DENGAN ADANYA ISU BAKTERI Enterobacter sakazakii DI KECAMATAN TANAH SAREAL BOGOR SKRIPSI INTAN AISYAH NASUTION H34066065 DEPARTEMEN AGRIBISNIS

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci