ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA

Ukuran: px
Mulai penontonan dengan halaman:

Download "ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA"

Transkripsi

1 ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

2 ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

3 ABSTRACT KARTINA. Analysis of Question in Indonesian Language in Question Answering System (QAS). Supervised by JULIO ADISANTOSO. Question analysis is the first step in QAS. This step decides the final result of QAS process because the result of question analysis is used to retrieve relevant document and answer entity correctly. The used question query is limited to question type: WHO, WHERE, WHEN, and HOW MANY or HOW MUCH. The question word on query is used to obtain the answer candidate, while other words beside the question word are used to analyze the question. Question analysis process is started by parsing the keyword become tokens. The parsing is conducted with regarding token s pair possibility as a phrase. This phrase formation is expected to be able to keep the semantic aspect of question sentence. The question sentence that has parsed is used to retrieve document and top passage. Top passage is obtained through heuristic scoring. The answer extraction is conducted by calculating the nearest distance between each answer candidate in top passage and each word in keyword. Answer correction is evaluated by using these criteria: right, unsupported, wrong, and null. The evaluation result of system showed the more correct answer for the less number of documents. The result of 106 tested documents was % for criteria right, 2.22 % for criteria unsupported, % for criteria wrong, and 4.44 % for criteria null. The result of 200 tested documents was % for criteria right, % for criteria wrong, and 4.44 % for criteria null. The result of 300 tested documents was % for criteria right, % for criteria wrong, and 6.67 % for criteria null. This decreasing of percentage is caused by the less correct of passage scoring method that was used. Keywords: question analysis, question answering, heuristic scoring. 3

4 Judul Nama NIM : Analisis Pertanyaan Berbahasa Indonesia pada Question Answering System (QAS) : Kartina : G Menyetujui: Pembimbing, Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Ilmu Komputer, Dr. Ir. Sri Nurdiati, M.Sc. NIP Tanggal Lulus: i

5 RIWAYAT HIDUP Penulis dilahirkan di Wonogiri Jawa Tengah pada tanggal 18 Agustus 1988 dari ayah Partono dan ibu Kawit. Penulis merupakan putri pertama dari tiga bersaudara. Tahun 2006 penulis lulus dari SMA Negeri 1 Wonogiri dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Seleksi Penerimaan Mahasiswa Baru (SPMB). Tahun 2007 penulis diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan, penulis menjadi asisten mata kuliah Algoritma dan Pemrograman pada tahun 2009, mata kuliah Data Mining dan Sistem Pakar pada tahun Pada tahun 2009 penulis menjadi finalis Lomba Data Mining Contest Gemastik II, Direktorat Jenderal Pendidikan Tinggi. Penulis melakukan Praktik Kerja Lapangan di Pusat Teknologi Informasi dan Komunikasi(PTIK), Badan Pengkajian dan Penerapan Teknologi (BPPT). ii

6 PRAKATA Alhamdulilahirobbil alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala karunia-nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian dan dilaksanakan sejak bulan Februari 2010 adalah Analisis Pertanyaan Berbahasa Indonesia pada Question Answering System (QAS). Penulis sadar bahwa tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada : 1. Orang tua tercinta, kedua adikku tersayang Dedi Setyawan dan Candra Tri Pamungkas, serta segenap keluarga besar, terima kasih atas doa dan dukungan yang tiada henti. 2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini. 3. Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta seluruh staf Departemen Ilmu Komputer FMIPA IPB. 4. Teman-teman satu bimbingan Ekachu, Iyam, Yucan, Hendrex, Adit, Rio, Awet, dan Wildan. Terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini. 5. Sahabat-sahabatku mami Rina, Uut, Eta, Dewi, Widia, Sandi, Aadun, Windu, dan seluruh sahabatku Ilkomerz 43. Terima kasih atas motivasi dan kebersamaannya selama ini. 6. Sahabat-sahabatku di Wisma Melati Rias, Reni, Titis, Tante Ovi, Rista, Noe, Mb Netty, Mb Irma, Mb Leng, Mb Ncha, Mb Unee, Mb Dean, Mb Selly, dan lain-lain. Terima kasih atas keceriannya selama ini. 7. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat. Bogor, Juli 2010 Kartina iii

7 DAFTAR ISI Halaman DAFTAR GAMBAR...v DAFTAR TABEL...v DAFTAR LAMPIRAN...v PENDAHULUAN Latar Belakang...1 Tujuan...1 Ruang Lingkup...1 Manfaat...1 TINJAUAN PUSTAKA Question Answering...1 Analisis Pertanyaan...1 Pembentukan Frase...2 Retrieval Engine...2 Modul Ekstraksi Jawaban...3 METODE PENELITIAN Pemrosesan Offline...4 Pemrosesan Online...5 Evaluasi Hasil Percobaan...6 Lingkungan Pengembangan...6 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian...6 Pemrosesan Dokumen...6 Pembentukan Frase...8 Perhitungan tf-idf...9 Pemrosesan Kueri...9 Perolehan 10 Dokumen Teratas...9 Perolehan Top Passages dan Ekstraksi Jawaban Hasil Percobaan KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN iv

8 DAFTAR GAMBAR Halaman 1 Arsitektur tahap analisis pertanyaan (Schlaefer et al 2006) Ilustrasi matriks inverted index Kedekatan dokumen dalam ruang vektor (Manning 2008) Diagram alur pemrosesan offline Diagram alur pemrosesan online Struktur dokumen pengujian Ilustrasi bagian dokumen yang digunakan untuk pemrosesan Diagram alur pemrosesan dokumen Contoh hasil tagging dokumen Histogram sebaran nilai peluang pembentukan frase...8 DAFTAR TABEL Halaman 1 Tabel vektor term frequency Tabel vektor df dan idf Contoh pasangan kata dengan nilai peluang sebesar Daftar pasangan kata tanya dan entitas Persentase perolehan jawaban oleh Cidhy (2009) dan penulis Persentase perolehan jawaban menggunakan jumlah dokumen yang berbeda DAFTAR LAMPIRAN Halaman 1 Antarmuka implementasi Contoh dokumen XML dalam koleksi pengujian Contoh pemberian entitas dokumen text dalam koleksi pengujian Tabel perbandingan kata tanya SIAPA menggunakan 106 dokumen Tabel perbandingan kata tanya BERAPA menggunakan 106 dokumen Tabel perbandingan kata tanya DIMANA menggunakan 106 dokumen Tabel perbandingan kata tanya KAPAN menggunakan 106 dokumen Tabel perbandingan kata tanya SIAPA menggunakan 106, 200, dan 300 dokumen Tabel perbandingan kata tanya BERAPA menggunakan 106, 200, dan 300 dokumen Tabel perbandingan kata tanya DIMANA menggunakan 106, 200, dan 300 dokumen Tabel perbandingan kata tanya KAPAN menggunakan 106, 200, dan 300 dokumen Tabel perbandingan menggunakan dokumen reading comprehension Contoh perolehan top passage dan 10 dokumen teratas v

9 Latar Belakang PENDAHULUAN Analisis pertanyaan merupakan tahap awal pada Question Answering System (QAS). Tahap ini sangat menentukan hasil akhir dari proses QAS karena hasil analisis pertanyaan akan digunakan untuk membangkitkan kueri. Oleh karena itu analisis pertanyan penting untuk dilakukan. QAS memiliki cara kerja yang lebih kompleks dibanding mesin pencari pada umumnya. Pengguna memasukkan kueri berupa pertanyaan dan sistem akan mengembalikan entitas jawaban yang tepat. Contoh mesin pencari yang telah menerapkan QAS adalah dan Ikhsani (2006) membangun QAS dengan metode rule-based untuk temu kembali informasi berbahasa Indonesia. Proses tokenisasi dan stemming dilakukan pada kueri pertanyaan yang telah dibuat secara subjektif oleh penulis. Selanjutnya Anggraeny (2007), mengimplementasikan QAS dengan metode rule-based pada terjemahan Al qur an Surat Al-baqarah. Dilakukan parsing, stemming, dan pembuangan stopwords untuk mendapatkan kata-kata kueri. Pada tahun berikutnya, Sianturi (2008) memperbaiki rules yang digunakan dalam penelitian Ikhsani. Kueri pertanyaan yang dimasukkan ke dalam sistem dibuat sendiri oleh penulis, yang kemudian dilakukan parsing dan stemming. Cidhy (2009) telah mengimplementasikan QAS menggunakan pembobotan heuristic. Kueri pertanyaan di-parsing untuk mendapatkan kata tanya dan keyword (katakata selain kata tanya). Kata tanya dari kueri inilah yang mencirikan entitas kandidat jawaban yang akan dicari di dalam koleksi dokumen. Keempat penelitian di atas menggunakan kueri yang mengandung kata tanya APA, SIAPA, KAPAN, dan MENGAPA, tetapi keempatnya belum melakukan analisis semantik terhadap kueri pertanyaan. Oleh karena itu, penelitian lebih lanjut diperlukan untuk menganalisis pertanyaan berbahasa Indonesia pada QAS agar diperoleh representasi kueri pertanyaan yang tepat. Tujuan Tujuan dari penelitian ini adalah : Menggunakan teknik pembentukan frase dalam tahap analisis pertanyaan untuk mempertahankan nilai semantik dari pertanyaan berbahasa Indonesia. Mendapatkan dokumen dan jawaban yang relevan dengan kueri. Ruang Lingkup Ruang lingkup penelitian yang dilakukan oleh penulis meliputi : Koleksi dokumen terdiri atas dokumen berbahasa Indonesia. Kueri pertanyaan yang dimasukkan dibatasi pada tipe factoid question, yaitu pertanyaan yang memiliki jawaban tunggal. Pembentukan frase terdiri atas dua kata. Hasil dari penelitian dievaluasi menggunakan persepsi manusia. Manfaat Analisis pertanyaan diharapkan dapat membangkitkan kueri yang mempertahankan nilai semantik pertanyaan tersebut sehingga diperoleh dokumen yang lebih relevan. TINJAUAN PUSTAKA Question Answering Question Answering (QA) merupakan aplikasi yang menggabungkan teknologi Information Retrieval (IR) dengan Natural Language processing (NLP). Perbedaan yang mendasar antara QA dengan IR terletak pada masukan (kueri) dan keluaran yang dihasilkan. Kueri yang dimasukkan pada IR berupa kata atau kalimat pernyataan dan keluaran yang dihasilkan adalah dokumen yang dianggap relevan oleh sistem. Sedangkan pada QA, kueri berupa kalimat tanya dan keluarannya berupa jawaban (entitas) yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun (Strzalkowski & Harabagiu 2008). Kueri yang berupa kalimat tanya ini dapat dianalisis terlebih dahulu sebelum digunakan untuk memeroleh dokumen dan jawaban yang relevan dengan kueri. Tahapan untuk menganalisis kueri ini disebut sebagai tahap analisis pertanyaan. Analisis Pertanyaan Menurut van Zaanen (2008), kualitas tahap analisis pertanyaan memberikan pengaruh yang cukup signifikan terhadap hasil QA. Sebelumnya Schlaefer et al (2006) telah melakukan tahap analisis pertanyaan pada QA 1

10 yang dibuat menggunakan framework OpenEphyra. Gambar 1 menunjukkan arsitektur tahap analisis pertanyaan : Question normalizer Question analyzer Kueri Generator Question string Question (normalized) Interpretation, Answer type Question patterns Type patterns Gambar 1 Arsitektur tahap analisis pertanyaan (Schlaefer et al 2006). Kueri yang berupa kalimat tanya dinormalisasi, yaitu dilakukan stemming dan pembuangan token yang tidak perlu. Keluaran dari tahap normalisasi ini menghasilkan dua representasi kalimat tanya. Representasi pertama digunakan untuk analisis pencocokan dengan pola yang sudah ada sehingga diperoleh entitas tipe jawaban yang sesuai. Representasi kedua digunakan untuk pembangkitkan kueri yang dipakai untuk memperoleh dokumen yang relevan. Perluasan kueri juga dapat dilakukan untuk mempertahankan aspek semantik dari kueri kalimat tanya, misal menggunakan WordNet atau Thesaurus (untuk Bahasa Inggris). Sedangkan untuk Bahasa Indonesia, dapat dilakukan menggunakan pembentukan frase. Pembentukan Frase Menurut Depdiknas (2003), frase merupakan satuan bahasa yang terbentuk atas dua kata atau lebih. Frase dapat dibedakan menjadi empat macam, yaitu : 1. Frase Verbal Frase verbal merupakan satuan bahasa yang terbentuk dari dua kata atau lebih dengan verba sebagai intinya tetapi bentuk ini tidak merupakan klausa. Contoh : sudah membaik, akan mendarat, dan tidak harus pergi. 2. Frase Nominal Sebuah nomina dapat diperluas ke kiri atau ke kanan menjadi sebuah frase. Perluasan ke kiri dilakukan dengan meletakkan kata penggolongnya tepat di depan nomina yang didahului dengan kata numeralia, contoh : dua buah buku dan beberapa butir telur. Perluasan ke kanan dilakukan dengan meletakkan kata penggolong dan numeralia tepat di sebelah kanan nomina, contoh : kera tiga ekor dan buku tiga buah. 3. Frase Pronominal Frase pronominal dapat dibentuk dengan menambahkan numeralia kolektif, kata penunjuk, atau kata sendiri setelah pronominal. Contohnya : mereka berdua, mereka itu, dan saya sendiri. 4. Frase numeralia Umumnya frase numeralia dibentuk dengan menambahkan kata penggolong. Contoh : lima orang, dua ekor sapi, dan tiga buah rumah. Frase dapat disusun oleh dua kata atau lebih. Hasil pembentukan frase ini dapat digunakan untuk menganalisis kueri pertanyaan sebelum kueri digunakan untuk menemukembalikan dokumen yang relevan. Retrieval Engine IR secara otomatis pada dasarnya adalah membandingkan kata yang ada pada kueri dengan kata yang ada dalam dokumen. Pada kenyataannya, setiap dokumen dapat memiliki banyak kata yang beragam sehingga pembandingan antara kata kueri dengan dokumen menjadi sulit dilakukan. Oleh karena itu, diperlukan karakteristik yang dapat digunakan sebagai penciri suatu dokumen sehingga dokumen dapat diindeks sesuai dengan penciri yang dimiliki. Proses penentuan indeks dokumen dapat dilakukan secara manual dan otomatis. Penentuan indeks secara manual melibatkan pakar di bidang ilmu sesuai isi dokumen yang akan diolah dan tentunya memerlukan waktu yang lebih lama. Dengan kemajuan teknologi, penentuan indeks dapat dilakukan secara otomatis menggunakan model kuantitatif. Model ini meliputi model ruang vektor, model peluang, dan model Boolean. Model ruang vektor bertujuan mengukur kesamaan antara vektor suatu dokumen dengan vektor kueri yang dimasukkan (Manning 2008). Informasi term frequency (tf), document frequency (df), dan invers document frequency (idf) diperlukan sebagai langkah awal untuk menghitung kesamaan antara vektor dokumen dengan vektor kueri. Nilai tf menggambarkan frekuensi kemunculan suatu kata t dalam dokumen d, yang dilambangkan dengan tf t,d. Tabel 1 menunjukkan ilustrasi pembentukan vektor tf untuk kata car, auto,insurance, dan best. 2

11 Selanjutnya dilakukan perhitungan nilai df yang dinotasikan dengan df t. Variabel df t merupakan jumlah dokumen dalam koleksi yang mengandung kata t. Pembagian nilai df t dengan total dokumen yang ada dalam koleksi menghasilkan nilai idf untuk setiap kata sebagai berikut : idf t = log t 1 θ N merupakan notasi untuk jumlah dokumen yang ada dalam koleksi. Melalui idf dapat diketahui kata-kata tertentu yang merupakan penciri suatu dokumen. Nilai idf untuk masing-masing kata pada Tabel 1 diilustrasikan pada Tabel 2. Dengan demikian, dapat diperoleh bobot untuk masing-masing kata dalam dokumen, yaitu W t,d yang merupakan hasil perkalian antara tf t,d dan idf t. Tabel 1 Tabel vektor term frequency Term Document d 1 d 2 d 3 car auto insurance best Tabel 2 Tabel vektor df dan idf Term df t idf t car auto insurance best Gambar 2 menunjukkan ilustrasi matriks inverted index, yang berisi bobot setiap kata t dalam suatu dokumen d. d 1 d 2 d 3 t 1 W t1d1 W t1d2 W t1dn t 2 W t2d1 W t2d2 W t2dn t 3 W tkd1 W tkd2 W tkdn Gambar 2 Ilustrasi matriks inverted index. Ide dalam mengukur kesamaan dokumen dengan menggunakan kesamaan cosine adalah dokumen yang saling berdekatan dalam ruang vektor memiliki kecenderungan berisi informasi yang sama. Gambar 3 mengilustrasikan vektor dokumen yang terdapat dalam ruang vektor, yang diberi nilai oleh bobot kata. 0 Gambar 3 Kedekatan dokumen dalam ruang vektor (Manning 2008). Berikut ini adalah formula untuk memperoleh kesamaan cosine untuk d j dan d k : sim (d j, d k ) = = Berdasarkan formula kesamaan cosine, dj dan dk adalah dokumen yang terdapat dalam ruang vektor M kata, dan M merupakan vektor bobot tiap dokumen. Dalam implementasi perolehan n dokumen teratas, hal serupa dilakukan untuk mengukur kesamaan antara vektor kueri dengan dokumen. Dokumen diurutkan berdasarkan perolehan nilai cosine dengan kueri. Kemudian dipilih n dokumen teratas dengan nilai cosine tertinggi. Modul Ekstraksi Jawaban Setelah diperoleh n dokumen teratas, tahap yang selanjutnya adalah ekstraksi jawaban. Setiap sepuluh dokumen teratas yang diperoleh dianalisa kembali untuk mengidentifikasi kandidat jawaban dengan cara sebagai berikut (Ballesteros & Xiaoyan- Li 2007): 1. Dilakukan identifikasi entitas yang terdiri atas orang, organisasi, lokasi, ekspresi waktu, tanggal, ekspresi numerik, uang, dan persen. 2. Dokumen dibagi menjadi passages. Passage terdiri atas dua kalimat yang berdampingan. Setiap passage memiliki satu kalimat yang overlap. 3. Dilakukan pembobotan heuristic pada setiap passage. Pertama-tama didefinisikan count_query adalah jumlah kata yang terdapat pada kueri (kalimat tanya), count_match adalah jumlah hasil t 2 3

12 pencocokan antara kata yang terdapat pada kueri dan passage (wordmatch), score adalah bobot dari passage, dan wordmatch_words adalah hasil wordmatch. Berikut proses pembobotan yang digunakan : a. Jika tidak ada entitas yang ditampilkan, passage menerima nilai 0. Jika entitas ditampilkan pada passage namun tidak memiliki tipe yang sama dengan pertanyaan, entitas diabaikan. b. Dilakukan pencocokan kata-kata pada kueri dengan kata-kata pada passage (proses wordmatch). Jika nilai count_match kurang dari threshold (t), score = 0. Selain itu, score = count_match. Nilai threshold (t), didefinisikan dengan cara sebagai berikut: i. Jika count_query kurang dari 4, maka t=count_query. Dengan kata lain, passage yang tidak mengandung kata-kata yang terdapat pada kueri tidak diperhitungkan. ii. Jika count_query antara 4 dan 8, maka t=count_query/( ) iii. Jika lebih besar dari 8, maka t=count_query/( ) c. Kata yang berdekatan memiliki hubungan keterkaitan informasi yang lebih tinggi. Jika seluruh kata yang cocok dengan kueri terdapat pada satu kalimat Sm=1, selain itu Sm=0. Maka, score = score + (Sm*0.5). d. Seperti yang diketahui urutan kata dapat mempengaruhi arti. Maka, diberikan bobot yang lebih tinggi (Ord=1) terhadap passage jika katakata yang cocok dengan kueri memiliki urutan yang sama seperti pada pertanyaan asli. Selain itu Ord=0. Maka, score = score + (Ord*0.5). e. Score = score + (count_match/w), dimana W adalah jumlah kata dari passage dengan bobot tertinggi. 4. Pembobotan terakhir yaitu menghitung total perolehan nilai yang disimpan dalam variabel heuristic_score. heuristic_score = count_match + 0.5*Sm + 0.5*Ord + count_match/w. Dilakukan pengurutan terhadap seluruh passage pada 10 dokumen teratas. Pengurutan dilakukan berdasarkan bobot yang dimiliki oleh setiap passage. 5. Ekstraksi kandidat jawaban dari passage peringkat teratas. Jarak antara kandidat jawaban dan posisi dari setiap kueri yang cocok dalam passage dihitung. Kandidat jawaban yang memiliki total jarak terkecil terpilih sebagai jawaban akhir. METODE PENELITIAN Penelitian ini dilakukan dalam tiga tahap, yaitu pemrosesan offline, pemrosesan online, dan evaluasi hasil percobaan. Diagram alur pemrosesan offline dan pemrosesan online dapat dilihat pada Gambar 4 dan 5. Pemrosesan Offline Pemrosesan offline terdiri atas tahap praproses dokumen, pembentukan frase, indexing dokumen, dan pembentukan passages. Pemrosesan ini dilakukan untuk mendapatkan kamus frase, kamus passage, dan nilai tf-idf yang akan digunakan pada pemrosesan online. 1. Praproses dokumen Pada tahap ini, dilakukan parsing koleksi dokumen uji untuk digunakan pada tahaptahap berikutnya. Selain itu dilakukan pembuangan kata-kata tidak penting atau stopwords. Daftar stopwords yang digunakan diambil dari Laboratorium Temu Kembali Informasi. 2. Pembentukan Frase Pembentukan frase dilakukan untuk menganalisis pertanyaan yang dimasukkan oleh pengguna. Asumsi yang digunakan dalam pembentukan frase adalah jika dua kata memiliki posisi berurutan dalam suatu dokumen dan kejadian ini sering terjadi pada koleksi dokumen uji, maka dua kata tersebut dianggap sebagai sebuah frase. Berdasarkan asumsi ini maka dapat dihitung peluang munculnya kata A tepat setelah kata B yaitu : P(A B) = n(a B) = banyaknya kemunculan kata A tepat setelah B, n(a X) = banyaknya kemunculan kata A tepat setelah kata X, dimana X merupakan kumpulan kata unik yang ada pada koleksi dokumen, P(A B) = peluang munculnya kata A tepat setelah kata B. 4

13 Dengan menggunakan rumus peluang di atas, akan didapat daftar kandidat frase yang disimpan dalam kamus frase. 3. Indexing Dokumen Proses indexing yang dilakukan dalam penelitian ini menggunakan pembobotan tfidf. Hasil indexing berupa nilai idf dan tf-idf dari seluruh dokumen. Hasil ini akan digunakan untuk menghitung ukuran kesamaan cosine antara vektor kueri dengan masing-masing vektor dokumen pada koleksi dokumen. 4. Pembentukan Passages Sebelum dilakukan pembentukan passages, terlebih dahulu dilakukan penamaan entitaspada koleksi dokumen pengujian. Penamaan entitas atau tagging dilakukan dengan memanfaatkan hasil penelitian Citraningputra (2009). Entitas yang dihasilkan pada penelitian Citraningputra yaitu NAME, ORGANIZATION, DATE, TIME, LOCATION, NUMBER, dan CURRENCY. Selanjutnya passages dibentuk dari dua kalimat yang berurutan pada setiap dokumen. Hasil dari proses ini disimpan dalam kamus passage. Pemrosesan Online Setelah pemrosesan offline selesai, tahap berikutnya adalah pemrosesan online. Tahapan pada proses ini terdiri atas analisis pertanyaan, perolehan 10 dokumen teratas, pembobotan heuristic, dan ekstraksi jawaban. 1. Analisis Pertanyaan Kueri pertanyaan yang dimasukkan diparsing terlebih dahulu. Parsing dilakukan untuk membuang tanda baca yang ada pada kueri. Kemudian dilakukan proses case folding yaitu pengubahan semua huruf menjadi huruf kecil. Selanjutnya dilakukan tokenisasi untuk mendapatkan kata tanya dan keyword (kata-kata selain kata tanya). Kata tanya yang digunakan dibatasi pada kata : SIAPA, KAPAN, DIMANA, dan BERAPA. Berikut identifikasi tipe pertanyaan untuk setiap kata tanya : a. SIAPA merujuk pada orang atau organisasi, b. KAPAN merujuk pada keterangan waktu, c. DIMANA merujuk pada keterangan lokasi suatu kejadian, d. BERAPA merujuk pada jumlah atau satuan numerik (persen, Rupiah, dll). Gambar 4 Diagram alur pemrosesan offline. Gambar 5 Diagram alur pemrosesan online. Dengan memanfaatkan kamus frase yang dihasilkan pada proses offline, dilakukan pembentukan frase dari kata-kata yang ada pada keyword. Hasil pembentukan frase inilah yang digunakan untuk proses perhitungan tfidf kueri dan ukuran kesamaan cosine. 5

14 2. Perolehan 10 Dokumen Teratas Sepuluh dokumen yang memiliki nilai kesamaan cosine teratas, akan dikembalikan oleh sistem. 3. Perolehan Top Passage Kandidat top passage diperoleh dari passages yang terletak pada sepuluh dokumen teratas. Dengan memanfaatkan pembobotan heuristic, diperoleh passage yang memiliki bobot tertinggi (top passage) dari kandidat top passage sebelumnya. 4. Ekstraksi Jawaban Jawaban akhir diperoleh dengan menghitung jarak terdekat antara kandidat jawaban pada top passage dengan kata-kata yang merupakan hasil pencocokkan dengan keyword. Evaluasi Hasil Percobaan Tahap evaluasi dilakukan oleh manusia, jawaban dinilai dari segi: 1. Pasangan jawaban dan dokumen. 2. Ketepatan untuk setiap jawaban. Pemberian nilai dilakukan berdasarkan empat kriteria, yaitu: 1. Wrong (W): jawaban tidak benar. 2. Unsupported (U): jawaban benar tapi dokumen tidak mendukung. 3. Inexact (X): jawaban dan dokumen benar tapi terlalu panjang. 4. Right (R): jawaban dan dokumen benar. Lingkungan Pengembangan Perangkat lunak yang digunakan untuk penelitian yaitu : 1. Windows XP Profesional SP 3 sebagai sistem operasi, 2. ActivePerl sebagai interpreter program Perl, 3. Apache di dalam Xampp-win sebagai web server, 4. Notepad ++ sebagai editor program. Perangkat keras yang digunakan untuk penelitian yaitu : 1. Processor Intel Celeron 1.73 GHz, 2. RAM 1 GB, 3. Harddisk kapasitas 80 GB. HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Koleksi dokumen pengujian yang digunakan dalam penelitian diambil dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Sumber koleksi dokumen diambil dari media koran, majalah, dan jurnal penelitian. Semua dokumen memiliki topik bidang pertanian. Ukuran terkecil dari dokumen yaitu 1 KB dan terbesar 53 KB. Dokumen-dokumen ini berformat teks (*.txt) dengan struktur XML di dalamnya. Gambar 6 menunjukkan format strukur dokumen yang digunakan. <DOC> <DOCNO>suaramerdeka </DOCNO> <TITLE>Ribuan Bibit untuk Lahan Kritis</TITLE> <AUTHOR></AUTHOR> <DATE>Minggu,4Januari 2004</DATE> <TEXT> NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. </TEXT> </DOC> Gambar 6 Struktur dokumen pengujian. Pemrosesan dokumen pada tahap indexing dan pembentukan frase, hanya diambil bagian dokumen yang diapit oleh tag <TITLE> dan <TEXT>. Sedangkan untuk pembentukan passages, hanya digunakan bagian dokumen yang diapit oleh tag <TEXT >. Gambar 7 menunjukkan ilustrasi bagian dokumen yang diproses. <DOC> <DOCNO>suaramerdeka040104</DOCNO> <TITLE> </TITLE> <AUTHOR></AUTHOR> <DATE>Minggu,4Januari 2004</DATE> <TEXT> <TEXT> </DOC> Gambar 7 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. Pemrosesan Dokumen Tahap ini dilakukan untuk memudahkan proses memperoleh 10 dokumen teratas, pembentukan frase dan passages. Diagram alur pemrosesan dokumen dapat dilihat pada Gambar 8. 6

15 Gambar 8 Diagram alur pemrosesan dokumen. Langkah pertama yang dilakukan pada tahap ini adalah memasukkan satu per satu setiap bagian dokumen yang diapit tag <TEXT> ke dalam sistem name entity tagging (Citraningputra 2009). Semua dokumen hasil tagging kemudian disimpan dalam file passagesdok.txt. Gambar 9 menunjukkan hasil tagging untuk dokumen suaramerdeka txt. NGALIYAN- <LOCATION>Kecamatan Ngaliyan</LOCATION> telah mendistribusikan sekitar <NUMBER> 30</NUMBER> ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan <NUMBER> </NUMBER> bibit tanaman dari <ORGANIZATION>Departemen Pertanian </ORGANIZATION>. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. Gambar 9 Contoh hasil tagging dokumen. Selanjutnya dilakukan penghapusan tanda titik (.) yang bukan akhir kalimat pada file passagesdoc.txt secara manual oleh penulis, yaitu tanda (.) yang merupakan : 1. Singkatan gelar, misal : dr. dan Prof. 2. Singkatan nama seseorang, misal : A. rifai Badri. 3. Singkatan nama biologi suatu spesies, misal : Bambusa sp. 4. Penomoran, misal : a. Deklarasi Rio b. Program aksi agenda. kemudian dilakukan pembentukan kalimat untuk setiap dokumen dengan menggunakan tanda pemisah antar kalimat yaitu [.?!]. Setiap passage dibentuk dari dua kalimat yang berurutan sehingga passage yang posisinya berdekatan saling overlap. Hasil pembentukan passages ini disimpan dalam kamus passages. Langkah kedua dilakukan pembacaan terhadap isi file yang berada pada folder korpus. Kemudian dilakukan pembacaan isi file yang berada di antara tag <TITLE> dan <TEXT>. Selanjutnya dilakukan parsing terhadap isi file dengan pemisah kata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Tidak semua hasil parsing disimpan, karena hasil parsing diseleksi kembali oleh stopwords yang tersimpan dalam file stopwords.txt. File ini terdiri atas 733 kata yang dipisahkan dengan karakter enter, contoh kata tersebut antara lain cuma, dalam, dan, dapat, dapatkah, dari, dll. Daftar pasangan dokumen dengan katakata hasil parsing dari setiap file diletakkan dalam variabel %praproses dan disimpan ke dalam file praproses.dat. Variabel %praproses memiliki struktur sebagai berikut : my %praproses=( 'N_dok' => 0, 'kata' => {}, 'tf' => {}, 'frekurut'=> {}, 'unik' => {} ); Variabel N_dok menyimpan jumlah dokumen yang dibaca, sedangkan variabel $unik menyimpan kata unik dari seluruh dokumen. Variabel kata memiliki tiga key dengan syntax : $rec{'kata'}{$file}{$token}{$index Kata}; variabel $file menyimpan nama dokumen yang dibaca, $token menyimpan daftar kata pada suatu dokumen, dan $indexkata menyimpan posisi kata pada suatu dokumen. Variabel tf digunakan untuk menyimpan term frequency, yang memiliki dua key dengan syntax : $rec{'tf'}{$token}{$file} Variabel $token menyimpan daftar kata unik dan $file menyimpan nama dokumen tempat kata unik itu berada. Adapun struktur syntax dari variabel frekurut sebagai berikut : $rec{'frekurut'}{$kataa}{$katab} Variabel frekurut digunakan untuk menyimpan frekuensi pasangan kata dari 1000 dokumen pengujian. Variabel $kataa digunakan untuk menyimpan kata yang muncul tepat setelah kata yang ada pada variabel $katab. 7

16 Pembentukan Frase Setelah tahap pemrosesan dokumen, dapat dilakukan perhitungan peluang setiap pasangan kata sebagai sebuah frase. Dengan memanfaatkan file praproses.dat, diperoleh nilai variabel frekurut dan unik. Variabel frekurut digunakan untuk menyimpan daftar frekuensi pasangan kata yang berurutan dari 1000 dokumen pengujian, sedangkan variabel unik berisi daftar kata unik dari 1000 dokumen yang sama. Kemudian disusun program untuk menghitung banyaknya kemunculan kata A tepat setelah kata B, yang hasilnya disimpan dalam variabel $pembilang. Selanjutnya dihitung banyaknya kemunculan kata A tepat setelah semua kata unik yang ada pada dokumen dan hasilnya disimpan dalam variabel $penyebut. Berikut ilustrasi algoritme untuk mendapatkan nilai variabel $pembilang dan $penyebut : %frek= retrieve( praproses.dat ); %urut = %{$frek { frekurut }}; %unik = %{$frek { unik }}; foreach $kataa of %unik{ foreach $katab of {$unik{$kataa}}{ $pembilang{$kataa}{$katab}= $urut{$kataa}{$katab}; $penyebut{$kataa} += $urut{$kataa}{$katab}; } } Selanjutnya untuk menghitung peluang kata A setelah kata B dari semua pasangan kata unik pada koleksi dokumen, dapat dilihat pada ilustrasi algoritme di bawah : %unik = %{$frek { unik }}; foreach $kataa of %unik{ foreach $katab of {$unik{$kataa}}{ if $kataa not equal $katab{ $peluang{$kataa}{$katab} = $pembilang{$kataa}{$katab}/ $penyebut{$kataa}{$katab}; } } } Perhitungan peluang pembentukan frase dari 1000 dokumen menghasilkan kandidat frase dengan nilai peluang terkecil yakni 1.98 x 10-4 dan nilai terbesar adalah 1. Gambar 10 menunjukkan histogram sebaran peluang yang dihasilkan. Sumbu x histogram menunjukkan sebaran nilai peluang, sedangkan sumbu y menunjukkan frekuensi pasangan kata untuk setiap nilai peluang. Sebanyak pasangan kata memiliki nilai peluang sebesar 1, pasangan kata memiliki peluang lebih dari 0.5 sampai dengan 1, pasang kata memiliki peluang antara lebih dari 0.1 sampai kurang dari sama dengan 0.5, dan pasang kata memiliki peluang kurang dari sama dengan 0.1. Terdapat pasangan kata dengan nilai peluang 1 yang benar dikategorikan sebagai frase. Namun ada pula pasangan kata yang sebenarnya bukan frase tapi memiliki nilai peluang sebesar 1. Contoh untuk pasangan kata Marty Natalegawa yang tidak termasuk frase tetapi memiliki nilai peluang sebesar 1. Hal ini disebabkan kata Natalegawa selalu muncul tepat setelah kata Marty pada koleksi dokumen. Untuk pasangan kata mundu dipercayai memiliki peluang sebesar 1 meskipun tidak termasuk frase. Hal ini disebabkan pasangan kata mundu dipercayai muncul tepat satu kali dalam koleksi dokumen. Tabel 3 menunjukkan contoh pasangan kata (kandidat frase) dengan nilai peluang sebesar 1 yang dievaluasi benar dan salah sebagai frase. Pasangan kata yang akan digunakan sebagai kandidat frase untuk proses pembentukan frase pada tahap analisis pertanyaan adalah pasangan kata yang memiliki nilai peluang lebih besar sama dengan 0.1, sehingga diperoleh pasangan kata yang disimpan dalam kamus frase. Gambar 10 Histogram sebaran nilai peluang pembentukan frase. Tabel 3 Contoh pasangan kata dengan nilai peluang sebesar 1 Pasangan Kata Marty Natalegawa Menteri perindustrian Kementrian pertahanan Negeri jiran Mundu dipercayai Salah Benar Benar Benar Salah Evaluasi 8

17 Perhitungan tf-idf Dengan memanfaatkan hasil tahap pemrosesan dokumen, dapat dilakukan perhitungan document frequency (df), inverse document frequency (idf), dan tf-idf dari setiap token dan kandidat frase pada seluruh dokumen. Langkah pertama yang dilakukan adalah memanfaatkan file praproses.dat untuk mendapatkan informasi term frequency pada variabel tf. Variabel ini untuk menghitung nilai df, idf, dan tf-idf setiap kata. Tujuan dari idf adalah untuk menentukan kata-kata (term) yang merupakan penciri dari suatu dokumen, oleh karena itu dalam penelitian ini hanya kata dengan nilai idf lebih besar sama dengan 0.3 yang disimpan. Hal ini bertujuan untuk menghapus kata-kata yang tidak termasuk dalam stopwords namun bukan penciri dari sebuah dokumen. Melalui idf dapat diperoleh informasi untuk menghitung nilai tf-idf yang merupakan perkalian antara nilai tf dan idf. Langkah kedua adalah menghitung nilai df, idf, dan tf-idf setiap kandidat frase dalam setiap dokumen. Perhitungan ini dilakukan dengan memanfaatkan informasi term frequency pasangan kata pada variabel frekurut. Untuk pembobotan kandidat frase, diterapkan juga langkah-langkah seperti pada pembobotan kata. Selanjutnya hasil idf dan tfidf kata dan kandidat frase digabung dan disimpan dalam satu file. Hasil idf disimpan dalam file idf.txt sedangkan hasil tf-idf disimpan dalam file tfidf.txt. Pemrosesan Kueri Kueri yang berupa kalimat tanya dimasukkan secara manual oleh pengguna, kueri yang digunakan harus diawali dengan kata tanya dan diakhiri dengan tanda tanya. Kata tanya yang digunakan pada penelitian ini adalah SIAPA, KAPAN, DIMANA, dan BERAPA. Analisis pertanyaan yang dilakukan meliputi parsing dan tokenisasi, identifikasi tipe pertanyaan, dan pembentukan frase. Langkah pertama analisis pertanyaan yang dilakukan pada pemrosesan kueri adalah parsing terhadap kalimat tanya menggunakan tanda baca pemisah /[\s\- Selanjutnya dilakukan case folding dan tokenisasi untuk mendapatkan kata-kata penyusun kueri. Hasil tokenisasi disimpan dalam array $query. Indeks pertama pada array query[0] digunakan untuk menyimpan kata tanya dari kueri pertanyaan. Kata tanya inilah yang digunakan untuk mendapatkan kandidat jawaban yang memiliki entitas sesuai kata tanya. Tabel 4 menunjukkan daftar entitas untuk setiap tipe kata tanya. Tabel 4 Daftar pasangan kata tanya dan entitas Kata Tanya Siapa Kapan Dimana Berapa Tag Entitas NAME, ORGANIZATION DATE, TIME LOCATION NUMBER, CURRENCY Sementara itu $query[1] sampai $query[n] digunakan untuk menyimpan kata-kata selain kata tanya (keyword). Kemudian dilakukan pengecekan terhadap kemungkinan pasangan kata pada keyword sebagai sebuah frase. Jika pasangan kata tersebut ditemukan dalam kamus frase, maka pasangan kata tersebut dianggap sebagai sebuah frase. Hasil akhir dari analisis pertanyaan ini disimpan dalam variabel $kuerifrase. Misal untuk kueri Berapa harga pemesanan kursi Rafles?, dilakukan analisis pertanyaan sehingga diperoleh nilai $kuerifrase berikut : $kuerifrase = ( [0] = kursi rafles [1] = harga [2] = pemesanan ) Variabel $kuerifrase inilah yang digunakan untuk mendapatkan 10 dokumen teratas. Pembentukan frase pada kueri pertanyaan ini diharapkan dapat meningkatkan relevansi dokumen yang ditemukembalikan. Perolehan 10 dokumen teratas Dokumen yang digunakan untuk proses perolehan jawaban adalah 10 dokumen dengan bobot kesamaan cosine tertinggi. Dengan memanfaatkan nilai idf dan tf-idf dalam file idf.txt dan tfidf.txt, dapat diperoleh norm setiap kueri dan dokumen. Nilai array $kuerifrase digunakan untuk menghitung norm kueri dan norm untuk setiap dokumen. Langkah selanjutnya adalah memasangkan nilai norm kueri dengan norm setiap dokumen untuk menghasilkan nilai dot product dan kesamaan cosine. Dokumen yang diambil untuk memasuki langkah selanjutnya adalah 10 dokumen dengan nilai kesamaan 9

18 cosine tertinggi. Selanjutnya dilakukan pemilihan passages pada kamus passage yang termasuk dalam 10 dokumen di atas. Hasil pemilihan passages ini disimpan dalam variabel $passagesdoctop untuk digunakan pada tahap perolehan top passages. Perolehan Top Passages dan Ekstraksi Jawaban Passage yang disimpan variabel $passagesdoctop kemudian disaring untuk diambil passages yang memiliki TAG sesuai kata tanya kueri pertanyaan. Selanjutnya dilakukan pembobotan passages menggunakan pembobotan heuristic. Sesuai dengan tahapan yang terdapat dalam jurnal Ballesteros & Xiaoyan-Li (2007) serta penelitian Cidhy (2009) yang digunakan sebagai acuan dalam penelitian ini, pembobotan passages terdiri atas : 1. Pembobotan passages berdasarkan hasil dari proses wordmatch sesuai threshold. Hasilnya disimpan dalam variabel count_match. 2. Pembobotan passages berdasarkan urutan nilai dari arraywordquestion (katakata selain kata tanya pada kueri) dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Ord. 3. Pembobotan passages berdasarkan nilai dari arraywordquestion dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Sm. 4. Pembobotan berdasarkan hasil dari proses wordmatch sesuai threshold berbanding ukuran passage (jumlah kata dalam satu passage). Setelah diperoleh nilai dari ke-empat variabel di atas kemudian dihitung skor heuristic setiap passage. Berikut rumus yang digunakan : heuristic_score = count_match + count_match/w + Sm*0.5 + Ord*0.5. Tahap berikutnya adalah ekstraksi jawaban dari top passages yang diperoleh. Passage yang memiliki nilai heuristic_score tertinngi menjadi top passage. Kata yang menjadi kandidat jawaban adalah kata yang memiliki entitas sesuai dengan kata tanya pada kueri pertanyaan. Yang perlu diperhatikan adalah top passage dapat terdiri atas satu atau lebih passage dan setiap passage dapat memiliki satu atau lebih kandidat jawaban. Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara setiap kandidat jawaban pada setiap passage dengan masingmasing kata pada $arraywordmatch. $arraywordmatch merupakan array yang menampung kumpulan kata hasil pencocokan antara keyword dengan kata-kata pada passage. Kandidat jawaban yang memiliki jarak terpendek dianggap sebagai jawaban yang paling tepat. Contoh hasil percobaan menggunakan kueri pertanyaan Berapa harga pemesanan kursi Rafles?, diperoleh 198 passage pada 10 dokumen teratas. Setelah diambil passage yang mengandung tag <NUMBER> atau <CURRENCY> diperoleh 63 passage dari 198 passage pada 10 dokumen teratas. Top passage yang diperoleh dari 63 passage : Pada suatu saat ada seorang buyer mendatangi pengekspor di <LOCATION>Bekonang, Sukoharjo</LOCATION>, memesan kursi rafles seharga <CURRENCY>Rp 275 ribu</currency>/unit. Pada pembelian berikutnya setelah membanding-bandingkan harga buyer itu mencari pengekspor lain. Perolehan nilai untuk masing-masing jenis pembobotan yaitu 3, 0, 0, dan 0.1. Kandidat jawaban yang diperoleh hanya ada satu yaitu kata 275 ribu sehingga kata 275 ribu menjadi jawaban akhir dengan bobot jarak sebesar 3.1. Hasil Percobaan Hasil percobaan dievaluasi menggunakan 2 skema uji yaitu : 1. Membandingkan hasil penelitian yang dilakukan oleh penulis dengan hasil penelitian Cidhy (2009). Jumlah koleksi dokumen yang digunakan sebanyak 106 dokumen. Perbandingan dilakukan dengan melihat ketepatan dokumen, top passage, dan jawaban yang ditemukembalikan. 2. Menguji hasil penelitian penulis dengan melakukan tiga kali percobaan menggunakan 106, 200, dan 300 dokumen. Hasil ketiga percobaan tersebut dibandingkan dari segi ketepatan passage dan jawaban yang ditemukembalikan. 3. Membandingkan hasil penelitian yang dilakukan oleh penulis dengan hasil penelitian Cidhy (2009). Koleksi dokumen yang digunakan merupakan dokumen reading comprehension. Sebanyak 45 kueri digunakan untuk percobaan. Kueri tersebut diambil dari penelitian Cidhy (2009) dan dibuat sendiri 10

19 oleh penulis. Proses dokumentasi evaluasi kueri dicatat dalam bentuk tabel yang terdiri atas sumber dokumen, pertanyaan (kueri), jawaban, ketepatan dokumen, ketepatan jawaban, dan koreksi. Kemudian dilakukan pencocokan antara hasil pencarian yang diperoleh terhadap pasangan dokumen dan kueri pertanyaan yang seharusnya. Berdasarkan kesesuaian pasangan jawaban dan dokumen, penilaian dibedakan menjadi empat jenis yaitu : right, wrong, unsupported, dan null. Persentase evaluasi hasil percobaan yang dilakukan oleh Cidhy dan penulis dapat dilihat pada Tabel 5. Berikut pembahasan untuk masing-masing percobaan : Tabel 5 Persentase perolehan jawaban oleh Cidhy (2009) dan penulis Kata Tanya Penelitian Cidhy (2009) Penelitian Oleh Penulis Right Unsupported Wrong Null Right Unsupported Wrong Null Siapa Berapa Dimana Kapan Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA Persentase ketepatan jawaban untuk kata tanya SIAPA cenderung lebih rendah dibanding kata tanya DIMANA dan KAPAN. Hal ini diakibatkan pada penulisan teks, informasi untuk jawaban SIAPA seringkali disajikan dengan cara lebih variatif. Seperti adanya penggunaan kata ganti untuk orang, misal : dia, nya, saya, mereka, dll. Hasil penelitian yang dilakukan oleh Cidhy dan penulis, menghasilkan persentase kriteria right sebesar 75%, wrong 8.33%, dan null sebesar 16.67%. Berdasarkan 12 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Siapa yang bekerja sama dengan Unibraw untuk menangani pasca panen ikan?. Hasil penelitian Cidhy mengembalikan 10 dokumen teratas berikut : [0]=>situshijau txt [1]=>situshijau txt [2]=>gatra txt [3]=>situshijau txt [4]=>kompas txt [5]=>suarakarya txt [6]=>indosiar txt [7]=>indosiar txt [8]=>kompas txt [9]=>republika txt Hasil penelitian penulis mengembalikan 10 dokumen teratas sebagai berikut : [0]=>situshijau txt [1]=>situshijau txt [2]=>situshijau txt [3]=>gatra txt [4]=>kompas txt [5]=>suarakarya txt [6]=>indosiar txt [7]=>indosiar txt [8]=>republika txt [9]=>kompas txt Kedua penelitian menghasilkan 10 dokumen teratas yang berbeda, namun diperoleh dokumen teratas dan top passage yang sama. Jawaban yang diperoleh dari top passage adalah Lembaga Kimia Nasional. Berikut top passage yang bersumber dari dokumen situshijau txt : Akibatnya <ORGANIZATION>Indonesia </ORGANIZATION> belum mampu memenuhi kuota ekspor gaplek karena kualitasnya lebih rendah dibanding komoditas sejenis asal <LOCATION>Thailand</LOCATION>." Selain itu <ORGANIZATION>Unibraw</ORGANIZATIO N> juga menghasilkan penelitian tentang budi daya pisang dengan kultur jaringan sekaligus teknologi pengolahan menjadi pasta, tepung dan makanan ringan. "Dampaknya banyak pengusaha [di <LOCATION>Jatim</LOCATION>] berbisnis pisang tapi tidak mengerti bagaimana sistem industri berbasis komoditas itu." <NAME>Sri</NAME> menambahkan <ORGANIZATION>Unibraw</ORGANIZATIO N> juga pernah bekerjasama dengan 11

20 <ORGANIZATION>Lembaga Kimia Nasional</ORGANIZATION> dan instansi terkait menangani masalah penanganan pasca panen ikan mencakup peningkatan kualitas ikan asin dan ikan pindang skala UKM, tapi belum terlihat sentra industri hasil perikanan yang layak ditonjolkan. Daftar kueri pertanyaan dan evaluasi untuk kata tanya SIAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya BERAPA Persentase ketepatan jawaban untuk kata tanya BERAPA merupakan yang paling rendah dibanding kata tanya yang lain. Baik penelitian yang dilakukan oleh Cidhy (2009) maupun penulis, keduanya menghasilkan persentase kriteria right sebesar 41.67%, unsupported 8.33%, dan wrong 50%. Hal ini disebabkan pada penulisan teks, informasi untuk jawaban BERAPA seringkali disajikan dengan cara lebih variatif. Seperti adanya penulisan dalam bentuk rincian untuk jumlah. Hasil penelitian yang dilakukan oleh Cidhy dan penulis mengembalikan kriteria wrong untuk kueri pertanyaan Berapa luas wilayah yang ditanami tanaman padi di Kalimantan Timur?. Penelitian Cidhy (2009) mengembalikan jawaban 6 kecamatan dengan 10 dokumen teratas yang diperoleh sebagai berikut : [0]=>situshijau txt [1]=>kompas txt [2]=>kompas txt [3]=>kompas txt [4]=>indosiar txt [5]=>jurnal txt [6]=>indosiar txt [7]=>kompas txt [8]=>republika txt [9]=>bitraindonesia txt Top passage yang diperoleh dari dokumen indosiar txt, yaitu : Dari catatan <ORGANIZATION>Dinas Pertanian dan Tanaman Pangan Provinsi Jambi</ORGANIZATION>, rusaknya tanaman pertanian akibat banjir yang terjadi pada tanaman padi, cabe, kacang tanah, dan jeruk. Hal itu terjadi di <NUMBER>6 kecamatan</number> yang ada di <LOCATION>Kabupaten Kerinci</LOCATION>, seperti tanaman padi seluas <NUMBER>11,87 hektar</number> tergenang air, dan sebanyak <NUMBER>148 hektar</number> mengalami puso. Jawaban yang diperoleh pada penelitian kali ini yaitu 122 hektar. Jawaban ini diperoleh dari 10 dokumen teratas sebagai berikut : [0]=>indosiar txt [1]=>kompas txt [2]=>indosiar txt [3]=>mediaindonesia txt [4]=>suaramerdeka txt [5]=>kompas txt [6]=>suarapembaruan txt [7]=>bitraindonesia txt [8]=>pikiranrakyat txt [9]=>jurnal txt Berikut top passage yang diperoleh dari dokumen mediaindonesia txt : NUSANTARA SAMPIT--MIOL] : Tanaman padi seluas <NUMBER>122 hektar</number> pada tiga kecamatan di kabupaten <LOCATION>Kotawaringin Timur (Kotim)</LOCATION> <ORGANIZATION>Kalimantan Tengah</ORGANIZATION> mengalami fuso akibat diserang hama belalang kembara dalam sebulan terakhir. Kasubdin produksi Tanaman Pangan <ORGANIZATION>Dinas Pertanian Kotim</ORGANIZATION> <NAME>Ir.Sefmita</NAME> di <LOCATION>Sampit</LOCATION>, <DATE>Kamis</DATE> mengatakan, serangan hama belalang kembara yang terjadi sejak awal <DATE>Januari 2004</DATE> menyerang lahan pertanian di <LOCATION>Kecamatan Parenggean dan Kecamatan Mentaya Hulu</LOCATION> sehingga mengakibatkan <NUMBER>122 hektar</number> tanaman padi mengalami fuso. Setelah dievaluasi, 10 dokumen teratas yang dihasilkan pada penelitian penulis lebih relevan dibanding penelitian Cidhy (2009). Passage yang dihasilkan pada kedua penelitian belum tepat sehingga jawaban yang dihasilkan salah. Daftar kueri pertanyaan dan 12

21 evaluasi untuk kata tanya BERAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya DIMANA Persentase kriteria right 90.91% dan wrong 9.09% dihasilkan pada penelitian penulis, sedangkan pada penelitian Cidhy (2009) diperoleh 81.82% kriteria right dan 18.18% wrong. Kriteria wrong diperoleh untuk kueri pertanyaan Dimana terjadi penurunan produksi tanaman tembakau?. Hasil penelitian Cidhy (2009) mengembalikan jawaban Indonesia, jawaban ini diperoleh setelah sistem mengembalikan 10 dokumen teratas berikut : [0]=>republika txt [1]=>pikiranrakyat txt [2]=>suarapembaruan txt [3]=>republika txt [4]=>indosiar txt [5]=>situshijau txt [6]=>situshijau txt [7]=>suaramerdeka txt [8]=>situshijau txt [9]=>indobic txt. Berikut top passage yang diperoleh dari 10 dokumen di atas : Mereka juga bisa menanam dan memetik tanaman sayuran serta mempelajari tanaman sayuran itu. Tanaman Asli Selain mengenal jenis-jenis tanaman sayuran yang saat ini sudah banyak beredar di pasar, pengunjung juga bisa menyaksikan jenis tanaman asli <LOCATION>Indonesia</LOCATION> (indigenous vegetabels) yang ternyata mempunyai khasiat khusus untuk kesehatan manusia. Top passage di atas diperoleh dari dokumen situshijau txt. Berdasarkan hasil top passage, diperoleh satu kandidat jawaban yaitu kata Indonesia. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan penulis menghasilkan kriteria right yaitu Nanggroe Aceh Darussalam. Jawaban ini diperoleh setelah sistem mengembalikan 10 dokumen teratas berikut : [0]=>republika txt [1]=>pikiranrakyat txt [2]=>republika txt [3]=>suarapembaruan txt [4]=>suaramerdeka txt [5]=>suarakarya txt [6]=>mediaindonesia txt [7]=>republika txt [8]=>situshijau txt [9]=>gatra txt Selanjutnya dari 10 dokumen tersebut diperoleh top passage sebagai berikut : Penurunan justeru terjadi pada komoditi teh. Selain itu, penurunan lebih jelas ada pada produksi tembakau di daerah <LOCATION>Nanggro Aceh Darussalam</LOCATION> (<LOCATION>NAD</LOCATION>) dan <LOCATION>Sumatera Utara</LOCATION>. Entitas Nanggro Aceh Darussalam memiliki jarak yang lebih dekat dibanding entitas NAD dan Sumatera Utara, sehingga Nanggro Aceh Darussalam menjadi jawaban akhir. Sumber jawaban akhir diperoleh dari dokumen republika txt. Jawaban yang diperoleh pada penelitian penulis lebih tepat dibanding penelitian Cidhy (2009). Hal ini disebabkan oleh top passage dan 10 dokumen teratas yang diperoleh pada penelitian kali ini lebih relevan dibanding penelitian Cidhy (2009). Daftar kueri pertanyaan dan evaluasi untuk kata tanya DIMANA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya KAPAN Persentase ketepatan jawaban untuk kata tanya KAPAN merupakan yang paling tinggi dibanding kata tanya yang lain. Baik penelitian Cidhy (2009) maupun yang dilakukan penulis, menghasilkan persentase kriteria right sebesar 100% untuk 10 kueri pertanyaan yang diujikan. Semua top passage yang dihasilkan untuk setiap kueri pada kedua penelitian adalah sama. Perbedaan terjadi pada 10 dokumen yang ditemukembalikan untuk setiap kueri. Misal untuk kueri Kapan diadakan semiloka Pengembangan Kawasan Pantai sebagai alternative akselerator pembangunan daerah?, pada penelitian Cidhy (2009) diperoleh 10 dokumen teratas sebagai berikut : [0]=>suaramerdeka txt [1]=>indosiar txt 13

22 [2]=>republika txt [3]=>republika txt [4]=>pembaruan txt [5]=>kompas txt [6]=>kompas txt [7]=>kompas txt [8]=>gatra txt [9]=>republika txt Hasil penelitian yang dilakukan oleh penulis, diperoleh 10 dokumen teratas yang lebih relevan dibanding penelitian Cidhy (2009). Berikut 10 dokumen yang dihasilkan : [0]=>suaramerdeka txt [1]=>indosiar txt [2]=>republika txt [3]=>kompas txt [4]=>pembaruan txt [5]=>republika txt [6]=>suaramerdeka txt [7]=>kompas txt [8]=>republika txt [9]=>jurnal txt Kedua penelitian menghasilkan top passage yang sama sehingga diperoleh jawaban yang sama. Daftar kueri pertanyaan dan evaluasi untuk kata tanya KAPAN dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Menggunakan 106, 200, dan 300 Dokumen Percobaan dilakukan untuk membandingkan ketepatan passage dan jawaban yang ditemukembalikan dengan menggunakan jumlah koleksi dokumen yang berbeda. Percobaan 1 dilakukan dengan menggunakan 106 dokumen, percobaan 2 menggunakan 200 dokumen, dan percobaan 3 menggunakan 300 dokumen. Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Tabel 6 dan Gambar 11. Tabel 6 Persentase perolehan jawaban menggunakan jumlah dokumen yang berbeda Jumlah Dokumen Right Unsupported Wrong Null Gambar 11 Grafik hasil percobaan menggunakan jumlah dokumen yang berbeda. Berdasarkan Gambar 11 dapat dilihat bahwa persentase kriteria right yang dihasilkan menurun dengan menaiknya jumlah koleksi dokumen yang digunakan. Persentase untuk kriteria right pada percobaan 1 sebesar 75.6%, sedangkan pada percobaan 2 menurun menjadi 73.33% dan percobaan 3 menurun menjadi 71.11%. Penurunan ini terjadi karena pada percobaan 2 dan 3, diperoleh jawaban yang salah untuk pertanyaan Kapan Bungaran Saragih menyatakan kelangkaan pupuk diakibatkan adanya penyebaran yang terjadi secara sporadic?. Meskipun dokumen teratas yang ditemukembalikan sudah sama yaitu indosiar txt, namun ketiga percobaan mengembalikan top passage yang berbeda. Setelah diamati ternyata passage yang diperoleh pada percobaan 1 sudah tepat sehingga jawaban yang dihasilkan benar (right). Sedangkan pada percobaan 2 dan 3, passage yang diperoleh tidak tepat sehingga jawaban yang dihasilkan salah (wrong). Kriteria unsupported hanya diperoleh pada percobaan 1, untuk pertanyaan Berapa harga beras dalam negri antara bulan Juni-Juli?. Meskipun jawaban dan passage yang dihasilkan sudah tepat yaitu Rp4.000, namun dokumen kompas txt yang ditemukembalikan masih belum tepat. Sedangkan pada percobaan 2 dan 3, dokumen yang ditemukembalikan sama dengan percobaan 1 tetapi top passage belum tepat sehingga diperoleh tipe jawaban wrong untuk pertanyaan ini. Persentase kriteria wrong pada percobaan 1 sebesar %, namun pada percobaan 2 dan 3 meningkat menjadi 22.2 %. Peningkatan ini terjadi karena pada percobaan 2 dan 3, 14

23 diperoleh jawaban yang salah untuk pertanyaan Berapa harga pemesanan kursi Rafles?. Meskipun ketiga percobaan menemukembalikan dokumen suaramerdeka txt sebagai dokumen teratas, namun top passage yang diperoleh pada percobaan 2 dan 3 belum tepat sehingga jawaban yang dihasilkan salah. Sedangkan top passage yang diperoleh pada percobaan 1 sudah tepat sehingga diperoleh jawaban yang benar. Setelah diamati untuk pertanyaan Berapa usia panen pertama kali lengkeng?, ketiga percobaan menemukembalikan dokumen teratas yang sama yaitu trubus txt, namun top passage yang dihasilkan berbeda-beda. Ketiga top passage yang dihasilkan masih belum tepat sehingga jawaban yang dihasilkan masih salah (wrong). Persentase kriteria null pada percobaan 1 dan 2 sebesar 4.44 %, sedangkan pada percobaan 3 meningkat menjadi 6.67 %. Kriteria null atau tidak mengembalikan jawaban apapun dikarenakan tidak ditemukan entitas yang sesuai pada top passage. Contoh untuk pertanyaan Siapa Bungaran Saragih?, percobaan 1, 2, dan 3 tidak mengembalikan jawaban. Hal ini terjadi karena top passage yang dikembalikan oleh ketiga percobaan adalah sebagai berikut : Menurut <NAME>Bungaran Saragih</NAME>, hal tersebut wajar dengan keadaan setiap penyalur pupuk, dimana mereka memerlukan waktu dalam proses pengepakan kembali. Mengenai kelangkaan pupuk di <LOCATION>Cirebon</LOCATION> yang hanya terjadi di beberapa kecamatan, <NAME>Bungaran Saragih</NAME> menegaskan bahwa produsen pupuk setempat telah menutupi kelangkaan tersebut dengan pengiriman pupuk dari luar wilayah <LOCATION>Cirebon</LOCATION>. Entitas yang sesuai untuk kueri pertanyaan sebelumnya adalah NAME dan ORGANIZATION. Sedangkan pada top passage di atas hanya terdapat entitas NAME. Namun karena kata yang diapit tag NAME merupakan kata pada keyword, maka kata tersebut tidak dianggap sebagai kandidat jawaban. Sehingga tidak ditemukan jawaban dari top passage tersebut. Hasil ketiga percobaan menunjukkan ketepatan top passage yang diperoleh sangat mempengaruhi jawaban yang dihasilkan. Oleh karena itu, semakin baik metode untuk melakukan pembobotan passage maka semakin tepat jawaban yang diperoleh. Hasil lengkap percobaan ini dapat dilihat pada Lampiran 8, 9, 10, dan Perbandingan Hasil Percobaan Menggunakan Dokumen Reading Comprehension Dokumen yang digunakan pada percobaan merupakan dokumen reading comprehension, dokumen ini memiliki struktur bahasa Indonesia yang baku. Jumlah dokumen yang digunakan sebanyak 9 buah dan diambil dari depdiknas serta situs Sepuluh kueri diambil dari dokumen ini untuk diuji ke dalam penelitian Cidhy (2009) dan penulis. Kueri yang digunakan memiliki tipe pertanyaan SIAPA, DIMANA, BERAPA, dan KAPAN. Baik penelitian Cidhy (2009) maupun penulis, menghasilkan persentase kriteria right sebesar 100 %. Persentase yang tinggi ini menunjukkan bahwa kedua penelitian dapat mengembalikan jawaban yang tepat untuk dokumen dan kueri yang formatnya sudah baku. Hasil lengkap percobaan ini dapat dilihat pada Lampiran 12. KESIMPULAN DAN SARAN Kesimpulan Hasil penelitian menunjukkan : 1. Pembentukan frase pada tahap analisis pertanyaan dapat meningkatkan relevansi dokumen yang ditemukembalikan. 2. Hasil pembentukan frase menggunakan konsep peluang masih kurang bagus karena frase dibatasi pada dua kata saja. 3. Semakin tepat top passage yang diperoleh, maka semakin tepat jawaban yang dikembalikan oleh sistem QA. Oleh karena itu meskipun diperoleh dokumen yang relevan tetapi metode pembobotan passage belum tepat, maka jawaban yang diperoleh juga belum tepat. 4. Sistem yang dibangun sudah benar untuk memproses dokumen reading comprehension. Saran Perlu dilakukan perbaikan dalam formula untuk mendapatkan kandidat frase, misal menggunakan kamus yang diambil dari KBBI sehingga dapat meningkatkan relevansi 15

24 dokumen yang ditemukembalikan. Selain itu, permasalahan utama pada QAS adalah bagaimana mendapatkan top passage yang sesuai. Oleh karena itu, perlu dilakukan perbaikan metode untuk pembobotan passage pada penelitian-penelitian selanjutnya. DAFTAR PUSTAKA Anggraeni M Implementasi Question Answering System dengan Metode Rule- Based pada Terjemahan l-qur an Surat Albaqarah [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Ballesteros, L. A dan Xiaoyan-Li Heuristic and Syntactic for Crosslanguage Question Answering. Di dalam: Proceedings of NTCIR-6 Workshop Meeting. Tokyo, Mei hlm Cidhy D A T K Implementasi Question Answering System dengan Pembobotan Heuristic [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Citraningputra P Entitas Tagging untuk Dokumen Berbahasa Indonesia Menggunakan Metode Berbasis Aturan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. [Depdiknas] Departemen Pendidikan Nasional, Pusat Bahasa Tata Bahasa Baku Bahasa Indonesia. Ed ke-3. Jakarta: Balai Pustaka. Ikhsani N Implementasi Question Answering System dengan Metode Rule- Based untuk Temu Kembali Informasi Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning C D, Raghavan P, Schütze H Introduction to Information Retrieval. Cambridge: Cambridge University Press. Sianturi R Implementasi Question Answering System dengan Metode Rule- Based pada Banyak Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Schlaefer N, P. Gieselmann, and G. Sautter The Ephyra QA System at TREC. Strzalkowski T, Harabagiu S Advances in Open Domain Question Answering. Dordrecht: Springer. van Zaanen M Multi-lingual Question Answering Using OpenEphyra at QA@CLEF. 16

25 LAMPIRAN 17

26 Lampiran 1 Antarmuka implementasi 18

2. Ketepatan untuk setiap jawaban.

2. Ketepatan untuk setiap jawaban. dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PEMILIHAN DEPARTEMEN FAKULTAS

PEMILIHAN DEPARTEMEN FAKULTAS PEMILIHAN PASSAGES DALAM QUESTION ANSWEING SYSTEM UNTUK DOKUMEN BEBAHASA INDONESIA SUCI AMELIA SANU DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIANN BOGO BOGO 2011

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query 5 Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Sistem Operasi Windows 7. Sphinx Search. XAMPP versi 1.7.3. Named Entity Tagger bahasa Indonesia. Perangkat keras yang digunakan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI

QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI QUESTION ANSWEING SYSTEM MENGGUNAKAN N-GAM TEM WEIGHT MODEL DEBBY PUSPA BAHI DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO BOGO 2013 QUESTION ANSWEING SYSTEM

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

Gambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan.

Gambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. 6 pada akhir, seperti newsipb11111-2.txt yang berarti data berasal dari berita IPB dan diterbitkan pada tanggal 11 bulan Januari tahun 211 urutan ke-2. Dokumen memiliki ukuran terkecil 1 KB dan terbesar

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

(bytes) Ukuran rata-rata dokumen Ukuran dokumen keseluruhan Ukuran dokumen terbesar Ukuran dokumen terkecil 412

(bytes) Ukuran rata-rata dokumen Ukuran dokumen keseluruhan Ukuran dokumen terbesar Ukuran dokumen terkecil 412 Pengujian dan Evaluasi Sistem Pengujian dilakukan sebanyak 60 kali menggunakan dua jenis kueri (kueri biasa dan kueri khusus) dan dua jenis kesalahan (kesalahan konteks dan kesalahan Damerau). Evaluasi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN

IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB 3 ANALISA DAN PERANCANGAN

BAB 3 ANALISA DAN PERANCANGAN BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak

Lebih terperinci

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL i SKRIPSI S U L H A N 041401025 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

SKRIPSI RANTI RAMADHIANA

SKRIPSI RANTI RAMADHIANA EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI Pendahuluan JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 PENDAHULUAN Pendahuluan Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI

IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI 041401058 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN S-1 ILMU KOMPUTER FAKULTAS

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA. M Karibun H S

PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA. M Karibun H S PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA Oleh: M Karibun H S G64101053 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB 3 PERANCANGAN SISTEM

BAB 3 PERANCANGAN SISTEM BAB 3 PERANCANGAN SISTEM Bab ini menguraikan perancangan sistem yang dikembangkan meliputi arsitektur sistem, perancangan pembuat unit pengindeksan dan perancangan antarmuka. 3.1 Arsitektur Sistem Gambar

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

Sistem Temu-Kembali Informasi Perhitungan Kemiripan Sistem Temu-Kembali Informasi Perhitungan Kemiripan (Pembobotan Term dan Penskoran dalam Model Ruang Vektor, Penskoran dalam Sistem Pencarian Lengkap) Husni Program Studi Teknik Informatika Universitas

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB 1 PENDAHULUAN. Universitas Sumatera Utara 1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

KINERJA PROTOKOL ROUTING DALAM KOMUNIKASI REAL-TIME PADA JARINGAN BERKABEL DAMAS WIDYATMOKO

KINERJA PROTOKOL ROUTING DALAM KOMUNIKASI REAL-TIME PADA JARINGAN BERKABEL DAMAS WIDYATMOKO KINERJA PROTOKOL ROUTING DALAM KOMUNIKASI REAL-TIME PADA JARINGAN BERKABEL DAMAS WIDYATMOKO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 KINERJA

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

METODE PENELITIAN. Gambar 2 Metodologi penelitian.

METODE PENELITIAN. Gambar 2 Metodologi penelitian. 4 penelitian i, kata diasosiasikan dengan anotasi citra (kata) dan dokumen diasosiasikan dengan citra. Matriks kata-citra tersebut didekomposisi meadi : A USV T dengan A adalah matriks kata-citra, matriks

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci