PEMBUATAN RESULT SNIPPET PADA MESIN PENCARI BERBAHASA INDONESIA DENGAN MENGGUNAKAN PSEUDO-RELEVANCE FEEDBACK MUHAMMAD GINANJAR RAMADHAN

Ukuran: px
Mulai penontonan dengan halaman:

Download "PEMBUATAN RESULT SNIPPET PADA MESIN PENCARI BERBAHASA INDONESIA DENGAN MENGGUNAKAN PSEUDO-RELEVANCE FEEDBACK MUHAMMAD GINANJAR RAMADHAN"

Transkripsi

1 PEMBUATAN RESULT SNIPPET PADA MESIN PENCARI BERBAHASA INDONESIA DENGAN MENGGUNAKAN PSEUDO-RELEVANCE FEEDBACK MUHAMMAD GINANJAR RAMADHAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Pembuatan Result Snippet pada Mesin Pencari Berbahasa Indonesia dengan Menggunakan Pseudo- Relevance Feedback adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2013 Muhammad Ginanjar Ramadhan NIM G

4 ABSTRAK MUHAMMAD GINANJAR RAMADHAN. Pembuatan Result Snippet pada Mesin Pencari Berbahasa Indonesia dengan Menggunakan Pseudo-Relevance Feedback. Dibimbing oleh SONY HARTONO WIJAYA. Snippet atau penggalan dokumen merupakan kutipan ringkas dari sebuah dokumen pada hasil pencarian yang menjelaskan keberadaan kata kunci yang dimasukkan oleh pengguna pada mesin pencari. Snippet yang dihasilkan oleh sebuah mesin pencari harus dapat memberikan informasi yang cukup agar pengguna dapat memutuskan apakah sebuah dokumen relevan atau tidak dengan kebutuhan informasi yang dimilikinya. Penelitian ini mengimplementasikan teknik pseudo-relevance feedback untuk pemilihan kalimat yang akan ditampilkan sebagai sebuah snippet serta menguji akurasi dari snippet yang dihasilkan oleh sistem. Penerapan pseudo-relevance feedback dalam pembuatan snippet ini memberikan akurasi 90.71% dari dokumen-dokumen yang dianggap relevan. Kata kunci: hasil pencarian, kebutuhan informasi, mesin pencari, relevansi, snippet ABSTRACT MUHAMMAD GINANJAR RAMADHAN. Result Snippet Generation on Bahasa Indonesia Search Engine with Pseudo-Relevance Feedback. Supervised by SONY HARTONO WIJAYA. A search result snippet is a quick excerpt from a document retrieved by a retrieval system (search engine) that explains the existence of the keywords entered by a user. Snippets generated by a search engine must be able to provide enough information so that a user can make decision on whether or not a document is relevant based on his/her information needs. This study implements pseudo-relevance feedback techniques for selecting the sentences to be displayed as a snippet and evaluates the accuracy of the snippet generated by the system. Application of pseudo-relevance feedback in this study resulted in an accuracy of 90.71% from the documents that are considered relevant. Keywords: information need, relevance, search engine, search result, snippet

5 PEMBUATAN RESULT SNIPPET PADA MESIN PENCARI BERBAHASA INDONESIA DENGAN MENGGUNAKAN PSEUDO-RELEVANCE FEEDBACK MUHAMMAD GINANJAR RAMADHAN Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6 Penguji: 1 Ir Julio Adisantoso, MKom 2 Aziz Kustiyo, SSi MKom

7 Judul Skripsi : Pembuatan Result Snippet pada Mesin Pencari Berbahasa Indonesia dengan Menggunakan Pseudo-Relevance Feedback Nama : Muhammad Ginanjar Ramadhan NIM : G Disetujui oleh Sony Hartono Wijaya, SKom MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah metode pemilihan kalimat snippet pada sistem pencarian berbasis web, dengan judul Pembuatan Result Snippet pada Mesin Pencari Berbahasa Indonesia dengan Menggunakan Pseudo-Relevance Feedback. Terima kasih penulis ucapkan kepada Bapak Sony Hartono Wijaya selaku pembimbing dan Bapak Agus Buono selaku pimpinan Departemen Ilmu Komputer yang telah membantu selama penyelesaian dan penulisan tugas akhir. Ungkapan terima kasih juga penulis sampaikan kepada orang tua tercinta, Bapak Ahmad Sulaeman dan Ibu Leni Hasnawati, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Tidak lupa pula, terima kasih penulis untuk teman-teman atas bantuan dan semangatnya, khususnya untuk Sapariansyah, Rahmad Syaifullah Gusman, Galih Kenang Avianto, Abdullah Adzkiy Robbani, Rudi Hartomo, Nadiul Haq, dan Muhammad Muhajir Amini yang telah bersedia menjadi penguji sistem yang telah dibuat. Juga kepada Ozi Priawadi, Yuzar Marsyah, Andre Fadila Mulyanto, dan Sapariansyah, teman-teman satu bimbingan. Terakhir, penulis ucapkan terima kasih kepada Bapak Julio Adisantoso dan Bapak Aziz Kustiyo selaku penguji serta seluruh staf Departemen Ilmu Komputer yang telah melancarkan perjalanan penulis dalam menempuh studi sampai akhir. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan dan kelemahan dalam berbagai sisi yang penyebabnya tiada lain adalah keterbatasan kemampuan penulis. Penulis mengharapkan adanya saran ataupun kritik yang bersifat membangun dari pembaca demi kesempurnaan tulisan ini. Semoga karya ilmiah ini bermanfaat. Bogor, Agustus 2013 Muhammad Ginanjar Ramadhan

9 DAFTAR ISI DAFTAR TABEL vii DAFTAR GAMBAR vii DAFTAR LAMPIRAN vii PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 3 Pembobotan Kata Benda dan Pembuatan Kueri Baru 4 Pemeringkatan Kalimat dan Pembuatan Snippet 5 Evaluasi Kualitas Snippet 6 HASIL DAN PEMBAHASAN 6 Pembuatan dan Konfigurasi Mesin Pencari 6 Akuisisi Korpus dan Indeksasi 7 Penerapan POS Tagger pada Dokumen 8 Ekstraksi Kalimat pada Dokumen 9 Ekstraksi Kata Benda pada Dokumen 10 Pemisahan Kalimat Relevan dan Non-Relevan 11 Ekstraksi Kata Benda dari Kalimat Relevan 11 Pembobotan Kata Benda 11 Pembuatan Kueri Baru 13 Perhitungan Salience Score Kalimat 13 Visualisasi Snippet 14 Evaluasi Snippet 15 SIMPULAN DAN SARAN 17 Simpulan 17 Saran 17 DAFTAR PUSTAKA 18

10 LAMPIRAN 19 RIWAYAT HIDUP 34

11 DAFTAR TABEL 1 Hasil pembobotan untuk kata benda t yang diurutkan berdasarkan TSV 12 2 Hasil pembobotan untuk kata benda t yang diurutkan berdasarkan n 12 3 Hasil pemeringkatan kalimat yang diurutkan berdasarkan RWScore(S i ) 13 4 Hasil pemeringkatan kalimat yang diurutkan berdasarkan score(s i ) 14 DAFTAR GAMBAR 1 Bagan alur pembuatan sistem 3 2 Konfigurasi sumber data pada Sphinx 6 3 Konfigurasi SphinxClient 7 4 Definisi bagian dokumen yang diindeks oleh Sphinx 7 5 Penerapan POS tagger pada judul dokumen 8 6 Penerapan POS tagger pada isi dokumen 8 7 Kesalahan dalam pemberian tag 9 8 Kegagalan dalam pemisahan kalimat 9 9 Hasil ekstraksi kata benda pada korpus Kalimat relevan untuk kueri 'tanaman obat' Kata benda dari kalimat-kalimat relevan Visualisasi snippet dengan kata kueri 'tanaman obat' berada dalam satu kalimat Visualisasi snippet dengan kata kueri 'tanaman obat' berada dalam kalimat terpisah Pengaruh nilai k terhadap akurasi snippet Pengaruh nilai α terhadap akurasi snippet 17 DAFTAR LAMPIRAN 1 Konfigurasi mesin pencari Sphinx 20 2 Contoh dokumen XML dalam koleksi pengujian 22 3 Tagset pada IPOSTagger v1.1 (Wicaksono dan Purwarianti 2010) 24 4 Contoh hasil ekstraksi kalimat pada korpus 25 5 Contoh hasil ekstraksi kata benda pada korpus 27 6 Contoh hasil pembobotan kata benda (TSV) 28 7 Contoh hasil pemeringkatan kalimat 30 8 Contoh hasil pengujian snippet 30 kueri untuk nilai α = 0.4 dan k = Pengaruh nilai α dan k terhadap akurasi snippet (dalam persen) Tampilan antarmuka aplikasi 33

12

13 PENDAHULUAN Latar Belakang Penggalan isi dokumen, atau snippet, merupakan fitur penting yang harus ada pada sebuah mesin pencari, khususnya yang berhubungan dengan pencarian dokumen, agar proses pencarian menjadi lebih efektif dan lebih efisien. Snippet merupakan kutipan ringkas pada hasil pencarian yang menunjukkan keberadaan kueri pada sebuah dokumen. Snippet bersifat ringkas dan informatif dan pada umumnya terletak di bawah setiap judul dokumen pada halaman hasil pencarian. Keberadaan snippet pada hasil pencarian membantu pengguna dalam memutuskan relevansi dokumen dengan kebutuhan informasinya tanpa harus membuka dan membacanya terlebih dahulu. Snippet merupakan salah satu bentuk implementasi peringkasan teks. Ringkasan dapat berupa generic summary, yang memberikan gambaran umum isi sebuah dokumen, atau query-relevant summary, yang menerangkan isi yang paling berhubungan dengan kueri pencarian (Goldstein et al. 1999). Snippet merupakan ringkasan bias kueri (query-biased summary) pada sebuah mesin pencari yang menunjukkan kata kueri mana saja yang muncul dalam sebuah dokumen beserta kata-kata di sekitar kata kueri tersebut (McDonald dan Chen 2006). Karena snippet hanya mengambil potongan-potongan kalimat yang kemudian digabungkan tanpa memperhatikan aturan semantik, maka snippet termasuk ringkasan yang bersifat ekstraktif. Kalimat-kalimat yang dipilih untuk dijadikan snippet berdasarkan ada atau tidaknya kata kueri pada kalimat. Snippet selalu diupayakan agar tetap ringkas namun memiliki kualitas informasi yang baik. Hal ini agar perhatian pengguna tidak terganggu dan keputusan terhadap relevansi dokumen dapat diberikan dengan cepat. Karena snippet menempati ruang yang sangat terbatas, reduksi informasi menjadi semakin besar seiring dokumen yang semakin besar pula. Oleh karena itu, pemilihan kalimat snippet serta visualisasinya perlu dipertimbangkan dengan baik agar snippet yang dihasilkan tetap informatif. Upaya untuk memilih kalimat yang terbaik diantaranya melalui pembuatan kueri baru dengan cara mengekspansi kueri awal. Pseudo-relevance feedback merupakan salah satu fitur dalam sistem temu kembali informasi (retrieval systems) yang berupaya untuk memperbaiki kueri awal dan memprosesnya tanpa memerlukan intervensi pengguna. Teknik ini dapat diterapkan pada pemeringkatan dokumen, kalimat, maupun gambar. Pseudorelevance feedback bekerja dengan mengambil beberapa hasil dari pemrosesan kueri awal dan memanfaatkan informasi yang terdapat pada hasil tersebut untuk membuat kueri baru. Dengan diprosesnya kueri baru tersebut, diharapkan hasilhasil yang menempati peringkat teratas merupakan hasil yang paling relevan dengan kebutuhan informasi pengguna. Pada peringkasan dokumen, pseudorelevance feedback diterapkan dalam pemeringkatan dan pemilihan kalimat ringkasan. Goldstein et al. (1999) mengevaluasi keuntungan dari beberapa bentuk ekspansi kueri dalam peringkasan teks dengan membuat sebuah kueri baru dengan menambahkan: kalimat dengan peringkat teratas dari sebuah dokumen (pseudo-

14 2 relevance feedback, PRF), kalimat judul, dan kalimat pertama dari dokumen. Penelitian tersebut diimplementasikan ke dalam sebuah web snippet oleh Ko et al. (2008). Hasil yang diperoleh mampu meningkatkan kualitas snippet yang dihasilkan oleh mesin pencari Google dan Naver dengan akurasi paling besar 68.75% (Ko et al. 2008). Penelitian ini berusaha untuk mengimplementasikan pseudo-relevance feedback melalui teknik-teknik yang digagas oleh penelitian Ko et al. (2008) ke dalam sebuah mesin pencari dengan tujuan mengevaluasi kembali sejauh mana metode tersebut dapat memberikan kualitas snippet yang baik, khususnya untuk dokumen-dokumen berbahasa Indonesia. Perumusan Masalah Rumusan masalah yang digunakan dalam penelitian ini adalah: 1 Bagaimana ukuran kualitas dari sebuah snippet? 2 Sejauh mana pseudo-relevance feedback mampu meningkatkan akurasi dari snippet yang dibuat? 3 Apakah sistem penghasil snippet yang dibangun dapat memberikan akurasi yang lebih baik untuk dokumen berbahasa Indonesia? 4 Hal apa saja yang dapat mempengaruhi pemilihan kalimat snippet? Tujuan Penelitian Tujuan dari penelitian ini adalah membangun dan mengevaluasi sistem penghasil snippet yang diintegrasikan ke dalam sebuah mesin pencari berbasis web dengan menerapkan pseudo-relevance feedback. Manfaat Penelitian Penelitian ini diharapkan mampu: 1 Memudahkan pengguna dalam menilai dokumen secara intuitif. 2 Memudahkan pengguna dalam mengambil keputusan relevansi terhadap dokumen hasil pencarian. 3 Meningkatkan efisiensi dan efektivitas dalam melakukan proses pencarian. Ruang Lingkup Penelitian Batasan-batasan dalam penelitian ini adalah: 1 Menggunakan korpus berbahasa Indonesia dengan tema 'pertanian'. 2 Menggunakan IPOSTagger v1.1 berbasis JAVA khusus untuk dokumen berbahasa Indonesia. 3 Menggunakan sphinx id64-release (r3759) dan PHP Fokus penelitian pada sistem penghasil snippet dan bukan pada mesin pencari maupun tampilan antarmuka.

15 3 METODE Penelitian mengenai pseudo-relevance feedback bagi sistem penghasil snippet diawali dengan pembuatan dan konfigurasi mesin pencari yang kemudian diikuti oleh pengindeksan korpus. POS tagger lalu diterapkan secara terpisah pada korpus untuk memecah dokumen menjadi kalimat-kalimat tunggal dan untuk mengekstraksi kata benda dari setiap kalimat tersebut. Terdapat tiga korpus yang digunakan dalam pemrosesan utama, yaitu korpus awal/asli dengan dokumen yang telah diindeks, korpus kalimat, dan korpus kata benda. Ketiga korpus tersebut dipanggil pada saat kueri dijalankan dan proses pencarian berlangsung. Bagan alur pembuatan sistem dapat dilihat pada Gambar 1. Pembuatan dan konfigurasi mesin pencari Akuisisi dan pengindeksan korpus Penerapan POS tagger pada korpus Ekstraksi kalimat pada korpus Ekstraksi kata benda pada korpus Pembuatan snippet Evaluasi snippet Input kueri Dokumen hasil pencarian Pembuatan snippet (pseudo-relevance feedback) Pemisahan kalimat relevan dan non-relevan Ekstraksi kata benda kalimat relevan Perhitungan bobot TSV kata benda Pembuatan kueri baru (EQT) Pembuatan tampilan antarmuka Perhitungan salience score kalimat Visualisasi snippet Gambar 1 Bagan alur pembuatan sistem

16 4 Mesin pencari menerima input kueri dari pengguna lalu memprosesnya dan mengeluarkan dokumen-dokumen hasil pencarian. Setiap halaman dari hasil pencarian terdiri atas maksimum sepuluh dokumen. Snippet dibuat untuk setiap dokumen pada halaman hasil pencarian yang aktif dan dibuat setiap kali pengguna berganti halaman. Ide utama dari pseudo-relevance feedback adalah mengambil sejumlah hasil yang diperoleh dari kueri awal dan memanfaatkan informasi yang terdapat pada hasil tersebut untuk membuat kueri baru. Untuk menerapkan pseudo-relevance feedback ke dalam pembuatan snippet, kalimat-kalimat yang relevan dengan kueri awal harus dapat diekstraksi secara otomatis. Untuk setiap dokumen hasil pencarian, kalimat-kalimat dipisah antara kalimat relevan dan kalimat non-relevan berdasarkan ada atau tidaknya kata kueri awal pada kalimat. Kata benda dari semua kalimat relevan dalam dokumen lalu diekstraksi dan diterapkan fungsi pembobotan. Diantara kata benda yang diberi bobot termasuk pula kata kueri awal. Kueri awal lalu diekspansi dengan mengambil sejumlah k kata dengan bobot tertinggi. Kata-kata yang digunakan untuk mengekspansi kueri awal disebut expanded query term (EQT). Fungsi pemeringkatan diterapkan pada semua kalimat dalam dokumen untuk menentukan kalimat yang dianggap paling penting untuk dijadikan snippet. Peringkat kalimat ditentukan berdasarkan posisi kalimat dalam dokumen dan nilai relevansi kalimat. Nilai kepentingan kalimat yang didapat dari hasil pemeringkatan dikalikan dengan bobot bernilai 1 untuk kalimat relevan dan bobot bernilai 0 untuk kalimat non-relevan. Bobot tersebut digunakan untuk mengeliminasi kalimat-kalimat non-relevan karena bukan kalimat yang ingin dijadikan snippet. Sejumlah m kalimat dengan peringkat teratas diambil, disesuaikan panjangnya, dan digabungkan menjadi sebuah snippet yang ditampilkan di bawah judul dokumen pada halaman hasil pencarian. Terakhir, evaluasi dilakukan dengan mengukur tingkat akurasi snippet yang dihasilkan oleh sistem. Pembobotan Kata Benda dan Pembuatan Kueri Baru Semua kata benda diekstraksi dari setiap kalimat relevan dan dijadikan kandidat untuk pembuatan kueri baru. Setiap kata benda diberikan bobot relevansi yang disebut term selection value (TSV) menggunakan Persamaan 1 dengan melihat sebaran kata tersebut pada kalimat relevan dan kalimat non-relevan (Robertson dan Jones 1976). Sejumlah k kata benda dengan bobot tertinggi lalu diambil sebagai expanded query term (EQT) yang bobotnya digunakan dalam pemeringkatan dan pemilihan kalimat snippet. w t = t = l g t t = l g t 0. s t 0. t t t 0. s t 0. (1) dengan w t : bobot relevansi kata t, p t : peluang kata t ada pada kalimat relevan,

17 5 q t : peluang kata t ada pada kalimat non-relevan, R : jumlah kalimat relevan, r t : jumlah kalimat relevan yang mengandung kata t, S : jumlah kalimat non-relevan, s t : jumlah kalimat non-relevan yang mengandung kata t. Pemeringkatan Kalimat dan Pembuatan Snippet TSV dari setiap kata pada kueri baru digunakan sebagai pembobot pada saat pemeringkatan kalimat. Tujuan dari pemeringkatan untuk mendapatkan kalimat yang mengandung informasi yang paling baik, yaitu kalimat yang mampu menjelaskan keberadaan kueri pengguna beserta informasi di sekitarnya. Selain TSV kata kueri baru, posisi kalimat juga berperan dalam menentukan tingkat kepentingan kalimat (salience rate). Asumsi yang digunakan, bahwa kalimat paling penting umumnya ada pada posisi teratas dalam dokumen setelah judul dan seterusnya sampai dengan kalimat terakhir dalam dokumen atau paragraf (Ko et al. 2008). Pemeringkatan kalimat menggunakan Persamaan 2 dan Persamaan 3 secara bertahap. re = w t t (2) re = α re re a α (3) Untuk setiap kalimat dalam dokumen, nilai relevansi dihitung dengan menjumlahkan TSV kata kueri (EQT) yang berbeda yang terdapat pada kalimat tersebut. Variabel w eqt pada Persamaan 2 menunjukkan TSV dari kata ke-j dari EQT yang terdapat pada kalimat S pada posisi ke-i di dalam dokumen. Nilai relevansi kalimat S i dinyatakan dengan RWscore. Dari Persamaan 3, nilai kepentingan (salience score) setiap kalimat didapatkan melalui kombinasi linear dari RWscore kalimat yang telah dinormalisasi dan nilai posisi kalimat. N adalah jumlah kalimat yang ada di dalam dokumen. Paramater α digunakan untuk memberikan bobot lebih besar pada nilai relevansi ataupun nilai posisi kalimat. Nilai α yang diuji bakan dari nilai 0.1 sampai dengan 0.9 dengan interval 0.1. Sebanyak m kalimat dengan salience score tertinggi dipilih untuk dijadikan snippet. Jumlah kalimat yang dipilih sebagai snippet tergantung pada keberadaan kata kueri awal pada sebuah kalimat. Jika keseluruhan kata kueri awal dapat dijumpai pada satu kalimat dengan salience score tertinggi, maka satu kalimat tersebut sudah cukup untuk dijadikan snippet. Jumlah kalimat snippet paling banyak sesuai jumlah kata pada kueri awal. Kalimat yang diutamakan adalah kalimat dengan salience score tertinggi yang di dalamnya terdapat kata kueri awal yang lengkap. Snippet diupayakan agar dapat memperlihatkan keberadaan seluruh kata kueri yang dimasukkan oleh pengguna.

18 6 Evaluasi Kualitas Snippet Sepuluh dokumen teratas dari hasil pemrosesan kueri diambil sebagai data uji. Untuk setiap pasangan kueri dan dokumen, tiga orang penguji diminta untuk mengidentifikasi kalimat-kalimat relevan yang terdapat pada dokumen tersebut. Masing-masing penguji lalu diminta untuk memilih paling banyak tiga kalimat yang dianggap paling relevan, sehingga jumlah kalimat yang terpilih paling banyak 9 kalimat untuk setiap pasangan kueri dan dokumen. Snippet dokumen yang dihasilkan oleh sistem kemudian dibandingkan dengan kalimat-kalimat yang dipilih oleh penguji untuk dokumen tersebut. Akurasi snippet dijadikan sebagai ukuran kualitas sistem penghasil snippet yang telah dibuat. Sebuah snippet dianggap akurat kalau di dalam snippet tersebut terdapat paling sedikit satu kalimat dari kalimat-kalimat yang dipilih oleh penguji. HASIL DAN PEMBAHASAN Pembuatan dan Konfigurasi Mesin Pencari Mesin pencari dibangun menggunakan Sphinx 2.07, yaitu sebuah engine pencarian open source berbahasa PHP yang menyediakan fitur-fitur information retrieval, seperti indeksasi, penentuan stopwords, pemeringkatan dokumen, dan pembuatan snippet dokumen hasil pencarian. Konfigurasi mesin pencari dilakukan sebelum pengindeksan. Konfigurasi yang dilakukan diantaranya mendefinisikan sumber data, mendefinisikan indeks, mengatur indexer, dan mengatur daemon pencarian yang disebut 'searchd'. Definisi sumber data penting dalam menentukan data yang dibaca dan diindeks oleh Sphinx. Sumber data yang diindeks berupa fail XML sehingga xmlpipe digunakan sebagai tipe sumber data yang dikenali oleh mesin pencari (Gambar 2). Bagian-bagian dokumen yang diindeks diantaranya id dokumen (docno), judul (title), penulis (author), dan isi (content). Konfigurasi lengkapnya dapat dilihat pada Lampiran 1. source srcxml { type xmlpipe_command xmlpipe_field xmlpipe_field xmlpipe_field xmlpipe_field } = xmlpipe = type C:\Sphinx\corpus\corpus.xml = docno = author = title = content Gambar 2 Konfigurasi sumber data pada Sphinx SphinxClient pada Gambar 3 digunakan untuk mengatur pencarian yang dilakukan oleh pengguna. SphinxClient menentukan bagaimana sistem menerima kueri, memprosesnya, dan menampilkan hasil dari kueri tersebut. SphinxClient diatur agar membuat array yang menyimpan hasil pencarian. Metode pencocokan kata yang digunakan adalah SPH_MATCH_ANY, sedangkan metode pemeringkatan

19 dokumen menggunakan SPH_RANK_PROXIMITY_BM25. Dokumen yang telah dilakukan pemeringkatan lalu diurutkan berdasarkan relevansi dokumen dengan SPH_SORT_RELEVANCE. Untuk keperluan penelitian, jumlah dokumen hasil yang ditampilkan sebanyak 10 dokumen yang menempati peringkat teratas dan jumlah maksimum dokumen hasil yang dikeluarkan sistem sebanyak 1000 dokumen. Setelah SphinxClient beserta konfigurasinya dilakukan, barulah pencarian dapat dimulai. 7 require ("sphinxapi.php"); $sphinx = new SphinxClient(); $sphinx->setarrayresult(true); $sphinx->setmatchmode(sph_match_any); $sphinx->setrankingmode(sph_rank_proximity_bm25); $sphinx->setsortmode(sph_sort_relevance); $sphinx->setlimits(0, 10, 1000, 0); $result = $sphinx->query($query); Gambar 3 Konfigurasi SphinxClient Akuisisi Korpus dan Indeksasi Korpus yang digunakan dalam penelitian berasal dari Departemen Ilmu Komputer IPB, berjumlah 1000 dokumen, berbahasa Indonesia, dan memiliki satu tema, yaitu pertanian. Korpus yang pada awalnya berupa fail-fail teks terpisah digabungkan menjadi satu fail XML dengan format yang diterima oleh indexer Sphinx, seperti pada Gambar 4 dan Lampiran 2. <?xml version="1.0" encoding="utf-8"?> <sphinx:docset> <sphinx:schema> <sphinx:field name="docno" attr="string"/> <sphinx:field name="author" attr="string"/> <sphinx:field name="title" attr="string"/> <sphinx:field name="content" attr="string"/> </sphinx:schema> <sphinx:document id="..."> <docno>......</docno> <author>......</author> <title>......</title> <content>......</content> </sphinx:document> </sphinx:docset> Gambar 4 Definisi bagian dokumen yang diindeks oleh Sphinx Elemen XML yang diterima oleh indexer diantaranya sphinx:docset, sphinx:schema, sphinx:field, sphinx:attr, sphinx:document, dan

20 8 sphinx:killlist. Elemen XML sphinx:schema menyatakan skema dokumen yang diindeks berupa bagian atau field dan atribut dokumen. Nama field dokumen harus sesuai dengan nama pada xml_pipe_field dari fail konfigurasi (Gambar 2) agar bagian-bagian tersebut dapat diindeks. Korpus yang telah disatukan dan disesuaikan formatnya kemudian diindeks dengan indexer Sphinx untuk digunakan dalam proses pencarian. Penerapan POS Tagger pada Dokumen Part-of-speech (POS) tagger diterapkan pada judul dan isi dari setiap dokumen pada korpus (Lampiran 2). POS tagger digunakan untuk memberikan label atau tag fungsi kata pada setiap elemen pembentuk kalimat. POS tagger bekerja secara lebih baik dalam menentukan fungsi kata dalam kalimat dibandingkan dengan hanya menggunakan lexicon atau kamus. POS tagger yang digunakan adalah IPOSTagger v1.1 khusus untuk dokumen berbahasa Indonesia (Wicaksono dan Purwarianti 2010). Gambar 5 dan Gambar 6 merupakan hasil penerapan POS tagger pada dokumen, sedangkan daftar tag yang digunakan oleh IPOSTagger terdapat pada Lampiran 3. Sidik/NN Raharjo/NNP Hidupnya/NNP untuk/in Tanaman/NN Obat./NNP Gambar 5 Penerapan POS tagger pada judul dokumen Dari/IN keuletan/nn dan/cc kegigihannya/vbt dalam/in usaha/nn tanaman/nn obat,/, Sidik/NN Raharjo/NNP kini/rb mempunyai/vbt koleksi/nn sekitar/cdi 645/CDP tanaman/nn obat/nn dan/cc menguasai/vbt ribuan/cdc jenis/nn tanaman/nn obat./. Pimpinan/NN Merapi/NN Farma/NN ini/dt awalnya/vbt hanya/rb mempunyai/vbt usaha/nn menjual/vbt berbagai/cdi macam/nn bibit/nn tanaman/nn buah./. Gambar 6 Penerapan POS tagger pada isi dokumen Kekurangan yang dijumpai pada IPOSTagger, diantaranya: konflik dalam memberi tag untuk kata dan simbol yang bersinggungan, ketidaktepatan tag yang diberikan, serta ketidakmampuan dalam menangani morfologi kata. Konflik dalam pemberian tag dapat dilihat pada kata 'obat' pada Gambar 5 dan Gambar 6, dimana tag yang diberikan hanya untuk kata 'obat' saja atau koma dan titik. Kesalahan dalam pemberian tag dapat dijumpai pada Gambar 7 untuk kata 'kelapa' dan 'temulawak', sedangkan kesalahan akibat morfologi terlihat pada kata 'kegigihannya' pada Gambar 6. Penggunaan kata yang tidak baku atau kata yang tidak terdapat pada kamus serta penempatan elemen-elemen kalimat dengan cara yang tidak tepat merupakan penyebab utama kesalahan dalam pemberian tag. IPOSTagger v1.1 disebutkan memiliki akurasi paling baik sebesar 99.4% untuk in-vocabulary words dan 80.4% untuk out-of-vocabulary words (Wicaksono dan Purwarianti 2010). Untuk kata-kata yang terdapat di dalam kamus atau lexicon, kesalahan dalam pemberian tag hanya sebesar 0.6%,

21 sedangkan untuk kata-kata yang tidak terdapat pada lexicon, tingkat kesalahan tersebut semakin besar. Dapat diperiksa pada Gambar 7 bahwa kata 'jahe', 'temulawak', 'kelapa', dan 'lengkuas' tidak terdapat pada lexicon yang digunakan oleh IPOSTagger. 9 Pendapatan/NN tertinggi/jj diperoleh/vbt dari/in polatanam/vbt kelapa/cdi +/NN jahe/fw yaitu/sc sebesar/rb Rp/CDP 11/CDP 410/CDP 240/Ha,/, berturut-turut/vbt diikuti/vbt oleh/in kelapa/cdi +/NN kunyit/nn (Rp/NN 5/CDP 096/CDP 860/Ha),/, kelapa/cdi +/NN temulawak/jj (Rp/IN 2/CDP 953/CDP 200/Ha),/, ke-lapa/cdi +/NN temuireng/nn (Rp/NN 1/CDP 263/CDP 620/Ha),/, kelapa/cdi +/NN lengkuas/jj (Rp/IN 1/CDP 206/CDP 960/Ha)./. Gambar 7 Kesalahan dalam pemberian tag POS tagger diharapkan mampu memberikan tag fungsi kata secara tepat dengan melihat pola umum pembentukan kalimat. Dengan melihat pola ini diharapkan kata-kata yang tidak terdapat pada lexicon serta iregularitas dalam bahasa dapat ditangani, begitu juga dengan kata-kata yang memiliki dua makna dengan fungsi kata yang berbeda. Kalimat pada Gambar 7 merupakan kalimat dengan tingkat kesalahan tag yang tinggi. Kesalahan dalam pemberian tag yang terdapat pada Gambar 7 terjadi selain karena tidak ada referensi kata jahe, kelapa, dan temulawak di dalam lexicon namun juga karena definisi pola kalimat yang tunggal atau salah. Ekstraksi Kalimat pada Dokumen Isi setiap dokumen pada korpus dipecah menjadi kalimat-kalimat dengan memanfaatkan hasil yang didapatkan dari penerapan POS tagger. Pemisahan kalimat pada dokumen berdasarkan tag pengakhir kalimat '/.' (Lampiran 3). Pemisahan dengan cara seperti ini lebih praktis dan lebih akurat meskipun masih terdapat kalimat-kalimat yang tidak terpisah seperti pada Gambar 8. Sebagaimana terlihat pada Gambar 8, penyebab utama kegagalan dalam pemisahan kalimat adalah pemberian tag yang salah sebagai akibat adanya konflik dalam pemberian tag untuk kata dan simbol yang bersinggungan. Belum terlihat adanya kesalahan Begitu/RB menekuni/vbt tanaman/nn buah,/, ia/prp bisa/md membiayai/vbt kuliahnya/nng di/in Teknik/NN Sipil/NN Universitas/NN Lambung/NN Mangkurat,/NN Lampung./NNP Setelah/SC mampu/md melakukan/vbt budidaya/nn tanaman/nn buah,/, Sidik/NN tertarik/vbi untuk/in menekuni/vbt usaha/nn budidaya/nn tanaman/nn obat. Gambar 8 Kegagalan dalam pemisahan kalimat dalam pemisahan kalimat, seperti kalimat yang terpotong, selain kegagalan seperti yang telah disebutkan.

22 10 Setelah semua kalimat dalam dokumen dipisah, sisa tag yang terdapat pada kalimat dihilangkan dan kalimat dikembalikan kedalam bentuk asalnya. Korpus baru dibuat dengan isi dokumen berupa kalimat-kalimat terpisah yang telah dinormalisasi, seperti pada Lampiran 4, untuk digunakan dalam ekstraksi kalimat relevan, pemeringkatan kalimat, dan visualisasi kalimat snippet. Ekstraksi Kata Benda pada Dokumen Kata-kata pada kalimat dipisahkan menjadi dua golongan, yaitu kata benda dan non-kata benda. Kata yang termasuk ke dalam kata benda merupakan kata dengan tag '/NN', '/NNP', '/NNG', dan '/FW' (Lampiran 3), sedangkan kata yang tidak memiliki tag tersebut dianggap bukan kata benda. '/FW' merupakan kata asing yang diputuskan sebagai kata benda karena isi dari dokumen yang digunakan secara garis besar berbahasa Indonesia, sehingga dapat diduga bahwa sebagian besar kata asing yang dikutip dalam dokumen merupakan kata benda yang jumlahnya tidak signifikan. Ekstraksi kata benda diterapkan pada setiap kalimat pada dokumen yang telah diberi tag. Lexicon kembali digunakan untuk mengatasi kekurangan pada IPOSTagger. Lexicon memiliki peranan yang penting dalam mengevaluasi kata-kata benda yang terekstraksi maupun yang tidak terekstraksi. Lexicon dibagi menjadi lexicon kata benda dan lexicon non-kata benda dengan fungsinya masing-masing. Lexicon nonkata benda digunakan untuk mendeteksi kata yang bukan kata benda yang terekstraksi berdasarkan IPOSTagger serta mengeliminasinya. Sedangkan, lexicon kata benda digunakan untuk mencari kata benda pada kalimat sesuai perbendaharaan kata pada lexicon. Dengan cara seperti ini, kata yang terekstraksi namun tidak termasuk kata benda dapat dideteksi dan dieliminasi, sedangkan kata yang seharusnya diidentifikasi sebagai kata benda namun tidak terekstraksi dapat digabung dengan kata benda yang sudah diekstraksi. Hasil ekstraksi kata benda setiap kalimat pada dokumen disimpan sebagai korpus tersendiri yang digunakan pada saat ekstraksi kata benda kalimat-kalimat relevan pada saat pembuatan snippet. Korpus kata benda dapat dilihat pada Gambar 9 dan Lampiran 5. <title> <sentence>raharjo hidupnya tanaman obat</sentence> </title> <content> <sentence>keuletan usaha tanaman raharjo koleksi obat jenis</sentence><sentence>pimpinan merapi farma usaha macam bibit tanaman buah</sentence><sentence>usaha sman tanjungkarang tetangganya kebanyakan bibit tanaman buah</sentence>... </content> Gambar 9 Hasil ekstraksi kata benda pada korpus

23 11 Pemisahan Kalimat Relevan dan Non-Relevan Pemisahan kalimat relevan dan non-relevan merupakan tahap pertama dalam pembuatan snippet dokumen hasil pencarian. Dokumen hasil pemrosesan kueri yang dikeluarkan oleh mesin pencari diambil oleh sistem penghasil snippet untuk dibuatkan snippet. Kalimat-kalimat pada dokumen tersebut diambil dari korpus kalimat yang telah dibuat sebelumnya lalu dipisahkan berdasarkan ada dan tidak adanya kata kueri awal. Kalimat yang mengandung sedikitnya satu kata kueri awal dianggap sebagai kalimat relevan dan selain itu dianggap kalimat nonrelevan. Pada tahap ini, kalimat judul juga dimasukkan ke dalam himpunan kalimat relevan atau non-relevan. Gambar 10 merupakan dua kalimat relevan untuk kueri 'tanaman obat'. Dari keuletan dan kegigihannya dalam usaha tanaman obat, Sidik Raharjo kini mempunyai koleksi sekitar 645 tanaman obat dan menguasai ribuan jenis tanaman obat. Pimpinan Merapi Farma ini awalnya hanya mempunyai usaha menjual berbagai macam bibit tanaman buah. Gambar 10 Kalimat relevan untuk kueri 'tanaman obat' Ekstraksi Kata Benda dari Kalimat Relevan Semua kata benda yang ada pada kalimat-kalimat relevan pada dokumen diekstraksi dan dijadikan kandidat untuk membuat kueri baru. Pada tahap ini, korpus kata benda dipanggil dan kata benda dari semua kalimat relevan disatukan sebagai kandidat kata untuk mengekspansi kueri awal. Gambar 11 merupakan hasil ekstraksi kata benda dari 22 kalimat relevan untuk kueri 'tanaman obat' dan dokumen 'republika ' (Lampiran 5). alternatif bagaimanapun bahan balai bethesda bibit broto bto buah budidaya bulan dasar-dasar depkes farma gunung guru hargobinangun jakarta jamu jawa jenis juta kali kaliurang kamdanen karyawan kebanyakan kesulitan keuletan koleksi kuliah kuliahnya lainnya lambung lapangan macam magang mangkurat merapi meter modal ngaglik obat orang pabrik pakar pedagang pelatihan pembibitan pengetahuan penguasaan permintaan persegi persen pertanian pimpinan prospek raharjo saat sariharjo sekarang semester seminar sidorejo sleman sman soedibyo standar tahun tanah tanaman tanjungkarang tawangmangu teknik teman temannya tetangganya tren universitas usaha usahanya wilayah yogyakarta Gambar 11 Kata benda dari kalimat-kalimat relevan Pembobotan Kata Benda Kata benda yang diekstraksi dari kalimat-kalimat relevan dikasih bobot (TSV) sesuai dengan Persamaan 1. Tabel 1 merupakan hasil perhitungan TSV

24 12 kata benda pada dokumen 'republika ' dengan kueri 'tanaman obat'. TSV kata dipengaruhi oleh jumlah kalimat relevan dan kalimat non-relevan yang mengandung kata tersebut. Kata yang tersebar pada sebagian besar kalimat relevan memiliki TSV yang besar pula. Kata 'tanaman' pada Tabel 1 merupakan kata dengan TSV terbesar diikuti oleh kata 'obat' dan kata 'usaha'. Kata 'tanaman' terdapat pada 22 kalimat relevan (r) dan tidak ada pada kalimat non-relevan (s). Jumlah total kalimat yang mengandung kata 'tanaman' dalam dokumen (n) sebanyak 22 kalimat. Tabel 1 Hasil pembobotan untuk kata benda t yang diurutkan berdasarkan TSV Kata benda r s n TSV Kata benda r s n TSV tanaman ,9053 bahan ,8928 obat ,2244 pembibitan ,8928 usaha ,0448 raharjo ,5108 budidaya ,8928 jawa ,5108 yogyakarta ,8928 guru ,5108 tawangmangu ,8928 kuliah ,5108 r: jumlah kalimat relevan yang mengandung kata benda t, s: jumlah kalimat non-relevan yang mengandung kata benda t, n: jumlah kalimat dalam dokumen yang mengandung kata benda t, TSV: bobot kata benda t Tabel 2 merupakan TSV kata untuk kueri dan dokumen yang sama yang diurutkan berdasarkan jumlah kalimat dalam dokumen yang mengandung kata tersebut. Keberadaan suatu kata pada kalimat non-relevan menurunkan TSV kata secara signifikan, seperti terlihat pada perbandingan kata 'buah' dengan kata 'budidaya' (Tabel 2). Kata 'buah' terdapat pada 6 kalimat relevan dan 1 kalimat non-relevan, sedangkan kata 'budidaya' hanya terdapat pada 3 kalimat relevan. Meskipun jumlah kalimat yang mengandung kata 'buah' lebih banyak daripada Tabel 2 Hasil pembobotan untuk kata benda t yang diurutkan berdasarkan n Kata benda r s n TSV Kata benda r s n TSV tanaman ,9053 budidaya ,8928 obat ,2244 yogyakarta ,8928 usaha ,0448 tawangmangu ,8928 buah ,4204 bahan ,8928 bibit ,2007 pembibitan ,8928 jamu ,0500 magang ,7309 r: jumlah kalimat relevan yang mengandung kata benda t, s: jumlah kalimat non-relevan yang mengandung kata benda t, n: jumlah kalimat dalam dokumen yang mengandung kata benda t, TSV: bobot kata benda t kata 'budidaya', namun TSV kata 'buah' jauh lebih kecil dari TSV kata 'budidaya', bahkan sangat kontras dengan TSV kata 'usaha' yang memiliki jumlah hampir sama. Daftar lengkap hasil pembobotan kata benda (perhitungan TSV) terdapat pada Lampiran 6.

25 13 Pembuatan Kueri Baru Kata benda diurutkan berdasarkan TSV yang didapat dari perhitungan sebelumnya. Sejumlah k kata benda dengan TSV terbesar lalu dipilih sebagai expanded query term (EQT) untuk mengekspansi kueri awal. Nilai k menyatakan jumlah EQT dalam kueri baru. Nilai k = 5 berarti kueri baru dibentuk atas kueri awal ditambah lima EQT. EQT sangat mungkin terdapat di dalamnya kata kueri awal. Dengan menggunakan hasil perhitungan TSV pada Tabel 1, kueri baru untuk 'tanaman obat' dengan k = 5 adalah 'tanaman obat' itu sendiri ditambah EQT berupa 'tanaman', 'obat', 'usaha', 'budidaya', dan 'yogyakarta'. Perhitungan Salience Score Kalimat Salience score kalimat didapat melalui penjumlahan hasil perkalian parameter α dengan nilai relevansi kalimat dan hasil perkalian invers parameter α dengan nilai posisi kalimat. Pada implementasi, posisi kalimat dimulai dari indeks nol sehingga nilai posisi kalimat pada Persamaan 3 disesuaikan menjadi satu dikurangi hasil bagi i dengan N. Tabel 3 dan Tabel 4 merupakan hasil pemeringkatan kalimat pada dokumen 'republika ' dengan kueri 'tanaman obat'. Tabel 3 diurutkan berdasarkan nilai relevansi kalimat, RWscore(S i ), sedangkan Tabel 4 diurutkan berdasarkan salience score kalimat, score(s i ). Nilai relevansi kalimat merupakan penjumlahan TSV dari expanded query term yang ada pada kalimat. Nilai relevansi kalimat dan nilai posisi kalimat merupakan dua nilai yang memiliki pengaruh besar dalam perhitungan salience score atau nilai kepentingan kalimat. Salience score kalimat yang tinggi umumnya terdapat pada kata-kata yang tidak terlalu jauh dari judul. Dengan mengambil contoh kalimat 16 (S 16 ) pada Tabel 3 dan kalimat 1 (S 1 ) pada Tabel 4, terlihat bahwa kalimat dengan RWscore yang tinggi sekalipun menjadi semakin tenggelam seiring indeks kalimat i yang semakin besar. Tabel 3 Hasil pemeringkatan kalimat yang diurutkan berdasarkan RWScore(S i ) S i RWscore(S i ) score(s i ) num_iqt eqt tanaman obat usaha yogyakarta tanaman obat usaha tanaman obat usaha tanaman obat usaha tanaman obat usaha num_iqt: jumlah kata kueri awal pada kalimat, eqt: expanded query term yang terdapat pada kalimat Kata 'tanaman' dan kata 'obat' berdasarkan Tabel 1 merupakan dua kata dengan TSV yang besar, yaitu 4.90 dan Kedua kata tersebut, sebagaimana terlihat pada Tabel 4, mendominasi perhitungan RWscore serta membawa perhitungan salience score ke arah kedua kata tersebut. Kata kueri baru lainnya dengan TSV yang rendah secara individu menjadi lemah. Dapat dipahami pada Tabel 3 dan Tabel 4 bahwa kalimat yang dipilih sebagai snippet untuk dokumen

26 14 'republika ' kemungkinan besar adalah kalimat yang berhubungan dengan usaha tanaman obat. Tabel 4 Hasil pemeringkatan kalimat yang diurutkan berdasarkan score(s i ) S i RWscore(S i ) score(s i ) num_iqt eqt tanaman obat usaha tanaman obat usaha tanaman obat tawangmangu yogyakarta tanaman obat tanaman usaha num_iqt: jumlah kata kueri awal pada kalimat, eqt: expanded query term yang terdapat pada kalimat Berdasarkan Persamaan 3, nilai parameter α dapat diatur untuk memberi bobot lebih besar pada relevansi kalimat atau pada posisi kalimat di dalam dokumen. Penentuan nilai α yang optimal hanya bisa dilakukan melalui percobaan. Untuk penelitian ini, nilai α yang optimal adalah 0.7. Visualisasi Snippet Hasil dari pemeringkatan kalimat digunakan untuk memutuskan kalimat yang dipilih sebagai snippet. Kalimat dengan salience score yang tinggi dianggap sebagai kalimat yang penting dan relevan dengan kebutuhan informasi pengguna. Selain salience score, kriteria lain yang digunakan dalam pemilihan dan visualisasi kalimat snippet adalah keberadaan kata kueri awal pada kalimat. Kecenderungan pengguna mesin pencari dalam mengidentifikasi keberadaan kata kueri di dalam dokumen menjadi alasan mengapa keberadaan kata kueri pada snippet perlu diperhatikan. Kalimat diambil dan digabungkan hingga mencakup semua atau sebagian besar kata kueri pengguna. Kalimat yang diutamakan adalah kalimat dengan kata kueri yang lengkap atau yang paling banyak. Dengan cara seperti ini, snippet menjadi lebih ringkas namun padat informasi. Pada Gambar 12 dan Gambar 13, terlihat bahwa ruang yang tersedia untuk snippet sangat terbatas. Keterbatasan ruang menyebabkan kalimat dan karakter setiap kalimat yang dapat ditampilkan juga terbatas. Karena jumlah kalimat yang ditampilkan terbatas, maka terdapat beberapa informasi yang hilang. Tingkat kompresi informasi dalam pembuatan snippet cukup tinggi dan menjadi semakin tinggi seiring jumlah kalimat relevan yang semakin banyak. Snippet pada Gambar 12 dan Gambar 13 mencakup semua kata kueri pengguna. Snippet pada Gambar 12 terlihat lebih baik karena cukup ringkas dan langsung memperlihatkan kueri 'tanaman obat' sehingga pengguna lebih cepat dalam memutuskan relevansi dokumen. Jumlah karakter yang ditampilkan untuk masing-masing kalimat pada snippet sebanyak 100 karakter. Jumlah karakter diatur agar pengguna tidak larut dalam membaca kalimat snippet sehingga pengguna dapat dengan cepat memutuskan dokumen mana yang akan diambilnya.

27 15 Sidik Raharjo Hidupnya untuk Tanaman Obat - nri Dari keuletan dan kegigihannya dalam usaha tanaman obat, Sidik Raharjo kini mempunyai koleksi sekitar... Gambar 12 Visualisasi snippet dengan kata kueri 'tanaman obat' berada dalam satu kalimat Sidik Raharjo Hidupnya untuk Tanaman Obat - nri Pimpinan Merapi Farma ini awalnya hanya mempunyai usaha menjual berbagai macam bibit tanaman buah. Setelah matang dalam penguasaan obat tradisional, ia mulai meracik jamu. Gambar 13 Visualisasi snippet dengan kata kueri 'tanaman obat' berada dalam kalimat terpisah Tampilan hasil pencarian dibuat dengan memperhatikan kenyamanan pengguna. Judul dokumen di-highlight dan digarisbawahi dan setiap kata kueri dicetak tebal. Pemotongan kalimat juga diupayakan agar kata kueri tetap terlihat dengan mengutamakan intelligibility dari snippet yang ditampilkan. Evaluasi Snippet Pengujian dilakukan untuk melihat kualitas snippet yang dibuat oleh sistem. Sebanyak 30 kueri diproses dan dikeluarkan hasilnya. Sepuluh dokumen teratas dari setiap pemrosesan kueri diambil sebagai dokumen uji. Untuk setiap dokumen uji, sebanyak tiga orang dilibatkan untuk menentukan, secara terpisah, kalimatkalimat relevan yang dianggap paling cocok untuk dijadikan snippet. Hasil sampingan yang didapat dari pemilihan kalimat relevan oleh penguji adalah diketahuinya dokumen-dokumen yang tidak relevan. Dokumen dianggap tidak relevan jika tidak ada satu pun kalimat yang dipilih oleh penguji sebagai kalimat relevan. Dokumen yang tidak relevan tidak diikutsertakan dalam perhitungan akurasi, sebab snippet yang dihasilkan oleh sistem untuk dokumen tersebut tidak dapat diuji. Untuk memastikan lebih lanjut mengenai relevansi dokumen dengan kueri, pasangan kueri dan dokumen terkait dari Departemen Ilmu Komputer digunakan sebagai rujukan. Dari total 300 dokumen uji, terdapat 20 dokumen tidak relevan, sehingga total dokumen uji yang digunakan sebanyak 280 dokumen. Snippet yang telah dibuat oleh sistem dibandingkan dengan kalimat-kalimat yang dipilih oleh penguji. Snippet dianggap akurat jika terdapat minimal satu kalimat pada snippet diantara kalimat-kalimat yang dipilih oleh penguji. Untuk memudahkan dalam evaluasi, jumlah kalimat pada snippet dibatasi menjadi satu kalimat. Contoh hasil evaluasi snippet untuk nilai k = 7 dan nilai α = 0.4 dapat dilihat pada Lampiran 8. Pengamatan terhadap parameter α dan nilai k dilakukan untuk melihat pengaruh kedua variabel tersebut terhadap akurasi snippet. Gambar 14 merupakan grafik pengaruh nilai k terhadap akurasi snippet untuk setiap parameter α. Nilai k = 0 menunjukkan snippet yang dibuat tidak berdasarkan pseudo-relevance feedback dan hanya menggunakan informasi keberadaan kata kueri awal di dalam

28 16 kalimat. Nilai tersebut digunakan sebagai pembanding untuk melihat sejauh mana pembuatan kueri baru dapat meningkatkan akurasi snippet yang dihasilkan. Untuk nilai α yang rendah, pembuatan kueri baru cenderung memperburuk hasil. Nilai α = 0.2 dan α = 0.3 memiliki tingkat akurasi optimum masing-masing pada k = 3 dan k = 4, sedangkan akurasi optimum untuk nilai α = 0.1 terdapat pada saat k = Akurasi snippet (%) Jumlah kata dalam EQT (nilai k) α= 0. α= 0.2 α= 0.3 α= 0.4 α= 0. α= 0.6 α= 0.7 α= 0.8 α= 0.9 Gambar 14 Pengaruh nilai k terhadap akurasi snippet Nilai α = 0.9 memiliki kenaikan tingkat akurasi yang cukup baik sampai dengan nilai k = 3 yang pada akhirnya turun secara signifikan dengan nilai k yang semakin besar. Secara garis besar, setiap nilai α memiliki nilai optimumnya masing-masing dan penambahan nilai k setelah titik optimum tersebut memperburuk akurasi snippet yang dihasilkan. Nilai α dari 0.7 sampai dengan 0.9 merupakan nilai α yang paling baik. Akurasi tertinggi terdapat pada nilai α = 0.7 dan nilai k = 2 dengan tingkat akurasi snippet sebesar 90.71% (Lampiran 9). Grafik pada Gambar 15 merupakan transpose dari grafik pada Gambar 14. Pada Gambar 15, pengaruh penambahan nilai α terhadap akurasi snippet dilihat dari sudut pandang nilai k. Nilai k = 0 kembali digunakan sebagai pembanding kualitas snippet yang dihasilkan. Untuk setiap nilai k, dapat dilihat kecenderungan akurasi snippet bergerak ke arah nilai α optimum. Nilai α yang paling baik untuk semua nilai k antara 0.5 sampai dengan 0.7. Dari grafik ini (Gambar 15), terlihat kembali bahwa nilai k paling baik adalah antara satu sampai empat. Tabel tingkat akurasi snippet untuk setiap nilai α dan nilai k dapat dilihat pada Lampiran 9. Perhitungan TSV dan salience score didasarkan pada informasi statistik dan bukan pada semantik dari kueri yang dimasukkan oleh pengguna. Sedangkan penguji lebih memahami kueri dari segi semantik, sehingga pemilihan kalimat dilaksanakan dengan hati-hati. Beberapa penguji memilih kalimat secara ketat pada kueri tertentu dan longgar pada kueri yang lain. Oleh karena itu, pada Tabel pada Lampiran 8, banyak terjadi mismatch antara snippet yang dibuat oleh sistem dengan kalimat-kalimat yang dianggap paling relevan oleh penguji. Hasil akhir dari pengujian menunjukkan metode pseudo-relevance feedback dengan

29 memanfaatkan informasi TSV dan posisi kalimat memberikan akurasi paling baik 90.71% dari total dokumen yang dianggap relevan. 17 Akurasi snippet (%) Nilai parameter α k= 0 k= 1 k= 2 k= 3 k= 4 k= 5 k= 6 k= 7 k= 8 k= 9 k= 10 Gambar 15 Pengaruh nilai α terhadap akurasi snippet SIMPULAN DAN SARAN Simpulan Sistem penghasil snippet berhasil dibuat dan diintegrasikan dengan mesin pencari dokumen berbahasa Indonesia. Implementasi pseudo-relevance feedback dalam pembuatan snippet pada mesin pencari dokumen berbahasa Indonesia memberikan akurasi paling besar 90.71% dari dokumen-dokumen yang dianggap relevan. Saran Sistem penghasil snippet masih dapat dikembangkan, diantaranya dengan: 1 Menggunakan lexicon multi-bahasa dan multi-disiplin serta melakukan proses lematisasi untuk memerkecil tingkat kesalahan dalam penentuan term kandidat. 2 Melakukan caching untuk menyimpan snippet dan mempercepat waktu pemrosesan kueri. 3 Optimasi kueri melalui pemrosesan semantik.

30 18 DAFTAR PUSTAKA Goldstein J, Kantrowitz M, Mittal V, Carbonell J Summarizing text documents: sentence selection and evaluatin metrics. Di dalam: Proceedings of the 22nd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. hlm Ko Y, An H, Seo J Pseudo-relevance feedback and statistical query expansion for web snippet generation. Information Processing Letters 109(1): doi: /j.ipl McDonald DM, Chen H Summary in context: searching versus browsing. ACM Transaction on Information Systems (TOIS). 24(1): Robertson SE, Jones KS Relevance weighting of search terms. Journal of the American Society for Information Science. 27(3): Wicaksono AF, Purwarianti A HMM based part-of-speech tagger for Bahasa Indonesia. Di dalam: Proceedings of the 4th-International MALINDO Workshop. Jakarta, Indonesia.

31 LAMPIRAN 19

32 20 Lampiran 1 Konfigurasi mesin pencari Sphinx ################################################################## ## data source definition ################################################################## source srcxml { type xmlpipe_command xmlpipe_field xmlpipe_field xmlpipe_field xmlpipe_field = xmlpipe = type C:\Sphinx\corpus\corpus.xml = docno = author = title = content } xmlpipe_fixup_utf8 = 1 ################################################################## ## index definition ################################################################## index hasilindeks { source path = srcxml = C:/Sphinx/data/hasilIndeks docinfo = extern mlock = 0 morphology = none min_word_len = 1 charset_type = utf-8 } html_strip = 0 ################################################################## ## indexer settings ################################################################## indexer { mem_limit } = 32M ################################################################## ## searchd settings ################################################################## searchd { listen = 9312 log = C:/Sphinx/log/searchd.log query_log = C:/Sphinx/log/query.log read_timeout = 5

33 21 Lampiran 1 Lanjutan client_timeout = 300 max_children = 30 pid_file = C:/Sphinx/log/searchd.pid max_matches = 1000 } seamless_rotate = 1 preopen_indexes = 1 unlink_old = 1 mva_updates_pool = 1M max_packet_size = 8M max_filters = 256 max_filter_values = 4096 max_batch_queries = 32 workers = threads # --eof--

34 22 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian <sphinx:document id="388"> <docno>republika </docno> <author>nri</author> <title> Sidik Raharjo Hidupnya untuk Tanaman Obat </title> <content> Dari keuletan dan kegigihannya dalam usaha tanaman obat, Sidik Raharjo kini mempunyai koleksi sekitar 645 tanaman obat dan menguasai ribuan jenis tanaman obat. Pimpinan Merapi Farma ini awalnya hanya mempunyai usaha menjual berbagai macam bibit tanaman buah. Usaha tersebut dimulai sejak dia lulus dari SMAN 2 Tanjungkarang pada Dia belajar dari tetangganya yang kebanyakan menjual bibit tanaman buah. Begitu menekuni tanaman buah, ia bisa membiayai kuliahnya di Teknik Sipil Universitas Lambung Mangkurat, Lampung. Setelah mampu melakukan budidaya tanaman buah, Sidik tertarik untuk menekuni usaha budidaya tanaman obat. ''Saya melihat prospek budidaya tanaman obat itu bagus, karena belum banyak yang melakukannya,'' ungkapnya. Sambil menjual bibit tanaman buah ke wilayah Jawa, Sidik mulai ''berguru'' tentang tanaman obat dari guru ke guru, dari seminar ke seminar, dari pelatihan ke pelatihan ke Jakarta, Malang, Yogyakarta, Tawangmangu, dan lainnya. Selama ''berguru'' ia mengambil cuti kuliah. Setelah mengikuti pelatihan dan banyak seminar ia berharap dapat meracik jamu. ''Tetapi saya malah semakin bimbang karena tanaman obat tidak ada yang standar, tidak ada guru yang betul-betul mumpuni,'' ungkapnya. Bagaimanapun hati dan pikirannya tetap ingin terjun ke tanaman obat. Sebab, ia melihat di lapangan bahwa pedagang kesulitan mencari bahan obat tradisional, sementara itu tidak ada yang membuat bibit dan menjual tanaman obat. Sidik bahkan sudah mendatangi Tasikmalaya, Purwokerto, dan Cilacap. Di sana ia hanya menemukan bibit perkebunan dan buah-buahan. Padahal, dengan tren obat tradisional, permintaan pada tanaman obat akan terus ada. Akhirnya ia magang di Balai Tanaman Obat (BTO) Depkes Tawangmangu secara resmi selama tiga bulan. Tetapi, sebenarnya ia telah magang secara tidak resmi lebih dari setahun. Di sini ia memiliki teman yang suka menjelajah tanaman obat ke berbagai gunung di Jawa. Setelah magang di BTO, ia dipertemukan oleh temannya dengan R Broto Soedibyo, pakar tanaman obat dari RS Bethesda Yogyakarta. ''Pengetahuan tentang dasar-dasar tanaman obat sudah didapatkan dari BTO Tawangmangu, saat menjelajah gunung dan mencari tahu sendiri. Kemudian ilmu peracikan dimatangkan ketika ia bertemu dengan Pak Broto. Di sini saya belajar sekitar sebulan,'' tutur Sidik yang lahir di Tanjungkarang tanggal 19 Januari 1975 ini. Pada 1998 ia menyewa tanah di Kamdanen, Sariharjo, Ngaglik, Sleman, Yogyakarta seluas sekitar meter persegi, tetapi sekarang tinggal meter persegi, untuk usaha pembibitan tanaman buah dan beberapa tanaman obat. Dua tahun kemudian Sidik menyewa tanah di Sidorejo, Hargobinangun, Pakem, Sleman seluas meter persegi khusus untuk pembibitan tanaman obat. Setelah matang dalam

35 23 Lampiran 2 Lanjutan penguasaan obat tradisional, ia mulai meracik jamu. Ada tiga usaha yang dijalankan, yakni bibit tanaman obat, bahan jamu untuk dipakai sendiri maupun yang disalurkan ke pabrik, dan membuat jamu. Sekarang 90 persen usahanya adalah bahan jamu, tanaman obat, dan jamu. Namun demikian, budidaya tanaman buah tak akan ditinggalkannya karena itu usahanya yang pertama kali. Jika saat pertama melakukan pembibitan tanaman obat hanya dibantu oleh dua orang karyawan, maka kini ada sembilan karyawan. Modal usaha untuk tanaman obat di Jl Kaliurang sebesar Rp 80 juta. Saat ini asetnya mencapai sekitar Rp 300 juta. Karena terlalu sibuk mengurusi usaha tanaman obat, Sidik terpaksa berhenti kuliah pada semester tujuh. Dia mempunyai obsesi membuat Merapi Farma menjadi pabrik besar dan bisa menghidupi banyak petani. ''Saya ingin menjadikan tanaman obat sebagai pertanian alternatif,'' katanya. Ia merasa senang dan puas bila bisa mengobati orang sampai sembuh dengan jamu racikannya. </content> </sphinx:document>

36 24 Lampiran 3 Tagset pada IPOSTagger v1.1 (Wicaksono dan Purwarianti 2010) No POS POS name Example 1 OP Open Parenthesis ({[ 2 CP Close Parenthesis )}] 3 GM Slash / 4 ; Semicolon ; 5 : Colon : 6 Quotation 7. Sentence Terminator.!? 8, Comma, 9 - Dash Ellipsis JJ Adjective Kaya, Manis 12 RB Adverb Sementara, Nanti 13 NN Common Noun Mobil 14 NNP Proper Noun Bekasi, Indonesia 15 NNG Genitive Noun Bukunya 16 VBI Intransitive Verb Pergi 17 VBT Transitive Verb Membeli 18 IN Preposition Di, Ke, Dari 19 MD Modal Bisa 20 CC Coor-Conjunction Dan, Atau, Tetapi 21 SC Subor-Conjunction Jika, Ketika 22 DT Determiner Para, Ini, Itu 23 UH Interjection Wah, Aduh, Oi 24 CDO Ordinal Numerals Pertama, Kedua 25 CDC Collective Numerals Bertiga 26 CDP Primary Numerals Satu, Dua 27 CDI Irregular Numerals Beberapa 28 PRP Personal Pronouns Saya, Kamu 29 WP WH-Pronouns Apa, Siapa 30 PRN Number Pronouns Kedua-duanya 31 PRL Locative Pronouns Sini, Situ, Sana 32 NEG Negation Bukan, Tidak 33 SYM 34 RP Particles Pun, Kah 35 FW Foreign Words Foreign, Word

37 25 Lampiran 4 Contoh hasil ekstraksi kalimat pada korpus <document id="388"> <docno>republika </docno> <author>nri</author> <title> <sentence> Sidik Raharjo Hidupnya untuk Tanaman Obat </sentence> </title> <content> <sentence> Dari keuletan dan kegigihannya dalam usaha tanaman obat, Sidik Raharjo kini mempunyai koleksi sekitar 645 tanaman obat dan menguasai ribuan jenis tanaman obat.</sentence><sentence> Pimpinan Merapi Farma ini awalnya hanya mempunyai usaha menjual berbagai macam bibit tanaman buah..</sentence><sentence> Usaha tersebut dimulai sejak dia lulus dari SMAN 2 Tanjungkarang pada Dia belajar dari tetangganya yang kebanyakan menjual bibit tanaman buah.</sentence><sentence> Begitu menekuni tanaman buah, ia bisa membiayai kuliahnya di Teknik Sipil Universitas Lambung Mangkurat, Lampung. Setelah mampu melakukan budidaya tanaman buah, Sidik tertarik untuk menekuni usaha budidaya tanaman obat.</sentence><sentence> ''Saya melihat prospek budidaya tanaman obat itu bagus, karena belum banyak yang melakukannya,'' ungkapnya..</sentence><sentence> Sambil menjual bibit tanaman buah ke wilayah Jawa, Sidik mulai ''berguru'' tentang tanaman obat dari guru ke guru, dari seminar ke seminar, dari pelatihan ke pelatihan ke Jakarta, Malang, Yogyakarta, Tawangmangu, dan lainnya. Selama ''berguru'' ia mengambil cuti kuliah.</sentence><sentence> Setelah mengikuti pelatihan dan banyak seminar ia berharap dapat meracik jamu.</sentence><sentence> ''Tetapi saya malah semakin bimbang karena tanaman obat tidak ada yang standar, tidak ada guru yang betul-betul mumpuni,'' ungkapnya.</sentence><sentence> Bagaimanapun hati dan pikirannya tetap ingin terjun ke tanaman obat.</sentence><sentence> Sebab, ia melihat di lapangan bahwa pedagang kesulitan mencari bahan obat tradisional, sementara itu tidak ada yang membuat bibit dan menjual tanaman obat.</sentence><sentence> Sidik bahkan sudah mendatangi Tasikmalaya, Purwokerto, dan Cilacap. Di sana ia hanya menemukan bibit perkebunan dan buah-buahan..</sentence><sentence> Padahal, dengan tren obat tradisional, permintaan pada tanaman obat akan terus ada.</sentence><sentence> Akhirnya ia magang di Balai Tanaman Obat (BTO) Depkes Tawangmangu secara resmi selama tiga bulan.</sentence><sentence> Tetapi, sebenarnya ia telah magang secara tidak resmi lebih dari setahun.</sentence><sentence> Di sini ia memiliki teman yang suka menjelajah tanaman obat ke berbagai gunung di Jawa. Setelah magang di BTO, ia dipertemukan oleh temannya dengan R Broto Soedibyo, pakar tanaman obat dari RS Bethesda Yogyakarta. ''Pengetahuan tentang dasar-dasar tanaman obat sudah didapatkan dari BTO Tawangmangu, saat menjelajah gunung dan mencari tahu sendiri.</sentence><sentence> Kemudian ilmu peracikan dimatangkan ketika ia bertemu dengan Pak Broto. Di sini saya belajar sekitar sebulan,'' tutur Sidik yang lahir di Tanjungkarang tanggal 19 Januari 1975 ini..</sentence><sentence> Pada 1998 ia menyewa tanah di Kamdanen, Sariharjo, Ngaglik, Sleman, Yogyakarta seluas sekitar meter persegi, tetapi sekarang tinggal meter persegi, untuk usaha pembibitan tanaman buah dan beberapa tanaman obat.</sentence><sentence> Dua tahun kemudian

38 26 Lamipran 4 Lanjutan Sidik menyewa tanah di Sidorejo, Hargobinangun, Pakem, Sleman seluas meter persegi khusus untuk pembibitan tanaman obat.</sentence><sentence> Setelah matang dalam penguasaan obat tradisional, ia mulai meracik jamu.</sentence><sentence> Ada tiga usaha yang dijalankan, yakni bibit tanaman obat, bahan jamu untuk dipakai sendiri maupun yang disalurkan ke pabrik, dan membuat jamu.</sentence><sentence> Sekarang 90 persen usahanya adalah bahan jamu, tanaman obat, dan jamu.</sentence><sentence> Namun demikian, budidaya tanaman buah tak akan ditinggalkannya karena itu usahanya yang pertama kali..</sentence><sentence> Jika saat pertama melakukan pembibitan tanaman obat hanya dibantu oleh dua orang karyawan, maka kini ada sembilan karyawan.</sentence><sentence> Modal usaha untuk tanaman obat di Jl Kaliurang sebesar Rp 80 juta.</sentence><sentence> Saat ini asetnya mencapai sekitar Rp 300 juta.</sentence><sentence> Karena terlalu sibuk mengurusi usaha tanaman obat, Sidik terpaksa berhenti kuliah pada semester tujuh.</sentence><sentence> Dia mempunyai obsesi membuat Merapi Farma menjadi pabrik besar dan bisa menghidupi banyak petani.</sentence><sentence> ''Saya ingin menjadikan tanaman obat sebagai pertanian alternatif,'' katanya.</sentence><sentence> Ia merasa senang dan puas bila bisa mengobati orang sampai sembuh dengan jamu racikannya.</sentence><sentence> </sentence> </content> </document>

39 27 Lampiran 5 Contoh hasil ekstraksi kata benda pada korpus <document id="388"> <docno>republika </docno> <author>nri</author> <title> <sentence>raharjo hidupnya tanaman obat</sentence> </title> <content> <sentence>keuletan usaha tanaman raharjo koleksi obat jenis</sentence><sentence>pimpinan merapi farma usaha macam bibit tanaman buah</sentence><sentence>usaha sman tanjungkarang tetangganya kebanyakan bibit tanaman buah</sentence><sentence>tanaman kuliahnya teknik universitas lambung mangkurat budidaya usaha buah obat</sentence><sentence>prospek budidaya tanaman obat</sentence><sentence>bibit tanaman buah wilayah jawa obat guru seminar pelatihan jakarta yogyakarta tawangmangu lainnya kuliah</sentence><sentence>pelatihan seminar jamu</sentence><sentence>tanaman obat guru standar</sentence><sentence>bagaimanapun tanaman obat</sentence><sentence>lapangan pedagang kesulitan bahan obat bibit tanaman</sentence><sentence>tasikmalaya purwokerto cilacap bibit perkebunan buah-buahan</sentence><sentence>tren obat permintaan tanaman</sentence><sentence>magang balai tanaman obat depkes tawangmangu bulan</sentence><sentence>magang setahun</sentence><sentence>teman tanaman obat gunung jawa magang bto temannya broto soedibyo pakar bethesda yogyakarta pengetahuan dasar-dasar tawangmangu</sentence><sentence>ilmu dimatangkan pak broto tutur tanjungkarang januari</sentence><sentence>tanah kamdanen sariharjo ngaglik sleman yogyakarta meter sekarang usaha pembibitan tanaman buah persegi obat</sentence><sentence>tahun tanah sidorejo hargobinangun sleman meter persegi pembibitan tanaman obat</sentence><sentence>penguasaan obat jamu</sentence><sentence>usaha bibit tanaman bahan jamu obat pabrik</sentence><sentence>sekarang persen usahanya bahan tanaman jamu obat</sentence><sentence>budidaya tanaman buah usahanya kali</sentence><sentence>saat pembibitan tanaman obat orang karyawan</sentence><sentence>modal usaha tanaman obat kaliurang juta</sentence><sentence>saat juta</sentence><sentence>usaha tanaman kuliah semester obat</sentence><sentence>obsesi merapi farma pabrik petani</sentence><sentence>tanaman obat pertanian alternatif</sentence><sentence>orang jamu</sentence><sentence></sentence> </content> </document>

40 28 Lampiran 6 Contoh hasil pembobotan kata benda (TSV) Kata benda r s n TSV Kata benda r s n TSV tanaman lapangan obat pedagang usaha kesulitan budidaya tren yogyakarta permintaan tawangmangu balai bahan depkes pembibitan bulan raharjo teman jawa gunung guru temannya kuliah soedibyo bto pakar tanah bethesda sleman pengetahuan meter dasar-dasar sekarang kamdanen persegi sariharjo usahanya ngaglik orang tahun buah sidorejo bibit hargobinangun hidupnya penguasaan keuletan persen koleksi kali jenis karyawan pimpinan modal macam kaliurang sman semester tetangganya pertanian kebanyakan alternatif kuliahnya jamu teknik magang universitas saat lambung merapi mangkurat farma prospek tanjungkarang

41 29 Lampiran 6 Lanjutan Kata benda r s n TSV Kata benda r s n TSV wilayah seminar jakarta pelatihan lainnya broto standar pabrik bagaimanapun juta r: jumlah kalimat relevan yang mengandung kata benda t, s: jumlah kalimat non-relevan yang mengandung kata benda t, n: jumlah kalimat dalam dokumen yang mengandung kata benda t, TSV: bobot kata benda t

42 30 Lampiran 7 Contoh hasil pemeringkatan kalimat S i RWscore(S i ) score(s i ) num_iqt eqt tanaman obat usaha tanaman usaha tanaman usaha tanaman obat usaha tanaman obat tanaman obat tawangmangu yogyakarta tanaman obat tanaman obat tanaman obat tanaman obat tanaman obat tawangmangu tanaman obat tawangmangu yogyakarta tanaman obat usaha yogyakarta tanaman obat obat tanaman obat usaha tanaman obat tanaman tanaman obat tanaman obat usaha tanaman obat usaha tanaman obat num_iqt: jumlah kata kueri awal pada kalimat, eqt: expanded query term yang terdapat pada kalimat

43 Lampiran 8 Contoh hasil pengujian snippet 30 kueri untuk nilai α = 0.4 dan k = 7 Kueri Jumlah dokumen relevan 31 Jumlah snippet akurat bencana kekeringan dukungan pemerintah pada pertanian 9 6 flu burung gabah kering giling gagal panen harga komoditas pertanian 10 9 impor beras indonesia 10 9 industri gula 10 5 institut pertanian bogor 10 8 kelangkaan pupuk kelompok masyarakat tani 9 7 laboratorium pertanian 8 3 musim panen pembangunan untuk sektor pertanian 9 4 bioteknologi di indonesia 3 2 penerapan teknologi pertanian 10 6 penyakit hewan ternak 9 6 penyuluhan pertanian 10 9 perdagangan hasil pertanian sistem pertanian organik 10 7 petani tebu peternak ayam 10 9 produk usaha peternakan rakyat 8 8 pupuk organik 9 9 riset pertanian 7 6 swasembada pangan tadah hujan tanaman obat 10 9 tanaman pangan 10 9 peningkatan pendapatan petani 9 9 Total dokumen Total akurasi 85.71%

44 32 Lampiran 9 Pengaruh nilai α dan k terhadap akurasi snippet (dalam persen) Jumlah kata dalam EQT (Nilai k) α

45 Lampiran 10 Tampilan antarmuka aplikasi 33

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dipaparkan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan laporan. 1.1 Latar Belakang

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH

STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH i STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016 iii PERNYATAAN

Lebih terperinci

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL i SKRIPSI S U L H A N 041401025 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE OLGA CERIA SARI NRP 5106 100 618 DOSEN PEMBIMBING: Sarwosri,S.Kom,MT. Umi Laili Yuhana, S.Kom, M.Sc LATAR BELAKANG Kebutuhan

Lebih terperinci

MANAJEMEN RISIKO DI PERUSAHAAN BETON (STUDI KASUS UNIT READYMIX PT BETON INDONESIA) MUAMMAR TAWARUDDIN AKBAR

MANAJEMEN RISIKO DI PERUSAHAAN BETON (STUDI KASUS UNIT READYMIX PT BETON INDONESIA) MUAMMAR TAWARUDDIN AKBAR MANAJEMEN RISIKO DI PERUSAHAAN BETON (STUDI KASUS UNIT READYMIX PT BETON INDONESIA) MUAMMAR TAWARUDDIN AKBAR SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang xi BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan ilmu pengetahuan dan teknologi informasi dewasa ini membuat perubahan perilaku dalam pencarian informasi yang berdampak bagi lembagalembaga yang bergerak

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.

HASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. 4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai

Lebih terperinci

BAB 3 ANALISA DAN PERANCANGAN

BAB 3 ANALISA DAN PERANCANGAN BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query

Lingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query 5 Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Sistem Operasi Windows 7. Sphinx Search. XAMPP versi 1.7.3. Named Entity Tagger bahasa Indonesia. Perangkat keras yang digunakan

Lebih terperinci

Internet Marketing. Generate Traffic

Internet Marketing. Generate Traffic Internet Marketing Internet marketing itu adalah suatu proses pemasaran brand, produk, dan layanan secara online melalui internet. Pemasaran yang dimaksud bukan hanya penjualan tapi juga termasuk promosi,

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. 1208605026 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

1. PENDAHULUAN 1.1 Latar belakang Masalah

1. PENDAHULUAN 1.1 Latar belakang Masalah 1. PENDAHULUAN 1.1 Latar belakang Masalah Bahasa Indonesia adalah alat yang mampu menjembatani penduduk Indonesia yang terdiri dari berbagai suku dan bahasa untuk dapat berkomunikasi satu sama lainnya.

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL TINDAK PIDANA PELANGGARAN BERDASARKAN KUHP DENGAN METODE STRING MATCHING BOYER-MOORE SKRIPSI

SISTEM PENCARIAN PASAL-PASAL TINDAK PIDANA PELANGGARAN BERDASARKAN KUHP DENGAN METODE STRING MATCHING BOYER-MOORE SKRIPSI SISTEM PENCARIAN PASAL-PASAL TINDAK PIDANA PELANGGARAN BERDASARKAN KUHP DENGAN METODE STRING MATCHING BOYER-MOORE SKRIPSI Diajukan Untuk Memenuhi Sebagai Persyaratan Dalam Memperoleh Gelar Sarjana Komputer

Lebih terperinci

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN MENGGUNAKAN METODE N-GRAM DAN EKSPANSI KUERI Disusun oleh : Dwi iswanto L200100014 Pembimbing : Husni Thamrin PROGRAM STUDI INFORMATIKA FAKULTAS

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

PENGARUH SERTIFIKASI GURU TERHADAP KESEJAHTERAAN DAN KINERJA GURU DI KABUPATEN SUMEDANG RIZKY RAHADIKHA

PENGARUH SERTIFIKASI GURU TERHADAP KESEJAHTERAAN DAN KINERJA GURU DI KABUPATEN SUMEDANG RIZKY RAHADIKHA 1 PENGARUH SERTIFIKASI GURU TERHADAP KESEJAHTERAAN DAN KINERJA GURU DI KABUPATEN SUMEDANG RIZKY RAHADIKHA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

APLIKASI PENGOLAHAN DATA OPERASIONAL KENDARAAN PADA CV. ANEKA USAHA BERBASIS WEB LAPORAN AKHIR

APLIKASI PENGOLAHAN DATA OPERASIONAL KENDARAAN PADA CV. ANEKA USAHA BERBASIS WEB LAPORAN AKHIR APLIKASI PENGOLAHAN DATA OPERASIONAL KENDARAAN PADA CV. ANEKA USAHA BERBASIS WEB LAPORAN AKHIR Disusun Dalam Rangka Memenuhi Syarat Menyelesaikan Pendidikan Diploma III Jurusan Manajemen Informatika Politeknik

Lebih terperinci

MODEL PENDUGA BIOMASSA MENGGUNAKAN CITRA LANDSAT DI HUTAN PENDIDIKAN GUNUNG WALAT HARLYN HARLINDA

MODEL PENDUGA BIOMASSA MENGGUNAKAN CITRA LANDSAT DI HUTAN PENDIDIKAN GUNUNG WALAT HARLYN HARLINDA MODEL PENDUGA BIOMASSA MENGGUNAKAN CITRA LANDSAT DI HUTAN PENDIDIKAN GUNUNG WALAT HARLYN HARLINDA DEPARTEMEN MANAJEMEN HUTAN FAKULTAS KEHUTANAN INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN MENGENAI

Lebih terperinci

PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA

PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI Pendahuluan JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 PENDAHULUAN Pendahuluan Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL Adhitya Teguh Nugraha Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura ituteguh@gmail.com

Lebih terperinci

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI DIGITAL FULLTEXT ARTIKEL JURNAL DI PDII LIPI

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI DIGITAL FULLTEXT ARTIKEL JURNAL DI PDII LIPI PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI DIGITAL FULLTEXT ARTIKEL JURNAL DI PDII LIPI Sjaeful Afandi 1*, Firman Ardiansyah 2, Blasius Soedarsono 3 1 Magister Profesional Teknologi Informasi untuk Perpustakaan

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK

Lebih terperinci

SIDANG TUGAS AKHIR Anggoro Sukmo

SIDANG TUGAS AKHIR Anggoro Sukmo SIDANG TUGAS AKHIR Anggoro Sukmo 5206100016 AuReLS: MODUL SISTEM PENCARI PENELAAH MAKALAH OTOMATIS PADA OPEN CONFERENCE SYSTEM PEMBIMBING Wiwik Anggraeni, S.Si, M.Kom Ahmad Mukhlason, S.Kom, M.Sc LATAR

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA

ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

PENGEMBANGAN SISTEM PEROLEHAN INFORMASI UNTUK DOKUMEN LEGAL INDONESIA SKRIPSI

PENGEMBANGAN SISTEM PEROLEHAN INFORMASI UNTUK DOKUMEN LEGAL INDONESIA SKRIPSI UNIVERSITAS INDONESIA PENGEMBANGAN SISTEM PEROLEHAN INFORMASI UNTUK DOKUMEN LEGAL INDONESIA SKRIPSI YANS SUKMA PRATAMA 1205007104 FAKULTAS ILMU KOMPUTER PROGRAM STUDI ILMU KOMPUTER DEPOK JULI 2009 UNIVERSITAS

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI ARTIKEL JURNAL DIGITAL DI PDII LIPI SJAEFUL AFANDI

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI ARTIKEL JURNAL DIGITAL DI PDII LIPI SJAEFUL AFANDI PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI ARTIKEL JURNAL DIGITAL DI PDII LIPI SJAEFUL AFANDI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TUGAS AKHIR DAN SUMBER INFORMASI

Lebih terperinci

ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI

ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI 071401022 PROGRAM STUDI S1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED Tugas Akhir Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci