LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

dokumen-dokumen yang mirip
QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

JULIO ADISANTOSO - ILKOM IPB 1

BAB III METODOLOGI PENELITIAN

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

BAB I PENDAHULUAN Latar Belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

Rata-rata token unik tiap dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

BAB III METODOLOGI PENELITIAN

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB I PENDAHULUAN Latar Belakang Masalah

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

HASIL DAN PEMBAHASAN. sim(, )=

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Search Engines. Information Retrieval in Practice

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

1. Pendahuluan. 1.1 Latar belakang

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

SKRIPSI SISTEM TEMU-KEMBALI INFORMASI DENGAN METODE VECTOR SPACE MODEL PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

PENDAHULUAN. Latar belakang

BAB II LANDASAN TEORI

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

BAB I PENDAHULUAN 1.1 Latar Belakang

HASIL DAN PEMBAHASAN. B fch a. d b

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI DIGITAL FULLTEXT ARTIKEL JURNAL DI PDII LIPI

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

SISTEM TEMU KEMBALI INFORMASI

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Indexing dan Bahasa Penelusuran

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

Penerapan Berbagai Teknik Sistem Temu-Kembali Informasi Berbasis Hiperteks

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

KOM341 Temu Kembali Informasi

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB V PEMBAHASAN DAN UJI COBA HASIL PENELITIAN

BAB I PENDAHULUAN! 1.1 Latar Belakang

Bab 1. KONSEP DASAR SISTEM TEMU KEMBALI INFORMASI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA

BAB III METODOLOGI PENELITIAN

BAB IV ANALISA DAN PERANCANGAN

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

PEMILAHAN ARTIKEL BERITA DENGAN TEXT MINING

Code shift Asumsi-asumsi Pengaburan Kode Lingkungan Pengembangan HASIL DAN PEMBAHASAN Karakteristik Dokumen Perlakuan ( Treatment

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

PROPOSAL SKRIPSI. JUDUL PROPOSAL SKRIPSI DALAM BAHASA INDONESIA DITULIS SECARA SIMETRIS (Studi Kasus: Tempat Penelitian Tesis-jika ada, optional)

Text Document Retrieval In English Using Keywords of Indonesian Dictionary Based

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

Text Pre-Processing. M. Ali Fauzi

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

Transkripsi:

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom. Ahmad Ridha, S.Kom. DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR November, 2004 1

DAFTAR ISI DAFTAR ISI... 1 A. PENDAHULUAN... 2 B. PERUMUSAN MASALAH... 2 C. TINJAUAN PUSTAKA... 2 D. TUJUAN PENELITIAN... 5 E. KONTRIBUSI PENELITIAN... 5 F. METODE PENELITIAN... 5 G. HASIL DAN PEMBAHASAN... 6 DAFTAR PUSTAKA... 8 2

A. PENDAHULUAN Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu, walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai algoritme yang efisien untuk pencarian teks telah dikembangkan, teknik pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya Temu kembali informasi bertujuan untuk membantu pengguna dalam menemukan informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Akan tetapi banyak teknik-teknik tersebut yang tergantung pada bahasa yang digunakan dalam dokumen. Sementara ini kebanyakan teknik ditujukan bagi Bahasa Inggris. Demikian juga perangkat pengujian berupa corpus kebanyakan terdiri dari dokumen dalam Bahasa Inggris baik yang bersifat umum atau pun dengan tema tertentu. Untuk mengembangkan teknik-teknik temu kembali informasi bagi dokumen teks berbahasa Indonesia, dibutuhkan perangkat pengujian untuk Bahasa Indonesia. Salah satunya adalah suatu koleksi dokumen dalam Bahasa Indonesia sebagai pendekatan seragam dalam evaluasi sistem temu kembali informasi. B. PERUMUSAN MASALAH Penelitian ini berusaha untuk menyusun koleksi dokumen teks berbahasa Indonesia sebagai bagian perangkat pengujian sistem temu kembali informasi. C. TINJAUAN PUSTAKA Information Retrieval System (Sistem Temu-kembali Informasi) Menurut Lancaster (1968) dalam Rijsbergen (1979): Sebuah information retrieval system (IRS) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumendokumen yang berhubungan dengan permintaannya. Sifat pencarian sistem temu-kembali informasi berbeda dengan sistem temukembali data (misalnya dalam sistem manajemen basis data) dalam beberapa segi, antara lain spesifikasi kueri yang tidak lengkap, dan tingkat ketanggapan kesalahan yang tidak peka (Rijsbergen, 1979). Alasan utamanya adalah IRS menangani teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto, 1999). 3

IRS bekerja berdasarkan kueri yang diberikan pengguna yang menghasilkan daftar dokumen yang dianggap relevan. Selanjutnya pengguna dapat menggunakan hasil tersebut untuk mengakses informasi lebih lanjut. IRS mungkin saja tidak menghasilkan apa-apa jika memang tidak ditemukan dokumen yang relevan. Juga perlu diingat bahwa tidak ada jaminan bahwa seluruh materi yang ditemukembalikan tersebut relevan dengan yang diinginkan pengguna dan belum tentu seluruh materi yang relevan dengan permintaan pengguna berhasil ditemukembalikan. Corpus Istilah corpus terutama dikenal dalam bidang linguistik yang pada prinsipnya bermakna koleksi yang memiliki lebih dari satu teks. Suatu corpus modern memiliki beberapa karakteristik yakni (McEnery & Wilson, 2001): Sampling & representativeness Finite size Machine-readable form A standard reference Suatu corpus pengujian sistem temu kembali informasi terdiri dari: koleksi dokumen topik-topik, yang dapat digunakan sebagai kueri relevance judgement, sebagai daftar dokumen yang relevan dengan topik-topik yang tersedia Corpus dapat menyediakan pendekatan yang seragam dalam evaluasi kinerja sistem temu kembali informasi. Teknik evaluasi ini juga digunakan dalam Text Retrieval Conference (Hiemstra & Leeuwen, 2001). Recall dan Precision Dua parameter utama untuk keefektifan penemukembalian yang telah digunakan sejak lama adalah recall dan precision (Salton, 1989). Recall adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang relevan. Sedangkan precision adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang ditemukembalikan. Mizzaro (2001) menunjukkan kelemahan sistem precision dan recall dalam mengukur keefektifan IRS dan menyajikan sistem Average Distance Measure, namun alternatif tersebut membutuhkan pemberian nilai relevansi kontinu terhadap materi yang tersedia oleh pengguna sehingga lebih sulit untuk diterapkan. Relevansi sendiri masih merupakan sesuatu yang sulit untuk diukur secara tepat yang juga disebabkan oleh beragamnya pengertian mengenai relevansi itu sendiri sebagaimana dikemukakan oleh Greisdorf (2000) dan Mizzaro (1997). Sehingga sistem recall dan precision dapat menjadi kompromi yang berguna untuk evaluasi 4

IRS (Mizzaro, 1998). Evaluasi kinerja IRS dilakukan dengan menggunakan koleksi pengujian beserta gugus kueri dan penilaian relevansinya (gugus jawaban) (Lancaster & Warner, 1993). Parsing Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks (Grossman, 2002). Oleh karena itu bagian dasar dalam parsing adalah algoritme pengambil token dari teks yang disebut tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Dalam proses ini juga digunakan sebuah daftar kata buang (stoplist) yakni daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau kueri misalnya kata-kata tugas seperti yang, hingga, dan dengan. Proses parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya. Stemming Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan istilahistilah dokumen (Grossman, 2002). Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan kuerinya. Teknik-teknik stemming dapat dikategorikan menjadi: berdasarkan aturan sesuai bahasa tertentu berdasarkan kamus berdasarkan kemunculan bersama. Proses ini memiliki dua tujuan. Dalam hal efisiensi, stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam hal keefektifan, stemming meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang sama untuk ditemukembalikan. Hal tersebut tidak akan diperoleh jika tiap bentuk suatu kata disimpan secara terpisah dalam indeks. Akan tetapi, stemming dapat menurunkan tingkat precision jika setiap bentuk suatu stem diperoleh, sedangkan yang relevan hanyalah bentuk yang sama dengan yang digunakan dalam kueri (Liddy, 2001). Parsing dan stemming dalam suatu IRS tergantung pada bahasa yang digunakan dalam dokumen yang akan dicari. IRS untuk Bahasa Inggris kurang optimal untuk menangani dokumen dalam Bahasa Indonesia. Bahasa Indonesia memiliki 5

daftar kata buang (stoplist) serta sistem pembentukan kata yang sangat berbeda dengan bahasa Inggris, sehingga diperlukan IRS yang khusus untuk Bahasa Indonesia (Gunarso, 1998). Stemming untuk Bahasa Indonesia telah dikembangkan antara lain yang menggunakan aturan berdasarkan algoritme Porter (1980) oleh Akhmadi (2002) yang hanya melakukan pemotongan prefiks dan oleh Ridha (2002) yang melakukan pemotongan prefiks dan sufiks. Stemming berdasarkan kamus untuk Bahasa Indonesia juga telah dikembangkan oleh Nazief (1996) (Nazief, 2000). Pengindeksan Sebuah bahasa indeks adalah bahasa yang digunakan untuk menggambarkan dokumen-dokumen dan permintaan-permintaan. Elemen bahasa indeks adalah istilah indeks, yang dapat diturunkan dari teks dokumen yang digambarkan atau dibuat secara mandiri (Rijsbergen, 1979). Salton (1968) menunjukkan bahwa sistem pencarian dan analisa teks yang sepenuhnya otomatis tidak menghasilkan kinerja temu-kembali yang lebih buruk dibandingkan dengan sistem konvensional yang menggunakan pengindeksan dokumen manual dan formulasi pencarian manual. D. TUJUAN PENELITIAN Penelitian ini bertujuan untuk menyusun koleksi dokumen sebagai bagian perangkat pengujian sistem temu kembali informasi untuk dokumen teks berbahasa Indonesia. Koleksi yang disusun bertemakan pertanian. E. KONTRIBUSI PENELITIAN Hasil penelitian ini diharapkan dapat menjadi alat evaluasi kinerja sistem temu kembali informasi untuk dokumen teks berbahasa Indonesia. Koleksi yang disusun bertemakan pertanian sehingga memudahkan penelitian lebih lanjut untuk teknik-teknik temu kembali informasi yang spesifik untuk Bahasa Indonesia. F. METODE PENELITIAN Penelitian ini dilakukan dengan tahapan sebagai berikut: 1. Dokumen dikumpulkan dari artikel-artikel yang tersedia di Internet terutama dari situs-situs media. 2. Dokumen selanjutnya diformat dengan pemberian tag untuk membedakan bagian-bagiannya. 3. Dokumen yang telah diformat diindeks dengan sistem yang dikembangkan 6

Ridha (2002) menggunakan stoplist dan stemming prefiks dan sufiks. G. HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan pengumpulan dokumen menghasilkan koleksi yang terdiri dari 977 dokumen yang sebagian besar berasal dari situs-situs media massa. Sumbersumber tersebut antara lain: Gatra Indosiar Kompas Media Indonesia Republika Situs Hijau Suara Karya Suara Merdeka Sebagian besar dokumen yang terkumpul bersifat artikel media umum sedangkan hanya 22 dokumen yang merupakan tulisan ilmiah. Seluruh sumber artikel menggunakan Bahasa Indonesia semi-formal/formal. Koleksi dokumen yang terkumpul terdiri dari 514.731 kata dengan rata-rata masing-masing dokumen memiliki panjang 526,85 kata dengan dokumen terpendek hanya terdiri dari 41 kata sedangkan dokumen terpanjang terdiri dari 4366 kata. Jumlah istilah unik yang digunakan rata-rata 264 istilah termasuk kata-kata dalam stoplist atau 171,09 istilah di luar kata-kata dalam stoplist. Format Dokumen Dokumen yang terkumpul diformat dengan susunan tag sebagai berikut. <DOC> <DOCNO>Nomor Dokumen</DOCNO> <TITLE>Judul Dokumen</TITLE> <AUTHOR>Nama/inisial penulis</author> <DATE>Tanggal Dokumen</DATE> <TEXT>Teks lengkap </TEXT> 7

</DOC> Berikut keterangan masing-masing tag: Awal suatu dokumen ditandai dengan tag <DOC> dan akhir dokumen ditandai dengan tag </DOC>. <DOCNO> menandai nomor identitas dokumen dalam koleksi (tidak diindeks). <TITLE> menandai judul dokumen (diindeks). <AUTHOR> menandai nama penulis artikel (diindeks, optional). <DATE> menandai tanggal artikel (tidak diindeks, optional). <TEXT> menandai isi artikel (diindeks). Elemen dokumen dapat dengan mudah diolah dengan menggunakan SGML parser. Pengindeksan Dari pengindeksan yang dilakukan tercatat 28.338 buah istilah unik dan 250 di antaranya termasuk stoplist. Sedangkan 1.957 di antaranya tidak memenuhi syarat pemrosesan lebih lanjut misalnya karena panjangnya kurang dari tiga karakter. Lima istilah dengan frekuensi tertinggi adalah: 1. pertanian (856 dokumen, 5.444 kata) 2. petani (558 dokumen, 3.283 kata) 3. tahun (625 dokumen, 2.219 kata) 4. indonesia (501 dokumen, 2.033 kata) 5. tanaman (404 dokumen, 1.876 kata) Selanjutnya 26.131 istilah melalui operasi stemming yang menghasilkan 16.284 buah stem yang berarti menghasilkan penurunan jumlah istilah sebesar 37,68%. Lima stem dengan frekuensi tertinggi adalah: 1. nani (900 dokumen, 9.220 kata) 2. nanam (498 dokumen, 2.915 kata) 3. mrodu (598 dokumen, 2.907 kata) 4. 2000 (625 dokumen, 2.407 kata) 5. nahun (644 dokumen, 2.402 kata) Koleksi dokumen yang telah terkumpul selanjutnya perlu dilengkapi dengan topik-topik dan relevance judgment. 8

DAFTAR PUSTAKA Akhmadi, C.H. 2002. Algoritme Pemotong Sufiks Baku untuk Kata dalam Bahasa Indonesia Berbasis Algoritme Porter. Skripsi. Jurusan Ilmu Komputer IPB, Bogor. Baeza-Yates, R. & Ribeiro-Neto, B. 1999. Modern Information Retrieval. Addison-Wesley. Greisdorf, H. 2000. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science 3(2):67-71. Grossman, D. IR Book. http://www.ir.iit.edu/~dagr/cs529/files/ir_book/ [7 Maret 2002] Gunarso. 1998. Pemanfaatan Teknologi dalam Pengembangan Bahasa Indonesia. Prosiding Seminar Kebahasaan Sidang Ke-37 MABBIM. Hiemstra, D. & Leeuwen, D. van. 2001. Creating a Dutch Information Retrieval Test Corpus. Language and Computers 45:133-147. Lancaster, F. & Warner, A. 1993. Information Retrieval Today. Information Resources Press, Arlington. Liddy, E. 2001. How a Search Engine Works. Searcher 9(5). Information Today, Inc. McEnery, T. & Wilson, A. 2001. Corpus Linguistics 2 nd Edition. Edinburgh University Press. Mizzaro, S. 1997. Relevance: The Whole History. J. ASIS 48(9):810-832. Mizzaro, S. 1998. How Many Relevances in Information Retrieval? Interacting with Computers 10(3):305-322. Mizzaro, S. 2001. A New Measure of Retrieval Effectiveness (Or: What s Wrong with Precision and Recall). International Workshop on Information Retrieval (IR'2001) 43-52. Nazief, B. 2000. Development of Computational Linguistics Research: a Challenge for Indonesia. Porter, M.F. 1980. An Algorithm for Suffix Stripping. Program, 14(3):130-137. Ridha, A. 2000. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen 9

Berbahasa Indonesia. Skripsi. Jurusan Ilmu Komputer IPB, Bogor. Rijsbergen, C.J. van. 1979. Information Retrieval, Second Edition. Butterworths, London. Salton, G. 1968. A Comparison Between Manual and Automatic Indexing Methods. Technical Report No. 68-11. Department of Computer Science. Cornell University, Ithaca, N.Y. Salton, G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley. 10