Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Transkripsi

1 Vol 2, No 3 Juni 2012 ISSN Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo Madura Jl. Raya Telang PO.BOX 2 Kamal, Bangkalan, Madura hastarita.fika@gmail.com ABSTRAK Pertambahan data setiap tahun untuk dokumen naskah publikasi di salah satu program studi perguruan tinggi menjadi penyebab semakin dibutuhkannya sarana untuk pencarian data yang lebih cepat dan sesuai dengan keinginan pengguna. Pencarian yang telah digunakan masih bersifat word maching berdasarkan kata kunci pada judul ataupun penyusunnya. Hal ini menyebabkan munculnya dokumen yang hanya relevan berdasarkan judulnya atau penyusunnya saja, tetapi tidak berdasarkan isi dari dokumen tersebut. Sehingga banyak dokumen relevan yang tidak terpanggil. Penerapan sistem temu kembali informasi terhadap koleksi dokumen, diharapkan mampu menjawab kebutuhan tersebut. Penelitian ini melakukan kajian penerapan sistem temu kembali informasi dalam mesin pencarian abstrak naskah publikasi dengan menggunakan preprocessing, inverted index, pembobotan tf-idf dan model pencarian ruang vektor. Pada pengujian sistem diperoleh hasil bahwa sistem ini mampu menghasilkan dokumen pencarian dengan tingkat recall sebesar 84,7%, dan precision sebesar 39,7%. Hal ini berarti sistem mampu meningkatkan performa pencarian, terutama untuk hal kelengkapan perolehan dokumen yang diinginkan pengguna. Kata kunci : sistem temu kembali informasi, recall, precision ABSTRACT Added publication manuscript documents each year in one departement of university is causes of the need to search data more quickly accordance with the user need. Search that has been used is still a word maching based on keywords in the title or composer. This led to the emergence of relevant documents only by their title or composer, but not based on the content of the document.many relevant documents that not called. Application of information retrieval system on the document collection, expected to answer those needs. This study reviewing the application of information retrieval in search engines publication abstract using preprocessing, inverted index, tf-idf weighted and vector space model. The result of system testing is able to produce a document search with a recall rate of 84.7% and precision of 39.7%. This means that the system can improve the search performance, especially for the completeness acquisition documents of the user's need. Keywords: information retrieval system, recall, precision. 355

2 Vol 2, No 3 Juni 2012 PENDAHULUAN Seiring bertambahnya tahun, semakin banyak lulusan S2 dan semakin banyak pula Naskah Publikasi yang dihasilkan. Saat ini, beberapa Program Studi memiliki sarana untuk mempublikasikan Naskah Publikasi tersebut secara onlinesetelah menganalisa beberapa online library diperoleh hasil bahwa pencarian yang digunakan pada sistem terkomputerisasi tersebut masih bersifat data retrieval, dalam artian pencariannya masih terbatas menggunakan kata kunci (keyword) berdasarkan subyek, judul atau penyusun dari setiap dokumen. Pencarian tersebut memiliki kelemahan, yaitu dokumen yang dihasilkan dari pencarian terkadang tidak sesuai dengan yang diinginkan pengguna. Sistem Temu Kembali Informasi dalam mesin pencarian dokumen mampu menghasilkan dokumen dengan tingkat relevansi yang tinggi. Adanya penelitian mengenai peningkatan performa Sistem Temu Kembali Informasi melalui stemming, menjadi salah satu objek penelitian. Pengaruh stemming Bahasa Indonesia terhadap peningkatan nilai recall hasil pencarian sistem temu kembali informasi dengan menggunakan mesin pencarian zettair telah dilakukan dan menghasilkan nilai recall yang tinggi [1]. Dalam proses pencariannya, Zettair menggunakan model pencarian boolean. Sistem Temu Kembali Informasi terdiri dari beberapa sub bagian untuk menjalankan tugasnya. Dan masing-masing bagian memiliki beberapa model. Untuk model pencarian terdapat model klasik dan model terstruktur. Model klasik terdiri dari model teoritis (model boolean), model algebraic (model ruang vektor), dan probabilistik. Dengan adanya model-model tersebut, muncul pertanyaan penelitian: apakah stemming juga berpengaruh terhadap performa sistem dengan model pencarian ruang vektor diukur dari recall dan precision. Sehingga pada penelitian ini dilakukan analisa terhadap sistem temu kembali informasi yang dibuat dengan model inverted index, model pencarian ruang vektor dengan adanya stemming. Mengacu pada keakuratan hasil penelitian terdahulu [2], maka algoritma stemming yang digunakan adalah algoritma stemming Nazief Andriani. Dasar Teori Teori yang digunakan adalah teori mengenai Sistem Temu Kembali Informasi, Pre Processing, Stemming Bahasa Indonesia, Model Pencarian Ruang Vektor dan Pengukuran Performa Sistem. Sistem Temu Kembali Informasi Di dunia informasi terdapat beberapa cara yang dapat dilakukan untuk proses pencarian dokumen. Gambar 2.1 mengilustrasikan interaksi pengguna dalam menemukan suatu informasi yang diinginkan. Terdapat 2 (dua) istilah yang biasanya dilakukan, yaitu data atau informasi retrieval dan browsing. Kedua istilah itu samasama menghasilkan suatu informasi dan biasanya dilakukan pada antarmuka web, tetapi berbeda proses. Browsing adalah proses mencari informasi dari satu link ke link lainnya. Sedangkan data atau informasi retrieval adalah proses mencari informasi yang dimiliki suatu web page melalui query. Retrieval dan browsing dapat saling terkait dalam penggunaannya. Proses menghasilkan dokumen sesuai dengan query dari pengguna inilah yang disebut proses temu kembali informasi [3]. Gambar 1. Interaksi pengguna dengan Sistem Temu Kembali Informasi Proses yang dilakukan Sistem Temu Kembali Informasi secara umum terlihat pada Gambar 1. Pada gambar terlihat adanya beberapa tahapan proses yang akan dilalui mulai dari query pengguna sampai dengan hasil keluaran sistem. 356

3 Fika Hastarita Rachman, Sistem Temu Kembali... Gambar 2. Tahapan proses sistem temu kembali informasi [3] Proses retrieval merupakan proses kompleks yang dapat dibagi menjadi subproses. Terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query yang dimasukkan pengguna dalam sistem. Alur yang pertama tidak tergantung pada alur kedua, pemrosesan koleksi dokumen dilakukan sampai menghasilkan basis data indeks. Sedangkan alur kedua tergantung pada basis data indeks hasil pemrosesan yang pertama. Sistem temu kembali informasi secara umum terdiri dari 2 (dua) tahapan besar yaitu indexing dan pencarian. Setelah menghimpun dokumen (dalam hal ini naskah publikasi dalam bentuk pdf dan abstrak dalam bentuk text) akan dilakukan proses preprocessing dilanjutkan dengan proses indexing, yaitu membangun suatu daftar indeks (inverted index). Kemudian dilakukan proses pembobotan terhadap indeks tersebut. Term indeks dan bobot disimpan untuk selanjutnya diproses mencari kemiripan vektor dengan kata kunci yang dihasilkan dari proses indexing query. Hasil perhitungan kemiripan diranking untuk dikembalikan kepada pengguna. Rancangan arsitektur sistem untuk sistem temu kembali informasi terlihat pada Gambar 3. Dalam hal ini proses tokenisasi (tokenization), penghilangan stopword, stemming dan indexing masuk kedalam tahapan preprocessing. Dari arsitektur sistem secara keseluruhan, terdapat bagian yang digambarkan detail dalam bentuk flowchart, yaitu proses preprocessing (tokenisasi, stemming, inverted index, pembobotan tf-idf) dan proses pencarian menggunakan model pencarian ruang vektor / VSM (Vektor Space Model). Terdapat beberapa proses dalam pengolahan data abstrak dokumen. Proses penghilangan tanda baca menjadi spasi adalah proses penting, karena dalam pencarian tanda baca tidak digunakan. Proses tokenisasi juga harus dilakukan, sebab dalam proses ini dihasilkan token-token yang nantinya digunakan sebagai inputan dalam proses selanjutnya. Dalam proses tokenisasi, data abstrak yang berbentuk teks dipisah dengan pemisah spasi menjadi term-term yang akan diolah selanjutnya. Penghilangan stopword dilakukan ketika termnya memiliki bentuk yang sama dengan list term stopword pada korpus stopword. Term yang tidak terkena proses stopword akan masuk dalam tahapan stemming, inverted index dan pembobotan tf-idf. 357

4 Vol 2, No 3 Juni 2012 Gambar 3. Rancangan arsitektur sistem temu kembali informasi Pre Processing Proses text operation sebagai Preprocessing, karena dilakukan sebelum proses utama temu kembali informasi dilakukan [4]. Tujuan dari preprocessing adalah mengoptimalkan performa dari analisis data. Analisis data sangat bergantung pada preprocessing dan model representasi data. Ini adalah langkah yang paling penting sebelum menyimpan representasi dokumen untuk mengukur kemiripan. Dalam preprocessing terdapat beberapa proses yang menggunakan istilah-istilah dalam system temu kembali informasi. Diantaranya stopword dan stemming. Stopwords adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna [5]. Sedangkan stemming adalah proses untuk memecah setiap kata menjadi suatu bentuk kata dasar. Stem(akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhan (awalan dan akhiran) dan sisipannya. Sebelum dilakukan proses pembuangan stopwords, dilakukan proses case folding, yaitu pengubahan semua huruf dalam dokumen menjadi huruf kecil [6]. Stemming Bahasa Indonesia Ada banyak ragam pembentukan kata dalam Bahasa Indonesia. Sebagian besar kata dibentuk dengan cara menggabungkan beberapa komponen yang berbeda. Afiks (imbuhan) akan mengubah makna dan pembentukan kata. Prefiks (awalan) melekat di awal kata dasar, diantaranya: ber-, di-, ke-, me-, pe-, se-, ter-. Awalan yang mengalami peluluhan: meng-, mem-, meny-, per-, pem-, peng-, peny-. Untuk sufiks (akhiran), terdiri dari: -an, -kan, -i, -pun, -lah, -kah, -nya. Dan untukkonfiks (awalan-akhiran), terdiridari: ke - an, ber - an, pe - an, peng - an, peny - an, pem - an, per - an, se nya. Dalam penulisannya juga terdapat infiks (sisipan), reduplikasi dan kata-kata majemuk yang berafiks [7]. Algoritma Nazief dan Adriani [1], memiliki tahap-tahap sebagai berikut: 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, - mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( -ku, - mu, atau -nya ), jika ada. 3. Hapus Derivation Suffixes ( -i, -an atau - kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jikatidakmakakelangkah 3a a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau - kan ) dikembalikan, lanjut langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word 358

5 Fika Hastarita Rachman, Sistem Temu Kembali... belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tabel 1. Kombinasi awalan akhiran yang tidak diijinkan Tabel 2. Aturan tipe awalan untuk kata yang diawali dengan Te- Tabel 3. Jenis awalan berdasarkan tipe awalannya Model Ruang Vektor Model vektor adalah teknik standart dari sistem temu kembali informasi dimana dokumennya direpresentasikan dalam kata yang terkandung didalamnya. Model ruang vektor dibuat oleh Gerard Salton pada tahun 1960-an, model ini menkonversi teks dalam bentuk matrik dan vektor, kemudian digunakan teknik analisis matrik untuk menemukan relasi dan kunci dari koleksi dokumen yang sesuai dengan query yang dibutuhkan pengguna [8]. Representasi dokumen dan query dalam bentuk vektor dapat terlihat pada Gambar 4. Gambar 4. Tampilan ruang vektor dari dokumen dan query Kesamaan antar dokumen dapat diukur dengan fungsi similaritas (mengukur kesamaan) atau fungsi jarak(mengukur ketidaksamaan). Salah satu ukuran kemiripan teks yang populer [9] adalah cosine similarity. Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen dj dan queryq, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara dj dan q didefinisikan 359

6 Vol 2, No 3 Juni 2012 sebagai: similarity ( d j, q) d j. q d j. q i 1 t t i 1 ( w. w ) w ij 2 ij. t i 1 iq w 2 iq 2. Recall (kelengkapan) Parameter ini menunjukkan tingkat keberhasilan mengenali suatu event dari seluruh event yang seharusnya dikenali. Pengukuran Performa Sistem Nilai performansi sistem temu kembali informasi menunjukkan keberhasilan dari suatu sistem dalam mengembalikan informasi yang dibutuhkan oleh user. Pengukuran yang seringkali digunakan untuk mengukur performa kerja sistem temu kembali informasi adalah recall dan precision. 1. Precision (ketepatan) Parameter ini menunjukkan tingkat ketepatan hasil pencarian terhadap suatu event. METODE Jalan penelitian yang dilakukan meliputi 5 tahapan yaitu tahap 1 pemahaman awal, tahap 2 perancangan sistem, tahap 3 pembuatan sistem, tahap 4 pengujian sistem, dan tahap 5 adalah dokumentasi. Gambaran detail alurnya terlihat pada diagram alir pada Gambar 5. Gambar 5.Alur metodologi penelitian 360

7 Fika Hastarita Rachman, Sistem Temu Kembali... Dari analisa sistem diketahui terdapat beberapa masalah yang nantinya digunakan sebagai dasar pembuatan sistem. Diantaranya adalah: Adanya dokumen tesis yang semakin bertambah setiap tahunnya sehingga dibutuhkan sistem pencarian dengan performa yang baik. Kurang optimalnya penggunaan website referensi bagi pengguna perpustakaan jurusan dari sisi pencarian dokumen yang dibutuhkan. Dengan dukungan fasilitas website referensi, sumber daya yang dapat mengoperasikan komputer dengan baik (admin perpustakaan), dan sumber data digital yang ada, maka muncul peluang pengembangan sistem sekarang ke sistem baru melalui pembuatan mesin pencarian data digital dokumen dengan model sistem temu kembali informasi. Yang dijadikan sebagai sumber data digitalnya adalah data Tesis S2 salah satu perguruan tinggi negeri. Pengguna yang terlibat adalah pengguna umum sebagai pencari data dan administrasi perpustakaan yang berfungsi untuk manage data. Gambaran umum sistem secara keseluruhan terlihat pada Gambar Sistem harus mampu melakukan pembobotan/perankingan hasil dokumen pencarian. 4. Sistem harus memiliki fasilitas download dokumen hasil pencarian bagi anggota. Kelengkapan fitur dalam sistem didukung oleh adanya kebutuhan pengguna dalam melakukan hal-hal tertentu. Daftar kebutuhan pengguna terlihat pada Tabel 4. Dalam tabel tersebut diuraikan kebutuhan-kebutuhan yang diinginkan oleh aktor pengguna sistem. Tabel 4. Daftar Kebutuhan Pengguna Aktor Requirement Admin Anggota Pengguna Umum Dapat login dan logout dalam sistem Dapat merubah password Dapat menambahkan dokumen baru Dapat mengedit info dokumen yang sudah ada Dapat menghapus dokumen Dapat melakukan pencarian dokumen Dapat membuka/mendownload dokumen yang dipilih dari daftar dokumen hasil pencarian Dapat melakukan pencarian dokumen HASIL DAN PEMBAHASAN Gambar 6. Gambaran umum sistem pencarian dokumen Setelah dilakukan analisa sistem sebelumnya dan kelayakan sistem digunakan, maka terlihat bahwa dalam pembuatannya nanti diharapkan sistem memiliki kemampuan: 1. Sistem harus mampu melakukan preprocessing (case folding, tokenisasi, penghilangan stopword, dan stemming) data dokumen dalam bentuk digital untuk menghasilkan data indeks. 2. Sistem harus memiliki fasilitas input query dengan Bahasa Indonesia dan mampu untuk melakukan pencarian dokumen yang ada dalam koleksi dokumen. Terdapat beberapa ujicoba yang dilakukan terhadap 100 dokumen abstrak naskah publikasi Tesis dengan 12 variasi query pencarian. Dalam ujicoba proses tokenisasi (tokenization), terdapat hasil tokenisasi berupa kata yang disimpan dalam suatu array dan telah terdefinisi pada program. Tokenisasi untuk naskah dokumen dilakukan pada saat dokumen mengalami proses penyimpanan ke dalam database. Pada ujicoba proses stopword removal, proses berjalan lancar. Terbukti dengan adanya penghapusan kata yang sama dengan list stopword. data yang digunakan sebagai korpus adalah list stopword hasil penelitian Fadilah Z.Tala, sebanyak 364 kata. Hasil ujicoba algoritma stemming membuktikan bahwa algoritma stemming Nazief- Adriani, memiliki beberapa kelemahan.diantaranya: 1. Tidak adanya algoritma untuk mengatasi suatu kata yang bersisipan, seperti: kinerja 361

8 Jumlah data Vol 2, No 3 Juni Tidak adanya algoritma untuk mengatasi suatu kata yang imbuhannya meluluh, seperti: pengembangan, penerapan, pemasaran Dengan adanya kendala tersebut, term/bentuk dasar yang dihasilkan proses ini belum kesemuanya berbentuk kata dasar. Setelah dilakukan ujicoba sistem secara keseluruhan dengan 100 dokumen abstrak dan 12 query pencarian diperoleh jumlah dokumen terambil dan dokumen relevan yang berbeda Hasil ujicoba proses inverted index dan pembobotan tf-idf berlangsung dengan baik, sesuai dengan prosedur dalam perancangan. Untuk ujicoba sistem keseluruhan, diperoleh hasil 7299 index dan 2883 term. Nilai precision rata-rata yang dihasilkan adalah 0,397 dan nilai recall rata-rata yang dihasilkan adalah 0,847. Grafik pada Gambar 7 menunjukkan bahwa ada perbedaan jumlah dokumen yang terambil pada sistem menggunakan stemming dan dokumen yang relevan dengan keinginan pengguna pada tiap-tiap query pencarian. Tabel 5. Query pencarian ujicoba sistem Kode Isi Query Pencarian Q1 kepuasan pelanggan terhadap aplikasi Q2 aplikasi mobile dengan wireless Q3 Sistem jaringan computer Q4 pengolahan sinyal digital Q5 pengenalan sinyal suara dengan fuzzy Q6 evaluasi kegunaan SIAK Q7 evaluasi kinerja Q8 pendukung keputusan universitas Q9 Citra satelit Q10 evaluasi kesuksesan administrasi Q11 penggunaan aplikasi pemerintahan Q12 analisa manfaat terhadap masyarakat Relevan Terambil Terambil Relevan Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11 Q12 Indeks Query Gambar 7. Grafik perbandingan dokumen relevan terambil pada sistem Dari hasil pengujian diketahui bahwa rata-rata waktu pencarian adalah ±20 detik. Setelah dianalisa dengan melakukan perhitungan nilai big O maka diperoleh hasil bahwa sistem memiliki nilai pertumbuhan data yang sebanding dengan nilai kuadratik jumlah dari token yang akan diproses. Dengan kata lain perhitungan big O nya adalah O(n 2 ), dengan n adalah jumlah token yang digunakan. Token adalah hasil dari proses tokenisasi yang masukannya berupa data dokumen teks. Sehingga secara tidak langsung nilai kompleksitas waktu dari algoritma yang 362

9 Fika Hastarita Rachman, Sistem Temu Kembali... digunakan sebanding dengan jumlah dokumen yang digunakan. Semakin banyak dokumen koleksi, maka semakin besar pula nilai kompleksitasnya. Kata-kata dalam list stopword juga berpengaruh terhadap hasil pencarian. Hal ini terbukti ketika kata sistem dijadikan masukan, maka hasil keluaran adalah banyak dokumen, sehingga berpengaruh juga terhadap pengukuran precision. Gambar 8 menggambarkan tampilan utama sistem pencarian yang berbasis sistem temu kembali informasi untuk pengguna umum. Terlihat fitur yang diberikan hanya fitur pencarian dan info-info umum. Sedangkan tampilan utama untuk aktor admin tersedia beberapa fitur sesuai dengan fungsi dan kerja dari aktor tersebut, diantaranya: fitur tambah dokumen koleksi, list untuk naskah tesis, pencarian dokumen, tambah anggota dan lainnya. SIMPULAN 1. Model sistem temu kembali informasi dengan penggunaan stemming, dan pencarian ruang vector, serta inverted index mampu menghasilkan dokumen yang dibutuhkan pengguna. 2. Penggunaan algoritma stemming dapat mempengaruhi nilai similarity vector yang diperoleh. Untuk penggunaan algoritma Nazief Adriani dalam sistem ini, diperoleh pengukuran recall (kelengkapan) sebesar 84,7% dan precision sebesar 39,7%. Hal ini berarti system mampu meningkatkan performa pencarian, terutama untuk hal Gambar 8. Tampilan bagi pengguna umum kelengkapan perolehan dokumen yang diinginkan pengguna berdasarkan query yang dimasukkan. SARAN Dalam pengembangan sistem selanjutnya diharapkan pengembang sistem mampu mengembangkan system ke arah yang lebih luas lagi. 1. Dalam proses pencarian Sistem Temu Kembali Informasi dibuat adanya klustering, sehingga hasil pencariannya lebih optimal dengan stopword list yang semakin luas sesuai dengan bidang dalam dokumen koleksi 2. Penggunaan stemming untuk dua atau lebih bahasa dalam penerapan Sistem Temu Kembali Informasi (misal: Inggris dan Indonesia), sehingga dokumen yang dijadikan korpus lebih luas. 3. Adanya proses kesamaan term, antara term yang dijadikan query dengan beberapa term yang memiliki arti yang sama, semisal: cinta 363

10 Vol 2, No 3 Juni 2012 dengan love sehingga dapat meningkatkan performa pencarian 4. Adanya penelitian mengenai peningkatan kompleksitas algoritma (O(n)) terhadap performa kinerja Sistem Temu Kembali Informasi 5. Adanya penelitian dengan menggunakan algoritma stemming yang kompleks, yang mampu mengenali bentuk-bentuk kata berimbuhan, bersisipan, mengalami peluluhandan kata majemuk DAFTAR PUSTAKA [1] Mirna. A, Asian, J., Bobby N., Tahagoghi W., Hugh E., Stemming Indonesian: A Confix- Stripping Approach, Artikel ACM Transactions on Asian Language Information Processing, Vol.6, No.4, Artikel 13, Desember [2] Lady, A., Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia, Konferensi nasional Sistem dan Informatika, Bali, [3] Ricardo Y. B., Berthier Ribeiro N.B, Modern Information Retrieval, ACM Press, New York, [4] Nisa, N., An Analysis of Hierarchical Clustering and Neural Network Clustering for Suggestion Supervisitors and Examiners, Tesis S2 Universitas Teknologi Malaysia, [5] Yudi, 2008, Stopword Untuk Bahasa Indonesia. URL : op-words-untuk-bahasa-indonesia/, Tanggal akses: 14 Maret [6] Wibisono, Y., Khondra, A., Clustering Berita Berbahasa Indonesia, KNSI, [7] Anonymous, Kamus Elektronik Indodic, Pembentukan Kata-kata Bahasa Indonesia, URL: Tanggal akses: 28 April [8] Said, A., Mohammad, A., Rosni, N, Aini, Modified Vector Space Model for Protein Retrieval, IJCSNS International Journal of Computer Science and Network Security, [9] Sandeep, T., Patel M., Jignesh, Estimating the Selectivity of tf-idf based Cosine Similarity Predicates, Sigmod Record, Vol. 36 No.4, Desember,