ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming merupakan salah satu bagian dari information retrieval yang bertujuan untuk mengembalikan kata ke bentuk term dasarnya. Berdasarkan asumsi bahwa kata yang mempunyai term dasar sama memiliki arti yang sama, stemming digunakan untuk meningkatkan performansi sebuah information retrieval system. Dalam pengolahan teks berbahasa Indonesia, saat ini banyak digunakan teknik stemming yang menggunakan kamus sebagai alat bantu dalam proses stemming. Tidak demikian halnya dengan algoritma stemming Vega yang tidak membutuhkan bantuan kamus. Algoritma Vega hanya menggunakan aturan penghilangan imbuhan yang didasari oleh aturan bahasa Indonesia yang ada. Meski tanpa menggunakan bantuan kamus, algoritma stemming vega diharapkan dapat meningkatkan performansi dari information retrieval system. Untuk mengetahui hasil dari algoritma stemming vega, maka dibuat sebuah information retrieval system sederhana yang dapat menghitung performansi sistem berdasarkan query tertentu yang diinputkan. Langkah pertama pengujian adalah memeriksa hasil kata setelah dilakukan stemming. Pengujian kedua dilakukan untuk mengetahui performansi sistem yang menggunakan algoritma stemming vega dibandingkan dengan sistem tanpa stemming. Kemudian juga dilakukan analisis pengaruh tingkat kompresi stemming terhadap nilai performansi information retrieval system. Dari pengujian didapatkan bahwa algoritma stemming Vega menghasilkan banyak term yang tidak sesuai dengan kata dasar dalam bahasa Indonesia. Meski begitu, algoritma Vega dapat digunakan untuk meningkatkan performansi information retrieval system dalam situasi tertentu. Kata Kunci : Sistem information retrieval, Stemming, Vega.
Abstract Stemming is one part of information retrieval which aims to restore the words to form basic terms. Based on the assumption that words that have the same basic terms have the same meaning, stemming is used to improve the performance of an information retrieval system. In text processing for Indonesian language, is currently widely used technique that uses dictionary as a tool in the process of stemming. Otherwise Vega stemming algorithm does not require the help of a dictionary. Vega algorithm uses only affix removal rules based on existing Indonesian rule. Though without the help of a dictionary, vega stemming algorithm is expected to improve the performance of information retrieval system. To find out the results of a stemming algorithm vega, then created a simple information retrieval system that can calculate the system performance based on specific queries had been entered. The first step is to examine the results of tests carried out word after stemming. The second test conducted to determine the performance of a system that uses a stemming algorithm vega than the system without stemming. Then, analysis of the influence of compression rate stemming information retrieval system performance value. From the test it was found that Vega stemming algorithm produces many terms that are inconsistent with the basic words in the Indonesian language. Still, Vega algorithm can be used to improve information retrieval system performance in certain situations. Keywords : Information retrieval system, Stemming, Vega.
1. Pendahuluan 1.1. Latar belakang Stemming merupakan proses pencarian stem/akar dari sebuah term, yaitu dengan cara menghilangkan affix/imbuhan yang menempel pada term tersebut. Dalam information retrieval, stemming digunakan untuk mencari term yang mempunyai kesamaan morfologik, tujuannya untuk memberikan semua hasil yang relevan dari sebuah information retrieval system. Selain itu, stemming secara langsung dapat mereduksi ukuran file indeks. Hal ini dikarenakan kata-kata yang memiliki kesamaan morfologik akan dianggap berasal dari satu kata yang sama. Terdapat beberapa algoritma stemming yang sudah dikenal luas, diantaranya adalah algoritma Porter, algoritma Paice-Husk, dan algoritma Lovins. Ketiga algoritma tersebut utamanya dikembangkan untuk melakukan stemming pada bahasa Inggris. Sedangkan algoritma stemming untuk bahasa Indonesia yang telah dikembangkan adalah algoritma Nazief-Adriani, algoritma Arifin-Setiono, dan algoritma Vega. Pada tugas akhir ini akan membahas lebih jauh mengenai algoritma Vega. Algoritma Vega menggunakan beberapa aturan-aturan yang dapat menghilangkan affix yang menempel dari sebuah kata. Sebuah kata yang di stemming akan melewati aturan-aturan secara berurutan. Setiap aturan yang sesuai dengan kata tersebut, maka affix akan dihilangkan dari kata tersebut. Di saat aturan yang ada tidak sesuai dengan kondisi kata tersebut, maka proses stemming akan dilanjutkan pada aturan yang berikutnya hingga kata tersebut telah melalui semua aturan yang berlaku. Ada perbedaan mendasar algoritma Vega dengan dua algoritma berbasis bahasa Indonesia lainnya, yaitu dalam penggunaan kamus. Algoritma Vega tidak bergantung kepada kamus tidak seperti algoritma Nazief-Adriani dan algoritma Arifin-Setiono. Dengan tidak adanya proses pengecekan tiap kata di dalam kamus, maka akan mempercepat proses dari stemming tersebut. Penggunaan kamus dalam aplikasi stemming sangat mempengaruhi keakuratan term yang dihasilkan. Jika kamus yang digunakan baik dan sesuai dengan aturan maka akan menghasilkan term yang baik pula. Akan tetapi jika tidak maka akan terjadi hal sebaliknya. Selain itu, penggunaan kamus sebagai perbandingan term yang dihasilkan akan menimbulkan pemborosan kapasitas penyimpanan komputer. Semakin banyak kata dalam kamus, maka akan semakin membengkak pula penyimpanan yang digunakan selama proses pengecekan 1
berlangsung. Pada tugas akhir ini akan dibahas secara khusus penggunaan algoritma stemming Vega yang pada prosesnya tidak menggunakan kamus sebagai perbandingan term yang dihasilkan. 1.2. Perumusan masalah Pada tugas akhir ini akan membahas beberapa permasalahan yang muncul : a. Bagaimana mengimplementasikan teknik stemming dengan menggunakan algoritma Vega dalam suatu information retrieval system. b. Bagaimana kata yang dihasilkan dari proses stemming dengan menggunakan algoritma Vega. c. Bagaimana mengukur performance dari algoritma Vega dengan menghitung nilai precision-recall. 1.3. Batasan masalah Dalam melakukan penelitian ini dokumen input yang digunakan pada Tugas Akhir ini merupakan kumpulan dokumen berupa file teks berbahasa Indonesia dengan format txt yang telah ditentukan sebelumnya. 1.4. Tujuan Tujuan yang ingin dicapai pada tugas akhir ini adalah : a. Menganalisa hasil stem yang terbentuk dari proses stemming dengan algoritma Vega. b. Menganalisis keakuratan hasil information retrieval system yang dihasilkan oleh perangkat lunak yang menggunakan algoritma stemming Vega. 1.5. Metodologi penyelesaian masalah Metodologi penyelesaian masalah yang akan digunakan adalah : a. Studi literatur Melakukan studi literatur dengan pengumpulan bahan pembelajaran yang berkaitan dengan algoritma stemming Vega. Mengumpulkan data yang dapat digunakan sebagai koleksi dokumen. 2
b. Analisis dan desain Tahap ini meliputi analisis cara kerja algoritma stemming Vega. Merancang perangkat lunak yang digunakan sebagai simulasi. c. Implementasi dan testing Tahap ini meliputi pembangunan perangkat lunak yang telah dirancang pada tahap sebelumnya dan dilakukan pengujian untuk mengetahui performa algoritma stemming Vega. Pengujian algoritma akan dilakukan dengan menggunakan input berupa koleksi dokumen yang akan menghasilkan output berupa kata-kata yang telah mengalami proses stemming. d. Analisis hasil Menganalisa output stem dari hasil testing dan kemudian melakukan penghitungan keakuratan dari information retrieval system yang menggunakan algoritma stemming Vega. e. Pembuatan laporan Pada tahap ini akan dilakukan penyusunan hasil laporan terhadap penelitian yang telah dilakukan, dan membuat kesimpulan dari hasil penelitian tersebut. 3
5. Kesimpulan dan Saran 5.1. Kesimpulan Dari hasil penelitian yang dilakukan Beberapa kesimpulan yang dapat diambil dari Tugas Akhir ini yaitu : a. Stemming dengan menggunakan algoritma Vega tidak selalu menghasilkan kata dasar yang ada dalam kamus. b. Penggunaan algoritma stemming Vega pada information retrieval system tidak terlalu mempengaruhi performansi dari sistem tersebut. c. Nilai precision dipengaruhi oleh banyaknya varian kata yang menghasilkan term tertentu pada suatu kumpulan dokumen. d. Perubahan nilai kompresi stemming tidak mempengaruhi nilai performansi information retrieval system. e. Algoritma stemming Vega membutuhkan waktu yang singkat untuk melakukan stemming pada sebuah kata. 5.2. Saran Saran-saran yang dapat penulis uraikan untuk keperluan analisis selanjutnya adalah: a. Modifikasi penghilangan imbuhan diharapkan dapat meningkatkan performansi information retrieval system. b. Penggunaan koleksi dokumen yang lebih besar dimungkinkan dapat memberikan hasil yang lebih akurat. 42
Daftar pustaka [1] Asian, J., Williams, H. E., and Tahaghoghi, S. M. M., 2005, Stemming Indonesian, School of Computer Science and Information Technology RMIT University, Australia. [2] Asian, J., Williams, H. E., and Tahaghoghi, S. M. M., 2006, A Testbed for Indonesian Text Retrieval, In Peter Bruza, Alistair Moffat, and Andrew Turpin (editors), Proceedings of the 9th Australasian Document Computing Symposium (ADCS 2004), Melbourne, Australia, 55-58, 13 December 2004. [3] Asian, J., 2007, Effective Techniques for Indonesian Text Retrieval, Doctor s Thesis, School of Computer Science and Information Technology RMIT University, Australia. [4] A,W. Yanuar. Firdaus., 2008, Information Retrieval, Institut Teknologi Telkom, Bandung [5] Baeza-Yates, R. and Ribeiro, B., 1999, Modern Information Retrieval. Addison Wesley. [6] Indradjaja, L. S. and Bressan, S., 2003, Automatic Learning of Stemming Rules for the Indonesian Language, National University of Singapore, Singapore. [7] Indradjaja, L. S., 2003, Computational Linguistics for the Indonesian Language, Honours Year Thesis, National University of Singapore, Singapore. [8] Vega, B. V. S. N.. and Bressan, S, 2001, Indexing the Indonesian web: Language Identification and Miscellaneous Issues, Presented at Tenth International World Wide Web Conference, Hong Kong. 43