ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

dokumen-dokumen yang mirip
Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK. Proposal Tugas Akhir. Logo kampus.

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

1. Pendahuluan. 1.1 Latar belakang

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

IMPLEMENTASI ALGORITMA RABIN-KARP MENGGUNAKAN STEMMING NAZIEF DAN ADRIANI UNTUK MENDETEKSI TINGKAT KEMIRIPAN FILE TEKS YANG BERBENTUK SKRIPSI SKRIPSI

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB I PENDAHULUAN Latar Belakang Masalah

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

Preprocessing Text Mining Pada Box Berbahasa Indonesia

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

BAB III METODOLOGI PENELITIAN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

BAB I PENDAHULUAN. Information retrieval (IR) adalah ilmu yang mempelajari pencarian

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB I. Pendahuluan. 1. Latar Belakang Masalah

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

IMPLEMENTASI ALGORITMA WINNOWING DAN PORTER STEMMER MENDETEKSI KEMIRIPAN DUA DOKUMEN BERBASIS WEB SKRIPSI LIDIA ARTA FERARI

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PERSYARATAN PRODUK

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

Penanganan Kasus Overstemming dan Understemming dengan Modifikasi Algoritma Stemming

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI DAN ANALISIS STRUKTUR DATA INDEX SB-TREE PADA TEXT RETRIEVAL SYSTEM

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

Bab 1 Pendahuluan 1.1 Pengantar

Ekstraksi Kata Dasar Secara Berjenjang (Incremental Stemming) Berbasis Aturan Morfologi untuk Teks Berbahasa Indonesia

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

Kata Kunci: pengecekan ejaan, kata berimbuhan, string matching, algoritma KMP.

BAB I PENDAHULUAN 1.1 Latar Belakang

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Search Engines. Information Retrieval in Practice

MODEL PENGAJARAN MENULIS ARGUMENTASI BAHASA JERMAN MELALUI TEKNIK DISKUSI

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

BAB I PENDAHULUAN 1.1 Latar Belakang

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

RADEN RARA VIVY KUSUMA ARDHANI

BAB I PENDAHULUAN Latar Belakang

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

INFORMATION RETRIEVAL TUGAS AKHIR DAN PERHITUNGAN KEMIRIPAN DOKUMEN MENGACU PADA ABSTRAK MENGGUNAKAN VECTOR SPACE MODEL

Text Pre-Processing. M. Ali Fauzi

BAB I PENDAHULUAN! 1.1 Latar Belakang

Peningkatan Algoritma Porter Stemmer

Penerapan Algoritma K-Means untuk Clustering

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

BAB 1 PENDAHULUAN Latar Belakang

Penerapan Logika Samar dalam Peramalan Data Runtun Waktu

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

SISTEM PEMBACA LJK BERBASIS PENGOLAHAN CITRA DIGITAL MENGGUNAKAN SCANNER LJK READER SYSTEM BASED DIGITAL IMAGE PROCESSING USING SCANNER

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Skripsi Diajukan untuk Memperoleh Gelar Sarjana Pendidikan Pada Program Studi S-1 PGSD. Diajukan Oleh: Teguh Santoso A54E131024

SISTEM INFORMASI PERPUSTAKAAN SMP PGRI KASIHAN BANTUL NASKAH PUBLIKASI

KOMPRESI DAN DEKOMPRESI DATA TEKSTUAL MENGGUNAKAN ALGORITMA DEFLATE. Valentinus Henry G /

BAB II LANDASAN TEORI

ABSTRAK. Kata kunci: temperamen, kepribadian, Hippocrates, sinonim, antonim, pembelajaran mesin. Universitas Kristen Maranatha

PERANCANGAN PERANGKAT LUNAK KRIPTOGRAFI VISUAL TANPA EKSPANSI PIKSEL DAN ALGORITMA RLE

PENERAPAN STEMMING DENGAN ALGORITMA PORTER PADA QUERY PENCARIAN JUDUL BUKU

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

ABSTRAK. Kata Kunci: sistem penerjemah Alkitab, Bilingual Evaluation Understudy, GIZA++, Statistical Machine Translation, dan IBM model.

ALGORITMA STEMMING UNTUK KATA SERAPAN BAHASA INDONESIA

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

IDENTIFIKASI TANDA TANGAN MENGGUNAKAN ALGORITMA DOUBLE BACKPROPAGATION ABSTRAK

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

ANALISA PERFORMANSI PERTITIONING TABEL PADA RELATIONAL DATABASE MANAGEMENT SYSTEM

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

ANALISA HASIL PERBANDINGAN IDENTIFIKASI CORE POINT PADA SIDIK JARI MENGGUNAKAN METODE DIRECTION OF CURVATURE DAN POINCARE INDEX

BAB III METODOLOGI PENELITIAN

Transkripsi:

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming merupakan salah satu bagian dari information retrieval yang bertujuan untuk mengembalikan kata ke bentuk term dasarnya. Berdasarkan asumsi bahwa kata yang mempunyai term dasar sama memiliki arti yang sama, stemming digunakan untuk meningkatkan performansi sebuah information retrieval system. Dalam pengolahan teks berbahasa Indonesia, saat ini banyak digunakan teknik stemming yang menggunakan kamus sebagai alat bantu dalam proses stemming. Tidak demikian halnya dengan algoritma stemming Vega yang tidak membutuhkan bantuan kamus. Algoritma Vega hanya menggunakan aturan penghilangan imbuhan yang didasari oleh aturan bahasa Indonesia yang ada. Meski tanpa menggunakan bantuan kamus, algoritma stemming vega diharapkan dapat meningkatkan performansi dari information retrieval system. Untuk mengetahui hasil dari algoritma stemming vega, maka dibuat sebuah information retrieval system sederhana yang dapat menghitung performansi sistem berdasarkan query tertentu yang diinputkan. Langkah pertama pengujian adalah memeriksa hasil kata setelah dilakukan stemming. Pengujian kedua dilakukan untuk mengetahui performansi sistem yang menggunakan algoritma stemming vega dibandingkan dengan sistem tanpa stemming. Kemudian juga dilakukan analisis pengaruh tingkat kompresi stemming terhadap nilai performansi information retrieval system. Dari pengujian didapatkan bahwa algoritma stemming Vega menghasilkan banyak term yang tidak sesuai dengan kata dasar dalam bahasa Indonesia. Meski begitu, algoritma Vega dapat digunakan untuk meningkatkan performansi information retrieval system dalam situasi tertentu. Kata Kunci : Sistem information retrieval, Stemming, Vega.

Abstract Stemming is one part of information retrieval which aims to restore the words to form basic terms. Based on the assumption that words that have the same basic terms have the same meaning, stemming is used to improve the performance of an information retrieval system. In text processing for Indonesian language, is currently widely used technique that uses dictionary as a tool in the process of stemming. Otherwise Vega stemming algorithm does not require the help of a dictionary. Vega algorithm uses only affix removal rules based on existing Indonesian rule. Though without the help of a dictionary, vega stemming algorithm is expected to improve the performance of information retrieval system. To find out the results of a stemming algorithm vega, then created a simple information retrieval system that can calculate the system performance based on specific queries had been entered. The first step is to examine the results of tests carried out word after stemming. The second test conducted to determine the performance of a system that uses a stemming algorithm vega than the system without stemming. Then, analysis of the influence of compression rate stemming information retrieval system performance value. From the test it was found that Vega stemming algorithm produces many terms that are inconsistent with the basic words in the Indonesian language. Still, Vega algorithm can be used to improve information retrieval system performance in certain situations. Keywords : Information retrieval system, Stemming, Vega.

1. Pendahuluan 1.1. Latar belakang Stemming merupakan proses pencarian stem/akar dari sebuah term, yaitu dengan cara menghilangkan affix/imbuhan yang menempel pada term tersebut. Dalam information retrieval, stemming digunakan untuk mencari term yang mempunyai kesamaan morfologik, tujuannya untuk memberikan semua hasil yang relevan dari sebuah information retrieval system. Selain itu, stemming secara langsung dapat mereduksi ukuran file indeks. Hal ini dikarenakan kata-kata yang memiliki kesamaan morfologik akan dianggap berasal dari satu kata yang sama. Terdapat beberapa algoritma stemming yang sudah dikenal luas, diantaranya adalah algoritma Porter, algoritma Paice-Husk, dan algoritma Lovins. Ketiga algoritma tersebut utamanya dikembangkan untuk melakukan stemming pada bahasa Inggris. Sedangkan algoritma stemming untuk bahasa Indonesia yang telah dikembangkan adalah algoritma Nazief-Adriani, algoritma Arifin-Setiono, dan algoritma Vega. Pada tugas akhir ini akan membahas lebih jauh mengenai algoritma Vega. Algoritma Vega menggunakan beberapa aturan-aturan yang dapat menghilangkan affix yang menempel dari sebuah kata. Sebuah kata yang di stemming akan melewati aturan-aturan secara berurutan. Setiap aturan yang sesuai dengan kata tersebut, maka affix akan dihilangkan dari kata tersebut. Di saat aturan yang ada tidak sesuai dengan kondisi kata tersebut, maka proses stemming akan dilanjutkan pada aturan yang berikutnya hingga kata tersebut telah melalui semua aturan yang berlaku. Ada perbedaan mendasar algoritma Vega dengan dua algoritma berbasis bahasa Indonesia lainnya, yaitu dalam penggunaan kamus. Algoritma Vega tidak bergantung kepada kamus tidak seperti algoritma Nazief-Adriani dan algoritma Arifin-Setiono. Dengan tidak adanya proses pengecekan tiap kata di dalam kamus, maka akan mempercepat proses dari stemming tersebut. Penggunaan kamus dalam aplikasi stemming sangat mempengaruhi keakuratan term yang dihasilkan. Jika kamus yang digunakan baik dan sesuai dengan aturan maka akan menghasilkan term yang baik pula. Akan tetapi jika tidak maka akan terjadi hal sebaliknya. Selain itu, penggunaan kamus sebagai perbandingan term yang dihasilkan akan menimbulkan pemborosan kapasitas penyimpanan komputer. Semakin banyak kata dalam kamus, maka akan semakin membengkak pula penyimpanan yang digunakan selama proses pengecekan 1

berlangsung. Pada tugas akhir ini akan dibahas secara khusus penggunaan algoritma stemming Vega yang pada prosesnya tidak menggunakan kamus sebagai perbandingan term yang dihasilkan. 1.2. Perumusan masalah Pada tugas akhir ini akan membahas beberapa permasalahan yang muncul : a. Bagaimana mengimplementasikan teknik stemming dengan menggunakan algoritma Vega dalam suatu information retrieval system. b. Bagaimana kata yang dihasilkan dari proses stemming dengan menggunakan algoritma Vega. c. Bagaimana mengukur performance dari algoritma Vega dengan menghitung nilai precision-recall. 1.3. Batasan masalah Dalam melakukan penelitian ini dokumen input yang digunakan pada Tugas Akhir ini merupakan kumpulan dokumen berupa file teks berbahasa Indonesia dengan format txt yang telah ditentukan sebelumnya. 1.4. Tujuan Tujuan yang ingin dicapai pada tugas akhir ini adalah : a. Menganalisa hasil stem yang terbentuk dari proses stemming dengan algoritma Vega. b. Menganalisis keakuratan hasil information retrieval system yang dihasilkan oleh perangkat lunak yang menggunakan algoritma stemming Vega. 1.5. Metodologi penyelesaian masalah Metodologi penyelesaian masalah yang akan digunakan adalah : a. Studi literatur Melakukan studi literatur dengan pengumpulan bahan pembelajaran yang berkaitan dengan algoritma stemming Vega. Mengumpulkan data yang dapat digunakan sebagai koleksi dokumen. 2

b. Analisis dan desain Tahap ini meliputi analisis cara kerja algoritma stemming Vega. Merancang perangkat lunak yang digunakan sebagai simulasi. c. Implementasi dan testing Tahap ini meliputi pembangunan perangkat lunak yang telah dirancang pada tahap sebelumnya dan dilakukan pengujian untuk mengetahui performa algoritma stemming Vega. Pengujian algoritma akan dilakukan dengan menggunakan input berupa koleksi dokumen yang akan menghasilkan output berupa kata-kata yang telah mengalami proses stemming. d. Analisis hasil Menganalisa output stem dari hasil testing dan kemudian melakukan penghitungan keakuratan dari information retrieval system yang menggunakan algoritma stemming Vega. e. Pembuatan laporan Pada tahap ini akan dilakukan penyusunan hasil laporan terhadap penelitian yang telah dilakukan, dan membuat kesimpulan dari hasil penelitian tersebut. 3

5. Kesimpulan dan Saran 5.1. Kesimpulan Dari hasil penelitian yang dilakukan Beberapa kesimpulan yang dapat diambil dari Tugas Akhir ini yaitu : a. Stemming dengan menggunakan algoritma Vega tidak selalu menghasilkan kata dasar yang ada dalam kamus. b. Penggunaan algoritma stemming Vega pada information retrieval system tidak terlalu mempengaruhi performansi dari sistem tersebut. c. Nilai precision dipengaruhi oleh banyaknya varian kata yang menghasilkan term tertentu pada suatu kumpulan dokumen. d. Perubahan nilai kompresi stemming tidak mempengaruhi nilai performansi information retrieval system. e. Algoritma stemming Vega membutuhkan waktu yang singkat untuk melakukan stemming pada sebuah kata. 5.2. Saran Saran-saran yang dapat penulis uraikan untuk keperluan analisis selanjutnya adalah: a. Modifikasi penghilangan imbuhan diharapkan dapat meningkatkan performansi information retrieval system. b. Penggunaan koleksi dokumen yang lebih besar dimungkinkan dapat memberikan hasil yang lebih akurat. 42

Daftar pustaka [1] Asian, J., Williams, H. E., and Tahaghoghi, S. M. M., 2005, Stemming Indonesian, School of Computer Science and Information Technology RMIT University, Australia. [2] Asian, J., Williams, H. E., and Tahaghoghi, S. M. M., 2006, A Testbed for Indonesian Text Retrieval, In Peter Bruza, Alistair Moffat, and Andrew Turpin (editors), Proceedings of the 9th Australasian Document Computing Symposium (ADCS 2004), Melbourne, Australia, 55-58, 13 December 2004. [3] Asian, J., 2007, Effective Techniques for Indonesian Text Retrieval, Doctor s Thesis, School of Computer Science and Information Technology RMIT University, Australia. [4] A,W. Yanuar. Firdaus., 2008, Information Retrieval, Institut Teknologi Telkom, Bandung [5] Baeza-Yates, R. and Ribeiro, B., 1999, Modern Information Retrieval. Addison Wesley. [6] Indradjaja, L. S. and Bressan, S., 2003, Automatic Learning of Stemming Rules for the Indonesian Language, National University of Singapore, Singapore. [7] Indradjaja, L. S., 2003, Computational Linguistics for the Indonesian Language, Honours Year Thesis, National University of Singapore, Singapore. [8] Vega, B. V. S. N.. and Bressan, S, 2001, Indexing the Indonesian web: Language Identification and Miscellaneous Issues, Presented at Tenth International World Wide Web Conference, Hong Kong. 43