MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA

Transkripsi

1 MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA Badrus Zaman Program Studi Sistem Informasi, Fakultas Sains dan Teknologi, Universitas Airlangga Jl. Dr. Ir. Soekarno MERR Surabaya ABSTRAK Proses stemming dalam information retrieval (IR) diperlukan untuk meningkatkan performansi dari IR itu sendiri, baik dari segi kecepatan maupun ketepatan. Dalam perkembangannya stemming telah dikembangkan untuk berbagai bahasa, di antaranya Porter Stemmer. Porter stemmer dikembangkan untuk stemming kata bahasa Inggris, yang dikembangkan berdasarkan morfologi kata. Tujuan penelitian ini adalah mengembangkan Porter stemmer yang dimodifikasi untuk stemming kata pada bahasa Indonesia. Stemmer ini selain menggunakan morfologi kata pada bahasa Indonesia, juga menggunakan kamus imbuhan. Kamus imbuhan tersebut berisi kata dasar terkait dengan imbuhan yang akan dihapus. Uji coba dilakukan terhadap 50 dokumen berita online berbahasa Indonesia yang didapatkan dari web portal berita online. Hasil ujicoba menunjukkan bahwa tingkat kebenaran sistem yang dikembangkan dalam melakukan stemming sebesar 0.66, sedangkan kecepatan sistem dalam melakukan stemming tiap kata sebesar detik. Kata Kunci: stemming, algoritma porter, bahasa Indonesia 1. PENDAHULUAN Dalam sebuah sistem temu kembali informasi (Information Retrieval/IR) terdapat kumpulan dokumen, yang setiap dokumennya dideskripsikan oleh kata-kata (term). Istilah yang memiliki akar kata yang sama, umumnya memiliki arti yang sama, misalnya hubung, hubungan, hubungkan, hubungi, dan menghubungi. Jika kelima istilah ini dikelompokkan ke dalam satu kelompok dengan menghilangkan imbuhannya baik awalan atau akhiran, kinerja sistem IR dapat meningkat. Proses penghilangan akhiran kata akan mengurangi jumlah total istilah dalam sistem IR sehingga mengurangi ukuran dan kompleksitas data dalam sistem. Proses penghilangan imbuhan ini dinamakan dengan proses stemming (Manning dkk., 2008), (Baeza-Yates dan Ribeiro-Neto, 1999). Menurut Husni dan Zaman (2005), secara umum, stemming dapat dilakukan dengan 2 cara, yakni manual dan otomatis. Cara otomatis dapat dilakukan dengan berbagai pendekatan, di antaranya metode affix removal yang digunakan dalam Porter stemmer. Menurut Ali dan Ibrahim (2012), Porter stemmer merupakan algoritma stemming dikembangkan oleh Martin Porter di Universitas Cambridge pada tahun 1980 yang diterapkan pada bahasa Inggris. Metode yang digunakan dalam melakukan stemming dengan memanfaatkan morfologi kata pada bahasa Inggris. Dalam hal ini imbuhan berupa akhiran (sufiks). Cara ini cukup efektif karena tidak tergantung terhadap kamus kata dasar, dan proses stemming dapat dilakukan lebih cepat (Tala, 2003). Berdasarkan porter stemmer yang menggunakan rule afiksasi untuk bahasa Inggris, maka dikembangkan stemmer untuk bahasa Indonesia. Stemmer ini dibuat berdasarkan aturan morfologi pada bahasa Indonesia (Tala, 2003). Penelitian ini coba mengembangkan modifikasi porter stemmer untuk stemming kata pada bahasa Indonesia dengan memanfaatkan morfologi bahasa Indonesia dan kamus kecil. Kamus kecil adalah kamus yang berisi sekumpulan kata yang terkait dengan imbuhan yang akan dihilangkan. Jadi, proses stemming dapat lebih cepat dilakukan. Tujuan dari penelitian ini adalah untuk melihat efektivitas stemmer yang dikembangkan jika dilihat dari ketepatan (correctness) dan lamanya proses stemming. 2. TINJAUAN PUSTAKA 2.1 Stemming Stemming pada dasarnya adalah proses pemetaan dari penguraian berbagai bentuk kata baik itu prefix, sufix, maupun gabungan antara prefix dan sufix (confix), menjadi bentuk kata dasarnya (stem) (Baeza-Yates dan Ribeiro-Neto, 1999), (Gupta, 2014). Secara umum, stemming dapat dilakukan dengan 2 cara, yakni manual dan otomatis. Cara otomatis dapat dilakukan dengan berbagai pendekatan, yakni affix removal, successor, table dan N-gram. Sedangkan metode affix removal terbagi menjadi 2, yakni longest match dan simple removal. Diagram pembagian dari teknik stemming ditunjukkan pada Gambar 1 (Husni dan Zaman, 2005). Proses stemming dilakukan dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), 543

2 akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) untuk mendapatkan kata dasar. Gambar 1. Pembagian metode stemming 2.2 Morfologi Bahasa Indonesia Ramlan (1997) mendefinisikan morfologi adalah bagian dari ilmu bahasa yang membicarakan atau yang mempelajari tentang seluk-beluk bentuk kata serta pengaruh perubahan-perubahan bentuk kata terhadap golongan dan arti kata. Morfologi dalam bahasa Indonesia terdiri dari dari struktur infleksional dan derivasional (Tala, 2003). Berikut ini adalah penjelasan mengenai morfologi pada bahasa Indonesia (Tala, 2003) Infleksional Infleksional adalah struktur sederhana yang diikuti oleh imbuhan yang tidak mempengaruhi kata dasar. Struktur ini dibagi menjadi 2, yaitu sufiks partikel dan kata ganti. Partikel berfungsi untuk memberikan penekanan pada kata. Macam-macam dari partikel adalah lah, -kah, -tah, -pun. Partikel ditulis serangkai dengan kata yang mendahuluinya, kecuali partikel pun yang ditulis terpisah. Kata ganti terdiri dari ku. mu, dan nya. Akhiran ku sebagai kata ganti ia, -mu sebagai kata kanti kamu, dan nya sebagai kata ganti ia. Tiap sufiks pada kelompok partikel dan kata ganti mungkin saja terjadi pada kata yang sama. Bila hal ini terjadi, maka harus mengikuti aturan sufiks pada kata ganti mendahului partikel. Sehingga struktur penulisan infleksional dapat disimpulkan seperti pada Gambar 2. Infleksional = (kata dasar + kata ganti) (kata dasar + partikel) (kata dasar + kata ganti + partikel) Gambar 2. Struktur morfologi kata infleksional pada Bahasa Indonesia Derivasional Derivasional adalah struktur sederhana yang diikuti imbuhan yang dapat mempengaruhi kata dasar. Derivasional pada struktur bahasa Indonesia terdiri prefix, suffix, dan konfix. Prefix yang sering muncul antara lain ber-, di-, ke-, meng-, per-, dan ter-. Beberapa prefiks seperti ber-, meng-, peng-, per-, terdapat terjadi pada beberapa bentuk. Bentuk tersebut tergantung dari huruf pertama dari kata dasar. Pada struktur kata derivasional terdapat proses peluluhan yaitu mengalami perubahan pengucapan, seperti kata sapu menjadi menyapu yang terdiri dari prefiks mengdan kata dasar sapu. Sufiks derivasional antara lain -i, -kan, dan an. Penambahan pada sufiks berbeda dengan prefiks, karena tidak pernah mengubah pengucapan pada kata turunannya. Konfiks merupakan gabungan dari prefix dan sufiks, di mana prefiks dan sufiks disisipkan bersama kata turunan yang baru. Namun, tidak semua kombinasi dari prefiks dan sufiks dapat digabungkan menjadi konfiks. Ada beberapa kombinasi dari prefiks dan sufiks yang tidak dibolehkan seperti yang ditunjukkan pada Tabel 1. Tabel 1. Pasangan konfiks yang tidak diperbolehkan Prefiks Sufiks ber di ke meng peng ter i an i kan an i kan an Prefiks atau konfiks dapat ditambahkan pada kata yang sudah ditambahkan prekfiks atau konfiks sebelumnya, sehingga akan menghasilkan struktur prefiks yang ganda. Namun, tidak semua prefiks atau konfiks dapat ditambahkan pada prefiks atau konfiks tertentu untuk membentuk prefik ganda. Aturan untuk menentukan prefiks ganda ditunjukkan pada Tabel 2. Tabel 2. Aturan urutan untuk prefix ganda Prefiks 1 Prefiks 2 meng di ter ke per ber Dari penjelasan di atas, dapat disimpulkan struktur derivasional didefinisikan seperti pada Gambar

3 Derivasional = prefiks sufiks konfiks prefiks ganda Di mana: prefiks = prefiks + kata dasar sufiks = kata dasar + sufiks konfiks = prefiks + kata dasar + sufiks prefiks ganda = (prefiks2 + prefiks1) (prefiks + konfiks) ( fik 2 + fik 1 + fik ) Gambar 3. Struktur morfologi kata derivasional pada Bahasa Indonesia Gabungan Infleksional dan Derivasional Dari uraian struktur morfologi infleksional dan derivasional, maka didapatkan struktur morfologi bahasa Indonesia secara umum, yang ditunjukkan pada Gambar 4. [Pre1] + [Pre2] + KD + [Suf] + [KG] + [Par] Dimana: Pre1 : prefiks 1 Pre2 : prefiks 2 KD : kata dasar Suf : sufiks KG : kata ganti Par : partikel Gambar 4. Struktur morfologi kata Bahasa Indonesia secara umum 2.3 Porter Stemmer Algoritma porter berdasarkan kenyataan bahwa kebanyakan sufiks pada bahasa Inggris merupakan kombinasi dari sufiks yang kecil dan sederhana. Tiap langkah proses pemenggalan kata dilakukan secara serial yang mensimulasikan proses kata infleksional dan derivasional. Pada tiap langkah, sufiks tertentu dihilangkan dengan aturan substitusi. Aturan substitusi diterapkan ketika sejumlah kondisi atau batasan tertentu terpenuhi. Sebagai contoh kondisi yang sederhana antara lain panjang minimum hasil stem (jumlah urutan huruf vokal dan konsonan). Panjang minimum ini disebut dengan hasil (measure). Kondisi sederhana lainnya adalah stem dilakukan bila stem berakhir dengan huruf konsonan atau bila stem terdapat huruf vocal.bila semua kondisi pada suatu aturan sesuai, maka aturan tersebut diterapkan. Hal ini akan berakibat pada pengurangan sufiks, kemudian dilanjutkan pada langkah berikutnya. Jika kondisi pada suatu aturan tidak sesuai maka dicoba kondisi untuk aturan lainnya, sehingga aturan tersebut cocok atau aturan pada langkah tersebut tidak bisa dipakai. Garis besar algoritma Porter Stemmer ditunjukkan dengan ilustrasi pada Gambar 5 (Ali dan Ibrahim, 2012). Gambar 5. Struktur morfologi kata Bahasa Indonesia secara umum 2.4 Evaluasi Algoritma Stemming Adisantoso dkk. (2003), mengemukakan bahwa evaluasi algoritma stemming dapat dilakukan dengan beberapa 3 kriteria, yaitu: a. Correctness Kondisi overstemming terjadi jika terlalu banyak bagian dari kata yang dihilangkan. Sedangkan understemming terjadi jika terlalu sedikit bagian kata yang dihilangkan. b. Retrieval effectiveness Kriteria retrieval effectiveness didapatkan dari keefektifan suatu sistem temu kembali inforrnasi dalam menemukembalikan dokumen yang relevan setelah menerapkan algoritma stemming. c. Compression Performance Kriteria compression performance dinilai dari ukuran indeks yang dihasilkan dengan menggunakan algoritma stemmer tertentu. Menurut Sembok dan Ata (2013), beberapa kesalahan yang dapat terjadi dalam proses stemming yang dapat mempengaruhi tingkat kebenaran (correctness) di antaranya adalah overstemming dan understemming. 2.5 Algoritma Porter untuk Stemming pada Kata Bahasa Indonesia Struktur morfologi kata bahasa Indonesia yang terdiri dari kombinasi struktur derivasional dan infleksional yang kecil dan sederhana, sesuai dengan ide dasar dari algoritma Porter Stemmer. Urutan langkah-langkah pada Porter Stemmer disesuaikan dengan struktur pada kata bahasa Indonesia. Sehingga dapat mengurangi tingkat kompleksitas 545

4 struktur kata sehingga menghasilkan kata dasar (stem) yang benar (Zaman dan Winarko, 2011). Karena bahasa Inggris dan bahasa Indonesia merupakan kelas bahasa yang berbeda, maka beberapa perubahan diperlukan untuk disesuaikan dengan bahasa Indonesia. Modifikasi tersebut terdiri dari perubahan pada sekumpulan aturan-aturan dan kondisi pengukuran. Karena pada Algoritma Porter hanya dapat melakukan pengurangan sufiks (suffixs stripping), maka beberapa aturan tambahan diperlukan untuk menangani pengurangan prefiks, konfiks dan juga pengejaan yang mengalami peluluhan huruf pertama pada kata dasar (Tala, 2003). Secara umum desain algoritma dari porter stemmer yang sudah dimodifikasi, ditunjukkan pada Gambar 6. Gambar 6. Algoritma Porter stemmer yang dimodifikasi untuk kata pada Bahasa Indonesia Aturan imbuhan Berdasarkan analisis morfologi pada pembahasan sebelumnya, terdapat 5 kelompok aturan untuk bahasa Indonesia. Lima aturan ini didefinisikan dengan kondisi terbalik dengan kejadian afiks pada proses perubahan. Ini berarti bahwa sufiks infleksional seperti partikel, dan kata ganti, dihilangkan terlebih dahulu kemudian menghilangkan afiks derivasional. Kelima aturan tersebut, adalah: a. Penanganan infleksional partikel Aturan yang diterapkan untuk infleksional partikel sesuai dengan Tabel 3. Menurut Ramlan (1997), penulisan partikel pun terpisah, sedangkan partikel tah termasuk dalam partikel yang tidak produktif, sehingga dalam hal ini untuk kedua partikel tersebut diabaikan. Tabel 3. Aturan tahap pertama menangani infleksional partikel Sufiks Pengganti Kondisi Contoh kah null null diakah dia lah null null adalah ada b. Penanganan infleksional kata ganti Aturan yang diterapkan untuk infleksional kata ganti sesuai dengan Tabel 4. Tabel 4. Aturan tahap kedua menangani infleksional kata ganti Sufiks Pengganti Kondisi Contoh ku null null bukuku buku mu null null bukumu buku nya null null bukunya buku c. Penanganan prefix derivasional pertama Aturan yang diterapkan untuk prefix derivasional pertama sesuai dengan Tabel 5. Tabel 5. Aturan tahap ketiga menangani derivasional prefiks pertama Prefiks Pengganti Kondisi Contoh meng null null mengukur ukur meny s V...* menyapu sapu men t V... menuduh tuduh men null null menduga duga mem p V... memukul pukul mem null null membakar bakar me null null merusak merusak peng null null pengukur ukur peny s V... Penyelam selam pen t V... penari tari pen null null penduga duga pem p V... pemandu pandu pem null null pembaca baca di null null diukur ukur ter null null tersipu sipu ke null null kekasih kasih d. Penanganan prefix derivasional pertama Aturan yang diterapkan untuk prefix derivasional kedua sesuai dengan Tabel 6. Tabel 6. Aturan tahap empat menangani derivasional prefiks kedua Prefik s Peng ganti Kondisi Contoh ber null null berlari lari bel null ajar belajar ajar be null K*er... bekerja kerja per null null Perlambat lambat pel null ajar pelajar ajar pe null null pekerja kerja 546

5 e. Penanganan sufiks derivasional Aturan yang diterapkan untuk infleksional partikel sesuai dengan Tabel 7. Bentuk dipthong seringkali membuat masalah, terutama dipthong ai dan oi ketika berada di akhir kata. Dipthong akan sangat sulit dipisahkan secara otomatis dari kata derivat dengan akhiran i seperti tandai yang terdiri dari 3 suku kata yaitu tan-da-i. Karena jumlah kata dengan dipthong lebih sedikit daripada jumlah kata dengan akhiran, maka dipthong dihilangkan atau dianggap tidak ada. Karakter terakhir (-i) dihilangkan sebagai hasil akhir dari proses stemming. Tabel 7. Aturan tahap kelima menangani derivasional sufiks Sufi ks Pen gga nti Kondisi kan null prefiks {ke, peng} an null prefiks {di,meng,ter} i null V K...c 1 c 1, c 1 s, c 2 i dan prefiks {ber,ke,peng} Contoh tarikkan tarik (meng)abaikan a bai makanan makan (per)janjian janji tandai tanda (men)dapati dapat Pemisahan prefiks dan pembenaran ejaan Pemisahan awalan dapat dialkukan seperti halnya melakukan pemisahan pada akhiran, dengan penggantian pada awal kata. Awalan pada beberapa kasus mengubah ejaan sebuah kata, sehingga koreksi atau pembenaran ejaan harus dilakukan. Sulit untuk implementasi koreksi ejaan ketika beberapa aturan pada struktur derivational pada bahasa Indonesia memiliki ambiguitas. Contohnya: memisahkan awalan meng- pada kata mengubah yang berasal dari kata ubah atau kubah. Hal ini tentu akan menyebabkan kesalahan stemming Pemisahan sisipan dan sisipan ganda Pemisahan sisipan dilakukan dengan melakukan penggantian awalan dan akhiran secara berurutan. Pemisahan awalan diakukan dulu. Kondisi lain ditambahkan untuk mengecek kemungkinan akhiran untuk membentuk kombinasi sisipan yang diperbolehkan dengan awalan yang sudah dihilangkan sebelumnya. Dengan mengabaikan akhiran inflectional, ada 5 kemungkinan kata turunan, yaitu: hanya awalan, hanya akhiran, kata sisipan, awalan dari sebuah kata sisipan, sisipan dari sebuah kata awalan. 3 kemungkinan pertama bisa didapatkan dari pemisahan awalan dan akhiran secara berurutan dan kondisi lain dari sisipan yang diperbolehkan. 2 kemungkinan yang lain sebenarnya adalah awalan ganda yang bisa diperoleh dengan menambahkan pemisahan awalan atau akhiran lain, yang mana tergantung pada pengghapusan awalan dan akhiran sebelumnya. 3. METODOLOGI PENELITIAN 3.1 Bahan Bahan yang digunakan dalam penelitian ini adalah 50 dokumen berbahasa Indonesia dengan tema kesehatan, politik, ekonomi, dan budaya yang diambil dari beberapa sumber portal berita di internet. Jumlah kalimat pada tiap dokumen berkisar kalimat. Komposisi dokumen yang digunakan untuk ujicoba ditunjukkan pada Tabel 8. Dokumendokumen ini digunakan sebagai masukan pada sistem. Tabel 8. Rekapitulasi hasil ujicoba stemming terhadap kata-kata pada dokumen Topik Jumlah Dokumen Kesehatan 12 Politik 12 Ekonomi 12 Budaya Alat Alat penelitian yang digunakan berupa notebook dengan spesifikasi: a. Processor Intel Core Duo 1,60GHZ. b. Memori 2 GB. c. Sistem Operasi Microsoft Windows XP Professional Sp 2. d. Bahasa Pemrograman PHP. e. Spreadsheet Microsoft Excel Rancangan Sistem Flowchart Rancangan sistem secara umum dibagi menjadi 4 tahap, yaitu input dokumen, bagi menjadi kumpulan kata, penghilangan stopword, dan stemming. Sebagaimana dikemukakan oleh Fachrurrozi dkk. (2013), dan Zaman & Winarko (2011), stopword adalah daftar kata yang jumlahnya sangat besar yang mempunyai fungsi namun tidak perlu digunakan sebagai penciri dokumen. Contohnya: dan, yang, atau, ini, itu dan lain-lain. Daftar stopword yang digunakan sebagai acuan dalam penelitian ini adalah stopword yang digunakan oleh Tala (2003). Gambaran dari rancangan sistem ini ditunjukkan pada Gambar

6 Dokumen 1 Stopword daftar kata 1 Pisah Kata kata stopword 2 Hapus Stopword daftar kata tanpa stopword 2 kamus partikel kata partikel 3 Hapus partikel kata kata ganti 4 Hapus kata ganti daftar kata tanpa partikel user 3 kamus kata ganti 5 daftar kata tanpa kata ganti Hapus prefiks1 5 kamus prefiks 2 4 kamus prefiks 1 kata prefiks 1 kata prefiks 2 hapus prefiks 2 6 daftar kata tanpa prefiks 1 Gambar 7. Rancangan sistem Document Flow Diagram (DFD) Perancangan proses dengan Data Flow Diagram (DFD) bertujuan untuk mengetahui proses tranformasi data dari input dokumen hingga menjadi output berupa hasil stemming. a. Context Diagram Diagram konteks dibuat untuk menggambarkan sistem secara umum dan entitas yang terlibat di dalamnya. Dalam konteks diagram system yang akan dibuat terdapat 1 eksternal yakni user. Diagram konteks ini seperti pada Gambar 8. User memasukkan dokumen pada sistem, kemudian user menerima hasil stemming. user Dokumen Hasil Stemming Gambar 8. Context diagram sistem 0 Modifikasi Algoritma Porter untuk Stemming pada Kata Bahasa Indonesia + b. DFD Level 0 Dari context diagram pada Gambar 7 kemudian dijabarkan menjadi DFD Level 0 seperti yang ditunjukkan pada Gambar 9. Pada level ini terdapat 6 proses, yaitu pisah kata, hapus stopword, hapus partikel, hapus kata ganti, hapus prefix 1, hapus prefiks2, dan hapus sufiks. Proses hapus stoword dilakukan dengan cara membandingkan suatu kata dengan daftar kata stopword dari datastore stopword. Hal ini juga berlaku bagi kelima proses lainnya di mana sebelum dilakukan penghapusan suatu imbuhan, terlebih dahulu dicek dahulu ke masingmasing datastore, misalnya sub proses menghapus partikel, maka harus dicek dahulu di datastore kamus partikel. user daftar kata tanpa prefiks 2 Hasil Stemming 6 kamus sufiks kata sufiks Gambar 9. DFD Level 0 sistem 7 hapus sufiks 3.4 Evaluasi Sistem Evaluasi sistem dilakukan melalui 2 cara, yaitu correctness dan waktu. Correctness diukur dengan cara membandingkan hasil stemming dengan kamus kata dasar bahasa Indonesia, sedangkan waktu diukur berdasarkan waktu rata-rata yang dibutuhkan oleh sistem untuk melakukan stemming. 4. HASIL DAN PEMBAHASAN 4.1 Implementasi Sistem Berdasarkan rancangan pada pembahasan sebelumnya, maka secara umum untuk melakukan stemming diperlukan 5 sub proses, yaitu pemenggalan partikel, kata ganti, prefiks1, prefiks2, dan sufiks. Salah satu implementasi sistem untuk menghapus imbuhan partikel yang ditunjukkan pada Gambar if(!word.compare(word.size()-3,3,"kah")) { word.resize(word.size()-3); imbuhan.push_back(konfiks(0,"kah")); } else if(!word.compare(word.size()-3,3,"lah")) { word.resize(word.size()-3); imbuhan.push_back(konfiks(0,"lah")); } } Gambar 10. Algoritma menghapus partikel 4.2 Desain user interface (UI) Sistem menerima masukan dokumen berupa teks, kemudian dengan event klik tombol proses akan dilakukan proses stemming terhadap dokumen tersebut. Halaman UI untuk masukan dokumen pada sistem ditunjukkan pada Gambar

7 Gambar 11. Tampilan UI sistem untuk memasukkan dokumen Tampilan UI hasil dari keluaran sistem ditunjukkan pada Gambar 12. Hasil keluaran sistem yang utama ada 2, yaitu waktu yang dibutuhkan untuk melakukan stemming keseluruhan kata pada dokumen, dan tingkat kebenaran hasil stemming sistem. Hasil stemming untuk kata yang berwarna biru berarti sukses atau kata tersebut terdapat pada kamus kata dasar bahasa Indonesia, sedangkan warna hitam berarti gagal dalam melakukan stemming. Selain 2 hasil utama di atas, juga terdapat jumlah kata sebelum diproses, dan sesudah diproses oleh sistem. Jumlah kata tersebut terjadi pengurangan karena di awal proses terjadi penghapusan stopword. Artinya kata-kata yang termasuk stopword tidak ikut dilakukan stemming. 4.3 Ujicoba Ujicoba sistem dilakukan terhadap ke-50 dokumen yang sudah dipersiapkan. Tiap dokumen dihitung jumlah kata yang akan di-stemming, waktu yang dibutuhkan untuk stemming keseluruhan kata pada dokumen tersebut, dan persentase kebenaran hasil stemming yang dibandingkan dengan kamus kata dasar bahasa Indonesia. Jumlah kata awal untuk keseluruhan dokumen adalah kata. Kemudian dilakukan proses penghilangan stopword sehingga jumlah kata saat ini adalah Jumlah yang terakhir ini kemudian diperlakukan proses stemming. Dari jumlah ini sistem berhasil melakukan stemming sebanyak kata atau dengan kata lain tingkat kebenaran (correctness) sebesar Sedangkan waktu yang dibutuhkan untuk memproses keseluruhan kata (setelah dihapus stopword) selama detik atau dengan rata-rata proses stemming per kata selama detik. Hasil rekapitulasi untuk masing-masing dokumen berdasarkan topik ditunjukkan pada Tabel 9 (appendix). Dari rekapitulasi ujicoba tersebut dapat ditunjukkan bahwa untuk topik Budaya memiliki tingkat kebenaran stemming sebesar 0.66 dengan waktu rata-rata yang dibutuhkan untuk stemming per kata selama detik. Waktu yang dibutuhkan untuk melakukan proses stemming bersifat relatif, di antaranya relatif terhadap alat atau pun bahasa pemrograman yang digunakan. Sedangkan tingkat kebenaran hasil stemming ternyata dipengaruhi oleh jumlah koleksi kata dasar pada masing-masing imbuhan. Semakin lengkap, maka akurasi dari hasil sistem semakin baik. 5. KESIMPULAN Berdasarkan hasil ujicoba dan evaluasi, maka dapat disimpulkan beberapa hal, di antaranya: a. Proses stemming untuk kata pada bahasa Indonesia dapat mengadopsi algoritma porter stemmer. b. Akurasi porter stemmer yang dimodifikasi untuk stemming pada kata bahasa Indonesia adalah 0.66 sedangkan rata-rata waktu proses tiap kata selama detik. c. Hasil akurasi stemming sangat bergantung pada koleksi kamus kata dasar terkait imbuhan. Semain lengkap koleksi, maka akurasi dari hasil stemming akan semakin baik. Gambar 12. Tampilan UI sistem saat menghasilkan hasil keluaran 6. SARAN Untuk mencapai hasil penghitungan analisis Porter Stemmer yang lebih akurat dan maksimal maka kamus kata terkait imbuhan yang terdapat dalam program harus selalu di update mengikuti perkembangan kata bahasa Indonesia. 549

8 7. PUSTAKA Adisantoso, J., Wigena, A. H., & Akhmadi, C. H. (2003). Algoritma Pemotong Akhiran Baku untuk Kata dalam Bahasa Indonesia Berbasis Algoritma Porter. Majalah Ilmiah Ilmu Komputer, Vol.1 No.1, 1-8. Ali, N. H., & Ibrahim, N. S. (2012). Porter Stemming Algorithm for Semantic Checking. Proceedings of International Conference on Computer and Information Technology (ICCIT) 2012, (hal ). Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern Information Retrieval. New York: ACM Press. Fachrurrozi, M., Yusliani, N., & Yoanita, R. U. (2013). Frequent Term Based Text Summarization for Bahasa Indonesia. International Conference on Innovation in Engineering and Technology (ICIET 2013) Dec , (hal ). Bangkok (Thailand). Gupta, V. (2014). Suffix Stripping Based Verb Stemming for Hindi. International Journal of Advanced Research in Computer Science and Software Engineering Volume 4, Issue 1, January, 179. Husni, M., & Zaman, B. (2005). Perangkat lunak Peringkas Dokumen Berbahasa Indonesia dengan Hybrid Stemming. Surabaya: Teknik Informatika Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember. Manning, C. D., Raghavan, P., & Schutze, H. (2008). Introduction to Information Retrieval. New York: Cambridge University Press. Ramlan, M. (1997). Ilmu Bahasa Indonesia: Morfologi Suatu Tinjauan Deskriptif. Yogyakarta: CV Karyono. Sembok, T. M., & Ata, B. A. (2013). Arabic Word Stemming Algorithms and Retrieval Effectiveness. Proceeedings of the World Congress on Engineering Vol III, WCE 2013, July 3-5, London, U.K. Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Amsterdam: Institute for Logic, Language and Computation, Universiteit van Amsterdam. Zaman, B., & Winarko, E. (2011). Analisis Fitur Kalimat untuk Peringkas Teks Otomatis pada Bahasa Indonesia. Indonesian Journal of Computing and Cybernatics Systems (IJCSS), APPENDIX Tabel 9. Rekapitulasi hasil ujicoba stemming terhadap kata-kata pada dokumen berdasarkan topik Topik A B C T1 (detik) T2 (detik) Correctn ess Kesehatan Politik ,815 2, Ekonomi ,091 2, Budaya ,053 3, Jumlah 24,601 16,035 10,840 Rata-rata A : Jumlah kata sebelum dihapus stopword B : Jumlah kata setelah dihapus stopword C : Jumlah kata yang berhasil di-stemming T1 : Waktu untuk memproses stemming keseluruhan kata 550