STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

dokumen-dokumen yang mirip
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PENERAPAN STEMMING DENGAN ALGORITMA PORTER PADA QUERY PENCARIAN JUDUL BUKU

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

BAB II LANDASDAN TEORI

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

Preprocessing Text Mining Pada Box Berbahasa Indonesia

BAB I PENDAHULUAN 1.1 Latar Belakang

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB II LANDASAN TEORI

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

SISTEM TEMU BALIK INFORMASI

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

APLIKASI PENCARIAN KATA DASAR DOKUMEN BERBAHASA INDONESIA DENGAN METODE STEMMING PORTER MENGGUNAKAN PHP & MYSQL

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

Pemanfaatan Algoritma Porter Stemmer Untuk Bahasa Indonesia Dalam Proses Klasifikasi Jenis Buku

Bab 1 PENDAHULUAN Latar Belakang Masalah

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

BAB III METODOLOGI PENELITIAN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB 3 LANDASAN TEORI

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

SISTEM PENCARIAN PASAL-PASAL TINDAK PIDANA PELANGGARAN BERDASARKAN KUHP DENGAN METODE STRING MATCHING BOYER-MOORE SKRIPSI

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

PENCARIAN KATA DAN SINONIM KATA DALAM DOKUMEN DENGAN MENGGUNAKAN ALGORITMA TWO SLIDING WINDOWS SKRIPSI FRANS OCTAVIANUS

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

PENGEMBANGAN APLIKASI TEXT MINING

Peningkatan Algoritma Porter Stemmer

Gambar 1.1 Proses Text Mining [7]

STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA. Manase Sahat H Simarangkir

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Text Pre-Processing. M. Ali Fauzi

commit to user BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

Otomatisasi Klasifikasi Buku Perpustakaan dengan Menggabungkan Metode K-NN dengan K-Medoids

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Dalam dunia pendidikan saat ini biasanya instansi pemerintahan menetapkan

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

BAB 1 PENDAHULUAN UKDW

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

BAB I PENDAHULUAN. pesat terutama perkembangan internet. Dengan adanya internet dapat

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III METODOLOGI PENELITIAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB II LANDASAN TEORI

SISTEM PENENTUAN KETERKAITAN ANTAR SKRIPSI BERSADARKAN KEYWORD SEEKING

BAB III METODE PENELITIAN

BAB I PENDAHULUAN. Bahan ajar adalah segala bentuk bahan yang digunakan untuk membantu

BAB 3 LANDASAN TEORI

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA

BAB I PENDAHULUAN. Teknologi adalah keseluruhan sarana untuk menyediakan barang-barang yang

BAB 3 ANALISIS DAN PERANCANGAN

BAB I PENDAHULUAN. Dari tahun ke tahun sudah tidak dapat dipungkiri bahwa teknologi informasi

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. internet yang kini menjadi peranan penting. Kebutuhan user yang semakin

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

Transkripsi:

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal Soedirman Jl. Mayjen Sungkono Blater Km 5. Purbalingga Email: lasmedi.afuan@unsoed.ac.id ABSTRAK Informasi merupakan hal yang sangat mudah didapatkan dan diakses. Tetapi terkadang informasi yang diperoleh tidak sesuai dengan apa yang diinginkan pengguna. Diperlukan sistem yang dapat membantu mencari informasi yang dibutuhkan secara efektif dan efisien. Sistem informasi ini sering kali disebut dengan istilah sistem temu kembali informasi (STKI). Pada STKI salah satu tahapan yang sangat penting adalah tahap Stemming. Tahapan ini merupakan tahapan mentransformasikan kata dalam sebuah kalimat atau dokumen ke kata dasarnya. Pada penelitian ini, akan dijelaskan proses Stemming pada kalimat bahasa indonesia dengan menggunakan algortitma porter untuk mendapat root word dari kata dalam dokumen teks. Tahapan yang ada pada algoritma porter diterjemahkan menjadi koding program PHP. Kamus kata dasar dan stoplist disimpan di MySql. Pada proses stemming dilakukan tidak kata perkata, akan tetapi langsung stemming pada dokumen. Sehingga proses stemming yang dilakukan lebih cepat dan efektif. Kata kunci: Sistem temu kembali informasi, root word, algoritma porter, php, mysql A. PENDAHULUAN Teknologi informasi dan komunikasi pada era sekarang mengalami perkembangan pesat. Orang berlomba memanfaatkan TIK, TIK terutama internet telah digunakan sebagai alat untuk mengakses dan mendapatkan informasi. Permasalahan yang sering kali muncul dalam mengakses dan mendapatkan informasi adalah memilih informasi yang tepat sesuai dengan keinginan user. Untuk mengatasi masalah pencarian informasi, maka munculah sistem temu kembali informasi (STKI). STKI memungkinkan pengguna untuk mencari informasi yang tersimpan didalam dokumen secara efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yang diinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya (Agusta, 2009). Salah satu tahapan yang sangat penting dalam STKI adalah proses stemming. Stemming merupakan salah satu tahapan text pre-processing pada Jurnal Telematika Vol. 6 No. 2 Agustus 2013 34

STKI. Stemming mentrasformasikan kata-kata dalam dokumen menjadi kata akarnya (root word) atau kata dasar atau proses penghilangan imbuhan kata. Pada makalah ini, penulis akan menjelaskan tahapan stemming dokumen teks menggunakan algoritma porter. Proses Stemming pada dokumen bahasa indonesia sedikit lebih kompleks, karena pada dokumen bahasa indonesia harus menghilangkan imbuhan-imbuhan untuk mendapatkan kata dasarnya. B. METODOLOGI PENELITIAN Metode Penelitian yang digunakan dalam penelitian stemming kalimat bahasa indonesia menggunakan algoritma porter antara lain : 1. Studi Pustaka Studi pustaka dilakukan terkait dengan pengumpulan literatur, pustaka mengenai algoritma porter, serta studi mengenai imbuhan kata dalam bahasa indonesia. Selain itu juga pada metode ini dikumpulkan kata dasar bahasa indonesia, yang kemudian akan dijadikan sebagai kamus kata dasar. 2. Ujicoba Tahapan ujicoba dilakukan mencoba aplikasi stemming menggunakan dokumen teks. C. HASIL DAN PEMBAHASAN Stemming merupakan proses yang memetakan bentuk varian kata menjadi kata dasarnya (Fadillah, 2003). Dalam pengembangan aplikasi stemming dokumen teks berbahasa indonesia menggunakan bahasa pemrograman PHP dan MySql sebagai DBMS (database management system). Tahapan Stemming algoritma porter dapat dilihat pada gambar 1. Jurnal Telematika Vol. 6 No. 2 Agustus 2013 35

Gambar 1. Algoritma Porter (Fadillah) Berdasarkan gambar 1, Adapun langkah-langkah algoritma pada algoritma Porter adalah sebagai berikut (Agusta, 2009): 1. Hapus Particle, 2. Hapus Possesive Pronoun. 3. Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4a, jika ada cari maka lanjutkan ke langkah 4b. 4. a. Hapus awalan kedua, lanjutkan ke langkah 5a. b. Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai root word. Jika ditemukan maka lanjutkan ke langkah 5b. 5. a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word b. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root word. Jurnal Telematika Vol. 6 No. 2 Agustus 2013 36

Terdapat 5 kelompok aturan pada Algoritma Porter untuk Bahasa Indonesia ini (Agusta, 2009). Aturan tersebut dapat dilihat pada Tabel 1 sampai Tabel 5. Tabel 1. Aturan Untuk Inflectional Particle Tabel 2. Aturan Untuk Inflectional Possesive Pronoun Tabel 3. Aturan Untuk First Order Derivational Prefix Tabel 4. Aturan Untuk Second Order Derivational Prefix Jurnal Telematika Vol. 6 No. 2 Agustus 2013 37

Tabel 5. Aturan Untuk Derivational Suffix Flowcart dari proses stemming dokumen teks menggunakan algoritma Porter dapat dilihat pada gambar 2. Mulai Pilih Dokumen Teks Proses Penghilangan tanda baca Cek Kamus Kata Dasar Term kamus=term dokumen? Jalankan proses algortima porter tidak Selesai Gambar 2. Flowchart aplikasi Gambar 2 merupakan tampilan flowchart dari aplikasi stemming dokumen teks menggunakan algoritma Porter. Pada tahap awal, dilakukan proses upload dokumen teks, kemudian dilakukan proses penghilangan tanda baca pada dokumen teks. Setelah itu, dilakukan proses pengecekan setiap kata dalam dokumen ke kamus kata dasar, jika ada maka ubah kata menjadi kata dasar, Jurnal Telematika Vol. 6 No. 2 Agustus 2013 38

jika tidak maka kata pada dokumen ditulis sebagai kata dasarnya. Tampilan dari aplikasi stemming dapat dilihat pada gambar 3. Gambar 3. Tampilan Awal Proses Stemming Pada gambar 3, merupakan tampilan awal dari aplikasi stemming dokumen. Pada tampilan awal ini, terdapat inputan untuk memilih dokumen teks yang akan dilakukan proses stemming. Jika sudah memilih klik tombol proses untuk memulai proses stemming. Tampilan hasil dari proses stemming dokumen teks dapat dilihat pada gambar 4. Gambar 4. Hasil Proses Stemming Jurnal Telematika Vol. 6 No. 2 Agustus 2013 39

Hasil Pengujian Pengujian (dokumen teks) Proses analyzing adalah proses analisa dari hasil proses tagging sehingga diketahui seberapa jauh tingkat keterhubungan antar katakata dan antar dokumen yang ada Setelah dilakukan proses stemming pada dokumen teks Proses analyzing proses analisa hasil proses tagging ketahu berapa jauh tingkat terhubung antar kata kata antar dokumen ada D. KESIMPULAN DAN SARAN 1. Presisi pada Proses stemming masih belum mencapai hasil yang maksimal, hal ini bukan karena aplikasi yang tidak benar, akan tetapi kamus kata dasar yang masih belum terlalu lengkap. 2. Aplikasi Stemming dokumen bahasa indonesia ini, sementara hanya bisa membaca dokumen dengan ekstensi (.txt), sehingga aplikasi ini masih harus disempurnakan agar bisa membaca berbagai format dokumen. DAFTAR PUSTAKA Agusta Ledy, 2009. Perbandingan Algoritma Stemming Porter Dengan Algoritma, Fadillah Z. Tala, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia, Netherland, Universiteit van Amsterdam Lancaster, F.W. 1979. Information Retrieval Systems: Characteristics, Testing, and Evaluation, 2nd Edition, John Wiley, New York. Nazief & Adriani,2009. Untuk Stemming Dokumen Teks Bahasa Indonesia. KNSI. Bali. Jurnal Telematika Vol. 6 No. 2 Agustus 2013 40