SISTEM TEMU BALIK INFORMASI

dokumen-dokumen yang mirip
PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

BAB II TINJAUAN PUSTAKA

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

BAB II LANDASAN TEORI

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

BAB II LANDASAN TEORI

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

BAB II LANDASAN TEORI

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity

BAB II LANDASAN TEORI

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

BAB 2 TINJAUAN PUSTAKA

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

BAB 2 LANDASAN TEORI. 2.1 Text mining

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB II LANDASAN TEORI

commit to user BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

BAB I PENDAHULUAN 1.1 Latar Belakang

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB III METODOLOGI PENELITIAN

JULIO ADISANTOSO - ILKOM IPB 1

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

BAB II LANDASAN TEORI

BAB III ANALISIS DAN PERANCANGAN

Budi Susanto VEKTORISASI DOKUMEN

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

Text dan Web Mining - Budi Susanto UKDW 1. Text dan Web Mining - Budi Susanto UKDW 2

JARO-WINKLER DISTANCE DAN STEMMING UNTUK DETEKSI DINI HAMA DAN PENYAKIT PADI

MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

BAB 2 LANDASAN TEORI

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing

DAFTAR ISI. Halaman Judul. Halaman Pengesahan. Halaman Pernyataan. Halaman Persembahan. Halaman Motto DAFTAR TABEL DAFTAR GAMBAR ABSTRACT

1. Pendahuluan 2. Kajian Pustaka

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB II LANDASAN TEORI

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

BAB II LANDASAN TEORI

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

BAB II LANDASAN TEORI

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK. Proposal Tugas Akhir. Logo kampus.

Peningkatan Algoritma Porter Stemmer

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY

Text Pre-Processing. M. Ali Fauzi

STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA. Manase Sahat H Simarangkir

LAMPIRAN A: Kode Program

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

Preprocessing Text Mining Pada Box Berbahasa Indonesia

Bab 1 Pendahuluan 1.1 Pengantar

BAB I PERSYARATAN PRODUK

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. 2. Penyimpanan serta penyebaran (sharing) materi ajar masih membutuhkan

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II KONSEP, LANDASAN TEORI, DAN TINJAUAN PUSTAKA

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

KLASIFIKASI ARTIKEL BERITA BERBAHASA INDONESIA BERBASIS NAÏVE BAYES CLASSIFIER MENGGUNAKAN CONFIX-STRIPPING STEMMER

Pemanfaatan Algoritma Porter Stemmer Untuk Bahasa Indonesia Dalam Proses Klasifikasi Jenis Buku

STEMMING FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO. Firdaus Solihin (unijoyo) 2008

IMPLEMENTASI ALGORITMA RABIN KARP DAN STEMMING NAJIEF ANDRIANI UNTUK DETEKSI PLAGIARISME DOKUMEN

SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

BAB 2 LANDASAN TEORI

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

BAB 3 LANDASAN TEORI

Nama : Irine Linawati NIM : BAB V TATARAN LINGUISTIK (2) = MORFOLOGI

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

DETEKSI EMOSI MANUSIA PADA TWEET BAHASA INDONESIA DENGAN KLASIFIKASI NAIVE BAYES

ALGORITMA STEMMING UNTUK KATA SERAPAN BAHASA INDONESIA

APLIKASI PENCARIAN KATA DASAR BAHASA INDONESIA MENGGUNAKAN ALGORITMA STEMMING PORTER DAN ECS (ENHANCED CONFIX STRIPPING) BERBASIS ANDROID

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Transkripsi:

SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU KOMPUTER DAN ELEKTRONIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA YOGYAKARTA 2012

Pendahuluan Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah Information Retrieval (IR) merupakan proses pemisahan dokumen-dokumen yang dianggap relevan dari sekumpulan dokumen yang tersedia. Bertambahnya jumlah dokumen teks yang dapat diakses di internet diikuti dengan meningkatnya kebutuhan pengguna akan perangkat pencarian informasi yang efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yang diinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu sama. Stemming Bahasa Indonesia dengan Algoritma Nazief dan Andriani Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh bahasa Inggris memiliki morfologi yang berbeda dengan bahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word (kata dasar) dari sebuah kata. Pada umumnya kata dasar pada bahasa Indonesia terdiri dari kombinasi: Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1

Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut: 1. Pertama cari kata yang akan diistem dalam kamus kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( -ku, -mu, atau -nya ), jika ada. 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a) Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b) Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah 4 4. Hilangkan derivation prefixes DP { di-, ke-, se-, me-, be-, pe, te- } dengan iterasi maksimum adalah 3 kali: a) Langkah 4 berhenti jika: Terjadi kombinasi awalan dan akhiran yang terlarang seperti pada Tabel 1 Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. Tiga awalan telah dihilangkan.

Tabel 1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan Awalan Akhiran yang tidak diizinkan be- -i di- -an ke- -i, -kan me- se- te- -an -i, -kan -an b) Identifikasikan tipe awalan dan hilangkan. Awalan ada tipe: Standar: di-, ke-, se- yang dapat langsung dihilangkan dari kata. Kompleks: me-, be-, pe, te- adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2 untuk mendapatkan pemenggalan yang tepat.

Tabel 2. Aturan Pemenggalan Awalan Stemmer Nazief dan Adriani

c) Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan. 5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recoding dilakukan dengan mengacu pada aturan pada Tabel 2. Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2, karakter recoding adalah huruf kecil setelah tanda hubung ( - ) dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata menangkap (aturan 15), setelah dipenggal menjadi nangkap. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata tangkap. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 3. Hapus awalan jika ditemukan.

Tabel 3. Cara Menentukan Tipe Awalan Untuk awalan te- Following Characters Tipe Awalan Set 1 Set 2 Set 3 Set 4 -r- -r- - - none -r- - - - ter-luluh -r- not (vowel or -r- ) -er- vowel ter -r- not (vowel or -r- ) -er- not vowel ter- -r- not (vowel or -r- ) not -er- - ter not (vowel or -r- ) -er- vowel - none not (vowel or -r- ) -er- not vowel - none Tabel 4. Jenis Awalan Berdasarkan Tipe Awalannya Tipe Awalan dikeseteterter-luluh Awalan yang harus dihapus dikeseteterter Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini : 1. Aturan untuk reduplikasi. a) Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : buku-buku root word-nya adalah buku.

b) Kata lain, misalnya bolak-balik, berbalas-balasan, dan seolaholah. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas, maka root word berbalas-balasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a) Untuk tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b) Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng-. Berikut contoh-contoh aturan yang terdapat pada awalan sebagai pembentuk kata dasar ; 1. Awalan SE- Se + semua konsonan dan vokal tetap tidak berubah Se + bungkus = sebungkus Se + nasib = senasib Se + arah = searah Se + ekor = seekor 2. Awalan ME- Me + vokal (a,i,u,e,o) menjadi sengau meng Me + inap = menginap

Me + asuh = mengasuh Me + ubah = mengubah Me + ekor = mengekor Me + oplos = mengoplos Me + konsonan b menjadi mem Me + beri = member Me + besuk = membesuk Me + konsonan s menjadi meny (luluh) Me + sapu = menyapu Me + satu = menyatu Me + konsonan t menjadi men (luluh) Me + tanama = menanam Me + tukar = menukar Me + konsonan (l,m,n,r,w) menjadi tetap me Me + lempar = melempar Me + masak = memasak Me + naik = menaik Me + rawat = merawat Me + warna = mewarna

3. Awalan KE- Ke + semua konsonan dan vokal tetap tidak berubah Ke + bawa = kebawa Ke + atas = keatas 4. Awalan PE- Pe + konsonan (h,g,k) dan vokal menjadi per Pe + hitung + an = perhitungan Pe + gelar + an = pergelaran Pe + kantor + = perkantoran Pe + konsonan t menjadi pen (luluh) Pe + tukar = penukar Pe + tikam = penikam Pe + konsonan (j,d,c,z) menjadi pen Pe + jahit = penjahit Pe + didik = pendidik Pe + cuci = pencuci Pe + zina = penzina Pe + konsonan (b,f,v) menjadi pem

Pe + beri = pemberi Pe + bunuh = pembunuh Pe + konsonan p menjadi pem (luluh) Pe + piker = pemikir Pe + potong = pemotong Pe + konsonan s menjadi peny (luluh) Pe + siram = penyiram Pe + sabar = penyabar Pe + konsonan (l,m,n,r,w,y) tetap tidak berubah Pe + lamar = pelamar Pe + makan = pemakan Pe + nanti = penanti Pe + wangi = pewangi Kelebihan dan Kelemahan Algoritma Nazief dan Adriani Kelebihan : 1. Memperhatikan kemungkinan adanya partikel-partikel yang mungkin mengikuti suatu kata berimbuhan. 2. Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Nazief dan Adriani memiliki prosentase keakuratan (presisi) lebih besar dibandingkan dengan stemming menggunakan Algoritma Porter.

Kelemahan : 1. Penyamarataan makna variasi kata 2. Jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila kata tidak ditemukan di database dan kemudian dianggap kata dasar, padahal bukan 3. Lamanya waktu yang diperlukan dalam proses pencarian kata di dalam kamus. Daftar Pustaka Mahendra,K.,2008, Penggunaan Algoritma Semut dan Confix Stripping Stemmer untuk Klasifikasi Dokumen Berita Berbahasa Indonesia,Tugas Akhir,Institut Teknologi Sepuluh November, Surabaya. http://liyantanto.wordpress.com/2011/06/28/stemming-bahasa-indonesia-denganalgoritma-nazief-dan-andriani/