BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen teks dapat berupa e-mail, file dokumen, forum online dan blog. Pertambahan volume data setiap harinya membuat pencarian informasi yang sesuai menjadi lebih sulit. Peran teks processing sangat penting untuk mengatasi kasus ini. Dalam text processing sering kali muncul permasalahan tentang ambiguitas sebuah kata. Hal ini menyebabkan perbedaan arti yang dapat mempengaruhi makna dari sebuah kalimat. Sehingga diperlukan sebuah pelabelan kelas kata atau Part-of-Speech Tagging. Part-of-Speech Tagging merupakan bagian dari Natural Language Processing dalam menentukan kelas kata. Hasil penelitian Part-of-Speech Tagging pada dokumen dapat digunakan sebagai dasar penelitian dalam Natural Languange Processing lainnya, seperti : Language Generator, Information Retrieval, Text Summarization, Question and Answering, dan Machine Translation. Perkembangan teknologi mengambil peranan penting dalam hal pelestarian budaya. Salah satunya penelitian Part-of-Speech Tagging pada dokumen bahasa Bali yang bertujuan memberikan label kepada kata. Karakteristik bahasa Bali menurut buku Tata Bahasa Bali tulisan (Granoka,dkk.,1984) menyebutkan ada tiga kelas kata yang dapat digunakan, yaitu nominal, adjektiva, dan partikel. Ketiga kelas kata ini dapat diperinci kembali menjadi beberapa kelas bawahan. Nominal memiliki tiga kelas bawahan, yaitu : kata benda, kata ganti, dan kata bilangan. Adjektiva memiliki dua kelas bawahan, yaitu : kata kerja dan kata sifat. Partikel memiliki enam kelas bawahan, yaitu : kata penjelas, kata keterangan, kata penanda, kata perangkai, kata tanya, dan kata seru. Semua kelas kata tersebut yang akan digunakan sebagai label (tag) dalam penelitian ini. Hasil dari pelabelan kata ini dapat dikembangkan pada penelitian selanjutnya seperti Text Summarization untuk dokumen bahasa Bali. Text Summarization dapat digunakan untuk meringkas teks dokumen seperti cerita Bali yang terdiri dari 1
2 ribuan kata menjadi kumpulan kata yang dapat mewakili keseluruhan isi cerita. Manfaat dari Part-of-Speech Tagging pada dokumen bahasa Bali adalah hasil dari penelitian ini dapat digunakan untuk penelitian selanjutnya dan penelitian ini merupakan salah satu bentuk pelestarian budaya. Penelitian mengenai Part-of-Speech Tagging sudah banyak dilakukan menggunakan berbagai metode seperti : Genetic Brill Tagger untuk dokumen bahasa Belanda (W Joose,2006) dengan nilai akurasi 97%, Hidden Markov Models dan Rule Based untuk dokumen bahasa Indonesia (Kathryn & Agus, 2012) dengan nilai akurasi 92,2%, dan Brill Tagger untuk dokumen bahasa Indonesia (Viny,dkk.,2012) dengan nilai akurasi 99,75%. Dari beberapa penelitian yang telah dilakukan, nilai akurasi tertinggi adalah menggunakan metode Brill Tagger dan Brill Tagger sudah diterapkan pada banyak bahasa, seperti : bahasa Indonesia, Belanda, Inggris, dan Polandia. Kelebihan dari metode Brill Tagger adalah terdiri dari aturan leksikal dan kontekstual untuk memberikan pelabelan kata yang tepat. Aturan leksikal digunakan untuk mencari tag yang paling sering digunakan dalam dokumen dan aturan kontekstual membantu menangani masalah ambiguitas. Aturan diperoleh berdasarkan Transformationbased Error Driven Learning sehingga membuat metode Brill Tagger menjadi sangat kompetitif dibandingkan metode stokastik. Oleh karena itu, penulis mencoba meneliti Part-of-Speech Tagging untuk dokumen bahasa Bali menggunakan algoritma Brill Tagger sehingga hasil dari penelitian ini dapat bermanfaat sebagai dasar dalam penelitian Natural Language Processing selanjutnya. 1.2 Rumusan Masalah Rumusan masalah dalam penelitian ini adalah: 1. Bagaimana memperoleh rule dari fase pembelajaran dalam Brill Tagger untuk Part-of-speech Tagging dokumen bahasa Bali? 2. Bagaimana kinerja algoritma Brill Tagger pada Part-of-speech Tagging dokumen bahasa Bali dalam hal akurasi? 1.3 Tujuan Penelitian Dari rumusan masalah di atas, tujuan dari penelitian ini adalah :
3 1. Memperoleh rule terbaik dari fase pembelajaran yang kemudian akan diterapkan pada aplikasi Part-f-Speech Tagging untuk dokumen bahasa Bali. 2. Mengetahui tingkat akurasi penggunaan algoritma Brill Tagger pada Part-of- Speech Tagging dokumen bahasa Bali. 1.4 Batasan Masalah Permasalahan ini dibatasi pada : 1. Lexicon/kamus yang digunakan pada fase pembelajaran merupakan kata dasar yang terdapat pada korpus yang digunakan. 2. Dataset yang digunakan adalah Sastra Bali Purwa, yaitu satua satua dan Sastra Bali Anyar, yaitu pidarta. 1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah program Part-of Speech Tagging untuk dokumen bahasa Bali yang dibangun menggunakan algoritma Brill Tagger mampu mengatasi permasalahan ambiguitas kata dan berguna sebagai dasar untuk penelitian Natural Language Processing selanjutnya. 1.6 Metodelogi Penelitian 1.6.1 Desain Penelitian Penelitian ini mengambil judul Part-of-Speech Tagging untuk Dokumen Bahasa Bali Menggunakan Algoritma Brill Tagger. Penelitian ini tergolong ke dalam penelitian riset eksperimental (Hasibuan, 2007). Seperti yang disebutkan dalam tujuan penelitian ini, yaitu untuk memperoleh rule terbaik dari fase pembelajaran dan mengetahui tingkat akurasi penggunaan algoritma Brill Tagger pada Part-of-Speech Tagging dokumen bahasa Bali. Adapun desain perancangan implementasi program Brill Tagger untuk dokumen bahasa Bali adalah :
4 Unannotated Corpus Preprocessing Process Lexicon Initial state annotator Initial tag state Lexical Rules Temporary corpus Annotated Text (incorrect) Lexical / Contextual Learner Goal corpus Contextual Transformation State Contextual Rules Rules Annotaed Text (mostly correct) Gambar 1.1 Tahapan dalam POS Tagging Dokumen Bahasa Bali Pada tahap preprocessing, pertama dilakukan proses inisialisasi tag pada unannotated corpus. Selanjutnya corpus yang sudah diinisialisasi akan disimpan pada temporary corpus. Temporary corpus ini akan mengalami proses pembelajaran secara leksikal dan kontekstual sehingga mencapai corpus tujuan (training corpus). Hasil pembelajaran ini adalah final rule yang akan digunakan pada data testing. Pada tahap process, unannotated corpus diinisialisasi menggunakan lexicon dan aturan leksikal. Kemudian kata yang sudah memiliki tag dinamakan annotated text tetapi belum semuanya memiliki tag yang benar atau incorrect, oleh karena itu akan dilanjutkan dengan transformasi rule secara kontekstual menggunakan aturan kontekstual. Hasil dari transformasi kontekstual adalah annotated text yang telah diberi tag yang benar atau correct. Berikut merupakan contoh kata dalam sebuah kalimat bahasa Bali yang belum mendapatkan tag. Unannotated text : Sariadi jemet maang siapne ngamah (1) Pada proses inisialisasi akan di tag dengan most likely tag, kecuali untuk kata ngamah diberikan pre-tagged NN (noun) dan kata Sariadi diberikan tag NNP
5 (proper noun) karena tidak terdapat pada lexicon, maka. Hasilnya tag adalah sebagai berikut : Sariadi/NNP jemet/jj maang/vb siapne/nn ngamah/vb (2) Pada Final State Tagger, aturan kontekstual diaplikasikan dan akan mentransformasi tag yang sesuai. Brill Tagger akan menghasilkan tag sebagai berikut. Annotated text: Sariadi/NNP jemet/jj maang/vb siapne/nn ngamah/nn (3) Tag inisialisasi VB pada kata ngamah berubah menjadi tag NN setelah mengalami transformasi tag pada kontekstual rule. 1.6.2 Pengumpulan Data Data yang digunakan dalam penelitian ini diperoleh dengan cara mengumpulkan sendiri dari pencarian di internet. Dataset yang digunakan pada penelitian ini adalah kumpulan dokumen corpus bahasa Bali yang dibagi menjadi dua bagian yaitu 70% digunakan sebagai data training dan 30% menjadi data testing. Dataset terdiri dari dokumen Sastra Bali Purwa yaitu : Satua dan Sastra Bali Anyar, yaitu Pidarta. 1.6.3 Pengolahan Data Awal Data yang diperoleh tidak dapat langsung digunakan dalam penelitian ini, ada beberapa pengolahan data awal yang harus dilakukan, yaitu : 1. Pengolahan data awal untuk memperoleh goal corpus, goal corpus merupakan corpus yang diberikan tag secara manual yang nantinya akan digunakan sebagai corpus tujuan dalam tahap training. Data yang akan dijadikan goal copus di tag manual sesuai daftar kelas kata pada tabel 2.2. dengan bimbingan dari Dosen Sastra Bali Universitas Udayana, Bapak Drs. I Gede Nala Antara, M.Hum. 2. Pengolahan data awal untuk lexicon, lexicon/kamus bahasa Bali keberadaannya masih terbatas, oleh karena itu peneliti membuat database kamus bahasa Bali yang terbatas pada kata dasar corpus yang digunakan sebagai dataset. Kata pada kamus ini telah disesuaikan dengan Kamus Bali
6 Indonesia terbitan Dinas Pendidikan Dasar, Propinsi Dati I Bali (1990). Jumlah kata dasar yang digunakan dalam penelitian ini adalah 2497 kata. 1.6.4 Metode yang Digunakan Metode yang diusulkan dalam penelitian ini adalah metode Brill Tagger. Seperti yang telah dijelaskan pada subbab 2.3, Brill Tagger termasuk dalam Transformation-based Error Driven Learning. Pembelajaran menggunakan data training yang digunakan untuk memberi skor transformasi agar menemukan transformasi terbaik pada iterasi pembelajaran. Data training yang digunakan sudah dijelaskan pada Desain Penelitian sebelumnya. Data training merupakan dokumen bahasa Bali yang sudah ditag secara manual. Dokumen data training dijadikan kamus/ leksikon pada fase pembelajaran. Aturan yang digunakan dalam Brill Tagger terdiri dari dua aturan, yaitu : Aturan Leksikal dan Kontekstual. Pada aturan Leksikal, digunakan frekuensi tag dari goal corpus dan aturan imbuhan untuk memberi tag pada training corpus. Kemudian akan dicari most likely tagdari daftar rule yang diurut secara descending menurut nilai skor. Nilai skor diperoleh dari rumus 2.3, yaitu dengan menghitung jumlah P(new tag w) - P(old tag w). Skor positif menunjukkan tag yang baru more likely dibandingkan tag sebelumnya, sedangkan skor negatif menunjukkan tag yang baru less likely dibanding tag sebelumnya. Tag dengan skor tertinggi yang akan menjadi most likely tag. Pada aturan kontekstual akan diperbaiki rule dengan melihat konteks dari kalimat. Perbaikan rule menggunakan template aturan sebagai berikut : Ganti tag a ke tag b saat : 1. Jika kata sebelumnya ditag z. 2. Jika dua kata sebelumnya ditag z. 3. Salah satu dari dua kata sebelumnyaditag z. Mengikuti template aturan di atas, maka akan dihitung nilai skor dari transformasi rule yang terjadi. Rule yang memiliki nilai skor tertinggi yang terpilih. Perbaikan rule akan terus terjadi sampai skor memenuhi threshold.