BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
UKDW BAB 1 PENDAHULUAN Latar Belakang

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.

PART OF SPEECH TAGGER UNTUK BAHASA INDONESIA DENGAN MENGGUNAKAN MODIFIKASI BRILL

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1. PENDAHULUAN 1.1 Latar belakang Masalah

BAB II TINJAUAN PUSTAKA

Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi

SKRIPSI. Triastuti Chandrawati

IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan)

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA. M Karibun H S

EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA

PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA

BAB I PENDAHULUAN 1.1 Latar Belakang

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha

BABI PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

TUGAS AKHIR. Disusun oleh : SUSI SETYOWATI

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

BAB I PENDAHULUAN! 1.1 Latar Belakang

PENENTUAN KELAS KATA PADA PART OF SPEECH TAGGING KATA AMBIGU BAHASA INDONESIA

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. mengkonversikan tulisan / teks ke dalam bentuk ucapan dengan menggunakan

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI RULE-BASED DOCUMENT SUBJECTIVITY PADA SISTEM OPINION MINING

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

PENYUSUNAN KORPUS BERITA TERBUKA BERBAHASA INDONESIA

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

1. BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar belakang

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

BAB II TINJAUAN PUSTAKA

: Peringkasan Terpandu Otomatis (Automatic Guided Summarization)

PENERJEMAHAN DOKUMEN INGGRIS-INDONESIA MENGGUNAKAN MESIN PENERJEMAH STATISTIK DENGAN WORD REORDERING DAN PHRASE REORDERING

BAB I PENDAHULUAN. I.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Gambar 1. Komponen Mesin Translasi Berbasis Statistik

Pendekatan Rule Handmade untuk Menentukan Klausa Bahasa Indonesia

PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

APLIKASI WORDNET INDONESIA BERDASARKAN KAMUS THESAURUS BAHASA INDONESIA MENGGUNAKAN ALGORITMA RULE BASED TEXT PARSING

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Ekstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction

Analisis Sentimen pada Opini Mahasiswa Menggunakan Natural Language Processing

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

1. Introduction. tertentu memegang peran penting dalam. Abstract

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

BAB 1 PENDAHULUAN. dengan awal tahun 2000 pada saat telepon selular dianggap menjadi barang yang mahal.

Pembentukan Sentence-Aligned Korpus Paralel untuk Bahasa Sunda-Bahasa Indonesia Berbasis Wikipedia dengan Bootstrapping dan EM

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 2. TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang. Menghafal merupakan sesuatu yang sulit dilakukan sebagian orang.

BAB 3 ANALISIS DAN PERANCANGAN

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA. M Karibun H S

Implementasi Opinion Mining (Analisis Sentimen) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi

PENERAPAN METODE HIDDEN MARKOV MODEL DAN MEL FREQUENCY CEPSTRUM COEFFICIENT DALAM PENGENALAN VOICE COMMAND BERBAHASA INDONESIA KOMPETENSI KOMPUTASI

BAB 1 PENDAHULUAN Latar Belakang

Analisis Sentimen Twitter untuk Teks Berbahasa Indonesia dengan Maximum Entropy dan Support Vector Machine

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENGENALAN AKSARA BALI MENGGUNAKAN METODE MODIFIED DIRECTION FEATURE DAN ALGORITMA GENERALIZED LEARNING VECTOR QUANTIZATION (GLVQ)

ABSTRAK. vi Universitas Kristen Maranatha

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)

Mencari dokumen yang dituliskan dalam berbagai bahasa

BAB I PENDAHULUAN.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Model Prediksi Berbasis Neural Network untuk Pengujian Perangkat Lunak Metode Black-Box

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

1.2. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

Bab 1 Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODE PENELITIAN

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen teks dapat berupa e-mail, file dokumen, forum online dan blog. Pertambahan volume data setiap harinya membuat pencarian informasi yang sesuai menjadi lebih sulit. Peran teks processing sangat penting untuk mengatasi kasus ini. Dalam text processing sering kali muncul permasalahan tentang ambiguitas sebuah kata. Hal ini menyebabkan perbedaan arti yang dapat mempengaruhi makna dari sebuah kalimat. Sehingga diperlukan sebuah pelabelan kelas kata atau Part-of-Speech Tagging. Part-of-Speech Tagging merupakan bagian dari Natural Language Processing dalam menentukan kelas kata. Hasil penelitian Part-of-Speech Tagging pada dokumen dapat digunakan sebagai dasar penelitian dalam Natural Languange Processing lainnya, seperti : Language Generator, Information Retrieval, Text Summarization, Question and Answering, dan Machine Translation. Perkembangan teknologi mengambil peranan penting dalam hal pelestarian budaya. Salah satunya penelitian Part-of-Speech Tagging pada dokumen bahasa Bali yang bertujuan memberikan label kepada kata. Karakteristik bahasa Bali menurut buku Tata Bahasa Bali tulisan (Granoka,dkk.,1984) menyebutkan ada tiga kelas kata yang dapat digunakan, yaitu nominal, adjektiva, dan partikel. Ketiga kelas kata ini dapat diperinci kembali menjadi beberapa kelas bawahan. Nominal memiliki tiga kelas bawahan, yaitu : kata benda, kata ganti, dan kata bilangan. Adjektiva memiliki dua kelas bawahan, yaitu : kata kerja dan kata sifat. Partikel memiliki enam kelas bawahan, yaitu : kata penjelas, kata keterangan, kata penanda, kata perangkai, kata tanya, dan kata seru. Semua kelas kata tersebut yang akan digunakan sebagai label (tag) dalam penelitian ini. Hasil dari pelabelan kata ini dapat dikembangkan pada penelitian selanjutnya seperti Text Summarization untuk dokumen bahasa Bali. Text Summarization dapat digunakan untuk meringkas teks dokumen seperti cerita Bali yang terdiri dari 1

2 ribuan kata menjadi kumpulan kata yang dapat mewakili keseluruhan isi cerita. Manfaat dari Part-of-Speech Tagging pada dokumen bahasa Bali adalah hasil dari penelitian ini dapat digunakan untuk penelitian selanjutnya dan penelitian ini merupakan salah satu bentuk pelestarian budaya. Penelitian mengenai Part-of-Speech Tagging sudah banyak dilakukan menggunakan berbagai metode seperti : Genetic Brill Tagger untuk dokumen bahasa Belanda (W Joose,2006) dengan nilai akurasi 97%, Hidden Markov Models dan Rule Based untuk dokumen bahasa Indonesia (Kathryn & Agus, 2012) dengan nilai akurasi 92,2%, dan Brill Tagger untuk dokumen bahasa Indonesia (Viny,dkk.,2012) dengan nilai akurasi 99,75%. Dari beberapa penelitian yang telah dilakukan, nilai akurasi tertinggi adalah menggunakan metode Brill Tagger dan Brill Tagger sudah diterapkan pada banyak bahasa, seperti : bahasa Indonesia, Belanda, Inggris, dan Polandia. Kelebihan dari metode Brill Tagger adalah terdiri dari aturan leksikal dan kontekstual untuk memberikan pelabelan kata yang tepat. Aturan leksikal digunakan untuk mencari tag yang paling sering digunakan dalam dokumen dan aturan kontekstual membantu menangani masalah ambiguitas. Aturan diperoleh berdasarkan Transformationbased Error Driven Learning sehingga membuat metode Brill Tagger menjadi sangat kompetitif dibandingkan metode stokastik. Oleh karena itu, penulis mencoba meneliti Part-of-Speech Tagging untuk dokumen bahasa Bali menggunakan algoritma Brill Tagger sehingga hasil dari penelitian ini dapat bermanfaat sebagai dasar dalam penelitian Natural Language Processing selanjutnya. 1.2 Rumusan Masalah Rumusan masalah dalam penelitian ini adalah: 1. Bagaimana memperoleh rule dari fase pembelajaran dalam Brill Tagger untuk Part-of-speech Tagging dokumen bahasa Bali? 2. Bagaimana kinerja algoritma Brill Tagger pada Part-of-speech Tagging dokumen bahasa Bali dalam hal akurasi? 1.3 Tujuan Penelitian Dari rumusan masalah di atas, tujuan dari penelitian ini adalah :

3 1. Memperoleh rule terbaik dari fase pembelajaran yang kemudian akan diterapkan pada aplikasi Part-f-Speech Tagging untuk dokumen bahasa Bali. 2. Mengetahui tingkat akurasi penggunaan algoritma Brill Tagger pada Part-of- Speech Tagging dokumen bahasa Bali. 1.4 Batasan Masalah Permasalahan ini dibatasi pada : 1. Lexicon/kamus yang digunakan pada fase pembelajaran merupakan kata dasar yang terdapat pada korpus yang digunakan. 2. Dataset yang digunakan adalah Sastra Bali Purwa, yaitu satua satua dan Sastra Bali Anyar, yaitu pidarta. 1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah program Part-of Speech Tagging untuk dokumen bahasa Bali yang dibangun menggunakan algoritma Brill Tagger mampu mengatasi permasalahan ambiguitas kata dan berguna sebagai dasar untuk penelitian Natural Language Processing selanjutnya. 1.6 Metodelogi Penelitian 1.6.1 Desain Penelitian Penelitian ini mengambil judul Part-of-Speech Tagging untuk Dokumen Bahasa Bali Menggunakan Algoritma Brill Tagger. Penelitian ini tergolong ke dalam penelitian riset eksperimental (Hasibuan, 2007). Seperti yang disebutkan dalam tujuan penelitian ini, yaitu untuk memperoleh rule terbaik dari fase pembelajaran dan mengetahui tingkat akurasi penggunaan algoritma Brill Tagger pada Part-of-Speech Tagging dokumen bahasa Bali. Adapun desain perancangan implementasi program Brill Tagger untuk dokumen bahasa Bali adalah :

4 Unannotated Corpus Preprocessing Process Lexicon Initial state annotator Initial tag state Lexical Rules Temporary corpus Annotated Text (incorrect) Lexical / Contextual Learner Goal corpus Contextual Transformation State Contextual Rules Rules Annotaed Text (mostly correct) Gambar 1.1 Tahapan dalam POS Tagging Dokumen Bahasa Bali Pada tahap preprocessing, pertama dilakukan proses inisialisasi tag pada unannotated corpus. Selanjutnya corpus yang sudah diinisialisasi akan disimpan pada temporary corpus. Temporary corpus ini akan mengalami proses pembelajaran secara leksikal dan kontekstual sehingga mencapai corpus tujuan (training corpus). Hasil pembelajaran ini adalah final rule yang akan digunakan pada data testing. Pada tahap process, unannotated corpus diinisialisasi menggunakan lexicon dan aturan leksikal. Kemudian kata yang sudah memiliki tag dinamakan annotated text tetapi belum semuanya memiliki tag yang benar atau incorrect, oleh karena itu akan dilanjutkan dengan transformasi rule secara kontekstual menggunakan aturan kontekstual. Hasil dari transformasi kontekstual adalah annotated text yang telah diberi tag yang benar atau correct. Berikut merupakan contoh kata dalam sebuah kalimat bahasa Bali yang belum mendapatkan tag. Unannotated text : Sariadi jemet maang siapne ngamah (1) Pada proses inisialisasi akan di tag dengan most likely tag, kecuali untuk kata ngamah diberikan pre-tagged NN (noun) dan kata Sariadi diberikan tag NNP

5 (proper noun) karena tidak terdapat pada lexicon, maka. Hasilnya tag adalah sebagai berikut : Sariadi/NNP jemet/jj maang/vb siapne/nn ngamah/vb (2) Pada Final State Tagger, aturan kontekstual diaplikasikan dan akan mentransformasi tag yang sesuai. Brill Tagger akan menghasilkan tag sebagai berikut. Annotated text: Sariadi/NNP jemet/jj maang/vb siapne/nn ngamah/nn (3) Tag inisialisasi VB pada kata ngamah berubah menjadi tag NN setelah mengalami transformasi tag pada kontekstual rule. 1.6.2 Pengumpulan Data Data yang digunakan dalam penelitian ini diperoleh dengan cara mengumpulkan sendiri dari pencarian di internet. Dataset yang digunakan pada penelitian ini adalah kumpulan dokumen corpus bahasa Bali yang dibagi menjadi dua bagian yaitu 70% digunakan sebagai data training dan 30% menjadi data testing. Dataset terdiri dari dokumen Sastra Bali Purwa yaitu : Satua dan Sastra Bali Anyar, yaitu Pidarta. 1.6.3 Pengolahan Data Awal Data yang diperoleh tidak dapat langsung digunakan dalam penelitian ini, ada beberapa pengolahan data awal yang harus dilakukan, yaitu : 1. Pengolahan data awal untuk memperoleh goal corpus, goal corpus merupakan corpus yang diberikan tag secara manual yang nantinya akan digunakan sebagai corpus tujuan dalam tahap training. Data yang akan dijadikan goal copus di tag manual sesuai daftar kelas kata pada tabel 2.2. dengan bimbingan dari Dosen Sastra Bali Universitas Udayana, Bapak Drs. I Gede Nala Antara, M.Hum. 2. Pengolahan data awal untuk lexicon, lexicon/kamus bahasa Bali keberadaannya masih terbatas, oleh karena itu peneliti membuat database kamus bahasa Bali yang terbatas pada kata dasar corpus yang digunakan sebagai dataset. Kata pada kamus ini telah disesuaikan dengan Kamus Bali

6 Indonesia terbitan Dinas Pendidikan Dasar, Propinsi Dati I Bali (1990). Jumlah kata dasar yang digunakan dalam penelitian ini adalah 2497 kata. 1.6.4 Metode yang Digunakan Metode yang diusulkan dalam penelitian ini adalah metode Brill Tagger. Seperti yang telah dijelaskan pada subbab 2.3, Brill Tagger termasuk dalam Transformation-based Error Driven Learning. Pembelajaran menggunakan data training yang digunakan untuk memberi skor transformasi agar menemukan transformasi terbaik pada iterasi pembelajaran. Data training yang digunakan sudah dijelaskan pada Desain Penelitian sebelumnya. Data training merupakan dokumen bahasa Bali yang sudah ditag secara manual. Dokumen data training dijadikan kamus/ leksikon pada fase pembelajaran. Aturan yang digunakan dalam Brill Tagger terdiri dari dua aturan, yaitu : Aturan Leksikal dan Kontekstual. Pada aturan Leksikal, digunakan frekuensi tag dari goal corpus dan aturan imbuhan untuk memberi tag pada training corpus. Kemudian akan dicari most likely tagdari daftar rule yang diurut secara descending menurut nilai skor. Nilai skor diperoleh dari rumus 2.3, yaitu dengan menghitung jumlah P(new tag w) - P(old tag w). Skor positif menunjukkan tag yang baru more likely dibandingkan tag sebelumnya, sedangkan skor negatif menunjukkan tag yang baru less likely dibanding tag sebelumnya. Tag dengan skor tertinggi yang akan menjadi most likely tag. Pada aturan kontekstual akan diperbaiki rule dengan melihat konteks dari kalimat. Perbaikan rule menggunakan template aturan sebagai berikut : Ganti tag a ke tag b saat : 1. Jika kata sebelumnya ditag z. 2. Jika dua kata sebelumnya ditag z. 3. Salah satu dari dua kata sebelumnyaditag z. Mengikuti template aturan di atas, maka akan dihitung nilai skor dari transformasi rule yang terjadi. Rule yang memiliki nilai skor tertinggi yang terpilih. Perbaikan rule akan terus terjadi sampai skor memenuhi threshold.