Meningkatkan Akurasi Pada Mesin Penerjemah Bahasa Indonesia Ke Bahasa Melayu Pontianak Dengan Part Of Speech

dokumen-dokumen yang mirip
Perbaikan Probabilitas Lexical Model untuk Meningkatkan Akurasi Mesin Penerjemah Statistik

TUNING FOR QUALITY UNTUK UJI AKURASI MESIN PENERJEMAH STATISTIK (MPS) BAHASA INDONESIA - BAHASA DAYAK KANAYATN

Uji Akurasi Penerjemahan Bahasa Indonesia Dayak Taman dengan Penandaan Kata Dasar dan Imbuhan

Konversi Bahasa Indonesia ke SQL (Structured Query Language) dengan Pendekatan Mesin Penerjemah Statistik

APLIKASI PENERJEMAH DUA ARAH BAHASA INDONESIA BAHASA MELAYU SAMBAS BERBASIS WEB DENGAN MENGGUNAKAN DECODER MOSES

MESIN PENERJEMAH BAHASA INDONESIA- BAHASA JAWA Johan Pranata 1, Muljono 2 1,2 Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro

PENERJEMAHAN DOKUMEN INGGRIS-INDONESIA MENGGUNAKAN MESIN PENERJEMAH STATISTIK DENGAN WORD REORDERING DAN PHRASE REORDERING

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

Mesin Penerjemah Situs Berita Online Bahasa Indonesia ke Bahasa Melayu Pontianak

IMPLEMENTASI MESIN PENERJEMAH STATISTIK BERBASIS ANDROID DENGAN MOSES DECODER

Ibnu Hadi. Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura

Gambar 1. Komponen Mesin Translasi Berbasis Statistik

khazanah Meningkatkan Peran Model Bahasa dalam Mesin Penerjemah Statistik (Studi Kasus Bahasa Indonesia-Dayak Kanayatn) informatika

BAB I PENDAHULUAN. 1.1 Latar belakang Latar belakang umum

Pembentukan Sentence-Aligned Korpus Paralel untuk Bahasa Sunda-Bahasa Indonesia Berbasis Wikipedia dengan Bootstrapping dan EM

UKDW BAB 1 PENDAHULUAN Latar Belakang

PENGARUH PART-OF-SPEECH PADA MESIN PENERJEMAH BAHASA INGGRIS-INDONESIA BERBASIS FACTORED TRANSLATION MODEL

BAB 2 LANDASAN TEORI

ABSTRAK. Kata Kunci: sistem penerjemah Alkitab, Bilingual Evaluation Understudy, GIZA++, Statistical Machine Translation, dan IBM model.

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha

PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara

1. PENDAHULUAN 1.1 Latar belakang Masalah

BAB 3 ARSITEKTUR DAN PERANCANGAN SISTEM

(7) Sebagai contoh, sebuah kalimat dari bahasa Jerman dengan terjemahannya dalam bahasa Inggris seperti berikut ini :

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. I.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Marissa Nur Eskanaluwa¹, M. Ramdhani², M. Arif Bijaksana Ech³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB 1 PENDAHULUAN. mengkonversikan tulisan / teks ke dalam bentuk ucapan dengan menggunakan

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

LAMPIRAN. Lampiran Kuesioner untuk Pengidentifikasian Masalah. Berikut disertakan lampiran kuesioner yang berperan dalam proses

DAN IMPLEMENTASI IDENTIFIKASI PARAFRASA TWEET MENGGUNAKAN ALGORITMA BLEU, METEOR DAN EDIT DISTANCE

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

BAB I PENDAHULUAN. linguistik (Austin & Sallabank, 2011). Melalui bahasa, seseorang dapat. dimaksudkan oleh penyampai pesan kepada orang tersebut.

BAB III ANALISA DAN PERANCANGAN SISTEM. Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem.

RANCANG BANGUN SISTEM INFORMASI MANAJEMEN PERPUSTAKAAN INFORMATIKA UNIVERSITAS TANJUNGPURA BERBASIS WEB

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Pengumpulan Korpus Paralel Bahasa Indonesia-Sunda dari Wikipedia Menggunakan Metode Pointwise Mutual Information

Mencari dokumen yang dituliskan dalam berbagai bahasa

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang

Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

Pendeteksian Relasi Antar Makna Pada Wordnet Bahasa Indonesia

DAFTAR PUSTAKA. [1] Rahardi Kunjana, Bahasa Indonesia Untuk Perguruan Tinggi. Jakarta: Erlangga, 2010.

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. Latar Belakang

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK

Aplikasi Kamus Indonesia-Jawa Berbasis Android

1 BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

PENYUSUNAN KORPUS BERITA TERBUKA BERBAHASA INDONESIA

BAB I PENDAHULUAN. agama dan kepercayaan. Sehingga adanya simbol atau semboyan Bhinneka

BAB I PENDAHULUAN 1.1 Latar Belakang

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

Pemberdayaan TIK untuk pengembangan bahasa Indonesia dan pengajaran BIPA

BAB III METODOLOGI PENELITIAN

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

RANCANG BANGUN APLIKASI ALOKASI RESOURCE MANAGEMENT DI FAKULTAS TEKNIK UNIVERSITAS TANJUNGPURA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

PENERAPAN TWO-PHASE TRANSLATION METHOD PADA QUERY-BASED TRANSITIVE TRANSLATION

IMPLEMENTASI DAN ANALISIS PENGOLAHAN KATA MENGGUNAKAN ALGORITMA HIDDEN MARKOV MODEL DENGAN POCKETSPHINX

BAB II LANDASAN TEORI

BAB I BAB 1. PENDAHULUAN

1. BAB I PENDAHULUAN 1.1. Latar Belakang

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN! 1.1 Latar Belakang

APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III METODE PENELITIAN

NATURAL LANGUAGE PROCESSING DENGAN TEKNIK STATE MACHINE PARSER

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. Terdapat sistem operasi yang berkembang antara lain mobile phone

Natural Language Processing

BAB 5 UJI COBA DAN PENGEMBANGAN LEBIH LANJUT

APLIKASI PENENTUAN JENIS PART OF SPEECH MENGGUNAKAN METODE N-GRAM DAN STRING MATCHING

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 4 IMPLEMENTASI DAN EVALUASI SISTEM. pengujian pada handset Galaxy Tab Hasilnya adalah sebagai berikut :

DETEKSI OOV MENGGUNAKAN HASIL PENGENALAN SUARA OTOMATIS UNTUK BAHASA INDONESIA. Aswin Juari dan Ayu Purwarianti

BAB I PENDAHULUAN. yang telah digunakan secara luas oleh orang orang di dunia saat ini adalah

BAB 2. TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

Transkripsi:

Jurnal Edukasi dan Penelitian Informatika (JUSTIN) Vol. 3, No. 1, (2016) 1 Meningkatkan Akurasi Pada Mesin Penerjemah Bahasa Indonesia Ke Bahasa Melayu Dengan Part Of Speech Danny Indrayana 1, Herry Sujaini 2, Novi Safriadi 3. Program Studi Teknik Informatika Fakultas Teknik Universitas Tanjungpura 123 e-mail: dannyindrayanaft@gmail.com 1, herry_sujaini@yahoo.com 2, bangnops@gmail.com 3 Abstrak Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar. Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimatkalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan akurasi hasil terjemahan adalah dengan fitur part of speech (PoS). Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan penggunaan fitur PoS pada mesin penerjemah statistik bahasa Indonesia ke bahasa Melayu untuk meningkatkan nilai akurasi hasil terjemahan. Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah penggunaan PoS. Penelitian menggunakan korpus paralel sebanyak 3050 korpus. Pengujian dilakukan dengan dua cara, yaitu pengujian otomatis menggunakan Bilingual Evaluation Understudy (BLEU) dan pengujian oleh ahli bahasa Melayu. Dari hasil penelitian, penggunaan PoS dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Melayu. Hal itu terlihat dari hasil pengujian dengan menambahkan fitur PoS terdapat peningkatan nilai BLEU sebesar 0.6% pada pengujian otomatis dan 21.67% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Melayu dengan penggunaan fitur PoS dapat meningkatkan nilai akurasi hasil terjemahan. Kata Kunci PoS, mesin penerjemah statistik, korpus paralel, BLEU score, Indonesia, Melayu I. PENDAHULUAN Bahasa merupakan alat komunikasi yang menjadi sarana untuk berinteraksi dengan masyarakat sekitarnya. Dengan bahasa, manusia dapat menyampaikan berbagai hal satu sama lainnya, baik itu dalam bentuk lisan maupun tulisan. Seiring dengan bertambahnya usia, semakin berkembang juga penguasaan bahasa yang dikuasai. Banyak bahasa yang dapat dikenal dan dipelajari oleh manusia. Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Selain Bahasa Indonesia sebagai bahasa nasional, menurut UNESCO Indonesia memiliki lebih dari 640 bahasa daerah yang didalamnya terdapat 154 bahasa yang harus diperhatikan karena terancam punah [1]. Dengan banyaknya bahasa daerah yang ada di Indonesia perlu terus dilakukan upaya pemertahanan bahasa agar bahasa-bahasa ini tidak punah termakan zaman. Hasil Sensus Penduduk pada tahun 2010, dari berbagai bahasa daerah yang terdapat di Indonesia, Persentase penggunaan bahasa Melayu yang digunakan oleh masyarakat Kalimantan barat mencapai 20,45% (1.615.978 juta jiwa) dari total penduduk Kalimantan Barat [2]. Sebagai salah satu bahasa daerah yang ada di Kalimantan Barat, Bahasa Melayu adalah bahasa Melayu yang dituturkan oleh masyarakat asli kota. Penduduk asli kota berdomisili dibeberapa kecamatan yang letaknya berdekatan dengan Keraton Kadriah yang merupakan pusat kerajaan Melayu di. Bahasa Melayu sendiri sampai saat ini memang jauh dari kepunahan, dikarenakan penutur bahasa ini relatif masih banyak walaupun tidak diketahui secara pasti berapa penutur bahasa melayu pontianak. Adanya perkembangan teknologi juga berpengaruh terhadap perkembangan bahasa Melayu, Misalnya banyak kosakata yang bukan berasal dari bentuk asli bahasa Melayu yang terserap. Bahkan kosakata ini banyak digunakan dari pada bentuk bahasa asli Melayu. Berdasarkan beberapa hal yang telah dijabarkan, untuk menghindari terjadinya kepunahan bahasa daerah, salah satu caranya adalah dengan mesin penerjemah. Mesin penerjemah adalah aplikasi komputer yang dapat menerjemahkan teks dari satu bahasa natural (natural language) ke bahasa natural lain [3]. Mesin penerjemah memiliki beberapa keterbatasan seperti bahasa yang diterjemahkan belum akurat sehingga menyebabkan berkurangnya arti dan maksud dari sebuah kalimat. Salah satu cara menghasilkan terjemahan yang optimal, mesin penerjemah menggunakan konsep penerjemahan secara statistik yang disebut sebagai mesin penerjemah statistik atau Statistical Machine Translation. Mesin penerjemah statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel [4]. Salah satu faktor yang digunakan untuk meningkatkan hasil terjemahan adalah dengan penambahan part of speech yang dihasilkan melalui pengkategorian kelas kata, seperti kata benda, kata kerja, kata sifat dan lainnya dalam proses tagging part of speech. Sudah banyak penelitian-penelitian yang mengembangkan rancangan part of speech tagset untuk bahasa Indonesia. Telah ada juga

Jurnal Edukasi dan Penelitian Informatika (JUSTIN) Vol. 3, No. 1, (2016) 2 beberapa penelitian tentang penggunaan part of speech dalam mesin penerjemah, misalnya penggunaan part of speech dalam mesin penerjemah bahasa Inggris bahasa Indonesia dengan peningkatan akurasi sebesar 2%. Ada pula penelitian tentang mesin penerjemah bahasa Indonesia bahasa Melayu tetapi belum menggunakan part of speech sehingga belum mencapai tingkat akurasi yang memuaskan. Berdasarkan penjelasan yang telah dipaparkan, maka akan dilakukan penelitian untuk peningkatan akurasi mesin penerjemah statistik bahasa Indonesia ke bahasa Melayu dengan penggunaan faktor part of speech. II. URAIAN PENELITIAN A. Mesin Penerjemah Statistik Mesin penerjemah statistik merupakan salah satu jenis mesin penerjemah dengan menggunakan pendekatan statistik. Menurut Christoper D Manning dan Hinrich Schutze, dalam statistical machine translation terdapat tiga buah komponen yang terlibat dalam proses penerjemahan kalimat dari suatu bahasa ke bahasa lain, yaitu language model, translation model, dan decoder seperti yang tertera pada Gambar 1 [5]. Gambar 1. Komponen mesin penerjemah statistik [5] Language model digunakan pada aplikasi Natural Language Processing seperti speech recognition, part-ofspeech tagging dan syntactic parsing. Language model statistik menetapkan probabilitas P(W 1,n) ke serangkaian n kata dengan means sebuah distribusi probabilitas. Translation model merupakan salah satu komponen penting pada statistical machine translation dalam proses penerjemahan yang membagi kalimat bahasa asal menjadi barisan frase, menerjmahkan setiap frase ke tujuan, dan reordering. Komponen terakhir dari mesin penerjemah statistik adalah decoder yang berfungsi untuk mencari teks dalam bahasa tujuan yang memiliki probabilitas paling besar dengan pertimbangan translation model dan language model. Secara umum, arsitektur mesin penerjemah statistik Moses ditunjukan pada gambar 2. Korpus Melayu Modifikasi Tagging Korpus Melayu POS Korpus Melayu LM Training Language Model with PoS Decoding Korpus Indonesia TM Training Translation Model Decoder Penerjemahan Bahasa Melayu Penilaian Hasil Korpus Indonesia Gambar 2. Arsitektur mesin pnerjemah statistik Moses [6] Gambar 2 merupakan arsitektur sistem dari mesin penerjemah statistik Moses. Menurut Herry Sujaini, sumber data utama yang dipergunakan adalah parallel corpus dan monolingual corpus. Proses training terhadap parallel corpus menggunakan GIZA++ menghasilkan translation model (TM). Proses training terhadap bahasa target pada parallel corpus ditambah dengan monolingual corpus bahasa target menggunakan SRILM menghasilkan language model (LM) dengan PoS dihasilkan dari bahasa target pada parallel corpus yang setiap katanya sudah ditandai dengan PoS. TM, LM PoS digunakan untuk menghasilkan decoder Moses. Selanjutnya Moses digunakan sebagai mesin penerjemah untuk menghasilkan bahasa target dari input kalimat dalam bahasa sumber [6]. B. Moses Moses adalah salah satu Mesin Penerjemah Statistik yang memungkinkan untuk menerjemahkan secara otomatis setiap pasangan bahasa. Moses digunakan untuk melatih model statistik teks terjemahan dari bahasa sumber ke bahasa sasaran. Saat melakukan penerjemahkan bahasa, Moses membutuhkan korpus dalam dua bahasa, bahasa sumber dan bahasa sasaran. Moses dirilis di bawah lisensi LGPL (Lesser General Public License) dan tersedia sebagai kode sumber dan binari untuk Windows dan Linux. Perkembangannya didukung oleh proyek EuroMatrix, dengan pendanaan oleh European Commission [7]. C. Korpus Korpus adalah kumpulan teks alami, baik bahasa lisan maupun bahasa tulis, yang disusun secara sistematis. Dikatakan alami karena teks yang dikumpulkan merupakan teks yang diproduksi dan digunakan secara wajar dan tidak dibuat-buat [8]. Korpus dapat diklasifikasikan ke dalam enam jenis, yaitu korpus umum, korpus histori, korpus regional, korpus pemelajar, korpus multibahasa, korpus lisan [8]. Korpus paralel adalah dua atau lebih korpus dalam bahasa yang berbeda. Masing-masing korpus memuat teks yang telah diterjemahkan dari satu bahasa ke bahasa lain. D. Automatic Evaluation Sistem evaluasi otomatis yang populer saat ini adalah BLEU (Bilingual Evaluation Understudy). BLEU adalah sebuah algoritma yang berfungsi untuk mengevaluasi kualitas dari sebuah hasil terjemahan yang telah diterjemahkan oleh mesin dari satu bahasa alami ke bahasa lain. BLEU mengukur modified n-gram precission score antara hasil terjemahan otomatis dengan terjemahan rujukan dan menggunakan konstanta yang dinamakan brevity penalty [9]. Nilai BLEU didapat dari hasil perkalian antara brevity penalty dengan rata-rata geometri dari modified precision score. Semakin tinggi nilai BLEU, maka semakin akurat dengan rujukan. Sangat penting untuk diketahui bahwa semakin banyak terjemahan rujukan per kalimatnya, maka akan semakin tinggi nilainya. Untuk menghasikan nilai BLEU yang tinggi, panjang kalimat hasil terjemahan harus mendekati panjang dari kalimat referensi dan kalimat hasil terjemahan harus memiliki kata dan urutan yang sama dengan kalimat referensi. Rumus BLEU sebagai berikut [10]: if c > r 1 BP BLEU = { (2.1) e (1 r/c) if c r

Jurnal Edukasi dan Penelitian Informatika (JUSTIN) Vol. 3, No. 1, (2016) 3 P n = Cε corpus n gramεc count clip (n gram) Cε corpus n gramεc count (n gram) N w n (2.2) BLEU = BP BLEU. e n 1 log p n (2.3) Keterangan: BP = brevity penalty c = jumlah kata dari hasil terjemahan otomatis r = jumlah kata rujukan P n = modified precission score w n = 1/N (standar nilai N untuk BLEU adalah 4) p n = jumlah n-gram hasil terjemahan yang sesuai dengan rujukan dibagi jumlah n-gram hasil terjemahan III. HASIL DAN DISKUSI A. Data Penelitian Data penelitian berupa buku berbahasa Melayu dari buku Sepok 1 dan buku Sepok 2 yang akan diterjemahkan dalam bahasa Indonesia. Buku tersebut selanjutnya diolah menjadi korpus teks paralel bahasa Indonesia dan bahasa Melayu. Adapun jumlahnya yaitu 3050 pasangan kalimat korpus paralel bahasa Indonesia dan bahasa Melayu. Dengan jumlah 3802 token untuk bahasa Indonesia dan 4171 token untuk korpus bahasa Melayu. B. Implementasi Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu 1. Implementasi SRILM Pemodelan bahasa oleh SRILM (Standarford Research Institute Language Modelling) dilakukan pada bahasa target dan menghasilkan tabel model bahasa dengan n-gram data. Model bahasa n-gram memiliki nilai probabilitas dalam bahasa target. Model bahasa dibangun dengan tools SRILM. Model bahasa akan menghasilkan output dengan format file *.lm. Gambar 3 merupakan tabel model bahasa yang dihasilkan oleh SRILM pada mesin penerjemah statistik Bahasa Indonesia ke bahasa Melayu. Pemodelan bahasa oleh SRILM dapat dilihat pada gambar 3. \data\ ngram 1=4173 ngram 2=17126 ngram 3=2005 \1-grams: -3.16966 abad -0.2059304-3.353547 abang -0.1541248 ------------------------------------- \2-grams -2.991456 ade kegiatan -0.1345432-2.626169 ade kenak -0.1345433 ------------------------------------- \3-grams -0.1545237 ade kawan aku -0.08963542 dari kawan aku Gambar 3. Tabel model bahasa dengan bahasa Melayu sebagai bahasa target 2. Implementasi Giza++ Untuk Pemodelan Translasi Model translasi digunakan untuk memasangkan teks input dalam bahasa sumber dengan teks output dalam bahasa target. Model translasi dibangun dengan tools Giza++. Proses pemodelan translasi oleh Giza++ menghasilkan dokumen vocabulary corpus dan word alignment. Dokumen-dokumen tersebut terdapat dalam folder train yang didalamnya terdapat 4 file yaitu corpus, giza.id-my, giza.my-id dan model. Pemodelan translasi oleh Giza++ dapat dilihat pada gambar 4. 1 UNK 0 2 aku 1018 3 tang 683 4 yang 543 5 tu 473 6 ni 425 7 ade 363 8 tak 309 9 orang 264 10kalok 250 Gambar 4. Dokumen vocabulary corpus bahasa Melayu Gambar 4 merupakan isi dari dokumen vocabulary corpus. Angka 1 sampai 10 pada dokumen vocabulary corpus merupakan uniq id untuk setiap data token, sedangkan angka disebelah kanan token menunjukkan frekuensi kemunculan. Vocabulary corpus yang dihasilkan mesin penerjemah bahasa bahasa Indonesia ke bahasa Melayu terdiri dari 3802 token untuk bahasa Indonesia dan 4171 token untuk korpus bahasa Melayu. Dokumen alignment dapat dilihat pada gambar 5. # Sentence pair (15) source length 11 target length 9 alignment score : 1.41748e-06 di tempat kamu tidak ada parit lagi kah? NULL ({ }) tang ({ 1 }) tempat ({ 2 }) kau ({ 3 }) tak ({ 4 }) ade ({ 5 }) paret ({ 6 }) agik ({ 7 }) dah ({ }) ke ({ 8 }) ape ({ })? ({ 9 }) Gambar 5. Dokument alignment bahasa Indonesia ke bahasa Melayu Gambar 5 merupakan dokumen alignment Bahasa Indonesia ke bahasa Meayu terdapat tiga baris kalimat. Baris pertama berisi letak kalimat target (15) dalam korpus, panjang kalimat sumber (11), panjang kalimat target (9) dan skor alignment 1.41748e-06. Baris kedua merupakan bahasa sumber dan baris ketiga merupakan alignment kalimat bahasa target terhadap kalimat bahasa sumber. Kata paret ({ 6 }) memiliki makna bahwa kata paret pada kalimat bahasa target, di-align ke kata keenam pada kalimat bahasa sumber yaitu parit. C. Pengujian Hasil Terjemahan Mesin Translasi Pengujian hasil translasi dilakukan dengan cara pengujian otomatis dari mesin penerjemah. Pengujian otomatis dari mesin penerjemah menghasilkan keluaran berupa nilai akurasi yang dihasilkan oleh BLEU (Billingual Evaluation Understudy). Hasil pengujian ini nantinya akan menjadi parameter untuk membandingkannya dengan hasil pengujian setelah dilakukan proses tagging dengan fitur Part of Speech. Langkah pada pengujian otomatis, korpus yang akan diuji terlebih dahulu melalui langkah translasi otomatis yang akan memberikan output berupa korpus dalam bahasa target yang telah diterjemahkan oleh mesin. Korpus uji yang digunakan pada tahap ini berjumlah 3050. Setelah membuat output berupa hasil translasi otomatis dari mesin penerjemah, langkah selanjutnya adalah mendapatkan skor dari output dengan cara membandingkan output tersebut dengan korpus manual bahasa target yang telah dibuat sebelumnya. Hasil BLEU dapat dilihat pada gambar 6.

Jurnal Edukasi dan Penelitian Informatika (JUSTIN) Vol. 3, No. 1, (2016) 4 danny@danny-k46cm:~$ ~/NLP/mosesdecoder/scripts/generic/multi-bleu.perl ~/NLP/before/id-my.lowercased.my < ~/NLP/before/outputbefore.my BLEU = 89.03, 96.2/92.1/88.6/85.4 (BP=0.984, ratio=0.984, hyp_len=26079, ref_len=26499) Gambar 6. Tampilan nilai dari outputbefore.my Gambar 6 merupakan sintaks untuk memperoleh nilai BLEU dan hasilnya yang menampilkan nilai dari ouputbefore.my sebesar 89.03%. D. Part Of Speech Tagging Bahasa Melayu Setelah mendapatkan nilai awal dari korpus uji, maka langkah selanjutnya adalah melakukan proses tagging dengan part of speech pada bahsa Melayu. Proses tagging dilakukan penulis dengan berpedoman pada website http://bahasa.cs.ui.ac.id/postag/tagger untuk melakukan tagging manual yang telah sebelum dicari arti katanya. Adapun kaidah dalam melakukan tagging yaitu dengan word based. Untuk memudahkan penulis dalam melakukan penandaan kata selanjutnya, penulis menggunakan aplikasi bantu yang telah dibuat sebelumnya. Aplikasi bantu yang dibuat dapat dilihat pada Gambar 7. Gambar 7. Tampilan aplikasi tagging part of speech E. Pengujian Ulang Hasil Terjemahan Mesin Translasi Setelah mendapatkan korpus tagging part of speech, langkah berikutnya adalah melakukan pengujian kembali hasil terjemahan mesin translasi bahasa Indonesia ke bahasa Melayu yang telah melewati proses tagging part of speech. Langkah pengujian yang dilakukan sama halnya dengan langkah pengujian sebelumnya, yakni dengan cara melakukan pengujian otomatis yang akan memberikan output berupa korpus dalam bahasa target yang telah diterjemahkan oleh mesin dan pengujian oleh ahli bahasa. 1. Pengujian Otomatis Pengujian ulang yang dilakukan dengan cara membandingkan nilai BLEU hasil terjemahan otomatis dari mesin sebelum dan setelah melewati tahap tagging part of speech. Pengujian juga menyertakan 100 kalimat uji yang berasal dari diluar korpus yang digunakan. Hasil pengujian dapat dilihat dalam tabel 1. Tabel 1 Tabel Perbandingan Nilai BLEU Nomor Jumlah Kalimat Uji Input Sebelum Tagging PoS Sesudah Tagging PoS Peningkatan 1 3050 In 89.03 89.27 0.27 2 2000 In 87.86 88.83 1.10 3 1000 In 88.35 88.66 0.35 4 100 In 98.28 98.95 0.68 5 100 Out 60.63 75.53 24.57 Berdasarkan Tabel 1 dapat dilihat bahwa terjadi peningkatan nilai BLEU sebelum dilakukan tagging part of speech dan setelah dilakukan tagging part of speech dengan kalimat uji berasal dari dalam korpus dengan jumlah kalimat uji 3050 sebesar 0.27%, kalimat uji 2000 sebesar 1.10%, 1000 kalimat uji sebesar 0.35% dan 100 kalimat uji sebesar 0.68%. Rata-rata persentase peningkatan dengan jumlah korpus uji yang berasal dari dalam korpus didapat peningkatan nilai BLEU dengan rata-rata peningkatan sebesar 0.6% setelah dilakukan tagging part of speech. Adapun persentase peningkatan nilai BLEU pada korpus uji 100 yang berasal dari luar korpus paralel terdapat peningkatan persentase nilai BLEU sebesar 24.57% sesudah dilakukan tagging part of speech. 2. Pengujian Ahli Bahasa Pengujian ahli bahasa dilakukan terhadap hasil terjemahan mesin penerjemah statistik bahasa Indonesia ke bahasa Melayu. Pengujian dilakukan dengan mengambil kalimat yang mengalami perubahan pada hasil terjemahan otomatis yang terdapat pada korpus uji 3050 sebelum dan sesudah dilakukan tagging part of speech sebanyak 100 kalimat. Penilaian yang dilakukan ahli bahasa adalah dengan membandingkan hasil terjemahan sebelum dan sesudah dilakukan tagging part of speech dengan terjemahan menurut ahli bahasa secara pribadi. Perhitungan akurasi dilakukan dengan Persamaan berikut : P = C 100% (3.1) R Keterangan: P = Persentase akurasi C = Jumlah kata yang diterjemahkan dengan tepat menurut penilaian dari ahli bahasa R = Jumlah kata hasil terjemahan Adapun hasil pengujian akurasi oleh ahli bahasa dapat dilihat dalam tabel 2. Tabel 2 Tabel Akurasi Ahli Bahasa Kalimat Hasil Terjemahan Sebelum tagging M. Hasan part of speech Setelah tagging part of speech Ahli Bahasa C,R P = C R 100% M. Hasan C = 674, R = 902 C = 820, R=902 74,72% 90.91% Tabel 2 merupakan tampilan tabel akurasi dari ahli bahasa sebelum tagging part of speech, nilai dari ahli bahasa pada korpus uji 3050 sebesar 74.72% dan setelah dilakukan tagging part of speech didapat nilai dari ahli bahasa sebesar 90.91%. Terdapat peningkatan nilai BLEU sebesar 21.67% dilihat dari perbandingan sebelum dan sesudah mengalami tagging part of speech. IV. KESIMPULAN A. Kesimpulan Berdasarkan hasil analisis dan pengujian, maka kesimpulan yang dapat diambil sebagai berikut. 1. Mesin penerjemah statistik dapat diimplementasikan untuk menerjemahkan bahasa Indonesia ke bahasa Melayu. 2. Berdasarkan hasil penelitian, proses tagging part of speech dapat meningkatkan akurasi terjemahan mesin

Jurnal Edukasi dan Penelitian Informatika (JUSTIN) Vol. 3, No. 1, (2016) 5. 3. Persentase peningkatan nilai akurasi terjemahan mesin yang dicapai dengan korpus uji berasal dari dalam korpus sebesar 0.6% pada pengujian otomatis oleh BLEU dan korpus uji dari luar korpus sebesar 24.57%. 4. Penilaian yang dilakukan oleh ahli bahasa menghasilkan persentase peningkatan akurasi hasil terjemahan sebesar 21.67%. B. Saran Beberapa saran yang dapat diberikan sebagai pengembangan dari penelitian ini adalah sebagai berikut. 1. Perlu adanya mesin yang dapat melakukan tagging part of speech secara otomatis pada kalimat bahasa daerah mengingat banyaknya korpus yang akan dilakukan proses tagging part of speech. 2. Perlu dilakukan penelitian penggunaan set part of speech yang lebih bervariasi, untuk lebih mengetahui pengaruh part of speech terhadap peningkatan akurasi mesin. 3. Perlu dilakukan penelitian lanjutan untuk melakukan analisis dalam menghasilkan terjemahan bahasa Indonesia ke bahasa Melayu dengan mempertimbangkan hubungan antar frase dalam kalimat. 4. Perlu dilakukan pengecekan ulang terhadap korpus parallel untuk mencegah kesalahan penulisan (typo). 5. Melakukan implementasi mesin penerjemah statistik ke dalam bahasa daerah yang lain dengan fitur part of speech. DAFTAR PUSTAKA [1] Wurm, Stephen A. 2001. Atlas of the World's Languages in Danger of Disappearing, UNESCO Publishing Vol 2. [2] Na im, Akhsan., Syaputra, Hendri. 2010. Hasil Sensus Penduduk 2010: Kewarganegaraan, Suku Bangsa, Agama, dan Bahasa Sehari- Hari Penduduk Indonesia. Jakarta: Badan Pusat Statistik. [3] Horwood, Ellis. 1986. Machine Translation: Past, Present and Future. England:Chichester. [4] Hadi, Ibnu. 2014. Uji Akurasi Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu Sambas dan Bahasa Melayu Sambas ke Bahasa Indonesia. : JUSTIN Vol 3 No 1. [5] Manning, Christopher D., Schutze, Hinrich. 2000. Foundations Of Statistical Natural Language Processing. London : The MIT Press Cambridge Massachusetts. [6] Sujaini, Herry., dkk. 2012. Pengaruh Part-Of-Speech Pada Mesin Penerjemah Bahasa Inggris-Indonesia Berbasis Factored Translation Model. Yogyakarta, SNATI 2012. [7] Koehn, Philipp. 2007. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic. [8] Budiwiyanto, Adi. 2014. Korpus Dalam Penyusunan Kamus. Jakarta:Badan Pengembangan dan Pembinaan Bahasa, Departemen Pendidikan Nasional. [9] Papineni, K., et al. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. Philadelphia : Proceedings of the 40 th Annual Meeting of the Association for Computational Linguistics (ACL). [10] Tanuwijaya, Hansel. 2009. Penerjemahan Inggris-Indonesia Menggunakan Mesin Penerjemah Statistik Dengan Word Reordering dan Phrase Reordering. Jakarta, Jurnal ilmu Komputer dan Informasi Vol 2 No 1.