BAB II TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
MESIN PENERJEMAH BAHASA INDONESIA- BAHASA JAWA Johan Pranata 1, Muljono 2 1,2 Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro

BAB III METODOLOGI PENELITIAN

APLIKASI PENERJEMAH DUA ARAH BAHASA INDONESIA BAHASA MELAYU SAMBAS BERBASIS WEB DENGAN MENGGUNAKAN DECODER MOSES

PENERJEMAHAN DOKUMEN INGGRIS-INDONESIA MENGGUNAKAN MESIN PENERJEMAH STATISTIK DENGAN WORD REORDERING DAN PHRASE REORDERING

Meningkatkan Akurasi Pada Mesin Penerjemah Bahasa Indonesia Ke Bahasa Melayu Pontianak Dengan Part Of Speech

Perbaikan Probabilitas Lexical Model untuk Meningkatkan Akurasi Mesin Penerjemah Statistik

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TUNING FOR QUALITY UNTUK UJI AKURASI MESIN PENERJEMAH STATISTIK (MPS) BAHASA INDONESIA - BAHASA DAYAK KANAYATN

BAB I PENDAHULUAN 1.1 Latar Belakang

(7) Sebagai contoh, sebuah kalimat dari bahasa Jerman dengan terjemahannya dalam bahasa Inggris seperti berikut ini :

ABSTRAK. Kata Kunci: sistem penerjemah Alkitab, Bilingual Evaluation Understudy, GIZA++, Statistical Machine Translation, dan IBM model.

Natural Language Processing

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

BAB I PENDAHULUAN. Dengan menggunakan kecerdasan buatan maka tidaklah mustahil akan ada mesin yang benar-benar mampu berpikir layaknya manusia.

Uji Akurasi Penerjemahan Bahasa Indonesia Dayak Taman dengan Penandaan Kata Dasar dan Imbuhan

BAB I PENDAHULUAN. 1.1 Latar belakang Latar belakang umum

BAB 2 LANDASAN TEORI

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

: Peringkasan Terpandu Otomatis (Automatic Guided Summarization)

APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB I PENDAHULUAN. informasi yang disampaikan dapat lebih cepat dan efektif. Pada tempat observasi penelitian, penyampaian informasi melalui layanan

BAB I PENDAHULUAN 1.1 Latar Belakang

Algoritme Pencocokan String (String Matching) Menurut Black (2016), string adalah susunan dari karakter-karakter (angka, alfabet, atau karakte

BAB I PENDAHULUAN. Orasi ilmiah DR. Arry Akhmad Arman, Fakultas Teknologi Industri, ITB, 23 Agustus

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Konversi Bahasa Indonesia ke SQL (Structured Query Language) dengan Pendekatan Mesin Penerjemah Statistik

Gambar 1. Komponen Mesin Translasi Berbasis Statistik

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Pembentukan Sentence-Aligned Korpus Paralel untuk Bahasa Sunda-Bahasa Indonesia Berbasis Wikipedia dengan Bootstrapping dan EM

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Mesin Penerjemah Situs Berita Online Bahasa Indonesia ke Bahasa Melayu Pontianak

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

METODE PENELITIAN. Gambar 2 Metodologi penelitian.

BAB 1 PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB 5 UJI COBA DAN PENGEMBANGAN LEBIH LANJUT

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Bab 7 Fusi Data Dan Deteksi Perubahan

BAB I PENDAHULUAN. 1.1 Latar Belakang

Marissa Nur Eskanaluwa¹, M. Ramdhani², M. Arif Bijaksana Ech³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Mencari dokumen yang dituliskan dalam berbagai bahasa

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

PENDAHULUAN. Latar Belakang

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

TEORI BAHASA DAN OTOMATA [TBO]

BAB III METODOLOGI PENELITIAN

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB I PENDAHULUAN. 1.1 Latar Belakang. Pada era globalisasi seperti saat ini, setiap negara di dunia telah terhubung

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Pengenalan Kecerdasan Buatan (KB)

KECERDASAN BUATAN (ARTIFICIAL INTELLIGENCE) By :Suthami A.

BAB III METODOLOGI PENELITIAN

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA , Indonesia.

BAB I PENDAHULUAN. gabah, dan yang sudah dibuang kulit luarnya disebut beras. Dalam praktek di

Pertemuan 6 GAYA INTERAKSI DAN PERANGKAT INTERAKSI #1

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENGENALAN INTELEGENSI BUATAN

BAB I PENDAHULUAN 1.1. Latar Belakang

1. Introduction. tertentu memegang peran penting dalam. Abstract

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang Masalah

Web Site :

BAB IV ANALISA DAN PERANCANGAN

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara

DAN IMPLEMENTASI IDENTIFIKASI PARAFRASA TWEET MENGGUNAKAN ALGORITMA BLEU, METEOR DAN EDIT DISTANCE

BAB II TINJAUAN PUSTAKA. Bahasa menurut kamus Websters adalah the body of words and methods of

IMPLEMENTASI MESIN PENERJEMAH STATISTIK BERBASIS ANDROID DENGAN MOSES DECODER

BAB III. Hidden Markov Models (HMM) Namun pada beberapa situasi tertentu yang ditemukan di kehidupan nyata,

Pengantar Teknologi Informasi

BAB I PENDAHULUAN. 1.1 Latar Belakang

1. PENDAHULUAN 1.1 Latar belakang Masalah

BAB II LANDASAN TEORI. mengeluarkan dokumen berharga secara fisik ataupun paper ticket.

BAB I PENGANTAR Pendahuluan Penyajian 1.1 Latar Belakang 1.2 Algoritma dan Struktur Data

BAB I PENDAHULUAN 1.1 Latar Belakang

ARTIFICIAL INTELLIGENCE / AI (Kecerdasan Buatan)

Transkripsi:

BAB II TINJAUAN PUSTAKA 1.1 Tinjauan studi Penelitian yang sudah ada sebelumnya, yaitu : 1. Nur Afifah (2010), Pembuatan Kamus Elektronik Kalimat Bahasa Indonesia dan Bahasa Jawa untuk Aplikasi Mobile Menggunakan Interpolation Search. Penelitian ini membangun aplikasi penerjemah kalimat tunggal bahasa Indonesia ke bahasa Jawa menggunakan metode rule-based. 2. Andri Hidayat (2011), Aplikasi Penerjemah Dua Arah Bahasa Indonesia Bahasa Melayu Sambas Berbasis Web dengan Menggunakan Decoder Moses. Dalam penelitian ini penulis menggunakan metode statistik namun perancangan aplikasi ini berbasis dari data web. 3. Rizky Aditya Nugroho (2015). Penerjemahan Bahasa Indonesia dan Bahasa Jawa Menggunakan Metode Statistik Berbasis Frasa. Penerjemahan bahasa Indonesia dan bahasa Jawa dua arah pada makalah ini menggunakan metode statistik yang berbasis frasa, dengan sumber data yang diambil dari Alkitab. 1.2 Tinjauan pustaka 2.3.1 Natural language processing (NLP) Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang 6

7 secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik oleh komputer. Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming atau Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan), Translation Tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan oleh user [3]. Perkembangan NLP menghasilkan kemungkinan dari interface bahasa natural menjadi knowledge base dan penterjemahan bahasa natural. Terdapat bahwa ada 3 (tiga) aspek utama pada teori pemahaman mengenai natural language [3]: 1. Syntax: menjelaskan bentuk dari bahasa. Syntax biasa dispesifikasikan oleh sebuah grammar. Natural language jauh lebih daripada formal language yang digunakan untuk logika kecerdasan buatan dan program komputer 2. Semantics: menjelaskan arti dari kalimat dalam satu bahasa. Meskipun teori semantics secara umum sudah ada, ketika membangun sistem natural language understanding untuk aplikasi tertentu, akan digunakan representasi yang paling sederhana. 3. Pragmatics: menjelaskan bagaimana pernyataan yang ada berhubungan dengan dunia. Untuk memahami bahasa, agen harus mempertimbangan lebih dari hanya sekedar kalimat. Agen harus melihat lebih ke dalam konteks kalimat, keadaan dunia, tujuan dari speaker dan listener, konvensi khusus, dan sejenisnya. 4. Morfologi. Adalah pengetahuan tentang kata dan bentuknya sehingga bisa dibedakan antara yang satu dengan yang lainnya. Bisa juga

8 didefinisikan asal usul sebuah kata itu bisa terjadi. Contoh : membangunkan > bangun (kata dasar), mem- (prefix), -kan (suffix). 5. Fonetik. Adalah segala hal yang berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Fonetik digunakan dalam pengembangan NLP khususnya bidang speech based system. 2.3.2 Mesin penerjemah statistik Mesin penerjemah statistik didasarkan pada pandangan bahwa setiap kalimat dalam bahasa memiliki kemungkinan terjemahan dalam bahasa lain. Sebuah kalimat dapat diterjemahkan dari satu bahasa ke dalam bahasa yang lain dalam banyak kemungkinan cara. Metode terjemahan statistik mengambil pandangan bahwa setiap kalimat dalam bahasa target adalah terjemahan yang dimungkinkan dari kalimat masukan. Mesin penerjemah statistik mengasumsikan bahwa setiap kalimat T pada bahasa target merupakan sebuah kemungkinan hasil terjemahan dari kalimat S pada bahasa sumber. Melalui pendekatan bahawa teks yang diterjemahkan berdasarkan distribusi probabilitas P(S T) dapat dilakukan dengan teorema Bayes yaitu: P T S = P T. P S T P (S) (1) Disederhanakan menjadi, P T S = P T. P S T Karena nilai penyebut yang dinotasikan sebagai P(S) adalah pasti. Dalam mesin penerjemah statistik, terdapat 3 komponen yang terlibat dalam proses penerjemahan dari satu bahasa ke bahasa lain yaitu : language model, translation model, dan decoder [4].

9 2.3.2.1 Language model Language model merupakan sumber pengetahuan yang penting dalam mesin penerjemah statistik. Language model digunakan pada aplikasi Natural. Language Processing. Dalam language model statistik, bagian-bagian yang merupakan elemen kunci adalah probabilitas dari rangkaian-rangkaian kata yang dituliskan sebagai P(w 1, w 2,,wn) atau P(w 1, n). Untuk menghitung probabilitas kalimat, diperlukan untuk menghitung probabilitas kata, mengingat urutan kata yang mendahuluinya, dengan menggunakan aturan rantai, yaitu probabilitas kalimat P (T), dipecah sebagai probabilitas dari kata-kata individu P (K), seperti sebagai berikut [5] : Gambar 1 : Komponen Mesin penerjemah statistik P(K) = P(w 1 w 2 w n ) =P(w 1 )P(w 2 w 1 )P(w 3 w 1 w 2 ) P(w n w 1 w 2 w n-1 ) (2) Dengan K merupakan notasi sentence dan w merupakan notasi word. Rumusan tersebut dikenal dengan sebutan n-gram model. Model bahasa n-gram merupakan jenis probalilistik language model untuk memprediksi item berikutnya dalam urutan tersebut dalam bentuk (n-1). Probabilitas bersyarat dapat dihitung dari jumlah frekuensi n-gram [4] : P (w n w n 1 ) = count (w n 1 w n ) count (w n 1 ) (3)

10 Berikut merupakan contoh model bahasa n-gram, yaitu [4]: 1. Unigram (1-gram) : P(w 1 ),P(w 2 ) P(wn) 2. Bigram (2-gram) : P(w 1 ),P(w 2 w 1 ) P(wn w (n 1) ) 3. Trigram (3-gram) : P(w 1,n) = P(w 1 ), P(w 2 w 1 ), P(w 3 w 1,2 ) P(wn wn 2,n 1) 2.3.2.2 Translation model Dalam mesin penerjemah komponen yang bertugas untuk mencari ketepatan adalah translation model (TM). P(S T) digunakan sebagai notasi yang menunjukkan TM. Peluang untuk mendapatkan translation model, ditunjukkan dalam persamaan sebagai berikut : Dengan, P(S T) = P(s 1 t 1 )P(s 2 t 2 ) P(s n t n ) (4) s n = kata-kata dari kalimat sumber pada posisi ke-n yang akan diketahui peluangnya. t n = kata-kata kalimat target pada posisi ke-n yang menerjemahkan kata s n. s n yang terdapat pada persamaan tersebut merupakan kata apapun dari bahasa sumber pada posisi ke n, dan t n adalah kata apapun dari bahasa target pada posisi ke n. Pada akhirnya, t n merupakan terjemahan dari s n. Secara matematis untuk mendapatkan bobot relasi antara s n dengan t n adalah dalam persamaan 5. [6] P (s n t n ) = count (t n diterjemahkan sebagai s n ) count (t n diterjemahkan sebagai s y ) (5) Dengan, s y = semua hasil penerjemahan yang mungkin. Sebagai contoh dalam tabel berikut.

11 Tabel 1. Relasi kata makan Sumber = makan Target Count Probability Mangan 4 0,2 Nedha 3 0,375 Dhahar 1 0,125 Total = 8 Dari tabel xx dapat diketahui bahwa terjemahan dari kata makan yang tertinggi adalah mangan, sehingga penerjemahan kata makan adalah mangan. Ada beberapa macam metode TM yang dapat diterapkan yakni pendekatan berbasis kata (word based), berbasis frasa (phrase based), dan kombinasi keduanya. Pendekatan berbasis kata sering kali tidak mampu menerjemahkan dengan baik konteks lokal suatu bahasa. Dalam TM berbasis frase, prosesnya dapat dibagi kedalam tiga bagian. Pertama, membuat kalimat sumber menjadi sebuah tabel frasa. Kedua, menerjemahkan setiap frase kedalam bahasa target. Kemudian, dilakukan tahap reordering [5]. Gambar 2 : Ilustrasi phrase based translation model Proses dalam penerjemahan phrase based translation model dapat dipecah menjadi beberapa bagian, yaitu membagi kalimat bahasa sumber menjadi barisan frasa, menerjemahkan frasa ke dalam bahasa target, dan melakukan reordering [5]. Tabel penerjemah frase (phrase translation table) dibutuhkan untuk menerjemahkan frase dari bahasa sumber ke bahasa target. Phrase alignment atau tabel penerjemah frase diperoleh dengan melakukan dua langkah, yaitu membuat word alignment dari tiap pasangan kalimat dari

12 korpus paralel, selanjutnya mengekstrak pasangan frase yang konsisten dengan penjajaran kata tersebut (matrik penghubung kata) [5]. 2.3.2.3 Decoder Decoder bertugas menemukan teks dalam bahasa target yang memiliki probabilitas paling besar dengan pertimbangan faktor translation model dan language model [4]. Decoder disebut juga sebagai alogaritma pencarian. Bentuk matematikanya adalah sebagai berikut : ê = arg emaxp(s T)P(T) (5) Dengan arg e max adalah pencarian nilai probabilitas terbesar yang diperoleh dari language model dan translation model. Philiph Koehn, dalam materi pengembanganya mengilustrasikan bagaimana proses dari decoding [5]. Berikut contoh prosesnya dengan kalimat dia bersikap ramah tamah kepada banyak orang. Pilih kata bahasa target yang akan diterjemahkan Mencari kata yang cocok pada phrase translation tabel dan menambahkannya, kemudian menandainya sebagai kata yang telah diterjemahkan Dheweke

13 Penerjemahan one to one Dia Bersikap ramah tamah kepada banyak Orang Dheweke Tumindhak Penerjemahan many to one Dheweke tumindhak grapyak Penerjemahan one to one Dheweke tumindhak grapyak marang Melakukan reordering Dheweke tumindhak grapyak marang wong Penerjemahan selesai Dheweke tumindhak grapyak marang wong akeh

14 2.3.3 Penjajaran Penjajaran kalimat adalah proses menata dua bahasa menjadi susunan baris-baris kalimat. Setelah itu dilanjutkan dengan penjajaran kata. Salah satu teknik penjajaran yang sering digunakan adalah teknik algoritme expectation maximitation (EM) dengan dua tahap, yaitu tahap expectation (ekspektasi) dan tahap maximization (maksimisasi). Untuk menghitung perkiraan kemiripan data berdasar pada suatu parameter terjadi pada tahap ekspektasi. Tahap maksimisasi digunakan untuk menghitung perkiraan kemiripan data berdasar hasil tahap ekspektasi. Parameter-parameter untuk menghitung perkiraan kemiripan data pada tahap ekspektasi didapatkan dari paralel korpus. Penjajaran ini sering digunakan karena tidak memerlukan pengetahuan leksikal. Semakin banyak parameter yang memiliki kemiripan, maka semakin besar pula peluang penjajaran. 2.3.4 Tuning Model probabilitas merupakan model yang digunakan untuk mencari kemungkinan terbaik dari bahasa target di dalam mesin penerjemah statistik,. Nilai dari probabilitas tersebut ditentukan oleh empat parameter,yaitu, phrase translation table, language model, reordering model atau distortion model, word penalty. 1. Phrase translation table Phrase translation table adalah parameter yang digunakan untuk memastikan bahwa frasa bahasa target dan frasa bahasa sumber mempunyai kualitas terjemahan yang sama baiknya. 2. Language model Language model adalah parameter untuk memastikan kefasihan (fluency) terjemahan dari bahasa target. 3. Reordering model Parameter reordering model digunakan untuk mengijinkan reordering dari kalimat masukan.

15 4. Word penalty Word penalty merupakan parameter yang digunakan untuk memastikan bahwa terjemahan mempunyai panjang kalimat yang tepat, tidak terlalu panjang dan tidak terlalu pendek. Nilai probabilitas yang terbaik sehingga berpengaruh positif terhadap hasil terjemahan dipengaruhi oleh pemberian bobot dari masing-masing parameter [16]. Rentang bobot terbaik untuk parameter phrase translation model, language model, dan reordering model adalah 0.1-1. Sedangkan rentang bobot terbaik untuk word penalty adalah -3 3. Pencarian bobot terbaik pada tiap-tiap parameter tersebut disebut dengan tuning [5]. 2.3.5 Evaluasi Suatu permasalahan jika mencoba menerjemahkan satu kalimat dengan menggunakan beberapa mesin penerjemah, akan diperoleh berbagai jawaban yang berbeda. Mempertimbangkan hal-hal tersebut maka setiap pembangunan mesin penerjemah dibutuhkan tahap evaluasi terhadap mesin penerjemah tersebut. Dalam penelitian ini penulis menggunakan BLEU (Billingual Evaluation Understudy). BLEU bekerja dengan cara mengukur skor presisi dari n-gram termodifikasi (modified n-gram precision score) antara terjemahan otomatis dengan terjemahan rujukan dan menggunakan konstanta yang dinamakan brevity penalty (BP). Secara matematika dapat di peroleh persamaan seperti berikut BP = brevity penalty, yakni penalti kandidat ketika penerjemahan kalimat tersebut (c) lebih panjang dibanding referensinya (r).

16 c = kandidat-kandidat MP/hiposis/panjang hasil r = panjang efektif penerjamahan referensi Wn = I/N, bobot seragam dengan nilai umum (standar nilai N adalah 4) N = panjang maksimum n-gram Pn = presisi n-gram termodifikasi 2.3.6 Korpus paralel Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Korpus paralel merupakan bahan penting untuk melakukan eksperimen-eksperimen dalam bidang pemrosesan bahasa alami. Berikut contoh korpus paralel dalam sebuah tabel. Tabel 2. Contoh corpus paralel Bahasa Indonesia Karena memiliki ibu yang cantik, Orlin memilki wajah yang cantik pula. Banyak orang yang menyukainya karena dia pandai. Bahasa Jawa Amarga nduweni ibu sing ayu, Orlin nduweni rupa sing uga ayu. Akeh wong sing seneng amarga deweke pinter.

17 2.3.7 Kerangka Penelitian Mulai Studi Literatur Perancangan Mesin Penerjemah Statistik Implementasi Mesin Penerjemah Statistik Pengujian Hasil Terjemahan Selesai

18