PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)"

Transkripsi

1 PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika) INSTITUT TEKNOLOGI BANDUNG 2009

2 PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS Oleh Rosa Ariani Sukamto NIM : (Program Magister Informatika) Institut Teknologi Bandung Menyetujui Pembimbing Tanggal 24 Juni 2009 Ir. Dwi Hendratmo Widyantoro, M.Sc., Ph.D NIP ii

3 ABSTRAK PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS Oleh Rosa Ariani Sukamto NIM : (Program Magister Informatika) Pemrosesan bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan komputer menggunakan bahasa manusia. Pengurai (parser) akan membentuk pohon pola tata bahasa sehingga dapat disimpulkan dimana inti dari sebuah kalimat berbahasa manusia. Pengurai (parser) merupakan pengurai kalimat menjadi pohon pola tata bahasa yang digunakan dalam pemrosesan bahasa alami. Pengurai Collins merupakan pengurai yang dibuat untuk bahasa Inggris. Pengurai Collins termasuk pengurai yang memiliki kecepatan yang cukup baik dalam melakukan penguraian dengan metode statistik. Tesis ini melakukan adaptasi yang perlu dilakukan pada pengurai Collins agar dapat digunakan untuk bahasa Indonesia. Adaptasi yang dilakukan adalah memproses kumpulan file yang digunakan pada pengurai Collins agar dapat digunakan pada bahasa Indonesia. Kumpulan file masukan pengurai Collins antara lain file leksikon, file grammar, file simbol non-terminal, file events, dan file korpus. Beberapa kendala yang muncul adalah tidak adanya treebank dalam bahasa Indonesia yang dapat digunakan sebagai data pembelajaran pengurai Collins. Treebank digunakan sebagai data awal untuk menggenerasi events dan grammar yang dijadikan data pembelajaran pada pengurai Collins. Pengujian dilakukan dengan menggunakan dua buah kelompok kalimat. Kelompok kalimat pertama terdiri dari kalimat-kalimat sederhana dan kelompok kalimat kedua terdiri dari kalimat-kalimat kompleks. Pengurai Collins berhasil menguraikan semua kalimat pada kelompok pertama dan lebih dari separuh kalimat dari kelompok kedua. Hampir semua kalimat pada kelompok pertama diuraikan dengan benar. Tidak ada kalimat yang benar diuraikan secara kesatuan kalimat pada kelompok kedua. Dengan jumlah treebank yang sangat terbatas, pengurai Collins telah mampu menguraikan kalimat berbahasa Indonesia. Kata Kunci : pengurai, statistik, probabilistik, pola tata bahasa iii

4 ABSTRACT INDONESIAN PARSING USING COLLINS S PARSER Natural language processing appear caused of human desire to communicated with computer using human language. Parser will generates parse trees so computer can make main conclusion from human language. Parser is a natural language processing component where parse sentences to be parse trees. Collins s parser is english language parser. Collins s parser is one of statistic parser that has good speed. Adaptation processing is needed to adapt all input files, which were originally designed for English, so as to suit the parsing requirement for Indonesian language. These include lexicon file, grammar file, non terminal file, and event file, as well as corpus file. One of the main obstacles in this attempt is providing treebank needed to calculate probability values. Two group where build to test Collins s parser for Indonesian. First group consist of simple sentences and second group consist of complex sentences. Collins s parser is able to parse all sentences in first group and more than a half from second group. Almost all sentences in first group are able to parse correctly. None of sentences in second group that being parsed perfect correctly. Collins s parser could parse Indonesian sentences thought using limited treebank. Key Words : parser, statistic, probabilistic, grammar iv

5 PEDOMAN PENGGUNAAN TESIS Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya. Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin Direktur Program Pascasarjana, Institut Teknologi Bandung. v

6 Dipersembahkan kepada Gadiza dan Udin vi

7 KATA PENGANTAR Segala puji syukur bagi Allah SWT karena atas rahmat yang dilimpahkan-nya penulis dapat menyelesaikan pembuatan laporan tesis yang berjudul Penguraian Bahasa Indonesia dengan Menggunakan Pengurai Collins. Laporan ini dibuat untuk memenuhi syarat kelulusan tahap magister, namun kelulusan bukanlah segalanya, yang terpenting adalah ilmu pengetahuan, kebijaksanaan, pengalaman, serta kemampuan menerima keterbatasan yang terkadang tidak sesuai dengan keinginan. Penulis mengucapkan terima kasih yang sebesar-besarnya kepada nama-nama yang tercantum di bawah ini atas bantuan yang telah diberikan selama penulis menyelesaikan tesis. 1. Bapak Dwi Hendratmo Widyantoro selaku dosen pembimbing, terima kasih atas bimbingan dan pengalaman yang diberikan. 2. Ibu Masayu Leylia Khodra dan Bu Ayu Purwarianti selaku penguji, terima kasih atas bantuan, saran, dan kritiknya. 3. Pak Santika atas segala bantuan serta saran mengenai permasalahan yang dihadapi penulis, dan kesediaan menjadi penguji pada sidang tesis penulis. 4. Suamiku M. Shalahuddin dan anakku Gadiza Mutia Shalahuddin terima kasih atas dukungan moral, bantuan, kerja sama, kasih sayang dan semuanya yang sudah diberikan pada penulis. 5. Keluargaku terutama ibuku tercinta yang sangat kusayangi, terima kasih atas pengorbanan, perjuangan, doa, dan dukunganmu, dan mendiang ayahku tercinta yang banyak memberi inspirasi tentang hidup. 6. Petugas tata usaha (Mbak Nur dan Pak Ade), administrasi laboratorium (Pak Maman dan Pak Wawan), dapur lantai dua, dan perpustakaan (Bu Tita dan Pak Kandayat) departemen Teknik Informatika yang bersedia membantu. 7. Teman-teman seperjuangan angkatan 2007 yang tidak bisa disebutkan satu persatu serta berbagai pihak yang telah membantu tesis ini. vii

8 Penulis menyadari bahwa hasil tesis ini masih jauh dari sempurna. Oleh karena itu, penulis mengharapkan saran dan masukan dari semua pihak untuk penyempurnaan tesis ini. Akhir kata, penulis berharap semoga Laporan Tesis ini dapat bermanfaat bagi penulis, pembaca, dan semua pihak yang terkait. Bandung, 20 Juni 2009 Penulis viii

9 DAFTAR ISI BAB I PENDAHULUAN...I-1 I.1 Latar Belakang...I-1 I.2 Rumusan Masalah...I-3 I.3 Tujuan...I-3 I.4 Ruang Lingkup...I-3 I.5 Batasan Masalah...I-4 I.6 Metode Penelitian...I-4 I.7 Sistematika Pembahasan...I-5 BAB II TINJAUAN PUSTAKA... II-1 II.1 Model-model Pola Tata Bahasa... II-1 II.2 Penelitian mengenai Pengurai (parser)... II-5 II.2.1 Perhitungan Probabilitas Aturan Produksi... II-11 II Model 1... II-12 II Model 2... II-14 II Model 3... II-15 II.2.2 Perhitungan Probabilitas Setiap Pohon... II-18 II.3 Penelitian Mengenai Pembangkitan Pola Tata Bahasa dengan Pendekatan Probabilistik (Probabilistic Parsing)... II-18 II.4 Rangkuman Tinjauan Pustaka... II-20 BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA... III-1 III.1 Analisis Proses... III-1 III.1.1 Penyesuaian Kumpulan File Masukan Pengurai Collins untuk Bahasa Indonesia... III-6 III Penyesuaian File Treebank untuk Membuat File Events... III-6 III Penyesuaian File Korpus... III-8 III Penyesuaian File Grammar... III-9 III Penyesuaian File Simbol Non-terminal... III-10 III Penyesuaian File Leksikon... III-11 ix

10 III.1.2 Penentuan Jenis Kata (Part of Speech Tagging)... III-11 BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA...IV-1 IV.1 Leksikon/Kamus...IV-2 IV.2 Morfologi Tata Bahasa Indonesia...IV-4 IV.2.1 Jenis Kata...IV-4 IV.2.2 Imbuhan...IV-6 IV.2.3 Pengulangan Kata...IV-7 IV.2.4 Proses Pemeriksaan Imbuhan...IV-8 IV.3 Prediksi Jenis Kata dengan Metode Bigram...IV-10 BAB V PENGUJIAN... V-1 V.1 Tujuan Pengujian... V-1 V.2 Perancangan Pengujian... V-1 V.2.1 Hasil dan Analisis Pengujian... V-3 BAB VI PENUTUP...VI-1 VI.1 Kesimpulan...VI-1 VI.2 Saran...VI-1 x

11 DAFTAR GAMBAR Gambar II-1 Contoh Pohon pada Collins parser... II-10 Gambar II-2 Parameter Jarak... II-13 Gambar II-3 Pohon Model 3... II-17 Gambar III-1 Keterkaitan Antar File Masukan pada Pengurai Collins... III-4 Gambar III-2 Arsitektur Global Proses Awal Pengurai Collins untuk Membuat file Events, file Grammar, file Leksikon format Collins (Menu 1)... III-5 Gambar III-3 Arsitektur Global Proses Awal Pengurai Collins untuk Membuat file korpus dengan Format Pengurai Collins (Menu 2)... III-5 Gambar III-4 Contoh Pohon Kalimat dalam Bahasa Indonesia... III-9 Gambar IV-1 Proses Penentuan Jenis Kata...IV-1 Gambar IV-2 Proses Memperkaya Kamus...IV-4 Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi...IV-10 Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram...IV-13 xi

12 DAFTAR TABEL Tabel III-1 Perbedaan Bahasa Indonesia dan Bahasa Inggris... III-2 Tabel III-2 Contoh Isi Treebank... III-7 Tabel III-3 Contoh Isi File Events untuk Sebuah Kalimat... III-7 Tabel III-4 Contoh File Korpus untuk Satu Kalimat... III-9 Tabel III-5 Contoh Penulisan Grammar... III-10 Tabel IV-1 Penamaan Jenis Kata yang Digunakan...IV-5 Tabel IV-2 Simbol Non Terminal...IV-6 Tabel IV-3 Aturan Imbuhan [21]...IV-7 Tabel IV-4 Aturan Pengulangan Kata Berimbuhan...IV-8 Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan... V-3 Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2... V-4 Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2... V-5 xii

13 DAFTAR LAMPIRAN Lampiran 1 Jenis Kata Dalam Bahasa Indonesia [21]...L-1.1 Lampiran 2 Awalan dalam Bahasa Indonesia [21]...L-2.1 Lampiran 3 Akhiran dalam Bahasa Indonesia [21]...L-3.1 Lampiran 4 Konfiks dalam Bahasa Indonesia [21]...L-4.1 Lampiran 5 Aturan Imbuhan dalam Bahasa Indonesia [21]...L-5.1 Lampiran 6 Hasil Pengujian...L-6.1 Lampiran 7 Aturan Grammar Hasil Pembangkitan Pemrosesan Awal (preprocessing) dan Aturan Grammar yang Digunakan...L-7.1 Lampiran 8 Kalimat dalam File Korpus...L-8.1 Lampiran 9 Hasil Generasi Events...L-9.1 Lampiran 10 Contoh File Treebank Berbahasa Indonesia...L-10.1 Lampiran 11 Contoh File Leksikon...L-11.1 Lampiran 12 Contoh File Simbol Non-terminal...L-12.1 Lampiran 13 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Grammar...L-13.1 Lampiran 14 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Morfologi...L-14.1 Lampiran 15 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Pohon/Tree...L-15.1 Lampiran 16 Cara Penggunaan Program...L-16.1 Lampiran 17 Algoritma Chart Pengurai Collins...L xiii

14 DAFTAR ISTILAH corpus Istilah Pengertian/Keterangan kumpulan dokumen yang berisi kalimat beserta jenis katanya, misal Ayah NN mencangkul VB tanah NN. PU model pola tata bahasa pengurai Collins (Collins parser) pohon pola tata bahasa pola tata bahasa tata bahasa treebank kumpulan pola tata bahasa pengurai hasil dari penelitian Michael Collins; hasil disertasi Michael Collins satu atau lebih pola tata bahasa yang membentuk suatu pohon aturan bahasa (aturan poduksi) seperti S NN VB NN grammar; representasi bahasa dokumen atau file yang berisi pohon kalimat xiv

15 BAB I PENDAHULUAN I.1 Latar Belakang Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan komputer menggunakan bahasa manusia. Untuk memahami makna bahasa manusia dengan benar maka komputer perlu mengetahui tata bahasa manusia. Perangkat untuk memahami pola tata bahasa alami inilah yang disebut pengurai (parser). Pengurai akan membentuk pohon pola tata bahasa sehingga dapat disimpulkan dimana inti dari sebuah kalimat berbahasa manusia. Selama ini penelitian yang banyak dilakukan menggunakan bahasa Inggris. Oleh karena itu di dalam tesis ini akan dibuat sebuah sistem yang melakukan proses penguraian kalimat untuk bahasa Indonesia dengan pendekatan probabilistik (probabilistic parsing). Pemrosesan yang dilakukan pada tesis ini secara garis besar adalah melakukan pemrosesan awal (preprocessing) untuk menyesuaikan masukan dari sebuah pengurai (parser) hasil disertasi milik Michael Collins [12]. Pengurai Collins merupakan pengurai yang memiliki lisensi GNU (open source). Pengurai Collins dianggap sebagai pengurai berbasis statistik yang cukup cepat pemrosesannya dan pada setiap level pohon memiliki kepala kata. Pengurai Collins dibuat untuk bahasa Inggris. Oleh karena itu diperlukan adanya pemrosesan awal untuk menghasilkan beberapa file masukan dengan format file masukan pengurai Collins dengan bahasa Indonesia. Selain itu pekerjaan menyesuaikan beberapa bagian pada pengurai Collins juga perlu dilakukan pada tesis ini agar benar-benar dapat digunakan untuk bahasa Indonesia. I-1

16 Sebelumnya telah dilakukan beberapa penelitian mengenai topik tesis ini untuk bahasa Czech yang dibuat oleh Michael Collins, Jan Hajic dan beberapa rekannya [13]. Pembentukan pola tata bahasa untuk bahasa Inggris menggunakan metode probabilistik telah dibahas pada buku karangan Daniel Jurafsky dan James H. Martin terbitan tahun 2000 [17]. Pada buku tersebut penguraian dengan metode probabilistik (probabilistic parsing) digunakan untuk memilih pohon-pohon pola tata bahasa terbaik yang dibangkitkan dari teks masukan berisi kumpulan kalimat dalam bahasa Inggris. Pembangkitan pohon pola tata bahasa juga digunakan untuk membangkitkan pola tata bahasa Melayu Malaysia sebagai jenis bahasa yang serumpun dengan bahasa Indonesia [3]. Pada Penelitian tersebut pola tata bahasa telah didefinisikan dan pendefinisian fungsi nilai digunakan untuk memilih pohon yang terbaik dari pohon-pohon pola tata bahasa yang mungkin. Sebelumnya telah ada penelitian mengenai pengurai dengan metode probabilistik yang dilakukan oleh Ria Hari Gusmita dan Ruli Manurung [14]. Dalam penelitian tersebut digunakan sebuah perangkat PC-PATR. Sampai saat ini belum ada paper atau penelitian yang dipublikasikan secara resmi (telah mengikuti seminar paper) mengenai pengurai dengan metode statistik untuk bahasa Indonesia menggunakan pengurai Collins. Penelitian-penelitian yang mendukung pemrosesan dalam tesis ini juga telah dilakukan oleh Jelita Asian dengan tesisnya mengenai pemrosesan temu balik informasi bahasa Indonesia [2]. Representasi pohon pola tata bahasa dengan menggunakan probabilistic context-free grammar (PCFG) juga telah dibahas pada paper Mark Johnson [16]. Dari tesis ini, nantinya di masa depan dapat menjadi bagian dari sebuah sistem pemrosesan bahasa alami untuk bahasa Indonesia. Pekerjaan yang harus dilakukan selanjutnya setelah tesis ini adalah membuat komponen fungsi-fungsi lain yang belum diimplementasikan dan mendukung sebuah sistem pemrosesan bahasa alami untuk bahasa Indonesia. Sehingga bangsa ini nantinya akan memiliki sebuah mesin pemrosesan bahasa alami untuk bahasa Indonesia. I-2

17 I.2 Rumusan Masalah Rumusan masalah dalam tesis ini adalah sebagai berikut: 1. Bagaimana melakukan penyesuaian kumpulan file masukan dari pengurai Collins dengan bahasa Indonesia, 2. Bagaimana melakukan penentuan jenis kata (POS tagging) untuk bahasa Indonesia guna mendukung pemrosesan awal. 3. Bagaimana kinerja pengurai Collins setelah menerima masukan kumpulan file hasil pemrosesan awal (apakah sudah cukup mampu merepresentasikan pola tata bahasa Indonesia). I.3 Tujuan Tujuan dari tesis ini adalah sebagai berikut: 1. Mengimplementasikan pemrosesan awal kumpulan file masukan dari pengurai Collins menggunakan contoh-contoh teks yang berisi kumpulan kalimat berbahasa Indonesia; modul pemrosesan awal pengurai Collins akan diimplementasikan dalam sebuah program, 2. Mengimplementasikan POS tagging untuk bahasa Indonesia guna mendukung pemrosesan awal. 3. Melakukan evaluasi kinerja model pola tata bahasa yang dihasilkan; hasil model pola tata bahasa akan dievalusi kinerjanya, apakah sudah sesuai dengan pola tata bahasa Indonesia baku. I.4 Ruang Lingkup Pekerjaan yang dilakukan dalam tesis ini yang akan dilaksanakan oleh penulis adalah: 1. Mengimplementasikan pemrosesan awal (preprocessing) dan penentuang jenis kata (POS tagging) untuk mempersiapkan kumpulan file masukan dari pengurai Collins dari file teks yang berisi kumpulan kalimat berbahasa Indonesia, 2. Melakukan pengujian terhadap pengurai Collins guna mengetahui kinerja pengurai Collins untuk bahasa Indonesia. I-3

18 I.5 Batasan Masalah Batasan-batasan pada tesis ini adalah: 1. Proses-proses yang dilakukan untuk pemrosesan awal (preprocessing) dan penentuan jenis kata (POS tagging) menggunakan jenis kalimat berbahasa Indonesia tanpa melibatkan ahli bahasa, 2. Tidak semua aturan grammar (tata bahasa) bahasa Indonesia dipakai dalam tesis ini. 3. Permasalahan ambiguitas penguraian kalimat tidak diujikan pada tesis ini. I.6 Metode Penelitian Tesis yang dilakukan adalah berupa penelitian dan membuat pemrosesan awal pengurai Collins untuk bahasa Indonesia. Metode yang dipergunakan dalam Tesis ini adalah sebagai berikut: 1. Studi literatur yang berkaitan dengan: a. Penguraian dengan metode probabilistik (probabilistic parsing), digunakan untuk pembangkitan pohon-pohon pola tata bahasa, kemudian memilih yang terbaik dari pohon-pohon yang dibangkitkan untuk setiap kalimat. Setiap kalimat dapat menghasilkan lebih dari satu pohon pola tata bahasa (struktur kalimat) pada setiap proses pembangkitan, b. Tata penulisan bahasa Indonesia yang terkait dengan penguraian probabilistik untuk bahasa Indonesia, seperti kaidah makna imbuhan dan kata dasar agar diketahui jenis kata yang digunakan untuk membentuk model pola tata bahasa, c. Penelitian-penelitian terkait pemrosesan temu balik informasi bahasa Indonesia dan tesis ini, misalnya mengenai pemrosesan awal bagaimana sebuah kalimat dapat dibangkitkan pohon pola tata bahasanya dengan menggunakan pengurai Collins (meliputi proses penguraian kalimat sesuai kaidah bahasa Indonesia, proses penguraian kalimat I-4

19 menjadi kumpulan kata, proses penentuan jenis kata, dan proses pembentukan pohon atau model pola tata bahasa), 2. Analisis masalah, menganalisa proses-proses apa saja beserta cara kerjanya yang dibutuhkan untuk penguraian kalimat, 3. Implementasi metode dan algoritma untuk memodelkan pola tata bahasa Indonesia dari contoh-contoh teks yang berisi kumpulan kalimat berbahasa Indonesia, 4. Pengujian hasil implementasi metode dan algoritma untuk memodelkan pola tata bahasa Indonesia dengan menggunakan beberapa contoh teks yang terdiri dari kumpulan kalimat berbahasa Indonesia, 5. Evaluasi dan penarikan kesimpulan, evaluasi kinerja pengurai Collins untuk bahasa Indonesia dan penarikan kesimpulan sebagai hasil dari penelitian yang dilakukan dalam tesis ini. I.7 Sistematika Pembahasan Laporan tesis ini berisi beberapa bab yang terdiri dari Pendahuluan, Tinjauan Pustaka, Penyesuaian Pengurai Collins untuk Bahasa Indonesia, Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia, Pengujian, dan Penutup. Penjelasan untuk tiap bab tersebut adalah sebagai berikut: 1. Bab Pendahuluan berisi penjelasan mengenai latar belakang ide judul, rumusan masalah, tujuan, ruang lingkup, batasan masalah, metodologi, dan sistematika pembahasan. Bab ini bertujuan untuk memudahkan pemanfaatan laporan tesis ini. 2. Bab Tinjauan Pustaka berisi bahasan penelitian-penelitian yang pernah dilakukan oleh orang lain sebelumnya dan berkaitan dengan topik tesis ini. 3. Bab Penyesuaian Pengurai Collins untuk Bahasa Indonesia berisi analisis sistem pemrosesan awal (preprocessing) untuk menyesuaikan kumpulan file masukan pada pengurai Collins. Bab ini bertujuan untuk mempermudah memahami proses apa saja yang akan diimplementasikan. 4. Bab Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia berisi analisis proses penentuan jenis kata (part of speech tagging) pada I-5

20 bahasa Indonesia yang mendukung sistem pemrosesan awal (preprocessing) pada tesis ini. 5. Bab Pengujian berisi implementasi pengujian beserta hasil dan analisis hasil pengujian perangkat lunak. 6. Bab Penutup berisi kesimpulan hasil tesis ini dan saran untuk kedepannya yang terkait tesis ini. I-6

21 BAB II TINJAUAN PUSTAKA Bab ini membahas hal-hal apa saja yang pernah dilakukan sebelumnya mengenai model-model pola tata bahasa, pengurai (parser) untuk bahasa lain, dan pembangkitan pola tata bahasa khususnya yang menggunakan pendekatan probabilistik untuk bahasa lain. Penelitian mengenai pengurai dengan metode probabilistik untuk bahasa Indonesia belum ditemukan oleh penulis. Penelitianpenelitian yang dibahas pada bab ini dibagi menjadi tiga kelompok besar yaitu penelitian mengenai model-model pola tata bahasa, pengurai (parser), dan pembangkitan pola tata bahasa dengan pendekatan probabilistik. Penelitian mengenai model-model pola tata bahasa perlu dibahas agar diketahui model pola tata bahasa apa saja yang telah dibuat oleh orang lain. Penelitian mengenai pengurai (parser) perlu dibahas agar diketahui model-model pengurai (parser) yang telah dikembangkan beserta keuntungan dan kelemahannya. Penelitian mengenai pembangkitan pola tata bahasa dengan pendekatan probabilistik disini agar diketahui metode-metode yang digunakan. II.1 Model-model Pola Tata Bahasa Grammar (tata bahasa) sering dianggap sebagai sebuah jalan alternatif untuk menspesifikasikan bahasa. Grammar secara teknis merupakan sebuah alat untuk merepresentasikan sebuah bahasa. Grammar untuk bahasa reguler atau ekspresi reguler disebut dengan regular grammar [19]. Sebuah regular grammar terdiri dari empat parameter (4-tuple) yaitu kumpulan simbol non-terminal, kumpulan simbol terminal, kumpulan aturan produksi, dan kumpulan simbol awal [19]. Grammar memiliki beberapa jenis. Grammar yang berbasis struktur frase (phrase structure) antara lain seperti context-free grammar (CFG) beserta turunannya dan tree-grammar, sedangkan grammar berbasis struktur kebergantungan adalah dependency grammar. Pola tata bahasa dapat dimodelkan dengan CFG. CFG juga terdiri dari empat parameter (4-tuple) yaitu kumpulan simbol non-terminal, kumpulan simbol terminal, kumpulan aturan produksi, dan kumpulan simbol II-1

22 awal. Perbedaan antara regular grammar dan context-free grammar terletak pada aturan yang diterapkan pada aturan produksinya [19]. Dalam perkembangannya, CFG dikembangkan menjadi lexicalized context-free grammar (LCFG) untuk keperluan representasi pohon pola tata bahasa. Hal ini karena CFG tidak dapat mengakomodasi perlunya fungsi leksikal (aturan seperti kata benda, kata kerja, kata sifat, dan lain-lain (jenis kata)) dalam membentuk pohon pola tata bahasa. LCFG memiliki lima parameter (5-tuple) dimana tiga parameter sama dengan CFG yaitu kumpulan simbol non-terminal, kumpulan simbol terminal, dan kumpulan simbol awal ditambah dengan dua buah parameter untuk merepresentasikan aturan produksi yang merepresentasikan pohon [19]. LCFG dikembangkan menjadi Stochastic Lexicalized Context-Free Grammar (SLCFG) oleh Yves Schabes dan Richard C. Waters (1993) [23]. SLCFG merupakan LCFG yang menambahkan komponen probabilitas untuk mengontrol kombinasi pohon hasil dari proses penambahan simpul atau pergantian simpul. SLCFG memilik sebelas parameter (11-tuple). Enam parameter tambahan SLCFG merupakan probabilitas kemungkinan pertambahan dan perubahan yang dapat terjadi pada pohon pada aturan produksi [21]. Kesimpulan dari penelitian ini adalah bahwa SLCFG sangat bermanfaat sebagai alat pemrosesan bahasa alami dimana perkiraan statistik atau prediksi dibutuhkan. Pada perkembangannya, dibuat sebuah model CFG yang menambahkan probabilitas pada aturan produksinya yang dikenal dengan Probabilistic Context- Free Grammar (PCFG) atau dikenal juga dengan Stochastic Context-Free Grammar (SCFG). Model PCFG memiliki lima buah parameter (5-tuple) yaitu kumpulan simbol non-terminal, kumpulan simbol terminal, kumpulan aturan produksi, kumpulan simbol awal, dan kumpulan probabilistik untuk aturan produksinya. Perbedaan PCFG dengan CFG terletak pada penambahan probabilitas pada setiap aturan produksi pada PCFG [17]. Perhitungan probabilitas dapat menggunakan berbagai metode misalnya dengan menggunakan bigram (keterkaitan dua buah elemen), atau trigram (keterkaitan tiga buah elemen). PCFG (Probabilistic Context-Free Grammar) II-2

23 PCFG (Probabilistic Context-Free Grammar) pada tesis ini digunakan untuk representasi pohon. Aturan produksi pada PCFG digunakan sebagai sub pohon (bagian-bagian yang membangun pohon). PCFG merupakan pengembangan dari Context-Free Grammar (CFG). Sebuah CFG didefinisikan dengan empat buah parameter (N, Σ, P, S) dimana: N : kumpulan simbol non-terminal Σ : kumpulan simbol terminal P : kumpulan produksi, setiap bentuk α β, dimana α adalah sebuah simbol terminal dan β adalah string dari kumpulan string tak terbatas (Σ U N)*. S : Simbol awal Probabilistic context-free grammar menambah setiap aturan di dalam P dengan sebuah kondisi probabilitas: α β [p] (II-1) dimana [p] adalah probabilitas dari aturan produksi α β. Sebuah PCFG terdiri dari lima buah tuple yaitu G = (N, Σ, P, S, D), dimana D adalah fungsi probabilitas yang dikenakan pada setiap aturan di P. Fungsi ini merepresentasikan probabilitas p yang diberikan non-terminal α diekpansi ke β; hal ini biasanya ditulis sebagai: P(α β) atau P(α β α) (II-2) Secara formal kondisi ini merupakan kondisi probabilitas yang dihasilkan dari ekspansi di sisi kiri dari simbol non-terminal α. Sebuah PCFG dapat digunakan untuk memperkirakan sebuah nilai probabiltas yang berguna terkait dengan sebuah kalimat dan pohon hasil penguraian (parsetree). Probabilitas dari pohon hasil penguraian (parse-tree) T didefinisikan sebagai produk probabilitas dari semua aturan r yang digunakan untuk pembangkitan setiap simpul n dalam pohon hasil penguraian (parse-tree), S II-3

24 adalah kalimat (sentence) sehingga hubungan antara pohon dan kalimat adalah sebagai berikut: atau P(T, S) = n T p(r(n)) (II-3) n P(T,S) = i= 1 P(RHS i LHS i ) (II-4) dimana n adalah jumlah aturan produksi, i adalah aturan produksi ke-i dan 1 i n, aturan produksinya adalah LHS i RHS i [12]. Hasil dari probabilitas P(T, S) adalah gabungan probabilitas dari hasil penguraian (parse) dan kalimat dan juga probabilitas dari pohon P(T). Pada mulanya P(T, S) = P(T)P(S T) = P(T) (II-5) karena P(S T) bernilai 1. Setiap kalimat yang dibangkitkan pohon pola tata bahasanya dapat diambil probabilitas pohon yang terbaik, sehingga pohon terbaik dapat dilihat sebagai berikut: T (S) = argmax T π (S ) P(T) (II-6) Kegunaan dari PCFG untuk pemodelan bahasa adalah dapat memberikan probabilitas pada bagian kalimat [16]. Pada tesis ini PCFG digunakan sebagai model representasi pohon pola tata bahasa menggunakan aturan produksinya. Glen Carroll (1995) melakukan sebuah penelitian mengenai pembelajaran tata bahasa probabilistik untuk pemodelan bahasa [10]. Penelitian ini fokus pada bahasa Inggris. Model yang digunakan dalam penelitian ini adalah PCFG (probabilistic context-free grammar). Dalam penelitian ini PCFG didefinisikan sebagai context-free grammar biasa dengan kumpulan distribusi probabilitas II-4

25 aturan-aturan. Penelitian ini menggunakan trigram untuk menghitung probabilistik setiap kata. Sistem yang dibangun pada penelitian ini diberi nama SINGER (Single Reader) yang merefleksikan bahwa kalimat dibaca berdasarkan aturan. Secara umum cara kerja sistem ini adalah sebagai berikut: Didefinisikan aturan-aturan yang diterima. PCFG yang digunakan untuk membangun aturan-aturan, Melakukan perhitungan probabilitas per aturan PCFG dengan melihat probabilitas simpul orang tua di atasnya. Penelitian ini menghasilkan model grammar tambahan yang cukup besar. Perlu adanya perbaikan lebih lanjut pada model grammar pada penelitian ini sehingga performansi dan hasil dapat terus ditingkatkan kualitasnya. Mark Johnson (1998) melakukan penelitian mengenai model PCFG (Probabilistic Context-Free Grammar) untuk representasi pohon pola tata bahasa [16]. Penelitian ini mencoba menggunakan PCFG sebagai model pola tata bahasa Inggris. Masukan dari sistem yang diimplementasikan adalah teks yang berisi kumpulan kalimat. PCFG digunakan untuk membangkitkan pohon pola tata bahasa per kalimat. Dalam penelitian ini model dengan PCFG dibandingkan dengan beberapa model pola tata bahasa lainnya. Penulis penelitian ini menyimpulkan bahwa perbedaan representasi pohon pola tata bahasa dengan menggunakan PCFG dapat menimbulkan perbedaan performansi. PCFG cukup baik digunakan sebagai representasi pohon pola tata bahasa untuk berbagai kasus secara umum. II.2 Penelitian mengenai Pengurai (parser) Pengurai (parser) dalam tesis ini merupakan pengurai kalimat yang digunakan dalam pemrosesan bahasa alami. Fungsi pengurai (parser) pada tesis ini adalah sebagai pengurai kalimat untuk membuat pohon pola tata bahasanya dari teks masukan yang berisi kumpulan kalimat (corpus) berbahasa Indonesia. Pengurai (parser) pada tesis ini menggunakan aturan grammar untuk membangkitkan pohon pola tata bahasa dari setiap kalimat, sedangkan proses penguraian (parsing) II-5

26 merupakan proses yang mengubah kalimat menjadi model pola tata bahasa. Pengurai (parser) yang baik harus memenuhi hal-hal berikut: Dapat menangani ambiguitas dari parse-tree, Dapat menangani kalimat yang keluar dari domain, Menggunakan sumber daya (resources) seperti grammar, atau treebank, Efisien, terutama pada kecepatan performansi, Dapat ditelusuri hasilnya. Pengurai (parser) memiliki beberapa jenis. Pengurai (parser) berdasarkan jenis hasil parser-tree adalah phrase structure parser dan depedency structure parser. Jenis pengurai (parser) jika dilihat dari penggunaan statistik atau tidak maka ada statistical parser dan ruled-based parser. Parse-tree merupakan struktur pohon yang dihasilkan oleh pengurai (parser). Parser-tree dibagi menjadi dua buah jenis yaitu stuktur frase (phrase structure) dan struktur kebergantungan (dependency structure). Parse-tree berbasis struktur frase merupakan parse-tree yang dibangun dengan mempertimbangkan keterkaitan kata satu dengan lainnya yang berdekatan (frase) sedangkan parse-tree berbasis struktur kebergantungan merupakan parse-tree yang dibangun tanpa mempertimbangakan posisi yang berdekatan dari tiap kata, tapi berdasarkan kombinasi dua buah kata yang ada dalam kalimat. Algoritma yang digunakan untuk proses penguraian (parsing algorithm) banyak digunakan adalah sebagai berikut: Algoritma top-down; proses penguraian diawali dari akar pohon lalu diteruskan sampai ke daun, kelemahan dari algoritma ini adalah kurang efisien untuk pembangkitan pohon kalimat yang tidak sesuai dengan kalimat masukan (salah membangkitkan ketika sampai pada level tertentu), Algoritm bottom-up proses penguraian diawali dari daun yaitu kata-kata dari kalimat kemudian diproses sampai ke akar daun. II-6

27 Algoritma kombinasi top-down dengan bottom-up; karena masalah yang dihadapi adalah pembangkitan pohon yang kurang efisien maka muncul algoritma kombinasi top-down dan bottom-up dimana pohon dibangkitkan dari akar pohon, tapi dengan melihat kata-kata (simpul daun) dari kalimat masukan (untuk filter). Dari ketiga jenis algoritma di atas, masih ditemukan masalah yang timbul yaitu adanya aturan produksi yang bersifat rekursif, ambiguitas, pengulangan proses penguraian untuk sub pohon. Untuk mengatasi permasalahan yang timbul digunakan dynamic programming. Dynamic programming membagi-bagi masalah menjadi permasalahan yang lebih kecil untuk diselesaikan. Algoritma yang menggunakan dynamic programming untuk proses penguraian menggunakan CFG adalah sebagai berikut: Algoritma Early; menggunakan pencarian secara top-down, melakukan penelusuran dari kanan ke kiri untuk menentukan pohon parsial, Algoritma Cocke-Younger-Kasami (CYK); algoritma CYK merupakan algoritma parsing yang masuk pada jenis parsing bottom-up, algoritma CYK mengisi array probabilitas dengan proses induksi, Algortima Graham-Harrizon-Ruzzo (GHR); menggunakan struktur data yang mirip dengan algoritma CYK, tapi dengan komputasi mirip dengan algoritma Early Salah satu penelitian mengenai pengurai dilakukan oleh Eugene Charniak. Pengurai (parser) yang dibangun oleh Charniak (1997) [7] adalah pengurai (parser) untuk bahasa Inggris dan menggunakan treebank (kumpulan pohon pola tata bahasa) untuk membangun sistem pengurai (parser). Penelitian Charniak ini sering disebut dengan parser (pengurai) menggunakan PCFG yang bersifat leksikal (dari kamus). Algoritma yang digunakan digolongkan dengan algoritma chart parser (pengurai) dimana setiap elemen kalimat dipilih berdasarkan chart untuk menjadi simpul pohon. Parser (pengurai) pada penelitian ini termasuk pada II-7

28 parser (pengurai) bottom-up. Setiap kata pada kalimat akan dianggap sebagai daun pohon, dari setiap daun pohon itu akan disimpulkan apa jenis simpul orang tuanya, demikian terus keatas sampai ditemukan kepala kalimat. Perhitungan probabilitas setiap kata berdasarkan distribusi kata itu jika digunakan bersama kata lain setelahnya di dalam kalimat. Dari segi performansi, parser (pengurai) dalam penelitian ini lumayan baik. Berikutnya Charniak melakukan penelitian mengenai parser (pengurai) dengan Menggunakan Entropi Maksimum (2000) [8]. Ide yang digunakan pada penelitian ini mirip dengan penggunaan algoritma pohon pengambilan keputusan (decision tree). Algoritma parser (pengurai) yang digunakan adalah jenis top-down dimana pada setiap simpul yang dibangkitkan dari atas ke bawah dihitung entropi kemungkinan setiap jabatan kata dalam kalimat untuk dipilih menjadi simpul pohon. Dari hasil kesimpulan keakurasian penelitian ini masih sekitar delapan puluhan persen sehingga masih dibutuhkan perbaikan lebih lanjut. Penelitian mengenai parser juga dilakukan oleh Michael Collins (1996) [11]. Penelitian ini mengenai parser (pengurai) berbasis statistik pada ketergantungan bigram leksikal. Penelitian ini mendeskripsikan sebuah parser (pengurai) berbasis statistik. Perhitungan probabilitas pada bigram merupakan probabilitas dari dua buah kata yang memiliki ketergantungan dari dua buah kata. Perhitungan bigram pada penelitian ini dihitung berdasarkan tag (jenis kata) antara dua buah kata yang saling memiliki ketergantungan (berdekatan). Hasil perhitungan bigram akan digunakan untuk menghitung probabilitas pohon yang dibangkitkan. Dari segi performansi penelitian ini dianggap cukup baik karena dari eksperimen pemrosesan kalimat hanya memakan waktu lima belas menit. Akurasi hasil yang dihasilkan berkisar antara delapan puluh hingga sembilan puluh persen. Berikutnya Collins juga melakukan penelitian mengenai penguraian (parsing) bahasa alami dengan model statistik berbasis head-driven (1999) [12]. Collins membangun sistem penguraian (parsing) dengan membangkitkan simpul setiap pohon menggunakan probabilitas grammar. Setiap membangkitkan simpul yang II-8

29 baru maka metode head-finder akan dijalankan untuk menentukan simpul yang baru. Metode yang digunakan adalah melakukan penelusuran untuk setiap simpul yang akan dibangkitkan. Algoritma penguraian (parsing) yang digunakan adalah algoritma chart. Hasil dari tesis ini dievaluasi per bagian kerja sistem, beberapa bagian memiliki akurasi sekitar sembilan puluhan persen, tapi di lain bagian ada yang memiliki akurasi sekitar tujuh puluhan persen. Tesis ini nantinya akan mengambil modul-modul pada pengurai Collins dengan beberapa perubahan agar dapat digunakan untuk bahasa Indonesia. Pengurai Collins merupakan pengurai dengan metode statistik yang memiliki kecepatan pemrosesan yang baik dan memiliki akurasi yang lebih baik dibandingkan pengurai dengan metode statistik yang lainnya. Penelitian mengenai model penguraian (parsing) menggunakan metode statistik dengan menggunakan ruang parameter dari leksikal generatif dilakukan oleh Daniel M. Bikel (2004) [4]. Pada penelitian ini, probabilitas yang dihitung dari setiap kata berupa bigram, tapi menggunakan parameter-parameter tertentu yang merupakan ekstraksi makna dan jenis kata dalam kamus dari setiap kata. Penelitian ini merupakan pengurai (parser) untuk bahasa Inggris dan Cina. Untuk bahasa Inggris, penelitian ini menggunakan Penn treebank untuk membangkitkan aturan sedangkan untuk bahasa Cina menggunakan aturan-aturan yang telah didefinisikan pada penelitian Bikel sebelumnya dengan Chiang pada tahun Penelitian ini lebih mengarah pada pembuatan sebuah kerangka kerja (framework) untuk mesin pengurai (parser). Hasil sistem dari penelitian ini dianggap cukup kompleks. Beberapa parameter yang diujicobakan memberikan akurasi yang baik, tapi beberapa parameter juga memberikan akurasi yang rendah, dari sini dapat diambil parameter mana yang berperan baik dalam sebuah pengurai (parser). Collins parser juga pernah digunakan untuk bahasa czech dalam penelitian yang dilakukan oleh Michael Collins, Jan Hajic, Lance Ramshaw dan Christoph Tillmann dengan melakukan adaptasi dengan bahasa czech dari bahasa inggris [13]. Penelitian tersebut menggunakan Prague treebank yang merupakan treebank berbahasa Czech. Penelitian tersebut menggunakan pengurai Collins hanya II-9

30 sebatas pada model 1. Penelitian tersebut sebenarnya bertujuan sama dengan penelitian pada tesis ini, hanya saja pada tesis ini untuk bahasa Indonesia. Oleh karena itu perlu dilakukan adaptasi dengan bahasa Indonesia dari bahasa Inggris. Permasalahan yang paling sering adalah bagaimana menghitung probabilitas aturan produksi agar menghasilkan nilai akurasi yang tinggi. Secara sederhana, probabilitas dari sebuah aturan produksi α β dapat didefinisikan sebagai berikut: P( β α) = jumlah( α β ) jumlah( α) (II-7) dimana jumlah aturan dihitung dari model tata bahasa yang dibangkitkan dari treebank. Sebuah PCFG dapat diberi sifat leksikal dengan mengasosiasikan kata (w) dengan sebuah part-of-speech (POS) tag t dengan setiap simbol non terminal α di sebuah pohon. Pada Collins parser sebuah simpul pohon ditulis dengan pola X(x) dimana x = (w, t). Misal untuk kalimat Last week IBM bought Lotus maka pohonnya dapat dilihat pada Gambar II-1. TOP S (bought, VBD) NP (week, NN) NP (IBM, NNP) VP (bought, VBD) JJ (Last, JJ) NN (week, NN) NNP (IBM, NNP) VBD(bought, VBD) NP (Lotus, NNP) Last week IBM bought NNP (Lotus, NNP) Lotus Gambar II-1 Contoh Pohon pada Collins parser II-10

31 Maka secara sederhana perhitungan probabilitas untuk S(bought, VBD) NP(week, NN) NP(IBM, NNP) VP(bought, VBD) adalah P(NP(week, NN) NP(IBM, NNP) VP(bought, VBD) S(bought, VBD)) = jumlah S(bought, VBD) NP(week, NN) NP(IBM, NNP) VP(bought, VBD) jumlah S(bought, VBD) (II-8) Namun hasil perhitungan probabilitas di atas akan menyebabkan statistik bersifat jarang; karena yang menjadi pembilang dapat bernilai sangat kecil atau bahkan nol dan penyebutnya bisa jadi bernilai rendah. Oleh karena itu Collins memaparkan tiga buah model perhitungan probabilitas aturan produksi yang telah diperkenalkan sebelumnya oleh beberapa peneliti dan melakukan beberapa perbaikan terhadap model yang ada [12]. Pengurai Collin mengakomodasi semua model pada aplikasi yang dibuatnya sebagai perbandingan antar model dengan variasi kumpulan dokumen (corpus) yang digunakan. II.2.1 Perhitungan Probabilitas Aturan Produksi Pada disertasi Michael Collins (1999) [12] membahas tiga buah model probabilistik untuk penguraian (parsing) yang telah diperkenalkan sebelum Collins melakukan disertasi. Pada disertasinya, Collins melakukan beberapa perbaikan pada ketiga model yang sudah ada itu. Collins mengimplementasikan semua model sebagai perbandingan. Dari hasil penelitian yang dilakukan Collins, model 2 dan model 3 masih menghasilkan beberapa kalimat yang gagal diuraikan. Hal tersebut kemungkinan karena kurangnya kalimat pada treebank yang menggunakan tag khusus untuk model 2 dan 3. Dalam tesis ini hanya mengimplementasikan model 1 dari pengurai Collins karena keterbatasan treebank. II-11

32 II Model 1 Model 1 membagi pembuatan aturan produksi sisi kanan menjadi urutan langkah yang sederhana. Pada PCFG yang memiliki pola standar maka aturan produksinya memiliki pola sebagai berikut: P(h) L n (l n )...L 1 (l 1 )H(h)R 1 (r 1 )...R m (r m ) (II-9) H adalah kepala (head-child) dari anak aturan P (aturan produksi sisi kanan). L n (l n )...L 1 (l 1 ) dan R 1 (r 1 )...R m (r m ) adalah sisi kiri dan kanan dari H. Simbol n dan m dapat bernilai nol, dan n = m = 0 untuk aturan yang bersifat tunggal (hanya memiliki kepala H). Pada model ini ditambahkan simbol terminasi yaitu STOP dimana L n+1 = R m+1 = STOP. Sebagai contoh adalah aturan S(bought, VBD) -> NP(week, NN) NP(IBM, NNP) VP(bought, VBD) maka: n = 2 m = 0 P = S H = VP L 1 = NP L 2 = NP L 3 = STOP R 1 = STOP h = (bought, VBD) l 1 = (IBM, NNP) l 2 = (week, NN) Simbol STOP ini hanya akan masuk pada file events sebagai penanda bahwa sebuah kalimat atau bagian kalimat telah diuraikan dengan benar, tapi tidak dimasukkan sebagai model pola tata bahasa (grammar). Pembangkitan aturan sisi kanan (child) dari aturan sisi kiri (parent) yang diberikan dibagi menjadi tiga langkah berikut: 1. Membuat pilihan label kepala frase dengan probabilitas P h (H P, h), (II-10) 2. Membuat sisi kiri kepala dengan probabilitas i= 1... n+ 1 Pl(L i (l i ) P, h, H) (II-11) II-12

33 dimana L n+1 (l n+1 ) = STOP, model akan berhenti membangkitkan sisi kiri ketika simbol STOP dibangkitkan, 3. Membuat sisi kanan kepala dengan probabilitas i= 1... n+ 1 Pr(R i (r i ) P, h, H) (II-12) dimana R m+1 (r m+1 ) = STOP. Sebagai contoh untuk aturan S(bought, VBD) NP(week, NN) NP(IBM, NNP) VP(bought, VBD) maka probabilitasnya adalah: P h (VP S, bought) P l (NP(IBM) S, VP, bought) P l (NP(week) S, VP, bought) P l (STOP S, VP, bought) P r (STOP S, V, bought) (II-13) Collins memberikan tambahan parameter jarak pada model 1 yang secara opsional dapat digunakan atau tidak. Jarak ditambahkan agar tidak terjadi dominasi oleh bagian aturan (kepala, bagian kiri, atau bagian kanan). Jarak digunakan untuk memperhatikan tata letak simbol terminal atau non-terminal pada aturan sisi kanan. Jarak dapat dilihat pada Gambar II-2. P(h) H(h) R1(r1) R2(r2) R3(r3) h jarak Gambar II-2 Parameter Jarak II-13

34 Parameter jarak dapat dimasukkan pada model dengan memodifikasi asumsi saling lepas sehingga setiap sisi memiliki keterkaitan yang terbatas. Maka persamaannya akan menjadi sebagai berikut: P l (L i (l i ) H, P, h, L i (l i )...L i-1 (l i-1 )) = Pl(L i (l i ) H, P, h, distance l (i-1)) (II-14) dan P r (R i (r i ) H, P, h, R i (r i )...R i-1 (r i-1 )) = Pr(R i (r i ) H, P, h, distance r (i-1)) (II-15) Perkiraan jarak adalah sebuah vektor yang memiliki dua elemen yaitu: 1. Banyaknya string yang digunakan (posisi string), 2. Ada atau tidaknya kata kerja yang digunakan untuk pembelajaran memilih kata kerja yang paling banyak digunakan [12]. II Model 2 Adanya pembedaan pelengkap/keterangan dan pengkategorian sub kalimat yang menjadi pelengkap/keterangan sangat diperlukan. Namun pembedaan ini tidak ditampilkan secara eksplisit pada pohon, hanya digunakan pada mesin pengurai (parsing). Model ini mengakomodasi aturan-aturan pembedaan pelengkap/keterangan pada kaidah tata bahasa yang digunakan. Untuk bahasa Indonesia pelengkap dan keterangan bisa menjadi sebuah sub kalimat. Untuk membedakan sub kalimat pelengkap/keterangan maka perlu adanya pembedaan simbol non terminal untuk merepresentasikan sub kalimat dan komponenkomponen di dalamnya. Pada pengurai Collins sebuah sub kalimat disimbolkan dengan SBAR dan komponen-komponen di dalamnya diberi tambahan C pada simbol non terminalnya (hanya untuk keperluan history/events dan pemrosesan), misalnya NP maka akan menjadi NP-C. Penambahan penanda ini dimaksudkan agar sebuah simbol non terminal yang sudah ada di sisi kiri aturan tidak boleh muncul lagi di sisi kanan aturan, misal S S CC S maka kedua S tidak dapat II-14

35 dianggap sebagai pelengkap/keterangan/sub kalimat dan dapat menyebabkan perulangan tanpa henti. Probabilitas dari model 1 dapat diubah sebagai berikut pada model 2: 1. Pilih kepala H dengan probabilitas P h (H P, h), 2. Pilih lingkup kategori kiri (LC) dan lingkup kategori kanan (RC) dengan probabilitas P lc (LC P, H, h) dan P rc (RC P, H, h). Setiap sub kategori adalah kumpulan aturan yang mungkin memiliki simbol non terminal yang sama dan mespesifikasikan pelengkap. 3. Buat sisi kiri dan kanan dengan probabilitas P i (L i (l i ) H, P, h, jarak(i-1), LC) dan P i (R i (r i ) H, P, h, jarak(i-1), RC). Aturan yang ada di dalam kumpulan aturan pada langkah 2 akan dihapus begitu diidentifikasi dan dijadikan aturan kategori pelengkap. Sebagai contoh probabilitas dari aturan S(bought, VBD) NP(week, NN) NP(IBM, NNP) VP(bought, VBD) akan menjadi: P h (VP S, bought) P lc (NP-C(IBM) S, VP, bought) P rc ({} S, VP, bought) P l (NP-C(IBM) S, VP, bought, {NP-C}) P l (NP(week) S, VP, bought, {}) P l (STOP S, VP, bought, {}) P r (STOP S, V, bought, {}) (II-16) Kepala akan diputuskan dari NP-C (subyek) tunggal pada bagian kiri dan tidak ada pelengkap/keterangan pada bagian kanan. NP-C(IBM) dibangkitkan sebagai subyek dan NP-C dihapus dari LC, kemudian NP(week) dibangkitkan. II Model 3 Model ini menghitung probabilitas dengan mempertimbangkan adanya lebih dari satu sub kalimat dalam sebuah kalimat. Dalam bahasa Indonesia, pengkategorian sub kalimat juga perlu dilakukan pada kalimat majemuk yang dipisahkan oleh kata penghubung atau tanda koma. Permasalahan yang timbul adalah tidak semua tanda koma memisahkan sub kalimat dan tidak semua kata hubung memisahkan II-15

36 dua buah kalimat. Oleh karena itu, jika yang dipisahkan oleh koma atau kata hubung hanya terdiri dari satu kata maka tidak dianggap sebagai sebuah sub kalimat pada bagian yang memiliki satu kata. Kalimat yang di dalamnya terdapat sekurang-kurangnya dua kalimat dasar dan masing-masing dapat berdiri sebagai kalimat tunggal disebut kalimat majemuk setara (koordinatif). Kalimat yang terdiri atas dua kalimat dasar dimana jika kalimat dasar pertama ditiadakan, maka kalimat yang kedua masih bisa berdiri sendiri sebagai kalimat mandiri. Demikian pula sebaliknya. Keduanya mempunyai kedudukan yang sama. Itulah sebabnya kalimat itu disebut kalimat majemuk setara [24]. Kalimat yang mengandung satu kalimat dasar yang merupakan inti (utama) dan satu atau beberapa kalimat dasar yang berfungsi sebagai pengisi salah satu unsur kalimat inti itu misalnya keterangan, subyek, atau obyek dapat disebut sebagai kalimat majemuk bertingkat jika diantara kedua unsur itu digunakan konjungtor. Konjungtor inilah yang membedakan kalimat majemuk bertingkat dari kalimat majemuk setara. Kalimat majemuk bertingkat juga dapat berupa kalimat tunggal yang mengalami perluasan sekurang-kurangnya pada salah satu unsurnya misalnya pada unsur keterangan, subyek atau obyek. Elemen yang berperan memperluas salah satu unsur kalimat ini merupakan anak kalimat dan diawali oleh konjungtor yang atau kata penunjuk itu [24]. Model ini juga dapat digunakan untuk penanganan wh-movement dimana sebuah kalimat dipisahkan oleh kata tanya, misal dalam bahasa Inggris sebagai berikut: They didn't know which model that we had discussed atau misal dalam bahasa Indonesia sebagai berikut: Mereka tidak tahu model mana yang sedang kita diskusikan. Model ini juga digunakan untuk menangani kalimat tanya sebagai salah satu bagian dari wh-movement misal, What does she believe? maka kalimat di atas memiliki inti she believe dengan penambahan kata tanya what. II-16

37 Pengurai Collins menambahkan sebuah simbol TRACE yang merupakan tanda berhenti melakukan pembagian sub pohon. Sebuah SBAR akan diberi penanda +gap untuk menandakan orang tua dari TRACE (hanya akan disimpan sebagai history agar kalimat diuraikan dengan benar). Misal untuk contoh kalimat The Store that IBM bought last week maka pohon pola tata bahasanya akan mejadi seperti pada Gambar II-3. NP(Store) NP(Store) SBAR(that)(+gap) The store WHNP(that) S(bought)(+gap) WDT that NP-C(IBM) IBM VBD bought VP(bought)(+gap) TRACE NP(week) last week Gambar II-3 Pohon Model 3 Probabilitas untuk aturan VP(bought)(+gap) VB(bought) TRACE NP(week) adalah: P h (VB VP, bought) P g (Right VP, bought, VB) Pl c ({} VP, bought, VB) P rc ({NP-C} VP, bought, VB) P r (TRACE VP, bought, VB, {NP-C, +gap}) P r (NP(week) VP, bought, VB, {}) P l (STOP VP, bought, VB, {}) P r (STOP VP, bought, VB, {}) (II-17) II-17

38 II.2.2 Perhitungan Probabilitas Setiap Pohon Sebuah kalimat sangat dimungkinkan memiliki model pola tata bahasa lebih dari satu dan hal ini menyebabkan terjadinya ambigu. Oleh karena itu setiap model pohon pola tata bahasa harus dihitung probabilitasnya untuk memilih pohon mana yang terbaik. Sama dengan hasil penelitian yang dilakukan Daniel Jurafsky dan James H. Martin, pada pengurai Collins pohon yang terbaik diambil dari perhitungan berikut: T (S) = argmax T π (S ) P(T) (II-18) dimana P(T) = P(T)P(S T) = P(T, S) (II-19) dan P(T, S) = n T p(r(n)) (II-20) p(r(n)) adalah nilai probabilitas yang didapatkan dari model probabilitas pengurai Collins [12]. II.3 Penelitian Mengenai Pembangkitan Pola Tata Bahasa dengan Pendekatan Probabilistik (Probabilistic Parsing) Penelitian mengenai teknik pembangkitan pola tata bahasa untuk ekstraksi relasi pada bahasa Malaysia dilakukan oleh Mohd Juzaiddin Ab Aziz dkk (2006) [3]. Penelitian ini membahas mengenai pembangkitan pola tata bahasa melayu Malaysia dari kalimat masukan berbahasa melayu Malaysia. Pada awalnya pola tata bahasa didefinisikan dengan menggunakan aturan produksi CFG (Context- Free Grammar). Pohon pola tata bahasa dibangkitkan dari kalimat masukan berdasarkan aturan produksi CFG yang telah didefinisikan sebelumnya. II-18

39 Permasalahan yang timbul adalah ambiguitas pohon yang dibangkitkan karena pada penelitian ini tidak melibatkan komponen probabilitas. Keakurasian dalam penelitian ini mencapai sekitar delapan puluhan persen. Jabatan kata bahasa melayu Malaysia memiliki perbedaan dengan bahasa Indonesia. Beberapa arti kata dalam bahasa melayu Malaysia juga berbeda dengan bahasa Indonesia sehingga jabatan kata dalam kalimat pun menjadi berbeda. Oleh karena itu bahasa melayu Malaysia tidak sama dengan bahasa Indonesia walaupun dikatakan sebagai bahasa yang serumpun. Penguraian (parsing) probabilistik adalah penguraian elemen pada pemrosesan bahasa alami dengan menggunakan pendekatan probabilistik. Penelitian mengenai penguraian (parsing) probabilistik dilakukan oleh Daniel Jurafsky dan James H. Martin (2000) [17]. Penelitian ini juga menggunakan PCFG. Aturan produksi PCFG didefinisikan terlebih dahulu. Setiap kalimat yang masuk ke sistem akan dihitung probabilitas katanya berdasarkan distribusi kata. Nilai probabilitas ini nanti digunakan untuk menghitung probabilitas pohon yang dibangkitkan sehingga dapat dipilih pohon yang terbaik. Penelitian ini menggunakan algoritma CYK (Cocke, Younger, Kasami). Algoritma CYK merupakan algoitma yang efisien ketika digunakan untuk memproses struktur leksikal bahasa. Algoritma CYK merupakan algoritma parsing yang masuk pada jenis parsing bottom-up. Hasil penelitian ini cukup baik dan masih memerlukan perbaikan di masa mendatang untuk mengurangi kesalahan yang ditimbulkan misal jika pemilihan pohon dengan probabilitas menghasilkan nilai probabilitas yang sama untuk dua atau lebih pohon, harus didefinisikan justifikasi lebih lanjut. Penelitian yang dilakukan Ramon Lefuel dan Brian J. Ross (2004) menggabungkan penguraian (parsing) probabilistik dengan algoritma genetik [18]. Algoritma genetik digunakan untuk membangkitkan pohon pola tata bahasa dari kalimat masukan. Model yang digunakan pada penelitian ini adalah PCFG. Kromoson dalam penelitian ini merepresentasikan parse-tree. Fungsi fitness yang digunakan adalah perhitungan probabilitas setiap parse-tree. Penelitian ini membuktikan bahwa algoritma genetik juga dapat digunakan untuk melakukan II-19

TINJAUAN PUSTAKA. II.1 Model-model Pola Tata Bahasa

TINJAUAN PUSTAKA. II.1 Model-model Pola Tata Bahasa BAB II TINJAUAN PUSTAKA Bab ini membahas hal-hal apa saja yang pernah dilakukan sebelumnya mengenai model-model pola tata bahasa, pengurai (parser) untuk bahasa lain, dan pembangkitan pola tata bahasa

Lebih terperinci

PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)

PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika) PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh ROSA ARIANI SUKAMTO NIM

Lebih terperinci

BAB I PENDAHULUAN. I.1 Latar Belakang

BAB I PENDAHULUAN. I.1 Latar Belakang BAB I PENDAHULUAN I.1 Latar Belakang Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan komputer menggunakan

Lebih terperinci

PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA

PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA Pada Bab III ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses awal (preprocessing) membentuk file masukan untuk pengurai

Lebih terperinci

V.1 Tujuan Pengujian. V.2 Perancangan Pengujian

V.1 Tujuan Pengujian. V.2 Perancangan Pengujian BAB V PENGUJIAN V.1 Tujuan Pengujian Pengujian dilakukan untuk menguji hasil kumpulan file masukan hasil pemrosesan awal (preprocessing) dari tesis ini. Pengujian juga dilakukan untuk mengetahui kinerja

Lebih terperinci

Penggunaan Hidden Markov Model untuk Kompresi Kalimat

Penggunaan Hidden Markov Model untuk Kompresi Kalimat Penggunaan Hidden Markov Model untuk Kompresi Kalimat TESIS Karya tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh YUDI WIBISONO NIM: 23505023 Program

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA

PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses penentuan jenis kata (part of speech tagging)

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Bahasa Inggris merupakan salah satu bahasa yang sering digunakan baik pada percakapan sehari-hari maupun pada dunia akademik. Penelitian mengenai pemeriksaan

Lebih terperinci

IMPLEMENTASI ALGORITMA COCKE-YOUNGER-KASAMI (CYK) DAN LEVENSHTEIN UNTUK MENGOREKSI KESALAHAN PENGEJAAN KALIMAT BAHASA INGGRIS SKRIPSI

IMPLEMENTASI ALGORITMA COCKE-YOUNGER-KASAMI (CYK) DAN LEVENSHTEIN UNTUK MENGOREKSI KESALAHAN PENGEJAAN KALIMAT BAHASA INGGRIS SKRIPSI IMPLEMENTASI ALGORITMA COCKE-YOUNGER-KASAMI (CYK) DAN LEVENSHTEIN UNTUK MENGOREKSI KESALAHAN PENGEJAAN KALIMAT BAHASA INGGRIS SKRIPSI BERRY SAFAAT HARAHAP 091401015 PROGRAM STUDI (S-1) ILMU KOMPUTER FAKULTAS

Lebih terperinci

APLIKASI PROGRAM DINAMIS DALAM ALGORITMA COCKE- YOUNGER -KASAMI (CYK)

APLIKASI PROGRAM DINAMIS DALAM ALGORITMA COCKE- YOUNGER -KASAMI (CYK) APLIKASI PROGRAM DINAMIS DALAM ALGORITMA COCKE- YOUNGER -KASAMI (CYK) Inas Luthfi 1) NIM 13506019 1) Jurusan Teknik Informatika ITB, Jalan Ganesha 10 Bandung Indonesia 40132 email: if16019@students.if.itb.ac.id

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang 1 BAB 1 PENDAHULUAN Bab ini berisi tentang latar belakang (subbab 1.1), tujuan penelitian (subbab 1.2), perumusan dan pembatasan masalah (subbab 1.3), metodologi penelitian (subbab 1.4), serta penjelasan

Lebih terperinci

BAB V CONTEXT FREE GRAMMAR DAN PUSH DOWN AUTOMATA

BAB V CONTEXT FREE GRAMMAR DAN PUSH DOWN AUTOMATA Bab V Context Free Grammar dan Push Down Automata 26 BAB V CONTEXT FREE GRAMMAR DAN PUSH DOWN AUTOMATA TUJUAN PRAKTIKUM 1. Memahami CFG dan PDA 2. Memahami Context Free Grammar 3. Memahami Push Down Automata

Lebih terperinci

2.5 Context-Free Grammar (CFG) LALR Parser Bab 3 Metodologi Penelitian Studi Literatur Desain Sistem P

2.5 Context-Free Grammar (CFG) LALR Parser Bab 3 Metodologi Penelitian Studi Literatur Desain Sistem P Daftar Isi Lembar Pengesahan Pembimbing... i Lembar Pengesahan Penguji... ii Abstrak... iii Abstract... iv Pernyataan Keaslian Tulisan... v Publikasi Selama Masa Studi... vi Kontribusi Yang Diberikan Oleh

Lebih terperinci

PEMBANGUNAN SISTEM CONTENT-BASED IMAGE RETRIEVAL MENGGUNAKAN KODE FRAKTAL DARI DOKUMEN CITRA TESIS ARIF RAHMAN NIM :

PEMBANGUNAN SISTEM CONTENT-BASED IMAGE RETRIEVAL MENGGUNAKAN KODE FRAKTAL DARI DOKUMEN CITRA TESIS ARIF RAHMAN NIM : PEMBANGUNAN SISTEM CONTENT-BASED IMAGE RETRIEVAL MENGGUNAKAN KODE FRAKTAL DARI DOKUMEN CITRA TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Bahasa alami adalah bahasa yang biasa digunakan untuk berkomunikasi antarmanusia, misalnya bahasa Indonesia, Sunda, Jawa, Inggris, Jepang, dan sebagainya. Bahasa

Lebih terperinci

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. 1208605026 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER

Lebih terperinci

Universitas Bina Nusantara. Jurusan Teknik Informatika Program Studi Ilmu Komputer Skripsi Sarjana Komputer Semester Ganjil 2007 / 2008

Universitas Bina Nusantara. Jurusan Teknik Informatika Program Studi Ilmu Komputer Skripsi Sarjana Komputer Semester Ganjil 2007 / 2008 Universitas Bina Nusantara Jurusan Teknik Informatika Program Studi Ilmu Komputer Skripsi Sarjana Komputer Semester Ganjil 2007 / 2008 ANALISIS DAN PERANCANGAN APLIKASI PENERJEMAH BAHASA INDONESIA KE DALAM

Lebih terperinci

Outline. IKI 40931: Topik Khusus: NLP Kuliah 7: Parsing CFG. Parsing. Contoh parsing. Ruli Manurung. 10 Maret (Bab Jurafsky & Martin)

Outline. IKI 40931: Topik Khusus: NLP Kuliah 7: Parsing CFG. Parsing. Contoh parsing. Ruli Manurung. 10 Maret (Bab Jurafsky & Martin) Outline IKI 40931: Topik Khusus: NLP Kuliah 7: Parsing CFG (Bab 10.1-10.4 Jurafsky & Martin) Ruli Manurung Fakultas Ilmu Komputer Universitas Indonesia 10 Maret 2008 1 2 3 4 Parsing Contoh parsing CFG

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

UNIVERSITAS BINA NUSANTARA. Program studi Ganda Teknik Informatika-Statistika Skripsi Sarjana Komputer Sarjana Sains Semester ganjil 2005/2006

UNIVERSITAS BINA NUSANTARA. Program studi Ganda Teknik Informatika-Statistika Skripsi Sarjana Komputer Sarjana Sains Semester ganjil 2005/2006 UNIVERSITAS BINA NUSANTARA Program studi Ganda Teknik Informatika-Statistika Skripsi Sarjana Komputer Sarjana Sains Semester ganjil 2005/2006 PENGGUNAAN EXPECTATION MAXIMIZATION ALGORITHM DALAM PROBABILISTIC

Lebih terperinci

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK Nurhalimah Harahap¹, Eddy Muntina Dharma², Andrian Rakhmatsyah³ ¹Teknik Informatika,, Universitas Telkom

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Salah satu cabang dari ilmu komputer yang mulai populer adalah Artificial Intelligence atau kecerdasan buatan. Kecerdasan buatan merupakan sub-bidang dari

Lebih terperinci

BAB II SINTAKS 2.1. SINTAKS

BAB II SINTAKS 2.1. SINTAKS BAB II SINTAKS 2.1. SINTAKS merupakan kumpulan aturan yang mendefinisikan suatu bentuk bahasa. mendefinisikan bagaimana suatu kalimat dibentuk sebagai barisan/urutan dari pemilihan suatu kata dasar. Kata

Lebih terperinci

PENGUBAHAN SINGKATAN PADA PESAN SINGKAT TELEPON SELULER DENGAN MEMANFAATKAN POHON KEPUTUSAN C4.5

PENGUBAHAN SINGKATAN PADA PESAN SINGKAT TELEPON SELULER DENGAN MEMANFAATKAN POHON KEPUTUSAN C4.5 PENGUBAHAN SINGKATAN PADA PESAN SINGKAT TELEPON SELULER DENGAN MEMANFAATKAN POHON KEPUTUSAN C4.5 LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh: Rian Hadisaputra / 13503026 PROGRAM

Lebih terperinci

Teori Bahasa Formal dan Automata

Teori Bahasa Formal dan Automata Teori Bahasa Formal dan Automata Pertemuan 9 Semester Genap T.A. 2017/2018 Rahman Indra Kesuma, S.Kom., M.Cs. T. Informatika - ITERA POKOK BAHASAN Grammar Grammar secara Formal Context Free Grammar Terminologi

Lebih terperinci

UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan

Lebih terperinci

Bab 1 Pendahuluan 1.1 Latar Belakang

Bab 1 Pendahuluan 1.1 Latar Belakang Bab 1 Pendahuluan 1.1 Latar Belakang Bahasa merupakan salah satu aspek penting dalam kehidupan manusia karena bahasa adalah alat untuk berkomunikasi dengan manusia lain. Bahasa dapat disajikan dalam bentuk

Lebih terperinci

PENGEMBANGAN PROTOTIPE APLIKASI KONVERSI KODE DARI BAHASA C KE PASCAL

PENGEMBANGAN PROTOTIPE APLIKASI KONVERSI KODE DARI BAHASA C KE PASCAL PENGEMBANGAN PROTOTIPE APLIKASI KONVERSI KODE DARI BAHASA C KE PASCAL LAPORAN TUGAS AKHIR Disusun Sebagai Syarat Kelulusan Tingkat Sarjana oleh : Ipam Fuaddina Adam / 13502079 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur

Lebih terperinci

ABSTRAK. Kata Kunci : Algoritma Genetika, Pemrosesan Bahasa Alami, Twiter, Tweet, Semantic Relatedness. Universitas Kristen Maranatha

ABSTRAK. Kata Kunci : Algoritma Genetika, Pemrosesan Bahasa Alami, Twiter, Tweet, Semantic Relatedness. Universitas Kristen Maranatha ABSTRAK Dengan munculnya berbagai media sosial, banyak orang yang menuliskan bermacam-macam hal, salah satunya memberikan menuliskan motivasi. Dengan demikian, dibuatlah penelitian untuk membuat sebuah

Lebih terperinci

PENCARIAN MELODI PADA FILE MIDI

PENCARIAN MELODI PADA FILE MIDI PENCARIAN MELODI PADA FILE MIDI TESIS Karya Tulis Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Magister dari Institut Teknologi Bandung Oleh Eddo Fajar N 23505029 Program Studi Magister Informatika

Lebih terperinci

Pemodelan CNF Parser dengan Memanfaatkan Pohon Biner

Pemodelan CNF Parser dengan Memanfaatkan Pohon Biner Pemodelan CNF Parser dengan Memanfaatkan Pohon Biner Jansen 13510611 Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2013 PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL I Wayan Hendra Maha Putra¹, Imelda Atastina², Alfian Akbar Gozali³ ¹Teknik

Lebih terperinci

Deteksi Otomatis Plagiarisme Source Code

Deteksi Otomatis Plagiarisme Source Code Deteksi Otomatis Plagiarisme Source Code LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : CYNTHIA KUSTANTO / NIM. 13503066 PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TEKNIK ELEKTRO

Lebih terperinci

INVERSI SEISMIK MODEL BASED DAN BANDLIMITED UNTUK PENDEKATAN NILAI IMPEDANSI AKUSTIK TESIS

INVERSI SEISMIK MODEL BASED DAN BANDLIMITED UNTUK PENDEKATAN NILAI IMPEDANSI AKUSTIK TESIS INVERSI SEISMIK MODEL BASED DAN BANDLIMITED UNTUK PENDEKATAN NILAI IMPEDANSI AKUSTIK TESIS Karya tulis sebagai salah satu syarat memperoleh gelar Magister dari Departemen Fisika Institut Teknologi Bandung

Lebih terperinci

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL Adhitya Teguh Nugraha Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura ituteguh@gmail.com

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Bahasa menurut kamus Websters adalah the body of words and methods of

BAB II TINJAUAN PUSTAKA. Bahasa menurut kamus Websters adalah the body of words and methods of BAB II TINJAUAN PUSTAKA 2.1 Bahasa Alami dan Bahasa Formal Bahasa menurut kamus Websters adalah the body of words and methods of combining words used and understood by a considerable community, sedangkan

Lebih terperinci

PERANCANGAN APLIKASI PERINGKAS KALIMAT DENGAN MENGGUNAKAN METODE NOISY CHANNEL MODEL

PERANCANGAN APLIKASI PERINGKAS KALIMAT DENGAN MENGGUNAKAN METODE NOISY CHANNEL MODEL PERANCANGAN APLIKASI PERINGKAS KALIMAT DENGAN MENGGUNAKAN METODE NOISY CHAEL MODEL Helmy Thendean, Hartono Mochtar Program Studi Teknik Informatika Universitas Tarumanagara Jl. Let. Jend. S. Parman No.

Lebih terperinci

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Krisantus Sembiring / 13503121 PROGRAM STUDI

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen

Lebih terperinci

1. PENDAHULUAN 1.1 Latar belakang Masalah

1. PENDAHULUAN 1.1 Latar belakang Masalah 1. PENDAHULUAN 1.1 Latar belakang Masalah Bahasa Indonesia adalah alat yang mampu menjembatani penduduk Indonesia yang terdiri dari berbagai suku dan bahasa untuk dapat berkomunikasi satu sama lainnya.

Lebih terperinci

Teori Komputasi 11/23/2016. Bab 6: Context-Free Grammar & Parsing. Context-Free Grammar. Context-Free Grammar

Teori Komputasi 11/23/2016. Bab 6: Context-Free Grammar & Parsing. Context-Free Grammar. Context-Free Grammar Teori Komputasi Bab 6: Context-Free Grammar & Parsing Agenda. Context-Free Grammar Fakultas Teknologi dan Desain Program Studi Teknik Informatika Contex-Free Grammar & Parsing 2 Context-Free Grammar Bentuk

Lebih terperinci

TEORI BAHASA DAN AUTOMATA

TEORI BAHASA DAN AUTOMATA MODUL I TEORI BAHASA DAN AUTOMATA Tujuan : Mahasiswa memahami pengertian dan kedudukan Teori Bahasa dan Otomata (TBO) pada ilmu komputer Definisi dan Pengertian Teori Bahasa dan Otomata Teori bahasa dan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Bahasa merupakan salah satu komponen yang paling penting dalam kehidupan manusia. Dalam bentuk tulisan, bahasa menyimpan pengetahuan dari satu generasi ke generasi

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN

PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Aloysius Nugroho W / 13501042 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

Teori Bahasa Formal dan Automata

Teori Bahasa Formal dan Automata Teori Bahasa Formal dan Automata Pertemuan 12 Semester Genap T.A. 2017/2018 Rahman Indra Kesuma, S.Kom., M.Cs. T. Informatika - ITERA POKOK BAHASAN Penghilangan ε-production Penghilangan Unit Production

Lebih terperinci

UNIVERSITAS GUNADARMA

UNIVERSITAS GUNADARMA UNIVERSITAS GUNADARMA SK No. 92 / Dikti / Kep /1996 Fakultas Ilmu Komputer, Teknologi Industri, Ekonomi,Teknik Sipil & Perencanaan, Psikologi, Sastra Program Diploma (D3) Manajemen Informatika, Teknik

Lebih terperinci

SINTAKS. Sintaks dari bahasa pemrograman di defenisikan dengan 2 kumpulan aturan, yaitu:

SINTAKS. Sintaks dari bahasa pemrograman di defenisikan dengan 2 kumpulan aturan, yaitu: SINTAKS Bahasa mesin adalah bentuk terendah komputer. Kita dapat berhubungan langsung dengan bagian-bagian yang ada di dalam komputer seperti bits, register. Bahasa mesin terdiri dari bit-bit 0 dan 1.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Pemrosesan Bahasa Alami (Natural Language Processing) Pemrosesan bahasa alami (Natual Language Processing - NLP) merupakan salah satu bidang ilmu Kecerdasan Buatan (Artificial

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Bahasa merupakan alat komunikasi lingual manusia baik secara lisan maupun tulisan. Dalam membuat suatu karya ilmiah, penggunaan Bahasa Indonesia harus sesuai

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 1.1 Tinjauan studi Penelitian yang sudah ada sebelumnya, yaitu : 1. Nur Afifah (2010), Pembuatan Kamus Elektronik Kalimat Bahasa Indonesia dan Bahasa Jawa untuk Aplikasi Mobile

Lebih terperinci

Analisis Sintaksis (syntactic analyzer atau parser)

Analisis Sintaksis (syntactic analyzer atau parser) Analisis Sintaksis (syntactic analyzer atau parser) pohon (tree) suatu graph terhubung yang tidak sirkuler, memiliki satu buah simpul (atau vertex / node) yaitu akar (root) dan dari akar ini memiliki lintasan

Lebih terperinci

IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan)

IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan) IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan) (Bab 8.5-8.8 Jurafsky & Martin) Ruli Manurung Fakultas Ilmu Komputer Universitas Indonesia 25 Februari 2008 Outline Stochastic POS Tagging

Lebih terperinci

Penentuan Pola Kalimat Bahasa Inggris Pada Simple Present Tense Menggunakan Metode Bottom Up Parsing

Penentuan Pola Kalimat Bahasa Inggris Pada Simple Present Tense Menggunakan Metode Bottom Up Parsing Meilani, Penentuan Pola Kalimat Bahasa Inggris Pada Simple Present Tense. 9 Penentuan Pola Kalimat Bahasa Inggris Pada Simple Present Tense Menggunakan Metode Bottom Up Parsing Budanis Dwi Meilani 1, Muhamad

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi Volume Bulan20.. ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi Volume Bulan20.. ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi Volume Bulan20.. ISSN : 2089-9033 Analisis Perbandingan Algoritma LCP (Left-Corner-Parsing) Dan Algoritma CYK (Cocke-Younger-Kasami) Untuk Memeriksa

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Natural Language Processing (NLP) adalah area penelitian dan pengaplikasan yang mengekplorasi bagaimana caranya sebuah komputer dapat digunakan dan memanipulasi berupa

Lebih terperinci

METODE MENENTUKAN PRIORITAS DALAM ANALYTIC HIERARCHY PROCESS MENGGUNAKAN DEKOMPOSISI NILAI SINGULAR PROYEK

METODE MENENTUKAN PRIORITAS DALAM ANALYTIC HIERARCHY PROCESS MENGGUNAKAN DEKOMPOSISI NILAI SINGULAR PROYEK METODE MENENTUKAN PRIORITAS DALAM ANALYTIC HIERARCHY PROCESS MENGGUNAKAN DEKOMPOSISI NILAI SINGULAR PROYEK Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing Jurnal Telematika, vol.8 no.1, Institut Teknologi Harapan Bangsa, Bandung, Indonesia Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB Harry Hartanto #1, The Houw Liong

Lebih terperinci

SINTAKS. Sintaks dari bahasa pemrograman di defenisikan dengan 2 kumpulan aturan, yaitu:

SINTAKS. Sintaks dari bahasa pemrograman di defenisikan dengan 2 kumpulan aturan, yaitu: SINTAKS Bahasa mesin adalah bentuk terendah komputer. Kita dapat berhubungan langsung dengan bagian-bagian yang ada di dalam komputer seperti bits, register. Bahasa mesin terdiri dari bit-bit 0 dan 1.

Lebih terperinci

MODEL PENJADWALAN BATCH PADA JOB SHOP DENGAN KELOMPOK MESIN HETEROGEN UNTUK MEMINIMASI TOTAL WAKTU TINGGAL AKTUAL

MODEL PENJADWALAN BATCH PADA JOB SHOP DENGAN KELOMPOK MESIN HETEROGEN UNTUK MEMINIMASI TOTAL WAKTU TINGGAL AKTUAL MODEL PENJADWALAN BATCH PADA JOB SHOP DENGAN KELOMPOK MESIN HETEROGEN UNTUK MEMINIMASI TOTAL WAKTU TINGGAL AKTUAL Draft Tesis Karya tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari

Lebih terperinci

INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE) TITIN PRAMIYATI K.

INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE) TITIN PRAMIYATI K. INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE) TITIN PRAMIYATI K. SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

SKRIPSI RANTI RAMADHIANA

SKRIPSI RANTI RAMADHIANA EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

KAJIAN POTENSI PENGEMBANGAN EARNED VALUE MANAGEMENT SYSTEM (EVMS) PADA SISTEM AKUNTANSI BIAYA KONTRAKTOR KECIL TESIS

KAJIAN POTENSI PENGEMBANGAN EARNED VALUE MANAGEMENT SYSTEM (EVMS) PADA SISTEM AKUNTANSI BIAYA KONTRAKTOR KECIL TESIS KAJIAN POTENSI PENGEMBANGAN EARNED VALUE MANAGEMENT SYSTEM (EVMS) PADA SISTEM AKUNTANSI BIAYA KONTRAKTOR KECIL TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut

Lebih terperinci

Sistem Pakar Diagnosis dan Terapi Penyakit Umum dengan Induct/MCRDR

Sistem Pakar Diagnosis dan Terapi Penyakit Umum dengan Induct/MCRDR Sistem Pakar Diagnosis dan Terapi Penyakit Umum dengan Induct/MCRDR LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Ray Aditya Iswara / 13504045 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

PERANGKAT LUNAK PENDUKUNG ESTIMASI BIAYA PRODUKSI DENGAN METODE K-MEANS DAN MULTIPLE LINEAR REGRESSION PADA SISTEM PRODUKSI JOB ORDER TESIS

PERANGKAT LUNAK PENDUKUNG ESTIMASI BIAYA PRODUKSI DENGAN METODE K-MEANS DAN MULTIPLE LINEAR REGRESSION PADA SISTEM PRODUKSI JOB ORDER TESIS PERANGKAT LUNAK PENDUKUNG ESTIMASI BIAYA PRODUKSI DENGAN METODE K-MEANS DAN MULTIPLE LINEAR REGRESSION PADA SISTEM PRODUKSI JOB ORDER Studi Kasus pada Industri Kecil Menengah (IKM) Manufaktur TESIS Karya

Lebih terperinci

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Paramita / 13504040 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

ANALISIS DAN PERANCANGAN APLIKASI HELP DESK BERBASIS INTRANET DENGAN PENERAPAN METODE NATURAL LANGUAGE PROCESSING PADA PT GLOBAL INFORMASI BERMUTU

ANALISIS DAN PERANCANGAN APLIKASI HELP DESK BERBASIS INTRANET DENGAN PENERAPAN METODE NATURAL LANGUAGE PROCESSING PADA PT GLOBAL INFORMASI BERMUTU ANALISIS DAN PERANCANGAN APLIKASI HELP DESK BERBASIS INTRANET DENGAN PENERAPAN METODE NATURAL LANGUAGE PROCESSING PADA PT GLOBAL INFORMASI BERMUTU SKRIPSI Oleh Lia 0900787940 Hirenny Ika Surianty 0900792360

Lebih terperinci

Natural Language Processing

Natural Language Processing Disiplin ilmu NPL Natural Language Processing By: Uro Abdulrohim, S.Kom, MT Fonetik / fonologi Morfologi Sintaksis Semantik Pragmatik Discource knowledge World knowledge 1 3 Apa itu NLP Proses pembuatan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian

Lebih terperinci

BAB III CFG DAN PARSING

BAB III CFG DAN PARSING BAB 3 CFG DAN PARSING 32 BAB III CFG DAN PARSING TUJUAN PRAKTIKUM 1) Memahami dan mengerti CFG. 2) Memahami dan mengerti metode parsing. TEORI PENUNJANG 3.1. Pendahuluan Bentuk umum produksi CFG adalah

Lebih terperinci

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari. BAB I PENDAHULUAN 1.1. Latar Belakang Pertumbuhan ekonomi Jawa Timur yang sangat pesat membuat lahan industri semakin berkurang. Salah satu incaran pemerintah provinsi Jawa Timur untuk pengembangan industri

Lebih terperinci

: Peringkasan Terpandu Otomatis (Automatic Guided Summarization)

: Peringkasan Terpandu Otomatis (Automatic Guided Summarization) I. Identitas Calon Promotor Nama Lengkap Fakultas/Sekolah Kelompok Keahlian Telp/Fax/E mail : Ir. Dwi Hendratmo Widyantoro, M.Sc., Ph.D. : STEI : Informatika : (022)2502260/dwi@stei.itb.ac.id II. Deskripsi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selama pengamatan dalam dekade terakhir terhadap hasil Penerjemahan Mesin (Machine Translation) ternyata masih terdapat masalah dari segi kualitas translasinya. Kualitas

Lebih terperinci

Grammar dan Tingkat Bahasa

Grammar dan Tingkat Bahasa CSG3D3 Teori Komputasi Grammar dan Tingkat Bahasa Agung Toto Wibowo Ahmad Suryan Yanti Rusmawati Mahmud Dwi Sulistiyo Kurniawan Nur Ramadhani Said Al Faraby Dede Rohidin KK Intelligence, Computing, and

Lebih terperinci

Penyederhanaan Tata Bahasa Bebas Konteks dalam Bentuk Normal Chomsky Menggunakan PHP

Penyederhanaan Tata Bahasa Bebas Konteks dalam Bentuk Normal Chomsky Menggunakan PHP Penyederhanaan Tata Bahasa Bebas Konteks dalam Bentuk Normal Chomsky Menggunakan PHP 1 Rico Andrian, 2 Wamiliana dan 3 Ismail Indra Pratama 1 Jurusan Ilmu Komputer FMIPA Unila 3 Jurusan Ilmu Komputer FMIPA

Lebih terperinci

Teknik Kompiler 6. oleh: antonius rachmat c, s.kom

Teknik Kompiler 6. oleh: antonius rachmat c, s.kom Teknik Kompiler 6 oleh: antonius rachmat c, s.kom Analisis Sintaks (Parser) Analisis Sintaks bergantung pada bahasa pemrograman masing-masing. Karena masing-masing bahasa pemrograman memiliki bentuk sintaks

Lebih terperinci

ITERATIVE LEARNING CONTROL UNTUK PLANT NONLINEAR DENGAN FASE NONMINIMUM TESIS. IBNU HADI NIM : Program Studi Matematika

ITERATIVE LEARNING CONTROL UNTUK PLANT NONLINEAR DENGAN FASE NONMINIMUM TESIS. IBNU HADI NIM : Program Studi Matematika ITERATIVE LEARNING CONTROL UNTUK PLANT NONLINEAR DENGAN FASE NONMINIMUM TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh IBNU HADI NIM :

Lebih terperinci

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

SKRIPSI. Triastuti Chandrawati

SKRIPSI. Triastuti Chandrawati Pengembangan Part of Speech Tagger untuk Bahasa Indonesia Berdasarkan Metode Conditional Random Fields dan Transformation Based Learning SKRIPSI Triastuti Chandrawati 1204000866 UNIVERSITAS INDONESIA FAKULTAS

Lebih terperinci

LANGUAGES AND TRANSLATOR

LANGUAGES AND TRANSLATOR Algoritma dan Pemrograman 1C Konsep Bahasa Pemrograman LANGUAGES AND TRANSLATOR Disusun kembali oleh : Henny Medyawati, Universitas Gunadarma Sumber: Pittman, Thomas dan James Petters, 1992 The Art of

Lebih terperinci

SATUAN ACARA PERKULIAHAN STMIK UBUDIYAH INDONESIA SEMESTER GENAP TAHUN AKADEMIK 2013/2014

SATUAN ACARA PERKULIAHAN STMIK UBUDIYAH INDONESIA SEMESTER GENAP TAHUN AKADEMIK 2013/2014 SATUAN ACARA PERKULIAHAN STMIK UBUDIYAH INDONESIA SEMESTER GENAP TAHUN AKADEMIK 2013/2014 MATA KULIAH FAKULTAS JURUSAN / JENJANG : TEKNIK KOMPILASI : Fakultas Ilmu Komputer : Teknik Informatika PROSES

Lebih terperinci

KAMUS BAHASA DAERAH DENGAN AUTOMATIC LANGUAGE DETECTION MENGGUNAKAN ALGORITMA LEFT CORNER PARSING

KAMUS BAHASA DAERAH DENGAN AUTOMATIC LANGUAGE DETECTION MENGGUNAKAN ALGORITMA LEFT CORNER PARSING KAMUS BAHASA DAERAH DENGAN AUTOMATIC LANGUAGE DETECTION MENGGUNAKAN ALGORITMA LEFT CORNER PARSING TUGAS AKHIR Persyaratan Guna Meraih Gelar Sarjana Strata I Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

ABSTRAK. Kata kunci : Principal Component Analysis, Linear Discriminant Analysis, Pengenalan wajah

ABSTRAK. Kata kunci : Principal Component Analysis, Linear Discriminant Analysis, Pengenalan wajah ABSTRAK Seiring dengan perkembangan teknologi elektronika dan komputer, kemajuan dibidang pemrograman juga mengalami peningkatan kerumitan dan fungsi. Salah satu bidang yang sekarang ini sudah mulai dikembangkan

Lebih terperinci

INSTITUT TEKNOLOGI BANDUNG

INSTITUT TEKNOLOGI BANDUNG PENGEMBANGAN PEMODELAN 3D PRODUK BERBASIS FEATURE BERDASARKAN ALGORITMA FEATURE PENGURANGAN TUGAS SARJANA Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik Oleh Faizal Wahyu Prabowo

Lebih terperinci

STABILITAS PORTAL BIDANG

STABILITAS PORTAL BIDANG STABILITAS PORTAL BIDANG TESIS Karya Tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh : FRANSISCA MARIA FARIDA NIM : 25004045 Program Studi Teknik Struktur

Lebih terperinci

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,

Lebih terperinci

ALTERNATIF MODEL PEMAMPATAN MATRIKS JARANG DENGAN MENGGUNAKAN ALGORITMA GENETIK

ALTERNATIF MODEL PEMAMPATAN MATRIKS JARANG DENGAN MENGGUNAKAN ALGORITMA GENETIK ALTERNATIF MODEL PEMAMPATAN MATRIKS JARANG DENGAN MENGGUNAKAN ALGORITMA GENETIK Nico Saputro dan Ruth Beatrix Yordan Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Katolik

Lebih terperinci

Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz

Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz Rizal Panji Islami (23514016) Program MagisterInformatika Sekolah Teknik Elektro dan Informatika

Lebih terperinci

BAB VI METODE PARSING

BAB VI METODE PARSING Bab VI Metode Parsing 35 BAB VI METODE PARSING TUJUAN PRAKTIKUM 1. Memahami Metode Parsing 2. Memahami Parsing Top - Down 3. Memahami Parsing Bottom - Up 4. Mengerti Tentang Operasi - Operasi yang dilakukan

Lebih terperinci

Penerapan Algoritma Brute Force pada permainan Countdown Number

Penerapan Algoritma Brute Force pada permainan Countdown Number Penerapan Algoritma Brute Force pada permainan Countdown Number Farhan Amin (13515043) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10

Lebih terperinci

LAPORAN TUGAS AKHIR PERANCANGAN INTELIGENT AGENT CHATBOT DENGAN MENGUNAKAN METODE FUZZY STRING MATCHING

LAPORAN TUGAS AKHIR PERANCANGAN INTELIGENT AGENT CHATBOT DENGAN MENGUNAKAN METODE FUZZY STRING MATCHING LAPORAN TUGAS AKHIR PERANCANGAN INTELIGENT AGENT CHATBOT DENGAN MENGUNAKAN METODE FUZZY STRING MATCHING Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan program studi Teknik Informatika-S1

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

PEMBANGUNAN SISTEM INFORMASI EVALUASI PEMBELAJARAN MENGAJAR SMK NEGERI 1 SUKOHARJO TUGAS AKHIR

PEMBANGUNAN SISTEM INFORMASI EVALUASI PEMBELAJARAN MENGAJAR SMK NEGERI 1 SUKOHARJO TUGAS AKHIR PEMBANGUNAN SISTEM INFORMASI EVALUASI PEMBELAJARAN MENGAJAR SMK NEGERI 1 SUKOHARJO TUGAS AKHIR Diajukan Untuk Memenuhi Salah Satu Syarat Mencapai Gelar Ahli Madya Program Studi Diploma III Teknik Informatika

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

ABSTRACT. Keyword: Algorithm, Depth First Search, Breadth First Search, backtracking, Maze, Rat Race, Web Peta. Universitas Kristen Maranatha

ABSTRACT. Keyword: Algorithm, Depth First Search, Breadth First Search, backtracking, Maze, Rat Race, Web Peta. Universitas Kristen Maranatha ABSTRACT In a Rat Race game, there is only one way in and one way out. The objective of this game is to find the shortest way to reach the finish. We use a rat character in this game, so the rat must walk

Lebih terperinci

PEMANFAATAN ARDUINO DALAM PENGEMBANGAN SISTEM RUMAH PINTAR BERBASIS MOBILE DAN WEB (Studi Kasus : Penjadwalan Lampu Rumah)

PEMANFAATAN ARDUINO DALAM PENGEMBANGAN SISTEM RUMAH PINTAR BERBASIS MOBILE DAN WEB (Studi Kasus : Penjadwalan Lampu Rumah) PEMANFAATAN ARDUINO DALAM PENGEMBANGAN SISTEM RUMAH PINTAR BERBASIS MOBILE DAN WEB (Studi Kasus : Penjadwalan Lampu Rumah) TUGAS AKHIR Disusun sebagai salah satu syarat untuk kelulusan Program Strata 1,

Lebih terperinci

PENERJEMAHAN DOKUMEN INGGRIS-INDONESIA MENGGUNAKAN MESIN PENERJEMAH STATISTIK DENGAN WORD REORDERING DAN PHRASE REORDERING

PENERJEMAHAN DOKUMEN INGGRIS-INDONESIA MENGGUNAKAN MESIN PENERJEMAH STATISTIK DENGAN WORD REORDERING DAN PHRASE REORDERING PENERJEMAHAN DOKUMEN INGGRIS-INDONESIA MENGGUNAKAN MESIN PENERJEMAH STATISTIK DENGAN WORD REORDERING DAN PHRASE REORDERING Hansel Tanuwijaya Hisar Maruli Manurung Fakultas Ilmu Komputer, Universitas Indonesia,

Lebih terperinci