BAB I PENDAHULUAN. I.1 Latar Belakang

dokumen-dokumen yang mirip
TINJAUAN PUSTAKA. II.1 Model-model Pola Tata Bahasa

PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA

PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)

PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

V.1 Tujuan Pengujian. V.2 Perancangan Pengujian

BAB I PENDAHULUAN. 1.1 Latar Belakang

1. PENDAHULUAN 1.1 Latar belakang Masalah

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. yang dikenal sebagai antarmuka pengguna grafis atau Graphical User Interface. yakni ucapan, untuk meningkatkan kemudahannya.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1 Universitas Kristen Maranatha

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Ilmu yang mempelajari tentang cara-cara pengamanan data dikenal dengan

2.5 Context-Free Grammar (CFG) LALR Parser Bab 3 Metodologi Penelitian Studi Literatur Desain Sistem P

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

BAB 1 PENDAHULUAN. pengguna Internet harus tetap up-to-date dengan dokumen terbaru. Karena jumlah

PENYUSUNAN KORPUS BERITA TERBUKA BERBAHASA INDONESIA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Pengantar 1.2 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. yang mahal karena dapat menggunakan teknologi yang bersifat open source.

BAB I PENDAHULUAN. Seorang muslim harus bisa membaca ayat-ayat Al-Quran dengan baik

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. mengkonversikan tulisan / teks ke dalam bentuk ucapan dengan menggunakan

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

PENGEMBANGAN PROTOTIPE APLIKASI KONVERSI KODE DARI BAHASA C KE PASCAL

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Tujuan Penelitian

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

BAB I PENDAHULUAN. gabah, dan yang sudah dibuang kulit luarnya disebut beras. Dalam praktek di

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I BAB 1. PENDAHULUAN

BAB 1 PENDAHULUAN. diinginkan. Dengan banyaknya penjual ikan secara konvensional untung yang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA

BAB I PENDAHULUAN. digunakan untuk mengamankan data ada bermacam-macam. Setiap metode

FORMAT TUGAS AKHIR. A. Format Umum Tugas Akhir

BAB I PENDAHULUAN 1.1 Latar Belakang

SYARAT DAN JENIS KARYA ILMIAH

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

TEORI BAHASA DAN AUTOMATA

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Berpikir & Menulis Ilmiah

FTIK / PRODI TEKNIK INFORMATIKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

Natural Language Processing

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB IV ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK

BAB I PENDAHULUAN. 1.1 Pendahuluan

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

Compiler & Interpreter

BAB I PENDAHULUAN. untuk memasukkan, menyimpan, memanggil kembali, mengolah, menganalisa,

Laporan Ilmiah Kedokteran

BAB I PENDAHULUAN. 1.1 Latar Belakang

Bab 1 Pendahuluan 1.1 Latar Belakang

BAB I PENDAHULUAN. perusahaan besar sekali pun, namun dengan cepatnya perkembangan juga

UNIVERSITAS BINA NUSANTARA. Program studi Ganda Teknik Informatika-Statistika Skripsi Sarjana Komputer Sarjana Sains Semester ganjil 2005/2006

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. yang telah digunakan secara luas oleh orang orang di dunia saat ini adalah

PERATURAN REKTOR UNIVERSITAS BRAWIJAYA NOMOR 67 TAHUN 2016 TENTANG

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

Bab I PENDAHULUAN. I.1 Latar Belakang

BAB III METODOLOGI PENELITIAN. ini. Pada dasarnya penelitian ini terpisah antara pengembangan MBROLA

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. dimana manusia semakin ketergantungan dengan teknologi. Ketergantungan manusia dengan

Bab 1 Konsep Karya Ilmiah [

BAB I PENDAHULUAN. I.1 Latar Belakang I-1

Cover Daftar isi Latar belakang Rumusan masalah Batasan masalah Tujuan Uml (Unified modelling language) Use case diagram Class diagram Activity

Pengertian Tulisan Ilmiah

BAB 1 PENDAHULUAN. kehandalannya. Komputer terus dikembangkan. Komputer dituntut memiliki kecepatan

BAB III ANALISIS DAN PERANCANGAN

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. I.1 Latar Belakang

Grafik yang menampilkan informasi mengenai penyebaran nilai intensitas pixel-pixel pada sebuah citra digital.

Transkripsi:

BAB I PENDAHULUAN I.1 Latar Belakang Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan komputer menggunakan bahasa manusia. Untuk memahami makna bahasa manusia dengan benar maka komputer perlu mengetahui tata bahasa manusia. Perangkat untuk memahami pola tata bahasa alami inilah yang disebut pengurai (parser). Pengurai akan membentuk pohon pola tata bahasa sehingga dapat disimpulkan dimana inti dari sebuah kalimat berbahasa manusia. Selama ini penelitian yang banyak dilakukan menggunakan bahasa Inggris. Oleh karena itu di dalam tesis ini akan dibuat sebuah sistem yang melakukan proses penguraian kalimat untuk bahasa Indonesia dengan pendekatan probabilistik (probabilistic parsing). Pemrosesan yang dilakukan pada tesis ini secara garis besar adalah melakukan pemrosesan awal (preprocessing) untuk menyesuaikan masukan dari sebuah pengurai (parser) hasil disertasi milik Michael Collins [12]. Pengurai Collins merupakan pengurai yang memiliki lisensi GNU (open source). Pengurai Collins dianggap sebagai pengurai berbasis statistik yang cukup cepat pemrosesannya dan pada setiap level pohon memiliki kepala kata. Pengurai Collins dibuat untuk bahasa Inggris. Oleh karena itu diperlukan adanya pemrosesan awal untuk menghasilkan beberapa file masukan dengan format file masukan pengurai Collins dengan bahasa Indonesia. Selain itu pekerjaan menyesuaikan beberapa bagian pada pengurai Collins juga perlu dilakukan pada tesis ini agar benar-benar dapat digunakan untuk bahasa Indonesia. I-1

Sebelumnya telah dilakukan beberapa penelitian mengenai topik tesis ini untuk bahasa Czech yang dibuat oleh Michael Collins, Jan Hajic dan beberapa rekannya [13]. Pembentukan pola tata bahasa untuk bahasa Inggris menggunakan metode probabilistik telah dibahas pada buku karangan Daniel Jurafsky dan James H. Martin terbitan tahun 2000 [17]. Pada buku tersebut penguraian dengan metode probabilistik (probabilistic parsing) digunakan untuk memilih pohon-pohon pola tata bahasa terbaik yang dibangkitkan dari teks masukan berisi kumpulan kalimat dalam bahasa Inggris. Pembangkitan pohon pola tata bahasa juga digunakan untuk membangkitkan pola tata bahasa Melayu Malaysia sebagai jenis bahasa yang serumpun dengan bahasa Indonesia [3]. Pada Penelitian tersebut pola tata bahasa telah didefinisikan dan pendefinisian fungsi nilai digunakan untuk memilih pohon yang terbaik dari pohon-pohon pola tata bahasa yang mungkin. Sebelumnya telah ada penelitian mengenai pengurai dengan metode probabilistik yang dilakukan oleh Ria Hari Gusmita dan Ruli Manurung [14]. Dalam penelitian tersebut digunakan sebuah perangkat PC-PATR. Sampai saat ini belum ada paper atau penelitian yang dipublikasikan secara resmi (telah mengikuti seminar paper) mengenai pengurai dengan metode statistik untuk bahasa Indonesia menggunakan pengurai Collins. Penelitian-penelitian yang mendukung pemrosesan dalam tesis ini juga telah dilakukan oleh Jelita Asian dengan tesisnya mengenai pemrosesan temu balik informasi bahasa Indonesia [2]. Representasi pohon pola tata bahasa dengan menggunakan probabilistic context-free grammar (PCFG) juga telah dibahas pada paper Mark Johnson [16]. Dari tesis ini, nantinya di masa depan dapat menjadi bagian dari sebuah sistem pemrosesan bahasa alami untuk bahasa Indonesia. Pekerjaan yang harus dilakukan selanjutnya setelah tesis ini adalah membuat komponen fungsi-fungsi lain yang belum diimplementasikan dan mendukung sebuah sistem pemrosesan bahasa alami untuk bahasa Indonesia. Sehingga bangsa ini nantinya akan memiliki sebuah mesin pemrosesan bahasa alami untuk bahasa Indonesia. I-2

I.2 Rumusan Masalah Rumusan masalah dalam tesis ini adalah sebagai berikut: 1. Bagaimana melakukan penyesuaian kumpulan file masukan dari pengurai Collins dengan bahasa Indonesia, 2. Bagaimana melakukan penentuan jenis kata (POS tagging) untuk bahasa Indonesia guna mendukung pemrosesan awal. 3. Bagaimana kinerja pengurai Collins setelah menerima masukan kumpulan file hasil pemrosesan awal (apakah sudah cukup mampu merepresentasikan pola tata bahasa Indonesia). I.3 Tujuan Tujuan dari tesis ini adalah sebagai berikut: 1. Mengimplementasikan pemrosesan awal kumpulan file masukan dari pengurai Collins menggunakan contoh-contoh teks yang berisi kumpulan kalimat berbahasa Indonesia; modul pemrosesan awal pengurai Collins akan diimplementasikan dalam sebuah program, 2. Mengimplementasikan POS tagging untuk bahasa Indonesia guna mendukung pemrosesan awal. 3. Melakukan evaluasi kinerja model pola tata bahasa yang dihasilkan; hasil model pola tata bahasa akan dievalusi kinerjanya, apakah sudah sesuai dengan pola tata bahasa Indonesia baku. I.4 Ruang Lingkup Pekerjaan yang dilakukan dalam tesis ini yang akan dilaksanakan oleh penulis adalah: 1. Mengimplementasikan pemrosesan awal (preprocessing) dan penentuang jenis kata (POS tagging) untuk mempersiapkan kumpulan file masukan dari pengurai Collins dari file teks yang berisi kumpulan kalimat berbahasa Indonesia, 2. Melakukan pengujian terhadap pengurai Collins guna mengetahui kinerja pengurai Collins untuk bahasa Indonesia. I-3

I.5 Batasan Masalah Batasan-batasan pada tesis ini adalah: 1. Proses-proses yang dilakukan untuk pemrosesan awal (preprocessing) dan penentuan jenis kata (POS tagging) menggunakan jenis kalimat berbahasa Indonesia tanpa melibatkan ahli bahasa, 2. Tidak semua aturan grammar (tata bahasa) bahasa Indonesia dipakai dalam tesis ini. 3. Permasalahan ambiguitas penguraian kalimat tidak diujikan pada tesis ini. I.6 Metode Penelitian Tesis yang dilakukan adalah berupa penelitian dan membuat pemrosesan awal pengurai Collins untuk bahasa Indonesia. Metode yang dipergunakan dalam Tesis ini adalah sebagai berikut: 1. Studi literatur yang berkaitan dengan: a. Penguraian dengan metode probabilistik (probabilistic parsing), digunakan untuk pembangkitan pohon-pohon pola tata bahasa, kemudian memilih yang terbaik dari pohon-pohon yang dibangkitkan untuk setiap kalimat. Setiap kalimat dapat menghasilkan lebih dari satu pohon pola tata bahasa (struktur kalimat) pada setiap proses pembangkitan, b. Tata penulisan bahasa Indonesia yang terkait dengan penguraian probabilistik untuk bahasa Indonesia, seperti kaidah makna imbuhan dan kata dasar agar diketahui jenis kata yang digunakan untuk membentuk model pola tata bahasa, c. Penelitian-penelitian terkait pemrosesan temu balik informasi bahasa Indonesia dan tesis ini, misalnya mengenai pemrosesan awal bagaimana sebuah kalimat dapat dibangkitkan pohon pola tata bahasanya dengan menggunakan pengurai Collins (meliputi proses penguraian kalimat sesuai kaidah bahasa Indonesia, proses penguraian kalimat I-4

menjadi kumpulan kata, proses penentuan jenis kata, dan proses pembentukan pohon atau model pola tata bahasa), 2. Analisis masalah, menganalisa proses-proses apa saja beserta cara kerjanya yang dibutuhkan untuk penguraian kalimat, 3. Implementasi metode dan algoritma untuk memodelkan pola tata bahasa Indonesia dari contoh-contoh teks yang berisi kumpulan kalimat berbahasa Indonesia, 4. Pengujian hasil implementasi metode dan algoritma untuk memodelkan pola tata bahasa Indonesia dengan menggunakan beberapa contoh teks yang terdiri dari kumpulan kalimat berbahasa Indonesia, 5. Evaluasi dan penarikan kesimpulan, evaluasi kinerja pengurai Collins untuk bahasa Indonesia dan penarikan kesimpulan sebagai hasil dari penelitian yang dilakukan dalam tesis ini. I.7 Sistematika Pembahasan Laporan tesis ini berisi beberapa bab yang terdiri dari Pendahuluan, Tinjauan Pustaka, Penyesuaian Pengurai Collins untuk Bahasa Indonesia, Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia, Pengujian, dan Penutup. Penjelasan untuk tiap bab tersebut adalah sebagai berikut: 1. Bab Pendahuluan berisi penjelasan mengenai latar belakang ide judul, rumusan masalah, tujuan, ruang lingkup, batasan masalah, metodologi, dan sistematika pembahasan. Bab ini bertujuan untuk memudahkan pemanfaatan laporan tesis ini. 2. Bab Tinjauan Pustaka berisi bahasan penelitian-penelitian yang pernah dilakukan oleh orang lain sebelumnya dan berkaitan dengan topik tesis ini. 3. Bab Penyesuaian Pengurai Collins untuk Bahasa Indonesia berisi analisis sistem pemrosesan awal (preprocessing) untuk menyesuaikan kumpulan file masukan pada pengurai Collins. Bab ini bertujuan untuk mempermudah memahami proses apa saja yang akan diimplementasikan. 4. Bab Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia berisi analisis proses penentuan jenis kata (part of speech tagging) pada I-5

bahasa Indonesia yang mendukung sistem pemrosesan awal (preprocessing) pada tesis ini. 5. Bab Pengujian berisi implementasi pengujian beserta hasil dan analisis hasil pengujian perangkat lunak. 6. Bab Penutup berisi kesimpulan hasil tesis ini dan saran untuk kedepannya yang terkait tesis ini. I-6