BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

Bab 1 Pendahuluan 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

Bab 1 Pendahuluan 1.1 Pengantar

2.5 Context-Free Grammar (CFG) LALR Parser Bab 3 Metodologi Penelitian Studi Literatur Desain Sistem P

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

Bab 1 Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

Search Engines. Information Retrieval in Practice

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

BAB I PENDAHULUAN I - 1

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. 1.1 Latar Belakang. Pada era globalisasi seperti saat ini, setiap negara di dunia telah terhubung

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. gabah, dan yang sudah dibuang kulit luarnya disebut beras. Dalam praktek di

1. Pendahuluan. 1.1 Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

BAB I PENDAHULUAN. Information retrieval (IR) adalah ilmu yang mempelajari pencarian

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar belakang

Natural Language Processing

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB II LANDASAN TEORI

SISTEM TEMU BALIK INFORMASI

BAB III METODOLOGI PENELITIAN. Metode pengumpulan data yang digunakan pada penelitian ini berupa studi

Pengenalan Microsoft Word

Analisis Sintaksis (syntactic analyzer atau parser)

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. I.1 Latar Belakang

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

BAB I PENDAHULUAN. karya tulis. Berbagai aplikasi seperti Ms. Word, Notepad, maupun Open Office

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

Text Pre-Processing. M. Ali Fauzi

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Gambar 1.1 Proses Text Mining [7]

BAB I PENDAHULUAN 1.1 Latar Belakang

PETUNJUK PENULISAN NASKAH BERKALA ILMIAH SIGNIFIKAN

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN. informasi yang disampaikan dapat lebih cepat dan efektif. Pada tempat observasi penelitian, penyampaian informasi melalui layanan

BAB II LANDASAN TEORI

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

BAB 1 PENDAHULUAN. atau kaidah tertentu berdasarkan hasil berpikir ilmiah. Proses berfikir ilmiah terdiri

BAB 1 PENDAHULUAN 1-1

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. internet yang kini menjadi peranan penting. Kebutuhan user yang semakin

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

BAB I PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

RANCANG BANGUN PENCARIAN JUDUL TESIS BERBASIS TEKNOLOGI WEB SEMANTIK

1. Pendahuluan Latar Belakang

BAB 1 PENDAHULUAN. menyelesaikan pekerjaannya dalam bidang komputerisasi. Teknologi yang semakin

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SEKOLAH TINGGI MANAJEMEN INFORMATIKA & KOMPUTER JAKARTA STI&K SATUAN ACARA PERKULIAHAN

BAB I PENDAHULUAN. Kemajuan teknologi internet dan e-business belakangan ini telah

Preprocessing Text Mining Pada Box Berbahasa Indonesia

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

BAB I PERSYARATAN PRODUK

KAMUS BAHASA DAERAH DENGAN AUTOMATIC LANGUAGE DETECTION MENGGUNAKAN ALGORITMA LEFT CORNER PARSING

1 BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. Universitas Kristen Maranatha

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur L2 (Ethnologue, 2014). L2 atau bahasa kedua adalah bahasa yang bukan merupakan bahasa ibu, tetapi dipakai secara luas di daerah tempat seseorang tinggal. Rujukan tata bahasa baku bahasa Indonesia yang resmi dibuat oleh Kementerian Pendidikan dan Kebudayaan adalah buku Tata Bahasa Baku Bahasa Indonesia, Pedoman Umum Ejaan yang Disempurnakan, dan Kamus Besar Bahasa Indonesia. Selain itu, terdapat juga beberapa rujukan tata bahasa baku yang dibuat oleh ahli bahasa lainnya, seperti buku Tata Bahasa Rujukan Bahasa Indonesia yang ditulis oleh Keraf (1991), dan buku Tata Bahasa Praktis Bahasa Indonesia yang ditulis oleh Chaer (2011). Berdasarkan ketentuan UU Nomor 24 tahun 2009, pengaturan bahasa kebangsaan bertujuan untuk, antara lain, memperkuat persatuan dan kesatuan bangsa dan negara Republik Indonesia dan menciptakan standardisasi untuk penggunaan bahasa kebangsaan (Pasal 3). Bahasa Indonesia wajib digunakan dalam penulisan karya ilmiah dan publikasi karya ilmiah di Indonesia (Pasal 35) dan penyebaran informasi melalui media massa (Pasal 39). Namun, kesalahan dalam berbahasa Indonesia masih sering ditemukan, baik di media cetak komersil (Amsir, 2012), maupun di makalah penelitian (Zahara, 2013). Teknologi telah digunakan untuk membantu pengguna dalam pekerjaan yang berkaitan dengan bahasa alami, seperti spelling and grammar checker yang bisa ditemukan di program pengolah kata untuk membantu menghindari 1

2 kesalahan pengejaan dan tata bahasa, serta CAT Tools (Computer-Aided Translation Tools), yang digunakan untuk membantu proses penerjemahan. Penelitian mengenai Pemrosesan Bahasa Alami (Natural Language Processing) untuk Bahasa Indonesia telah dilakukan setidaknya sejak tahun 1995, yaitu pengembangan prototipe aplikasi penganalisis tata bahasa Indonesia menggunakan parser LL dan LR (Sari, 1995). Parser LL merupakan top-down parser yang menggunakan strategi Lefmost derivation (karakter non-terminal yang paling kiri ditulis ulang terlebih dulu). Parser LR merupakan bottom-up parser yang menggunakan strategi Righmost derivation (karakter non-terminal yang paling kanan ditulis ulang terlebih dulu). Contoh aplikasi NLP yang telah dikembangkan untuk Bahasa Indonesia adalah Cross-Language IR, Document Summarization, Question Answering, Geographic Information Retrieval, dan Information Extraction. Dalam penelitian yang dilakukan Asian (2007), menurut Frakes, salah satu teknik NLP untuk sistem temu balik informasi yang efisien dan efektif adalah stemming, yaitu teknik untuk mencari akar kata dari suatu kata berimbuhan. Contoh penggunaannya adalah pengguna dapat mencari dokumen yang berisi kata dasar yang sama dengan kata yang dimasukkan ke dalam query. Contohnya, kata menari berasal dari kata dasar tari. Dengan teknik ini, pengguna juga dapat mencari dokumen yang berisi kata tarian atau menari, yang juga berasal dari kata dasar tari. Informasi ini selanjutnya dapat digunakan untuk keperluan lain, seperti pencarian search engine. Algoritma stemming juga dapat digunakan untuk menganalisis jenis imbuhan dan kelas kata (Maryani, 2011). Terdapat beberapa algoritma stemming yang telah dikembangkan untuk Bahasa Indonesia, antara lain algoritma Nazief dan Adriani (Nazief dan Adriani, 1996), algoritma Arifin dan Setiono (Arifin dan Setiono, 2002), algoritma Vega (Vega, 2001), algoritma Ahmad, Yusoff, dan Sembok (Ahmad et al., 1996), dan algoritma Idris (Idris, 2001). Dari kelima algoritma tersebut, hanya algoritma Vega yang tidak

3 menggunakan kamus. Menurut Asian (2007), algoritma Nazief dan Adriani memiliki tingkat keakuratan tertinggi dibandingkan empat algoritma lain di atas, yaitu 92,8%, tetapi keakuratan ini juga bergantung pada kamus kata dasar yang digunakan. Penggunaan NLP untuk analisis tata bahasa Inggris telah banyak digunakan secara komersial, contohnya pada aplikasi Grammarly, Ginger, dan pada aplikasi Microsoft Word yang memiliki penguji tata bahasa terintegrasi. Untuk bahasa Indonesia, aplikasi sejenis yang cukup banyak beredar hanya berupa penguji ejaan (spell checker). Penganalisis struktur kalimat bahasa Indonesia telah dikembangkan pada tahun 1999 dengan metode Linguistic String Analysis (Salvitri, 1999), tetapi sistem ini belum mampu menganalisis kalimat majemuk setara. Penganalisis ini berbasis kamus kelas kata tanpa menggunakan stemmer, sehingga untuk memproses kata-kata berimbuhan, kata-kata tersebut harus dimasukkan ke dalam kamus kelas kata terlebih dulu. Penelitian serupa juga dilakukan oleh Yusuf (2011). Sistem yang dikembangkannya dapat memproses kalimat-kalimat yang lebih kompleks dibandingkan sistem yang dikembangkan sebelumnya, tetapi belum mendukung pendeteksian ambiguitas kelas kata dan pendeteksian imbuhan. 1.2 Rumusan Masalah Penelitian ini dilakukan untuk memperbaiki kekurangan-kekurangan yang masih terdapat dalam sistem-sistem yang telah dikembangkan terlebih dulu. Masalah-masalah yang akan dibahas dalam penelitian ini adalah: 1. Bagaimana cara mengembangkan sistem penganalisis kalimat bebas konteks berbasis aturan sesuai tata bahasa baku bahasa Indonesia yang mampu mendeteksi ambiguitas kelas kata (hanya secara sintaksis), memproses kalimat kompleks (majemuk bertingkat dan majemuk setara), serta mengintegrasikan teknik stemming dalam pendeteksian kelas kata?

2. Berapa tingkat keakuratan sistem yang dikembangkan dalam menganalisis kalimat dari media daring dan abstrak penelitian? 4 1.3 Batasan Masalah Masalah-masalah yang terdapat dalam tata bahasa Indonesia sangatlah luas untuk dibahas dalam satu penelitian. Oleh karena itu, masalah yang dibahas pada penelitian ini akan dibatasi pada hal-hal berikut: 1. Analisis yang dilakukan oleh sistem dibatasi pada struktur kalimat, tanpa memperhatikan pemilihan diksi, konteks kalimat, dan kebenaran dari kalimat tersebut. 2. Analisis yang dilakukan hanya pada kalimat dengan struktur non-inversi (Subjek mendahului Predikat). 3. Beberapa aspek tata bahasa, yaitu singkatan, tanda baca selain tanda titik, tanda koma, tanda seru, dan tanda tanya, penggunaan huruf kapital, serta keterangan aposisi tidak didukung dan tidak disertakan dalam pengujian. 4. Fungsi Named-Entity Recognition tidak didukung, sehingga nama tempat, instansi, orang, dan lain-lain harus dimasukkan secara manual ke dalam kamus. 5. Analisis hanya dilakukan pada kalimat deklaratif (kalimat berita) saja. 1.4 Tujuan Tujuan dari penelitian ini adalah: 1. Mengaplikasikan sistem sebagai alat penganalisis kalimat yang dapat digunakan untuk mendeteksi kesalahan tata bahasa dalam kalimat. 2. Mengukur keefektifan sistem penganalisis tata bahasa ini dalam mendeteksi kesalahan dalam kalimat.

5 1.5 Manfaat Untuk ke depannya, penelitian ini diharapkan untuk dapat digunakan sebagai: 1. Dasar pengembangan untuk sistem penganalisis tata bahasa Indonesia; 2. Sistem penganalisis tata bahasa Indonesia yang dapat digunakan untuk proses penulisan dan penyuntingan; dan 3. Pembanding sistem penganalisis tata bahasa dengan metode yang lain. 1.6 Metodologi Penelitian Penelitian ini dibagi dalam beberapa tahapan langkah yang sistematis. Tahapan-tahapan tersebut adalah: 1. Studi Literatur Pada tahap ini, algoritma NLP, seperti stemmer, tokenizer, dan sistemsistem NLP terdahulu yang berkaitan dengan penelitian ini dipelajari. Selain itu, aturan-aturan tata bahasa baku bahasa Indonesia juga dipelajari sebagai dasar aturan-aturan yang akan digunakan untuk pengembangan sistem. Sumber yang digunakan untuk studi literatur diambil dari buku, jurnal, skripsi, dan internet. 2. Perancangan Struktur Pada tahap ini, metode-metode dan aturan-aturan yang telah dipelajari digunakan sebagai dasar untuk perancangan sistem. Struktur sistem akan dirancang sedemikian rupa agar komponen-komponen yang digunakan, yaitu kamus, parser, stemmer, pendeteksi ambiguitas kelas kata, serta aturan tata bahasa dapat diintegrasikan dalam sistem penganalisis tata bahasa ini. 3. Implementasi Sistem Pada tahap ini, rancangan yang telah dibuat diimplementasikan dalam bentuk engine dasar serta antar muka web. Selain itu, sistem juga akan dihost di internet sehingga dapat diakses secara daring.

6 4. Pengujian Sistem Pada tahap ini, sistem yang telah dibuat akan diuji untuk menguji keakuratan sistem dalam menganalisis kalimat dalam data uji. Data uji yang diambil berupa data teks dari jurnal ilmiah serta berita populer daring. Data pengujian akan dikategorikan menjadi kalimat yang tepat dan kalimat yang mengandung kesalahan. Kesalahan-kesalahan yang terdapat dalam kalimat juga akan dianalisis terlebih dulu oleh proofreader, sehingga ketepatan sistem dalam menganalisis kesalahan dalam kalimat dapat diukur. Parameter yang digunakan dalam pengujian adalah kesalahan (false positive dan false negative) dan ketepatan sistem (true positive dan true negative) dalam menganalisis kalimat. Pengujian akan dilakukan dengan menggunakan stemmer dan tanpa menggunakan stemmer, untuk mengetahui dampak yang ditimbulkan dari teknik tersebut. Karena beberapa keterbatasan dalam kamus kelas kata yang digunakan, parameter yang dibandingkan hanya konsumsi memori dan waktu analisis sistem. 5. Penulisan Laporan Pada tahap ini, hasil pengujian yang telah dilakukan akan dituangkan dalam bentuk laporan. Tahap ini meliputi penyusunan laporan, analisis hasil, serta pengambilan kesimpulan. 1.7 Sistematika Penulisan BAB I PENDAHULUAN Bagian ini berisi tentang latar belakang penelitian ini, rumusan dan batasan masalah, manfaat, tujuan, serta metodologi penelitian dari penelitian ini. BAB II TINJAUAN PUSTAKA Bagian ini berisi tentang penelitian-penelitian mengenai NLP dan penganalisis kalimat yang pernah dilakukan sebelumnya, serta beberapa acuan yang digunakan dalam penelitian ini.

7 BAB III LANDASAN TEORI Bagian ini berisi tentang penjabaran teori serta aturan yang digunakan dari pustaka yang telah dipelajari. Teori mencakup algoritma dan metode NLP, serta beberapa pengetahuan mengenai tata bahasa baku bahasa Indonesia. BAB IV ANALISIS DAN PERANCANGAN SISTEM Bagian ini berisi tentang analisis aturan tata bahasa, algoritma NLP yang digunakan, serta data teks yang digunakan. Selain itu, rancangan aplikasi yang akan diimplementasikan juga disertakan dalam bagian ini. BAB V IMPLEMENTASI Bagian ini berisi tentang implementasi rancangan sistem penganalisis tata bahasa dalam bentuk kode python dan html. BAB VI HASIL PENELITIAN Bagian ini berisi tentang hasil dari penelitian yang telah dilakukan, yang mencakup keakuratan dan kinerja sistem dalam menganalisis kalimat BAB VII PENUTUP Bagian ini berisi tentang kesimpulan dan hasil penelitian, serta saran untuk penelitian selanjutnya untuk pengembangan NLP untuk bahasa Indonesia secara umum, serta sistem penganalisis kalimat bahasa Indonesia secara khusus.