BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur L2 (Ethnologue, 2014). L2 atau bahasa kedua adalah bahasa yang bukan merupakan bahasa ibu, tetapi dipakai secara luas di daerah tempat seseorang tinggal. Rujukan tata bahasa baku bahasa Indonesia yang resmi dibuat oleh Kementerian Pendidikan dan Kebudayaan adalah buku Tata Bahasa Baku Bahasa Indonesia, Pedoman Umum Ejaan yang Disempurnakan, dan Kamus Besar Bahasa Indonesia. Selain itu, terdapat juga beberapa rujukan tata bahasa baku yang dibuat oleh ahli bahasa lainnya, seperti buku Tata Bahasa Rujukan Bahasa Indonesia yang ditulis oleh Keraf (1991), dan buku Tata Bahasa Praktis Bahasa Indonesia yang ditulis oleh Chaer (2011). Berdasarkan ketentuan UU Nomor 24 tahun 2009, pengaturan bahasa kebangsaan bertujuan untuk, antara lain, memperkuat persatuan dan kesatuan bangsa dan negara Republik Indonesia dan menciptakan standardisasi untuk penggunaan bahasa kebangsaan (Pasal 3). Bahasa Indonesia wajib digunakan dalam penulisan karya ilmiah dan publikasi karya ilmiah di Indonesia (Pasal 35) dan penyebaran informasi melalui media massa (Pasal 39). Namun, kesalahan dalam berbahasa Indonesia masih sering ditemukan, baik di media cetak komersil (Amsir, 2012), maupun di makalah penelitian (Zahara, 2013). Teknologi telah digunakan untuk membantu pengguna dalam pekerjaan yang berkaitan dengan bahasa alami, seperti spelling and grammar checker yang bisa ditemukan di program pengolah kata untuk membantu menghindari 1
2 kesalahan pengejaan dan tata bahasa, serta CAT Tools (Computer-Aided Translation Tools), yang digunakan untuk membantu proses penerjemahan. Penelitian mengenai Pemrosesan Bahasa Alami (Natural Language Processing) untuk Bahasa Indonesia telah dilakukan setidaknya sejak tahun 1995, yaitu pengembangan prototipe aplikasi penganalisis tata bahasa Indonesia menggunakan parser LL dan LR (Sari, 1995). Parser LL merupakan top-down parser yang menggunakan strategi Lefmost derivation (karakter non-terminal yang paling kiri ditulis ulang terlebih dulu). Parser LR merupakan bottom-up parser yang menggunakan strategi Righmost derivation (karakter non-terminal yang paling kanan ditulis ulang terlebih dulu). Contoh aplikasi NLP yang telah dikembangkan untuk Bahasa Indonesia adalah Cross-Language IR, Document Summarization, Question Answering, Geographic Information Retrieval, dan Information Extraction. Dalam penelitian yang dilakukan Asian (2007), menurut Frakes, salah satu teknik NLP untuk sistem temu balik informasi yang efisien dan efektif adalah stemming, yaitu teknik untuk mencari akar kata dari suatu kata berimbuhan. Contoh penggunaannya adalah pengguna dapat mencari dokumen yang berisi kata dasar yang sama dengan kata yang dimasukkan ke dalam query. Contohnya, kata menari berasal dari kata dasar tari. Dengan teknik ini, pengguna juga dapat mencari dokumen yang berisi kata tarian atau menari, yang juga berasal dari kata dasar tari. Informasi ini selanjutnya dapat digunakan untuk keperluan lain, seperti pencarian search engine. Algoritma stemming juga dapat digunakan untuk menganalisis jenis imbuhan dan kelas kata (Maryani, 2011). Terdapat beberapa algoritma stemming yang telah dikembangkan untuk Bahasa Indonesia, antara lain algoritma Nazief dan Adriani (Nazief dan Adriani, 1996), algoritma Arifin dan Setiono (Arifin dan Setiono, 2002), algoritma Vega (Vega, 2001), algoritma Ahmad, Yusoff, dan Sembok (Ahmad et al., 1996), dan algoritma Idris (Idris, 2001). Dari kelima algoritma tersebut, hanya algoritma Vega yang tidak
3 menggunakan kamus. Menurut Asian (2007), algoritma Nazief dan Adriani memiliki tingkat keakuratan tertinggi dibandingkan empat algoritma lain di atas, yaitu 92,8%, tetapi keakuratan ini juga bergantung pada kamus kata dasar yang digunakan. Penggunaan NLP untuk analisis tata bahasa Inggris telah banyak digunakan secara komersial, contohnya pada aplikasi Grammarly, Ginger, dan pada aplikasi Microsoft Word yang memiliki penguji tata bahasa terintegrasi. Untuk bahasa Indonesia, aplikasi sejenis yang cukup banyak beredar hanya berupa penguji ejaan (spell checker). Penganalisis struktur kalimat bahasa Indonesia telah dikembangkan pada tahun 1999 dengan metode Linguistic String Analysis (Salvitri, 1999), tetapi sistem ini belum mampu menganalisis kalimat majemuk setara. Penganalisis ini berbasis kamus kelas kata tanpa menggunakan stemmer, sehingga untuk memproses kata-kata berimbuhan, kata-kata tersebut harus dimasukkan ke dalam kamus kelas kata terlebih dulu. Penelitian serupa juga dilakukan oleh Yusuf (2011). Sistem yang dikembangkannya dapat memproses kalimat-kalimat yang lebih kompleks dibandingkan sistem yang dikembangkan sebelumnya, tetapi belum mendukung pendeteksian ambiguitas kelas kata dan pendeteksian imbuhan. 1.2 Rumusan Masalah Penelitian ini dilakukan untuk memperbaiki kekurangan-kekurangan yang masih terdapat dalam sistem-sistem yang telah dikembangkan terlebih dulu. Masalah-masalah yang akan dibahas dalam penelitian ini adalah: 1. Bagaimana cara mengembangkan sistem penganalisis kalimat bebas konteks berbasis aturan sesuai tata bahasa baku bahasa Indonesia yang mampu mendeteksi ambiguitas kelas kata (hanya secara sintaksis), memproses kalimat kompleks (majemuk bertingkat dan majemuk setara), serta mengintegrasikan teknik stemming dalam pendeteksian kelas kata?
2. Berapa tingkat keakuratan sistem yang dikembangkan dalam menganalisis kalimat dari media daring dan abstrak penelitian? 4 1.3 Batasan Masalah Masalah-masalah yang terdapat dalam tata bahasa Indonesia sangatlah luas untuk dibahas dalam satu penelitian. Oleh karena itu, masalah yang dibahas pada penelitian ini akan dibatasi pada hal-hal berikut: 1. Analisis yang dilakukan oleh sistem dibatasi pada struktur kalimat, tanpa memperhatikan pemilihan diksi, konteks kalimat, dan kebenaran dari kalimat tersebut. 2. Analisis yang dilakukan hanya pada kalimat dengan struktur non-inversi (Subjek mendahului Predikat). 3. Beberapa aspek tata bahasa, yaitu singkatan, tanda baca selain tanda titik, tanda koma, tanda seru, dan tanda tanya, penggunaan huruf kapital, serta keterangan aposisi tidak didukung dan tidak disertakan dalam pengujian. 4. Fungsi Named-Entity Recognition tidak didukung, sehingga nama tempat, instansi, orang, dan lain-lain harus dimasukkan secara manual ke dalam kamus. 5. Analisis hanya dilakukan pada kalimat deklaratif (kalimat berita) saja. 1.4 Tujuan Tujuan dari penelitian ini adalah: 1. Mengaplikasikan sistem sebagai alat penganalisis kalimat yang dapat digunakan untuk mendeteksi kesalahan tata bahasa dalam kalimat. 2. Mengukur keefektifan sistem penganalisis tata bahasa ini dalam mendeteksi kesalahan dalam kalimat.
5 1.5 Manfaat Untuk ke depannya, penelitian ini diharapkan untuk dapat digunakan sebagai: 1. Dasar pengembangan untuk sistem penganalisis tata bahasa Indonesia; 2. Sistem penganalisis tata bahasa Indonesia yang dapat digunakan untuk proses penulisan dan penyuntingan; dan 3. Pembanding sistem penganalisis tata bahasa dengan metode yang lain. 1.6 Metodologi Penelitian Penelitian ini dibagi dalam beberapa tahapan langkah yang sistematis. Tahapan-tahapan tersebut adalah: 1. Studi Literatur Pada tahap ini, algoritma NLP, seperti stemmer, tokenizer, dan sistemsistem NLP terdahulu yang berkaitan dengan penelitian ini dipelajari. Selain itu, aturan-aturan tata bahasa baku bahasa Indonesia juga dipelajari sebagai dasar aturan-aturan yang akan digunakan untuk pengembangan sistem. Sumber yang digunakan untuk studi literatur diambil dari buku, jurnal, skripsi, dan internet. 2. Perancangan Struktur Pada tahap ini, metode-metode dan aturan-aturan yang telah dipelajari digunakan sebagai dasar untuk perancangan sistem. Struktur sistem akan dirancang sedemikian rupa agar komponen-komponen yang digunakan, yaitu kamus, parser, stemmer, pendeteksi ambiguitas kelas kata, serta aturan tata bahasa dapat diintegrasikan dalam sistem penganalisis tata bahasa ini. 3. Implementasi Sistem Pada tahap ini, rancangan yang telah dibuat diimplementasikan dalam bentuk engine dasar serta antar muka web. Selain itu, sistem juga akan dihost di internet sehingga dapat diakses secara daring.
6 4. Pengujian Sistem Pada tahap ini, sistem yang telah dibuat akan diuji untuk menguji keakuratan sistem dalam menganalisis kalimat dalam data uji. Data uji yang diambil berupa data teks dari jurnal ilmiah serta berita populer daring. Data pengujian akan dikategorikan menjadi kalimat yang tepat dan kalimat yang mengandung kesalahan. Kesalahan-kesalahan yang terdapat dalam kalimat juga akan dianalisis terlebih dulu oleh proofreader, sehingga ketepatan sistem dalam menganalisis kesalahan dalam kalimat dapat diukur. Parameter yang digunakan dalam pengujian adalah kesalahan (false positive dan false negative) dan ketepatan sistem (true positive dan true negative) dalam menganalisis kalimat. Pengujian akan dilakukan dengan menggunakan stemmer dan tanpa menggunakan stemmer, untuk mengetahui dampak yang ditimbulkan dari teknik tersebut. Karena beberapa keterbatasan dalam kamus kelas kata yang digunakan, parameter yang dibandingkan hanya konsumsi memori dan waktu analisis sistem. 5. Penulisan Laporan Pada tahap ini, hasil pengujian yang telah dilakukan akan dituangkan dalam bentuk laporan. Tahap ini meliputi penyusunan laporan, analisis hasil, serta pengambilan kesimpulan. 1.7 Sistematika Penulisan BAB I PENDAHULUAN Bagian ini berisi tentang latar belakang penelitian ini, rumusan dan batasan masalah, manfaat, tujuan, serta metodologi penelitian dari penelitian ini. BAB II TINJAUAN PUSTAKA Bagian ini berisi tentang penelitian-penelitian mengenai NLP dan penganalisis kalimat yang pernah dilakukan sebelumnya, serta beberapa acuan yang digunakan dalam penelitian ini.
7 BAB III LANDASAN TEORI Bagian ini berisi tentang penjabaran teori serta aturan yang digunakan dari pustaka yang telah dipelajari. Teori mencakup algoritma dan metode NLP, serta beberapa pengetahuan mengenai tata bahasa baku bahasa Indonesia. BAB IV ANALISIS DAN PERANCANGAN SISTEM Bagian ini berisi tentang analisis aturan tata bahasa, algoritma NLP yang digunakan, serta data teks yang digunakan. Selain itu, rancangan aplikasi yang akan diimplementasikan juga disertakan dalam bagian ini. BAB V IMPLEMENTASI Bagian ini berisi tentang implementasi rancangan sistem penganalisis tata bahasa dalam bentuk kode python dan html. BAB VI HASIL PENELITIAN Bagian ini berisi tentang hasil dari penelitian yang telah dilakukan, yang mencakup keakuratan dan kinerja sistem dalam menganalisis kalimat BAB VII PENUTUP Bagian ini berisi tentang kesimpulan dan hasil penelitian, serta saran untuk penelitian selanjutnya untuk pengembangan NLP untuk bahasa Indonesia secara umum, serta sistem penganalisis kalimat bahasa Indonesia secara khusus.