TESIS KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER IDA BAGUS GEDE WIDNYANA PUTRA NIM 1491761007 PROGRAM MAGISTER PROGRAM STUDI TEKNIK ELEKTRO PROGRAM PASCASARJANA UNIVERSITAS UDAYANA DENPASAR 2016
KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER Tesis untuk Memperoleh Gelar Magister pada Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana IDA BAGUS GEDE WIDNYANA PUTRA NIM 1491761007 PROGRAM MAGISTER PROGRAM STUDI TEKNIK ELEKTRO PROGRAM PASCASARJANA UNIVERSITAS UDAYANA DENPASAR 2016 ii
iii
Tesis Ini Telah Diuji Pada Tanggal 15 Juli 2016 Panitia Penguji Tesis Berdasarkan SK Rektor Universitas Udayana, Nomor : 3241/UN14.4/HK/2016, Tanggal 14 Juli 2016 Ketua : Dr. Ir. Made Sudarma, M.A.Sc Anggota : 1. I Nyoman Satya Kumara, ST., M.Sc, PhD 2. Prof. Ir. Rukmi Sari Hartati, MT., PhD 3. NMAE Dewi Wirastuti, ST., MSc., PhD 4. Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD iv
SURAT PERNYATAAN BEBAS PLAGIAT Nama : Ida Bagus Gede Widnyana Putra NIM : 1491761007 Program Studi : Magister Teknik Elektro Judul : KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DANNAIVE BAYES CLASSIFIER Dengan ini menyatakan bahwa karya tulis ilmiah Tesis ini bebas plagiat. Apabila dikemudian hari terbukti terdapat plagiat dalam karya ilmiah ini, maka saya bersedia menerima sanksi sesuai peraturan Mendiknas RI No. 17 Tahun 2010 dan Peraturan Perundang-undangan yang berlaku. Denpasar, 15 Juli 2015 Yang Membuat Pernyataan Ida Bagus Gede Widnyana Putra v
UCAPAN TERIMAKASIH Puji dan syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa atas asung kerta waranugraha-nya, penulis dapat menyelesaikan tesis yang berjudul KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER. Dalam menyelesaikan tesis ini, penulis mendapatkan banyak bantuan, bimbingan dan dorongan dari berbagai pihak. Maka dari itu pada kesempatan ini penulis ingin mengucapkan terimakasih kepada : Bapak Gubernur Bali dan Kepala BKD Provinsi Bali atas beasiswa dan kesempatan yang diberikan untuk melanjutkan pendidikan di Program Pasca Sarjana Universitas Udayana serta Bapak Kalaksa BPBD Provinsi Bali dan Kepala UPT. Pusdalops PB BPBD Provinsi Bali selaku pimpinan tempat penulis bekerja atas ijin yang diberikan untuk mengikuti pendidikan di Program Magister Teknik Elektro, program studi Manajemen Sistem Informasi dan Komputer, Pascasarjana Universitas Udayana. Prof. Dr. dr. Ketut Suastika SpPD KEMD selaku Rektor Universitas Udayana dan Prof. Dr. dr. A.A. Raka Sudewi, Sp.S(K) selaku Direktur Program Pascasarjana Universitas Udayana atas kesempatan dan fasilitas yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan pada Program Magister di UniversitasUdayana. Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD selaku Ketua Program Magister Program Studi Teknik Elektro Pascasarjana Universitas Udayana dan dosen penguji tesis atas kesempatan dan masukan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan pada Program Magister Teknik Elektro Universitas Udayana. Dr.Ir. Made Sudarma, M.A.Sc selaku dosen pembimbing I dan I Nyoman Satya Kumara, ST.,MSc.,PhD selaku dosen pembimbing II atas bimbingan, arahan, saran, dan dukungan selama penyusunan tesis ini serta para dosen penguji Prof. Ir. Rukmi Sari Hartati, MT., PhD, NMAE Dewi Wirastuti, ST., MSc., PhD,Wayan vi
Gede Ariastina, ST.,MengSc.,PhD, yang telah memberikan saran, sanggahan dan koreksi sehingga tesis ini menjadi lebih baik serta seluruh dosen Program Magister Teknik Elektro Universitas Udayana atas ilmu yang telah diberikan. Orang tua terbaik Drs. Ida Bagus Antara dan Ida Ayu Gde Suwardani, S.Pd serta istri tercinta Anak Agung Diah Pratiwi, S.Pd. yang tiada hentinya berdoa, memberi semangat dan dukungan yang sangat besar sehingga penulis bisa menyelesaikan pendidikan tepat waktu. Teman-teman Magister Teknik Elektro program studi Manajemen Sistem Informasi dan Komputer Angkatan 2014 atas kerjasama dan dukungannya serta semua pihak yang telah membantu dalam penyusunan laporan tesis ini yang tidak dapat disebutkan satu per satu. Penulis menyadari bahwa penulisan tesis yang telah dibuat masih jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran yang membangun dari pembaca dan mohon maaf apabila ada kesalahan dalam penulisan dan penyusunan tesis ini. Penulis vii
ABSTRAK KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA BALIDENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER Ketersediaan dokumen teks bahasa Bali yang meningkat jumlahnya membuat proses pencarian informasi pada dokumen teks berbahasa Bali menjadi semakin sulit. Mengklasifikasikanya secara manual menjadi tidak efisien mengingat peningkatan jumlah dokumen yang semakin banyak. Pada penelitian ini dikembangkan sebuah aplikasi yang dapat mengklasifikasikan teks bahasa Bali ke dalam kategori yang ditentukan. Aplikasi ini menggunakan metode klasifikasi Naive Bayes Classifier (NBC) dan metode Information Gain (IG) untuk seleksi fitur. Aplikasi ini diuji dengan teknik cross validation. Hasilnya adalah nilai ratarata akurasi dari 10 fold cross validation sebesar 95,22%. Keywords : information gain, naive bayes classifier, text mining, cross validation viii
ABSTRACT KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA BALIDENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER Increasing availability of Balinese language text documents making the process of finding or classifying information in Balinese text documents is becoming increasingly difficult. Manual classification is inefficient in view of the increase in the number of Balinese written documents. On this paper, application that can classify Balinese text into various document class is presented. The application is developed using Naive Bayes classifier (NBC) method and feature selection using Information Gain (IG) technique. Application is tested using cross validation method. The resultsshows that average accuracy of 10 fold cross validation is 95.22%. Keywords : information gain, naive bayes classifier, text mining, cross validation ix
DAFTAR ISI HALAMAN JUDUL... i PERSYARATAN GELAR... ii LEMBAR PERSETUJUAN... iii PENETAPAN PANITIA PENGUJI... iv SURAT PERNYATAAN BEBAS PLAGIAT... v UCAPAN TERIMA KASIH... vi ABSTRAK... viii ABSTRACT... ix DAFTAR ISI... x DAFTAR TABEL... xii DAFTAR GAMBAR... xiii DAFTAR ISTILAH DAN SINGKATAN... xiv I PENDAHULUAN... 1 1.1 LatarBelakang... 1 1.2 RumusanMasalah... 5 1.3 TujuanPenelitian... 6 1.4 ManfaatPenelitian... 6 1.5 RuangLingkupPenelitian... 6 1.6 KeaslianPenelitian... 7 II KAJIAN PUSTAKA... 10 2.1 State Of The Art Review... 10 2.2 Klasifikasi Dokumen... 13 2.3 Morfologi Bahasa Bali... 15 2.4 Text Mining... 18 2.5 Information Retrieval... 20 x
2.6 Natural Langguage Processing... 24 2.7 Naive Bayes Classifier... 28 2.8 Term Weighting... 30 2.9 Information Gain... 32 2.10 Cross Validation... 32 III METODELOGI PENELITIAN... 35 3.1 GambaranUmumSistem... 35 3.2 RancanganAlurPenelitian... 36 3.3 AlatdanBahanPenelitian... 45 3.4 JadwalPenelitian... 45 IV HASIL DAN PEMBAHASAN... 47 4.1 Antar MukaSistem... 47 4.2 Tahap Preprocessing... 48 4.3 Tahap Seleksi Fitur... 54 4.4 Tahap Pelatihan... 57 4.5 Tahap Klasifikasi... 61 4.6 Hasil Validasi dan Evaluasi dengan K-Fold Cross Validation... 63 4.7 Waktu Proses Sistem... 64 V KESIMPULAN DAN SARAN... 66 5.1 Kesimpulan... 66 5.2 Saran... 67 DAFTAR PUSTAKA... 68 xi
DAFTAR TABEL Tabel 2.1 Pemetaan Keaslian Penelitian... 12 Tabel 2.2 Kemungkinan Hasil Test IR... 23 Tabel 3.1 Ilustrasi Eksperimen 10 Fold Validation... 44 Tabel 3.2 JadwalPenelitian... 46 Tabel4.1 Tahapan Proses Stemming... 53 Tabel4.2 Hasil Seleksi Fitur... 55 Tabel4.3 Hasil Perbandingan Klasifikasi dengan TFIDF dan IG... 57 Tabel4.4 Hasil Percobaan Untuk Menentukan Jumlah Fitur... 58 Tabel4.5 Hasil Tahap Pelatihan... 59 Tabel4.6 Hasil 10 Fold Cross Validation... 63 Tabel4.7 Lama Waktu Proses Setiap Tahap... 65 xii
DAFTAR GAMBAR Gambar 1.1 DiagramFishbonePenelitian... 9 Gambar 2.1 High-level text mining functional architecture... 20 Gambar 2.2 Arsitektur Dasar Sistem IR... 21 Gambar 2.3 Flowchart 10 Fold Cross Validation... 34 Gambar3.1 Gambaran Umum Sistem... 35 Gambar3.2 Alur Penelitian... 36 Gambar3.3 Alur Proses Processing... 38 Gambar 3.4 Alur Proses Pelatihan dengan Algoritma NBC... 41 Gambar 3.5 Alur Proses Klasifikasi dengan Algoritma NBC... 42 Gambar 3.6 Penggunaan Rumus pada Tahap Pelatihan dan Klasifikasi... 42 Gambar 3.7 Alur Proses 10 Fold Cross Validation... 44 Gambar4.1 Antar Muka Sistem... 47 Gambar4.2 Dokumen Asli... 48 Gambar4.3 Hasil Transform Case... 49 Gambar4.4 Hasil Tokenization... 50 Gambar4.5 Hasil Filter Token (by Length)... 51 Gambar4.6 Hasil Filter Stopwords... 52 Gambar4.7 Form Input Seleksi Fitur... 54 Gambar4.8 Hasil Seleksi Fitur... 55 Gambar4.9 Grafik Hasil Perbandingan Klasifikasi dengan TFIDF dan IG... 57 Gambar4.10 Form Input Tahap Pelatihan... 58 Gambar4.11 Grafik Perbandingan Berdasarkan Jumlah Fitur... 59 Gambar4.12 Form Input Tahap Klasifikasi... 61 Gambar4.13 Hasil Tahap Klasifikasi... 62 Gambar4.14 Hasil Tidak Terklasifikasi... 62 Gambar4.15 Grafik Tingkat Precision, Recal dan Akurasi pada setiap fold... 64 xiii
DAFTAR ISTILAH DAN SINGKATAN CV : Cross Validation IDF : Inverse Document Frequency IG : Information Gain IR : Information Retrieval NBC : Naive Bayes Classifier NLP : Natural Language Processing TF : Term Frequency xiv