APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

dokumen-dokumen yang mirip
APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.

BAB 1 PENDAHULUAN. mengkonversikan tulisan / teks ke dalam bentuk ucapan dengan menggunakan

ABSTRAK. Kata Kunci: sistem penerjemah Alkitab, Bilingual Evaluation Understudy, GIZA++, Statistical Machine Translation, dan IBM model.

BAB II TINJAUAN PUSTAKA

3.2.3 Perancangan Flowchart View Perancangan Storyboard Pengumpulan Bahan (Material Collecting)... 47

SISTEM NOTIFIKASI KEMACETAN LALU LINTAS BERBASIS MEDIA SOSIAL DENGAN METODE NLP

SISTEM PARSING PERKATAAN BAHASA INDONESIA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SEGMENTASI BARIS DAN KATA DARI TULISAN TANGAN MENGGUNAKAN METODE HOUGH TRANSFORM PADA APLIKASI GRAFOLOGI

MESIN PENERJEMAH BAHASA INDONESIA- BAHASA JAWA Johan Pranata 1, Muljono 2 1,2 Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

UKDW BAB 1 PENDAHULUAN Latar Belakang

PERBANDINGAN ALGORITMA APRIORI DAN ALGORITMA CT-Pro PADA KOMODITAS EKSPOR DAN IMPOR SKRIPSI ELISA SEMPA ARIHTA KABAN

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

苏北大学两年级的学生习得汉语副词 就 和 才 偏误分析 (yin ni xue sheng xi de han yu fu ci jiu he cai pian wu

ABSTRAK. Kata kunci: diagram kelas, xml, java, kode sumber, sinkronisasi. v Universitas Kristen Maranatha

ABSTRAK. Kata kunci : pemesanan tiket kereta api online, WAP, XHTML, PHP, Macromedia Dreamweaver, Visual Basic 6.0, MYSQL. vii

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665

SKRIPSI RANTI RAMADHIANA

Perancangan dan Analisis Kinerja Jaringan MPLS (Multiprotocol Label Switching) pada Teknologi IPv6 untuk Teleconference

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

SISTEM INFORMASI JUAL BELI MOTOR BEKAS

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

ABSTRAK. Kata Kunci: AHP, DSS, kriteria, supplier

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

APLIKASI IMAGE STABILIZER DENGAN METODE UNSHARP MASK

IMPLEMENTASI ALGORITMA KNUTH-MORRIS-PRATH STRING MATCHING UNTUK MENCARI KATA ATAU ISTILAH PADA KAMUS KOMPUTER BERBASIS ANDROID.

BAB I PENDAHULUAN Latar Belakang

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

DAFTAR ISI PHP... 15

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

ANALISIS DAN PERANCANGAN SISTEM INFORMASI PENJUALAN DAN PERSEDIAAN BARANG PADA PT PRIMA JAYA DIESEL SKRIPSI

Penerapan Logika Samar dalam Peramalan Data Runtun Waktu

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Universitas Kristen Maranatha

BAB I PENDAHULUAN. terbentuk secara tiba-tiba, tetapi setiap chengyu ( 成语 ) terbentuk dari cerita,

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

ABSTRAK. Kata Kunci: penggajian, pembagian Shift, seleksi. Universitas Kristen Maranatha

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

APLIKASI PENENTUAN JENIS PART OF SPEECH MENGGUNAKAN METODE N-GRAM DAN STRING MATCHING

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

ABSTRAK. Kata kunci : sistem pakar, penyakit gigi, konsultasi, algoritma ID3. vi Universitas Kristen Maranatha

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

Abstrak : SMS,absensi,administrasi,pengumuman,SIAS

PENGENALAN KATA MENGGUNAKAN SELF-ORGANIZING MAP SEBAGAI INPUT KAMUS BERBASIS ANDROID FAJAR MATIUS GINTING

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA

ABSTRAK. Kata Kunci : Pendaftaran, Penerimaan PNS, ujian penerimaan PNS, Kalimantan Tengah. viii Universitas Kristen Maranatha

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

苏北大学中文系学生汉语上声习得偏误分析 (sū běi dà xué zhōng wén xì xué shēng hàn yǔ shǎng shēng xí dé piān wù fēn xī) SKRIPSI. Oleh Ivan

BAB 2 LANDASAN TEORI

DAFTAR ISI. Halaman. ABSTRAK...i. KATA PENGANTAR...iii. DAFTAR ISI...v. DAFTAR TABEL...viii. DAFTAR GAMBAR...ix. 1.1 Latar Belakang...

APLIKASI PEMBELAJARAN BAHASA ISYARAT UNTUK TUNA WICARA DENGAN STANDAR AMERICAN SIGN LANGUAGE

APLIKASI SISTEM INFORMASI GUDANG PT. ANTIKA RAYA SKRIPSI OLEH : AGUS RAHMAD SETIAWAN J2A

APLIKASI QRSCANNER DAN QR CODE GENERATOR

Aplikasi Pencatatan dan Pelaporan Akuntansi pada CV BUNDA MEMBANGUN Palembang

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha

ABSTRAK. Kata Kunci: dokumen digitalisasi, manajemen dokumen, sistem informasi. Universitas Kristen Maranatha

KOMBINASI METODE MORPHOLOGICAL GRADIENT DAN TRANSFORMASI WATERSHED PADA PROSES SEGMENTASI CITRA DIGITAL

SISTEM INFORMASI ASURANSI KESEHATAN

Proteksi Kesalahan Berbeda Menggunakan Metode Rate Compatible Punctured Convolutional (RCPC) Codes Untuk Aplikasi Pengiriman Citra ABSTRAK

ABSTRAK. Kata kunci : Android, Mobile, Smartphone, Teknologi, Wisata

ABSTRAK. Kata Kunci : Sistem Informasi, Kepegawaian, Web, PHP, MySQL.

BAB I PENDAHULUAN. Bahasa Mandarin (Han Yu) yang telah menjadi Bahasa International

APLIKASI INPUT METHOD EDITOR (IME) JEPANG BERBASIS WEB

Pengembangan Aplikasi Manajemen Soal Ujian Di Sekolah Tinggi Teknologi Bandung Berbasis Web

BAB I PERSYARATAN PRODUK

WORD PREDICTION MENGGUNAKAN WINDOWS API BERBASIS WORD FREQUENCIES SKRIPSI ADE N TAMBUNAN

APLIKASI PENDATAAN OPERASIONAL PT MITRA LINTANG INDONESIA. Tugas Akhir untuk memenuhi sebagian persyaratan mencapai derajat Diploma III

BAB III METODOLOGI PENELITIAN

Abstraksi. Kata kunci : Symbian, JAVA Mobile, J2ME, Indonesia-Inggris, Kamus. vii

Abstract. Keywords: Artificial Neural Network

BAB 2 TINJAUAN PUSTAKA

BAB II METODE KRIPTOGRAFI SIMETRIK

Kata kunci : citra, pendeteksian warna kulit, YCbCr, look up table

ABSTRAK. Kata Kunci: information retrieval, rekomendasi, wanita, web portal UNIVERSITAS KRISTEN MARANATHA

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

Perancangan Sistem Informasi Akademik pada SMA Negeri 18 Palembang

IMPLEMENTASI ADAPTIVE HYPERMEDIA SYSTEM (AHS) PADA E-LEARNING BELAJAR BAHASA JEPANG UNTUK PEMULA

PENGENALAN POLA GARIS DASAR KALIMAT PADA TULISAN TANGAN UNTUK MENGETAHUI KARAKTER SESEORANG DENGAN MENGGUNAKAN ALGORITMA PROBABILISTIC NEURAL NETWORK

HALAMAN COVER LAPORAN SKRIPSI APLIKASI MANAJEMEN TEMPAT TINGGAL KOS DAN KONTRAKAN BERBASIS ANDROID MUCHAMMAD NIDLOM M. NIM.

ANALISIS KONTRASTIF KALIMAT PASIF DALAM BAHASA MANDARIN DAN BAHASA INGGRIS

SKRIPSI Diajukan sebagai salah satu syarat untuk memperoleh Gelar Sarjana Informatika Jurusan Sistem Komputer. Oleh: Vincentius NIM :

APLIKASI KAMUS ELEKTRONIK BAHASA ISYARAT BAGI TUNARUNGU DALAM BAHASA INDONESIA BERBASIS WEB

Pemotongan Poligon Menggunakan Algoritma Weiler Atherton

PERANCANGAN APLIKASI PENGAMANAN INFORMASI TEKS DENGAN MENGGUNAKAN ALGORITMA KRIPTOGRAFI ALPHA-QWERTY REVERSE

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

DAFTAR ISI. BAB 3 PERANCANGAN PERANGKAT LUNAK 3.1 Diagram Alir Utama Kamera Web iii

Analisis Reliabilitas Jaringan Nirkabel di SMA Negeri 2 Salatiga. Artikel Ilmiah. Oleh: Tri Setyanto Apriyadi NIM :

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB II LANDASAN TEORI

ARTIKEL KERJA PRAKTEK RANCANG BANGUN SISTEM INFORMASI PENCATATAN PENJUALAN PADA CAFE WARUNK KOPI NOSTALGILA MENGGUNAKAN PHP DAN MYSQL

ABSTRAK. Kata kunci : Ujian, Penerimaan, Online, Framework, dan Codeigniter

SKRIPSI SISTEM INFORMASI GEOGRAFIS POTENSI KECAMATAN DENGAN METODE MARKET BASKET ANALYSIS. (Studi Kasus : Dinas Pertanian)

Transkripsi:

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Kristen Petra, Surabaya rudya@petra.ac.id 1) rintan@petra.ac.id 3) ABSTRACT Chinese Language is now widely used. Many applications have been developed to help the usage of Chinese Language in Information Technology (IT). One important phase in these applications are segmentation phase. In a Chinese Language sentence, there is no spacing between the words. In the segmentation phase, a Chinese Language sentence is segmented to become words in Chinese Language. In this research, we create an application which can segment the Language. The methods used for segmentation process are rule-based method, statistical method and the hybrid of them. The segmentable words are only in the form of unigram and bigram. The experiment result shows that the segmentation which used the hybrid method has a better result than the single method. Keywords: Chinese Word Segmentation, Rule Based Method, Statistical Method 1. Pendahuluan Selain bahasa Inggris, bahasa Mandarin adalah salah satu bahasa yang banyak digunakan di dunia. Sekitar seperlima dari penduduk dunia menggunakan bahasa Mandarin sebagai bahasa sehari-hari. Bahasa Mandarin adalah bahasa resmi di Tiongkok dan Taiwan. Di Singapura, bahasa Mandarin merupakan satu dari empat bahasa resmi. Selain itu, bahasa Mandarin merupakan salah satu dari enam bahasa resmi Perserikatan Bangsa Bangsa [2]. Di Indonesia, bahasa Mandarin juga semakin berkembang dimulai sejak masa reformasi dimana budaya Tiongkok diperbolehkan untuk kembali berkembang. Sejak saat itu, bahasa Mandarin semakin dipakai secara luas dan muncul di berbagai lembaga untuk belajar bahasa Mandarin. Selain itu, beberapa bahasa Mandarin juga disisipkan sebagai salah satu mata pelajaran bahasa di samping bahasa Indonesia dan bahasa Inggris di sekolah. Dengan semakin berkembangnya bahasa Mandarin, dalam dunia Informatika juga dibuat aplikasi-aplikasi yang berhubungan dengan bahasa tersebut. Antara lain adalah aplikasi untuk menerjemahkan, aplikasi text to speech dalam bahasa Mandarin dan search engine yang dapat digunakan untuk bahasa Mandarin. Dalam pembuatan aplikasi-aplikasi tersebut, terdapat satu tahap yang tidak dapat dilewatkan, yaitu tahap segmentasi. Yang dimaksud dengan segmentasi adalah membagi-bagi suatu kalimat menjadi kata-kata. Pada bahasa Mandarin tidak ada pemisah antara satu kata dengan kata lain seperti yang terdapat pada bahasa-bahasa Latin. Tidak adanya pemisah antar kata, menyebabkan berbagai macam kesulitan, antara lain adalah untuk aplikasi penerjemah, akan sulit menentukan arti dari suatu kalimat tanpa memisahkan dulu menjadi kata-kata. Pada aplikasi text to speech, untuk menentukan intonasi dari pembacaan suatu kalimat juga diperlukan pemisahan kata-kata yang ada dalam suatu kalimat. Oleh karena itu, segmentasi merupakan tahap yang penting dalam pembuatan aplikasi-aplikasi bahasa Mandarin. 2. Teori Penunjang 2.1 Struktur Bahasa Mandarin Pada bahasa Mandarin, suatu kata dapat dibentuk dari satu atau lebih karakter. Kata yang dibentuk dari satu karakter disebut unigram, kata yang dibentuk dari dua disebut bigram dan seterusnya sampai n-gram. Sebagian besar dari katakata dalam bahasa Mandarin dibentuk dari satu dan dua karakter. Contoh pembagian kata yang dibentuk dari karakterkarakter Mandarin dengan C merupakan perwakilan dari satu karakter Mandarin dapat dilihat pada Tabel 1. Tabel 1. Kata dalam Bahasa Mandarin Kalimat C 1 C 2 C 3 C 4 C 5 C 6 Unigram C 1, C 2, C 3, C 4, C 5, C 6 Bigram C 1 C 2, C 2 C 3, C 3 C 4, C 4 C 5, C 5 C 6 Trigram C 1 C 2 C 3, C 2 C 3 C 4, C 3 C 4 C 5, C 4 C 5 C 6 2.2 Metode Segmentasi Terdapat 2 macam metode untuk melakukan segmentasi dari kalimat berbahasa Mandarin, yaitu metode rule-based dan metode statistical. 2.1.1 Metode Rule-Based Metode rule-based merupakan metode segmentasi kalimat dalam bahasa Mandarin dengan menggunakan aturan-aturan kata yang ada dalam kamus. Contoh : 学习汉语 (xue xi han yu) Kemungkinan-kemungkinan segmentasi yang dapat dihasilkan dari kalimat tersebut adalah sebagai berikut. 学习 汉语 151

学习 汉 语 学 习汉 语 学 习 汉语 学 习 汉 语 Dari kemungkinan-kemungkinan segmentasi di atas, dipilih kemungkinan pertama, karena kemungkinan pertama yang memiliki arti di kamus, yaitu belajar bahasa Mandarin. Kelemahan dari metode rule-based adalah keberhasilan untuk menghasilkan segmentasi yang benar dipengaruhi oleh banyaknya jumlah kata yang tersimpan di database (kamus). Database tidak mungkin menyimpan semua kata yang ada karena jika semua kata disimpan, jumlah kata yang ada sangatlah banyak. Selain itu dalam kehidupan sehari-hari, bahasa dapat berkembang dan tidak menutup kemungkinan terbentuk kata baru. Oleh karena itu hampir tidak mungkin semua kata yang ada dapat tersimpan dalam database. 2.2.1 Metode Statistical Metode statistical [1] merupakan metode segmentasi kalimat dalam bahasa Mandarin berdasarkan informasi statistik dari suatu bacaan dalam bahasa Mandarin. Pada metode statistical ini, terdapat dua tahap, yaitu tahap training dan tahap segmentasi. Pada tahap training yang dilakukan adalah menghitung probabilitas dari setiap karakter yang terdapat dalam data yang akan di-training. Untuk mendapatkan nilai probabilitas dari suatu karakter C dapat digunakan Rumus 1. Frekuensi C sebagai kata dalam training set P (C) = (1) Frekuensi C dalam training set Pada tahap training ini, frekuensi C sebagai kata dalam training set pada Rumus 1 didapat dari perhitungan jumlah munculnya C sebagai kata dari hasil segmentasi secara manual data yang sedang di-training. Pada tahap segmentasi, hasil segmentasi dari suatu input kalimat tersusun dari rangkaian kata C i yang berpotensial menjadi kata, sehingga i memiliki nilai terbesar. Kelemahan dari metode ini adalah keberhasilan dari segmentasi tergantung pada banyaknya jumlah data yang di-training. 2.2.2 Penggabungan Metode Rule-Based dan Metode Statistical Pada dua metode sebelumnya, yaitu metode rule-based dan metode statistical, masing-masing memiliki beberapa kelemahan. Untuk mengatasi kelemahan-kelemahan tersebut, dilakukan penggabungan kedua metode dengan tujuan kedua metode tersebut dapat saling melengkapi [1]. Penggabungan kedua metode ini seperti yang dilakukan manusia secara umumnya dalam melakukan proses segmentasi saat membaca suatu artikel. Pada waktu seseorang melakukan proses segmentasi suatu teks dalam bahasa Mandarin, orang tersebut akan melihat konteks teks tersebut dan menggunakan pengetahuannya tentang kata-kata yang ada. Selain itu, orang tersebut juga akan melihat frekuensi terbentuknya kata dalam bacaan tersebut. Dalam penggabungan kedua metode ini, terdapat beberapa prinsip sebagai berikut. Kata-kata yang tersimpan dalam database merupakan background knowledge dan informasi statistik merupakan foreground knowledge. Jika pada suatu kata terdapat informasi statistiknya, informasi statistik lebih diutamakan. Jika kata tersebut tidak terdapat informasi statistiknya, digunakan default probability yaitu suatu nilai probabilitas tertentu. Penggabungan kedua metode ini sangatlah fleksibel. Jika nilai default probability bernilai 0, penggabungan metode ini tidak menghiraukan kata-kata yang tersimpan dalam database dan penggabungan metode ini cenderung menjadi metode statistical. Sebaliknya, jika nilai default probability bernilai besar yaitu mendekati 1, penggabungan metode ini menggunakan kata-kata yang tersimpan dalam database sebagai acuan utama dan penggabungan metode ini cenderung menjadi metode rule-based. Oleh karena itu, penggabungan kedua metode ini terdapat di antara metode rule-based dan metode statistical seperti yang terlihat pada Gambar 1. P ( Ci) Gambar 1. Perbandingan Tiga Buah Metode Algoritma dari penggabungan kedua metode adalah sebagai berikut. 1. Menghitung probabilitas dari semua karakter yang ada. 2. Mencari kandidat-kandidat kata berdasarkan metode rule-based. 3. Setiap karakter pada kalimat yang di-input-kan berhubungan dengan semua kandidat kata dimulai dari karakter itu sendiri berikut dengan probabilitasnya. 4. Mengkombinasikan kandidat-kandidat kata. Kombinasi kata dengan probabilitas terbesar dipilih sebagai hasil. 2.3 Precision dan Recall Untuk melakukan pengujian terhadap hasil segmentasi, digunakan pengukur standar precision dan recall dari information retrieval. Precision adalah perbandingan antara jumlah kata benar yang dihasilkan oleh sistem dan jumlah total kata yang dihasilkan oleh sistem. Recall adalah perbandingan antara jumlah kata benar yang dihasilkan oleh sistem dan jumlah kata 152

benar yang dihasilkan dari segmentasi secara manual, dengan asumsi bahwa segmentasi secara manual merupakan hasil segmentasi yang benar. Rumus dari precision dan recall didefinisikan pada Rumus 2 dan Rumus 3 [3]. A B (2) precision = B A B (3) recall = A dimana A merupakan kata yang benar dari segmentasi secara manual dan B merupakan kata yang dihasilkan oleh sistem. 3. Perancangan Sistem Secara garis besar, rencana kerja dari aplikasi ini ditunjukkan pada Gambar 2. Pada awal dari aplikasi, pengguna diberi tiga menu pilihan, yaitu menu kata, menu rule kata dan menu segmentasi. Menu kata digunakan untuk memasukkan kata-kata dalam bahasa Mandarin. Menu rule kata digunakan untuk memasukkan rule-rule kata yang nantinya dipakai dalam segmentasi yang menggunakan metode rule-based. Menu segmentasi merupakan menu utama dari aplikasi ini. Menu segmentasi digunakan untuk melakukan segmentasi dari suatu input tertentu dengan menggunakan tiga macam pilihan metode, yaitu metode rule-based, metode statistical dan penggabungan antara metode rule-based dan metode statistical. 3.1 Segmentasi dengan Metode Rule-Based Segmentasi menggunakan metode rule-based merupakan metode segmentasi berdasarkan kata-kata serta rule yang telah di-input-kan. Adapun diagram alir metode rule-based ini dapat dilihat pada Gambar 3. Gambar 2. Diagram Alir Aplikasi Gambar 3. Diagram Alir Metode Rule-Based 3.2 Segmentasi dengan Metode Statistical Segmentasi menggunakan metode statistical merupakan metode segmentasi yang menggunakan hasil perhitungan probabilitas dari munculnya suatu karakter menjadi kata unigram dan kata bigram. Adapun cara kerja metode ini dapat dilihat pada Gambar 4. 153

Gambar 4. Diagram Alir Metode Statistical Pada saat metode ini dijalankan, pengguna diminta untuk memasukkan frequency filter dan probability filter. Proses selanjutnya adalah membagi artikel menjadi kalimat-kalimat dan sistem akan menghitung frekuensi serta probabilitas untuk setiap kemungkinan kata unigram dan kata bigram. Kemudian sistem akan melakukan proses segmentasi untuk setiap kalimat yang ada. Proses segmentasi dilakukan dengan membandingkan kemungkinan probabilitas terbesar dari karakter-karakter yang ada dalam kalimat tersebut. 3.3 Segmentasi dengan Penggabungan antara Metode Rule-Based dan Metode Statistical Segmentasi menggunakan penggabungan antara metode rule-based dan metode statistical. Adapun cara kerja dari proses segmentasi ini dapat dilihat pada Gambar 5. Gambar 5. Diagram Alir Penggabungan Metode Rule-Based dan Metode Statistical Pengguna diminta untuk memasukkan default probability, frequency filter dan probability filter. Proses selanjutnya adalah membagi artikel menjadi kalimat-kalimat dan sistem akan menghitung frekuensi dan probabilitas untuk setiap kemungkinan kata unigram dan kata bigram. Kemudian sistem akan melakukan proses segmentasi untuk setiap kalimat yang ada dengan membandingkan kemungkinan probabilitas terbesar dari kata-kata dalam kalimat yang terdapat dalam database. Setelah itu dilakukan proses perbandingan kembali untuk kata-kata yang tidak ada dalam database. 154

4. Implementasi dan Hasil Pengujian Hasil aplikasi dapat dilihat pada Gambar 6. Gambar 6. Tampilan Form Utama Jika pada menu utama dipilih menu Word, akan tampil form seperti pada Gambar 7 yang digunakan untuk memasukkan kata-kata ke database baik kata unigram ataupun kata bigram dalam bahasa Mandarin beserta dengan tipe kata tersebut, misal kata benda, kata kerja, kata sifat dan lain-lain. Gambar 7. Tampilan Form Word Pengujian dilakukan dengan menggunakan ketiga metode dan kemudian dilakukan perhitungan nilai precision dan recall dari masing-masing metode. Hasil pengujian untuk ketiga metode terdapat pada Tabel 2 hingga Tabel 4. Tabel 2. Precision dan Recall Hasil Pengujian Metode Rule-Based Precision Recall 71.87% 79.14% Tabel 3. Precision dan Recall Hasil Pengujian Metode Statistical Frequency Filter Probability Filter Precision Recall 0 0 56.14% 49.08% 0 0.5 56.14% 49.08% 0 1 55.79% 48.77% 0.5 0 56.14% 49.08% 0.5 0.5 56.14% 49.08% 0.5 1 56.14% 49.08% 1 0 56.14% 49.08% 1 0.5 56.14% 49.08% 1 1 56.14% 49.08% 155

Tabel 4. Precision dan Recall Hasil Pengujian Metode Rule-Based dan Statistical Frequency Probability Default Precision Recall Filter Filter Probability 0 0 0 80.90% 88.34% 0 0 0.5 69.87% 82.52% 0 0 1 63.34% 77.91% 0 0.5 0 80.90% 88.34% 0 0.5 0.5 69.87% 82.52% 0 0.5 1 63.34% 77.91% 0 1 0 80.90% 88.34% 0 1 0.5 69.87% 82.52% 0 1 1 63.34% 77.91% 0.5 0 0 81.41% 88.65% 0.5 0 0.5 81.41% 88.65% 0.5 0 1 81.41% 88.65% 0.5 0.5 0 81.41% 88.65% 0.5 0.5 0.5 81.41% 88.65% 0.5 0.5 1 81.41% 88.65% 0.5 1 0 81.41% 88.65% 0.5 1 0.5 81.41% 88.65% 0.5 1 1 81.41% 88.65% 1 0 0 81.41% 88.65% 1 0 0.5 81.41% 88.65% 1 0 1 81.41% 88.65% 1 0.5 0 81.41% 88.65% 1 0.5 0.5 81.41% 88.65% 1 0.5 1 81.41% 88.65% 1 1 0 81.41% 88.65% 1 1 0.5 81.41% 88.65% 1 1 1 81.41% 88.65% Dari Tabel 2 hingga 4, terlihat bahwa nilai rata-rata precision dan recall dari hasil segmentasi dengan metode gabungan (precision 78.06%, recall 86.74%) lebih besar daripada hasil segmentasi dengan menggunakan metode rule-based (precision 71.87%, recall 79.14%) ataupun segmentasi dengan menggunakan metode statistical (precision 56.10%, recall 49.05%). Selain pengujian dengan menggunakan ketiga jenis metode, dilakukan pula pengujian dengan menggunakan artikel lain yang mempunyai kemungkinan kata belum terdapat dalam database. Hasil dari pengujian ini dengan metode gabungan adalah rata-rata precision 45.14% dan rata-rata recall adalah 52.62%. 5. Kesimpulan Dari hasil pengujian dapat ditarik kesimpulan bahwa hasil segmentasi dengan menggunakan penggabungan metode rulebased dan metode statistical mempunyai nilai precision ataupun recall yang lebih tinggi dibanding dengan menggunakan satu metode saja baik rule-based ataupun statistical. Segmentasi dengan menggunakan penggabungan kedua metode tetap bergantung pada kata-kata yang tersimpan dalam database. Hal ini dapat dilihat dari nilai precision dan recall yang lebih kecil saat menggunakan artikel lain yang mempunyai kemungkinan kata tidak terdapat pada database. Daftar Pustaka [1] Nie, Jian Yun, Brisebois, M & Ren, Xiaobo. (1996). On Chinese text retrieval. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 225 233. [2] Chinese language. http://en.wikipedia.org/wiki/chinese_language, diakses terakhir tanggal 7 November 2007. [3] Van Rijsbergen, C.V. (1979). Information Retrieval. London: Butterworth, http://www.dcs.gla.ac.uk/keith/ Preface.html, diakses terakhir tanggal 19 Mei 2008. 156