PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA. M Karibun H S
|
|
- Surya Johan
- 7 tahun lalu
- Tontonan:
Transkripsi
1 PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA Oleh: M Karibun H S G DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2005
2 ABSTRAK M KARIBUN H S. Penerapan Metode Rule-based dengan Unsupervised Learning untuk Pelabelan Dokumen Berbahasa Indonesia. Dibimbing oleh YENI HERDIYENI dan PANJI WASMANA. Penelitian ini menerapkan metode Rule-based dengan Unsupervised Learning untuk pelabelan dokumen teks berbahasa Indonesia. Metode Rule-based menggunakan pola kata untuk menentukan label dari kata yang tidak diketahui. Pola diperoleh melalui proses pembelajaran otomatis dan diurutkan berdasarkan frekuensi kemunculan. Pelabelan kata yang ambigu atau tidak diketahui labelnya dilakukan dengan cara melihat pola kata sekitar dan mengambil pola kata dengan frekuensi kemunculan terbesar. Penambahan metode pengujian jenis imbuhan pada sistem diharapkan dapat meningkatkan pengenalan label pada dokumen. Penelitian menggunakan 102 dokumen teks yang terdiri dari token untuk proses pelatihan dan menghasilkan rule. Basis data rule yang diperoleh dari proses pembelajaran dan basis data perubahan jenis kata berdasarkan imbuhan digunakan untuk proses pengujian sistem. Pengujian menggunakan 52 dokumen teks yang terdiri dari token. Pengujian menghasilkan 97,82 % token yang berhasil dikenali. Pengujian manual terhadap 3 dokumen yang terdiri dari 431 token menghasilkan tingkat kebenaran 85,85%. Kata Kunci: Part of Speech Tagging, Natural Language, Information Retrieval, Algoritma Eric Brill, dan Computational Linguistic.
3 PENERAPAN METODE UNSUPERVISED LEARNING RULE-BASED PART OF SPEECH TAGGING UNTUK PELABELAN PADA DOKUMEN BERBAHASA INDONESIA M Karibun H S Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2005
4 Judul Nama NRP : Penerapan Metode Rule-based dengan Unsupervised Learning untuk Pelabelan Dokumen Berbahasa Indonesia. : M Karibun H S : G Menyetujui, Pembimbing I Pembimbing II Yeni Herdiyeni, S.Si., M.Kom Panji Wasmana, S.Kom., M.Si NIP NIP Mengetahui, Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Dr. Ir. Yonny Koesmaryono, M.Si NIP Tanggal Lulus:..
5 RIWAYAT HIDUP Penulis dilahirkan di RSCM, Jakarta pada tanggal 17 November 1981 sebagai anak pertama dari dua bersaudara, anak dari pasangan Bapak Hamdan Eddy Yassin dan Ibu Pipiet Senja. Penulis menikah pada tanggal 15 Februari 2000 dengan Seli Siti Sholihat. Penulis menyelesaikan sekolah menengah umum di SMUN 3 Depok, lulus pada tahun Setelah lulus melanjutkan pendidikannya di Jurusan Biologi Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia selama dua tahun ( ). Pada tahun 2001, penulis mengikuti Seleksi Penerimaan Mahasiswa Baru (SPMB) ke Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Penulis sempat aktif di Badan Kerohanian Islam Mahasiswa (BKIM) pada tahun dan menjadi ketua angkatan 38 BKIM Baranangsiang. Selama kuliah, penulis pernah menjadi staf pengajar di Pengabdian Pada Masyarakat (P2M) Fakultas Teknik Universitas Indonesia Salemba pada tahun Penulis juga pernah menjadi Asisten Dosen Praktikum Departemen Ilmu Komputer pada tahun Penulis pernah menjadi ketua Bareng Karib Silaturahmi Mahasiswa Ilkom (Bakar Singkong) pada tahun Penulis juga menjadi anggota Divisi Riset dan Development di Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) pada tahun Pada tahun 2004 penulis menjadi pengajar pada pelatihan Microsoft Visual C di P2M FTUI. Pada tahun 2005 penulis melakukan Praktik Kerja Lapang (PKL) di Divisi Hukum Bank Indonesia Thamrin Jakarta. Bidang yang diminati penulis berkaitan dengan kecerdasan buatan, yaitu Computational Linguistic, Image Processing, dan Speech Recognition.
6 PRAKATA Alhamdulillahirobbil alamin penulis ucapkan atas segala limpahan rahmat dan hidayah-nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada semua fihak atas bantuan, dorongan, saran, kritik, serta koreksi yang ditujukan selama penulisan karya ilmiah ini. Ucapan terima kasih penulis ucapkan kepada: 1. Istri tercinta, Seli Siti Sholihat, atas semua kasih sayang, cinta, bimbingan, dan segala hal yang tak mungkin tersebut satu persatu disini. Semoga cinta kita tetap abadi dan semoga keluarga kita termasuk keluarga yang dirahmati Allah, keluarga sakinah. 2. Mama tercinta dan tersayang, Pipiet Senja, atas semua doa dan kesempatan mengenal kasih sayang ibu di dunia ini. Serta papa, Hamdan Eddy Yassin, atas semua bantuan finansialnya. 3. Adik, Adzimattinur Siregar, yang telah mensuplai komik penghilang stress selama penulisan karya ilmiah ini. 4. Mertua, Sri Mulyati dan khususnya Engkos Kosasih atas semua nasihat, bimbingan, dan kesempatan untuk mengenal semua warna kehidupan. 5. Ibu Yeni Herdiyeni, S.Si, M.Kom. dan bapak Panji Wasmana, S.Kom, M.Si. sebagai pembimbing skripsi I dan II atas segala bimbingan, saran, kritik, dan kesabarannya atas penelitian ini. 6. Seluruh staf pengajar Departemen Ilmu Komputer atas semua ilmu dan contoh kepribadiannya selama penulis kuliah di Departemen Ilmu Komputer. 7. Usep Aris Sutandi, S.Kom. atas segala bentuk persahabatan, saran, kritik, dan contekan format penulisan karya ilmiahnya. 8. Semua penghuni DC-7 pada tahun atas semua bentuk persahabatan, kesenangan, dan pendidikan kepribadiannya. 9. Ibu Yayuk dan seluruh staf administrasi Departemen Ilmu Komputer atas segala pengabdian dan kesabarannya. Akhir kata, semoga karya ilmiah ini dapat dipergunakan untuk kemashlahatan kita bersama. Depok, Oktober 2005 Penulis
7 DAFTAR ISI Halaman DAFTAR TABEL.... vii DAFTAR LAMPIRAN....vii PENDAHULUAN Latar Belakang Tujuan Ruang Lingkup Penelitian. 2 TINJAUAN PUSTAKA Pembagian Jenis Kata...2 Grammar... 3 Token.4 Part of Speech...4 Stemming...4 N th Order Tagging.4 Polisemi.4 Kinerja sistem....5 METODOLOGI Transformation Based Learning Proses Pelabelan Kata....5 Pemberian Label berdasarkan Imbuhan.6 HASIL DAN PEMBAHASAN Implementasi sistem...8 Basis data sistem Proses pembelajaran...9 Ukuran pengujian...9 Hasil pengujian.. 9 Persentase pengujian tagset dan imbuhan Persentase token yang ambigu Persentase pengujian pola Persentase token yang berhasil dikenali Persentase token yang tidak berhasil diidentifikasi Persentase token yang berhasil diidentifikasi secara benar.11 KESIMPULAN DAN SARAN Kesimpulan Saran...11 DAFTAR PUSTAKA 11 LAMPIRAN DAFTAR TABEL Halaman 1. Spesifikasi implementasi sistem Data hasil pembelajaran Data hasil pengujian sistem....9 DAFTAR GAMBAR Halaman 1. Proses tokenizing teks.5 2. Proses pelabelan kata Proses pengujian imbuhan.. 6
8 DAFTAR LAMPIRAN Halaman 1. Tahapan ekstraksi jawaban pada Question Answering System (QAS) Klasifikasi pendekatan algoritma Part of Speech Tagging Proses rule-based tagging..16
9 Latar Belakang PENDAHULUAN Part-of-Speech Tagging adalah proses pemberian label klasifikasi pada setiap bagian dari dokumen teks berbasis bahasa natural. Part-of-Speech Tagging yang akurat merupakan langkah awal yang kritis bagi pemrosesan bahasa natural (Vasilakopoulos, 2003). Part-of-Speech Tagging juga merupakan suatu tahapan penting dalam Question Answering System (QAS). Posisi Part-of- Speech Tagging dalam QAS dapat dilihat pada Lampiran 1. Pada lampiran terlihat bahwa keluaran dari proses Part-of-Speech Tagging merupakan dasar dari pengubahan suatu dokumen teks menjadi bentuk logik. QAS menggunakan keluaran dari Part-of-Speech Tagging untuk mencari jawaban terhadap pertanyaan yang diajukan pada sistem mengenai suatu dokumen teks. Beberapa penelitian mengenai Part-of- Speech Tagging yang telah dilakukan sebelumnya, dapat dikelompokkan seperti pada Lampiran 2 (James, 1995). Pengelompokan pertama adalah sistem supervised dan unsupervised. Pada sistem supervised, dokumen yang sudah dilabeli secara manual dimasukkan ke dalam sistem untuk dipelajari. Selanjutnya sistem akan membentuk basis data pola berdasarkan dokumen yang dimasukkan. Sementara pada sistem unsupervised, tidak dilakukan pelabelan secara manual pada dokumen yang dimasukkan untuk dipelajari oleh sistem. Sehingga sistem diharuskan untuk melabeli setiap kata dan mempelajari sendiri pola-pola yang ada. Masing-masing pendekatan memiliki kelebihan dan kekurangan. Pendekatan supervised memudahkan sistem untuk mengenali kata atau pola yang baru. Kekurangan dari pendekatan ini adalah lamanya waktu pembelajaran yang dibutuhkan dan besarnya kemungkinan keputusan yang ambigu. Sementara pada sistem unsupervised, dapat diharapkan terbentuknya sebuah sistem yang mengerti semua bahasa yang ada. Kekurangan dari sistem ini adalah lamanya atau sulitnya proses pelabelan ketika sistem diperkenalkan pada sesuatu yang baru dan belum memiliki referensi sebelumnya. Pembagian selanjutnya adalah Part-of- Speech Tagging berbasis rule, stochastic dan neural network. Pada Part-of-Speech Tagging berbasis rule, sistem mengandalkan ketersediaan basis data pola yang akan digunakan untuk memutuskan klasifikasi sebuah kata. Sementara pada stochastic, sistem akan menggunakan prinsip-prinsip statistik dalam pengklasifikasian kata. Dan pada pendekatan dengan teknik neural network, sistem akan menggunakan teknik jaringan saraf tiruan untuk menggolongkan kata-kata yang dimasukkan ke dalam sistem (James, 1995). Beberapa penelitian yang telah dilakukan di antaranya: - Penelitian Part-of-Speech Tagging dengan menggunakan algoritma Baum-Welch menghasilkan tingkat akurasi 86,6% (Cutting et al, 1992). Penelitian menggunakan Penn Treebank Corpus yang terdiri dari kata. - Penelitian Eric Brill (1995), Unsupervised Learning Rule-based Part-of-Speech Tagging dapat mengidentifikasi secara benar lebih dari 90% token ambigu. Penelitian menggunakan data pelatihan kata dan data tes kata. - Penelitian Rabiner (1989), Hidden Markov Models Part-of-Speech Tagging memiliki tingkat akurasi 96,5%. Penelitian ini juga menggunakan Penn Treebank yang terdiri dari kata. Penelitian ini juga menggunakan Brown Corpus sebagai perbandingan yang tersusun dari kata. - Penelitian Weischedel (1993), Maximum Entropy Model Part-of-Speech Tagging, memiliki tingkat akurasi 85%. Penelitian ini menggunakan Penn Treebank yang terdiri dari kata dan Wall Street Journal Corpus sebagai perbandingan yang tersusun dari kata. Penelitian mengenai Part-of-Speech Tagging yang ada sebelumnya dibangun dengan menggunakan bahasa Inggris. Sehingga dibutuhkan beberapa penyesuaian untuk penggunaan pada bahasa Indonesia. 1
10 Tujuan Penelitian ini bertujuan untuk mengimplementasikan metode Rule-based dengan Unsupervised Learning untuk pelabelan kata dalam bahasa Indonesia. Ruang Lingkup Penelitian Ruang lingkup penelitian ini meliputi: 1. Pembelajaran dan pembentukan basis data pola kata dalam kalimat 2. Pembentukan basis data referensi kata 3. Pembuatan metode penentuan label kata berdasarkan imbuhan 4. Perhitungan dan pengukuran kinerja sistem Pembagian Jenis Kata TINJAUAN PUSTAKA Secara sederhana, terdapat 10 jenis kata dalam bahasa Indonesia (Keraf, 1980): 1. Kata benda atau Nomina (N) Kata benda adalah nama dari semua benda dan segala yang dibendakan. Selanjutnya kata-kata benda, menurut wujudnya, dibagi atas: a. Kata benda konkrit b. Kata benda abstrak 2. Kata kerja atau Verba (Vb) Semua kata yang menyatakan perbuatan atau laku digolongkan ke dalam kata kerja. Bila suatu kata kerja menghendaki adanya suatu pelengkap maka disebut kata kerja transitif, misalnya: memukul, menangkap, melihat, mendapat, dan sebagainya. Sebaliknya bila kata kerja tersebut tidak membutuhkan suatu pelengkap maka disebut kata kerja intransitif, misalnya: menangis, meninggal, berjalan, berdiri, dan sebagainya. 3. Kata sifat atau Adjektif (Adj) Kata yang menyatakan sifat atau hal keadaan dari suatu benda: tinggi, rendah, lama, baru, dan sebagainya digolongkan sebagai kata sifat. 4. Kata ganti atau Pronomina (Pro) Yang termasuk dalam jenis kata ini adalah segala kata yang dipakai untuk menggantikan kata benda atau yang dibendakan. Pembagian tradisional menggolongkan kata-kata ini ke dalam suatu jenis kata yang tersendiri. Kata ganti menurut sifat dan fungsinya dapat dibedakan atas: a. Kata ganti orang atau Pronomina Personalia b. Kata ganti kepemilikan atau Pronomina Possessiva c. Kata ganti petunjuk atau Pronomina Demonstrative d. Kata ganti penghubung atau Pronomina Relativa e. Kata ganti penanya atau Pronomina Interrogativa f. Kata ganti tak tentu atau Pronomina Indeterminativa 5. Kata bilangan atau Numeralia (Num) Kata bilangan adalah kata yang menyatakan jumlah benda atau jumlah kumpulan atau urutan tempat dari namanama benda. Menurut sifatnya, kata bilangan dapat dibagi atas: - Kata bilangan utama (Nume ralia Cardinalia): satu, dua, tiga, seratus, dan sebagainya. - Kata bilangan tingkat (Numeralia Ordinalia): pertama, kedua, ketiga, kelima, kesepuluh, dan sebagainya. - Kata bilangan tak tentu: beberapa, segala, semua, tiap-tiap, dan sebagainya. - Kata bilangan kumpulan: berdua, bertiga, bertujuh, dan sebagainya. 6. Kata keterangan atau Adverbia (Adv) Kata-kata keterangan atau adverbia adalah kata-kata yang memberi keterangan tentang: a. Kata kerja b. Kata sifat c. Kata keterangan d. Kata bilangan 2
11 e. Seluruh kalimat Kata keterangan sendiri dibagi lagi menjadi beberapa macam: - Kata keterangan kualitatif (Adverbium kualitatif). Adalah kata keterangan yang menerangkan atau menjelaskan suasana atau situasi dari suatu perbuatan. Contohnya: ia berjalan perlahan-lahan. Biasanya kata keterangan ini dinyatakan dengan mempergunakan kata depan dengan + kata sifat. - Kata keterangan waktu (Adverbium temporal). Adalah keterangan yang menunjukkan atau menjelaskan berlangsungnya suatu peristiwa dalam suatu bidang waktu: sekarang, nanti, kemarin, kemudian, sesudah itu, lusa, sebelum, minggu depan, bulan depan, dan lain-lain. - Kata keterangan tempat (Adverbium lokatif). Adalah kata yang memberi penjelasan atas berlangsungnya suatu peristiwa atau perbuatan dalam suatu ruang. Contohnya: di sini, di situ, di sana, dan sebagainya. - Kata keterangan kecaraan (Adverbium modalitas). Adalah kata-kata yang menjelaskan suatu peristiwa karena tanggapan si pembicara atas berlangsungnya peristiwa tersebut. Dalam hal ini subjektivitas lebih ditonjolkan. Contohnya: memang, niscaya, pasti, sungguh, tentu, tidak, bukannya, bukan, dan sebagainya. - Kata keterangan aspek. Menjelaskan berlangsungnya suatu peristiwa secara objektif, bahwa suatu peristiwa terjadi dengan sendirinya tanpa suatu pengaruh atau pandangan dari pembicara. Contoh: pun, lah, sedang, sementara, dan sebagainya. - Dan masih banyak lagi pembedaan kata keterangan. 7. Kata sambung atau Conjunctiva (Conj) Kata sambung adalah kata yang menghubungkan kata-kata, bagian-bagian kalimat, atau menghubungkan kalimatkalimat. Contoh: apabila, ketika, bia, jika, atau, dan sebagainya. 8. Kata depan atau Prepositio (Prep) Kata depan adalah kata yang merangkaikan kata-kata atau bagian-bagian kalimat. Contoh: di, ke, dari, dan sebagainya. 9. Kata sandang atau Articula (Art) kata sandang tidak mengandung suatu arti, tetapi memiliki fungsi. Contoh: yang, itu, nya, si, sang, hang, dang. 10. Kata seru atau Interjectio (Int) Kata seru adalah kata yang paling tua dalam bahasa. Kata ini merupakan ungkapan perasaan seseorang. Contoh: wah, yah, ah, dan sebagainya. Grammar Grammar dari suatu bahasa adalah skema untuk menspesifikasikan kalimat dalam bahasa tersebut. Grammar mengindikasikan hubungan sintaksis untuk mengkombinasikan kata ke dalam bentuk frase dan klausa. Grammar G didefinisikan sebagai sebuah bentuk yang terdiri dari 4 elemen yang terbatas (Krulee, 1991). Sebuah grammar G = (N, Σ, P, S o ) dimana 1. N adalah sebuah set dari non terminal. 2. Σ adalah sebuah set dari simbol terminal yang digunakan untuk mendefinisikan ka ta aktual. 3. P adalah sebuah set dari aturan grammar. 4. S o adalah sebuah non terminal yang berfungsi sebagai simbol inisiasi untuk setiap deretan penurunan. Sebuah grammar dikatakan linier ke kanan jika dan hanya jika setiap produksi pada grammar tersebut memiliki bentuk: X αy atau X α Dimana X dan Y adalah non terminal yang terdapat dalam N dan α adalah sebuah simbol terminal yang terdapat dalam Σ. Untuk lebih umumnya, sebuah grammar dikatakan bersifat context-sensitive jika setiap produksi pada gramar G = (N, Σ, P, S o ) memiliki bentuk γ 1 χγ 2 = γ 1 αγ 2 dimana χ berada dalam N dan γ 1, α, γ 2 berada di dalam (N Σ) -. 3
12 Token Token adalah sederetan karakter yang membentuk satu kesatuan informasi dalam sebuah dokumen teks. Proses pemisahan token pada dokumen disebut sebagai tokenize. Sementara program yang melakukan proses tersebut disebut sebagai tokenizer (Jones, 1994). Part of Speech Part of Speech adalah pengklasifikasian kata secara grammar. Klasifikasi kata dapat terdiri dari kata benda, kata kerja, kata penghubung, dan sebagainya. Ada 3 pendekatan pengklasifikasian kata yang dapat digunakan. Pendekatan pertama adalah pendekatan formal. Pada pendekatan ini, anatomi dari kata digunakan sebagai penentu klasifikasi dari kata. Sebagai contoh, kata yang berawalan me- dapat digolongkan langsung sebagai kata kerja. Pendekatan kedua adalah pendekatan sintaktik. Pendekatan ini menggunakan klasifikasi dari kata lain di dekat kata yang tidak teridentifikasi. Sebagai contoh, kata Adj dalam bahasa Indonesia biasanya muncul tepat setelah kata benda: Jendela kotor, Meja baru, dan sebagainya. Pendekatan terakhir adalah pendekatan notional atau konteks. Pada pendekatan ini, sebuah klasifikasi dipahami maknanya dan digunakan sebagai penentu penggolongan kata. Sebagai contoh, kata benda adalah kata yang merepresentasikan suatu objek. Pendekatan ini sangat sulit diformulasikan. Dan karenanya kurang begitu dipakai dalam pengklasifikasian kata (Jones, 1994). Stemming Stemming adalah proses pemotongan imbuhan pada kata untuk mendapatkan kata dasarnya (Porter, 1980). Dengan proses stemming, kata mencadangkan akan dipisahkan menjadi bentuk me-cadang-kan. Dengan kata dasar cadang yang berhasil diekstraksi. N th Order Tagging Menurut Brill (1992), dalam menentukan label dari sebuah token, pertimbangan konteks dapat menggunakan label dari token lain di sekitar token yang bermasalah. Kemungkinan dari jumlah token yang dipertimbangkan antara lain: - 0 th order. Disebut juga sebagai unigram tagger. Pada metode ini, penentuan label dari token yang tidak diketahui dilakukan berdasarkan frekuensi label yang paling tinggi tanpa mempertimbangkan label dari token sekitarnya. - 1 st order. Disebut juga sebagai bigram tagger. Pada metode ini, penentuan label dari token yang tidak diketahui dilakukan berdasarkan frekuensi label yang paling tinggi dengan mempertimbangkan label dari token lain yang terletak di n-1 dan n+1 di sekitar token yang tidak diketahui. Contoh: N X V X/? Dari data pelatihan: N N V = A frekuensi N V V = B frekuensi Jika A>B, maka X N - 2 nd order. Disebut juga sebagai trigram tagger. Pada metode ini, penentuan label dari token yang tidak diketahui dilakukan berdasarkan frekuensi label yang paling tinggi dengan mempertimbangkan label dari token lain yang terletak di n -2, n-1, n+1, dan n+2 di sekitar token yang tidak diketahui. Contoh: Polisemi N N X V Prep X/? Dari data pelatihan N N N V Prep = A frekuensi N N Prep V Prep = B frekuensi Jika A>B, maka X Prep Khasanah bahas a Indonesia mengenal beberapa kata yang memiliki lebih dari satu jenis kata yang dikenal dengan istilah polisemi (Depdiknas, 2003). Pelabelan kata yang tepat untuk jenis kata seperti ini akan sangat tergantung pada konteks kalimat yang menyertai penggunaa n kata tersebut. 4
13 Kinerja sistem Pengukuran kinerja sistem menggunakan rumus: Σid P= x100% Σ tkn dimana P=Persentase token yang berhasil diidentifikasi. Σid=Jumlah token yang berhasil diidentifikasi. Σtkn=Jumlah token yang dicek. METODOLOGI Penetapan label jenis untuk setiap kata dilakukan dengan mempertimbangkan 4 hal: kamus, ciri kata, jenis imbuhan yang menyertai kata, dan pola kata pada kalimat. Transformation Based Learning Salah satu metode yang banyak digunakan dalam proses tagging adalah Transformation Based Learning (TBL), sebuah metode machine learning yang diperkenalkan oleh Eric Brill (1995). Ide utama dari metode TBL adalah pengekstraksian rule secara otomatis selama proses pelatihan dan pengurutan rule yang diperoleh berdasarkan frekuensi kemunculannya. Rule digunakan untuk memperbaiki pelabelan awal dan disebut sebagai transformation rule. Sehingga dibutuhkan sebuah proses pembelajaran dengan cara memasukkan rule-rule yang biasa terdapat dalam sebuah kalimat serta membangun sema cam kamus yang menyediakan data awal klasifikasi dari setiap kata. Sistem terlebih dahulu akan mencari label dari setiap kata pada kamus yang disediakan. Seandainya kata tersebut terdapat dalam kamus, maka tugas sistem selesai. Sementara seandainya sis tem tidak menemukan kata yang dicari pada kamus, atau menemukan kata yang ambigu, maka sistem akan mengandalkan dan melihat pola pada kalimat yang paling sesuai sehingga kata yang dicari dapat ditentukan klasifikasinya. Secara garis besar, sistem yang dibangun akan berjalan seperti pada Lampiran 3. Proses Pelabelan Kata Penjelasan mengenai proses pelabelan untuk setiap kata dapat dirinci sebagai berikut: - Langkah pertama adalah pemisahan setiap token dalam dokumen dengan cara pengecekan setiap karakter dalam dokumen. Proses detailnya bisa dilihat pada gambar 1. Gambar 1 Proses tokenizing teks. Setiap karakter dicek oleh sistem. Selama karakter tersebut berupa karakter A-Z, a-z, atau 0-9 (fungsi isalpha), maka karakter tersebut dimasukkan ke dalam token aktif. Ketika sistem menemukan karakter khusus (fungsi isspesialchar), maka sistem akan mulai mencari token selanjutnya. Proses terus berulang selama belum ditemukan karakter penanda akhir dokumen (fungsi noteof). Ketika karakter akhir dokumen ditemukan (fungsi iseof), maka proses pemisahan selesai dengan hasil rangkaian token yang telah berhasil diidentifikasi. Token khusus seperti alamat , angka, dan tanggal langsung diidentifikasi dan diberi label pada proses ini (fungsi isspecialtoken). - Kemudian, setelah setiap kata dapat diidentifikasi, satu persatu kata tersebut dicek keberadaannya dalam tagset yang sudah ada pada database. Proses dapat dilihat pada gambar 2. Gambar 2 Proses pelabelan kata. Bila kata yang dicari terdapat dalam tagset, maka kata tersebut akan diberi label berdasarkan data pada tagset. 5
14 - Kata yang masih belum teridentifikasi akan dicek bentuk imbuhannya. Proses dapat dilihat pada gambar 3. Gambar 3 Proses pengecekan imbuhan Pengecekan imbuhan dilakukan dengan cara mencari bentuk perubahan imbuhan yang sesuai dengan kata tersebut untuk mendapatkan kata dasar dari kata. Kemudian diadakan pengecekan untuk kata dasar yang didapatkan pada tagset. Bila ada, sistem akan mencari bentuk perubahan label dari kata dasar dengan mempertimbangkan jenis imbuhan yang didapatkan. - Bila label yang didapatkan dari rumus frase belum fix atau merujuk pada satu label, atau bahkan belum ditemukan label yang sesuai untuk kata yang ditanyakan, langkah terakhir adalah melakukan pengecekan pada pola bigram dan trigram yang didapatkan pada pembelajaran (Gambar 2). Langkah-langkah yang dilakukan pada proses pembelajaran pola kalimat adalah: - Pengidentifikasian setiap ka limat pada dokumen berdasarkan karakter pemisah kalimat. - Pemotongan setiap kata berdasarkan karakter pemisah kata. - Pelabelan setiap kata. Kombinasi kata yang labelnya diketahui akan dicek keberadaannya pada database pola kata. Bila tidak ada, pola baru akan ditambahkan pada database pola, sementara bila sudah ada, frekuensi pola akan ditambah. Pemberian Label berdasarkan Imbuhan Bahasa Indonesia mengenal penggabungan berbagai jenis imbuhan untuk membentuk satu kata. Untuk mengekstrak kata dasar dari kata yang berimbuhan seperti ini, diperlukan sebuah proses tersendiri. Dimulai dengan pemeriksaan akhiran terlebih dahulu, karena sifat akhiran pada bahasa Indonesia yang tidak bertumpuk, kemudian dilanjutkan dengan pemeriksaan awalan secara berulang sampai ditemukan kata dasar yang valid pada tagset. Rincian proses pengecekan imbuhan dapat dilihat pada Gambar 3 dengan penjelasan sebagai berikut: Kata yang dicek: abcd Di mana a dan b adalah awalan, C adalah kata dasar yang ingin diekstrak, dan d adalah akhiran. Proses yang terjadi: abcd abc-d, yang berarti akhiran d sudah dapat diidentifikasi. abc a-bc, pada proses ini, awalan a telah berhasil diidentifikasi. bc b-c, pada akhirnya, awalan b berhasil diidentifikasi dan kata dasar C berhasil diekstrak. Proses di atas menghasilkan: Imbuhan: a-b dan d Kata dasar: C Kemudian dilakukan pengecekan jenis kata pada tagset: C L dimana L adalah jenis kata. Jenis kata yang dicek akan ditentukan dengan proses: Kata dasar: C L Proses pengecekan jenis kata berdasarkan imbuhan berjalan sebagai berikut: L-d M, dimana M adalah jenis kata yang terbentuk jika jenis kata L diberi akhiran d. b-m N, N adalah jenis kata yang terbentuk bila jenis kata M diberi awalan b. a-n O, O adalah jenis kata yang terbentuk bila jenis kata N diberi awalan a. Sehingga diperoleh jenis kata yang dicek: abcd O Contoh pemrosesan kata berimbuhan memperbarui akan berjalan sebagai berikut: Pada database rule akhiran diperoleh rule: *ui *u 6
15 Sehingga kata dasar yang diperoleh: Memperbaru Karena pada pengecekan tagset tidak ditemukan kata tersebut, dilakukan pengecekan awalan. Pada database rule awalan, diperoleh rule: Memp* p* Sehingga kata dasar yang diperoleh: Perbaru Pengecekan pada tagset masih tidak akan menemukan kata di atas. Sehingga diadakan pengecekan awalan sekali lagi dengan hasil rule: Perb* b* Yang akan menghasilkan kata dasar: Baru Adj/Adv Yang berarti bahwa kata baru memiliki dua kemungkinan label, Adj atau Adv. Dari proses di atas, ditemukan bahwa kata memperbarui adalah kata berimbuhan dengan morfologi: Me-per-baru-i Karena sistem bertujuan untuk menentukan label dari kata memperbarui, maka sistem akan mengubah susunan di atas menjadi: Me-per-Adj/Adv-i Dari susunan tersebut, sistem mengetahui bahwa ada dua kemungkinan label kata dasar. Sistem kemudian akan melakukan pengecekan untuk setiap kemungkinan label tersebut dalam penentuan label kata keseluruhan. Proses untuk baru Adj: Me-per-Adj-i Dari database pembentukan label berdasarkan imbuhan, diperoleh rule: Per-Adj V Sehingga susunan morfologi kata akan diubah menjadi: Me-V-i Selanjutnya, berdasarkan database pembentukan label juga, diperoleh rule: Me-V V Yang akan mengubah susunan morfologi kata menjadi: V-i Terakhir, dari database diperoleh rule: V-i V Sehingga pada akhirnya, sistem akan menyimpulkan bahwa: Me-per-Adj I V Proses di atas akan berulang pada pengecekan untuk baru Adv yang akan menghasilkan: Me-per-Adv-I V Karena kedua kemungkinan label tersebut menghasilkan label yang sama, V, maka sistem akan memberikan label pada kata memperbarui V. Pada kasus jenis kata polisemi seperti pada kata beruang, setiap kata akan mengalami proses pengecekan pada tagset dan pengecekan imbuhan. Contoh: Beruang itu mandi di sungai. Orang yang beruang banyak itu seorang lakilaki. Melalui pengecekan pada tagset, diperoleh: Beruang/N itu/pron mandi/v di/prep sungai/n. Orang/N yang/p beruang/n banyak/adv itu/pron seorang/num laki-laki/n. Pengecekan berlanjut ke pengecekan imbuhan yang menghasilkan: Beruang/N,V itu/pron mandi/v di/prep sungai/n. Orang/N yang/p beruang/n,v banyak/adv itu/pron seorang/num laki-laki/n. Yang menunjukkan bahwa kata beruang dapat memiliki label N dan V. Label V pada kata beruang diperoleh dari: ber-uang V ber-ruang V Sehingga label kata beruang berdasarkan jenis imbuhan yang dimilikinya adalah V. 7
16 Untuk menghilangkan ambiguitas label pada kata beruang tersebut, dilakukan pengecekan pola yang menghasilkan: N Pron V Prep N = A frekuensi V Pron V Prep N = B frekuensi Jika A>B maka kata beruang pada kalimat Beruang itu mandi di sungai. Akan diberi label N pelabelan: yang menghasilkan Beruang/N itu/pron mandi/v di/prep sungai/n. Sementara pada pengecekan pola kalimat: N P N Adv Pron = A frekuensi N P V Adv Pron = B frekuensi Jika A<B, maka kata beruang pada kalimat Orang yang beruang banyak itu seorang lakilaki. Akan diberi label V pelabelan: yang menghasilkan Orang/N yang/p beruang/v banyak/adv itu/pron seorang/num laki-laki/n. Sistem merepresentasikan aturan-aturan penambahan imbuhan dalam dua tabel basis data. Tabel pertama berisi aturan perubahan kata dasar oleh imbuhan dan tabel kedua berisi aturan perubahan kata dasar oleh akhiran. Pembentukan tabel sebagai representasi aturan dimaksudkan untuk memberikan sifat fleksibilitas pada sistem. Sehingga diharapkan perubahan kata dasar dalam bahasa apapun akan dapat diakomodasi sistem dengan menggunakan fungsi yang sama. Perubahan bahasa hanya memerlukan perubahan pada basis data awalan dan akhiran tanpa perlu mengubah pemrosesan kata pada sistem. Pengumpulan data perubahan bentuk kata dasar oleh imbuhan, pembentukan jenis kata berimbuhan, dan ciri kata dalam bahasa Indonesia dilakukan secara manual dengan mengacu pada buku acuan bahasa Indonesia. HASIL DAN PEMBAHASAN Implementasi Sistem Sistem dibangun dan dijalankan pada PC dengan klasifikasi: Tabel 3 PC Specification implementasi sistem Operating System RAM Windows XP tanpa Service Pack 512 MB Prosesor Athlon XP GHz Hard Disk Seagate 120 GB 7200 RPM Graphic Card NVIDIA GeForce MMX Bahasa Pemrograman Sistem Database Basis data sistem Microsoft Visual Basic 6.0 Microsoft Access 2000 Basis data yang digunakan oleh sistem dalam proses pembelajaran dan pengecekan adalah: - Data tagset yang terdiri dari kata dan 9 jenis kata. Jenis kata seru (interjectio) tidak terdapat pada tagset. - Data perubahan jenis kata berdasarkan jenis imbuhan yang terdiri dari 411 rule. - Data aturan perubahan kata berdasarkan imbuhan yang terdiri dari 295 rule. Proses pe mbelajaran Proses pembelajaran yang dilakukan oleh sistem menghasilkan data yang dapat dilihat pada tabel 1. Tabel 1 Data hasil pembelajaran Data Nilai Jumlah file 102 Ukuran keseluruhan file Jumlah keseluruhan token yang diproses Jumlah pola yang dipelajari Jumlah pola baru yang dipelajari byte token pola pola 8
17 Rata-rata pola baru yang dipelajari per file Waktu pembelajaran keseluruhan Rata-rata waktu pembelajaran per file Jumlah pola yang terdiri dari 5 komponen 107,03 pola 3:18:07 0:02: pola Pembelajaran dilakukan dengan menggunakan file berformat RTF (Rich Text File). File merupakan gabungan dari hasil konversi file PDF (Portable Document File) yang berasal dari CD Tutorial IlmuKomputer.com edisi 1/2004, berita kompas tahun 2003, cerpen, dan novel. Ukuran pengecekan Proses pengecekan sistem dilakukan pada 52 file teks dengan format Rich Text File (.RTF) yang terdiri dari cerpen, novel, dan berita dari surat kabar Kompas tahun Ukuran file pengecekan keseluruhan adalah byte dengan jumlah token keseluruhan token. Hasil pengecekan Pengecekan yang dilakukan terhadap sistem menghasilkan data sebagai berikut: Tabel 2 Data hasil pengecekan sistem Data Nilai Jumlah file yang dicek 52 Ukuran file keseluruhan yang diproses Jumlah keseluruhan token yang diproses Jumlah token yang diperoleh labelnya melalui pengecekan tagset Jumlah token yang diperoleh labelnya melalui pengecekan imbuhan byte token (68,34%) (10,61%) Jumlah token yang ambigu (20, 40%) Jumlah token yang diperoleh labelnya melalui pengecekan pola Jumlah token yang berhasil diidentifikasi Jumlah token yang tidak berhasil diidentifikasi Waktu pemrosesan keseluruhan Rata-rata waktu pemrosesan per file Rata-rata waktu pemrosesan per token PEMBAHASAN (35,2%) (97,82%) (2,18%) 2:25:39 0:06:56 0:0:0.07 detik Persentase pengecekan tagset dan imbuhan Jumlah token yang dikenali melalui pengecekan tagset hanya 68,34%. Hal ini dikarenakan tagset tidak mengandung data kata berulang, nama, singkatan, istilah, dan kata seru. Persentase token yang ambigu Token dianggap ambigu apabila memiliki lebih dari satu label. Token yang ambigu terdiri dari: - Token yang memperoleh lebih dari satu label pada pengecekan tagset. Contoh: yang P/Prep - Token yang memperoleh label yang berbeda antara hasil pengecekan tagset dengan hasil pengecekan imbuhan. Contoh: beruang N (dari tagset)/v (dari imbuhan) Semua kemungkinan di atas menyebabkan persentase token ambigu yang dihasilkan cukup besar, 20,40%. Persentase pengecekan pola Token yang ambigu dan token yamg masih tidak memiliki label akan diproses lebih lanjut pada pengecekan pola. Label dari token akan dikenali sewaktu pengecekan pola apabila memenuhi persyaratan: 9
18 - Pola sudah pernah dipelajari pada waktu proses pembelajaran - Minimal ada satu token lain di sekitar token yang bermasalah yang sudah memiliki label yang fix. Dengan persyaratan di atas, token yang berhasil dikenali melalui pengecekan pola adalah 35,2 %. Persentase token yang berhasil dikenali Persentase token yang berhasil dikenali dari keseluruhan proses pengecekan adalah 97,82%. Sebanyak 68,34% dari keseluruhan token diperoleh labelnya melalui pengecekan pada tagset. Sebanyak 10,61% dari keseluruhan token diperoleh labelnya melalui metode pengenalan imbuhan. Perhitungan persentase token yang berhasil dikenali diperoleh dari jumlah token yang sudah tidak ambigu dibagi jumlah token keseluruhan yang dicek. Persentase token yang tidak berhasil diidentifikasi Persentase token yang tidak dikenali adalah 2,18%. Persentase ini disebabkan halhal berikut: - Ukuran tagset yang kecil. Dibandingkan dengan Kamus Besar Bahasa Indonesia yang terdiri dari kata dasar, tagset yang digunakan sistem yang terdiri dari kata termasuk kata berimbuhan tentu saja sangat kecil. Hal ini menyebabkan banyaknya kata yang tidak terdaftar pada tagset. - Dokumen pelatihan dan pengecekan melibatkan dokumen cerpen, tutorial, dan novel. Beberapa dokumen mengandung istilah-istilah komputer yang berasal dari bahasa inggris dan juga bahasa percakapan yang tidak baku. Hal ini tentu saja sangat mempengaruhi tingkat pengenalan label token. - Pada sistem Unsupervised Learning Partof-Speech Tagging Eric Brill (1995), semua kata terlebih dahulu diberikan label berdasarkan label yang terbanyak. Pada sistem ini, untuk menghindari kesalahan pada waktu pengecekan pola, semua kata dianggap tidak diketahui labelnya terlebih dahulu. Persentase token yang berhasil diidentifikasi secara benar Pengecekan secara manual dilakukan terhadap dokumen yang diuji untuk menghitung persentase token yang berhasil diidentifikasi secara benar. Hasil pengecekan menunjukkan bahwa dari 431 token, 11 token tidak berhasil diidentifikasi. Sementara jumlah token yang berhasil diidentifikasi secara benar sebanyak 359 token atau 85,85%. Pengecekan dilakukan dengan membandingkan label hasil proses sistem dengan Kamus Besar Bahasa Indonesia. Dari hasil pengecekan secara manual, dapat dihitung bahwa sebanyak 11,6% token dilabeli secara salah oleh sistem. Angka ini berasal dari beberapa kemungkinan: - Data tagset yang kurang akurat. Sehingga pelabelan berdasarkan pencarian pada tagset akan menghasilkan label yang salah. - Beberapa pola kata yang jarang digunakan akan memiliki frekuensi kemunculan yang kecil. Sehingga sistem akan lebih memilih pola kata lain yang memiliki frekuensi kemunculan lebih besar walaupun pola kata tersebut salah. KESIMPULAN DAN SARAN Kesimpulan Penelitian ini mengimplementasikan metode Unsupervised Learning Rule-based Part-of-Speech Tagging untuk pelabelan kata dalam bahasa Indonesia. Penelitian ini menambahkan metode pengecekan jenis imbuhan pada metode Unsupervised Learning Rule-based Part-of- Speech Tagging sehingga berhasil mengenali 97,85% token. Persentase token yang berhasil dikenali secara benar adalah 85,85%. Sistem berhasil mengekstrak pola dari proses pelatihan. 10
19 Saran Tagset yang digunakan pada penelitian hanya memuat sebagian kecil dari khazanah kata dalam bahasa Indonesia. Sistem akan berjalan lebih baik bila menggunakan tagset yang lebih besar. Algoritma yang lebih baik dalam proses pencarian data maupun pemrosesan teks dapat mempercepat waktu eksekusi sistem. Tingkat keberhasilan pengenalan label kata dapat ditingkatkan dengan menggunakan pengenalan frase berdasarkan aturan yang berlaku pada bahasa Indonesia. DAFTAR PUSTAKA Brill E A simple rule-based part of speech tagger. In Proceedings of the Third Annual Conference on Applied Natural Language Processing. Itali: Trento. Brill E Transformation-based errordriven learning and natural language processing: A case study in Part-of- Speech Tagging. Computational Linguistic (no. 21) 4: Cutting D, Kupiec J, Pedersen J, dan Sibun P A Practical Part -of-speech Tagger. In Proceedings of the Third Annual Conference on Applied Natural Language Processing. Itali: Trento. [Depdiknas] Departemen Pendidikan Nasional Kamus Besar Bahasa Indonesia. Ed ke-3. Jakarta: Balai Pustaka. Jones KS Natural Language Processing: she need something old and something new (maybe something borrowed and something blue, too). In Proceeding of Association for Computational Linguistic. England: Cambridge. James A Natural Language Understanding. CA: Benjamin Cummings. Keraf G Tatabahasa Indonesia. Flores: Nusa Indah. Krulee G Computer Processing of Natural Language. USA: Prentice-Hall. Porter MF An Algorithm for Suffix Stripping. Program 14 (no. 3) 7: Rabiner LR A Tutorial on hidden Markov Models and Selected Application in Speech Recognition. In Proceeding of the IEEE. Vasilakopoulos A Improved unknown word guessing by decision tree induction for POS Tagging with TBL. In Proceeding of CLUK Edinburg. Weischedel R, Meteer M, Schwartz R, Ramshaw L, dan Palmucci J Coping with Ambiguity and Unknown Words through Probabilistic Models. Computational Linguistic (no. 19) 2:
20 Lampiran
21 Lampiran 1 Tahapan ekstraksi jawaban pada Question Answering System (QAS)
22 Lampiran 2 Klasifikasi pendekatan algoritma Part-of-Speech Tagging (Linda, 1995)
23 Lampiran 3 Proses rule-based tagging Pengubahan dokumen menjadi Plain Teks Tokenize Stemming Tagging
PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA. M Karibun H S
PENERAPAN METODE RULE-BASED DENGAN UNSUPERVISED LEARNING UNTUK PELABELAN DOKUMEN BERBAHASA INDONESIA Oleh: M Karibun H S G64101053 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen
Lebih terperinciUKDW BAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan
Lebih terperinciPENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL
Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2013 PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL I Wayan Hendra Maha Putra¹, Imelda Atastina², Alfian Akbar Gozali³ ¹Teknik
Lebih terperinci1. PENDAHULUAN 1.1 Latar belakang Masalah
1. PENDAHULUAN 1.1 Latar belakang Masalah Bahasa Indonesia adalah alat yang mampu menjembatani penduduk Indonesia yang terdiri dari berbagai suku dan bahasa untuk dapat berkomunikasi satu sama lainnya.
Lebih terperinciPART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.
PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. 1208605026 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang Masalah
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Information Retrieval (pencarian Informasi) adalah proses pemisahan dokumen-dokumen dari sekumpulan dokumen yang ada untuk memenuhi kebutuhan pengguna. Jumlah
Lebih terperinciPENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA
BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses penentuan jenis kata (part of speech tagging)
Lebih terperinciIKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan)
IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan) (Bab 8.5-8.8 Jurafsky & Martin) Ruli Manurung Fakultas Ilmu Komputer Universitas Indonesia 25 Februari 2008 Outline Stochastic POS Tagging
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari Negara Indonesia. Berdasarkan ketentuan UU Nomor 24 tahun 2009 (Pasal 3) tujuan dari penggunaan Bahasa Indonesia sebagai bahasa
Lebih terperinciBAB 1 PENDAHULUAN 1.1 Pengantar 1.2 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Pengantar Dengan semakin majunya teknologi komputer, banyak orang tertarik untuk menggunakan komputer. Kemampuan komputer saat ini dirasa dapat memudahkan manusia dalam menjalankan
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciPEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :
PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS
Lebih terperinciPENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA
BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA INDONESIA Pada Bab III ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses awal (preprocessing) membentuk file masukan untuk pengurai
Lebih terperinciPENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM. Oleh: WULAN ANGGRAENI G
PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM Oleh: WULAN ANGGRAENI G54101038 PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur
Lebih terperinciBAB I PENDAHULUAN! 1.1 Latar Belakang
1.1 Latar Belakang BAB I PENDAHULUAN Untuk dapat tetap bisa menjalankan proses bisnisnya dengan baik, suatu instansi harus memenuhi suatu standar dalam melayani keinginan konsumen atau yang biasa dikenal
Lebih terperinciSKRIPSI. Triastuti Chandrawati
Pengembangan Part of Speech Tagger untuk Bahasa Indonesia Berdasarkan Metode Conditional Random Fields dan Transformation Based Learning SKRIPSI Triastuti Chandrawati 1204000866 UNIVERSITAS INDONESIA FAKULTAS
Lebih terperinciBAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciFrekuensi Dominan Dalam Vokal Bahasa Indonesia
Frekuensi Dominan Dalam Vokal Bahasa Indonesia Tjong Wan Sen #1 # Fakultas Komputer, Universitas Presiden Jln. Ki Hajar Dewantara, Jababeka, Cikarang 1 wansen@president.ac.id Abstract Pengenalan ucapan
Lebih terperinciKATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008
Lebih terperinciPERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA
PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas
Lebih terperinciPENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR
PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
Lebih terperinciBAB 1 PENDAHULUAN. sepuluh. Menurut Kridalaksana kelas kata terbagi sepuluh macam sebagai
1 BAB 1 PENDAHULUAN A. Latar Belakang Kata unsur terpenting di dalam bahasa. Tanpa kata mungkin tidak ada bahasa, sebab itulah kata yang merupakan perwujudan bahasa (Chaer,2011:86). Kelas kata dalam bahasa
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciBAB 3 METODE PENELITIAN
19 BAB 3 METODE PENELITIAN 3.1. Tahap Pembentukan Knowledge Graph Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan
Lebih terperinciEKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA
EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciTEORI BAHASA DAN AUTOMATA
MODUL I TEORI BAHASA DAN AUTOMATA Tujuan : Mahasiswa memahami pengertian dan kedudukan Teori Bahasa dan Otomata (TBO) pada ilmu komputer Definisi dan Pengertian Teori Bahasa dan Otomata Teori bahasa dan
Lebih terperinciDETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED
DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED Tugas Akhir Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciText Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT
ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan
Lebih terperinciBAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Bahasa alami adalah bahasa yang biasa digunakan untuk berkomunikasi antarmanusia, misalnya bahasa Indonesia, Sunda, Jawa, Inggris, Jepang, dan sebagainya. Bahasa
Lebih terperinciTEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH
TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
Lebih terperinciUJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR
UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR oleh: MOH. KHAWARIZMIE ALIM F14101030 2006 FAKULTAS TEKNOLOGI PERTANIAN INSTITUT
Lebih terperinciKATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP
KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI
Lebih terperinciBAB 3 ANALISIS DAN PERANCANGAN
BAB 3 ANALISIS DAN PERANCANGAN 3.1 Analisis Masalah Penelitian yang sudah pernah membuat sistem ini berhasil menciptakan pembangkitan pertanyaan non-factoid secara otomatis dengan menggunakan tiga jenis
Lebih terperinciAPLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL
APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,
Lebih terperinciTEORI BAHASA DAN OTOMATA [TBO]
TEORI BAHASA DAN OTOMATA [TBO] Teori Bahasa Teori bahasa membicarakan bahasa formal (formal language), terutama untuk kepentingan perancangan kompilator (compiler) danpemroses naskah (text processor).
Lebih terperinciPENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)
PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh ROSA ARIANI SUKAMTO NIM
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah
Lebih terperinci1. Introduction. tertentu memegang peran penting dalam. Abstract
Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina
Lebih terperinciPENENTUAN KELAS KATA PADA PART OF SPEECH TAGGING KATA AMBIGU BAHASA INDONESIA
JISKa (Jurnal Informatika Sunan Kalijaga), Vol. 2, No. 3, Januari, 2018, Pp. 157 166 ISSN 2527-5836 PENENTUAN KELAS KATA PADA PART OF SPEECH TAGGING KATA AMBIGU BAHASA INDONESIA Ahmad Subhan Yazid (1),
Lebih terperinciHASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen
6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat
Lebih terperinciBAB 4 IMPLEMENTASI DAN HASIL PERANCANGAN
29 BAB 4 IMPLEMENTASI DAN HASIL PERANCANGAN 4.1 Spesifikasi Kebutuhan Sarana Untuk dapat menjalankan program aplikasi ini, dibutuhkan perangkat keras dan lunak yang memiliki spesifikasi sebagai berikut
Lebih terperinciSistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
Lebih terperinciSIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.1 April 2015 Page 262 SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL SIMULATION AND ANALYSIS
Lebih terperinciPembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)
JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-71 Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciBAB I PENDAHULUAN. I.1 Latar Belakang
BAB I PENDAHULUAN I.1 Latar Belakang Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan komputer menggunakan
Lebih terperinciANALISIS DAN PERANCANGAN APLIKASI HELP DESK BERBASIS INTRANET DENGAN PENERAPAN METODE NATURAL LANGUAGE PROCESSING PADA PT GLOBAL INFORMASI BERMUTU
ANALISIS DAN PERANCANGAN APLIKASI HELP DESK BERBASIS INTRANET DENGAN PENERAPAN METODE NATURAL LANGUAGE PROCESSING PADA PT GLOBAL INFORMASI BERMUTU SKRIPSI Oleh Lia 0900787940 Hirenny Ika Surianty 0900792360
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Seiring dengan perkembangan teknologi informasi, maka proses dan media penyimpanan data pun semakin berkembang. Dengan adanya personal computer (PC), orang dapat menyimpan,
Lebih terperinciTruecasing untuk Teks Bahasa Indonesia
Truecasing untuk Teks Bahasa Indonesia Said Al Faraby dan Ade Romadhony Fakultas Informatika Universitas Telkom Indonesia {saidalfaraby,aderomadhony}@telkomuniversity.ac.id Abstrak Penggunaan huruf besar
Lebih terperinciPERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,
Lebih terperinciPENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI
PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Lebih terperinciIMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE
IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut
Lebih terperinciKarakteristik Spesifikasi
Sinyal yang masuk difilter ke dalam sinyal frekuensi rendah (low-pass filter) dan sinyal frekuensi tinggi (high-pass filter) Lakukan downsampling pada kedua sinyal tersebut Low-pass frekuensi hasil downsampling
Lebih terperinciIdentifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN
5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciPELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI
PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan
Lebih terperinciNatural Language Processing
Disiplin ilmu NPL Natural Language Processing By: Uro Abdulrohim, S.Kom, MT Fonetik / fonologi Morfologi Sintaksis Semantik Pragmatik Discource knowledge World knowledge 1 3 Apa itu NLP Proses pembuatan
Lebih terperinciBab 1 Pendahuluan 1.1 Pengantar
Bab 1 Pendahuluan 1.1 Pengantar Pada awalnya komputer hanya dapat digunakan oleh mereka yang ahli, peneliti, dan orang-orang yang punya keahlian khusus. Kini penggunaan komputer tidak hanya terbatas bagi
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey
Lebih terperinciPENYAJIAN SISTEM INFORMASI SPASIAL SUMBER DAYA ALAM DENGAN MENGGUNAKAN FRAMEWORK PMAPPER AMALIA RAHMAWATI G
PENYAJIAN SISTEM INFORMASI SPASIAL SUMBER DAYA ALAM DENGAN MENGGUNAKAN FRAMEWORK PMAPPER AMALIA RAHMAWATI G64103020 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN 3.1 Tempat dan Waktu Penelitian Penelitian ini mengambil tempat di Universitas Muhammadiyah Yogyakarta yang berlokasi di Jl. Lingkar Selatan, Kasihan, Bantul, Daerah Istimewa
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam melakukan penelitian, untuk memudahkan penelitian dalam melakukan penelitian dibutuhkan
Lebih terperinciBAB 1 PENDAHULUAN. mengkonversikan tulisan / teks ke dalam bentuk ucapan dengan menggunakan
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Aplikasi Text-to-Speech ( TTS ) merupakan suatu aplikasi yang digunakan untuk mengkonversikan tulisan / teks ke dalam bentuk ucapan dengan menggunakan pemodelan
Lebih terperinciSKRIPSI RANTI RAMADHIANA
EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinci1.2. Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Komputer dimanfaatkan dalam segala bidang dikarenakan
Lebih terperinciPEMODELAN DATA PANEL SPASIAL DENGAN DIMENSI RUANG DAN WAKTU TENDI FERDIAN DIPUTRA
PEMODELAN DATA PANEL SPASIAL DENGAN DIMENSI RUANG DAN WAKTU TENDI FERDIAN DIPUTRA DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 RINGKASAN TENDI
Lebih terperinciBAB 4 IMPLEMENTASI DAN EVALUASI PROGRAM. Spesifikasi komputer yang digunakan dalam perancangan sistem ini adalah sebagai
BAB 4 IMPLEMENTASI DAN EVALUASI PROGRAM 4.1 Spesifikasi Hardware dan Software Spesifikasi komputer yang digunakan dalam perancangan sistem ini adalah sebagai berikut: Perangkat Keras (Hardware) o RAM 2
Lebih terperinciBAB 4 IMPLEMENTASI DAN EVALUASI
BAB 4 IMPLEMENTASI DAN EVALUASI Untuk mengetahui manfaat dari aplikasi backup dan restore ini, perlu dilakukan suatu implementasi. Implementasi yang benar dan tepat sasaran memerlukan pula ketersediaan
Lebih terperinciMETODE NERACA ENERGI UNTUK PERHITUNGAN LEAF AREA INDEX (LAI) DI LAHAN BERVEGETASI MENGGUNAKAN DATA CITRA SATELIT RUDI SETIAWAN
METODE NERACA ENERGI UNTUK PERHITUNGAN LEAF AREA INDEX (LAI) DI LAHAN BERVEGETASI MENGGUNAKAN DATA CITRA SATELIT RUDI SETIAWAN DEPARTEMEN GEOFISIKA DAN METEOROLOGI FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
Lebih terperinciCROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU
CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR
Lebih terperinciSISTEM PENGOLAHAN DATA RUMAH SAKIT UMUM HIDAYAH MENGGUNAKAN VISUAL BASIC 6.0 TUGAS AKHIR HENRY YOGI SYAMBARA
i SISTEM PENGOLAHAN DATA RUMAH SAKIT UMUM HIDAYAH MENGGUNAKAN VISUAL BASIC 6.0 TUGAS AKHIR HENRY YOGI SYAMBARA 102406237 PROGRAM STUDI D3 TEKNIK INFORMATIKA DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN
Lebih terperinciPERANCANGAN SISTEM INFORMASI PERPUSTAKAAN SMA NEGERI 1 DOLOK MASIHUL DENGAN MENGGUNAKAN VISUAL BASIC 6.0 TUGAS AKHIR IRMA YUNITA
PERANCANGAN SISTEM INFORMASI PERPUSTAKAAN SMA NEGERI 1 DOLOK MASIHUL DENGAN MENGGUNAKAN VISUAL BASIC 6.0 TUGAS AKHIR IRMA YUNITA 082406047 PROGRAM STUDI D-III TEKNIK INFORMATIKA DEPARTEMEN MATEMATIKA FAKULTAS
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciBAB 1 PENDAHULUAN Building A Data WareHouse for Decision Support Second Edition Data Mining : Concepts, Models, Methods, and Algorithms
BAB 1 PENDAHULUAN 1.1. Pendahuluan Mesin hitung bernama Komputer sejak satu dekade ini telah tumbuh dan berkembang dengan pesat. Perkembangan ini meliputi sisi teknologi, kapasitas media penyimpanan, dan
Lebih terperinciPengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model
Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model Ziaul Haq, Teknik Informatika S1,Universitas Dian Nuswantoro Semarang Abstract Pengenalan
Lebih terperinciAPLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM
APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM Silvia Rostianingsih 1), Sendy Andrian Sugianto 2), Liliana 3) 1, 2, 3) Program Studi Teknik Informatika Fakultas Teknologi Industri Universitas
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Pendahuluan. 1.2 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Pendahuluan Dewasa ini komputer berkembang sangat pesat di berbagai bidang kehidupan. Perkembangan ini didukung oleh proses komputasi yang sangat cepat dan juga dukungan pengolahan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciBAB III METODOLOGI PENELITIAN. ini. Pada dasarnya penelitian ini terpisah antara pengembangan MBROLA
BAB III METODOLOGI PENELITIAN 3.1 Desain Penelitian Desain penelitian yang dilakukan dapat dilihat pada gambar 3.1 dibawah ini. Pada dasarnya penelitian ini terpisah antara pengembangan MBROLA dan sistem
Lebih terperinciANALISIS KINERJA INSTITUT PERTANIAN BOGOR BERDASARKAN SURVEI KEPUASAN MAHASISWA DAN EPBM AHMAD CHAERUS SUHADA
ANALISIS KINERJA INSTITUT PERTANIAN BOGOR BERDASARKAN SURVEI KEPUASAN MAHASISWA DAN EPBM AHMAD CHAERUS SUHADA DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Lebih terperinciPart-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi
IJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 ISSN: 1978-1520 1 Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi Nitin Sabloak 1, Bebeto Agung Hardono 2, Derry Alamsyah 3 1,2 STMIK GI
Lebih terperinciPENGGEROMBOLAN DUA TAHAP DESA-DESA DI JAWA TENGAH ALIFTA DIAH AYU RETNANI
PENGGEROMBOLAN DUA TAHAP DESA-DESA DI JAWA TENGAH ALIFTA DIAH AYU RETNANI DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2012 RINGKASAN ALIFTA DIAH AYU RETNANI.
Lebih terperinciBAB V P E N U T U P. Ketika kita membaca semua tulisan dalam tesis yang berjudul Kalimat
BAB V P E N U T U P 5.1 Kesimpulan Ketika kita membaca semua tulisan dalam tesis yang berjudul Kalimat tunggal bahasa Sula yang dipaparkan bahasan masaalahnya mulai dari bab II hingga bab IV dalam upaya
Lebih terperinciBAB 1 PENDAHULUAN Pengantar
BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Penggunaan komputer kini tidak lagi terbatas
Lebih terperinciDAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.
DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...
Lebih terperinciIMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciBAB 1 PENDAHULUAN. Internet, dalam (28 April 2006)
BAB 1 PENDAHULUAN 1.1. Pengantar Komputer adalah alat yang dipakai untuk mengolah informasi menurut prosedur yang telah dirumuskan. Kata computer semula dipergunakan untuk menggambarkan orang yang perkerjaannya
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Basis data merupakan kumpulan data yang berisi informasi yang sesuai bagi sebuah institusi/perusahaan (Silberschatz, 2002). Data-data yang disimpan dalam basis data
Lebih terperinciPERANCANGAN SISTEM INFORMASI MANUFAKTUR PADA PT. TEPAT INDUSTRI OLEH CV. ART TECHNOLOGY BANDUNG
PERANCANGAN SISTEM INFORMASI MANUFAKTUR PADA PT. TEPAT INDUSTRI OLEH CV. ART TECHNOLOGY BANDUNG Laporan Praktek Kerja Lapangan Diajukan untuk memenuhi syarat matakuliah Praktek Kerja Lapangan Program strata
Lebih terperinciBAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN Bab ini akan menjelaskan latar belakang dari penelitian yang memberikan gambaran awal mengenai analisis sentimen dan perannya dalam perkembangan teknologi informasi. Tujuan dan ruang
Lebih terperinci