Truecasing untuk Teks Bahasa Indonesia

Ukuran: px
Mulai penontonan dengan halaman:

Download "Truecasing untuk Teks Bahasa Indonesia"

Transkripsi

1 Truecasing untuk Teks Bahasa Indonesia Said Al Faraby dan Ade Romadhony Fakultas Informatika Universitas Telkom Indonesia Abstrak Penggunaan huruf besar pada dokumen teks mengandung informasi penting tentang makna dari kata-kata yang terdapat di dalam dokumen tersebut. Kesalahan penulisan atau tidak adanya penanda huruf besar dapat menimbulkan efek pada pemrosesan teks selanjutnya. Sementara itu terdapat beberapa kondisi di mana penulisan huruf besar tidak ditemui atau tidak dilakukan dengan tepat, antara lain pada teks informal dan teks transkrip berita. Truecasing adalah pekerjaan untuk memberikan penandaan huruf besar pada teks yang tidak mengandung informasi atau mempunyai banyak kesalahan dalam penggunaan huruf besar. Dengan diterapkannya truecasing, kualitas dokumen teks akan meningkat karena akan dihasilkan data yang lebih bersih. Makalah ini memaparkan tentang truecasing untuk dokumen teks bahasa Indonesia yang diimplementasikan dengan metode HMM. 1 Pendahuluan Pemrosesan dokumen teks sangat bergantung pada kualitas perangkat pemroses bahasa yang digunakan. Perangkat pemroses bahasa umumnya mensyaratkan kondisi bahwa teks yang diproses adalah teks yang dituliskan dalam bentuk formal. Terdapat dua kelompok umum metode yang digunakan dalam perangkat pemroses bahasa, yaitu berbasis aturan dan berbasis pembelajaran atau statistika. Syarat bentuk dokumen formal tersebut disebabkan koleksi dokumen yang digunakan sebagai sumber pembelajaran mayoritas adalah dokumen formal. Oleh karena itu, ketidaksesuaian dalam aturan penulisan dapat menyebabkan kesalahan hasil pemrosesan perangkat pemroses bahasa. Di sisi lain, dengan semakin berkembangnya media untuk menyebarkan informasi, semakin beragam pula gaya penulisan. Efek yang ditimbulkan antara lain adalah teks yang tidak bersih, misalnya penggunaan huruf besar yang tidak tepat. Sementara penggunaan huruf besar pada suatu kata dapat menjadi fitur penting dalam pekerjaan pemroses bahasa. Sebagai contoh pada pekerjaan Named Entity Recognition (NER). Pada pekerjaan NER, salah satu fitur penting adalah penggunaan huruf besar, karena menandakan bahwa kata yang dituliskan diawali atau seluruhnya menggunakan huruf besar adalah sebuah entitas penting. Jika penggunaan huruf besar dalam teks tidak tepat, dapat menyebabkan perangkat untuk NER tidak menghasilkan keluaran yang benar. Kasus lain di mana tidak terdapat informasi tentang penggunaan huruf besar adalah pada dokumen transkrip yang merupakan keluaran dari perangkat pemroses suara dan mesin penerjemah. Perangkat pemroses suara umumnya mengeluarkan teks dalam format huruf besar semua atau huruf kecil semua. Tentu saja kondisi tersebut menyebabkan perlunya pemrosesan lebih lanjut untuk menuliskan teks keluaran dengan informasi huruf besar yang tepat, seperti dilakukan oleh (Liang & Wu, 2003) dan (Tan & Bond, 2014). Berdasar latar belakang tersebut, dalam makalah ini diusulkan sebuah perangkat untuk menerapkan penggunaan huruf besar yang tepat dalam teks bahasa Indonesia. Penelitian sebelumnya tentang truecasing lebih banyak ditemui untuk diterapkan pada bahasa Inggris. Pada bahasa yang berbeda tentu aturan yang digunakan juga berbeda. Pekerjaan lain yang berhubungan erat dengan truecasing adalah pendeteksian ambiguitas pada kata, disambiguitas sense pada kata, dan spelling correction. Sistem truecasing untuk bahasa Inggris antara lain dibahas pada (Lita, Ittycheriah, Roukos, & Kambhatla, 2003), diimplementasikan sebagai sebuah fasilitas anotasi pada perangkat Stanford NLP (Manning et al., 2014), serta truecaser khusus untuk media sosial (Nebhi, Bontcheva, & Gorrell, 2015). Pada penelitian (Lita et al., 2003), truecaser dibangun dengan pendefinisian model bahasa serta menggunakan metode HMM. Sementara pada perangkat Stanford NLP anotasi truecase diimplementasikan dengan metode CRF. Persoalan truecasing diartikan sebagai proses restorasi penggunaan huruf besar yang benar pada kata dalam kalimat. Persoalan tersebut dipandang

2 sebagai persoalan sequence labeling atau klasifikasi. Oleh karena itu beberapa sistem truecaser menggunakan metode untuk sequence labeling seperti halnya HMM dan CRF, atau SVM untuk menyelesaikan persoalan klasifikasi. Contoh pengaruh penggunaan huruf besar yang tidak tepat dalam pemrosesan teks untuk pekerjaan lain seperti pengenalan Named Entity dapat dilihat pada Gambar I. Pengenalan Named Entity dilakukan dengan perangkat Stanford CoreNLP 1. Pada contoh tersebut, teks transkrip yang dituliskan dalam huruf besar semua menyebabkan pengenalan Named Entity tidak tepat. Terdapat Named Entity Organization yang tidak dapat dikenali, dan Named Entity Location yang salah dikenali sebagai Person. Jika teks tersebut dimodifikasi sehingga huruf besar digunakan secara tepat, semua Named Entity dapat dikenali dengan tepat pula. Mengenai truecasing untuk teks bahasa Indonesia sendiri sejauh ini belum ditemui penelitian sejenis. Begitu juga dengan efek yang ditimbulkan pada pekerjaan lainnya jika huruf besar tidak digunakan secara tepat. Sejauh ini hanya ditemui sistem NER bahasa Indonesia (InNER) (Budi, Bressan, Wahyudi, Hasibuan, & Nazief, 2005), namun tidak ditemukan penjelasan khusus tentang penggunaan fitur huruf besar. 2 Aturan Penggunaan Huruf Besar Bahasa Indonesia Bahasa Indonesia mempunyai aturan tersendiri dalam penggunaan huruf besar dalam teks. Aturan tersebut didefinisikan dalam Ejaan Yang Disempurnakan (EYD) 2. Berdasarkan posisinya dalam kalimat, huruf besar digunakan pada awal kalimat dan pada awal kalimat setelah petikan langsung. Contoh penggunaan pada awal kalimat setelah petikan langsung adalah sebagai berikut: Ia menanyakan Ada apa di dalam sana? Gambar I Contoh Pengaruh Penggunaan Huruf Besar Terhadap Pengenalan Named Entity Selain berdasarkan pada posisi, penggunaan huruf besar juga diterapkan pada kata-kata tertentu, yaitu: Kata dan ungkapan yang berhubungan dengan agama, kitab suci, dan Tuhan, termasuk kata ganti untuk Tuhan. Unsur-unsur nama orang Nama bangsa, suku bangsa, dan bahasa Nama tahun, bulan, hari, dan hari raya Unsur-unsur nama peristiwa sejarah Unsur-unsur nama diri geografi Unsur nama resmi negara, lembaga resmi, lembaga ketatanegaraan, badan, dan nama dokumen resmi Semua kata di dalam judul buku, majalah, surat kabar, dan makalah, kecuali kata tugas Kata Anda yang digunakan dalam penyapaan Terdapat pula beberapa kondisi penggunaan huruf besar dengan syarat tertentu, yaitu bergantung pada kata setelahnya. Berikut adalah kondisi penggunaan huruf besar yang bergantung pada kata setelahnya: Huruf pertama nama gelar kehormatan, keturunan, dan keagamaan yang diikuti nama orang. Nama jabatan dan pangkat yang merujuk kepada nama orang, nama instansi, atau nama tempat tertentu. Huruf besar tidak dipakai sebagai huruf pertama nama diri geografi yang digunakan sebagai penjelas nama jenis. Huruf besar tidak dipakai sebagai huruf pertama kata yang bukan nama resmi negara, lembaga resmi, lembaga ketatanegaraan, badan, dan nama dokumen resmi. 3 Deskripsi Sistem Berdasarkan aturan penggunaan huruf besar bahasa Indonesia sesuai dengan EYD, dilakukan perancangan sistem untuk truecaser bahasa Indonesia. Persoalan truecasing dipandang sebagai persoalan sequence labeling. Jenis label penggunaan huruf besar dalam

3 kata dibagi menjadi empat kelas, yaitu: semua huruf dituliskan dalam huruf kecil (LC), huruf awal kata adalah huruf besar (UC), semua huruf dalam kata adalah huruf besar (AC), kata dituliskan dalam huruf besar dan kecil/campuran (MC). Metode yang digunakan adalah Hidden Markov Model (HMM) karena merupakan salah satu metode handal dalam persoalan sequence labeling (Nguyen & Guo, 2007). Fitur yang digunakan adalah: Current word Previous word Next word Fitur previous word digunakan untuk memberikan konteks pada current word, misalnya kata terserah di tengah kalimat biasanya dilabeli LC, namun jika previous word-nya adalah restoran maka bisa jadi terserah adalah nama restoran sehingga harus dilabeli UC. Begitu juga dengan fitur next word, digunakan karena berdasar aturan EYD tentang penggunaan huruf besar, terdapat beberapa poin aturan yang mensyaratkan kondisi kata setelahnya. Model HMM C t-1 C t C t+1 W t-1 W t W t+1 Gambar 2 Representasi grafis HMM, dimana C adalah hidden variable dan W adalah observable variable. HMM adalah sebuah generative model yang secara natural biasa digunakan untuk permasalahan sequence labeling (Rabiner, 1989). Ilustrasi generative process dari HMM dapat dilihat pada Gambar 2. Secara formal HMM adalah sebuah generative model yang didefinisikan melalui komponen berikut : 1. C : Hidden states dalam HMM. Untuk permasalahan true casing S terdiri dari jenis casing yang mungkin, yaitu LC, CA, UC, MC. 2. W : Himpunan observations. Dalam hal ini W adalah token (kata) yang ada dalam pembelajaran set. Untuk Unknown token bias dihandle secara terpisah untuk menghindari zero probability. 3. T : State transition probabilities. Probabilitas perpindahan antara suatu hidden state ke hidden state yang lain. mengindikasikan probabilitas case akan diikuti oleh case dalam suatu kalimat. Probabilitas ini didapatkan dari proses pembelajaran HMM menggunakan data pembelajaran. 4. E : Emission probabilities. merepresentasikan probabilitas munculnya observasi jika HMM sedang berada di state. 5. P(C) : Initial distribution. menyatakan probabilitas sekuens dimulai dengan casing Jika diberikan sebuah sekuen kata dengan panjang, maka tugas HMM adalah mencari sekuen hidden states, yang dalam hal ini sekuen jenis case, yang paling memungkinkan menghasilkan sekuen kata tersebut. 4 Eksperimen Dataset yang digunakan pada eksperimen adalah artikel berita yang diperoleh dari media Kompas online 2. Penggunaan artikel berita surat kabar online sebagai sumber dataset berdasar asumsi bahwa penulisan teks telah mengikuti aturan EYD. Jumlah total artikel adalah Untuk baseline, dengan mengadopsi metode pada penelitian sebelumnya (Lita et al., 2003), digunakan pendefinisian label penggunaan huruf besar berdasar peluang kemunculan terbesar. Terdapat dua skenario pengujian yang dilakukan, yaitu skenario dengan data uji tanpa unknown words dan data uji dengan unknown words. Pada skenario pertama, kasus yang muncul adalah pemberian label huruf besar pada kata-kata yang mempunyai kemungkinan dituliskan dengan cara yang berbeda. Misalnya kata presiden dapat dituliskan dengan diawali huruf besar, atau dengan huruf kecil semua. Sementara pada skenario kedua, akan diamati bagaimana performansi sistem dalam menangani kata-kata yang tidak muncul dalam data pembelajaran. Pada skenario I, jumlah total artikel yang digunakan pada data pembelajaran untuk skenario pertama adalah 7255 artikel. Sejumlah 80% digunakan untuk proses pembelajaran dan 20% untuk data uji. Pada data pembelajaran, terdapat 3991 kata unik, dan 471 kata yang mempunyai variasi penggunaan huruf besar > 1. Variasi yang dijumpai hanya berupa kata dituliskan dalam huruf kecil semua atau diawali dengan huruf besar ( 2 variasi). Skenario II menggunakan data pembelajaran yang sama dengan Skenario I, namun untuk data uji terdapat 9 artikel dengan yang mengandung 845 unknown words. Pada eksperimen yang telah dilakukan, dikembangkan 3 buah Model : Unigram Model sebagai baseline 2

4 Tabel 1 Performasi tiap model dalam Precision, Recall, dan F-measure pada data uji untuk skenario I Model LC (76.43%) UC (18.89%) MC (3.77%) CA (0.19%) F- P R F1 P R F1 P R F1 P R F1 AVG Unig HMM HMM Tabel 2 Performansi tiap model dalam Precision, Recall, dan F-measure pada data uji untuk skenario II Model LC (76.43%) UC (18.89%) MC (3.77%) CA (0.19%) F- P R F1 P R F1 P R F1 P R F1 AVG Unig HMM HMM HMM1 Model, yaitu HMM dengan fitur/observasi hanya berupa current word, HMM2 Model, yaitu HMM dengan fitur/observasi previous word, current word, dan next word. Pengukuran performansi sistem dilakukan menggunakan metriks precision, recall, dan F- measure. Untuk Matrik F-AVG dihitung dengan mempertimbangkan persentase jumlah token tiap case, sehingga Hasil eksperimen untuk skenario I dan II terdapat pada Tabel 1 dan Tabel 2. Untuk skenario I dimana tidak terdapat unknown words pada data uji, HMM1 dengan fitur hanya berupa current word lebih baik dari pada dua metode lainnya. HMM1 berhasil memaksimalkan performansi pada label LC dan UC yang memberikan kontribusi terbesar pada data uji. Sedikit menarik bahwa HMM2 dengan fitur yang lebih kompleks menunjukkan performa yang sedikit inferior dibanding HMM1. Hal ini menunjukkan bahwa untuk data uji yang memiliki tingkat kesamaan kata yang tinggi (e.g tanpa unknown words), current word dan case/label pada kata sebelumnya (implisit dari cara kerja HMM), sudah cukup untuk melakukan prediksi. Untuk skenario II, dimana terdapat ±30% unknown words, HMM2 memiliki F-AVG terbaik. Walaupun nilai F1(LC) HMM2 sedikit lebih kecil dibanding Unigram, namun HMM2 secara signifikan mengungguli Unigram pada semua komponen UC yang memiliki kontribusi kedua terbesar pada data uji. Hal inilah yang pada akhirnya membuat HMM2 secara F-AVG lebih baik dibanding Unigram. Bisa dikatakan bahwa pada data uji yang memiliki banyak unknown words, fitur tambahan seperti next word dan previous word lebih dibutuhkan untuk melakukan prediksi yang lebih baik. 5 Pengembangan Selanjutnya Berdasarkan hasil performansi eksperimen, terlihat bahwa sistem masih mempunyai kelemahan dalam menangani unknown words. Hal ini membuka peluang untuk pengembangan berupa penanganan kasus unknown words. Metode lain yang dapat diterapkan untuk persoalan pelabelan seperti klasifikasi dengan SVM dan sequence labeling dengan CRF juga dapat dikaji. Batasan dalam eksperimen berupa diabaikannya tanda baca juga membuat kasus penggunaan huruf besar dalam kalimat langsung belum dapat ditangani. Peluang pengembangan selanjutnya adalah penerapan truecaser untuk pekerjaan lain seperti pengenalan Named Entity, ekstraksi informasi, dan mesin penerjemah. Perkembangan pada media sosial juga membuat metode yang diterapkan pada teks dengan tata bahasa formal kemungkinan tidak sesuai jika diterapkan pada teks informal. Perlu kajian lebih lanjut untuk truecaser pada teks informal atau media sosial. Referensi Budi, I., Bressan, S., Wahyudi, G., Hasibuan, Z. A., & Nazief, B. A. (2005). Named entity recognition for the indonesian language: combining contextual, morphological and part-of-speech features into a knowledge engineering approach. Discovery Science (pp ). Springer. Liang, Y.-T., & Wu, J.-C. (2003). Restoration of Case Information in All-Cap English Broadcast Transcription. ROCLING. Lita, L. V., Ittycheriah, A., Roukos, S., & Kambhatla, N. (2003). Truecasing. Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1 (pp ). Association for Computational Linguistics.

5 Manning, C. D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., & McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations (pp ). Nebhi, K., Bontcheva, K., & Gorrell, G. (2015). ResToRinG CaPitaLiZaTion in# TweeTs. Proceedings of the 24th International Conference on World Wide Web Companion (pp ). International World Wide Web Conferences Steering Committee. Nguyen, N., & Guo, Y. (2007). Comparisons of sequence labeling algorithms and extensions. Proceedings of the 24th international conference on Machine learning (pp ). ACM. Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), IEEE. Tan, L., & Bond, F. (2014). Manipulating Input Data in Machine Translation. Proceedings of the 1st Workshop on Asian Translation (WAT2014).

BABI PENDAHULUAN. 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari Negara Indonesia. Berdasarkan ketentuan UU Nomor 24 tahun 2009 (Pasal 3) tujuan dari penggunaan Bahasa Indonesia sebagai bahasa

Lebih terperinci

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas

Lebih terperinci

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2013 PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL I Wayan Hendra Maha Putra¹, Imelda Atastina², Alfian Akbar Gozali³ ¹Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey

Lebih terperinci

EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA

EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen

Lebih terperinci

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi. DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan dibidang teknologi informasi dan telekomunikasi berdampak pada munculnya berbagai media sosial, seperti Twitter. Twitter didirikan oleh Jack Dorsey, Biz Stone,

Lebih terperinci

BAB I PENDAHULUAN. Dalam kehidupan sehari-hari, sering dijumpai peristiwa-peristiwa yang terjadi

BAB I PENDAHULUAN. Dalam kehidupan sehari-hari, sering dijumpai peristiwa-peristiwa yang terjadi BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam kehidupan sehari-hari, sering dijumpai peristiwa-peristiwa yang terjadi secara beruntun dan dengan kemungkinan yang berbeda-beda. Sebagai contoh sekarang

Lebih terperinci

PENGGUNAAN MODEL RUANG VEKTOR DALAM PENGENALAN RELASI ANTAR ENTITAS PADA SISTEM EKSTRAKSI INFORMASI

PENGGUNAAN MODEL RUANG VEKTOR DALAM PENGENALAN RELASI ANTAR ENTITAS PADA SISTEM EKSTRAKSI INFORMASI PENGGUNAAN MODEL RUANG VEKTOR DALAM PENGENALAN RELASI ANTAR ENTITAS PADA SISTEM EKSTRAKSI INFORMASI Kiki Marjuki 1) Indra Budi 2) Fakultas Ilmu Komputer, Universitas Indonesia, Kampus UI Depok kiki972000@yahoo.com

Lebih terperinci

PEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER

PEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER PEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

BAB I PENDAHULUAN Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1 1.1 Latar Belakang dan Permasalahan Pencarian lokasi menjadi salah satu kebutuhan masyarakat dewasa ini terbukti dengan banyaknya penyedia layanan pemetaan seperti Google Map, Bing

Lebih terperinci

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK Nurhalimah Harahap¹, Eddy Muntina Dharma², Andrian Rakhmatsyah³ ¹Teknik Informatika,, Universitas Telkom

Lebih terperinci

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,

Lebih terperinci

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

Frekuensi Dominan Dalam Vokal Bahasa Indonesia Frekuensi Dominan Dalam Vokal Bahasa Indonesia Tjong Wan Sen #1 # Fakultas Komputer, Universitas Presiden Jln. Ki Hajar Dewantara, Jababeka, Cikarang 1 wansen@president.ac.id Abstract Pengenalan ucapan

Lebih terperinci

Pengenalan Entitas Bernama untuk Identifikasi Transaksi Akuntansi Menggunakan Hidden Markov Model

Pengenalan Entitas Bernama untuk Identifikasi Transaksi Akuntansi Menggunakan Hidden Markov Model Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 7, Juli 2018, hlm. 2851-2858 http://j-ptiik.ub.ac.id Pengenalan Entitas Bernama untuk Identifikasi Transaksi Akuntansi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

1. Introduction. tertentu memegang peran penting dalam. Abstract

1. Introduction. tertentu memegang peran penting dalam. Abstract Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina

Lebih terperinci

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha

PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL Adhitya Teguh Nugraha Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura ituteguh@gmail.com

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION

Lebih terperinci

UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap

Lebih terperinci

Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov

Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov A39 Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov Risa Septi Pratiwi dan Daryono Budi Utomo Departemen Matematika, Fakultas Matematka dan Ilmu Pengetahuan Alam, Institut Teknologi

Lebih terperinci

PETUNJUK PENULISAN NASKAH BERKALA ILMIAH SIGNIFIKAN

PETUNJUK PENULISAN NASKAH BERKALA ILMIAH SIGNIFIKAN PETUNJUK PENULISAN NASKAH BERKALA ILMIAH SIGNIFIKAN 1. Tulisan merupakan karya orisinal penulis (bukan plagiasi) dan belum pernah dipublikasikan atau sedang dalam proses publikasi pada media lain yang

Lebih terperinci

Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov

Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov JURNAL SAINS DAN SENI POMITS Vol. 6, No.2, (2017) 2337-3520 (2301-928X Print) A 39 Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov Risa Septi Pratiwi Daryono Budi Utomo Jurusan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 1.1 Tinjauan studi Penelitian yang sudah ada sebelumnya, yaitu : 1. Nur Afifah (2010), Pembuatan Kamus Elektronik Kalimat Bahasa Indonesia dan Bahasa Jawa untuk Aplikasi Mobile

Lebih terperinci

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM

APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM Silvia Rostianingsih 1), Sendy Andrian Sugianto 2), Liliana 3) 1, 2, 3) Program Studi Teknik Informatika Fakultas Teknologi Industri Universitas

Lebih terperinci

1. PENDAHULUAN 1.1 Latar belakang Masalah

1. PENDAHULUAN 1.1 Latar belakang Masalah 1. PENDAHULUAN 1.1 Latar belakang Masalah Bahasa Indonesia adalah alat yang mampu menjembatani penduduk Indonesia yang terdiri dari berbagai suku dan bahasa untuk dapat berkomunikasi satu sama lainnya.

Lebih terperinci

Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing

Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing Volume 9 Nomor 2, Oktober 2016 Hlm. 91-98 ISSN 0216-9495 (Print) ISSN 2502-5325 (Online) Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing Mohammad

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang 1 BAB 1 PENDAHULUAN Bab ini berisi tentang latar belakang (subbab 1.1), tujuan penelitian (subbab 1.2), perumusan dan pembatasan masalah (subbab 1.3), metodologi penelitian (subbab 1.4), serta penjelasan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi informasi sudah semakin maju. Beberapa aplikasi text mining awal menggunakan penyajian sederhana yang disebut dengan bag-ofwords' ketika

Lebih terperinci

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram) JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-71 Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB I PENDAHULUAN. Perkembangan ilmu pengetahuan dan teknologi yang sangat pesat,

BAB I PENDAHULUAN. Perkembangan ilmu pengetahuan dan teknologi yang sangat pesat, BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan dan teknologi yang sangat pesat, menjadikan statistika memegang peranan penting dalam kehidupan. Hampir semua fenomena yang terjadi

Lebih terperinci

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model Ziaul Haq, Teknik Informatika S1,Universitas Dian Nuswantoro Semarang Abstract Pengenalan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Natural Language Processing (NLP) adalah area penelitian dan pengaplikasan yang mengekplorasi bagaimana caranya sebuah komputer dapat digunakan dan memanipulasi berupa

Lebih terperinci

Penulisan Huruf Kapital

Penulisan Huruf Kapital Syarat penulisan huruf kapital: Huruf pertama kata pada awal kalimat Huruf pertama petikan langsung Huruf pertama dalam kata dan ungkapan yang berhubungan dengan agama, kitab suci, dan Tuhan, termasuk

Lebih terperinci

IMPLEMENTASI DAN ANALISIS PENGOLAHAN KATA MENGGUNAKAN ALGORITMA HIDDEN MARKOV MODEL DENGAN POCKETSPHINX

IMPLEMENTASI DAN ANALISIS PENGOLAHAN KATA MENGGUNAKAN ALGORITMA HIDDEN MARKOV MODEL DENGAN POCKETSPHINX ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.3 Desember 2015 Page 7422 IMPLEMENTASI DAN ANALISIS PENGOLAHAN KATA MENGGUNAKAN ALGORITMA HIDDEN MARKOV MODEL DENGAN POCKETSPHINX IMPLEMENTATION

Lebih terperinci

Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi

Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi IJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 ISSN: 1978-1520 1 Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi Nitin Sabloak 1, Bebeto Agung Hardono 2, Derry Alamsyah 3 1,2 STMIK GI

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 Ekstraksi Informasi pada Makalah Ilmiah dengan Pendekatan Supervised Learning Information Extraction on Scientific Papers

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

Penggunaan Ejaan yang Disempurnakan (EYD) pada Makalah Mahasiswa Non-PBSI 1 Nuryani 2

Penggunaan Ejaan yang Disempurnakan (EYD) pada Makalah Mahasiswa Non-PBSI 1 Nuryani 2 Penggunaan Ejaan yang Disempurnakan (EYD) pada Makalah Mahasiswa Non-PBSI 1 Nuryani 2 Abstrak Bahasa Indonesia menjadi mata kuliah wajib di seluruh universitas, termasuk UIN Syarif Hidyatullah Jakarta.

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Indonesia

BAB 1 PENDAHULUAN. Universitas Indonesia BAB 1 PENDAHULUAN 1.1 Latar Belakang Dengan semakin berkembangnya teknologi telekomunikasi, internet menjadi sesuatu yang tidak lagi sulit dan mahal. Kemudahan ini menyebabkan internet dipenuhi berbagai

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Bahasa alami adalah bahasa yang biasa digunakan untuk berkomunikasi antarmanusia, misalnya bahasa Indonesia, Sunda, Jawa, Inggris, Jepang, dan sebagainya. Bahasa

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Membaca merupakan bagian kebutuhan manusia, baik membaca buku, surat kabar, dan majalah. Dengan kebutuhan tersebut melalui perkembangan teknologi informasi diantaranya

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.1 April 2015 Page 262 SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL SIMULATION AND ANALYSIS

Lebih terperinci

Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet

Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet Nuansa Lembayung / 1820928 Program Studi Sistem dan Teknologi Informasi Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz

Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz Rizal Panji Islami (23514016) Program MagisterInformatika Sekolah Teknik Elektro dan Informatika

Lebih terperinci

Universitas Gadjah Mada, Jalan Grafika No. 2 Yogyakarta 1), 2),

Universitas Gadjah Mada, Jalan Grafika No. 2 Yogyakarta 1), 2), Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Peningkatan Nilai Recall dan Precision pada Penelusuran Informasi Pustaka Berbasis Semantik (Studi Kasus : Sistem Informasi

Lebih terperinci

APLIKASI PENERJEMAH KALIMAT BAHASA INDONESIA KE BAHASA SIMALUNGUN DENGAN ALGORITMA BERRY - RAVINDRAN

APLIKASI PENERJEMAH KALIMAT BAHASA INDONESIA KE BAHASA SIMALUNGUN DENGAN ALGORITMA BERRY - RAVINDRAN APLIKASI PENERJEMAH KALIMAT BAHASA INDONESIA KE BAHASA SIMALUNGUN DENGAN ALGORITMA BERRY - RAVINDRAN Saut Dohot Siregar 1*, Mawaddah Harahap 2, Yohana Marbun 3 1,2,3 Program Studi Teknik Informatika, Fakultas

Lebih terperinci

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara Bima Laksmana Pramudita (13511042) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung,

Lebih terperinci

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang

Lebih terperinci

PEMBUATAN PERANGKAT BASIS DATA UNTUK SINTESIS UCAPAN (NATURAL SPEECH SYNTHESIS) BERBAHASA INDONESIA BERBASIS HIDDEN MARKOV MODEL (HMM)

PEMBUATAN PERANGKAT BASIS DATA UNTUK SINTESIS UCAPAN (NATURAL SPEECH SYNTHESIS) BERBAHASA INDONESIA BERBASIS HIDDEN MARKOV MODEL (HMM) PEMBUATAN PERANGKAT BASIS DATA UNTUK SINTESIS UCAPAN (NATURAL SPEECH SYNTHESIS) BERBAHASA INDONESIA BERBASIS HIDDEN MARKOV MODEL (HMM) Oleh: ELOK ANGGRAYNI NRP. 2409 100 092 Dosen Pembimbing: Prof. Dr.

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan

Lebih terperinci

Pengenalan Aksara Lampung Menggunakan Jaringan Syaraf Tiruan

Pengenalan Aksara Lampung Menggunakan Jaringan Syaraf Tiruan Pengenalan Aksara Lampung Menggunakan Jaringan Syaraf Tiruan Adhika Aryantio School of Electrical Engineering and Informatics Institute Technology of Bandung 10th Ganeca Street Bandung, Indonesia. Adhikaaryantio.x6@gmail.com

Lebih terperinci

Rancang Bangun Modul Pengenalan Suara Menggunakan Teknologi Kinect

Rancang Bangun Modul Pengenalan Suara Menggunakan Teknologi Kinect JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 1 Rancang Bangun Modul Pengenalan Suara Menggunakan Teknologi Kinect Ratri Cahyarini, Umi Laili Yuhana, dan Abdul Munif Teknik

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang 1 BAB I PENDAHULUAN 1.1. Latar Belakang Pengenalan lafal manusia agar dapat dilakukan oleh sebuah mesin telah menjadi fokus dari berbagai riset selama lebih dari empat dekade. Ide dasar yang sederhana

Lebih terperinci

IMPLEMENTASI PENDIKTEAN BAHASA INDONESIA. Hari Bagus Firdaus dan Ayu Purwarianti

IMPLEMENTASI PENDIKTEAN BAHASA INDONESIA. Hari Bagus Firdaus dan Ayu Purwarianti IMPLEMENTASI PENDIKTEAN BAHASA INDONESIA Hari Bagus Firdaus dan Ayu Purwarianti Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung, Jalan Ganesha 10, Bandung, 40132, Indonesia E-mail: hari.firdaus@gmail.com

Lebih terperinci

Natural Language Processing (NLP), Information Extraction (IE), dan Text Mining dalam upaya mengatasi Inkonsistensi Data Statistik

Natural Language Processing (NLP), Information Extraction (IE), dan Text Mining dalam upaya mengatasi Inkonsistensi Data Statistik Pusdiklat BPS RI Rubrik : Lainnya Natural Language Processing (NLP), Information Extraction (IE), dan Text Mining dalam upaya mengatasi Inkonsistensi Data Statistik 16 April 2013, 2:12:15 oleh Wisnu Nurdiyanto

Lebih terperinci

PENGEMBANGAN SISTEM TEMU KEMBALI CITRA DENGAN MULTIMODAL DATA MENGGUNAKAN MICROSTRUCTURE DESCRIPTOR DAN PLSA

PENGEMBANGAN SISTEM TEMU KEMBALI CITRA DENGAN MULTIMODAL DATA MENGGUNAKAN MICROSTRUCTURE DESCRIPTOR DAN PLSA PENGEMBANGAN SISTEM TEMU KEMBALI CITRA DENGAN MULTIMODAL DATA MENGGUNAKAN MICROSTRUCTURE DESCRIPTOR DAN PLSA Choiru Za in, Nanik Suciati, Chastine Fatichah Institut Teknologi Sepuluh Nopember choiruzain@gmail.com,

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION Yufis Azhar Program Studi Teknik Informatika Fakultas Teknik, Universitas Muhammadiyah Malang Email : yufis.az@gmail.com

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen BAB IV EKSPERIMEN 4.1 Tujuan Eksperimen Terdapat beberapa hal yang menjadi tujuan eksperimen, yaitu: 1. Membandingkan performansi hasil eksperimen dengan hasil penelitian [LI05a], menggunakan dataset dan

Lebih terperinci

BAB I PENDAHULUAN. yang dikenal sebagai antarmuka pengguna grafis atau Graphical User Interface. yakni ucapan, untuk meningkatkan kemudahannya.

BAB I PENDAHULUAN. yang dikenal sebagai antarmuka pengguna grafis atau Graphical User Interface. yakni ucapan, untuk meningkatkan kemudahannya. BAB I PENDAHULUAN 1.1 Latar Belakang Pada kebanyakan sistem operasi komputer kontemporer telah disediakan pengantaraan grafis untuk mempermudah interaksi antar pengguna dan komputer yang dikenal sebagai

Lebih terperinci

PERBANDINGAN RUANG WARNA PADA PENGOLAHAN INFORMASI WARNA UNTUK SEGMENTASI CITRA MENGGUNAKAN NEUTROSOPHIC SET

PERBANDINGAN RUANG WARNA PADA PENGOLAHAN INFORMASI WARNA UNTUK SEGMENTASI CITRA MENGGUNAKAN NEUTROSOPHIC SET PERBANDINGAN RUANG WARNA PADA PENGOLAHAN INFORMASI WARNA UNTUK SEGMENTASI CITRA MENGGUNAKAN NEUTROSOPHIC SET Monica Widiasri Teknik Informatika, Fakultas Teknik, Universitas Surabaya monica@ubaya.ac.id

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

DETEKSI OOV MENGGUNAKAN HASIL PENGENALAN SUARA OTOMATIS UNTUK BAHASA INDONESIA. Aswin Juari dan Ayu Purwarianti

DETEKSI OOV MENGGUNAKAN HASIL PENGENALAN SUARA OTOMATIS UNTUK BAHASA INDONESIA. Aswin Juari dan Ayu Purwarianti DETEKSI OOV MENGGUNAKAN HASIL PENGENALAN SUARA OTOMATIS UNTUK BAHASA INDONESIA Aswin Juari dan Ayu Purwarianti Teknik Informatika, Institut Teknologi Bandung, Bandung, Indonesia aswin_tsy@yahoo.com, ayu@stei.itb.ac.id

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Wicara atau ucapan adalah cara berkomunikasi yang paling sederhana dan sering digunakan oleh manusia. Namun, seiring dengan perkembangan teknologi, proses komunikasi

Lebih terperinci

BAB 2 TELAAH PUSTAKA

BAB 2 TELAAH PUSTAKA BAB 2 TELAAH PUSTAKA Pada bab ini akan dipaparkan mengenai deskripsi data mining secara umum dan landasan teori dari algoritma data mining yang digunakan pada FIKUI Mining. Selain itu, juga akan dijelaskan

Lebih terperinci

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB 1 PENDAHULUAN. dengan awal tahun 2000 pada saat telepon selular dianggap menjadi barang yang mahal.

BAB 1 PENDAHULUAN. dengan awal tahun 2000 pada saat telepon selular dianggap menjadi barang yang mahal. BAB 1 PENDAHULUAN 1.1 Latar Belakang Dewasa ini penggunaan alat telekomunikasi yang dapat disebut sebagai telepon selular, ponsel atau handphone di Indonesia meningkat cukup tajam jika dibandingkan dengan

Lebih terperinci

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Paramita / 13504040 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based

Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based Journal of Applied Informatics and Computing (JAIC) Vol.1, No.1, Desember 2017 e-issn: 2548-6861 33 Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based Try Satria Amanattullah

Lebih terperinci

: Peringkasan Terpandu Otomatis (Automatic Guided Summarization)

: Peringkasan Terpandu Otomatis (Automatic Guided Summarization) I. Identitas Calon Promotor Nama Lengkap Fakultas/Sekolah Kelompok Keahlian Telp/Fax/E mail : Ir. Dwi Hendratmo Widyantoro, M.Sc., Ph.D. : STEI : Informatika : (022)2502260/dwi@stei.itb.ac.id II. Deskripsi

Lebih terperinci

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB I PENDAHULUAN! 1.1 Latar Belakang 1.1 Latar Belakang BAB I PENDAHULUAN Untuk dapat tetap bisa menjalankan proses bisnisnya dengan baik, suatu instansi harus memenuhi suatu standar dalam melayani keinginan konsumen atau yang biasa dikenal

Lebih terperinci

SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari

SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM Fakultas Teknik Elektronika dan Komputer, Program Studi Teknik Elektro, Universitas Kristen Satya Wacana, Salatiga,

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang 1 BAB 1 PENDAHULUAN Bab ini menguraikan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan. 1.1. Latar Belakang Indonesia

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB I PENDAHULUAN. Orasi ilmiah DR. Arry Akhmad Arman, Fakultas Teknologi Industri, ITB, 23 Agustus

BAB I PENDAHULUAN. Orasi ilmiah DR. Arry Akhmad Arman, Fakultas Teknologi Industri, ITB, 23 Agustus BAB I PENDAHULUAN 1. LATAR BELAKANG MASALAH llmu komputer memiliki dua komponen utama; pertama, model dan gagasan mendasar mengenai komputasi, kzdua, teknik rekayasa untuk perancangan sistem komputasi

Lebih terperinci

Ekstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction

Ekstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction IJCCS, Vol.9, No.2, July 2015, pp. 111~120 ISSN: 1978-1520 111 Ekstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction Erma Susanti* 1, Khabib Mustofa

Lebih terperinci