Truecasing untuk Teks Bahasa Indonesia
|
|
- Verawati Budiman
- 7 tahun lalu
- Tontonan:
Transkripsi
1 Truecasing untuk Teks Bahasa Indonesia Said Al Faraby dan Ade Romadhony Fakultas Informatika Universitas Telkom Indonesia Abstrak Penggunaan huruf besar pada dokumen teks mengandung informasi penting tentang makna dari kata-kata yang terdapat di dalam dokumen tersebut. Kesalahan penulisan atau tidak adanya penanda huruf besar dapat menimbulkan efek pada pemrosesan teks selanjutnya. Sementara itu terdapat beberapa kondisi di mana penulisan huruf besar tidak ditemui atau tidak dilakukan dengan tepat, antara lain pada teks informal dan teks transkrip berita. Truecasing adalah pekerjaan untuk memberikan penandaan huruf besar pada teks yang tidak mengandung informasi atau mempunyai banyak kesalahan dalam penggunaan huruf besar. Dengan diterapkannya truecasing, kualitas dokumen teks akan meningkat karena akan dihasilkan data yang lebih bersih. Makalah ini memaparkan tentang truecasing untuk dokumen teks bahasa Indonesia yang diimplementasikan dengan metode HMM. 1 Pendahuluan Pemrosesan dokumen teks sangat bergantung pada kualitas perangkat pemroses bahasa yang digunakan. Perangkat pemroses bahasa umumnya mensyaratkan kondisi bahwa teks yang diproses adalah teks yang dituliskan dalam bentuk formal. Terdapat dua kelompok umum metode yang digunakan dalam perangkat pemroses bahasa, yaitu berbasis aturan dan berbasis pembelajaran atau statistika. Syarat bentuk dokumen formal tersebut disebabkan koleksi dokumen yang digunakan sebagai sumber pembelajaran mayoritas adalah dokumen formal. Oleh karena itu, ketidaksesuaian dalam aturan penulisan dapat menyebabkan kesalahan hasil pemrosesan perangkat pemroses bahasa. Di sisi lain, dengan semakin berkembangnya media untuk menyebarkan informasi, semakin beragam pula gaya penulisan. Efek yang ditimbulkan antara lain adalah teks yang tidak bersih, misalnya penggunaan huruf besar yang tidak tepat. Sementara penggunaan huruf besar pada suatu kata dapat menjadi fitur penting dalam pekerjaan pemroses bahasa. Sebagai contoh pada pekerjaan Named Entity Recognition (NER). Pada pekerjaan NER, salah satu fitur penting adalah penggunaan huruf besar, karena menandakan bahwa kata yang dituliskan diawali atau seluruhnya menggunakan huruf besar adalah sebuah entitas penting. Jika penggunaan huruf besar dalam teks tidak tepat, dapat menyebabkan perangkat untuk NER tidak menghasilkan keluaran yang benar. Kasus lain di mana tidak terdapat informasi tentang penggunaan huruf besar adalah pada dokumen transkrip yang merupakan keluaran dari perangkat pemroses suara dan mesin penerjemah. Perangkat pemroses suara umumnya mengeluarkan teks dalam format huruf besar semua atau huruf kecil semua. Tentu saja kondisi tersebut menyebabkan perlunya pemrosesan lebih lanjut untuk menuliskan teks keluaran dengan informasi huruf besar yang tepat, seperti dilakukan oleh (Liang & Wu, 2003) dan (Tan & Bond, 2014). Berdasar latar belakang tersebut, dalam makalah ini diusulkan sebuah perangkat untuk menerapkan penggunaan huruf besar yang tepat dalam teks bahasa Indonesia. Penelitian sebelumnya tentang truecasing lebih banyak ditemui untuk diterapkan pada bahasa Inggris. Pada bahasa yang berbeda tentu aturan yang digunakan juga berbeda. Pekerjaan lain yang berhubungan erat dengan truecasing adalah pendeteksian ambiguitas pada kata, disambiguitas sense pada kata, dan spelling correction. Sistem truecasing untuk bahasa Inggris antara lain dibahas pada (Lita, Ittycheriah, Roukos, & Kambhatla, 2003), diimplementasikan sebagai sebuah fasilitas anotasi pada perangkat Stanford NLP (Manning et al., 2014), serta truecaser khusus untuk media sosial (Nebhi, Bontcheva, & Gorrell, 2015). Pada penelitian (Lita et al., 2003), truecaser dibangun dengan pendefinisian model bahasa serta menggunakan metode HMM. Sementara pada perangkat Stanford NLP anotasi truecase diimplementasikan dengan metode CRF. Persoalan truecasing diartikan sebagai proses restorasi penggunaan huruf besar yang benar pada kata dalam kalimat. Persoalan tersebut dipandang
2 sebagai persoalan sequence labeling atau klasifikasi. Oleh karena itu beberapa sistem truecaser menggunakan metode untuk sequence labeling seperti halnya HMM dan CRF, atau SVM untuk menyelesaikan persoalan klasifikasi. Contoh pengaruh penggunaan huruf besar yang tidak tepat dalam pemrosesan teks untuk pekerjaan lain seperti pengenalan Named Entity dapat dilihat pada Gambar I. Pengenalan Named Entity dilakukan dengan perangkat Stanford CoreNLP 1. Pada contoh tersebut, teks transkrip yang dituliskan dalam huruf besar semua menyebabkan pengenalan Named Entity tidak tepat. Terdapat Named Entity Organization yang tidak dapat dikenali, dan Named Entity Location yang salah dikenali sebagai Person. Jika teks tersebut dimodifikasi sehingga huruf besar digunakan secara tepat, semua Named Entity dapat dikenali dengan tepat pula. Mengenai truecasing untuk teks bahasa Indonesia sendiri sejauh ini belum ditemui penelitian sejenis. Begitu juga dengan efek yang ditimbulkan pada pekerjaan lainnya jika huruf besar tidak digunakan secara tepat. Sejauh ini hanya ditemui sistem NER bahasa Indonesia (InNER) (Budi, Bressan, Wahyudi, Hasibuan, & Nazief, 2005), namun tidak ditemukan penjelasan khusus tentang penggunaan fitur huruf besar. 2 Aturan Penggunaan Huruf Besar Bahasa Indonesia Bahasa Indonesia mempunyai aturan tersendiri dalam penggunaan huruf besar dalam teks. Aturan tersebut didefinisikan dalam Ejaan Yang Disempurnakan (EYD) 2. Berdasarkan posisinya dalam kalimat, huruf besar digunakan pada awal kalimat dan pada awal kalimat setelah petikan langsung. Contoh penggunaan pada awal kalimat setelah petikan langsung adalah sebagai berikut: Ia menanyakan Ada apa di dalam sana? Gambar I Contoh Pengaruh Penggunaan Huruf Besar Terhadap Pengenalan Named Entity Selain berdasarkan pada posisi, penggunaan huruf besar juga diterapkan pada kata-kata tertentu, yaitu: Kata dan ungkapan yang berhubungan dengan agama, kitab suci, dan Tuhan, termasuk kata ganti untuk Tuhan. Unsur-unsur nama orang Nama bangsa, suku bangsa, dan bahasa Nama tahun, bulan, hari, dan hari raya Unsur-unsur nama peristiwa sejarah Unsur-unsur nama diri geografi Unsur nama resmi negara, lembaga resmi, lembaga ketatanegaraan, badan, dan nama dokumen resmi Semua kata di dalam judul buku, majalah, surat kabar, dan makalah, kecuali kata tugas Kata Anda yang digunakan dalam penyapaan Terdapat pula beberapa kondisi penggunaan huruf besar dengan syarat tertentu, yaitu bergantung pada kata setelahnya. Berikut adalah kondisi penggunaan huruf besar yang bergantung pada kata setelahnya: Huruf pertama nama gelar kehormatan, keturunan, dan keagamaan yang diikuti nama orang. Nama jabatan dan pangkat yang merujuk kepada nama orang, nama instansi, atau nama tempat tertentu. Huruf besar tidak dipakai sebagai huruf pertama nama diri geografi yang digunakan sebagai penjelas nama jenis. Huruf besar tidak dipakai sebagai huruf pertama kata yang bukan nama resmi negara, lembaga resmi, lembaga ketatanegaraan, badan, dan nama dokumen resmi. 3 Deskripsi Sistem Berdasarkan aturan penggunaan huruf besar bahasa Indonesia sesuai dengan EYD, dilakukan perancangan sistem untuk truecaser bahasa Indonesia. Persoalan truecasing dipandang sebagai persoalan sequence labeling. Jenis label penggunaan huruf besar dalam
3 kata dibagi menjadi empat kelas, yaitu: semua huruf dituliskan dalam huruf kecil (LC), huruf awal kata adalah huruf besar (UC), semua huruf dalam kata adalah huruf besar (AC), kata dituliskan dalam huruf besar dan kecil/campuran (MC). Metode yang digunakan adalah Hidden Markov Model (HMM) karena merupakan salah satu metode handal dalam persoalan sequence labeling (Nguyen & Guo, 2007). Fitur yang digunakan adalah: Current word Previous word Next word Fitur previous word digunakan untuk memberikan konteks pada current word, misalnya kata terserah di tengah kalimat biasanya dilabeli LC, namun jika previous word-nya adalah restoran maka bisa jadi terserah adalah nama restoran sehingga harus dilabeli UC. Begitu juga dengan fitur next word, digunakan karena berdasar aturan EYD tentang penggunaan huruf besar, terdapat beberapa poin aturan yang mensyaratkan kondisi kata setelahnya. Model HMM C t-1 C t C t+1 W t-1 W t W t+1 Gambar 2 Representasi grafis HMM, dimana C adalah hidden variable dan W adalah observable variable. HMM adalah sebuah generative model yang secara natural biasa digunakan untuk permasalahan sequence labeling (Rabiner, 1989). Ilustrasi generative process dari HMM dapat dilihat pada Gambar 2. Secara formal HMM adalah sebuah generative model yang didefinisikan melalui komponen berikut : 1. C : Hidden states dalam HMM. Untuk permasalahan true casing S terdiri dari jenis casing yang mungkin, yaitu LC, CA, UC, MC. 2. W : Himpunan observations. Dalam hal ini W adalah token (kata) yang ada dalam pembelajaran set. Untuk Unknown token bias dihandle secara terpisah untuk menghindari zero probability. 3. T : State transition probabilities. Probabilitas perpindahan antara suatu hidden state ke hidden state yang lain. mengindikasikan probabilitas case akan diikuti oleh case dalam suatu kalimat. Probabilitas ini didapatkan dari proses pembelajaran HMM menggunakan data pembelajaran. 4. E : Emission probabilities. merepresentasikan probabilitas munculnya observasi jika HMM sedang berada di state. 5. P(C) : Initial distribution. menyatakan probabilitas sekuens dimulai dengan casing Jika diberikan sebuah sekuen kata dengan panjang, maka tugas HMM adalah mencari sekuen hidden states, yang dalam hal ini sekuen jenis case, yang paling memungkinkan menghasilkan sekuen kata tersebut. 4 Eksperimen Dataset yang digunakan pada eksperimen adalah artikel berita yang diperoleh dari media Kompas online 2. Penggunaan artikel berita surat kabar online sebagai sumber dataset berdasar asumsi bahwa penulisan teks telah mengikuti aturan EYD. Jumlah total artikel adalah Untuk baseline, dengan mengadopsi metode pada penelitian sebelumnya (Lita et al., 2003), digunakan pendefinisian label penggunaan huruf besar berdasar peluang kemunculan terbesar. Terdapat dua skenario pengujian yang dilakukan, yaitu skenario dengan data uji tanpa unknown words dan data uji dengan unknown words. Pada skenario pertama, kasus yang muncul adalah pemberian label huruf besar pada kata-kata yang mempunyai kemungkinan dituliskan dengan cara yang berbeda. Misalnya kata presiden dapat dituliskan dengan diawali huruf besar, atau dengan huruf kecil semua. Sementara pada skenario kedua, akan diamati bagaimana performansi sistem dalam menangani kata-kata yang tidak muncul dalam data pembelajaran. Pada skenario I, jumlah total artikel yang digunakan pada data pembelajaran untuk skenario pertama adalah 7255 artikel. Sejumlah 80% digunakan untuk proses pembelajaran dan 20% untuk data uji. Pada data pembelajaran, terdapat 3991 kata unik, dan 471 kata yang mempunyai variasi penggunaan huruf besar > 1. Variasi yang dijumpai hanya berupa kata dituliskan dalam huruf kecil semua atau diawali dengan huruf besar ( 2 variasi). Skenario II menggunakan data pembelajaran yang sama dengan Skenario I, namun untuk data uji terdapat 9 artikel dengan yang mengandung 845 unknown words. Pada eksperimen yang telah dilakukan, dikembangkan 3 buah Model : Unigram Model sebagai baseline 2
4 Tabel 1 Performasi tiap model dalam Precision, Recall, dan F-measure pada data uji untuk skenario I Model LC (76.43%) UC (18.89%) MC (3.77%) CA (0.19%) F- P R F1 P R F1 P R F1 P R F1 AVG Unig HMM HMM Tabel 2 Performansi tiap model dalam Precision, Recall, dan F-measure pada data uji untuk skenario II Model LC (76.43%) UC (18.89%) MC (3.77%) CA (0.19%) F- P R F1 P R F1 P R F1 P R F1 AVG Unig HMM HMM HMM1 Model, yaitu HMM dengan fitur/observasi hanya berupa current word, HMM2 Model, yaitu HMM dengan fitur/observasi previous word, current word, dan next word. Pengukuran performansi sistem dilakukan menggunakan metriks precision, recall, dan F- measure. Untuk Matrik F-AVG dihitung dengan mempertimbangkan persentase jumlah token tiap case, sehingga Hasil eksperimen untuk skenario I dan II terdapat pada Tabel 1 dan Tabel 2. Untuk skenario I dimana tidak terdapat unknown words pada data uji, HMM1 dengan fitur hanya berupa current word lebih baik dari pada dua metode lainnya. HMM1 berhasil memaksimalkan performansi pada label LC dan UC yang memberikan kontribusi terbesar pada data uji. Sedikit menarik bahwa HMM2 dengan fitur yang lebih kompleks menunjukkan performa yang sedikit inferior dibanding HMM1. Hal ini menunjukkan bahwa untuk data uji yang memiliki tingkat kesamaan kata yang tinggi (e.g tanpa unknown words), current word dan case/label pada kata sebelumnya (implisit dari cara kerja HMM), sudah cukup untuk melakukan prediksi. Untuk skenario II, dimana terdapat ±30% unknown words, HMM2 memiliki F-AVG terbaik. Walaupun nilai F1(LC) HMM2 sedikit lebih kecil dibanding Unigram, namun HMM2 secara signifikan mengungguli Unigram pada semua komponen UC yang memiliki kontribusi kedua terbesar pada data uji. Hal inilah yang pada akhirnya membuat HMM2 secara F-AVG lebih baik dibanding Unigram. Bisa dikatakan bahwa pada data uji yang memiliki banyak unknown words, fitur tambahan seperti next word dan previous word lebih dibutuhkan untuk melakukan prediksi yang lebih baik. 5 Pengembangan Selanjutnya Berdasarkan hasil performansi eksperimen, terlihat bahwa sistem masih mempunyai kelemahan dalam menangani unknown words. Hal ini membuka peluang untuk pengembangan berupa penanganan kasus unknown words. Metode lain yang dapat diterapkan untuk persoalan pelabelan seperti klasifikasi dengan SVM dan sequence labeling dengan CRF juga dapat dikaji. Batasan dalam eksperimen berupa diabaikannya tanda baca juga membuat kasus penggunaan huruf besar dalam kalimat langsung belum dapat ditangani. Peluang pengembangan selanjutnya adalah penerapan truecaser untuk pekerjaan lain seperti pengenalan Named Entity, ekstraksi informasi, dan mesin penerjemah. Perkembangan pada media sosial juga membuat metode yang diterapkan pada teks dengan tata bahasa formal kemungkinan tidak sesuai jika diterapkan pada teks informal. Perlu kajian lebih lanjut untuk truecaser pada teks informal atau media sosial. Referensi Budi, I., Bressan, S., Wahyudi, G., Hasibuan, Z. A., & Nazief, B. A. (2005). Named entity recognition for the indonesian language: combining contextual, morphological and part-of-speech features into a knowledge engineering approach. Discovery Science (pp ). Springer. Liang, Y.-T., & Wu, J.-C. (2003). Restoration of Case Information in All-Cap English Broadcast Transcription. ROCLING. Lita, L. V., Ittycheriah, A., Roukos, S., & Kambhatla, N. (2003). Truecasing. Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1 (pp ). Association for Computational Linguistics.
5 Manning, C. D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., & McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations (pp ). Nebhi, K., Bontcheva, K., & Gorrell, G. (2015). ResToRinG CaPitaLiZaTion in# TweeTs. Proceedings of the 24th International Conference on World Wide Web Companion (pp ). International World Wide Web Conferences Steering Committee. Nguyen, N., & Guo, Y. (2007). Comparisons of sequence labeling algorithms and extensions. Proceedings of the 24th international conference on Machine learning (pp ). ACM. Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), IEEE. Tan, L., & Bond, F. (2014). Manipulating Input Data in Machine Translation. Proceedings of the 1st Workshop on Asian Translation (WAT2014).
BABI PENDAHULUAN. 1.1 Latar Belakang
BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari Negara Indonesia. Berdasarkan ketentuan UU Nomor 24 tahun 2009 (Pasal 3) tujuan dari penggunaan Bahasa Indonesia sebagai bahasa
Lebih terperinciPERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA
PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas
Lebih terperinciPENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL
Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2013 PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL I Wayan Hendra Maha Putra¹, Imelda Atastina², Alfian Akbar Gozali³ ¹Teknik
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey
Lebih terperinciEKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA
EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen
Lebih terperinciDAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.
DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan dibidang teknologi informasi dan telekomunikasi berdampak pada munculnya berbagai media sosial, seperti Twitter. Twitter didirikan oleh Jack Dorsey, Biz Stone,
Lebih terperinciBAB I PENDAHULUAN. Dalam kehidupan sehari-hari, sering dijumpai peristiwa-peristiwa yang terjadi
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam kehidupan sehari-hari, sering dijumpai peristiwa-peristiwa yang terjadi secara beruntun dan dengan kemungkinan yang berbeda-beda. Sebagai contoh sekarang
Lebih terperinciPENGGUNAAN MODEL RUANG VEKTOR DALAM PENGENALAN RELASI ANTAR ENTITAS PADA SISTEM EKSTRAKSI INFORMASI
PENGGUNAAN MODEL RUANG VEKTOR DALAM PENGENALAN RELASI ANTAR ENTITAS PADA SISTEM EKSTRAKSI INFORMASI Kiki Marjuki 1) Indra Budi 2) Fakultas Ilmu Komputer, Universitas Indonesia, Kampus UI Depok kiki972000@yahoo.com
Lebih terperinciPEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER
PEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika
Lebih terperinciANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM
ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming
Lebih terperinciBAB I PENDAHULUAN Latar Belakang dan Permasalahan
BAB I PENDAHULUAN 1 1.1 Latar Belakang dan Permasalahan Pencarian lokasi menjadi salah satu kebutuhan masyarakat dewasa ini terbukti dengan banyaknya penyedia layanan pemetaan seperti Google Map, Bing
Lebih terperinciTRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK
TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK Nurhalimah Harahap¹, Eddy Muntina Dharma², Andrian Rakhmatsyah³ ¹Teknik Informatika,, Universitas Telkom
Lebih terperinciAPLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL
APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,
Lebih terperinciFrekuensi Dominan Dalam Vokal Bahasa Indonesia
Frekuensi Dominan Dalam Vokal Bahasa Indonesia Tjong Wan Sen #1 # Fakultas Komputer, Universitas Presiden Jln. Ki Hajar Dewantara, Jababeka, Cikarang 1 wansen@president.ac.id Abstract Pengenalan ucapan
Lebih terperinciPengenalan Entitas Bernama untuk Identifikasi Transaksi Akuntansi Menggunakan Hidden Markov Model
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 7, Juli 2018, hlm. 2851-2858 http://j-ptiik.ub.ac.id Pengenalan Entitas Bernama untuk Identifikasi Transaksi Akuntansi
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
Lebih terperinciBandung, Indonesia Bandung, Indonesia
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve
Lebih terperinci1. Introduction. tertentu memegang peran penting dalam. Abstract
Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina
Lebih terperinciPREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL. Adhitya Teguh Nugraha
PREDIKSI JEDA DALAM UCAPAN KALIMAT BAHASA INDONESIA DENGAN HIDDEN MARKOV MODEL Adhitya Teguh Nugraha Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura ituteguh@gmail.com
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION
Lebih terperinciUKDW BAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan
Lebih terperinciBAB III METODOLOGI PENELITIAN
60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap
Lebih terperinciPrediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov
A39 Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov Risa Septi Pratiwi dan Daryono Budi Utomo Departemen Matematika, Fakultas Matematka dan Ilmu Pengetahuan Alam, Institut Teknologi
Lebih terperinciPETUNJUK PENULISAN NASKAH BERKALA ILMIAH SIGNIFIKAN
PETUNJUK PENULISAN NASKAH BERKALA ILMIAH SIGNIFIKAN 1. Tulisan merupakan karya orisinal penulis (bukan plagiasi) dan belum pernah dipublikasikan atau sedang dalam proses publikasi pada media lain yang
Lebih terperinciPrediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov
JURNAL SAINS DAN SENI POMITS Vol. 6, No.2, (2017) 2337-3520 (2301-928X Print) A 39 Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov Risa Septi Pratiwi Daryono Budi Utomo Jurusan
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 1.1 Tinjauan studi Penelitian yang sudah ada sebelumnya, yaitu : 1. Nur Afifah (2010), Pembuatan Kamus Elektronik Kalimat Bahasa Indonesia dan Bahasa Jawa untuk Aplikasi Mobile
Lebih terperinciIDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
Lebih terperinciAPLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM
APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM Silvia Rostianingsih 1), Sendy Andrian Sugianto 2), Liliana 3) 1, 2, 3) Program Studi Teknik Informatika Fakultas Teknologi Industri Universitas
Lebih terperinci1. PENDAHULUAN 1.1 Latar belakang Masalah
1. PENDAHULUAN 1.1 Latar belakang Masalah Bahasa Indonesia adalah alat yang mampu menjembatani penduduk Indonesia yang terdiri dari berbagai suku dan bahasa untuk dapat berkomunikasi satu sama lainnya.
Lebih terperinciParsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing
Volume 9 Nomor 2, Oktober 2016 Hlm. 91-98 ISSN 0216-9495 (Print) ISSN 2502-5325 (Online) Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing Mohammad
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
1 BAB 1 PENDAHULUAN Bab ini berisi tentang latar belakang (subbab 1.1), tujuan penelitian (subbab 1.2), perumusan dan pembatasan masalah (subbab 1.3), metodologi penelitian (subbab 1.4), serta penjelasan
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang Masalah
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi informasi sudah semakin maju. Beberapa aplikasi text mining awal menggunakan penyajian sederhana yang disebut dengan bag-ofwords' ketika
Lebih terperinciPembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)
JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-71 Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinciBAB I PENDAHULUAN. Perkembangan ilmu pengetahuan dan teknologi yang sangat pesat,
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan dan teknologi yang sangat pesat, menjadikan statistika memegang peranan penting dalam kehidupan. Hampir semua fenomena yang terjadi
Lebih terperinciPengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model
Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model Ziaul Haq, Teknik Informatika S1,Universitas Dian Nuswantoro Semarang Abstract Pengenalan
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Natural Language Processing (NLP) adalah area penelitian dan pengaplikasan yang mengekplorasi bagaimana caranya sebuah komputer dapat digunakan dan memanipulasi berupa
Lebih terperinciPenulisan Huruf Kapital
Syarat penulisan huruf kapital: Huruf pertama kata pada awal kalimat Huruf pertama petikan langsung Huruf pertama dalam kata dan ungkapan yang berhubungan dengan agama, kitab suci, dan Tuhan, termasuk
Lebih terperinciIMPLEMENTASI DAN ANALISIS PENGOLAHAN KATA MENGGUNAKAN ALGORITMA HIDDEN MARKOV MODEL DENGAN POCKETSPHINX
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.3 Desember 2015 Page 7422 IMPLEMENTASI DAN ANALISIS PENGOLAHAN KATA MENGGUNAKAN ALGORITMA HIDDEN MARKOV MODEL DENGAN POCKETSPHINX IMPLEMENTATION
Lebih terperinciPart-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi
IJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 ISSN: 1978-1520 1 Part-of-Speech (POS) Tagging Bahasa Indonesia Menggunakan Algoritma Viterbi Nitin Sabloak 1, Bebeto Agung Hardono 2, Derry Alamsyah 3 1,2 STMIK GI
Lebih terperinciISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 Ekstraksi Informasi pada Makalah Ilmiah dengan Pendekatan Supervised Learning Information Extraction on Scientific Papers
Lebih terperinciMetode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala
Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah
Lebih terperinciPenggunaan Ejaan yang Disempurnakan (EYD) pada Makalah Mahasiswa Non-PBSI 1 Nuryani 2
Penggunaan Ejaan yang Disempurnakan (EYD) pada Makalah Mahasiswa Non-PBSI 1 Nuryani 2 Abstrak Bahasa Indonesia menjadi mata kuliah wajib di seluruh universitas, termasuk UIN Syarif Hidyatullah Jakarta.
Lebih terperinciBAB 1 PENDAHULUAN. Universitas Indonesia
BAB 1 PENDAHULUAN 1.1 Latar Belakang Dengan semakin berkembangnya teknologi telekomunikasi, internet menjadi sesuatu yang tidak lagi sulit dan mahal. Kemudahan ini menyebabkan internet dipenuhi berbagai
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian
Lebih terperinciBAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Bahasa alami adalah bahasa yang biasa digunakan untuk berkomunikasi antarmanusia, misalnya bahasa Indonesia, Sunda, Jawa, Inggris, Jepang, dan sebagainya. Bahasa
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Membaca merupakan bagian kebutuhan manusia, baik membaca buku, surat kabar, dan majalah. Dengan kebutuhan tersebut melalui perkembangan teknologi informasi diantaranya
Lebih terperinciPENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI
PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon
Lebih terperinciInera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
Lebih terperinciSIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.1 April 2015 Page 262 SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL SIMULATION AND ANALYSIS
Lebih terperinciAplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet
Aplikasi Pemodelan Bahasa Secara Statistik dalam Bisnis Periklanan di Internet Nuansa Lembayung / 1820928 Program Studi Sistem dan Teknologi Informasi Sekolah Teknik Elektro dan Informatika Institut Teknologi
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciStudi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz
Studi Kasus Implementasi Konsep Mesin Turing dalam Analisis Potensi Profiling Based Keyword di Sistem Sasbuzz Rizal Panji Islami (23514016) Program MagisterInformatika Sekolah Teknik Elektro dan Informatika
Lebih terperinciUniversitas Gadjah Mada, Jalan Grafika No. 2 Yogyakarta 1), 2),
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Peningkatan Nilai Recall dan Precision pada Penelusuran Informasi Pustaka Berbasis Semantik (Studi Kasus : Sistem Informasi
Lebih terperinciAPLIKASI PENERJEMAH KALIMAT BAHASA INDONESIA KE BAHASA SIMALUNGUN DENGAN ALGORITMA BERRY - RAVINDRAN
APLIKASI PENERJEMAH KALIMAT BAHASA INDONESIA KE BAHASA SIMALUNGUN DENGAN ALGORITMA BERRY - RAVINDRAN Saut Dohot Siregar 1*, Mawaddah Harahap 2, Yohana Marbun 3 1,2,3 Program Studi Teknik Informatika, Fakultas
Lebih terperinciImplementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara
Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara Bima Laksmana Pramudita (13511042) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung,
Lebih terperinciBAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era
BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang
Lebih terperinciPEMBUATAN PERANGKAT BASIS DATA UNTUK SINTESIS UCAPAN (NATURAL SPEECH SYNTHESIS) BERBAHASA INDONESIA BERBASIS HIDDEN MARKOV MODEL (HMM)
PEMBUATAN PERANGKAT BASIS DATA UNTUK SINTESIS UCAPAN (NATURAL SPEECH SYNTHESIS) BERBAHASA INDONESIA BERBASIS HIDDEN MARKOV MODEL (HMM) Oleh: ELOK ANGGRAYNI NRP. 2409 100 092 Dosen Pembimbing: Prof. Dr.
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan
Lebih terperinciPengenalan Aksara Lampung Menggunakan Jaringan Syaraf Tiruan
Pengenalan Aksara Lampung Menggunakan Jaringan Syaraf Tiruan Adhika Aryantio School of Electrical Engineering and Informatics Institute Technology of Bandung 10th Ganeca Street Bandung, Indonesia. Adhikaaryantio.x6@gmail.com
Lebih terperinciRancang Bangun Modul Pengenalan Suara Menggunakan Teknologi Kinect
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 1 Rancang Bangun Modul Pengenalan Suara Menggunakan Teknologi Kinect Ratri Cahyarini, Umi Laili Yuhana, dan Abdul Munif Teknik
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang
1 BAB I PENDAHULUAN 1.1. Latar Belakang Pengenalan lafal manusia agar dapat dilakukan oleh sebuah mesin telah menjadi fokus dari berbagai riset selama lebih dari empat dekade. Ide dasar yang sederhana
Lebih terperinciIMPLEMENTASI PENDIKTEAN BAHASA INDONESIA. Hari Bagus Firdaus dan Ayu Purwarianti
IMPLEMENTASI PENDIKTEAN BAHASA INDONESIA Hari Bagus Firdaus dan Ayu Purwarianti Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung, Jalan Ganesha 10, Bandung, 40132, Indonesia E-mail: hari.firdaus@gmail.com
Lebih terperinciNatural Language Processing (NLP), Information Extraction (IE), dan Text Mining dalam upaya mengatasi Inkonsistensi Data Statistik
Pusdiklat BPS RI Rubrik : Lainnya Natural Language Processing (NLP), Information Extraction (IE), dan Text Mining dalam upaya mengatasi Inkonsistensi Data Statistik 16 April 2013, 2:12:15 oleh Wisnu Nurdiyanto
Lebih terperinciPENGEMBANGAN SISTEM TEMU KEMBALI CITRA DENGAN MULTIMODAL DATA MENGGUNAKAN MICROSTRUCTURE DESCRIPTOR DAN PLSA
PENGEMBANGAN SISTEM TEMU KEMBALI CITRA DENGAN MULTIMODAL DATA MENGGUNAKAN MICROSTRUCTURE DESCRIPTOR DAN PLSA Choiru Za in, Nanik Suciati, Chastine Fatichah Institut Teknologi Sepuluh Nopember choiruzain@gmail.com,
Lebih terperinciEVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE
EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,
Lebih terperinciKLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION
KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION Yufis Azhar Program Studi Teknik Informatika Fakultas Teknik, Universitas Muhammadiyah Malang Email : yufis.az@gmail.com
Lebih terperinciISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for
Lebih terperinciBAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen
BAB IV EKSPERIMEN 4.1 Tujuan Eksperimen Terdapat beberapa hal yang menjadi tujuan eksperimen, yaitu: 1. Membandingkan performansi hasil eksperimen dengan hasil penelitian [LI05a], menggunakan dataset dan
Lebih terperinciBAB I PENDAHULUAN. yang dikenal sebagai antarmuka pengguna grafis atau Graphical User Interface. yakni ucapan, untuk meningkatkan kemudahannya.
BAB I PENDAHULUAN 1.1 Latar Belakang Pada kebanyakan sistem operasi komputer kontemporer telah disediakan pengantaraan grafis untuk mempermudah interaksi antar pengguna dan komputer yang dikenal sebagai
Lebih terperinciPERBANDINGAN RUANG WARNA PADA PENGOLAHAN INFORMASI WARNA UNTUK SEGMENTASI CITRA MENGGUNAKAN NEUTROSOPHIC SET
PERBANDINGAN RUANG WARNA PADA PENGOLAHAN INFORMASI WARNA UNTUK SEGMENTASI CITRA MENGGUNAKAN NEUTROSOPHIC SET Monica Widiasri Teknik Informatika, Fakultas Teknik, Universitas Surabaya monica@ubaya.ac.id
Lebih terperinciPERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,
Lebih terperinciDETEKSI OOV MENGGUNAKAN HASIL PENGENALAN SUARA OTOMATIS UNTUK BAHASA INDONESIA. Aswin Juari dan Ayu Purwarianti
DETEKSI OOV MENGGUNAKAN HASIL PENGENALAN SUARA OTOMATIS UNTUK BAHASA INDONESIA Aswin Juari dan Ayu Purwarianti Teknik Informatika, Institut Teknologi Bandung, Bandung, Indonesia aswin_tsy@yahoo.com, ayu@stei.itb.ac.id
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Wicara atau ucapan adalah cara berkomunikasi yang paling sederhana dan sering digunakan oleh manusia. Namun, seiring dengan perkembangan teknologi, proses komunikasi
Lebih terperinciBAB 2 TELAAH PUSTAKA
BAB 2 TELAAH PUSTAKA Pada bab ini akan dipaparkan mengenai deskripsi data mining secara umum dan landasan teori dari algoritma data mining yang digunakan pada FIKUI Mining. Selain itu, juga akan dijelaskan
Lebih terperinciIMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE
IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut
Lebih terperinciBAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai
BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di
Lebih terperinciBAB 1 PENDAHULUAN. dengan awal tahun 2000 pada saat telepon selular dianggap menjadi barang yang mahal.
BAB 1 PENDAHULUAN 1.1 Latar Belakang Dewasa ini penggunaan alat telekomunikasi yang dapat disebut sebagai telepon selular, ponsel atau handphone di Indonesia meningkat cukup tajam jika dibandingkan dengan
Lebih terperinciPenerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks
Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Paramita / 13504040 PROGRAM STUDI TEKNIK INFORMATIKA
Lebih terperinciIdentifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based
Journal of Applied Informatics and Computing (JAIC) Vol.1, No.1, Desember 2017 e-issn: 2548-6861 33 Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based Try Satria Amanattullah
Lebih terperinci: Peringkasan Terpandu Otomatis (Automatic Guided Summarization)
I. Identitas Calon Promotor Nama Lengkap Fakultas/Sekolah Kelompok Keahlian Telp/Fax/E mail : Ir. Dwi Hendratmo Widyantoro, M.Sc., Ph.D. : STEI : Informatika : (022)2502260/dwi@stei.itb.ac.id II. Deskripsi
Lebih terperinciBAB I PENDAHULUAN! 1.1 Latar Belakang
1.1 Latar Belakang BAB I PENDAHULUAN Untuk dapat tetap bisa menjalankan proses bisnisnya dengan baik, suatu instansi harus memenuhi suatu standar dalam melayani keinginan konsumen atau yang biasa dikenal
Lebih terperinciSISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari
SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM Fakultas Teknik Elektronika dan Komputer, Program Studi Teknik Elektro, Universitas Kristen Satya Wacana, Salatiga,
Lebih terperinciBAB 1 PENDAHULUAN Latar Belakang
1 BAB 1 PENDAHULUAN Bab ini menguraikan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan. 1.1. Latar Belakang Indonesia
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciBAB I PENDAHULUAN. Orasi ilmiah DR. Arry Akhmad Arman, Fakultas Teknologi Industri, ITB, 23 Agustus
BAB I PENDAHULUAN 1. LATAR BELAKANG MASALAH llmu komputer memiliki dua komponen utama; pertama, model dan gagasan mendasar mengenai komputasi, kzdua, teknik rekayasa untuk perancangan sistem komputasi
Lebih terperinciEkstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction
IJCCS, Vol.9, No.2, July 2015, pp. 111~120 ISSN: 1978-1520 111 Ekstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction Erma Susanti* 1, Khabib Mustofa
Lebih terperinci