Membangun Sistem Pengenalan Ucapan Otomatis Bahasa Indonesia Menggunakan Metode Hidden Markov Model

Transkripsi

1 Membangun Sistem Pengenalan Ucapan Otomatis Bahasa Indonesia Menggunakan Metode Hidden Markov Model Askarya Qaulan Syadida Jurusan Teknik Informatika Universitas Dian Nuswantoro Semarang, Indonesia Dr.Muljono, S.Si, M.Kom Jurusan Teknik Informatika Universitas Dian Nuswantoro Semarang, Indonesia Abstract Dengan semakin majunya teknologi menuntut kemudahan dalam pengaksesan informasi dan penyampaian data. Menjawab tantangan tersebut, melalui perangkat komputer masukan berupa ucapan atau ujaran dapat mewujudkan tuntutan itu. Berdasarkan pendekatan yang dilakukan peneliti sebelumnya untuk membentuk model Sistem Pengenalan Ucapan Otomatis berbasis Bahasa Indonesia dengan menggunakan transisi dari model atau pendekatan tata bahasa Bahasa Inggris menghasilkan akurasi Word Error Rate yang bernilai besar. Secara garis besar untuk menghasilkan nilai akurasi yang baik dalam implementasi Sistem Pengenalan Ucapan Otomatis diperlukan pendekatan terhadap aturan tata Bahasa Indonesia. Sistem Pengenalan Ucapan Otomatis berbasis Bahasa Indonesia dapat mengenali ucapan berbentuk berkas rekaman yang diberikan, dengan format berkas waveform audio format dengan besar bit rate 8000 Hz. Pengolahan data rekaman menggunakan toolkit dari CMUSphinx, dan pembangunan aplikasi menggunakan library Sphinx4, serta memanfaatkan algoritma Hidden Markov Model. Setelah dilakukan proses testing terhadap model akustik yang terbentuk, didapatkan nilai word error rate sebesar 23,0 % dan sentence error rate sebesar 32,8 %. Semakin rendah kedua variabel tersebut maka semakin baik pengenalan terhadap inputan berkas ucapan yang diberikan. Keywords sistem pengenalan ucapan otomatis; model akustik; hidden markov model; CMUSphinx toolkit; sphinx4 Introduction I. PENDAHULUAN Dengan semakin majunya teknologi menuntut kemudahan dalam pengaksesan informasi dan penyampaian data. Menjawab tantangan itu, melalui perangkat komputer masukan berupa ucapan merupakan jawaban dari tantangan tersebut [4]. Hal ini dapat terwujud jika komputer dapat mengenali ucapan dengan satu syarat yaitu komputer mengetahui ucapan bahasa dan dapat ditranskripkan ke dalam suatu huruf atau kalimat. Bentuk ucapan jika dijabarkan ke dalam matematika, akan menghasilkan tingkatan nada bernilai probabilistik [1]. Karena setiap hasil nada yang dihasilkan tidak memiliki batasan setiap unit variabel atau antar kata. Berdasarkan sifat tersebut maka pengenalan ucapan melalui sistem komputer tidak akan menghasilkan 100% hasil yang benar [1]. Di Indonesia, perkembangan penelitian tentang Sistem Pengenalan Ucapan Otomatis (SPUO) telah dimulai sejak tahun 2003 sampai sekarang di mana tersedia tiga bentuk basis data yaitu isolated digits, connected digits, dan simple dialogs [6]. Beberapa peneliti menggunakan beragam pendekatan dan menghasilkan hasil yang beragam. Pertama dengan cara menggunakan model akustik Bahasa Inggris untuk membentuk corpus ucapan Bahasa Indonesia [7]. Kedua menggunakan model pengembangan Indonesian Large Vocabulary Continous Speech Recognition (LVCSR) dengan pendekatan cross languange [8]. Berdasarkan pendekatan yang dilakukan peneliti sebelumnya dengan menggunakan transisi dari model atau pendekatan tata bahasa Bahasa Inggris menghasilkan akurasi Word Error Rate (WER) yang bernilai besar, maka untuk menghasilkan nilai akurasi yang lebih baik diperlukan basis data Bahasa Indonesia dengan menggunakan model dan pendekatan menyeluruh terhadap sistem tatanan corpus dan model akustik Bahasa Indonesia sendiri [6]. Secara garis besar untuk menghasilkan nilai akurasi yang baik dalam implementasi SPUO diperlukan pendekatan terhadap aturan tata Bahasa Indonesia. II. TINJAUAN PUSTAKA A. Sistem Pengenalan Ucapan Otomatis Beberapa peneliti mengemukakan definisi dari SPUO. Menurut Abushariah dan Gunawan [14], SPUO memiliki tujuan untuk membuat suatu sistem cerdas yang dapat secara otomatis menerjemahkan kumpulan dari fonem kata atau string fonem dari sinyal ucapan masukan. Menurut Anusuya dan Katti [15] memberi definisi bahwa SPUO adalah sebuah proses mengubah sinyal ucapan ucapan ke urutan kata dengan cara mengimplementasikan algoritma ke sebuah mesin sehingga sebuah sistem yang dapat mengembangkan dan mengenali inputan ucapan. Menurut Kurian [16] bahwa terdapat beberapa keuntungan dalam mengaplikasikan SPUO ke dalam beberapa aplikasi, seperti aplikasi bantuan pelayanan publik melalui ucapan direktori telepon, aplikasi pengenalan query database, aplikasi pengenalan perangkat perkantoran, aplikasi pembantu ucapan untuk aktivitas operasi pada bidang kedokteran, dan aplikasi terjemahan ucapan otomatis ke dalam Bahasa Asing.

2 Pengembangan dalam beberapa tahun terakhir, peneliti melakukan representasi dari sinyal yang dieksplorasi menghasilkan beragam prediksi untuk membaca sinyal tersebut, antara lain melalui prediksi linier perceptual (PLP) [17], gabungan PLP, dan spektrum relatif (RASTA) [18], koefisien akar cepstrum (RCC) [19], dan koefisien frekuensi Mel Cepstral (MFCC) [20]. Unit Matching System dikenal sebagai back-end dari sistem SPUO. Pada modul ini bertanggung jawab untuk mengenali ciri, dan variabel yang diamati dari sinyal ucapan dengan cara menggabungkan informasi dan data yang diperoleh dari model akustik, model bahasa, dan leksikon. Model akustik adalah kumpulan berkas yang menggambarkan keragaman dari vektor fitur [11]. Pada model ini menggunakan algoritma Hidden Markov Model (HMM) digunakan untuk membuat model statistik sinyal dari SPUO [13]. Model Bahasa adalah sekumpulan data probabilistik yang dibentuk dari urutan kata transkrip [11]. Bentuk dari probabilistik ini dapat berupa model unigram atau N-gram. Model unigram biasanya digunakan dalam pencarian informasi. Model N-gram digunakan untuk memperkirakan panjangnya frasa kata atau kalimat dan urutan yang tidak diamati selama dilakukan training terhadap model. Leksikon sering disebut thesaurus adalah kosa kata bahasa yang terdiri dari semua kata-kata dan ekspresi yang akan diolah untuk dapat dimunculkan [11]. Leksikon dapat diartikan sebagai kamus fonetik. B. Hidden Markov Model Tujuan dari pengembangan sistem pengenalan ucapan secara umum didasarkan pada metode HMM. Metode ini adalah model perhitungan statistik yang akan menghasilkan urutan simbol atau jumlah. Metode HMM digunakan dalam pengenalan suara karena sinyal ucapan dapat dinyatakan sebagai sinyal stasioner piecewise atau sinyal stasioner pendek. Dalam skala waktu singkat (misalnya, 10 milidetik), ucapan dapat diperhitungkan sebagai proses stasioner. Ucapan dapat dianggap sebagai model Markov untuk banyak tujuan stokastik [12]. Alasan lain mengapa HMM populer digunakan untuk SPUO adalah karena model HMM dapat dilatih secara otomatis dan sederhana dan layak untuk digunakan secara komputasi [9]. Dalam pengenalan ucapan, HMM akan menampilkan urutan vektor bernilai riil n-dimensi (dengan n adalah bilangan bulat kecil, seperti 10), mengeluarkan satu dari setiap 10 milidetik. Vektor akan terdiri dari koefisien cepstral, yang diperoleh dengan mengambil transformasi Fourier dari jendela waktu singkat pidato dan dekorasi yang menghubungkan spektrum menggunakan transformasi kosinus, kemudian mengambil koefisien pertama (paling signifikan). Metode HMM akan cenderung ada di masing-masing state untuk distribusi statistik yang merupakan campuran diagonal covariance Gaussians, yang akan memberi kemungkinan untuk setiap vektor yang teramati [9]. Metode HMM untuk urutan kata atau fonem di buat dengan menggabungkan HMM individual yang terlatih untuk kata-kata dan fonem terpisah [12]. C. Carnegie Mellon University Sphinx4.5-realpha Carnegie Mellon University Sphinx4.5-realpha (CMUSphinx) adalah sebuah library fleksibel, terdiri atas modul-modul dan pluggable untuk mendorong inovasi baru dalam penelitian pengenalan ucapan dengan inti menggunakan algoritma Hidden Markov Model [11]. Sphinx4 merupakan kerangka kerja inti dari modul-modul yang disediakan oleh CMUSphinx. Sphinx4 menyediakan peneliti pada bidang pengenalan ucapan untuk mengembangkan bahasa baru ataupun model bahasa yang telah di training sebelumnya untuk dapat diimplementasikan secara mutakhir [12]. Figure 1 kerangka kerja Sphinx4 Ada tiga modul utama dalam kerangka Sphinx4 yaitu modul FrontEnd, modul Decoder, dan modul Linguist. Modul FrontEnd bekerja dengan cara mengambil satu atau lebih sinyal input dan parameter ke dalam urutan feature [11]. Modul Linguist berkerja dengan cara menerjemahkan semua jenis model bahasa, beserta informasi pengucapan dari kamus dan informasi struktural dari satu atau lebih banyak set dari model akustik, hasil yang diperoleh berupa SearchGraph. SearchManager di Decoder bekerja dengan menggunakan feature hasil dari modul FrontEnd dan hasil SearchGraph dari modul Linguist untuk melakukan decoding aktual, hasil yang diperoleh merupakan bentuk text atau kalimat (Speech to Text) [12]. III. METODE PENELITIAN Dalam penelitian ini dipakai berkas corpus ucapan sebanyak 10 individu berbeda dengan pembagian 6 individu berjenis kelamin perempuan, dan 4 individu berjenis kelamin laki-laki. Untuk transkrip kalimat yang diucapkan sebanyak 407 kalimat, di mana terdapat beberapa kalimat yang diucapkan kembali dengan syarat pengucapan kembali kalimat tersebut dilakukan oleh individu yang berbeda. Berkas tersebut diletakkan di dalam satu folder yang sama. Untuk berkas corpus ucapan mempunyai format *.WAV, dan untuk berkas transkrip kalimatnya mempunyai format *.sen, yang mana format *.WAV berekstensi 128 bit rate, dan berkerja pada frekuensi 8 Khz. Untuk dataset pada berkas kamus menyadur dari Kamus Umum Bahasa Indonesia susunan W.J.S Poerwadarminta yang diolah kembali oleh Pusat Pembinaan dan Pengembangan Bahasa Departemen Pendidikan dan Kebudayaan Republik Indonesia terbitan Balai Pustaka Jakarta tahun 1986 untuk cetakan ke IX

3 A. Teknik Analisis Data Dalam pembentukan SPUO terdapat 3 berkas dasar yang dibutuhkan untuk membentuk sistem, yaitu berkas untuk model akustik, model bahasa, dan kamus 1. Untuk kepentingan berkas model akustik dilakukan dengan memilih berkas corpus ucapan 10 individu yang berbeda, diikuti oleh berkas transkrip kalimatnya, Langkah selanjutnya yaitu dilakukan persiapan terhadap berkas training transcription dengan setiap individu mempunyai 110 berkas transkripsi dan terdapat 10 individu. Kemudian sebanyak 1100 berkas diletakkan ke dalam satu berkas *.transcription. Memilih secara acak berkas corpus ucapan beserta berkas transkrip kalimatnya dari 10 individu tersebut dipilih 6 kalimat untuk setiap individu dan diletakkan ke dalam folder (/wav/ind_testing) yang akan digunakan sebagai berkas testing model akustik. 2. Untuk kepentingan berkas kamus fonetik digunakan metode sampling pada Kamus Umum Bahasa Indonesia susunan W.J.S Poerwadarminta yang diolah kembali oleh Pusat Pembinaan dan Pengembangan Bahasa Departemen Pendidikan dan Kebudayaan Republik Indonesia terbitan Balai Pustaka Jakarta tahun 1986 cetakan ke IX di mana peneliti menyadur 7750 ejaan baru dengan penyesuaian. Berkas kamus ini diletakkan pada format berkas *.dic, yang mana pada tata cara penulisan untuk setiap kata diikuti urutan fonemnya dengan dibatasi oleh spasi <tab>. 3. Untuk berkas model bahasa diperlukan berkas transkrip kalimat model bahasa yang sesuai dengan topik bahasan. Peneliti menggunakan berkas transkrip yang digunakan oleh model akustik. Semua berkas dimasukkan ke dalam satu berkas dengan format *.txt, Tata cara penulisan dengan penghilangan tanda baca dan huruf serta memakai simbol tag <s> dan </s> untuk inisialisasi awal dan akhir kalimat. B. Usulan Metode Berikut langkah usulan metode pada penelitian yang diajukan: 1. Pemilihan dataset Dataset sampel 407 kalimat sebagai acuan pelatihan SPUO. Di mana kalimat tersebut diucapkan oleh 10 individu berbeda yaitu 6 perempuan dan 4 laki-laki dengan aksen dan logat berbeda. 2. Persiapan dataset Secara garis besar dalam pembentukkan SPUO ini dibagi menjadi 3 model, yaitu membangun kamus fonem, membentuk model bahasa dan melatih model akustik. 3. Pembangunan sistem Pengecekkan kamus fonetik menggunakan tool g2p-seq2seq. Pembentukan model biner dari model bahasa menggunakan tool CMUCMLTK. Pelatihan model akustik dengan metode encoder dan menguji hasilnya dengan metode decoder menggunakan tool sphinxtrain. 4. Implementasi SPUO Pada bagian ini dilakukan implementasi terhadap model SPUO yang telah terbentuk. Menggunakan library dari Sphinx4. C. Pengujian Metode Desain pengujian dari metode yang diajukan adalah sebagai berikut: 1. Langkah pertama yang dilakukan adalah dengan melakukan inputan berupa berkas ucapan. Data kata atau kalimat yang diucapkan linear dengan konteks model bahasa yang dibentuk. 2. Langkah kedua yaitu pengenalan urutan fonetik dari masukan ucapan. Proses ini melibatkan kamus model yang dibentuk. 3. Langkah ketiga yaitu pencocokan urutan fonetik ke dalam transkrip model bahasa. Transkrip ini berperan sebagai dataset yang akan digunakan di dalam menampilkan hipotesis hasil pengenalan ucapan. 4. Langkah berikutnya yaitu menguji urutan senone dari sifat akustik ucapan yang di latih. Hal ini dilakukan untuk mencocokkan sifat fonem dari suatu kata dengan ucapan masukan yang diberikan. 5. Langkah terakhir adalah decoding model akustik yang terbentuk dan melakukan evaluasi berdasarkan nilai Word Error Rate (WER) dari encoding model akustik tersebut. Setelah itu memasuki tahapan testing model menggunakan library Sphinx.

4 IV. HASIL PENELITIAN DAN PEMBAHASAN Sebelum dapat membangun SPUO, dibutuhkan beberapa macam data yang diperlukan. Data ini berperan dalam membangun, membentuk, dan melatih beberapa model yang diperlukan sebagai tahapan kebutuhan sistem. Dataset tersebut berupa data corpus rekaman dari 10 individu dengan setiap individu mengucapkan 110 kalimat, yang mana setiap kalimat diletakkan di dalam satu berkas, maka total data corpus ucapan terdiri dari 1100 berkas kalimat ucapan. Data corpus ucapan berformat waveform audio format (WAV) direkam pada frekuensi 8 KHz. Selain data corpus ucapan terdapat pula data transkrip kalimat sebagai terjemahan dari corpus ucapan tersebut. Jumlah dari total kalimat sebanyak 407 kalimat. Pola dari kalimat yang diucapkan dapat saling diulang antara individu satu dan setelahnya. Hal ini diperlukan untuk menciptakan model akustik yang bagus dari setiap senone anggota fonem di setiap kata. Sebagai tolak ukur terdapat 10 individu mempunyai obyek rekaman ucapan dan setiap individu mempunyai 110 transkrip kalimat, apabila kalimat yang diucapkan berbeda maka jumlah dari kalimat adalah 1100 kalimat. Hal ini akan membuat kecenderungan sifat akustik yang kurang baik, maka dataset yang dibangun lebih baik jika terdapat perulangan kalimat yang diucapkan. A. Pelatihan Model Dalam membuat model SPUO untuk Bahasa Indonesia maka tahapan yang diperlukan yaitu antara lain membangun kamus yang terdiri atas kumpulan fonem dari kata yang akan digunakan, membentuk model bahasa untuk membatasi penggunaan kata yang akan muncul, dan melatih model akustik dari senone setiap kata. 1) Membangun Kamus Fonetik a) Pada tahapan membangun kamus fonetik digunakan tool dari CMUSphinx yaitu tool Grapheme to Phoneme Sequence to Sequence (g2p-seq2seq). b) Tool konversi grafem menjadi bentuk fonem (G2P) menggunakan metode Recurrent Neural Network (RNN) dengan Long Short-Term Memory Units (LSTM). c) G2P tool menggunakan model LSTM 2 lapis berlisensi dengan 512 unit tersembunyi. d) Peneliti menyiapkan data kamus fonetik melalui penyusunan secara manual dengan menyadur Kamus Umum Bahasa Indonesia susunan W.J.S Poerwadarminta tahun 1986 cetakan ke IX sebanyak 7500 kata. e) Penambahan kata yang belum tercantum sebelumnya, seperti untuk kata nama orang, jabatan, singkatan gelar, nama daerah, ucapan Bahasa Indonesia tidak baku yang muncul pada data baik di model bahasa, ataupun di model akustik. Total kamus yang tersusun (ind.dict) untuk melingkupi pembentukan SPUO Bahasa Indonesia adalah 7994 kata. f) Pada pembangunan kamus fonetik dibutuhkan pula berkas pendukung, antara lain: berkas fonem dengan karakter dan sifat pengucapannya (ind.phone), berkas urutan fonem (ind.symbols), dan berkas simbol selain kata (ind.vp). 2) Membentuk Model Bahasa Figure 3 proses membentuk model bahasa a) Untuk membentuk model bahasa peneliti menggunakan tool Carnegie Mellon University Cambridge Statistical Languange Modeling Toolkit (CMUCLMTK). Hasil akhir yang didapatkan berbentuk mode bahasa biner (lm.bin) yang digunakan untuk melatih model akustik. b) Berkas di ubah dari bentuk format ind.text menjadi bentuk biner model bahasa, kata-kata di definisikan berdasarkan bobot N-gram. c) Tahapan penyusunan berkas ind.text ini di dalam aturan penulisan yaitu penghilangan terhadap tanda baca, seperti tanda baca titik (.), koma (,), garis (-), garis bawah (_), seru(!), tanya (?), dan sebagainya. Penggantian penulisan huruf dengan kata, lalu penggantian huruf kapital dengan huruf kecil. Memberikan inisialisasi untuk setiap kalimat dengan simbol <s> untuk penanda awal kalimat, dan simbol </s> untuk tanda akhir kalimat. d) Berkas ind.text terbentuk memiliki 1100 kalimat, maka berkas inilah yang akan menjadi grammar atau batasan kemunculan kata untuk hipotesis yang akan dihasilkan pada saat dilakukan implementasi SPUO. e) Tahapan berikutnya adalah membentuk berkas biner model bahasa dari berkas text tersebut (ind.lm.bin). 3) Melatih Model Akustik a) Hasil yang diperoleh dari tahapan sebelumnya, yaitu berupa hasil dari membangun kamus fonetik (ind.dict, ind.phone, ind.filler) dan hasil dari membentuk model bahasa (ind.lm.bin) merupakan data yang diperlukan pada pelatihan model akustik. b) Hasil yang diperoleh disebut basis data (database) pelatihan ucapan berisi informasi yang dibutuhkan untuk mengekstraksi probabilitas dari rekaman yang di latih ke dalam bentuk model akustik.

5 c) Decoder mengambil model, lalu menguji bagian dari corpus ucapan dan transkripsi berkas referensi dan memperkirakan kualitas nilai World Error Rate (WER) model. d) Basis data harus menjadi representasi bagus dari ucapan yang akan diimplementasikan dengan kata lain. Data ini akan menghasilkan hipotesis yang bagus jika data mempunyai topik bahasan ucapan yang linear dengan ucapan pada saat diimplementasikan. e) Komposisi bagian testing adalah sekitar 1/25 dari ukuran data training, dengan rincian dari data training sebanyak 1100 kalimat, terbagi menjadi rekaman setiap 10 individu mengucapkan 110 kalimat, data tersebut di ambil sampling untuk data testing sebanyak 60 kalimat, terbagi menjadi rekaman setiap 10 individu mengucapkan 6 kalimat. 4) Pengujian Model a) Setelah model terbentuk, maka uji kualitas basis data yang telah terlatih agar dapat memilih parameter terbaik, memahami bagaimana aplikasi SPUO berjalan dan mengoptimalkan kinerja hipotesis terhadap masukan ucapan. b) Untuk meyakinkan hasil yang terbaik dari ketiga indikator tersebut, maka diperlukan langkah uji decoding. B. Implementasi Sistem Pada bagian ini, dilakukan tahapan coding aplikasi Sistem Pengenalan Ucapan Otomatis (SPUO) dilakukan dengan menggunakan bahasa pemrograman Java dengan tools Netbeans dan memakai library Sphinx4. C. Hasil Implementasi dan Pengujian 1) Aplikasi berformat java archive (*.jar) yang dapat dijalankan pada beragam sistem operasi baik windows atau linux. 2) Aplikasi SPUO memberikan opsi untuk memasukkan nama berkas uji. Pastikan bahwa berkas ini terdapat pada satu jalur PATH dengan berkas projek SPUO. Berikut transkrip berkas uji : 3) Program akan memberikan hasil hipotesis beserta keterangan yang tersedia yaitu estimasi kecepatan mengenali ucapan, penggunaan memori yang digunakan, model tree Ngram yang terbentuk, dan informasi mengenai livecmn atau koefisien frekuensi Mell Cepstral (MFCC) yang dikenali. Berikut hasil hipotesis yang diberikan: 4) Perhitungan Word Error Rate (WER) keterangan : I = parameter nilai yang tersisipi S = parameter nilai yang ditambahkan D = parameter nilai yang kekurangan N = parameter jumlah kata referensi

6 No TABLE I. PERHITUNGAN WORD ERROR RATE Parameter I D S N WER Jumlah Rata-rata % CONCLUSION a. Dari 16 kalimat berkas uji Berdasarkan penelitian ini, dapat di ambil kesimpulan sebagai berikut: 1. Sistem Pengenalan Ucapan Otomatis berbasis Bahasa Indonesia dapat mengenali ucapan berbentuk berkas rekaman yang diberikan, dengan format berkas waveform audio format (*.WAV) dengan besar bit rate 8000 Hz. Pengolahan data rekaman menggunakan toolkit dari CMUSphinx, dan pembangunan aplikasi menggunakan library Sphinx4. 2. Setelah dilakukan proses testing terhadap model akustik yang terbentuk, didapatkan nilai word error rate (WER) sebesar 23,0 % dan sentence error rate (SER) sebesar 32,8 %. Semakin rendah kedua variabel tersebut maka semakin baik pengenalan terhadap inputan berkas ucapan yang diberikan. REFERENCES [1] A. Martinet, "Elements of General Linguistics," Tr. Elisabeth Palmer Rubbert (Studies in General Linguistics, vol. i.), p. Faber. p. 15., (1960). [4] Baecker, Ronald M, Human-Computer Interaction : Toward the Year 2000, Morgan Kauffman Publishers, Inc., [6] Suyanto, An Indonesian Phonetically Balanced Sentence Set for Collecting Speech Database, Jurnal Teknologi Industri, vol. XI, no. No. 1, pp , Januari [7] V. Ferdiansyah, Purwarianti, Indonesian automatic speech recognition system using English-based acoustic model, Proc. of International Conference Electrical Engineering and Informatics (ICEEI), pp. 1-4, [8] Sakti S, Markov K, Nakamura S., Rapid Development of Initial Indonesian Phonemebased Speech Recognition Using The Cross- Language Approach, Proceeding of Oriental-COSCODA, pp , [9] X X Li, Y Zhao, X Pi, Audio-visual continuous speech recognition using a coupled hidden Markov mode, Proceedings of the 7th International Conference on Spoken Language Processing, pp , [11] CMU Sphinx, cmusphinx.github.io, [Online]. Available: [Diakses ]. [12] Willie Walker, Paul Lamere, Philip Kwok, Bhiksha Raj, Rita Singh, Evandro Gouvea, Peter Wolf, Joe Woelfel, Sphinx-4: A Flexible Open Source Framework for Speech Recognition, SUN MICROSYSTEMS INC., no. SMLI TR, p. 0811, [13] S. Cook, Speech Recognition HOWTO, faqs.org, [Online]. Available: Recognition-HOWTO.html. [Diakses ]. [14] Abushariah, Gunawan, and Khalifa, English Digits Speech Recognition System Based on Hidden Markov Models, Proceedings of International Conference Computer and Communication Engineering (ICCCE), pp. 1-5, [15] M. A. Anusuya, and S. K. Katti, Speech Recognition by Machine: A Review, International Journal of Computer Science and Information Security, vol. vol.6, no. no.3, pp , [16] C. Kurian, BalaKrishnan, Speech recognition of Malayalam numbers, Nature & Biologically Inspired Computing, pp , [17] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, Journal of the Acoustical Society of America, pp , [18] Hermansky, Morgan, A. Bayya, RASTA-PLP speech analysis technique, Proc. International Conference on Acoustics, Speech and Signal Processing, [19] Lockwood, P. Alexandre and P., Root cepstral analysis: A unified view. Application to speech processing in car noise environments,, Speech Communication,, pp , [20] Mermelstein, S. B. Davis and P., Comparison of parametric representations for monosyllable word recognition in continuously spoken sentences, IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 28, no. 04, 1980.