PENGEMBANGAN HIDDEN MARKOV MODELS UNTUK FONEM BERBAHASA INDONESIA PADA SISTEM KONVERSI SUARA KE TEKS SRI DANURIATI

Transkripsi

1 PENGEMBANGAN HIDDEN MARKOV MODELS UNTUK FONEM BERBAHASA INDONESIA PADA SISTEM KONVERSI SUARA KE TEKS SRI DANURIATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010

2 PENGEMBANGAN HIDDEN MARKOV MODELS UNTUK FONEM BERBAHASA INDONESIA PADA SISTEM KONVERSI SUARA KE TEKS SRI DANURIATI Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010

3 ABSTRACT SRI DANURIATI. Hidden Markov Models (HMM) development for Indonesian-language phoneme on Speech to text transcription system. Supervised by AGUS BUONO. Speech to text transcription system is a system used to convert a voice signal from a microphone or a telephone into a single or a set of words. Research on speech to text transcription systems has been widely applied. But these systems tend to be developed based on words, hence they are inefficient when developed for a large vocabulary. This study uses Baum Welch algorithm for HMM training, Forward algorithm for HMM testing, and Mel-Frequency cepstral coefficient (MFCC) to extract voice features. Data used in this study consist of 5 words in Indonesian language. Phonemes are generated from the segmentation process, and then trained with Baum Welch algorithm to generate the model. This study produced 10 models. The best accuracy obtained is 82% generated by testing the HMM with 2 States and 5 epochs. Keyword: Hidden Markov Models, speech to text transcription, phoneme, Baum Welch algorithm.

4 Judul Skripsi Nama NRP : Pengembangan Hidden Markov Models untuk fonem berbahasa Indonesia pada sistem konversi suara ke teks : Sri Danuriati : G Menyetujui: Pembimbing, Dr. Ir. Agus Buono, M.Si., M.Komp. NIP Mengetahui: Ketua Departemen Ilmu Komputer, Dr. Ir. Sri Nurdiati, M.Sc. NIP Tanggal Lulus:

5 PRAKATA Alhamdulillahi Robbil a lamin, segala puji penulis panjatkan kepada Allah SWT yang telah melimpahkan rahmat dan karunia yang tak terbatas sehingga penulis dapat menyelesaikan tugasu akhir ini. Sholawat serta salam selalu tercurahkan untuk Rasulullah SAW, sahabat, keluarga dan pengikutnya yang tetap istoqomah menjalankan risalah-nya. Penulis menyadari bahwa keberhasilan penyelesaian tugas akhir ini tidak terlepas dari pihak-pihak yang telah banyak membantu. Oleh karena itu, penulis sampaikan terima kasih kepada Bapak Dr. Ir. Agus Buono, M. Si., M. Komp. sebagai pembimbing yang selalu sabar dalam memberikan arahan dan saran selama penyelesaian tugas akhir ini, serta Bapak Mushthofa, S. Kom., M. Sc. dan Bapak Ahmad Ridha, S. Kom., M. S. yang telah bersedia menjadi moderator dan penguji dalam seminar dan sidang penulis. Penulis ucapkan terima kasih kepada seluruh keluarga khususnya orang tua penulis yang tiada henti-hentinya memberikan doa, dukungan, pendidikan dan kepercayaan penuh atas apa yang penulis kerjakan hingga saat ini, juga kepada mas Anto dan Desi yang selalu memberikan keceriaan, semangat, dan dukungan selama ini. Penulis ucapkan terima kasih kepada Ninon, Zissalwa, Karina, Vera dan Yuni yang selalu memberikan semangat dan menjadikan penulis bagian dari kalian, merupakan kebahagiaan dan kebanggaan yang tak terkira telah memiliki kalian dalam hidup ini. Kepada teman-teman Ilkom 42 penulis ucapkan terima kasih karena telah memberikan keceriaan dan persahabatannya, juga kepada Heru dan Prameswari yang telah memberikan semangat dan dukungan selama pengerjaan tugas akhir. Kepada Mutia dan Yohan yang bersedia menjadi pembahas dalam seminar tugas akhir penulis ucapkan terima kasih. Kepada teman-teman di Harmony dan Maharlika yang telah memenuhi hari-hari penulis menjadi lebih berwarna penulis mengucapkan terima kasih kost especially for reni and icha karena sudah memberikan tempat tinggal dan dukungan selama mengerjakan tugas akhir. Kemudian penulis sampaikan terima kasih kepada seluruh staf dan karyawan Departemen Ilmu Komputer, teman-teman Ilkom 43 serta seluruh pihak lainnya yang tidak dapat disebutkan satu persatu. Penulis menyadari bahwa dalam penelitian ini masih terdapat kekurangan, sehingga kritik dan saran yang membangun penulis harapkan dari semua pihak. Semoga penelitian ini dapat bermanfaat. Amin Bogor, Juli 2010 Sri Danuriati

6 RIWAYAT HIDUP Penulis dilahirkan pada tanggal 3 April 1987 di Jakarta. Penulis merupakan anak kedua dari tiga bersaudara pasangan Danuri dan Sri Wahyuni. Pada tahun 2005 penulis lulus dari SMA Negeri 67 Jakarta dan diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur SPMB (Seleksi Penerimaan Mahasiswa Baru). Selama mengikuti kegiatan perkuliahan penulis aktif dalam kegiatan Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) periode 2006/2007.

7 DAFTAR PUSTAKA Halaman DAFTAR TABEL... v DAFTAR GAMBAR... v DAFTAR PENDAHULUAN... 1 Latar Belakang... 1 Tujuan Penelitian... 1 Ruang Lingkup... 1 TINJAUAN PUSTAKA... 1 Speech Recognition... 1 Pemrosesan Sinyal Suara... 2 Ekstraksi Sinyal Suara... 3 Hidden Markov Model (HMM)... 4 Algoritme Forward... 5 Algoritme Backward... 6 Algoritme Baum-Welch... 6 Longest Common Subsequence (LCS)... 6 METODE PENELITIAN... 7 Kerangka Pemikiran... 7 Studi Pustaka... 7 Perumusan Masalah... 7 Pendefinisian Metode Penelitian... 7 Pengambilan Data... 7 Praproses... 8 Pemodelan/Inisialisasi... 8 Pelatihan Model... 9 Pengujian Postprocessing Penerapan LCS Perhitungan Tingkat Akurasi HASIL DAN PEMBAHASAN Hasil Postprocessing Hasil Pengujian Model HMM Hasil Pengujian Model HMM dengan 2 State Hasil Pengujian Model HMM dengan 3 State Hasil Pengujian Model HMM dengan 4 State Hasil Pengujian Model HMM dengan 5 State Hasil Pengujian Kata Penggunaan Kata Lain Pada LCS Pengujian Kata Lain KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN... 16

8 DAFTAR TABEL Halaman 1 Kata dalam penelitian Hasil postprocessing Akurasi maksimum dan minimum setiap kata DAFTAR GAMBAR Halaman 1 Tahapan transformasi sinyal suara menjadi informasi Ilustrasi frame blocking pada sinyal suara Frame sinyal sebelum proses windowing Frame sinyal setelah proses windowing Fonem /a/ dalam domain waktu Fonem /a/ dalam domain frekuensi Mel-frequency filter HMM dalam pengamatan kondisi cuaca Ilustrasi proses perhitungan algoritme Forward Proses perhitungan algoritme Backward Ilustrasi perhitungan algoritme Baum-Welch Diagram proses konversi suara ke teks Suara sebelum cutting silent Overlap antar frame Ilustrasi penggabungan fonem hasil segmentasi Grafik akurasi LCS dan pencocokan string Grafik akurasi HMM setiap State Grafik akurasi HMM 2 State Grafik akurasi HMM 3 State Grafik akurasi HMM 4 State Grafik akurasi HMM 5 State Grafik akurasi setiap kata untuk setiap State Grafik akurasi penerapan LCS dengan 5 kata dan 8 kata Antarmuka sistem konversi suara ke teks v

9 Latar Belakang PENDAHULUAN Secara umum, dalam berkomunikasi manusia menggunakan bahasa yang disampaikan dalam bentuk ucapan ataupun perkataan. Agar informasi yang ingin disampaikan dapat dipahami, sebuah pesan harus disampaikan dengan baik sehingga tidak terjadi kesalahartian maksud dari pesan tersebut. Bagi manusia, mengenali suara tidaklah sulit untuk dilakukan, namun hal ini bukanlah hal yang mudah dilakukan oleh sebuah komputer. Hal inilah yang mendorong dikembangkannya penelitian di bidang suara, salah satunya adalah penelitian mengenai konversi suara ke teks (speech to text transcription) yang bertujuan agar suara manusia dapat diproses dan dikonversi menjadi teks yang kemudian dapat dikenali oleh sistem, dan selanjutnya diharapkan manusia dapat berkomunikasi dengan komputer selayaknya dengan manusia. Dalam proses konversi suara ke teks salah satu hal yang paling penting adalah pengenalan kata (speech recognition). Pada proses pengenalan kata, sistem digunakan untuk membandingkan suara masukan dengan suatu database suara dan menghasilkan data yang paling cocok dengan suara tersebut jika ada. Teknologi pengenalan suara memungkinkan manusia berkomunikasi dengan komputer dengan memberikan perintah dalam bahasa sehari-hari yang harus dijalankan oleh komputer, sehingga komunikasi manusia dengan komputer tidak hanya bergantung dengan mouse dan keyboard saja. Dalam beberapa aplikasi, antarmuka yang dikombinasikan dengan suara terbukti lebih efisien daripada antarmuka yang tanpa melibatkan suara, terutama bagi seseorang yang memiliki keterbatasan fisik yang sangat merasakan manfaat dari aplikasi tersebut. Penelitian mengenai konversi suara ke teks telah banyak dilakukan. Salah satunya adalah penelitian dilakukan oleh Ruvinna tahun Namun sistem yang dikembangkan cenderung berbasiskan kata, dimana setiap kata yang terdapat dalam kamus kata dimodelkan dengan sebuah Hidden Markov Models (HMM). Hal ini mengakibatkan kurang efisiennya sistem apabila dikembangkan menjadi sistem yang bersifat large vocabulary. Oleh karena itu, pada penelitian ini akan dikembangkan suatu sistem konversi suara ke teks berbasiskan fonem, yang mana untuk semua kata yang terdapat dalam kamus kata akan dimodelkan ke dalam beberapa model yang banyaknya bergantung pada jumlah fonem yang ada dalam kamus kata tersebut. Tujuan Penelitian Tujuan penelitian ini adalah menerapkan Markov model tersembunyi untuk fonem berbahasa Indonesia pada sistem konversi suara ke teks menggunakan algoritme Baum-Welch. Ruang Lingkup Penelitian ini terbatas pada pengenalan kata (isolated word), bukan pengenalan kalimat. Kata yang digunakan untuk proses pembentukan model sebanyak lima kata yang mengandung 10 fonem asli dan fonem transisi. Kata yang dapat dikenali berasal dari pembicara yang terlatih (speaker dependent). Speech Recognition TINJAUAN PUSTAKA Pengenalan kata (speech recognition) merupakan suatu proses dimana komputer dapat mengidentifikasi kata-kata yang diucapkan (Cook 2002, diacu dalam Mandasari 2005). Proses identifikasi dibutuhkan agar sistem dapat mengenali suatu input suara sehingga menghasilkan output yang sesuai dengan tujuan dibuatnya sebuah sistem. Berdasarkan output yang dihasilkan, terdapat berbagai aplikasi pengenalan suara, diantanya (Campbell, 1997): 1. Speaker recognition a. Speaker verification Sistem hanya menghasilkan dua output yaitu yes atau no. Aplikasi pada sistem verifikasi pembicara banyak digunakan pada sistem transaksi pelanggan, misalnya untuk mengetahui apakah suara yang diproses merupakan pelanggan atau bukan. b. Speaker tracking Sistem memproses input suara dengan mencari suara tersebut apakah ada dalam database atau model. Aplikasi ini biasanya digunakan pada bidang periklanan untuk mengetahui berapa kali suatu iklan muncul dalam waktu tertentu. c. Speaker identification Sistem menghasilkan beberapa output sesuai dengan jumlah pembicara yang dikenali sistem. Input berupa suara yang

10 berasal dari pembicara yang telah dilatih. Sistem akan mengidentifikasi pemilik suara tersebut. 2. Speech to text transcription Speech to text transcription system (sistem konversi suara ke teks) merupakan sistem yang berfungsi mengkonversi sebuah sinyal suara yang berasal dari mikropon atau telepon, menjadi satu atau sekumpulan kata (string). Saat ini, sebuah sistem konversi suara hanya dapat mengkonversi sinyal suara yang merupakan hasil pengucapan kata dalam bahasa tertentu. Namun pada akhirnya, diharapkan dapat dikembangkan sebuah sistem konversi suara yang dapat mengidentifikasi suara dalam beragam bahasa dengan berbagai pembicara. Berbagai sistem pengenalan suara telah banyak dikembangkan, Dalam mengklasifikasikan sistem pengenalan suara, perlu memperhatikan beberapa parameter, seperti (Jurafsky, 2007): a. Jumlah kosakata Semakin kecil (sedikit) jumlah kosakata yang diimplementasikan dalam sebuah ASR maka semakin sedikit kata yang harus dikenali oleh sistem, begitu juga sebaliknya. Berdasarkan jumlah katanya, sistem dapat dibagi menjadi 2 macam yaitu sistem yang dapat mengenali small vocabulary ( 1000 kata) dan large vocabulary (>1000 kata). b. Cara dan gaya bicara Jika sistem hanya dapat mengenali kata tunggal dalam sekali proses maka disebut dengan isolated word recognition, sedangkan jika sistem dapat mengenali beberapa kata (sebuah kalimat) dalam sekali waktu maka disebut dengan continous speech recognition. Sistem dengan continous speech recognition sangat sulit diimplementasikan, untuk itu perlu dibedakan antara cara bicara antara manusia dengan manusia (conversation speech) dengan cara bicara manusia dengan mesin (read speech). c. Media dan noise Media yang digunakan dalam aplikasi komersial maupun pada laboratorium penelitian merupakan media yang berkualitas, misalnya head mounted microfones. Dengan mikrofon tersebut, distorsi dari sinyal suara dapat dihindari, sehingga diharapkan kualitas suara yang dihasilkan juga baik. Selain itu kualitas sinyal suara juga dipengaruhi oleh noise. Jika terdapat noise (misalnya bunyi selain sinyal suara) ketika proses perekaman, maka kualitas sinyal yang dihasilkan tidak akan baik. Jika keberadaan noise lebih dari 30dB maka suara memiliki low noise, sedangkan jika kurang dari 10 db maka high noise. d. Karakteristik pembicara Lebih mudah mengembangkan sistem yang dapat mengenali dialek standar, atau dengan kata lain suara yang dikenali berasal dari pembicara yang sudah dilatih (speaker dependent) dari pada sistem yang dapat mengenali suara yang berasal dari pembicara yang belum dilatih (speaker independent). Untuk membangun sebuah sistem pengenalan suara diperlukan tahapan yang terdiri dari beberapa proses, di antaranya adalah transformasi sinyal suara analog, ekstraksi ciri suara, dan memodelkan suara menggunakan metode tertentu. Pemrosesan sinyal suara Pemrosesan sinyal suara merupakan teknik mentransformasi sinyal suara menjadi informasi yang berarti sesuai dengan yang diinginkan (Buono, 2009). Dalam proses transformasi tersebut, terdapat tahapan-tahapan yang perlu dilakukan di antaranya dijitalisasi sinyal analog, ekstraksi ciri, dan pengenalan pola, seperti yang diilustrasikan pada Gambar 1. Berdasarkan peubah waktu, sinyal dapat diklasifikasikan menjadi dua yaitu: a. Sinyal waktu kontinyu: kuantitas sinyal terdefinisi pada setiap waktu dalam selang kontinyu. Sinyal waktu kontinyu disebut juga sinyal analog. b. Sinyal waktu diskret: kuantitas sinyal terdefinisi pada waktu diskret tertentu. Dijitalisasi sinyal analog dapat dilakukan melalui dua tahap yaitu sampling dan kuantisasi. Sampling merupakan pengamatan sinyal analog pada waktu tertentu, sehingga diperoleh sinyal waktu diskret. Nilai dari hasil sampling tersebut dibulatkan ke nilai terdekat (rounding) sehingga menghasilkan sinyal suara dijital dan proses ini dikenal dengan kuantisasi. Sinyal suara dijital kemudian dilakukan proses pembacaan sinyal per frame dengan lebar frame tertentu yang saling tumpang tindih. Proses ini dikenal dengan proses Frame blocking. Barisan frame berisi informasi yang lengkap dari sebuah sinyal suara. Untuk merepresentasikan informasi yang terdapat dalam frame-frame tersebut dilakukan ekstraksi ciri sehingga dihasilkan vektor-vektor yang 2

11 nantinya digunakan dalam pengenalan pola. Metode ekstraksi ciri untuk sinyal suara yang memiliki kinerja yang baik adalah MFCC (Mel- Frequency Cepstrum coefficient), sedangkan metode pengenalan pola yang saat ini sedang trend adalah Hidden Markov Model (Buono, 2009). Gambar 2 Ilustrasi frame blocking pada sinyal suara. Windowing Akibat proses Frame blocking terjadi distorsi (ketidakberlanjutan sinyal) antar frame. Untuk meminimalisasi distorsi tersebut maka dilakukan proses windowing yaitu proses filtering pada tiap frame dengan cara mengalikan setiap frame tersebut dengan fungsi window tertentu yang ukurannya sama dengan frame. Fungsi window yang dianggap cukup sederhana sehingga mudah digunakan adalah window Hamming. Gambar 3 menunjukkan contoh frame sinyal yang belum melalui proses windowing sedangkan hasil dari windowing ditunjukkan pada Gambar 4. Gambar 1 Tahapan transformasi sinyal suara menjadi informasi (Buono, 2009). Ekstraksi sinyal suara Terdapat banyak cara untuk merepresentasikan sinyal yang diucapkan seseorang, salah satunya yaitu MFCC (Mel- Frequency Cepstral Coefficient). Dibandingkan teknik lain, dalam mengekstraksi sinyal suara yang bersifat low noise (>30 db) teknik MFCC relatif lebih baik (Buono, 2009). Hal ini dikarenakan cara kerja MFCC didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh telinga manusia sehingga mampu merepresentasikan sinyal suara sebagaimana manusia merepresentasikan. Proses MFCC terdiri dari tahapan berikut (Do, 1994): Frame blocking Seperti yang telah dijelaskan dalam subbab sebelumnya, dalam proses ini sinyal suara dibagi kedalam frame-frame yang saling overlap, hal ini dilakukan agar tidak ada sedikitpun sinyal yang hilang. Proses Frame blocking pada sinyal suara diilustrasikan dalam Gambar 2. Gambar 3 Frame sinyal sebelum proses windowing. Gambar 4 Frame sinyal setelah proses windowing. Discrete Transformation Fourier (DCT). DCT merupakan transformasi setiap frame dengan N sample dari domain waktu ke domain frekuensi. Hal ini dilakukan karena pendengaran manusia didasarkan pada analisis frekuensi dan dengan mengunakan analisis 3

12 frekuensi dapat mempermudah pemrosesan suara. Algoritme yang digunakan adalah Fast Fourier Transformation (FFT). Berikut persamaan yang digunakan pada proses ini: (1) Hasil dari tahapan ini biasanya disebut dengan spectrum atau periodogram. Gambar 5 dan 6 dan mengilustrasikan sebuah sinyal suara dalam domain waktu dan frekuensi. Gambar 5 Fonem /a/ dalam domain waktu. Gambar 7 Mel-frequency filter. Transformasi Cosinus Tahapan ini digunakan untuk memperoleh vektor ciri, dimana ukuran vektor bergantung pada jumlah koefisien yang diinginkan. Berikut adalah persamaan yang digunakan dalam transformasi cosinus: Gambar 6 Fonem /a/ dalam domain frekuensi. Mel-Frequency Wrapping Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear. Penerimaan sinyal suara untuk frekuensi rendah (<1000) bersifat linear, sedangkan untuk frekuensi tinggi (>1000) bersifat logaritmik. Skala inilah yang disebut dengan skala mel-frequency yang berupa filter, seperti yang diilustrasikan pada Gambar 7. Persamaan berikut menunjukkan hubungan skala mel dengan frekuensi dalam Hz: (2) Proses wrapping terhadap sinyal dalam domain frekuensi dilakukan menggunakan persamaan berikut: (3) dimana i=1,2,3,m (M adalah jumlah filter segitiga) dan H i (k) adalah nilai filter segitiga ke-i untuk frekuensi akustik sebesar k. (4) dimana j=1,2,3,, K (K adalah jumlah koefisien yang diinginkan) dan M adalah jumlah filter. Hidden Markov Model ( HMM ) Sebelum mendefinisikan HMM, perlu dibahas terlebih dulu mengenai Markov chain (rantai Markov). Markov chain merupakan kumpulan state yang transisi antar statenya memiliki nilai peluang yang mengindikasikan kemungkinan jalur state tersebut diambil. Jumlah peluang transisi yang keluar dari suatu state adalah satu. Markov chain bermanfaat untuk menghitung peluang urutan kejadian yang dapat diamati. Pada kondisi tertentu tidak semua kejadian dapat diamati secara langsung, namun dapat dievaluasi dari kejadian lain yang dapat diamati secara langsung. Untuk masalah seperti ini diperlukan modifikasi dari rantai Markov yang disebut dengan Hidden Markov Model. Dalam HMM kondisi yang tidak dapat diamati secara langsung direpresentasikan dengan hidden state. Setiap hidden state menghasilkan variable yang dapat diamati yang disebut dengan observable state. Observable state ini berupa vektor dan memiliki distribusi peluang yang mengikuti hidden state. Gambar 8 mengilustrasikan contoh HMM dalam menggambarkan kondisi cuara dengan media pengamatan kondisi alga. 4

13 Gambar 8 HMM dalam pengamatan kondisi cuaca. Berikut ini adalah simbol-simbol yang dipakai dalam HMM (Dudad & Desai, 1996): N adalah jumlah state yang digunakan dalam HMM. State=(1,2,3,N). Semua state dalam model terhubung satu sama lain. M adalah jumlah kemungkinan kemunculan peubah yang terobservasi/teramati. T adalah panjang rangkaian observasi. π adalah peluang tahap awal berada di suatu state. π={ i } dengan i =P(q 1 =i) yaitu peluang pada tahap awal berada pada state i. Dalam hal ini berlaku persamaan berikut. (5) A merupakan peluang transisi antar state. A={a ij } dimana a ij = P{q t+1 = j q t =i}, peluang berada pada state j saat waktu t+1 apabila diketahui bahwa saat waktu t berada pada state i. B adalah peluang kemunculan peubah yang terobservasi pada suatu state. B={b j (k)} dimana b j (k)=p{v k saat t q t =j} yaitu peluang simbol v k saat t jika state yang terjadi adalah j. HMM membutuhkan 2 parameter (N dan M), simbol observasi, dan beberapa nilai peluang yaitu A, B, dan π. Secara umum HMM dinotasikan dengan λ = (A,B, π) Jika nilai A,B, dan π telah didapatkan, maka HMM dapat digunakan untuk menghasilkan barisan state O = O 1 O 2. O T. Dalam Rabinner 1989, ada 3 masalah mendasar dalam HMM yaitu: 1. Problem 1 (Evaluation): Jika diberikan barisan observasi O = O 1 O 2 O T, dan sebuah model λ = (A,B,π), bagaimana menghitung P(O λ) peluang munculnya barisan observasi tersebut. Ada dua algoritme yang bisa digunakan untuk menyelesaikan problem 1 yaitu algoritme Forward dan Backward, yang akan dijelaskan pada subbab tersendiri. 2. Problem 2 (Decoding): Jika diberikan model λ = (A,B,π) dan barisan observasi O = O 1 O 2 O T, bagaimana memilih barisan state Q = q 1 q 2 Q t terhadap barisan observasi tersebut yang memiliki peluang terbesar. Ada beberapa solusi yang dapat digunakan, salah satunya adalah dengan algoritme Forward. 3. Problem 3 (Learning): Masalah ini berkaitan dengan pembelajaran HMM menggunakan data latih, yaitu dengan melakukan pendugaan terhadap parameter HMM yaitu A,B, π untuk memaksimalkan P(O λ) peluang munculnya barisan observasi. Untuk melatih HMM dapat digunakan algoritme Baum-Welch yang merupakan kombinasi dari algoritme Forward dan Backward. Sebenarnya tujuan dari pembelajaran adalah menentukan parameter model HMM dari suatu set data latih, sedemikian sehingga model mampu mengenali objek baru yang mirip dengan data latih. Algoritme Forward Variabel Forward didefinisikan dengan α t (i)=p(o 1 O 2 O t, q t =i λ) yaitu peluang sebagian barisan observasi O 1 O 2 O t dan state i pada waktu t, jika diketahui model λ, dapat diselesaikan dengan (Rabiner, 1989): Inisialisasi: Induksi: Terminasi: α i (1)= i b i (O 1 ), 1 i N. (6) (8) Langkah pertama menginisialisasi peluang Forward sebagai peluang bersama state i dan O 1. Langkah induksi merupakan penghitungan terpenting diilustrasikan oleh Gambar 9 yang (7) 5

14 menunjukkan bagaimana menghitung peluang state j pada saat t+1 dari semua kemungkinan state i dari N state pada saat t. S 1 S 2 S N Gambar 9. Ilustrasi proses perhitungan algoritme Forward. Algoritme Backward Dengan cara yang sama kita dapat mendefinisikan variabel Backward dengan Βt(i)=P(Ot+1 Ot+2 OT qt=si, λ) yaitu peluang sebagian barisan observasi dari t+1 sampai akhir, diketahui state Si pada waktu t dan model λ, dapat diselesaikan dengan (Rabiner, 1989): Inisialisasi: Induksi: a 1i a 2i a Ni S i t t+1 α t(i) α t+1(j) β i (T) = 1, 1 i N. (9) Proses perhitungan algoritme Backward diilustrasikan pada Gambar 10. (10) dan ξt(i,j) yaitu peluang berada di state i pada waktu t dan berada di state j pada waktu t+1, yang diformulasikan dengan persamaan berikut (Rabiner, 1989): (11) (12) Proses Reestimasi atau meng-update parameter HMM menggunakan persamaan dibawah ini: (13) (14) (15) Sebenarnya solusi ketiga permasalah dalam HMM berhubungan satu sama lain dan saling melengkapi karena algoritme Bum-welch merupakan gabungan dari algoritme Forward dan Backward sebagaimana diilustrasikan Gambar 11. S i t β t(i) Gambar 10 Proses perhitungan algoritme Backward. Algoritme Baum-Welch Algoritme Baum-welch digunakan untuk melatih parameter HMM (A,B, ) sehingga memaksimumkan peluang barisan observasi. Untuk menggambarkan prosedur reestimasi (update) parameter HMM, diperlukan variable γt(i) yaitu peluang berada di state i pada waktu t a i1 a i2 a in S 1 S 2 S N t+1 β t+1(j) Gambar 11 Ilustrasi perhitungan algoritme Baum-Welch. Longest Common Subsequence (LCS) LCS merupakan permasalah untuk menemukan subsequence atau subbarisan terpanjang yang ada diantara dua buah string. Misalnya diketahui 2 buah string: X = (A B C B D A B C D) Y = (B A C A D B C A A) maka Z = ( B C A B C ) adalah subsequence terpanjang dari X dan Y. Banyak metode yang digunakan untuk menyelesaikan masalah LCS, 6

15 salah satunya yaitu dengan dynamic programming. Algoritme detail dari LCS disajikan pada Lampiran 1. insialisasi yang cukup baik untuk menghasilkan model yang baik. Mulai METODE PENELITIAN Kerangka Pemikiran Penelitian ini dilakukan dalam beberapa tahap, di antaranya adalah studi pustaka, pendefinisian metode penelitian, pengambilan data, praproses, pengujian, perhitungan akurasi dan dokumentasi. Gambar 12 mengilustrasikan seluruh tahapan dalam penelitian ini. Studi Pustaka Studi pustaka dilakukan untuk mengetahui informasi yang dibutuhkan selama penelitian serta memahami tahapan yang harus dilakukan dalam metode penelitian. Informasi yang harus diketahui antara lain pemrosesan sinyal suara, speech recognition, Hidden Markov Models (HMM) dan informasi lain yang dipaparkan dalam bab tinjauan pustaka. Pustaka yang digunakan berasal dari beberapa sumber buku dan penelitian lain yang berhubungan dengan konversi suara ke teks. Perumusan Masalah Berdasarkan studi pustaka yang telah dilakukan maka permasalahan yang diteliti adalah bagaimana membuat sistem konversi suara ke teks dengan cara memodelkan fonem yang terdapat dalam kamus kata. Pendefinisian Metode Penelitian Penelitian ini menggunakan beberapa metode di antaranya yaitu MFCC yang digunakan pada proses ekstraksi sinyal suara, algoritme Baum-Welch yang digunakan dalam proses pelatihan model yang di dalamnya melibatkan algoritme Forward dan Backward, dan prosedur LCS digunakan untuk memproses hasil pengujian. Proses ekstraksi sinyal suara menggunakan MFCC karena cara kerja metode ini didasarkan pada gelombang frekuensi yang dapat ditangkap telinga manusia, sehingga dapat memrepresentasikan sinyal suara sebagaimana manusia memrepresentasikan. Sedangkan pada proses pelatihan digunakan algoritme Baum- Welch karena menurut Shu et all.(2003) algoritme ini dapat melatih HMM dengan baik dibandingkan algoritme lain. Disamping itu, algoritme Baum-Welch tidak memerlukan Data Latih Pemodelan / Inisialisasi Pelatihan Model Perhitungan Tingkat Akurasi Dokumentasi Gambar 12 Diagram proses konversi suara ke teks. Pengambilan Data Studi Pustaka Perumusan Masalah Pendefinisian Metode Penelitian Pengambilan Data Praproses HMM Repository Penerapan LCS Pencocokan String Penggabungan Pencocokan String dan LCS Selesai Data Uji Pengujian Postprocessing Pengambilan data suara dilakukan dengan frekuensi sampe (Fs) 11 KHz untuk setiap kata. Data berasal dari satu pembicara yang mengucapkan 5 kata, dimana masing-masing kata diulang sebanyak 50 kali. Kata yang digunakan dalam penelitian ini dapat dilihat pada Tabel 1. 7

16 Tabel 1 Kata dalam penelitian Fonem Kata Fonem asli Fonem transisi Alam /a/,/l/,/m/ /al/,/la/,/am/ Aman /a/,/m/,/n/ /am/,/ma/,/an/ Malam /a/,/l/,/m/ /ma/,/al/,/la/,/am/ Mana /a/,/m/,/n/ /ma/,/an/,/na/ Nama /a/,/m/,/n/ /na/,/am/,/ma/ Berdasarkan Tabel 1 dapat dilihat bahwa fonem yang digunakan untuk menghasilkan model sebanyak 10 fonem yang terdiri dari fonem asli dan fonem transisi. Praproses Data yang dihasilkan merupakan data kotor karena mengandung blank atau jeda yang terdapat pada awal dan akhir suara seperti pada Gambar 13. Data tersebut selanjutnya dibersihkan dari blank dan proses ini disebut pembersihan data (cutting silent). suara silent Gambar 13 Suara sebelum cutting silent. Tahap praproses berikutnya adalah ekstraksi ciri sinyal suara menggunakan metode MFCC. Tujuan ekstraksi ciri adalah mentransformasi gelombang sinyal ke dalam vektor-vektor ciri akustik, dimana setiap vektornya merepresentasikan informasi yang terdapat pada beberapa frame. MFCC yang diimplementasikan dalam sistem ini merupakan fungsi yang dikembangkan oleh Stanley pada tahun Dalam penggunaannya, fungsi ini memerlukan beberapa parameter yaitu: 1. Input, merupakan sinyal suara yang akan diekstrak. Sinyal suara yang digunakan adalah hasil dari proses pembersihan data. 2. Sampling rate yaitu banyaknya data yang akan diambil dalam satu detik. Sampling rate yang digunakan dalam penelitian ini adalah Hz. 3. Time frame adalah lamanya waktu yang diinginkan dalam satu frame dalam milisekon. Time frame yang digunakan adalah sebesar 30 ms. 4. Overlap yaitu overlapping yang diinginkan antara satu frame dengan frame selanjutnya. Overlap yang digunakan adalah sebesar 50%, yang diilustrasikan pada Gambar 14. Overlap 50% Frame 30 ms Gambar 14 Overlap Antar Frame. 5. Cepstral coefficient yaitu banyaknya koefisien cepstral yang diinginkan sebagai output. Cepstral coeffisient yangdigunakan dalam penelitian ini adalah 13, jadi masingmasing frame akan menghasilkan vektor ciri O t yang terdiri dari 13 koefisien cesptral. Setelah didapatkan hasil ekstraksi, langkah berikutnya adalah mensegmentasi vektor ciri sesuai dengan fonem yang terdapat dalam setiap data. Kemudian menggabungkan vektor-vektor tersebut berdasarkan fonemnya seperti pada Gambar 15. ALAM AMAN MALAM MANA NAMA Gambar 15 Ilustrasi penggabungan fonem hasil segmentasi. Segmentasi menghasilkan kumpulan data berdasarkan fonem sehingga dihasilkan 10 data fonem yaitu data /a/, /l/, /m/, /n/, /al/, /la/, /am/, /ma/, /an/, dan /na/. Pemodelan/Inisialisasi A 1 A 2 A T1 L 1 L 2 L T2 NA 1 NA 2 NA T10 Proses inisialisasi HMM dimulai dengan mengelompokkan (clustering) setiap data fonem, dimana jumlah cluster menunjukkan jumlah state yang digunakan dalam model HMM. Proses ini diperlukan untuk mendapatkan nilai awal parameter (A,, B) yang dibutuhkan dalam membangun sebuah model HMM. Nilai B terdiri dari 2 variabel yaitu µ dan, dimana µ adalah rata-rata nilai 8

17 observasi setiap state untuk setiap koefisien dan adalah ragam nilai observasi untuk setiap state. Nilai A dan didapat dari formula berikut. 1. Menghitung nilai α dan β dengan menyertakan fungsi scaling. a. Algoritme Forward Inisialisasi: (18.a) Induksi: (18.b) (19.a) Pada penelitian ini menggunakan 10 data fonem, sehingga proses inisialisasi menghasilkan 10 macam HMM(A, µ, B). Pelatihan Model Pelatihan HMM dilakukan dengan menggunakan algoritme Baum-Welch karena banyak studi yang telah membuktikan bahwa algoritme ini mampu melatih HMM lebih baik dari pada algoritme Viterbi (Shu, 2003). Algoritme Baum-Welch merupakan penggabungan 2 buah algoritme yaitu algoritme Forward dan Backward. Nilai variable α dan β yang dihasilkan oleh kedua algoritme tersebut, digunakan untuk menghasilkan variable γ dan ξ yang kemudian akan digunakan untuk mengupdate nilai parameter HMM (A, µ, B). Karena vektor ciri suara memiliki multi koefisien (d=13) maka dalam menentukan nilai B menggunakan gaussian multivariate: (16) Hasil perhitungan algoritme Baum-Welch sering kali menghasilkan nilai yang sangat kecil hingga mendekati 0. Misalnya pada persamaan 14. Ketika nilai γ (i) = 0, maka a menjadi tidak terdefinisi. Untuk mengatasi hal tersebut perlu digunakan fungsi scaling untuk mentransformasi nilai α dan β agar tetap berada range sehingga dapat dihitung. Berikut adalah fungsi scaling untuk menghasilkan koefisien C, (17) Tahapan dalam melatih HMM adalah sebagai berikut: Terminasi: b. Algoritme Backward Inisialisasi: Induksi: β (t) = β (T) = 1 β (T) = C β (T). a (19.b) (20) (21.a) (21.b) b (O )β (t + 1) (22.a) β (i) = C β (t) 2. Menghitung nilai γ dan ξ. 3. Mengupdate nilai (A,, B). (22.b) (23) ( 24) (25) (26) (27) 4. Ketiga proses di atas terus dilakukan hingga mendapatkan model yang optimal. 9

18 Pengujian Pengujian dilakukan menggunakan algoritme Forward dengan menghitung peluang data uji terhadap model HMM. Setiap vektor pada sebuah data uji dihitung nilai peluangnya terhadap setiap model fonem HMM. Vektor tersebut diklasifikasikan ke dalam fonem yang menghasilkan nilai peluang terbesar, sehingga menghasilkan barisan representasi fonem yang merupakan hasil klasifikasi vektor data uji tersebut. Pengujian dilakukan untuk semua data latih dan data uji. Postprocessing Postprocessing dilakukan untuk meningkatkan akurasi sistem dengan cara menghilangkan redundansi representasi fonem pada barisan yang dihasilkan dari proses pengujian. Selanjutnya representasi fonem tersebut diubah menjadi karakter yang mewakili masing-masing fonem. Kemudian dilakukan kembali penghilangan redundansi karakter antara fonem asli dengan fonem transisinya. Teknik postprocessing yang digunakan dalam penelitian ini belum mempertimbangkan seluruh fonem falid yang ada dalam kata berbahasa Indonesia, sehingga tidak dapat diterapkan pada kata yang mengandung fonem yang berulang, misalnya kata maaf, koordinasi, dan sebagainya. Penerapan LCS Penerapan LCS dilakukan agar sistem menghasilkan kata yang sesuai dengan kamus kata. Hal ini dilakukan dengan mencari subsequence antara string hasil postprocessing dengan setiap kata dalam kamus. Kata dengan subsequence terpanjang diidentifikasi sebagai output sistem. Pada sistem ini diasumsikan bahwa jika hasil LCS dari beberapa kata memiliki panjang subsequence yang sama, maka output yang dihasilkan akan dipilih secara acak. Dalam implementasi LCS pada penelitian ini, menggunakan program yang dibuat oleh Roger Jang. Pencocokan String Pencocokan string dilakukan pada hasil postprocessing dengan setiap kata dalam kamus menggunakan fungsi di Matlab yaitu strmatch. Fungsi ini akan mencari string awal pada hasil postprocessing yang cocok dengan sebuah kata. Misalnya strmatch( alam, alamlam ) akan bernilai 1. Penggabungan Pencocokan String dan LCS Proses ini dilakukan dengan menerapkan kedua teknik di atas yaitu pencocokan string dan penerapan LCS pada hasil postprocessing. Langkah pertama yaitu dengan melakukan pencocokan string terhadap hasil postprocessing. Jika langkah tersebut tidak menghasilkan string yang cocok, maka dilakukan penerapan LCS. Dengan penggabungan kedua teknik tersebut diharapkan dapat meningkatkan akurasi sistem. Perhitungan Tingkat Akurasi Perhitungan tingkat akurasi dilakukan dengan membandingkan jumlah output yang benar yang dihasilkan sistem dengan jumlah seluruh data. Persentase tingkat akurasi dihitung dengan fungsi berikut. % akurasi = kata yang benar kata yang diuji HASIL DAN PEMBAHASAN Data suara yang dihasilkan seluruhnya berjumlah 250 data suara yang meliputi 5 kata seperti pada Tabel 1 dan masing-masing kata memiliki 50 data suara. Data tersebut masih berupa data suara kotor karena masih terdapat silent, sehingga perlu dibersihkan dengan menghilangkan silent. Kemudian data diekstraksi menggunakan MFCC yang dimplementasi menggunakan fungsi yang sudah tersedia yang dikembangkan oleh Stanley pada tahun Seperti yang telah dijelaskan sebelumnya, frame yang digunakan sebesar 30 ms, dimana terjadi overlap antar frame sebesar 50%, dan cepstral coefficient yang digunakan sebesar 13 untuk setiap frame. Setiap data hasil ekstraksi kemudian disegmentasi berdasarkan fonem asli dan fonem transisi sehingga menghasilkan data fonem. Proses segmentasi dilakukan secara manual karena sampai saat ini belum ada metode yang dapat melakukannya secara otomatis, sehingga membutuhkan waktu yang cukup lama. Data fonem yang dihasilkan dari segmentasi kemudian ditetapkan 70% sebagai data latih dan 30% sebagai data uji. Pelatihan setiap model HMM dilakukan dengan algoritme Baum-Welch hingga didapatkan model yang menghasilkan akurasi yang baik. Pelatihan dilakukan dengan beberapa frekuensi pelatihan yaitu 5, 10, dan 15 epoh dengan jumlah state 2, 3, 4, dan 5. 10

19 Hasil postprocessing Seperti yang telah dijelaskan pada bab sebelumnya, output dari sistem konversi ini tidak hanya dihasilkan dengan pelatihan HMM, tetapi model juga melalui proses postprocessing, penerapan LCS, pencocokan string, dan penggabungan pencocokan string dan LCS. Hal ini dilakukan untuk meningkatkan akurasi sistem. Hasil proses postprocessing merupakan barisan fonem yang belum sesuai dengan kata yang sebenarnya. Tabel 2 menunjukkan variasi hasil postprocessing pada masing-masing kata. Tabel 2 Hasil postprocessing Kata Alam Aman Malam Mana Nama ALAM ALAMN ALALA M ALALM N ALALA MN AMAN AMANL AMAMA N AMALA N AMAML AN MNMALA M MALALA MN MALAMA LA MAMALA LAM MAMLAM ALA Hasil Pengujian Model HMM MANA MAN MANAN MANLA N MAMAN AN NAMAN NAMAM N NAMNM AN NALAMA M NANAMN MA Hasil pengujian setiap data uji terhadap model merupakan hasil dari penerapan LCS, pencocokan string dan penggabungan keduanya. Setiap model HMM dilatih dengan beberapa iterasi pelatihan, yaitu 5, 10, dan 15 epoh dengan 2, 3, 4, dan 5 state. Dari beberapa percobaan, akurasi terbaik dihasilkan melalui penerapan gabungan pencocokan string dan LCS. Gambar 16 menunjukkan akurasi rata-rata dari penerapan LCS, pencocokan string dan gabungan keduanya. Dari Gambar 16 dapat diketahui bahwa akurasi tertinggi didapat dari penerapan gabungan LCS dan pencocokan string, sehingga teknik tersebut digunakan dalam pengujian seluruh model HMM LCS Match Match+LCS Gambar 16 Grafik akurasi LCS dan pencocokan string. Akurasi dihasilkan HMM setiap state dapat dilihat pada Gambar 17. Akurasi yang dihasilkan oleh HMM 2 state dengan 5 epoh merupakan akurasi tertinggi yaitu sebesar 82%, sedangkan akurasi terendah yaitu 50% dihasilkan oleh HMM 5 state dengan 10 epoh. Dari Gambar 17 dapat diketahui bahwa kenaikan jumlah state HMM tidak diiringi dengan peningkatan akurasi, begitu juga dengan jumlah iterasi pelatihan. Dari hal tersebut dapat disimpulkan bahwa jumlah state dan jumlah epoh tidak mempengaruhi kinerja HMM Epoh 10 Epoh 15 Epoh State 3 State 4 State 5 State Gambar 17 Grafik akurasi HMM setiap state. Hasil pengujian Model HMM dengan 2 State Hasil pengujian model HMM merupakan hasil dari penerapan gabungan LCS dan pencocokan string. Gambar 18 menunjukkan akurasi HMM 2 state untuk setiap epoh. Akurasi rata-rata tertinggi dihasilkan oleh HMM 2 state dengan 5 epoh yaitu sebesar 81,6%. Kata dapat dikenali paling baik oleh HMM 2 state adalah kata ALAM dengan akurasi rata-rata sebesar 91%. 100 ALAM AMAN MALAM MANA NAMA Epoh 10 Epoh 15 Epoh Gambar 18 Grafik akurasi HMM 2 state. Pengujian HMM dengan 5 kali pelatihan secara umum menghasilkan akurasi sebesar 81,6%. Akurasi tertinggi sebesar 96% dihasilkan melalui pengujian kata AMAN, 11

20 sedangkan akurasi terendah yaitu 48% dihasilkan oleh kata MANA. Secara umum HMM dengan 10 epoh menghasilkan akurasi sebesar 64%. Kata yang dapat dikenali paling baik adalah kata ALAM dan AMAN yaitu 92%, sedangkan dalam mengenali kata MANA, HMM hanya menghasilkan akurasi 12% yang merupakan akurasi terendah dari pengujian HMM 10 epoh. HMM yang dilatih 15 kali, secara umum menghasilkan akurasi sebesar 64,8%. Akurasi terbesar dimiliki oleh kata AMAN yaitu 96%, sedangkan akurasi terendah yaitu sebesar 12% dihasilkan dari pengujian kata MANA. Hasil pengujian Model HMM dengan 3 State Gambar 19 menunjukkan akurasi HMM 3 state untuk setiap epoh. Akurasi rata-rata tertinggi dihasilkan oleh HMM 3 state dengan 5 epoh yaitu sebesar 67,6%. Kata yang dapat dikenali paling baik oleh HMM dengan 3 state adalah kata MALAM dengan akurasi rata-rata sebesar 98% ALAM AMAN MALAM MANA NAMA Epoh 10 Epoh 15 Epoh Gambar 19 Grafik akurasi HMM 3 state. Secara umum HMM dengan 5 epoh menghasilkan akurasi sebesar 67,6%. Kata yang dapat dikenali paling baik adalah kata MALAM yaitu 98%, sedangkan dalam mengenali kata MANA, HMM hanya menghasilkan akurasi 6% yang merupakan akurasi terendah dari pengujian HMM 5 epoh. Akurasi yang dihasilkan oleh HMM dengan 10 kali pelatihan sebesar 64,8%. Akurasi tertinggi dihasilkan melalui pengujian kata MALAM 96%, sedangkan akurasi terendah dihasilkan melalui pengujian kata MANA yaitu 6%. Pengujian HMM dengan 15 kali pelatihan secara umum menghasilkan akurasi sebesar 66%. Akurasi tertinggi sebesar 100% dihasilkan melalui pengujian kata MALAM, sedangkan akurasi terendah yaitu 12% dihasilkan oleh kata MANA. Hasil pengujian Model HMM dengan 4 State Gambar 20 menunjukkan akurasi HMM 4 state untuk setiap epoh. Akurasi rata-rata tertinggi dihasilkan oleh HMM 4 state dengan 10 epoh yaitu sebesar 80,4%. Kata dapat dikenali paling baik oleh HMM 4 state adalah kata MALAM dengan akurasi rata-rata sebesar 89%. 100 ALAM AMAN MALAM MANA NAMA Epoh 10 Epoh 15 Epoh Gambar 20 Grafik akurasi HMM 4 state. Pengujian HMM dengan 5 kali pelatihan secara umum menghasilkan akurasi sebesar 64%. Akurasi tertinggi sebesar 98% dihasilkan melalui pengujian kata AMAN, sedangkan akurasi terendah yaitu 40% dihasilkan oleh kata ALAM. Secara umum HMM dengan 10 epoh menghasilkan akurasi sebesar 80,4%. Kata yang dapat dikenali paling baik adalah kata MALAM yaitu 98%, sedangkan dalam mengenali kata MANA, HMM hanya menghasilkan akurasi 62% yang merupakan akurasi terendah dari pengujian HMM 10 epoh. HMM yang dilatih 15 kali, secara umum menghasilkan akurasi sebesar 60,4%. Akurasi terbesar dimiliki oleh kata MALAM yaitu 94%, sedangkan akurasi terendah yaitu sebesar 34% dihasilkan dari pengujian kata MANA. Hasil pengujian Model HMM dengan 5 State Akurasi HMM 5 state untuk setiap epoh dapat dilihat pada Gambar 21. Akurasi rata-rata tertinggi yaitu sebesar 63,2% dihasilkan oleh HMM 5 state dengan 5epoh. Kata yang dapat dikenali paling baik oleh HMM dengan 5 state adalah kata MALAM dengan akurasi rata-rata sebesar 82%. 12

21 Gambar 21 Grafik akurasi HMM 5 state. Secara umum HMM dengan 5 epoh menghasilkan akurasi sebesar 63,2%. Kata yang dapat dikenali paling baik adalah kata AMAN yaitu 88%, sedangkan dalam mengenali kata MANA, HMM hanya menghasilkan akurasi 8% yang merupakan akurasi terendah dari pengujian HMM 5 epoh. Akurasi yang dihasilkan oleh HMM dengan 10 kali pelatihan sebesar 50,4%. Akurasi tertinggi dihasilkan melalui pengujian kata MALAM 78%, sedangkan akurasi terendah dihasilkan melalui pengujian kata MANA yaitu 12%. Pengujian HMM dengan 15 kali pelatihan secara umum menghasilkan akurasi sebesar 61,6%. Akurasi tertinggi sebesar 82% dihasilkan melalui pengujian kata AMAN dan MALAM, sedangkan akurasi terendah yaitu 24% dihasilkan oleh kata MANA. Hasil Pengujian Kata ALAM AMAN MALAM MANA NAMA Epoh 10 Epoh 15 Epoh 2 State 3 State 4 State 5 State ALAM AMAN MALAM MANA NAMA Secara umum, kata yang paling baik dikenali oleh semua HMM adalah kata MALAM dengan akurasi rata-rata sebesar 87%, sedangkan kata MANA memiliki akurasi ratarata terendah yaitu 25%. Gambar 22 menunjukkan akurasi setiap kata melalui pengujian HMM setiap state, sedangkan Tabel 3 menunjukkan akurasi terendah dan tertinggi untuk masing-masing kata. Tabel 3 Akurasi maksimum dan minimum setiap kata Akurasi Model HMM Fonem Min & State Epoh Max 40% 4 5 ALAM 92% 2 5,10 AMAN 56% % 4 5 MALAM 76% % 3 15 MANA 6% 3 5,10 62% 4 10 NAMA 54% % 3 15 Penggunaan Kata Lain Pada LCS Kata yang digunakan dalam LCS pada percobaan di atas adalah kata yang terdapat dalam kamus, yaitu ALAM, AMAN, MALAM, MANA, dan MALAM. Untuk mengetahui kestabilan kinerja sistem, penerapan LCS tidak hanya menggunakan kelima kata tersebut, tetapi juga melibatkan kata lain namun mengandung fonem yang sama yaitu AMAL, LAMA, dan MAMA. Gambar 23 menunjukkan perbandingan akurasi penerapan LCS menggunakan kata lain dan tanpa kata lain pada HMM dengan 5 epoh. Berdasarkan Gambar 23 dapat diketahui bahwa penambahan kata lain pada LCS dapat menurunkan tingkat akurasi sistem Kata 8 Kata ALAM AMAN MALAM MANA NAMA Gambar 22 Grafik akurasi setiap kata untuk setiap state. Gambar 23 Grafik akurasi penerapan LCS dengan 5 kata dan 8 kata. Penurunan akurasi yang paling signifikan terjadi pada kata MALAM. Hal ini dikarenakan hasil penerapan gabungan pencocokan string 13

22 dan LCS untuk kata MALAM sebagian besar mengandung karakter awal mama misalnya, mamalam, sehingga banyak yang diidentifikasi sebagai kata MAMA. Pengujian Kata Lain Seperti yang telah dijelaskan dalam latar belakang bahwa penelitian ini dilakukan untuk mengatasi ketidakefisienan dari teknik pemodelan berbasiskan kata (Ruvinna, 2008) dimana setiap kata dimodelkan dalam sebuah HMM sehingga tidak mungkin diterapkan pada sistem large vocabulary. Dengan adanya teknik pemodelan berbasiskan fonem dimana setiap fonem dimodelkan dalah sebuah HMM, maka diharapkan sistem yang bersifat large vocabulary dapat dikembangkan. Untuk mengetahui efektifitas teknik tersebut, maka perlu dilakukan pengujian model HMM terhadap kata lain yang tidak terdapat dalam kamus kata namun mengandung fonem yang sama. Pengujian dilakukan pada suara yang merupakan hasil dari pengucapan kata AMAL, LAMA, dan MAMA, dimana setiap kata dilakukan 10 kali ulangan. Dari pengujian tersebut didapat beberapa akurasi di antaranya 40% untuk AMAL, 0% untuk LAMA dan 50% untuk MAMA. Seluruh pengujian di atas dilakukan dengan aplikasi sederhana yaitu sitem konversi suara ke teks yang telah dikembangkan dengan Matlab Antarmuka sistem tersebut dapat dilihat pada Gambar 24. yang akan membentuk suatu kata. Dari beberapa percobaan, akurasi terbaik dihasilkan melalui penerapan gabungan pencocokan string dan LCS. Akurasi tertinggi yaitu 82% dihasilkan oleh HMM dengan 2 state dan 5 kali pelatihan, sedangkan kata yang paling baik dikenali model adalah kata MALAM dengan akurasi sebesar 87%. Teknik postprocessing yang digunakan dalam penelitian ini belum mempertimbangkan seluruh fonem falid dalam bahasa Indonesia, sehingga tidak dapat diterapkan pada kata yang mengandung fonem yang sama secara berurutan. Model terbaik mampu mengenali beberapa kata lain yang mengandung fonem yang sama namun akurasi yang dihasilkan cukup rendah. Percobaan di atas juga menunjukkan bahwa kenaikan jumlah state dan iterasi pelatihan tidak mempengaruhi kinerja pemodelan HMM berbasiskan fonem. Saran Penelitian mengenai konversi suara ke teks berdasarkan fonem ini masih sangat memungkinkan untuk dikembangkan lebih lanjut. Teknik postprocessing yang mempertimbangkan seluruh fonem falid dalam bahasa Indonesia diperlukan untuk pengembangan sistem selanjutnya. Jumlah kata yang digunakan dalam penelitian ini membuat sistem yang dihasilkan belum memungkinkan untuk langsung digunakan dalam kondisi nyata. Selain itu perlu dicobakan pengembangan dengan menggunakan jumlah pembicara yang lebih banyak sehingga menghasilkan sistem yang bersifat speaker independent. Gambar 24 Antarmuka sistem konversi suara ke teks. Kesimpulan KESIMPULAN DAN SARAN Penelitian ini menghasilkan beberapa model HMM yang merepresentasikan sinyal suara berbahasa indonesia menjadi rangkaian fonem DAFTAR PUSTAKA Buono, A Representasi Nilai HOS dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Indentifikasi Pembicara di Lingkungan Ber-noise Menggunakan HMM. [Disertasi]. Depok: Program Studi Ilmu Komputer, Universitas Indonesia. Campbell, J. P. Speaker Recognition: A Tutorial. IEEE 1997; 85: Do, MN DSP Mini-Project: An Automatic Speaker Recognition System. Dudad, R. dan Desai, U. B A Tutorial in Hidden Markov Models. Indian Institut of Technology, India. Jurafsky, D. dan Martin, JH Speech and Language Processing An Introduction to 14

23 Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari, Y Pengembangan Model Markov Tersembunyi untuk Pengenalan Kata Berbahasa Indonesia. [Skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Rabiner, L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. IEEE 1989; 77: Resmiwati, N. U. E Pengenalan Kata Berbahasa Indonesia dengan Menggunakan Hidden Markov Models Berbasiskan Fonem.[Skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Ruvinna Pengenalan Kata Berbahasa Indonesia dengan Hidden Markov Models Menggunakan Algoritme Baum-Welch. [Skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Shu, H., et al Baum-Welch Training for Segment-Based Speech Recognition. Massachussets Institute of Technology, USA. 15

24 LAMPIRAN 16

25 Lampiran 1 List program LCS function [lcscount, lcs_path, lcs_str, lcstable] = lcs(a, b) %LCS Longest (maximum) common subsequence % Usage: % [count, lcs_path, lcs_str, lcstable] = lcsm(a, b) % a: input string 1 % b: input string 2 % count: count of LCS % lcs_path: optimal path of dynamical programming through the lcs table % lcs_str: LCS string % lcstable: LCS table for applying dynamic programming % % Type "lcsm" for a self-demo. % Roger Jang, % Roger Jang, if nargin == 0, selfdemo; return; end a = a(:).'; b = b(:).'; m = length(a); n = length(b); lcstable = zeros(m+1, n+1); prevx = zeros(m+1, n+1); prevy = zeros(m+1, n+1); % Find LCS using dynamic programming for i=1:m, for j = 1:n, if a(i)==b(j), lcstable(i+1,j+1) = lcstable(i,j)+1; prevx(i+1,j+1) = i; prevy(i+1,j+1) = j; elseif lcstable(i,j+1) > lcstable(i+1,j), lcstable(i+1,j+1) = lcstable(i,j+1); prevx(i+1,j+1) = i; prevy(i+1,j+1) = j+1; else lcstable(i+1,j+1) = lcstable(i+1,j); prevx(i+1,j+1) = i+1; prevy(i+1,j+1) = j; end end end % Get rid of initial conditions lcstable = lcstable(2:end, 2:end); prevx = prevx(2:end, 2:end)-1; prevy = prevy(2:end, 2:end)-1; % ====== Return length of LCS string lcscount = lcstable(m, n); 17

Menunjukkan lagi