PERBANDINGAN METODE KUANTISASI VEKTOR DAN MODEL MARKOV TERSEMBUNYI PADA PENGENALAN PEMBICARA BERBAHASA INDONESIA TESIS

PERBANDINGAN METODE KUANTISASI VEKTOR DAN MODEL MARKOV TERSEMBUNYI PADA PENGENALAN PEMBICARA BERBAHASA INDONESIA TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh DEVI HANDAYA NIM : 23214029 (Program Studi Magister Teknik Elektro) INSTITUT TEKNOLOGI BANDUNG Juni 2016

ABSTRAK PERBANDINGAN METODE KUANTISASI VEKTOR DAN MODEL MARKOV TERSEMBUNYI PADA PENGENALAN PEMBICARA BERBAHASA INDONESIA Oleh Devi Handaya NIM: 23214029 (Program Studi Magister Teknik Elektro) Tesis ini menyajikan perbandingan dua buah metode pengklasifikasi berdasarkan tingkat akurasi dalam mengenali pembicara berbahasa Indonesia. Metode pertama adalah Kuantisasi Vektor (KV) yang merupakan sebuah metode pengenalan pembicara berbasis jarak distorsi dan metode kedua adalah Model Markov Tersembunyi (MMT) berbasis nilai peluang dari data yang terobservasi. Perbandingan dilakukan untuk pengucapan sebuah kata, kalimat sederhana, dan kalimat lengkap. Berdasarkan eksperimen, dapat disimpulkan bahwa umumnya metode MMT menghasilkan akurasi yang lebih baik dari pada metode KV terutama untuk data dengan pengucapan kalimat sederhana. Kata kunci: Kuantisasi Vektor (KV), Model Markov Tersembunyi (MMT), Pengenalan Pembicara Berbahasa Indonesia i

ABSTRACT COMPARISON OF THE INDONESIAN SPEAKER RECOGNITION USING VECTOR QUANTIZATION AND HIDDEN MARKOV MODEL By Devi Handaya NIM: 23214029 (Electrical Engineering Master Program ) This thesis presents a comparison of two classifier methods based on the level of accuracy in recognizing the Indonesian speaker. The first method is Vector Quantization (VQ), which is a speaker recognition method based on distortion distance and the second method is Hidden Markov Model (HMM) based on the probability value of the data is observed. Comparisons are made in the pronunciation of a word, simple sentences, and complete sentences. Based on the experiments, it can be concluded that in general HMM method yields better accuracy than VQ method especially for data with the pronunciation of simple sentences. Keywords: Vector Quantization (VQ), Hidden Markov Model (HMM), Indonesian Speaker Recognition ii

PEDOMAN PENGGUNAAN TESIS Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus disertai dengan kaidah ilmiah untuk menyebutkan sumbernya. Sitasi hasil penelitian Tesis ini dapat ditulis dalam bahasa Indonesia sebagai berikut: Handaya, D. (2016): Perbandingan Metode Kuantisasi Vektor dan Model Markov Tersembunyi Pada Pengenalan Pembicara Berbahasa Indonesia, Tesis Program Magister, Institut Teknologi Bandung. dan dalam bahasa Inggris sebagai berikut: Handaya, D. (2016): Comparison of the Indonesian speaker recognition using vector quantization and hidden markov model, Master s Program Thesis, Institut Teknologi Bandung. Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin Dekan Sekolah Pascasarjana, Institut Teknologi Bandung. iii

KATA PENGANTAR Dengan menyebut nama Allah yang Maha Pemurah lagi Maha Penyayang, puji syukur diucapkan ke hadirat-nya, akhirnya penulis dapat menyusun dan menyelesaikan tesis yang berjudul Perbandingan Metode Kuantisasi Vektor dan Model Markov Tersembunyi Pada Pengenalan Pembicara Berbahasa Indonesia". Tesis ini disusun guna memenuhi persyaratan untuk menyelesaikan jenjang magister dari Program Studi Magister Teknik Elektro, Institut Teknologi Bandung. Penulis juga mengucapkan terima kasih atas kerjasama dan dukungan dari berbagai pihak baik secara psikis maupun disiplin ilmu kepada: Bapak Prof. Dr. Carmadi Machbub, selaku pembimbing pertama yang telah memberikan bimbingan, arahan dan motivasi dalam menyelesaikan tesis ini. Bapak Dr. Egi Muhammad Idris Hidayat, selaku pembimbing kedua yang telah memberikan bimbingan, arahan dan motivasi dalam menyelesaikan tesis ini. Bapak Dr. Iyas Munawar, selaku dosen wali yang telah memberikan bimbingan, arahan dan motivasi dalam menyelesaikan perkuliahan. Bapak Iwan, Resti Fauziah, bapak Hanif F dan kang Wisnu yang selalu menyertai penulis selama mengerjakan penelitian dan bekerjasama dalam menyelesaikan tesis ini. Rekan rekan Kendali dan Sistem Cerdas 2014 yang selalu memberikan semangat, kejutan, dan diskusi diskusinya selama menyelesaikan perkuliahan. Kedua orang tua yang saya cintai, Bapak dan Ibu terima kasih dukungan dan do anya, sehingga penulis dapat menyelesaikan tesis ini. Relawan yang bersedia menyumbangkan suaranya sebagai objek penelitian dalam penelitian tesis ini. Dan pihak pihak yang juga telah banyak memberikan bantuan kepada penulis yang tidak dapat penulis sebutkan satu per satu. iv

Penulis menyadari bahwa tesis ini masih jauh dari sempurna, banyak kelemahan baik dalam penyajian maupun penulisannya. Oleh karena itu penulis mengharapkan kritik dan saran yang membangun guna penyempurnaan penelitian dan penulisan selanjutnya. Akhir kata penulis berharap semoga penulisan tesis ini dapat bermanfaat bagi kita semua. Bandung, Juni 2016 Penulis v

DAFTAR ISI ABSTRAK... i ABSTRACT... ii PEDOMAN PENGGUNAAN TESIS... iii KATA PENGANTAR... iv DAFTAR ISI... vi DAFTAR LAMPIRAN... vii DAFTAR GAMBAR... viii DAFTAR TABEL... x Bab I Pendahuluan... 1 I.1 Latar Belakang... 1 I.2 Tujuan... 2 I.3 Batasan Masalah... 3 I.4 Metode Penelitian... 3 I.5 Sistematika Penulisan... 4 Bab II Tinjauan Pustaka... 6 II.1 Pengenalan Suara... 6 II.2 Ekstraksi Fitur: Mel Frequency Cepstral Coefficients... 8 II.3 Kuantisasi Vektor (KV)... 13 II.4 Model Markov Tersembunyi (MMT)... 15 II.5 Bahasa Indonesia... 19 Bab III Perancangan Sistem dan Eksperimen... 21 III.1 Perancangan Awal Sistem dan Eksperimen Pengenalan Pembicara 22 III.2 Perancangan Sistem dan Eksperimen Ekstraksi Fitur... 23 III.3 Perancangan Sistem dan Eksperimen Pengklasifikasi... 25 Bab IV Pengujian dan Pembahasan... 32 IV.1 Pengujian Sistem... 32 IV.2 Pembahasan... 40 Bab V Kesimpulan dan Saran... 44 V.1 Kesimpulan... 44 V.2 Saran... 44 DAFTAR PUSTAKA... 46 vi

DAFTAR LAMPIRAN Lampiran A Data Hasil Pengujian Pengenalan Pembicara dengan Metode Kuantisasi Vektor...L1 A.1 Pengujian Kata...L1 A.2 Pengujian Kalimat Sederhana...L3 A.3 Pengujian Kalimat Lengkap...L5 Lampiran B Data Hasil Pengujian Pengenalan Pembicara dengan Metode Model Markov Tersembunyi...L7 B.1 Pengujian Kata...L7 B.2 Pengujian Kalimat Sederhana...L9 B.3 Pengujian Kalimat Lengkap...L11 vii

DAFTAR GAMBAR Gambar II.1 Sistem produksi suara manusia... 6 Gambar II.2 Sistem pendengaran dalam teling manusia... 7 Gambar II.3 Diagram blok proses MFCC... 8 Gambar II.4 Proses frame blocking... 9 Gambar II.5 Mel frequency wrapping... 12 Gambar II.6 Konsep diagram dalam formasi buku kode kuantisasi vektor... 14 Gambar II.7 Model markov tersembunyi tipe ergodik... 15 Gambar II.8 Model markov tersembunyi tipe kiri ke kanan... 15 Gambar II.9 Alur proses algoritma maju... 16 Gambar II.10 Alur proses algoritma mundur... 17 Gambar III.1 Diagram blok utama dalam sistem pengenalan pembicara... 22 Gambar III.2 Mel filter bank... 24 Gambar III.3 Proses pengenalan pembicara dengan metode kuantisasi vektor... 25 Gambar III.4 Diagram alir pelatihan algoritma Linde, Buzo, dan Gray... 26 Gambar III.5 Proses pengenalan pembicara menggunakan metode model markov tersembunyi... 27 Gambar III.6 Diagram alir pelatihan dengan metode model markov tersembunyi... 27 Gambar III.7 Diagram alir algoritma Baum Welch... 29 Gambar III.8 Diagram alir pengujian dengan metode model markov tersembunyi... 30 Gambar IV.1 Digram blok perbandingan pengujian pengenalan pembicara... 32 Gambar IV.2 Penggambaran sinyal suara dalam pengucapan kata saya yang digunakan sebagai data latih... 33 Gambar IV.3 Penggambaran sinyal suara dalam pengucapan kata saya yang digunakan sebagai data uji... 34 Gambar IV.4 Penggambaran sinyal suara dalam pengucapan kalimat saya sedang belajar yang digunakan sebagai data uji... 34 viii

Gambar IV.5 Penggambaran sinyal suara dalam pengucapan kalimat saya berangkat menggunakan bus ke kampus yang digunakan sebagai data uji... 35 Gambar IV.6 Pengujian kata dalam kuantisasi vektor dan model markov tersembunyi... 40 Gambar IV.7 Pengujian kalimat sederhana dalam kuantisasi vektor dan model markov tersembunyi... 41 Gambar IV.8 Pengujian kalimat lengkap dalam kuantisasi vektor dan model markov tersembunyi... 42 ix

DAFTAR TABEL Tabel III.1 Waktu pengambilan data untuk data latih dan data uji... 23 Tabel IV.1 Data hasil pengenalan pembicara dalam pengujian kata dengan metode kuantisasi vektor... 36 Tabel IV.2 Data hasil pengenalan pembicara dalam pengujian kalimat sederhana dengan metode kuantisasi vektor... 36 Tabel IV.3 Data hasil pengenalan pembicara dalam pengujian kalimat lengkap dengan metode kuantisasi vektor... 37 Tabel IV.4 Data hasil pengenalan pembicara dalam pengujian kata dengan metode HMM... 38 Tabel IV.5 Data hasil pengenalan pembicara dalam pengujian kalimat sederhana dengan metode HMM... 39 Tabel IV.6 Data hasil pengenalan pembicara dalam pengujian kalimat lengkap dengan metode HMM... 39 Tabel IV.7 Perbandingan hasil rekapitulasi akurasi... 42 x

Bab I Pendahuluan I.1 Latar Belakang Suara merupakan salah satu komponen penunjang yang digunakan manusia dalam berkomunikasi. Seperti halnya gambar atau citra, suara manusia juga memiliki keunikannya masing masing walaupun terkadang ada yang dapat menirukan suara orang lain, tetapi dasarnya tidak akan identik dengan pemilik suara aslinya. Hal yang unik dari suara manusia berupa amplitudo suara, nada bicara, bahkan setiap wilayah memiliki logatnya masing masing dan sebagainya. Dengan adanya keunikan tersebut, maka setiap suara manusia dapat dibedakan. Manusia dapat mengenali pemilik suara orang lain dengan frekuensi kebiasaan mendengar suara tersebut, sehingga lama kelamaan akan hafal. Umumnya teknologi pengenalan identitas dari keunikan ini yang biasa dikenal dengan teknologi biometrik dengan membandingkan kecocokan antara data biometrik seseorang yang berada di basis data. Beberapa jenis teknologi tersebut digunakan dalam pengenalan suara (voice recognition), pengenalan wajah (face recognition), pengenalan iris mata (iris recognition), pengenalan sidik jari, dan pengenalan tulisan tangan (handwriting recognition). Teknologi pengolahan sinyal suara saat ini telah dikembangkan dalam mengenali sinyal suara tersebut. Pengolahan sinyal suara tidak kalah pentingnya dibandingkan dengan pengolaha citra. Hal ini dikarenakan pengolahan citra atau gambar hanya terbatas jika terdapat kontak langsung dengan objek, sehingga pengembangnya perlu memikirkan cara untuk menembus batasan batasan tersebut seperti objek yang tidak tampak karena terhalangi oleh gedung atau tembok, sedangkan pengolahan sinyal suara dapat diamati saat amplitudo suaranya besar, sehingga mencakup jarak pengamat. Pengenalan pembicara (speaker recognition) yang merupakan bagian dari pengenalan suara adalah proses yang dilakukan mesin cerdas dalam mengenali pembicara berdasarkan informasi keunikan pribadi dari sinyal suaranya (Irino T, 1

dkk., 2002). Pengenalan pembicara telah digunakan dalam melakukan verifikasi identitas pembicara dan mengendalikan sistem seperti penekanan nomor telepon (voice dialing), absensi, kemanan benda rahasia, dan pengendali jarak jauh dengan komputer (Abdallah S, dkk., 2012). Penelitian dalam pengolahan sinyal suara menjadi bahan perbincangan praktisi sistem kecerdasan buatan (Artificial Inteligence). Dengan munculnya beberapa metode yang digunakan dalam melakukan pengenalan pembicara seperti yang dilakukan oleh Yuan Yujin, dkk. (2010) dalam mengekstraksi suara menggunakan Mel Frequency Cepstral Coefficient (MFCC) yang memiliki rata-rata pengenalan pembicara sebesar 89,2% dan Linear Prediction Cepstrum Coefficient (LPCC) yang memiliki rata-rata pengenalan pembicara sebesar 87,63%, sehingga MFCC dapat lebih baik dalam mengekstraksi suara. Kemudian beberapa penelitian yang menggunakan Model Markov Tersembunyi (MMT) dan Kuantisasi Vektor (KV) sebagai pengklasifikasi dalam penelitian yang dilakukan Ivan K. T. dan Danie Kurniawan (2011) menggunakan MMT dapat mencapai tingkat keberhasilan 76,52%, penelitian menggunakan KV dengan akurasi 95% yang dilakukan oleh Danko Komlen (2011), kemudian dengan tingkat akurasi 82% menggunakan MFCC - KV lebih baik dibandingkan menggunakan LPCC KV (Jorge Martinez, 2012), dan begitu pula disampaikan penelitian Shahzadi Farah dan Azra Shamim (2013) bahwa MFCC KV lebih baik dibandingkan dengan menggunakan Linear Predictive Coding (LPC) - KV. Dengan demikian penelitian ini akan membuktikan kehandalan dua buah metode yang banyak digunakan oleh peneliti sebelumnya dengan pengujian untuk pembicara yang menggunakan bahasa Indonesia untuk metode Kuantisasi Vektor (KV) dan Model Markov Tersembunyi (MMT). Analisis perbandingan ini belum pernah dilakukan untuk pembicara yang menggunakan bahasa Indonesia, sehingga pengujian dilakukan kepada pembicara yang menggunakan bahasa Indonesia. I.2 Tujuan Tujuan penelitian yang dilakukan adalah sebagai berikut. 1. Merancang sistem pengenalan suara manusia berbahasa Indonesia 2

2. Mengamati pengaruh sistem pengenalan suara manusia berbahasa Indonesia terhadap pengujian kata dan kalimat dari data latih kata 3. Membandingkan sistem pengenalan suara manusia berbahasa Indonesia melalui metode Kuantisasi Vektor (KV) dan Model Markov Tersembunyi (MMT) I.3 Batasan Masalah Untuk menyederhanakan masalah dan efisiensi waktu serta biaya, dalam penelitian ini terdapat pembatasan masalah sebagai berikut. 1. Perangkat yang digunakan berupa mikrofon analog 16 Bit dengan frekuensi sampling 22050 Hz, laptop dengan prosesor core i3 dan RAM 2GB 2. Perancangan pemrograman simulasi pengenalan suara menggunakan Matlab R2013b 3. Sampel suara yang direkam berupa kata saya sebagai data latih dan data uji dengan durasi 2 detik, kalimat saya sedang belajar sebagai data uji dengan durasi 3 detik, dan kalimat Saya berangkat menggunakan bus ke kampus yang kemudian disimpan dalam format.wav 4. Pengambilan data dilakukan secara luar jaringan (offline) agar mendapatkan beberapa data pengukuran seperti jarak euclidean, parameter pemodelan, dan nilai parameter evaluasi I.4 Metode Penelitian Dalam menyelesaikan penelitian tesis ini diperlukan langkah langkah sebagai berikut: 1. Studi literatur Mempelajari dan menganalisis berbagai sumber informasi seperti buku buku dan literatur referensi yang serupa dengan penelitian yang akan dilakukan 2. Analisis desain Berdasarkan hasil studi literatur akan dibuat analisis desain dalam menyelesaikan proses perbandingan algoritma untuk setiap metode 3. Pembuatan sistem Hasil perancangan diimplementasikan dengan menggunakan Matlab sebagai pemrosesan sistem pengenalan suara 3

4. Pengujian dan evaluasi Berdasarkan aplikasi yang telah dibuat kemudian dilakukan uji coba sistem dan mengevaluasi sistem sesuai dengan tujuan penelitian 5. Pengambilan data Setelah pengujian dan didapatkan hasil yang sesuai dengan tujuan penelitian kemudian dilakukan pengambilan data 6. Penulisan laporan Penulisan laporan hasil pengujian dan pengambilan data dibukukan dalam laporan penelitian I.5 Sistematika Penulisan Dalam penulisan laporan tesis ini terdiri dari lima bab dengan masing masing bab menguraikan beberapa hal yang terkait dengan perancangan yang dilakukan. Bab I Pendahuluan. Bab ini mengemukakan latar belakang, tujuan, batasan masalah, metode penelitian, dan sistematika penulisan. Bab II Tinjauan Pustaka. Bab ini menjelaskan teori dasar mengenai pengenalan pembicara (speaker recognition), mel-frequency cepstral coefficient, kuantisasi vektor, model markov tersembunyi, dan bahasa Indonesia. Bab III Perancangan Sistem dan Eksperimen. Bab ini membahas perancangan awal sistem dan eksperimen pengenalan pembicara, perancangan sistem dan eksperimen yakni ekstraksi fitur, dan perancangan sistem dan ekesperimen untuk pengklasifikasi, serta perangkat lunak pengenalan pembicara. Bab IV Pengujian dan Pembahasan. Bab ini membahas pengujian sistem pengenalan pembicara yang menghasilkan data yang dibutuhkan sebagai analisis pembahasan perbandingan metode. 4

Bab V Penutup. Bab ini mengemukakan bagian penutup dari pelaporan penelitian yang meliputi kesimpulan dan saran agar dapat dikembangkan dengan metode lainnya untuk sistem kerja yang sama. Dalam bab selanjutnya akan disampaikan teori-teori dasar hasil dari peninjauan beberapa literatur yang digunakan. Literatur tersebut dapat berupa buku-buku, makalah penelitian yang telah dipublikasikan, dan sebagainya yang dijadikan sebagai referensi dalam melakukan penelitian ini. 5

Bab II Tinjauan Pustaka II.1 Pengenalan Suara II.1.1 Suara Manusia Suara manusia merupakan operasi penyaringan sinyal akustik saat bekerjanya laring dan paru sebagai sumber perangsang dan hidung sebagai filter. Fitur utama dari suara manusia yaitu nada dan pola suara yang berasal dari pita suara saat bergetar, sehingga membentuk frekuensi nada. Ketika udara melalui laring, udara bergetar dengan frekuensi nada. Kemudian udara yang mengalir melalui supralaring akan mulai bergaung dengan frekuensi tertentu yang ditentukan berdasarkan panjang dan diameter rongga saluran supralaring yang biasa disebut sebagai resonansi (Elminir, 2012). Gambar II.1 Sistem produksi suara manusia (http://telecom-telekomunikasi.blogspot.co.id/2011/02/telekomunikasi.html) 6

Telinga merupakan organ tubuh yang digunakan manusia dalam sistem pendengaran. Melakukan pembuatan sistem pendengaran manusia menjadi tantangan para peneliti untuk dapat melakukan pengolahan sifat sifat suara yang ada dalam suara manusia dengan berbagai jenis kebisingan lingkungan. Model pengembangan komputasi dibuat dengan meniru sifat psikoakustik dari telinga bagian dalam berdasarkan fitur sistem penyaringan mekanis dan getaran. Gambar II.2 Sistem pendengaran dalam telinga manusia (http://fiskadiana.blogspot.co.id/2015/04/alat-indera-indera-pendengaran.html) II.1.2 Pengenalan Pembicara (Speaker Recognition) Konsep pengenalan suara umumnya dapat dikategorikan dua bagian, yaitu pengenalan pembicaraan (speech recognition) dan pengenalan pembicara (speaker recognition). Pengenalan pembicaraan berkaitan dengan proses mengenali pembicaraan berdasarkan sinyal suara yang diucapakan seperti aplikasi suara ke teks (Speech-to-Text) atau teks ke suara (Text-to-Speech), sedangkan pengenalan pembicara merupakan sistem yang digunakan secara otomatis dalam mengenali pemilik atau individu yang sedang berbicara melalui sinyal suaranya. Proses tersebut dilakukan oleh mesin cerdas berdasarkan informasi keunikan pribadi dari sinyal suaranya (Irino T, dkk., 2002). 7

Pengenalan pembicara sendiri sebenarnya dapat dibagi menjadi dua, yaitu verifikasi pembicara (speaker verification) merupakan proses verifikasi seorang pembicara yang sebelumnya identitas pembicara telah diketahui. Proses dilakukan dengan membandingkan one to one (1:1), dengan kata lain fitur suara yang masuk saat itu dibandingkan langsung dengan fitur suara seseorang tertentu, sedangkan identifikasi pembicara (speaker identification) merupakan proses mendapatkan identitas dari seorang pembicara dengan melakukan perbandingan fitur suara yang dimasukan dengan semua fitur suara dari tiap tiap pembicara yang telah disimpan dalam basis data. Proses ini dilakukan dengan membandingkan one to many (1:N) (Darma Putra dan Adi Resmawan, 2011). Dalam penelitian ini ditekankan terhadap sistem pengenalan pembicara khususnya identifikasi pembicara karena suara yang dimasukan akan dibandingkan dengan beberapa suara yang telah disimpan sebelumnya di basis data. Hasil perhitungan perbandingan yang paling mendekati kecocokannya dianggap sebagai pemilik suara dari individu tertentu. II.2 Ekstraksi Fitur: Mel Frequency Cepstral Coefficients Setiap sinyal suara atau ucapan memiliki cirinya masing masing yang menjadikannya unik dimiliki setiap individu, sehingga dapat digunakan dalam mengenali pembicara. Untuk dapat dikenali, tentunya sinyal suara tersebut perlu dicari ciri cirinya dengan metode komputasi yang dapat mengekstraksi ciri suara seseorang. Salah satu metode yang banyak digunakan dalam mengekstrasi ciri suara yaitu metode Mel Frequency Cepstral Coefficients (MFCC). Diagram blok proses MFCC digambarkan sebagai berikut. Sinyal Suara Praproses Frame Blocking Windowing Cepstrum DCT Mel Frequency Warping FFT Proses MFCC Gambar II.3 Diagram blok proses MFCC 8

Di awal proses MFCC, dilakukan proses normalisasi terhadap sinyal suara yang lemah dan dilakukan penyaringan (filtering) menggunakan tapis lolos rendah (lowpass filter) agar derau spektrum tinggi yang tidak diperlukan tidak perlu diolah. Tahap tahap yang dilalui dalam proses MFCC dijelaskan sebagai berikut. II.2.1 Frame Blocking dan Windowing Sinyal suara merupakan sinyal yang tidak stasioner atau sifatnya berubah ubah terhadap, sehingga tidak dapat dilakukan ekstraksi ciri secara langsung. Oleh karena itu, sinyal dikelompokkan menjadi beberapa blok dan proses diskontinyu diminimalkan di bagian awal dan akhir sinyal. Parameter proses windowing yaitu lebar jendela, jarak antar jendela, dan bentuk jendela yang kemudian menghasilkan ukuran bingkai (M) dan perpindahan bingkai (N). Prosesnya dapat dilihat seperti gambar berikut. N N N N M M M M M Gambar II.4 Proses frame blocking Persamaan yang digunakan dalam proses windowing dalam penelitian ini menggunakan hamming window dengan persamaan berikut. w[n] = 0,54 0,46 cos ( 2πn N x 1 ) dengan: w[n] = windowing ke-n N x = jumlah data dari sinyal / jumlah sampel dalam tiap bingkai n = waktu diskrit ke-n dengan nilai fungsi jendela untuk waktu ke n, (II.1) Hasil perhitungan persamaan (II.1) selanjutnya dimasukan ke persamaan berikut. y[n] = w[n] s[n] (II.2) 9

dengan: y[n] = sinyal setelah windowing s[n] = sinyal asli II.2.2 Fast Fourier Transform (FFT) Setiap sinyal yang berada dalam ranah waktu untuk dapat diproses MFCC tentunya harus ditransformasikan terlebih dahulu ke dalam ranah frekuensi dengan menggunakan Fast Fourier Transform. Dasarnya, sinyal yang masuk untuk diproses adalah sinyal diskrit, sehingga proses transformasinya menggunakan persamaan Discrete Fourier Transform (DFT) berikut. N f 1 X k = x r e j2πkr N f r=0 (II.3) dengan: X k = sinyal dalam ranah frekuensi N f = jumlah sinyal sampling r = sinyal periodik sampling k = indeks ranah frekuensi Persamaan (II.3) dapat ditulis kembali menjadi, X k = N f 1 r=0 x r w rk, dengan w = e j 2π N f (II.4) Misalkan bahwa N f dapat dibagi dua, maka persamaan (II.4) menjadi r genap dan r ganjil, sehingga persamaan menjadi berikut. N f 2 1 N f 2 1 N 2 1 r=0 + X k = r=0 x 2r w 2rk + x (2r+1) w (2r+1)k r=0 = x 2r w 2rn N 2 1 w n r=0 x (2r+1) w 2rn (II.5) Suku pertama persamaan (II.5) yaitu r genap {x 0, x 2,, x Nf 2} N f 2 1 E k = r=0 x 2r w 2rn (II.6) Suku kedua persamaan (II.5) yaitu r ganjil {x 1, x 3,, x Nf 1} N f 2 1 O k = r=0 x (2r+1) w 2rn (II.7) Kemudian DFT dalam deret N f dapat dinyatakan dengan persamaan berikut. X k = E k + w n O k (II.8) 10

Karena DFT dalam deret N f, maka hubungan periodiknya menjadi, 2 E k = E k+ N f 2 dan O k = O k+ N f 2 (II.9) (II.10) Dengan demikian, untuk dapat mencari spektrum tertentu hanya perlu melakukan sebanyak dua kali ( N f 2 )2 atau N 2 f perkalian (Indah Susilawati, 2009). Sesuai dengan 2 namanya yaitu fast atau cepat dalam FFT lebih cepat dibandingkan dengan DFT misalkan terdapat n buah data, dengan DFT memerlukan perhitungan n 2 kali perhitungan. Dalam FFT perhitungan memerlukan ( n 2 + 1)n + n 2 kali. Misalkan jika n = 100, maka dengan DFT perlu 100 2 = 10.000 kali perhitungan, sedangkan dengan FFT cukup dilakukan ( 100 100 + 1)100 + = (51x100) + 50 = 5150 kali perhitungan. 2 2 II.2.3 Mel Frequency Warping Proses warping spectrum sinyal dengan menggunakan mel filter bank segitiga. Proses ini dilakukan untuk melinierkan ekstraksi ciri agar memperoleh vektor fitur yang mewakili amplitude terkompresi secara logaritmik. Untuk mengubah frekuensi suara menjadi frekuensi mel menggunakan skala mel yang dimaksudkan karena pendengaran manusia tidak berskala linier, sehingga tinggi subjektif di tiap nada dapat terukur dengan skala mel (Zilvan, 2011). Persamaan dalam membentuk skala mel adalah sebagai berikut. mel (f) = 2595 loq 10 (1 + f ) (II.11) 700 dengan: f = frekuensi (Hz) Proses dilakukan seperti dalam Gambar II.5 berikut. 11

2 Mel - Filter Bank 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 2000 4000 6000 8000 10000 12000 Frekuensi (Hz) Gambar II.5 Mel frequency wrapping Seperti yang disebutkan sebelumnya bahwa mel filter bank berbentuk segitiga. Dengan frekuensi (Hz) diwakili oleh sumbu X dan power (db) sinyal suara diwakili oleh sumbu Y. II.2.4 Discrete Cosine Transform (DCT) Bagian ini, merupakan proses terakhir agar diperoleh vektor ciri yang diinginkan. Discrete Cosine Transform merupakan transformasi Fourier yang dikenakan untuk fungsi sinyal diskrit dengan hanya mengambil bagian cosinus saja dari eksponensial kompleks. Persamaan yang diberikan adalah sebagai berikut. F(k) = dengan: N f 1 r=0 f(n) F(k) = fungsi sinyal diskrit cosinus f(n)= fungsi sinyal diskrit. cos ( 2πrk N ) (II.12) Jika dalam DFT dihasilkan variabel kompleks yang terdiri dari bagian riil dan imajiner, maka hasil DCT hanya berupa bagian riil tanpa imajiner. Hal ini banyak membantu karena dapat mengurangi perhitungan. Dalam DCT nilai besaran adalah hasil dari DCT itu sendiri dan tanpa memperhatikan fasanya. 12

II.3 Kuantisasi Vektor (KV) Kuantisasi vektor adalah sebuah proses dalam memetakan vektor dari ruang vektor yang besar menjadi bentuk terbatas dalam ruang tersebut (Yegnanarayana B, dkk., 2001). Kuantisasi vektor yang digunakan dalam penelitian ini adalah metode Linde, Buzo, dan Gray (LBG). Dasarnya kuantisasi vektor ini berawal dari algoritma Lloyd (K-means algorithm atau Lloyd algorithm), yang kemudian dikembangkan menjadi algoritma LBG (Linde Y, dkk., 1980). Algoritma Lloyd membagi satu set vektor training menjadi L sel. Secara sederhana dipaparkan oleh I. Elfitri (2002), algoritmanya dapat dijelaskan sebagai berikut. Inisialisasi Atur untuk m = 0 (iterasi ke-m). Tentukan satu set vektor kode y i (0), 1 i L. (buku kode awal). Klasifikasi Buat satu set vektor latih ke dalam L sel dengan aturan nearest neighbor : x C i (m vq ), jika d[x, y i (mm vq )] d[x, y j (m vq )], untuk semua j i (II.13) dengan: d = distance C i (m vq ) = indeks centroid Perbaharui vektor kode Ubah m vq menjadi m vq + 1. Hitung kembali vektor kode yang baru di tiap sel dengan prinsip centroid. y i (m vq ) = centroid[c i (m vq )], 1 i L (II.14) Tes terminasi iterasi Jika terdapat penurunan distorsi D(m vq ) dalam iterasi ke- m relatif terhadap D = D(m vq -1) lebih kecil dari nilai ambang tertentu, maka iterasi dihentikan. Jika tidak, maka kembali lagi ke langkah dua Agar tiap-tiap iterasi dapat menghasilkan sebuah buku kode yang optimal, maka harus dipenuhi dengan dua keadaan yaitu aturan nearest neighbor dan centroid. Nearest neighbor melakukan klasifikasi berdasarkan kedekatan lokasi suatu data dengan data lain (Eko Prasetyo, 2012). Algoritma LBG merupakan penyempurnaan algoritma Lloyd dengan menambahkan proses pembagian (splitting) agar memperoleh buku kode awal. Centroid dari semua vektor masukan dibagi menjadi 13

dua vektor kode. Kemudian dalam satu set vektor training akan dibagi dua dengan aturan nearest neighbor. Centroid dari kedua kluster tersebut kemudian diiterasi dengan algoritma Lloyd, sehingga diperoleh dua vektor kode dalam 1 bit quantizer. Proses tersebut kembali diiterasi, sehingga didapatkan vektor quantizer yang diinginkan (I. Elfitri, 2008). Masukan fitur vektor dibandingkan dengan seluruh kode buku. Kode buku dengan nilai jarak rata rata paling dekat yang dipilih. Rumus untuk menghitung besarnya jarak euclidean didefinisikan berikut. n y = i ei=1 (p ei q ei ) 2 (II.15) dengan: y = jarak euclidean ei = jumlah euclidean indeks n i = jumlah semua euclidean Dengan p dan q merupakan nilai centroid dari kode buku (G. Nijhawan dan MK. Soni, 2014) yang diilustrasikan seperti dalam gambar berikut. Codebook untuk Pembicara 1 Codebook untuk Pembicara 2 Pembicara 1 Sampel Centroid Pembicara 2 Sampel Centroid Ruang Vektor Fitur Gambar II.6 Konsep diagram dalam formasi buku kode kuantisasi vektor 14

II.4 Model Markov Tersembunyi (MMT) Model Markov Tersembunyi (MMT) merupakan model dari rantai Markov yang statusnya tidak dapat diamati secara langsung (tersembunyi), tetapi hanya dapat diobservasi melalui suatu himpunan pengamatan variabel lain. Model markov tersembunyi memiliki tipe model ergodik dan kiri ke kanan (left to right). Model ergodik merupakan tipe model markov tersembunyi yang setiap statusnya terhubung, sedangkan model kiri ke kanan merupakan tipe model markov tersembunyi yang urutan statusnya terhubung dengan dirinya dan terhubung dari kiri ke kanan. Jenis kiri ke kanan untuk model yang sifatnya berubah dari waktu ke waktu dan tidak dapat kembali ke status sebelumnya seperti pembicaraan (speech) (Rabiner, 1989). 1 4 2 3 Gambar II.7 Model markov tersembunyi tipe ergodik 1 2 3 4 Gambar II.8 Model markov tersembunyi tipe kiri ke kanan Dasarnya model markov tersembunyi terdiri dari tiga hal. II.4.1 Evaluasi Evaluasi merupakan proses penghitungan peluang dari urutan nilai observasi yang diberikan oleh model markov tersembunyi. Dalam tahap ini, diasumsikan parameter model telah ditemukan, sehingga evaluasi atau pencarian nilai peluang dapat 15

dilakukan. Tahap evaluasi menggunakan algoritma maju dan mundur, berikut penjelasannya. Algoritma maju β t (i) β t+1 (j) a i1 X 2 Xi a i2 a i3 X 1 X n t t+1 Gambar II.9 Alur proses algoritma maju Jika variabel maju α t (i), disaat t dan status i, maka persamaannya. α t (i) = P(O 1, O 2,, O T, q t = i λ) (II.16) dengan: O = indeks matrik terobservasi Penyelesain dengan n keadaan dan observasi sampai T secara iterasi. Inisialisasi α t (i) = π i b i (O 1 ), 1 i n (II.17) dengan: π = matrik status awal b i (O 1 ) = matriks pertama yang terobservasi Induksi n i α t+1 (j) = [ i=1 α t (i)a ij ]b j (O t+1 ) (II.18) dengan: n i = jumlah status a ij = matrik transisi 16

Terminasi n i P(O λ) = α t (i) i=1 (II.19) Algoritma mundur β t (i) β t+1 (j) a i1 X 2 Xi a i2 a i3 X 1 X n t t+1 Gambar II.10 Alur proses algoritma mundur Keadaan mengalir ke belakang dari observasi terakhir saat t. Persamaan peluang algoritma mundur β t (i) sebagai berikut: β t (i) = P(O t+1, O t+2,, O T, q t = i λ) (II.20) dan dianalogikan dengan prosedur algoritma maju β t (i) dengan langkah: Inisialisasi β t (i) = 1 1 i n (II.21) Induksi α t+1 (j) = a ij b j (O t+1 )β t+1 (j), t = T 1, T 2,, 1, 1 i n (II.22) II.4.2 Pengkodean (Decoding) Pengkodean dilakukan untuk mencari status yang terbaik dari urutan observasi model markov tersembunyi dengan algoritma Viterbi. Dalam tahap ini juga sama seperti tahap evaluasi, yaitu parameter model diasumsikan sudah ditemukan, sehingga pencarian status terbaik dapat ditentukan. Langkah langkah tahap pengodean sebagai berikut. 17

Inisialisasi δ t (i) = π i b i (O 1 ), 1 i n Rekursi (II.23) δ t (j) = max 1 i n [δ t 1(i)a ij ]b j (O t ), 1 j n (II.24) Terminasi P = max 1 i n [δ t(i)] dengan: P = peluang (II.25) II.4.3 Parameter Estimasi Algoritma Baum Welch melakukan pelatihan untuk memperoleh parameter model markov tersembunyi. Parameter A Parameter A ditunjukkan dengan kumpulan status transisi yang membentuk matrik tertentu yaitu A = {a ij }, untuk 1 i, j n. Bentuk a ij = P[q t+1 = X j q t = X i ] merupakan peluang ketika status j untuk waktu t+1 jika dalam waktu t berada di status i dengan: a ij = peluang transisi dari status i ke status j P = peluang q t+1 = kondisi setelah q t q t = kondisi saat t X j = status ke j X i = status ke i n = banyaknya status tersembunyi dalam model Parameter B Parameter B ditunjukkan bahwa B = {b j (k)}, untuk 1 j n, 1 k m yang m merupakan b j (k) = P[y k terhadap t q t = X j ], 0 b j (k) dan k=1 b j (k) = 1. dengan: b j (k) = peluang distribusi matriks observasi y k = peluang dengan kluster index k dalam status j 18

m = banyaknya simbol observasi yang berbeda setiap status Kerapatan kontinyu (continuos density) MMT sering dikarakterisasi oleh fungsi kerapatan (density function) atau campuran fungsi kepadatan tertentu di setiap status yang telah dijelaskan oleh L. R. Rabiner (1989), hal tersebut senada pula seperti yang diungkapkan oleh Mikael Nilsson (2005). Dengan asumsi penggunaan Gaussian Mixture, kepadatan emisi status j didefinisikan sebagai: b j (o t ) = K k=1 w jk N(O; μ jk ; jk ), j = 1,2,, N (II.26) dengan: K = number of mixture w jk = mixing coefficient Untuk k th Gaussian, status j dengan batasan stokastik dengan persamaan berikut. K k=1 w jk = 1j = 1,2,, N (II.27) dengan: N = Gaussian density function dengan mean μ jk ε R d dan matriks kovarian jk ε R dxd untuk k th campuran. Matriks inisial di status i Diperlukan inisialisasi matriks awal status yang ditunjukkan oleh π = {π i }, dengan n i=1 π i = P[q 1 X i ], 0 π i dan π i = 1, sehingga model markov tersembunyi dapat dilambangkan dengan λ = (A, B, π). II.5 Bahasa Indonesia Dalam komunikasi lisan dan tulisan membutuhkan kemampuan berbahasa yang memadai, sehingga menghasilkan sebuah komunikasi sesuai dengan Ejaan Yang Disempurnakan (EYD). Indonesia memiliki berbagai keragaman budaya dan bahasa, sehingga dalam tata bahasa Indonesia terdapat interferensi yang unik. Seperti yang disampaikan Jendra (1991) bahwa interferensi dalam tata bahasa dapat meliputi bidang tata bunyi (fonologi), tata bentukan kata (morfologi), tata kalimat (sintaksis), dan kosakata (leksikon). Berbagai interferensi tentunya akan memengaruhi berbagai bentuk pengucapan untuk pembicara yang menggunakan bahasa Indonesia. Pengaruh tersebut juga akan memengaruhi bentuk dari vektor ciri yang dimiliki para pembicara berbahasa Indonesia. Berikut penjelasan dari masing masing interferensi dalam tata bahasa. 19

Interferensi fonologi Menurut Harimurti Kridalaksana (1985), fonologi yaitu bidang linguistik yang mengkaji bunyi bunyi bahasa menurut fungsinya. Interferensi fonologi seperti penghilangan, penambahan, dan perubahan sebuah huruf dalam satu kata yang seharusnya. Sebagai contoh dalam penyebutan kata meliat yang seharusnya kata melihat dengan pengurangan huruf /h/. Perubahan dapat saja terjadi seperti penghilangan fonem baik di awal, tengah, maupun akhir. Interferensi morfologi Morfologi merupakan cabang ilmu linguistik yang menyelidiki tentang seluk beluk pembentukan kata (awalan, akhiran, sisipan) (M. Ramlan, 2001). Interferensi morfologi seperti penggantian imbuhan yang seharusnya digunakan. Seperti kata ketabrak, bentuk kata tersebut berasal dari kata dasar bahasa Indonesia yang ditambah dengan afiks bahasa daerah tertentu. Hal ini sebenarnya tidar diperlukan karena dalam bahasa Indonesia sudah ada padanannya sendiri berupa afiks ter-, sehingga menjadi tertabrak. Interferensi sintaksis Sintaksis yang membahas struktur internal kalimat berupa frasa, klausa, dan kalimat. Interferensi sintaksis seperti penyimpangan struktur kalimat di dalam diri penutur terjadi kontak antara bahasa Indonesia dan bahasa lainnya yang telah dikuasai (Suwito, 1988). Seperti dicontohkan dalam kalimat Mobilnya ayahnya Joko yang paling bagus sendiri di desa itu, seharusnya dalam bahasa Indonesia yang benar menjadi Mobil ayah Joko yang paling bagus di desa itu. Interferensi leksikon Leksikon merupakan kajian perbendaharaan kata, sehingga jika tercampur dalam setiap pengucapan akan berbicara dalam beberapa bahasa dalam satu kalimat. Hal ini seperti yang biasa diucapkan oleh penutur tertentu karena terbiasa berbahasa daerah, sehingga dalam berbicara bahasa Indonesia masih terdapat suara khasnya atau dengan kata lain biasa disebut logat. Dalam bab berikutnya dijelaskan mengenai perancang yang dilakukan dalam mencapai rencana pembuatan sistem pengenalan pembicara. Kemudian cara-cara 20

eksperimen yang digunakan dalam tahap pelatihan dan pengujian berupa diagram blok dan diagram alir algoritma. Bab III Perancangan Sistem dan Eksperimen 21

III.1 Perancangan Awal Sistem dan Eksperimen Pengenalan Pembicara Sistem pengenalan pembicara dirancang dengan menggunakan mel frequency cepstral coefficient sebagai ekstraksi fiturnya, sehingga didapatkan vektor ciri yang kemudian akan didistribusikan sebagai masukan untuk pengklasifikasi. Kuantisasi vektor dan model markov tersembunyi sebagai pengklasifikasi akan melakukan tugasnya untuk menentukan pemilik suara dari suara yang diujikan. Gambaran umum dari sistem diberikan oleh diagram berikut. Vektor Kuantisasi Hasil Pengenalan MFCC Hidden Markov Model Hasil Pengenalan Gambar III.1 Diagram blok utama dalam sistem pengenalan pembicara Dalam penelitian ini dikenal data latih dan data uji. Berikut penjelasan dari kedua jenis data tersebut. Data latih Data latih merupakan kumpulan data suara responden yang akan dilatih untuk kemudian disimpan sebagai basis data kepemilikan identitas suara individu responden. Data uji Data uji merupakan kumpulan data suara responden yang akan dimasukan dalam tahap pengujian untuk kemudian dibandingkan dengan basis data dari data latih dan ditentukan kepemilikan identitas suara individu responden tersebut. Jumlah reponden yang direkam sebanyak empat pembicara. Untuk data latih, dilakukan perekaman secara langsung dengan menggunakan Matlab. Berikut teknik yang digunakan dalam pengambilan data latih. Setiap pembicara dilakukan perekaman untuk data latih sebanyak lima kali Rekaman data latih berupa pengucapan kata saya. 22

Hasil perekaman dilakukan pelatihan dan disimpan sebagai basis data di Matlab. Saat pengambilan data uji, dilakukan dalam tiga tipe tingkat kesulitan, yaitu: Pengujian kata Saat pengujian kata ini dilakukan masing masing responden sebanyak sepuluh kali perekaman dalam pengucapan kata saya. Perekaman pengujian kata dilakukan dengan durasi 2 detik. Pengujian kalimat sederhana Saat pengujian kalimat sederhana, dilakukan masing masing responden sebanyak sepuluh kali perekaman dalam pengucapan kalimat saya sedang belajar. Perekaman pengujian kalimat sederhana dilakukan dengan durasi 3 detik. Pengujian kalimat lengkap Saat pengujian kalimat lengkap yang berarti memiliki kelengkapan berupa subjek, predikat, objek, dan keterangan, dilakukan masing masing responden sebanyak sepuluh kali perekaman dalam pengucapan kalimat saya berangkat menggunakan bus ke kampus. Perekaman pengujian kalimat lengkap dilakukan dengan durasi 7 detik. Ketiga bentuk pengambilan data pengujian diambil dengan perbedaan rentang waktu satu minggu dengan rincian berikut. Tabel III.1 Waktu pengambilan data untuk data latih dan data uji Minggu ke- Pengambilan Data Data latih : Pengucapan kata 1 Data uji : Pengucapan kata 2 Data uji : Pengucapan kalimat sederhana 3 Data uji : Pengucapan kalimat lengkap III.2 Perancangan Sistem dan Eksperimen Ekstraksi Fitur Sistem ekstraksi fitur dalam penelitian ini menggunakan mel frequency cepstral coefficient dengan tahap sebagai berikut. Frame Blocking dan Windowing 23

Suara yang telah direkam, kemudian dibuat menjadi 256 sampel tiap bingkainya dan jarak antar bingkai 100. Setelah itu, dilakukan windowing dengan hamming window untuk kemudian hasilnya dikalikan dengan sinyal aslinya, sehingga didapat fungsi sinyal yang baru. Fast Fourier Transform (FFT) Sinyal yang akan diproses dalam filter bank di tahap selanjutnya tentu harus ditransformasikan terlebih dahulu menuju ranah frekuensi dengan transformasi Fourier. Sinyal suara ini sudah berupa sinyal diskrit, sehingga proses transformasinya menggunakan transformasi Fourier diskrit atau DFT. Dasarnya, FFT merupakan DFT yang dikembangkan agar proses komputasinya lebih singkat. Hasil keluaran dari proses ini berupa sinyal diskrit dalam ranah frekuensi. Mel Frequency Warping Tahap mel frequency warping merupakan tahap inti dari ekstraksi fitur. Jumlah warping yang digunakan sebanyak 20 buah filterbank untuk kemudian terbentuk cepstrum. Bentuk dari 20 segitiga filterbank yang digunakan oleh salah satu pengujian kata seperti gambar berikut. 2 Mel - Filter Bank 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 2000 4000 6000 8000 10000 12000 Frekuensi (Hz) Gambar III.2 Mel filter bank Discrete Cosine Transform (DCT) 24

Sinyal sinyal yang telah dilakukan penyaringan akan berupa variabel kompleks. Untuk dapat membantu mengurangi perhitungan, maka DCT akan mengambil bagian cosinusnya dari eksponensial kompleks. Hasil yang didapat berupa bagian riil yang merupakan nilai besarannya. III.3 Perancangan Sistem dan Eksperimen Pengklasifikasi III.3.1 Tahap Pelatihan dan Pengujian dengan Metode Kuantisasi Vektor Dalam proses pengenalan pembicara menggunakan metode kuantisasi vektor, secara umum prosesnya dapat dilihat oleh gambar di bawah ini. Data Latih Ekstraksi Ciri Pelatihan Penentuan Centroid Data Uji Ekstraksi Ciri Evaluasi Jarak Euclidean Jarak Terpendek Hasil Prediksi Gambar III.3 Proses pengenalan pembicara dengan metode kuantisasi vektor Tahap pelatihan yang dibangun metode kuantisasi vektor menggunakan algoritma LBG yang merupakan pengembangan algoritma Llyod. Pengembangan tersebut berada di bagian masukan awal vektor dengan membagi dua vektor kode menggunakan aturan nearest neighbour. Kemudian masing masing dikluster dan diiterasi dengan algoritma Lloyd sampai didapatkan vektor quantizer yang diinginkan. Metode kuantisasi vektor yang dilakukan sesuai dengan diagram alir dalam Gambar III.4 berikut. 25

Mulai Tentukan Centroid Bagi tiap Centroid (D=0) m vq = 2*m vq A Buat Kluster Vektor Tentukan Centroid Hitung Distorsi (D) ((D - D) / D) < e Ya Tidak D = D A m vq < M Ya Tidak Selesai Gambar III.4 Diagram alir pelatihan algoritma Linde, Buzo, dan Gray (LBG) (Adaptasi dari Lawrence Rabiner dan Biing-Hwang Juang, 1993) Dalam tahap pengujian, tiap tiap kode buku akan dihitung jarak euclidean-nya menggunakan persamaan (II.15) dan jarak yang paling dekat dipilih sebagai kesamaan vektor ciri antara data uji dan data latih. 26

III.3.2 Tahap Pelatihan dan Pengujian dengan Metode Model Markov Tersembunyi Dalam penelitian ini menggunakan model markov tersembunyi model kiri ke kanan, karena menurut L. R. Rabiner (1989) untuk proses pengenalan suara yang sifatnya tersembunyi lebih baik dirancang menggunakan model kiri ke kanan dari pada model ergodik dan menggunakan tipe Continuous Hidden Markov Model (CHMM). Status yang digunakan dalam metode model markov tersembunyi ini berjumlah 6 (Dimasatria, 2016). Secara umum, diagram blok dari proses pengenalan pembicara menggunakan metode model markov tersembunyi dalam Gambar III.5. Data Latih Ekstraksi Ciri Pelatihan / Pemodelan HMM Data Uji Ekstraksi Ciri Evaluasi Probabilitas Terbesar Hasil Prediksi Gambar III.5 Proses pengenalan pembicara menggunakan metode model markov tersembunyi Tahap pelatihan dengan metode model markov tersembunyi Tahap pelatihan dilakukan untuk menentukan parameter estimasi, sehingga terbentuk model markov tersembunyi berupa λ = (A, B, π). Dalam penelitian ini menggunakan CHMM, sehingga untuk parameter B terdiri dari mean dan kovarian. Berikut diagram alir pelatihan dengan metode model markov tersembunyi. Mulai Muat Basis Data Sinyal Suara Latih Ekstraksi Ciri : MFCC Pemodelan HMM Algoritma Baum Welch Selesai Gambar III.6 Diagram alir pelatihan dengan metode model markov tersembunyi 27

Data latih yang berada di basis data, kemudian diproses ekstraksi ciri. Keluaran dari ekstraksi ciri merupakan vektor yang terobservasi yang kemudian dijadikan sebagai masukan oleh proses pelatihan dengan algoritma Baum Welch Masukan diproses dengan algoritma maju dan mundur untuk mendapatkan nilai parameter A. Dalam parameter B, diwakili oleh mean dan kovarian dengan masukan dari vektor yang terobservasi juga. Begitu pula untuk matrik awal atau parameter π, sehingga didapat model untuk model markov tersembunyi. Berikut diagram alir dari algoritma Baum Welch dalam Gambar III.7. 28

Mulai A Data yang Terobservasi Model HMM Pilih State dan Tipe Model HMM Selesai Inisialisasi Parameter HMM Latih Parameter HMM Simpan Parameter HMM Masukkan Urutan Data Sesuaikan Model HMM Hitung Nilai Log dari tiap Model Nilai Maksimum Log A Gambar III.7 Diagram alir algoritma Baum Welch 29

Tahap pengujian dengan metode model markov tersembunyi Pengujian dilakukan untuk mengetahui seberapa besar nilai peluang data suara uji terhadap kecocokannya dengan data latih. Jika dalam tahap pelatihan, inisialisasi matriks transisi dan matriks emisi diisi dengan acak, sedangkan untuk tahap pengujian, inisialisasi matriks transisi dan matriks emisi berasal dari data proses pelatihan. Di awal proses pengujian tetap dilakukan ekstraksi ciri, kemudian keluarannya dijadikan vektor ciri. Proses pengujian atau evaluasi ini menggunakan algoritma maju karena yang ingin dicari hanya nilai peluang dari data uji di setiap basis data hasil pelatihan. Nilai peluang yang paling tinggi, menentukan kecocokan antara data uji terhadap basis data latih. Nilai peluang yang didapat merupakan hasil penyekalaan (scaling) dikarenakan rentang datanya terlalu jauh (Nilsson, 2005). Berikut maju yang digunakan dalam tahap pengujian dengan metode model markov tersembunyi. Mulai Muat Basis Data Sinyal Suara Uji Ekstraksi Ciri : MFCC Evaluasi HMM Algoritma Maju Pembicara Dikenali Selesai Gambar III.8 Diagram alir pengujian dengan metode model markov tersembunyi 30

Dalam bab selanjutnya dijelaskan mengenai pengujian sistem pengenalan pembicara baik diujikan menggunakan metode kuantisasi vektor maupun metode model markov tersembunyi. Setelah dilakukan pengujian akan dipaparkan data hasil pengujiannya berupa pembahasan dari hasil pengujian kata, kalimat sederhana, dan kalimat lengkap. 31

Bab IV Pengujian dan Pembahasan IV.1 Pengujian Sistem Pengujian dilaksanakan dengan membandingkan hasil eksperimen dari sistem pengenalan pembicara dengan menggunakan metode kuantisasi vektor dan model markov tersembunyi. Hasil eksperimen berupa nilai akurasi dari masing masing pembicara yang dihitung dengan persamaan Speaker Identification Rate (SIR), didefinisikan berikut. %SIR = Jumlah data teridentifikasi Jumlah total data (IV.1) Diagram blok pengujian perbandingan hasil eksperimen pengenalan pembicara ini diberikan dalam gambar berikut. MFCC Model Markov Tersembunyi Kuantisasi Vektor Uji Kata Uji Kalimat Sederhana Uji Kalimat Lengkap Uji Kata Uji Kalimat Sederhana Uji Kalimat Lengkap Hasil Pengenalan Hasil Pengenalan Hasil Pengenalan Hasil Pengenalan Hasil Pengenalan Hasil Pengenalan Hitung Persentase Pengenalan Hitung Persentase Pengenalan Hitung Persentase Pengenalan Hitung Persentase Pengenalan Hitung Persentase Pengenalan Hitung Persentase Pengenalan Bandingkan Hasil Akurasi Pengujian Kata Bandingkan Hasil Akurasi Pengujian Kalimat Sederhana Bandingkan Hasil Akurasi Pengujian Kalimat Lengkap Gambar IV.1 Digram blok perbandingan pengujian pengenalan pembicara 32

Berikut penjelasan dari diagram blok di atas. Suara diekstraksi cirinya menggunakan mel frequency cepstral coefficient Hasil ekstraksi ciri, kemudian dilakukan pengujian dengan metode kuantisasi vektor dan model markov tersembunyi Masing masing metode, akan dihasilkan berupa hasil pengenalan yang diujikan dalam tiga tingkat kesulitan yang telah dibahas sebelumnya yaitu pengujian kata, kalimat sederhana, dan kalimat lengkap Berdasarkan pengujian selama sepuluh kali, maka hasil pengenalan akan dibentuk dalam persentase keakuratan sistem metode tersebut Membandingkan tingkat akurasi dari masing masing metode terhadap tingkat kesulitannya IV.1.1 Pengujian Sistem Perekaman Suara Suara yang menjadi objek langsung direkam dan diolah di Matlab, untuk itu perlu ditinjau keadaan suaranya baik melalui penggambaran sinyal suara maupun mendengarkan hasil rekaman. Berikut akan disampaikan hasil pengujian berupa beberapa contoh penggambaran sinyal suara dari salah satu responden. sa ya Gambar IV.2 Penggambaran sinyal suara dalam pengucapan kata saya yang digunakan sebagai data latih 33

sa ya Gambar IV.3 Penggambaran sinyal suara dalam pengucapan kata saya yang digunakan sebagai data uji saya sedang belajar Gambar IV.4 Penggambaran sinyal suara dalam pengucapan kalimat saya sedang belajar yang digunakan sebagai data uji 34

saya berangkat menggunakan bis ke kampus Gambar IV.5 Penggambaran sinyal suara dalam pengucapan kalimat saya berangkat menggunakan bus ke kampus yang digunakan sebagai data uji Berdasarkan pengujian dengan memunculkan grafik suara dan diputar rekamannya, maka perekaman suara telah sesuai dengan kata dan kalimat pengucapan yang diinginkan. IV.1.2 Hasil Pengujian Sistem Pengenalan Pembicara dengan Metode Kuantisasi Vektor Hasil Pengujian Kata Pengujian dilakukan dengan memasukan data suara ke dalam sistem. Pengujian dilakukan selama sepuluh kali pengucapan kata saya. Sistem akan menghitung jarak dari masing masing euclidean antara seluruh data latih dengan data uji yang dimasukkan. Kemudian ditentukan jarak terdekat merupakan hasil pengenalan pembicara. Data hasil penghitungan jarak dalam pengujian pengucapan kata saya terlampir. Berdasarkan hasil penghitungan jarak, didapat hasil pengenalan pembicara dengan metode kuantisasi vektor dalam Tabel IV.1. 35

Tabel IV.1 Data hasil pengenalan pembicara dalam pengujian kata dengan metode kuantisasi vektor No. Pembicara A B C D 1 x X 2 x 3 x 4 x x 5 x 6 x X 7 8 x x 9 x x 10 x X Akurasi 60% 20% 80% 90% Hasil Pengujian Kalimat Sederhana Dalam pengujian kalimat sederhana, dengan dilakukan pemasukan data suara ke dalam sistem selama sepuluh kali pengucapan kalimat saya sedang belajar. Sistem juga akan menghitung jarak euclidean antara seluruh data latih dengan data uji yang dimasukkan. Data hasil penghitungan jarak untuk pengujian pengucapan kalimat saya sedang belajar pun terlampir. Setelah melihat data hasil penghitungan jarak didapat hasil pengenalan pembicara dengan metode kuantisasi vektor dalam tabel berikut. Tabel IV.2 Data hasil pengenalan pembicara dalam pengujian kalimat sederhana dengan metode kuantisasi vektor No. Pembicara A B C D 1 x x X 2 x x 3 x x 4 x x 5 x x 6 x x 7 x x 8 x x 9 x x 10 x x Akurasi 0% 0% 100% 90% 36