BAB I PENDAHULUAN 1.1 Latar Belakang Wicara atau ucapan adalah cara berkomunikasi yang paling sederhana dan sering digunakan oleh manusia. Namun, seiring dengan perkembangan teknologi, proses komunikasi tersebut tidak hanya terjadi antar manusia saja. Proses komunikasi juga terjadi antara manusia dan perangkat-perangkat seperti komputer dan yang lainnya. Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Contoh sederhana interaksi manusia dan komputer adalah pada saat pengguna menekan tombol untuk melakukan fungsi tertentu. Dalam proses ini, antara program yang digunakan pengguna dan perangkat komputer dijembatani oleh sebuah bahasa pemrograman yang menterjemahkan instruksi dalam bahasa manusia ke dalam bahasa mesin. Pengenalan suara otomatis atau Automatic Speech Recognition (ASR) adalah teknik baru yang dikembangkan untuk mendukung interaksi antara manusia dan komputer yang saat ini menjadi salah satu hal yang sangat potensial bagi para peneliti untuk lebih mendalaminya (Abriyono dan Harjoko, 2012). Pengenalan suara otomatis ini merupakan teknologi untuk dapat mengubah suara menjadi teks. Pengenalan suara adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Hingga saat ini, telah banyak penelitian-penelitian terkait dengan Automatic Speech Recognition dengan kemampuan untuk mengenali berbagai kasus percobaan seperti pengucapan kata terisolasi dimana terdapat jeda yang 1
2 signifikan antar kata, pengucapan kata-kata layaknya berbicara biasa, ataupun dalam konteks identifikasi pembicara. Teknik-teknik dalam pengenalan suara telah banyak mengalami perkembangan. Mulai dari metode ekstraksi fitur wicara, terdapat beberapa teknik yang performanya cukup baik diantaranya Linear Predictive Coding(LPC) dan Mel Frequency Cepstral Coefficients (MFCC). Sedangkan untuk pengenalan pola suara digunakan metode Hidden Markov Model yang menggunakan pendekatan stokastik yang sangat populer karena mampu melakukan pengenalan dengan baik. Penelitian yang dilakukan oleh Mehta L. R. dilakukan perbandingan metode ekstraksi fitur wicara MFCC dan LPC pada pengenalan kata terisolasi. Dari hasil penelitian tersebut diperoleh kesimpulan bahwa pengenalan wicara dengan metode ekstrasi fitur MFCC menghasilkan tingkat akurasi yang lebih besar dengan rata-rata keberhasilan 99,62 % dibandingkan metode LPC yang menghasilkan persentase keberhasilan 77,37 %. Pada penelitian oleh Ghulam M. tahun 2009, yang mengambil kasus pengenalan digit terisolasi yang menggunakan kombinasi metode MFCC dan HMM dalam bahasa Bangia, sistem mampu mengenali digit bilangan yang digunakan dengan tingkat keberhasilan mencapai 90%. Sedangkan, untuk studi kasus yang sama pada penelitian oleh M. Chandrasekar yang mengdopsi metode MFCC dalam mengekstrak fitur suara, kemudian dikenali dengan Back Propagation Network diperoleh nilai akurasi yang lebih kecil yaitu 80,95%. Dalam pengenalan kata berkelanjutan(continuous) dengan kosa kata berukuran besar oleh Corneliu O. dan Inger Gavat, digunakan Hidden Markov Model (HMM) sebagai recognizer dan 3 macam metode algoritma ekstraksi fitur yaitu MFCC, LPC, dan PLP. Dari ketiga metode ekstraksi fitur tersebut, MFCC menghasilkan tingkat akurasi tertinggi dengan persentase 90,41%. Sedangkan metode LPC memiliki persentase keberhasilan 63,55% sementara PLP sebesar 75,78% (Prabhakar dan Sahu, 2013).
3 Salah satu objek penelitian terkait pengenalan suara yang dapat dikembangkan menjadi sebuah sistem yang cukup bermanfaat adalah pengenalan voice command atau intruksi suara. Voice command adalah proses mesin untuk mengenali sebuah intruksi dan memberikan respon terhadap intruksi tersebut. Aplikasi ini salah satunya dapat digunakan dalam sistem Smart House yang menjadikan penelitian ini cukup menarik untuk dilakukan. Walaupun telah banyak dilakukan penelitian yang berkaitan dengan pengenalan suara, namun hingga saat ini masih terhitung sedikit pengenalan suara untuk bahasa Indonesia yang berkonsentrasi pada bidang voice command. Dengan alasan inilah peneliti ingin merancang sebuah aplikasi sederhana yang mampu mengenali intruksi berbahasa Indonesia. Dari penelitian yang dilakukan, diharapkan akan dihasilkan aplikasi pengenalan wicara menggunakan bahasa Indonesia dengan metode ekstraksi fitur Mel Frequency Cepstral Coefficients dan metode pengenalan suara Hidden Markov Model yang mampu mengenali input suara sebagai rangkaian kata-kata yang sesuai dengan instruksi yang diucapkan oleh seseorang. 1.2 Rumusan Masalah Berdasaran latar belakang yang dijabarkan diatas, dapat dirumuskan beberapa poin permasalahan, antara lain 1. Bagaimana performa dari metode Mel Frequency Cepstrum Coefficient dan Hiden Markov Model dalam mengenali kata-kata yang terdapat dalam bahasa Indonesia 2. Bagaimana efektifitas energy jangka pendek (short term energy) dari sebuah sinyal suara untuk mendeteksi batasan kata sehingga dapat mengenali kata-kata yang diucapkan pada sebuah intruksi suara
4 1.3 Batasan Masalah Dalam penelitian ini, penulis menggunakan batasan-batasan masalah, antara lain : 1. File suara yang digunakan sebagai dataset pelatihan system memiliki format.wav (waveform audio format). Hal tersebut dikarenakan hanya format audio.wav yang dapat diproses dan dimanipulasi dalam sistem. 2. Dataset suara direkam dengan menggunakan frekuensi sampling 16000 Hz 1.4 Tujuan Penelitian Tujuan penelitian yang penulis lakukan yaitu 1. Untuk mengetahui bagaimana performa dari metode Hidden Markov Model sebagai metode pengenalan dan Mel Frequency Cepstral Coefficient sebagai metode ekstraksi fitur yang dikombinasikan dengan metode segmentasi kata dalam mengenali intruksi suara menggunakan bahasa Indonesia. 2. Untuk mengetahui kemampuan segmentasi kata pada instruksi suara menggunakan wujud energi sinyal suara. 3. Untuk mencari nilai dari parameter-parameter paling optimal pada proses pelatihan sistem sehingga dapat memperoleh hasil pengenalan yang baik. 1.5 Manfaat Penelitian Manfaat yang dapat diperoleh dari penelitian ini adalah sebagai dasar bagi penelitian-penilitian selanjutnya untuk mengembangkan sebuah aplikasi atau perangkat yang dapat melakukan interaksi dengan manusia dengan menggunakan intruksi berupa suara. 1.6 Metodelogi Penelitian Pada sub bab metodelogi penelitian ini akan menjelaskan langkah-langkah yang akan dilalui untuk melakukan pengenalan instruksi suara (voice command). Adapun sub bab bahasan yang akan dijelaskan adalah desain penelitian, pengumpulan data, pengolahan data awal, dan metode yang digunakan.
5 1.6.1 Desain Penelitian Dalam penelitian ini, desain penelitian yang digunakan adalah desain penelitian eksperimen. Data hasil rekaman ini akan di jadikan data awal inputan untuk melakukan ekstraksi fitur guna memperoleh fitur vektor sebagai acuan dalam proses pengenalan. Yang menjadi objek penelitian adalah metode ekstraksi fiturnya yaitu Mel Frequency Cepstrum Coefficient dan metode pengenalan adalah Hidden Markov Model. Kemudian dari hasil penelitian yang telah dilakukan, akan di lihat keakuratan metode-metode tersebut dalam melakukan pengenalan terhadap instruksi yang diucapkan menggunakan bahasa Indonesia. 1.6.2 Pengumpulan data Untuk mendapatkan data-data berupa suara akan dilakukan pengumpulan data secara langsung melalui rekaman menggunakan smartphone. Dataset yang digunakan dalam penelitian ini adalah data primer berupa file suara yang diperoleh langsung dengan merekam wicara menggunakan smartphone. Dalam pengumpulan data ini, akan dilakukan perekaman kata kata yang telah disediakan dan diulang sebanyak 3 kali dari 5 orang pembicara berbeda dengan maksud agar mendapatkan variasi pengucapan dari sebuah kata sehingga memperkaya data penelitian yang akan digunakan. 1.6.3 Pengolahan Data Awal Pada tahap ini hasil dari rekaman suara dengan format.wav dari masingmasing sumber ini akan dikelompokkan berdasarkan kata yang diucapkan. Hal ini bertujuan untuk mempermudah sistem untuk mengambil data suara pada proses pelatihan. Langkah preprocessing selanjutnya adalah melakukan filter preemphasis terhadap sinyal suara yang bertujuan untuk mempertahankan frekuensi tinggi pada sinyal suara. Data suara yang telah mengalami proses preprocessing akan diekstraksi untuk mendapatkan fitur-fitur vektor yang akan dikenali.
6 1.6.4 Metode yang Digunakan Dalam penelitian ini, metode yang digunakan untuk ekstraksi fitur yaitu metode Mel Frequency Cepstrum Coefficient (MFCC) dan untuk klasifikasinya menggunakan Hidden Markov Model (HMM). Untuk ekstraksi fitur, pada MFCC dibagi menjadi beberapa tahapan, yaitu tahap Pre-emphasis, Framing, Windowing, Discrete Fourier Transform (DFT), Mel-Frequency Filtering, Discrete Cosine Transform(DCT), dan perhitungan delta. Dalam pengenalan kata atau kalimat dengan HMM akan dirancang modelmodel untuk setiap kata yang akan dikenali pada dataset yang digunakan. Pada proses pelatihan HMM akan dilakukan penyesuaian terhadap parameter-parameter dalam HMM untuk mencapai nilai yang optimal untuk proses pengenalan kata/kalimat. Langkah selanjutnya, fitur-fitur tersebut masuk ke dalam model HMM yang telah dikombinasikan dengan model bahasa sehingga membentuk arsitektur model yang optimal. Nilai dari setiap data observasi akan dihitung probabilitasnya untuk mendapatkan rangkaian kata yang memiliki nilai probabilitas tertinggi sebagai kata yang dikenali oleh program. Pada proses pengujian atau testing sistem, terdapat sebuah proses tambahan yaitu deteksi batasan-batasan kata. Dimana proses ini digunakan untuk memecah sebuah input suara(utterance) menjadi sejumlah segment yang dikenali sebagai sebuah kata tunggal. hal ini bertujuan untuk membantu sistem dalam mengenali rangkaian kata yang diucapkan.