BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 2.1 Suara Suara adalah sebuah sinyal yang merambat melalui media perantara. suara dapat didefinisikan sebagai gelombang yang merambat dengan frekuensi dan amplitudo tertentu. Suara yang dapat didengar manusia berkisar antara 20 Hz sampai dengan 20 KHz, dimana Hz adalah satuan frekuensi yang artinya banyaknya getaran per-detik (cps / cycle per second) (Darmawan, Y., 2011). Speech Processing (pemrosesan lafal/ucapan) adalah metode mengekstrak informasi yang diinginkan dari sebuah sinyal suara. Untuk memproses sebuah sinyal dengan sebuah computer digital, sinyal harus dihadirkan dalam bentuk digital sehingga sinyal tersebut dapat digunakan oleh sebuah computer digital (L. Rabiner et al. 1993) 2.2 Kata Baku dan Tidak Baku Bahasa Indonesia Di dalam bahasa Indonesia terdapat dua jenis kata, yakni kata baku dan kata tidak baku. Kata baku adalah kata yang digunakan sesuai dengan kaidah bahasa Indonesia yang telah ditentukan. Kamus Besar Bahasa Indonesia (KBBI) merupakan sumber utama dan menjadi acuan untuk menentukan kata baku bahasa Indonesia. Kata tidak baku adalah kata yang digunakan tidak sesuai dengan kaidah bahasa Indonesia yang ditentukan. 2.3 Speech Recognition Speech recognition merupakan teknik dimana perangkat akan mengenali masukan berupa suara, setelah itu perangkat melakukan respon yang sesuai dengan masukan suara tersebut (Syarif, A., Daryanto, T. & Arifin, M.J. 2011). Speech recognition

8 (pengenalan lafal/ucapan) juga diketahui sebagai suatu proses untuk mengenali seseorang dengan mengenali ucapan dari orang tersebut (L. Rabiner et al. 1993). 2.3.1 Mode Speech Recognition Speech recognition memiliki dua mode, yakni mode diktasi dan mode command and control. Penjelasan kedua mode tersebut adalah sebagai berikut : a. Mode Diktasi Mode ini merupakan mode dimana pengguna komputer dapat mengucapkan kata / kalimat yang selanjutnya akan dikenali oleh komputer dan diubah menjadi data teks. Pengenalan mode diktasi merupakan speaker dependent. Keakuratan pengenalan mode ini bergantung pada pola suara dan aksen pembicara serta pelatihan yang telah dilakukan. b. Mode Command and Control Pada mode ini pengguna komputer mengucapkan kata / kalimat yang sudah terdefinisi terlebih dahulu pada database dan selanjutnya akan digunakan untuk menjalankan perintah tertentu pada aplikasi komputer. Mode ini merupakan speaker independent karena jumlah kata yang dikenali biasanya terbatas sekali dan ada kemungkinan pembicara tidak perlu melakukan pelatihan pada sistem sebelumnya (Junaedih. 2007) 2.3.2 Proses Speech Recognition Pada proses speech recognition atau sistem pengenal pembicaraan, terdapat empat proses utama yang diterapkan baik pada mode diktasi maupun mode command and control. Keempat proses tersebut adalah pemisahan kata, ketergantungan terhadap pengguna, pencocokan kata dan pembendaharaan kata. 2.3.2.1. Pemisahan Kata Pemisahan kata adalah proses untuk memisahkan suara yang diucapkan oleh pengguna menjadi beberapa bagian (Junaedih. 2007). Pada proses pemisahan kata ini, terdapat tiga metode yang dapat digunakan, yaitu :

9 a. Discrete Speech Pada discrete speech, pengguna diharuskan mengucapkan kalimat secara terpenggal dengan adanya jeda sejenak diantara kata. Jeda tersebut digunakan oleh sistem untuk mendeteksi awal dan akhir sebuah kata. b. Word Spotting Pada word spotting, dalam sebuah kalimat yang diucapkan pengguna, sistem hanya mendeteksi kata yang terdapat di dalam perbendaharaan yang dimilikinya, dan mengabaikan kata kata lain yang tidak dimilikinya. Sehingga walau pengguna mengucapkan kalimat yang berbeda tetapi di dalam kalimat tersebut terdapat sebuah kata yang sama dan terdapat di perbendaharaan sistem, maka hasil pengenalan akan sama. c. Continuous Speech Pada metode continuous speech, sistem akan mengenali dan memproses setiap kata yang diucapkan. 2.3.2.2. Ketergantungan Terhadap Pengguna Ketergantungan terhadap pengguna merupakan sebuah kondisi yang menjadikan sistem pengenalan pembicaraan memiliki beberapa sifat. Sifat sifat tersebut adalah speaker dependent, speaker independent dan speaker adaptive. a. Speaker Dependant Pada speaker dependent, sistem membutuhkan pelatihan untuk setiap pengguna yang akan menggunakan system tersebut. b. Speaker Independent Pada speaker independent, pengguna tidak perlu melakukan pelatihan sebelum dapat menggunakan sistem, karena sistem mampu mengenali suara semua pengguna tidak tergantung warna suara dan dialek yang digunakan. c. Speaker Adaptive Speaker adaptive merupakan perpaduan dari speaker dependent dan speaker independent, dimana pengguna tidak perlu melakukan pelatihan dan

10 keakuratan pengenalan sistem akan makin meningkat jika pengguna yang sama bekerja terus menerus selama beberapa waktu tertentu (Junaedih. 2007). 2.3.2.3. Pencocokan Kata Pencocokan kata adalah proses untuk mencocokkan kata ucapan yang berhasil diidentifikasi dengan basis data yang dipunyai oleh sistem. 2.3.2.4. Pembendaharaan Kata Perbendaharaan kata ialah bagian terakhir dalam sebuah sistem pengenalan pembicaraan. Jika perbendaharaan kata berjumlah banyak, maka sebuah sistem akan mudah dalam melakukan pencocokan kata, tetapi dengan makin meningkatnya jumlah perbendaharaan kata, maka jumlah kata yang mempunyai ucapan hampir sama juga meningkat, dimana hal ini menurunkan keakuratan pengenalan. Dan sebaliknya, jika sebuah sistem mempunyai perbendaharaan kata sedikit, maka keakuratan pengenalan akan tinggi karena sedikitnya kata yang hampir sama, tetapi akan semakin banyak kata yang tidak terkenali. 2.4 Speech Application Programming Interface (SAPI) Speech recognition bukanlah hal baru untuk dunia penelitian teknologi. Penelitian penelitian mengenai speech recognition telah banyak dilakukan dan salah satu diantaranya yang cukup dikenal adalah penelitian yang dilakukan oleh Microsoft Corporation. Microsoft telah mengembangkan sistem speech recognition yang dapat digunakan pada sistem operasi Windows. Sistem tersebut memiliki perkembangan termasuk standard interface SAPI (Speech Application Programming Interface) yang memungkinkan pembuat aplikasi menerapkan sistem speech recognition menggunakan engine yang berbeda tanpa merubah aplikasi yang dibuat. Sekarang banyak aplikasi yang dikembangkan menggunakan speech recognition, antara lain di bidang kesehatan terdapat MT, di bidang militer terdapat High-performance fighter aircraft, Training air traffic controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan menggunakan deteksi pengucapan user (Sunny, A.S. 2009).

11 2.4.1 Komponen Speech Application Programming Interface (SAPI) Selain mengenali ucapan, SAPI juga memiliki fungsi untuk mengenali ucapan dan mengubahnya menjadi teks. Hal tersebut dapat terjadi karena di dalam SAPI sendiri terdapat komponen komponen yang memang memiliki fungsi fungsi khusus untuk pengembangan sistem speech recognition, diantaranya : a. Voice Command Sebuah obyek level tinggi untuk perintah dan kontrol menggunakan pengenalan suara. b. Voice Dictation Sebuah obyek level tinggi untuk continous dictation speech recognition. c. Voice Talk Sebuah obyek level tinggi untuk speech synthesis. d. Voice Telephony Sebuah obyek untuk menulis aplikasi telepon berbasiskan pengenalan suara. e. Direct Speech Recognition Sebuah obyek sebagai mesin untuk mengontrol pengenalan suara (direct control of recognition engine) f. Direct Text to Speech Sebuah obyek sebagai mesin yang mengontrol synthesis. g. Audio Object Untuk membaca dari audio device atau sebuah file audio. 2.4.2 Antar muka Speech Application Programming Interface (SAPI) SAPI 5.1 terdiri dari 2 antar muka yaitu application programming interface (API) dan device driver interface (DDI) (Nurcahyono, D., Kristalina, P. & Huda, M., 2011). a. Application Programming Interface (API) Windows Application Programming Interface (API) adalah sekumpulan fungsi dan konstanta yang terdapat dalam file-file Dynamic Link Library (DLL) yang menyusun Sistem Operasi Windows (Supriyono, B., 2004). Pada sistem

12 pengenalan pembicaraan, aplikasi akan menerima event pada saat suara yang diterima telah dikenali oleh engine. Arsitektur SAPI sendiri dapat kita lihat pada blog diagram seperti yang terlihat pada gambar 2.1 (Supriyono, B., 2004). Gambar 2.1 Blok Diagram Arsitektur SAPI Dalam API terdapat fungsi-fungsi/ perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih terstruktur dan mudah dimengerti oleh programmer. Fungsi yang dibuat dengan menggunakan API tersebut kemudian akan memanggil system calls sesuai dengan sistem operasinya (Sianturi, A.H., 2014). b. Device Driver Interface (DDI) DDI menyediakan fungsi untuk menerima data suara dari SAPI dan mengembalikan pengenalan frasa pada level SAPI paling dasar. Terdapat dua antar muka yang digunakan oleh DDI yaitu ISpSREngine, yang diimplementasikan oleh engine dan ISpSREngineSite yang diimplementasikan oleh SAPI (Nurcahyono, D., Kristalina, P. & Huda, M., 2011). 2.5 Transformasi Fourier Transformasi Fourier merupakan suatu persamaan integral untuk menghitung frekuensi, amplitudo dan fase dari suatu gelombang sinyal (Stefanus, Hamz, M. &

13 Angzas, Y., 2005). Sementara untuk menghitung spektrum frekuensi sinyal pada komputer digital, kita membutuhkan algoritma Discrete Fourier Transform (DFT). 2.5.1 Discrete Fourier Transform (DFT) DFT adalah suatu persamaan integral alat yang digunakan untuk menganalisa suatu frekuensi diskrit (Stefanus, Hamz, M. & Angzas, Y., 2005). DFT mengubah sinyal domain waktu, menjadi sinyal domain frekuensi. DFT dapat diterjemahkan dalam rumus : F(k f) for k = 0, 1, 2,.., N 1 (1) N = jumlah sampel yang diambil T = total waktu sampling t = pertambahan waktu antar sampel = frekuensi sampel = 2.5.2 Fast Fourier Transform (FFT) Fast Fourier Transform merupakan DFT dengan algoritma yang lebih optimal, sehingga menghasilkan perhitungan yang lebih cepat. Dengan DFT, memerlukan waktu O(n2) untuk mengolah sampel data sebanyak n buah. Hal ini tentunya akan memakan waktu lama bila sampel data makin banyak (Stefanus, Hamz, M. & Angzas, Y., 2005). Metode FFT dapat dilakukan dalam domain waktu dan frekuensi, yang disebut sebagai desimasi dalam waktu (decimation-in-time) dan desimasi-dalam-frekuensi (decimation-in-frequency) (Gunawan, D., Juwono, F.H., 2012). Pada prinsipnya algoritma ini adalah memecah N-titik menjadi dua (N/2) titik, kemudian memecah tiap (N/2) titik menjadi dua (N/4) titik, begitu seterusnya sampai hanya terdapat 1 titik. Prinsip tersebut dapat kita lihat lebih jelas pada gambar 2.2 berikut (Gunawan, D., Juwono, F.H., 2012).

14 Gambar 2.2 Desimasi untuk 16 titik Sedangkan untuk konsep FFT sendiri secara keseluruhan dapat kita lihat pada gambar 2.3 berikut (Gunawan, D., Juwono, F.H., 2012). Gambar 2.3 Konsep FFT Dikarenakan FFT masih bagian dari perhitungan DFT, maka akan lebih baik menghitung FFT dengan mempertimbangkan nilai N DFT terlebih dahulu (Yang, T., 2012).

15 X(k) = k = 0, 1, 2 N-1 (2) Pisahkan x(n) menjadi dua bagian : x(ganjil) dan x (genap) = x(2m), dimana m=0, 1,2,,N/2-1. Lalu nilai N DFT juga dibagi dua bagian untuk tiap nilai N/2 : X(k) = = + = + (3) Dimana m = 0, 1, 2,., N/2-1 Karena : = cos( ) + j sin( ) (4) = cos[ ] + j. sin[ = -cos( ) j.sin( ) = -[cos( ) + j.sin( )] = - (5) Maka : = - (6) Jadi ketika faktor diubah dengan setengah periode, nilai dari faktor tersebut tidak akan berubah, tetapi tanda nilai faktor tersebut akan menjadi sebaliknya. Hal ini merupakan sifat simetri dari faktor. Karena factor bisa juga ditulis sebagai =, maka : ( ) = - (7) Dan ( 2 = - = (8) Maka nilai N DFT akhirnya menjadi :

16 X(k) = (9) k = 0,1.N/2 X(k + N/2) = - (10) k = 0, 1, 2..N/2 Jadi nilai N DFT dipisah menjadi dua nilai N/2 DFT. Dari persamaan (9), (k) memiliki (N/2) * (N/2) = (N/2) 2. memiliki N/2 + (N/2) 2. Maka jumlah total dari perhitungan untuk X(k) adalah 2(N/2) 2 + N/2=N 2 /2+N/2. Untuk nilai awal N DFT, dimulai dari N 2. Maka pada langkah pertama, pisahkan x(n) menjadi dua bagian yang membuat perhitungan dari N 2 menjadi N 2 /2+N/2. Jumlah angka perkalian dikurangi setengah secara berkala. Berikut adalah proses pengurangan perkalian dari nilai N menjadi N/2. Lanjutkan pemisahan (m) dan (m) menjadi bagian ganjil dan genap dengan cara yang sama, perhitungan untuk N/2 akan dikurangi menjadi N/4. Kemudian perhitungan DFT akan berkurang secara terus menerus. Jadi jika sinyal untuk nilai N DFT terpisah terus menerus sampai sinyal akhir menjadi satu titik. Misalkan ada N=2 v DFT yang perlu dihitung. Maka jumlah pemisahan yang dapat dilakukan adalah v = (N). maka jumlah total perkalian akan dikurangi hingga (N/2) (N). untuk tambahan perhitungan, angka yang akan dikurangi mencapai N (N). Karena perkalian dan penambahan dikurangi, maka kecepatan perhitungan komputasi DFT dapat ditingkatkan. Tujuan utama untuk Radix -2 FFT adalah memisahkan deretan data menjadi ganjil dan genap secara terus menerus sampai mendekati setengah perhitungan. 2.6 Penelitian Terdahulu Pada bagian ini akan dipaparkan mengenai penelitian terdahulu yang berkaitan dengan aplikasi perintah suara. Seperti yang tertera pada tabel 2.1

17 Tabel 2.1 Penelitian Terdahulu No. Peneliti Tahun Judul Penelitian Keterangan 1 Syarif, Daryanto, 2011 Aplikasi Speech et al Application Programming Interface (SAPI) 5.1 Sebagai Perintah untuk Pengoperasian Aplikasi Berbasis Windows 2 Nurcahyono, 2011 Pembuatan Speech Kristalina, et al Recognition dan Database Wicara Untuk Konrol Peralatan Rumah Tangga Jarak Jauh 3 Yang 2012 The Algorithms of Speech Recognition, Memanfaatkan SAPI untuk menjalankan aplikasi berbasis windows Noise, jenis kelamin dan usia user mempengaruhi hasil akhir aplikasi Pengujian algoritma FFT Programming and dalam sistem Simulating in MATLAB speech recognition menggunakan MATLAB