MODUL II : SPEECH AND AUDIO PROCESSING

MODUL II : SPEECH AND AUDIO PROCESSING TUJUAN 1. Memahami karakteristik sinyal suara dan audio 2. Mampu melakukan pengolahan terhadap sinyal suara dan audio 3. Mampu menggunakan tool untuk pengolahan sinyal suara dan audio 4. Mengetahui perangkat keras dan perangkat lunak yang diperlukan untuk pengolahan sinyal suara dan audio KONSEP DASAR A. Sinyal Bicara Manusia Dan Produksinya Sinyal bicara atau speech digunakan oleh manusia untuk mengkomunikasikan suatu informasi kepada pendengar melalui perubahan tekanan udara yang dijalarkan dari mulut pembicara sampai ke telinga pendengar. Hal ini dilakukan oleh pembicara dengan cara mengubah informasi atau presepsi yang ada di otaknya, yang akan disampaikan ke pendengar, menjadi gerakan otot-otot produksi sinyal bicara berupa kontraksi dan relaksasi sehingga menghasilkan perubahan tekanan udara linguistik yang dapat diterima oleh sistem pendengaran lawan bicara untuk kemudian diubah kembali melalui serangkaian proses saraf menjadi presepsi tertentu dalam otak si pendengar. Meskipun perubahan tekanan udara itu lebih banyak berasal dari mulut, namun bentuk rongga komponen lain seperti nostril (hidung), throat (tenggorokan) dan cheeks (pipi) juga mempengaruhi sinyal bicara yang dikeluarkan. Anatomi dan Phisiologi Sistem Produksi Sinyal Bicara Bentuk gelombang sinyal suara merupakan gelombang tekanan udara yang berasal dari pergerakan struktur anatomi yang membentuk sistem produksi sinyal bicara manusia. Proses terjadinya sinyal bicara yang keluar dari mulut manusia dapat dijelaskan sebagai berikut. Pertama manusia memikirkan suatu persepsi atau ide yang direpresentasikan secara abstrak didalam otak untuk disampaikan kepada orang lain. Selanjutnya pesanpesan ini diterjemahkan menjadi sinyal-sinyal syaraf yang digunakan untuk mengontrol mekanisme otot produksi sinyal bicara manusia, yaitu pergerakan lidah, bibir, pita suara, untuk melakukan sederetan gerakan yang apabila disertai dengan eksitasi udara dari

paru-paru akan menghasilkan sinyal bicara yang berisi informasi dengan suatu frekuensi tertentu. Gambar organ tubuh pembentuk sinyal bicara dapat dilihat pada gambar 1.1 berikut. Gambar 1.1 Organ pembentuk sinyal bicara pada manusia Sinyal ucapan yang dihasilkan vocal cords (pita suara) akan melewati vocal track (jalur suara) yang terdiri dari lidah, rongga mulut, rongga hidung dan bibir. dan disini akan terjadi sederetan resonansi-resonansi dengan frekuensi resonansi (formant frequency) sesuai dengan bentuk dan luas dari vocal track yang dilewatinya. Selama selang waktu tertentu, vocal track akan mengalami perubahan bentuk dan luas sesuai dengan perubahan sinyal syaraf pengontrolnya. Untuk menghasilkan bunyi ucapan, misalnya fonem, satuan bunyi terkecil dalam suatu bahasa, diperlukan beberapa kali perubahan bentuk vocal track selama selang waktu tertentu dimana frekuensi perubahan vocal track tidak terlalu cepat. Berdasarkan penelitian diketahui bahwa spektrum suara manusia tidak mengalami perubahan yang berarti dalam selang waktu yang cukup singkat, yaitu antara 20-40 milidetik. Hal ini disebabkan karena perubahan bentuk vocal track pada saat mengucapkan suatu ucapan berlangsung secara perlahan dan relatif lambat. Oleh sebab itu dikembangkan metode short-time analysis terhadap sinyal ucapan. Sinyal ucapan dalam suatu frame yang panjangnya antara 20-40 ms dianalisis untuk mendapatkan parameter-parameter pembentuk bunyi ucapan. Karena jumlah

parameter-parameter tidak banyak, dan tidak perlu dikeluarkan terlalu sering (cukup setiap 20 hingga 40 ms), maka sinyal ucapan dapat direpresentasikan dengan sejumlah kecil data (bit rate rendah). Mekanisme Sistem Produksi Sinyal Bicara Dari penjelasan sebelumnya maka produksi sinyal bicara pada organ tubuh manusia dapat dimodelkan sebagai sebuah proses pemfilteran, dimana tekanan udara yang berasal dari paru-paru sebagai sumber eksitasinya dan rongga-rongga di sekitar mulut dan hidung yang bertanggung jawab dalam pembentukan perubahan tekanan udara linguistik atau disebut vocal tract sebagai filternya. Gambar 1.2 : Contoh sinyal bicara tipe voice dan unvoice Sumber eksitasi dapat berupa perubahan tekanan udara yang periodik yang menghasilkan sinyal bicara tipe voice, atau perubahan tekanan udara yang tidak beraturan dan seperti derau (noise like) yang menghasilkan sinyal bicara tipe unvoice. Respon waktu dari sinyal bicara tipe voice dan unvoice dapat dilihat pada gambar 1.2.

Selain itu terdapat jenis eksitasi lain yang merupakan kombinasi dari bentuk sinyal bicara tipe voiced dan unvoiced seperti letupan (plosive), bisikan (whisper) dan tanpa suara (silent). Secara umum proses pembentukan sinyal bicara meliputi tiga subproses, yaitu : 1. Pembentukan sumber eksitasi (sound source), yang terdiri dari eksitasi voiced dan unvoiced. 2. Proses artikulasi oleh vocal tract. 3. Proses radiasi oleh bibir dan atau hidung. Dengan mengetahui mekanisme pembentukan, sifat-sifat dari bentuk gelombang bunyi ucapan, maka dapat dibuat suatu model baik analog maupun digital dari sistem produksi sinyal bicara ini. Representasi Sinyal Ucapan Dalam Bentuk Parameter Representasi sinyal ucapan secara parametrik adalah suatu metode pengkodean sinyal ucapan yang merepresentasikan sinyal ucapan berdasarkan parameterparameter pembentuk bunyi ucapan yang ada pada organ manusia. Beberapa parameter-parameter yang digunakan untuk merepresentasikan sinyal ucapan antara lain sumber eksitasi (periode pitch, voicing state), modulasi (vocal track dan gain). Gambar 1.3 : Model produksi sinyal bicara Untuk dapat merepresentasikan sinyal ucapan dalam bentuk parameter maka terlebih dahulu diketahui mekanisme pembentukan sinyal ucapan, seperti yang telah dijelaskan sebelumnya. Dengan memahami fenomena pembentukan sinyal ucapan

tersebut, maka dibuat suatu model tabung silinder yang lossles dan elastis. Tabung silinder ini dibagi dalam beberapa segmen dengan panjang tertentu dan luas penampangnya yang dapat diubah-ubah seperti terlihat pada gambar 1.3. Dengan analisis matematika yang cukup rumit dan dengan menggunakan beberapa hukum fisika, fungsi transfer model akustik tabung silinder diatas dinyatakan dengan persamaan berikut : (1-1) dimana : : koefisien refleksi pada glottis : koefisien refleksi pada sanbungan silinder ke-k N : jumlah silinder Dari persamaan diatas, fungsi transfer dari model vocal track diatas memiliki kesamaan dengan fungsi transfer filter digital, yang dapat dituliskan sebagai berikut : (1-2) Dengan adanya kesamaan ini, maka model akustik vocal track dapat diganti dengan model filter digital. Pemodelan Sinyal Bicara Digital Seperti telah dijelaskan sebelumnya, proses produksi sinyal bicara manusia dapat dimodelkan sebagai proses pemfilteran. Vocal tract dapat dimodelkan secara optimal dengan menggunakan filter pole-zero, namun dihilangkannya bagian zero pada filter tersebut tidak banyak berpengaruh pada keluaran sinyal bicara keseluruhan, kecuali pada bentuk ucapan yang melibatkan rongga hidung (nasal tract) dalam produksinya, seperti beberapa huruf konsonan. Walaupun ada sedikit pengurangan kualitas dengan dihilangkannya bagian zero pada pemodelan vocal tract ini, namun hal ini dapat memudahkan dalam proses analisis sinyal bicara.

Dari sini, maka suatu sinyal bicara y(n) dalam selang waktu tertentu dapat dimodelkan secara keseluruhan dengan cara melewatkan suatu sinyal pulsa periodik dengan periode Tp pada filter H(z), dengan Tp adalah periode pitch, seperti terlihat pada gambar 1.4. Tp H(z) yˆ ( n) Gain Gambar 1.4 : Model produksi sinyal bicara sederhana untuk kasus voice. Sinyal pulsa periodik di atas disebut juga sebagai sinyal eksitasi, sama halnya dengan perubahan tekanan udara yang periodik pada kasus voice yaitu pada proses produksi sinyal bicara manusia. Sehingga pada kasus unvoice, sinyal eksitasi ini adalah sinyal random yang berupa derau putih, yang juga memodelkan proses produksi sinyal bicara manusia untuk kasus unvoice. LANGKAH PERCOBAAN 1. Pastikan bahwa Perangkat Microphone telah terhubung dengan Kartu Suara Komputer. 2. Jalankan perangkat lunak sound recorder yang ada di komputer, dengan cara menyorot Menu Start Program Accessories Entertainment Sound recorder, seperti gambar berikut : Sehingga diperoleh jendela, seperti gambar berikut :

3. Lakukan seting pada audio properties dengan cara menyorot Menu Edit Audio Properties, sehingga diperoleh seperti jendela berikut : Atur volume dari microphone agar suara yang dihasilkan cukup bagus dan tidak banyak gangguan < Tidak terlalu besar dan tidak terlalu kecil > dengan cara mengklik tombol Volume pada Sound Recording. 4. Lakukan perekaman suara anda, setelah mengklik tombol. Dan klik tombol setelah anda bicara dalam beberapa detik. 5. Simpan hasil perekaman anda dengan cara menyorot menu File Save As. Atur format file suara anda sesuai dengan spesifikasi yang diinginkan. 6. Untuk melakukan perubahan format dapat dilakukan dengan cara mengklik tombol. Sehingga diperoleh jendela seperti berikut :

7. Pilih format dan atribut yang diinginkan, kemudikan klik tombol OK. 8. Putar suara yang telah anda rekam dengan player yang ada. Dan perhatikan dengan baik. 9. Jalankan program Matlab dengan cara menyorot Menu Start Program Matlab seperti gambar berikut : 10. Lakukan pembacaan file *.wav yang anda buat dengan cara mengetikkan perintah berikut : y = wavread(file) [y, fs, nbits] = wavread(file) [ ] = wavread(file, n) [ ] = wavread(file, [n1, n2]) [y, fs, nbits, opts] = wavread(file)

11. Untuk menampilkan gambar dari sinyal suara yang anda baca dapat dilakukan dengan mengetikkan perintah sebagai berikut : [y, fs] = wavread( singapore.wav ); subplot(2,1,1), plot((1:length(y))/fs, y); xlabel( Time in seconds ); ylabel( Amplitude ); 12. Untuk memutar file suara yang anda baca dengan Matlab, anda dapat mengetikkan perintah berikut : wavplay(y, fs) wavplay(y, fs, async ): non-blocking call wavplay(y, fs, sync ): blocking call sound(y, fs) soundsc( ): autoscale the sound TUGAS ANALISA 1. Buat file *.wav, dengan format : PCM, Ms ADPCM, GSM 6.10, Ms. G.723.1, ACELP dan atribut : 8 khz, 8 bit Mono, 8 khz, 16 bit Mono, 11,025 khz, 8 bit Mono, 11,025 khz, 16 bit. Berikan analisa terhadap file suara yang anda buat dengan berbagai format diatas. 2. Gambar sinyal speech/audio dalam time domain dan Frequency domain. Berikan analisa terhadap gambar yang dihasilkan. 3. Buat Laporan disertai dengan data-data hasil percobaan dan analisanya.