MODUL II : SPEECH AND AUDIO PROCESSING

dokumen-dokumen yang mirip
MODUL 1 PROSES PEREKAMAN DAN PENGEDITAN SINYAL WICARA

MODUL 2 SINYAL DAN SUARA

Proses Pembentukan dan Karakteristik Sinyal Ucapan

Proses Pembentukan dan Karakteristik Sinyal Ucapan

MODUL 2 PENGHITUNGAN ENERGI PADA SINYAL WICARA

MODUL 2 PENGHITUNGAN ENERGI PADA SINYAL WICARA

LAPORAN PRAKTIKUM DSP

BAB I PENDAHULUAN 1.1 Latar Belakang Suara adalah merupakan gabungan berbagai sinyal, tetapi suara murni secara teoritis dapat dijelaskan dengan

Pengantar. Aspek Fisiologis Bahasa. Aspek Fisik Bahasa 13/10/2014. Pengantar Linguistik Umum 01 Oktober Aspek Fisiologis Bahasa

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

PENGOLAHAN SUARA. : Fadlisyah Bustami M. Ikhwanus. Edisi Pertama Cetakan Pertama, 2013

BAB IV HASIL DAN PEMBAHASAN. dicolokan ke komputer, hal ini untuk menghindari noise yang biasanya muncul

FAKULTAS TEKNIK UNIVERSITAS NEGERI YOGYAKARTA LAB SHEET PRAKTIK MEDIA DIGITAL

PENDAHULUAN. Latar Belakang

BAB III ANALISA DAN PEMBAHASAN MASALAH

ANALISIS MODEL PROSODI UNTUK KALIMAT TANYA PADA BAHASA INDONESIA Desi Novianti ABSTRAK

Sistem Multimedia. Materi : Audio/Suara

BAB II LANDASAN TEORI

FAKULTAS TEKNIK UNIVERSITAS NEGERI YOGYAKARTA LAB SHEET PRAKTIK MEDIA DIGITAL

BAB II DASAR TEORI Suara. Suara adalah sinyal atau gelombang yang merambat dengan frekuensi dan

BAB III METODE PENELITIAN

AUDIO DIGITAL. Kualitas Audio Digital. Kualitas Audio ditentukan oleh Sample rate dan Bit Rate. Sample Rate

yaitu dalam ketepatan pengenalan pola berdasarkan kelas untuk menampilkan genre.

BAB IV IMPLEMENTASI DAN EVALUASI. 4.1 Spesifikasi Hardware dan Software yang digunakan dalam penelitian

1. Pendahuluan Latar Belakang

Perbandingan Estimasi Selubung Spektral dari Bunyi Voiced Menggunakan Metoda Auto-Regressive (AR) dengan Weighted-Least-Square (WLS) ABSTRAK

Fungsi wavrecord. Praktikum Pengenalan Bahasa Alami Pertemuan Pertama: Pengenalan Fungsi Dasar Pemrosesan Suara di Matlab

Jony Sitepu/ ABSTRAK

Bab 3. Transmisi Data

Identifikasi Suara Vokal Suku Banjar Berdasarkan Frekuensi Formant

SISTEM KEAMANAN BERBASIS SUARA

RANCANGAN APLIKASI BIOMETRIK BERDASARKAN FACIAL EMG

MODUL I : INSTALASI DAN KONFIGURASI S/W DAN H/W MULTIMEDIA

CEG4B3. Randy E. Saputra, ST. MT.

MENGOLAH SUARA DENGAN SOUND FORGE

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

BAB I PENDAHULUAN ! <!!!!!

KOMUNIKASI DATA SUSMINI INDRIANI LESTARININGATI, M.T

TUTORIAL arista media Com

KOMPRESI SINYAL SUARA DENGAN MENGGUNAKAN STANDAR MPEG-4

Jaringan Komputer. Transmisi Data

FREKUENSI FORMAN SEBAGAI MODEL AKUSTIK TABUNG SEDERHANA DARI VOCAL TRACT

Teknik Sistem Komunikasi 1 BAB I PENDAHULUAN

Teknologi Multimedia. Suara dan Audio

BAB I PENDAHULUAN. A. Latar Belakang Masalah. lingkungan pembicara dan pendengar (Finn, 2003). Cameron dan Widmer (2008)

PEMISAHAN SINYAL SUARA MENGGUNAKAN METODE BLIND SOURCE SEPARATION ABSTRAK

1.1 Latar Belakang Masalah

MODUL 2 EDITING AUDIO

Data and Computer BAB 3

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III METODE PENELITIAN. Pemotong an Suara. Convert. .mp3 to.wav Audacity. Audacity. Gambar 3.1 Blok Diagram Penelitian

BAB I PENDAHULUAN. 1.1 Latar Belakang

Aplikasi Sound dan Audio

PENGUKURAN BUNYI DENGAN MEMANFAATKAN ZELSCOPE DALAM PEMBELAJARAN

BAB III METODE PENELITIAN

Percobaan 1. Pengenalan IVR (Interactive Voice Response) dan Sample Program

PENGENALAN VOICED DAN UNVOICED DENGAN ANALISIS PITCH

ADLN - PERPUSTAKAAN UNIVERSITAS AIRLANGGA BAB I PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Suara merupakan salah satu media komunikasi yang paling sering dan

DAFTAR ISI. ABSTRACT ii KATA PENGANTAR iii DAFTAR ISI...iv DAFTAR GAMBAR.vii DAFTAR TABEL...ix DAFTAR SINGKATAN...x

BAB 3 PERANCANGAN SISTEM. untuk pengguna interface, membutuhkan perangkat keras dan perangkat lunak.

PAMUJI WASKITO RAHARJO

BAB I PENDAHULUAN. pernah tepat, dan sedikitnya semacam noise terdapat pada data pengukuran.

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Spektrum dan Domain Sinyal

BAB 3 METODOLOGI PEMECAHAN MASALAH DAN PERANCANGAN

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model

PEMBUATAN VIDEO TUTORIAL DENGAN CAMTASIA 7/8.4

Suara bisa dibuat database engine untuk pengenalan kata. Dengan aplikasi ini, dapat secara otomatis melakukan transkripsi suara, sehingga dapat mengur

Menjabarkan format audio digital

LAMPIRAN PEDOMAN PENGGUNAAN ALAT

BAB IV HASIL DAN PEMBAHASAN. database dan database query, secara keseluruhan menggunakan cara yang sama.

ANALISA KARAKTERISTIK SPEKTRUM SUARA ANAK PAUD MENGGUNAKAN SOFTWARE PRAAT. Juli Hartanti *, Erwin, Riad Syech

PENGENALAN NADA SULING REKORDER MENGGUNAKAN FUNGSI JARAK CHEBYSHEV

BAB IV SIMULASI DAN ANALISA DATA

BAB II SISTEM KOMUNIKASI

RESENSI BUKU. Judul. : Fonetik Akustik: Sebuah Pengantar Telaah Wujud Akustik Bahasa

HASIL DAN PEMBAHASAN Analisis SIRANJAJA Perancangan Modul Pembangunan Content Streaming

PEMODELAN DAN SIMULASI RANGKAIAN ENKODER TEKNIK KOMPRESI SUARA VSELP

SUARA DAN AUDIO SUARA (SOUND)

Menyebutkan prinsip umum sinyal bicara dan musik Mengetahui Distorsi Mengetahui tentang tranmisi informasi Mengetahui tentang kapasitas kanal

Rijal Fadilah. Transmisi Data

FAKULTAS TEKNIK UNIVERSITAS NEGERI YOGYAKARTA LAB SHEET PRAKTIK MEDIA DIGITAL

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

PEMBANGKIT UCAPAN MODEL ARTIKULATORI

Atandho Gama M. ( )

Jaringan Syaraf Tiruan pada Robot

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

APLIKASI PENGENALAN UCAPAN SEBAGAI PENGATUR MOBIL DENGAN PENGENDALI JARAK JAUH

Pembuatan Media Pembelajaran Menggunakan Camtasia Studio

KARAKTERISASI PARAMETER AKUSTIK PADA SUARA YANG DIPRODUKSI OLEH PITA SUARA BUATAN

LAPORAN BACA. OLEH: Asep Saepulloh ( ) Hikmat Hamzah Syahwali ( ) Suherlan ( )

Modulasi adalah proses modifikasi sinyal carrier terhadap sinyal input Sinyal informasi (suara, gambar, data), agar dapat dikirim ke tempat lain, siny

Produksi Iklan Audio _ Visual

ANALISIS FREKUENSI DASAR DAN FREKUENSI FORMANT DARI FONEM HURUH HIJAIYAH UNTUK PENGUCAPAN MAKHRAJ DENGAN METODE DTW

MODUL 4 PEMFILTERAN PADA SINYAL WICARA

Dielektrika, ISSN Vol. 2, No. 2 : , Agustus 2015

Transkripsi:

MODUL II : SPEECH AND AUDIO PROCESSING TUJUAN 1. Memahami karakteristik sinyal suara dan audio 2. Mampu melakukan pengolahan terhadap sinyal suara dan audio 3. Mampu menggunakan tool untuk pengolahan sinyal suara dan audio 4. Mengetahui perangkat keras dan perangkat lunak yang diperlukan untuk pengolahan sinyal suara dan audio KONSEP DASAR A. Sinyal Bicara Manusia Dan Produksinya Sinyal bicara atau speech digunakan oleh manusia untuk mengkomunikasikan suatu informasi kepada pendengar melalui perubahan tekanan udara yang dijalarkan dari mulut pembicara sampai ke telinga pendengar. Hal ini dilakukan oleh pembicara dengan cara mengubah informasi atau presepsi yang ada di otaknya, yang akan disampaikan ke pendengar, menjadi gerakan otot-otot produksi sinyal bicara berupa kontraksi dan relaksasi sehingga menghasilkan perubahan tekanan udara linguistik yang dapat diterima oleh sistem pendengaran lawan bicara untuk kemudian diubah kembali melalui serangkaian proses saraf menjadi presepsi tertentu dalam otak si pendengar. Meskipun perubahan tekanan udara itu lebih banyak berasal dari mulut, namun bentuk rongga komponen lain seperti nostril (hidung), throat (tenggorokan) dan cheeks (pipi) juga mempengaruhi sinyal bicara yang dikeluarkan. Anatomi dan Phisiologi Sistem Produksi Sinyal Bicara Bentuk gelombang sinyal suara merupakan gelombang tekanan udara yang berasal dari pergerakan struktur anatomi yang membentuk sistem produksi sinyal bicara manusia. Proses terjadinya sinyal bicara yang keluar dari mulut manusia dapat dijelaskan sebagai berikut. Pertama manusia memikirkan suatu persepsi atau ide yang direpresentasikan secara abstrak didalam otak untuk disampaikan kepada orang lain. Selanjutnya pesanpesan ini diterjemahkan menjadi sinyal-sinyal syaraf yang digunakan untuk mengontrol mekanisme otot produksi sinyal bicara manusia, yaitu pergerakan lidah, bibir, pita suara, untuk melakukan sederetan gerakan yang apabila disertai dengan eksitasi udara dari

paru-paru akan menghasilkan sinyal bicara yang berisi informasi dengan suatu frekuensi tertentu. Gambar organ tubuh pembentuk sinyal bicara dapat dilihat pada gambar 1.1 berikut. Gambar 1.1 Organ pembentuk sinyal bicara pada manusia Sinyal ucapan yang dihasilkan vocal cords (pita suara) akan melewati vocal track (jalur suara) yang terdiri dari lidah, rongga mulut, rongga hidung dan bibir. dan disini akan terjadi sederetan resonansi-resonansi dengan frekuensi resonansi (formant frequency) sesuai dengan bentuk dan luas dari vocal track yang dilewatinya. Selama selang waktu tertentu, vocal track akan mengalami perubahan bentuk dan luas sesuai dengan perubahan sinyal syaraf pengontrolnya. Untuk menghasilkan bunyi ucapan, misalnya fonem, satuan bunyi terkecil dalam suatu bahasa, diperlukan beberapa kali perubahan bentuk vocal track selama selang waktu tertentu dimana frekuensi perubahan vocal track tidak terlalu cepat. Berdasarkan penelitian diketahui bahwa spektrum suara manusia tidak mengalami perubahan yang berarti dalam selang waktu yang cukup singkat, yaitu antara 20-40 milidetik. Hal ini disebabkan karena perubahan bentuk vocal track pada saat mengucapkan suatu ucapan berlangsung secara perlahan dan relatif lambat. Oleh sebab itu dikembangkan metode short-time analysis terhadap sinyal ucapan. Sinyal ucapan dalam suatu frame yang panjangnya antara 20-40 ms dianalisis untuk mendapatkan parameter-parameter pembentuk bunyi ucapan. Karena jumlah

parameter-parameter tidak banyak, dan tidak perlu dikeluarkan terlalu sering (cukup setiap 20 hingga 40 ms), maka sinyal ucapan dapat direpresentasikan dengan sejumlah kecil data (bit rate rendah). Mekanisme Sistem Produksi Sinyal Bicara Dari penjelasan sebelumnya maka produksi sinyal bicara pada organ tubuh manusia dapat dimodelkan sebagai sebuah proses pemfilteran, dimana tekanan udara yang berasal dari paru-paru sebagai sumber eksitasinya dan rongga-rongga di sekitar mulut dan hidung yang bertanggung jawab dalam pembentukan perubahan tekanan udara linguistik atau disebut vocal tract sebagai filternya. Gambar 1.2 : Contoh sinyal bicara tipe voice dan unvoice Sumber eksitasi dapat berupa perubahan tekanan udara yang periodik yang menghasilkan sinyal bicara tipe voice, atau perubahan tekanan udara yang tidak beraturan dan seperti derau (noise like) yang menghasilkan sinyal bicara tipe unvoice. Respon waktu dari sinyal bicara tipe voice dan unvoice dapat dilihat pada gambar 1.2.

Selain itu terdapat jenis eksitasi lain yang merupakan kombinasi dari bentuk sinyal bicara tipe voiced dan unvoiced seperti letupan (plosive), bisikan (whisper) dan tanpa suara (silent). Secara umum proses pembentukan sinyal bicara meliputi tiga subproses, yaitu : 1. Pembentukan sumber eksitasi (sound source), yang terdiri dari eksitasi voiced dan unvoiced. 2. Proses artikulasi oleh vocal tract. 3. Proses radiasi oleh bibir dan atau hidung. Dengan mengetahui mekanisme pembentukan, sifat-sifat dari bentuk gelombang bunyi ucapan, maka dapat dibuat suatu model baik analog maupun digital dari sistem produksi sinyal bicara ini. Representasi Sinyal Ucapan Dalam Bentuk Parameter Representasi sinyal ucapan secara parametrik adalah suatu metode pengkodean sinyal ucapan yang merepresentasikan sinyal ucapan berdasarkan parameterparameter pembentuk bunyi ucapan yang ada pada organ manusia. Beberapa parameter-parameter yang digunakan untuk merepresentasikan sinyal ucapan antara lain sumber eksitasi (periode pitch, voicing state), modulasi (vocal track dan gain). Gambar 1.3 : Model produksi sinyal bicara Untuk dapat merepresentasikan sinyal ucapan dalam bentuk parameter maka terlebih dahulu diketahui mekanisme pembentukan sinyal ucapan, seperti yang telah dijelaskan sebelumnya. Dengan memahami fenomena pembentukan sinyal ucapan

tersebut, maka dibuat suatu model tabung silinder yang lossles dan elastis. Tabung silinder ini dibagi dalam beberapa segmen dengan panjang tertentu dan luas penampangnya yang dapat diubah-ubah seperti terlihat pada gambar 1.3. Dengan analisis matematika yang cukup rumit dan dengan menggunakan beberapa hukum fisika, fungsi transfer model akustik tabung silinder diatas dinyatakan dengan persamaan berikut : (1-1) dimana : : koefisien refleksi pada glottis : koefisien refleksi pada sanbungan silinder ke-k N : jumlah silinder Dari persamaan diatas, fungsi transfer dari model vocal track diatas memiliki kesamaan dengan fungsi transfer filter digital, yang dapat dituliskan sebagai berikut : (1-2) Dengan adanya kesamaan ini, maka model akustik vocal track dapat diganti dengan model filter digital. Pemodelan Sinyal Bicara Digital Seperti telah dijelaskan sebelumnya, proses produksi sinyal bicara manusia dapat dimodelkan sebagai proses pemfilteran. Vocal tract dapat dimodelkan secara optimal dengan menggunakan filter pole-zero, namun dihilangkannya bagian zero pada filter tersebut tidak banyak berpengaruh pada keluaran sinyal bicara keseluruhan, kecuali pada bentuk ucapan yang melibatkan rongga hidung (nasal tract) dalam produksinya, seperti beberapa huruf konsonan. Walaupun ada sedikit pengurangan kualitas dengan dihilangkannya bagian zero pada pemodelan vocal tract ini, namun hal ini dapat memudahkan dalam proses analisis sinyal bicara.

Dari sini, maka suatu sinyal bicara y(n) dalam selang waktu tertentu dapat dimodelkan secara keseluruhan dengan cara melewatkan suatu sinyal pulsa periodik dengan periode Tp pada filter H(z), dengan Tp adalah periode pitch, seperti terlihat pada gambar 1.4. Tp H(z) yˆ ( n) Gain Gambar 1.4 : Model produksi sinyal bicara sederhana untuk kasus voice. Sinyal pulsa periodik di atas disebut juga sebagai sinyal eksitasi, sama halnya dengan perubahan tekanan udara yang periodik pada kasus voice yaitu pada proses produksi sinyal bicara manusia. Sehingga pada kasus unvoice, sinyal eksitasi ini adalah sinyal random yang berupa derau putih, yang juga memodelkan proses produksi sinyal bicara manusia untuk kasus unvoice. LANGKAH PERCOBAAN 1. Pastikan bahwa Perangkat Microphone telah terhubung dengan Kartu Suara Komputer. 2. Jalankan perangkat lunak sound recorder yang ada di komputer, dengan cara menyorot Menu Start Program Accessories Entertainment Sound recorder, seperti gambar berikut : Sehingga diperoleh jendela, seperti gambar berikut :

3. Lakukan seting pada audio properties dengan cara menyorot Menu Edit Audio Properties, sehingga diperoleh seperti jendela berikut : Atur volume dari microphone agar suara yang dihasilkan cukup bagus dan tidak banyak gangguan < Tidak terlalu besar dan tidak terlalu kecil > dengan cara mengklik tombol Volume pada Sound Recording. 4. Lakukan perekaman suara anda, setelah mengklik tombol. Dan klik tombol setelah anda bicara dalam beberapa detik. 5. Simpan hasil perekaman anda dengan cara menyorot menu File Save As. Atur format file suara anda sesuai dengan spesifikasi yang diinginkan. 6. Untuk melakukan perubahan format dapat dilakukan dengan cara mengklik tombol. Sehingga diperoleh jendela seperti berikut :

7. Pilih format dan atribut yang diinginkan, kemudikan klik tombol OK. 8. Putar suara yang telah anda rekam dengan player yang ada. Dan perhatikan dengan baik. 9. Jalankan program Matlab dengan cara menyorot Menu Start Program Matlab seperti gambar berikut : 10. Lakukan pembacaan file *.wav yang anda buat dengan cara mengetikkan perintah berikut : y = wavread(file) [y, fs, nbits] = wavread(file) [ ] = wavread(file, n) [ ] = wavread(file, [n1, n2]) [y, fs, nbits, opts] = wavread(file)

11. Untuk menampilkan gambar dari sinyal suara yang anda baca dapat dilakukan dengan mengetikkan perintah sebagai berikut : [y, fs] = wavread( singapore.wav ); subplot(2,1,1), plot((1:length(y))/fs, y); xlabel( Time in seconds ); ylabel( Amplitude ); 12. Untuk memutar file suara yang anda baca dengan Matlab, anda dapat mengetikkan perintah berikut : wavplay(y, fs) wavplay(y, fs, async ): non-blocking call wavplay(y, fs, sync ): blocking call sound(y, fs) soundsc( ): autoscale the sound TUGAS ANALISA 1. Buat file *.wav, dengan format : PCM, Ms ADPCM, GSM 6.10, Ms. G.723.1, ACELP dan atribut : 8 khz, 8 bit Mono, 8 khz, 16 bit Mono, 11,025 khz, 8 bit Mono, 11,025 khz, 16 bit. Berikan analisa terhadap file suara yang anda buat dengan berbagai format diatas. 2. Gambar sinyal speech/audio dalam time domain dan Frequency domain. Berikan analisa terhadap gambar yang dihasilkan. 3. Buat Laporan disertai dengan data-data hasil percobaan dan analisanya.