Karakterisasi Suara Vokal dan Aplikasinya Dalam Speaker Recognition

dokumen-dokumen yang mirip
Analisa dan Sintesa Bunyi Dawai Pada Gitar Semi-Akustik

SISTEM KEAMANAN BERBASIS SUARA

Analisis Mode Gelombang Suara Dalam Ruang Kotak

BABI PENDAHULUAN. Pada dunia elektronika dibutuhkan berbagai macam alat ukur dan analisa.

Analisis Frekuensi Dan Pola Dasar Frekuensi Gender Laras Slendro

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

PENGENALAN NADA SULING REKORDER MENGGUNAKAN FUNGSI JARAK CHEBYSHEV

BAB I PENDAHULUAN. manusia satu dengan manusia lainnya berbeda-beda intonasi dan nadanya, maka

BAB II DASAR TEORI Suara. Suara adalah sinyal atau gelombang yang merambat dengan frekuensi dan

Detektor Medan Magnet Tiga-Sumbu

BAB III METODOLOGI. dari suara tersebut dapat dilihat, sehingga dapat dibandingkan, ataupun dicocokan dengan

SISTEM GETARAN PAKSA SATU DERAJAT KEBEBASAN

Proses Pembentukan dan Karakteristik Sinyal Ucapan

Spektrum dan Domain Sinyal

BAB IV HASIL DAN PEMBAHASAN

KORELASI PADA TRIAD KUNCI C OLEH GITAR AKUSTIK

Rebab Instrumen Gesek Gamelan: Analisis Hubungan Antara Posisi Gesekan dan Komponen Penyusun Sinyal Suara

BAB IV HASIL DAN PEMBAHASAN. perangkat. Alat dan bahan yang digunakan sebelum pengujian:

BAB I PENDAHULUAN. 1.1 Latar Belakang

Penerapan Perintah Suara Berbahasa Indonesia untuk Mengoperasikan Perintah Dasar di Windows

Diajukan untuk memenuhi salah satu tugas Eksperimen Fisika Dasar 1. Di susun oleh : U. Tini Kurniasih ( ) PEND. FISIKA / B EFD-1 / D

BAB 2 LANDASAN TEORI

ANALISA PENGARUH PENYAKIT FLU DAN BATUK TERHADAP SUARA PENDERITA DENGAN MENGGUNAKAN KOMPUTER

MODUL 1 PROSES PEREKAMAN DAN PENGEDITAN SINYAL WICARA

LAPORAN BACA. OLEH: Asep Saepulloh ( ) Hikmat Hamzah Syahwali ( ) Suherlan ( )

BAB I PENDAHULUAN 1.1 Latar Belakang Suara adalah merupakan gabungan berbagai sinyal, tetapi suara murni secara teoritis dapat dijelaskan dengan

Identifikasi Suara Vokal Suku Banjar Berdasarkan Frekuensi Formant

Hubungan 1/1 filter oktaf. =Frekuesi aliran rendah (s/d -3dB), Hz =Frekuesi aliran tinggi (s/d -3dB), Hz

(2) dengan adalah komponen normal dari suatu kecepatan partikel yang berhubungan langsung dengan tekanan yang diakibatkan oleh suara dengan persamaan

ADLN - PERPUSTAKAAN UNIVERSITAS AIRLANGGA BAB I PENDAHULUAN

MODUL II : SPEECH AND AUDIO PROCESSING

MODUL 5 EKSTRAKSI CIRI SINYAL WICARA

III. METODE PENELITIAN. Penelitian ini akan dilaksanakan pada bulan April 2014 sampai dengan selesai.

1. BAB I PENDAHULUAN 1.1. Latar Belakang

Pengukuran Frekuensi Gender Barung Laras Slendro Menggunakan Perangkat Lunak SpectraPlus

BAB III METODE PENELITIAN

Bab II Teori Dasar. Gambar 2.1 Diagram blok sistem akuisisi data berbasis komputer [2]

PENGOLAHAN SUARA. : Fadlisyah Bustami M. Ikhwanus. Edisi Pertama Cetakan Pertama, 2013

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

Pengantar. Aspek Fisiologis Bahasa. Aspek Fisik Bahasa 13/10/2014. Pengantar Linguistik Umum 01 Oktober Aspek Fisiologis Bahasa

LAPORAN PRAKTIKUM DSP

ANALISA KARAKTERISTIK SPEKTRUM SUARA ANAK PAUD MENGGUNAKAN SOFTWARE PRAAT. Juli Hartanti *, Erwin, Riad Syech

PENDAHULUAN. Latar Belakang

PEMBELAJARAN ANAK BERKEBUTUHAN KHUSUS BERDASARKAN MODEL PENGENALAN SUARA MENGGUNAKAN MATLAB DAN MIKROKONTROLER ATMEGA16

FFT Size dan Resolusi Frekuensi 2012

METODE PENELITIAN. Penelitian ini mulai dilaksanakan pada bulan November 2014 sampai dengan

BAB IV HASIL DAN PEMBAHASAN. dicolokan ke komputer, hal ini untuk menghindari noise yang biasanya muncul

Pemutaran Bidang Getar Gelombang Elektromagnetik

BAB III METODE PENELITIAN. Elekto Medis, Politeknik Kesehatan Surabaya, dan Sekolah Luar Biasa (SLB) Tuna Rungu mulai bulan Januari 2012-Juli 2012.

Desain Sumber Bunyi Titik

1. Pendahuluan Latar Belakang

BAB 2 LANDASAN TEORI

MODUL 3 REPRESENTASI SINYAL DALAM DOMAIN WAKTU DAN DOMAIN FREKUENSI

SPECGRAM & SPECGRAMDEMO

HUBUNGAN ANTARA SPEECH INTELLIGIBIITY SUARA WANITA DAN TINGKAT TEKANAN BUNYI BACKGROUND NOISE

III. METODE PENELITIAN. Penelitian ini telah dilaksanakan di Laboratorium Elektronika Dasar Jurusan

Aplikasi Teknik Speech Recognition pada Voice Dial Telephone

c. Syllable (suku kata), merupakan bagian-bagian dari sebuah kata yang dapat langsung diucapkan, misalnya glass, book, clever.

4. HASIL DAN PEMBAHASAN

III. TEORI DASAR. melalui bagian dalam bumi dan biasa disebut free wave karena dapat menjalar

PERCOBAAN SINTESIS DAN ANALISIS ISYARAT (SIMULASI) (Oleh : Sumarna, Lab-Elins, Jurdik Fisika FMIPA UNY)

BAB I PENDAHULUAN Latar Belakang

Proses Pembentukan dan Karakteristik Sinyal Ucapan

BAB V SIMPULAN DAN SARAN

BAB I PENDAHULUAN 1.1 Latar Belakang

EKSTRAKSI CIRI POLA BUNYI JANTUNG MENGGUNAKAN FFT. Oleh: Bagus Haryadi Program Studi Fisika FMIPA, Universitas Ahmad Dahlan, Yogyakarta

MODUL 2 SINYAL DAN SUARA

BAB 5. PROPERTIS FISIK BUNYI

PERBANDINGAN HASIL EKSPERIMEN SUPERPOSISI GELOMBANG BUNYI BONANG BARUNG SECARA SIMULTAN DAN MIXING BERBANTUAN AUDACITY DAN MATLAB

BAB 1 PENDAHULUAN. berkaitan dengan pemprosesan sinyal suara. Berbeda dengan speech recognition

Sistem Multimedia. Materi : Audio/Suara

Analisis Getaran Struktur Mekanik pada Mesin Berputar untuk Memprediksi Kerusakan Akibat Kondisi Unbalance Sistem Poros Rotor

OPTIMASI RERATA DALAM PROSES KORELASI SILANG UNTUK MENENTUKAN LOKASI RADIO TRANSMITTER

BAB III METODE PENELITIAN. Pemotong an Suara. Convert. .mp3 to.wav Audacity. Audacity. Gambar 3.1 Blok Diagram Penelitian

BAB 2 LANDASAN TEORI. mencakup teori speaker recognition dan program Matlab. dari masalah pattern recognition, yang pada umumnya berguna untuk

KARAKTERISASI PARAMETER AKUSTIK PADA SUARA YANG DIPRODUKSI OLEH PITA SUARA BUATAN

Antiremed Kelas 12 Fisika

SATUAN ACARA PERKULIAHAN

BAB IV Pengujian. Gambar 4.1 Skema pengujian perangkat keras

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Antiremed Kelas 12 Fisika

DATA HASIL PENGUJIAN DAN ANALISIS

LAPORAN APLIKASI DIGITAL SIGNAL PROCESSING EKSTRAKSI CIRI SINYAL WICARA. Disusun Oleh : Inggi Rizki Fatryana ( )

Teknologi Multimedia. Suara dan Audio

BAB III METODE PENELITIAN

s(t) = C (2.39) } (2.42) atau, dengan menempatkan + )(2.44)

PENGUKURAN SPEKTRUM SUARA MANUSIA LANSIA BERDASARKAN JENIS KELAMIN DAN SUKU MENGGUNAKAN SOFTWARE PRAAT

BAB I PENDAHULUAN. kicauan salah satunya adalah burung Anis Merah (zootheracitrina), CucakHijau

Jaringan Syaraf Tiruan pada Robot

KOMUNIKASI DATA SUSMINI INDRIANI LESTARININGATI, M.T

BAB I PENDAHULUAN 1.1 Latar Belakang

Aktifasi Peralatan Elektronik Berbasis Suara Menggunakan Android

APLIKASI PENGENALAN GENDER MENGGUNAKAN SUARA

Journal of Control and Network Systems

PENDAHULUAN. Latar Belakang

2. TINJAUAN PUSTAKA Gelombang Bunyi Perambatan Gelombang dalam Pipa

Transkripsi:

Karakterisasi Suara Vokal dan Aplikasinya Dalam Speaker Recognition Siwi Setyabudi, Agus Purwanto dan Warsono Laboratorium Getaran dan Gelombang, Jurdik Fisika, FMIPA, UNY ABSTRAK Penelitian ini bertujuan untuk mendapatkan karakter bunyi vokal pada aksen Jawa dan kemudian menggunakannya dalam program speaker recognition. Metode penelitian yang digunakan adalah dengan merekam kata buka yang diucapkan dalam aksen Jawa oleh dua orang laki-laki native speaker bahasa Jawa. Hasil rekaman tersebut kemudian dibagi ke dalam potongan-potongan sinyal sepanjang 16 ms. Empat potongan sinyal diambil sebagai sampel untuk masing-masing fonem vokal yaitu /u/ dan /a/ dan ditentukan komponan frekuensi dan rasio amplitudo yang menjadi karakteristik masing-masing fonem dengan DFT. Perekaman kedua dilakukan dan kemudian dibandingkan dengan masing-masing fonem acuan tadi dengan menggunakan fungsi cross-correlation. Hasil penelitian menunjukkan bahwa masing-masing vokal memiliki karakteristik pada puncak-puncak domain frekuensi. Sedangkan cross-correlation untuk suara orang yang sama menghasilkan tingkat kecocokan relatif lebih tinggi dibandingkan dengan suara orang yang berbeda. Kata kunci: vokal, DFT, frekuensi, rasio amplitudo, cross-correlation PENDAHULUAN Bayangkan jika terjadi suatu kasus di mana bukti yang ada hanya sebuah rekaman suara. Namun tidak ada seorangpun yang mengenal suara tersebut. Tapi jika pihak yang berwajib memiliki sebuah alat yang mampu mengenali identitas seseorang dari suara, kasus ini mungkin akan terpecahkan. Tapi bagaimana kita bisa membuat alat yang mampu mengenali identitas seseorang dari suaranya? Suara manusia dihasilkan oleh pita suara yang kemudian diteruskan ke rongga suara yaitu mulut dan rongga hidung. Terutama di rongga mulut suara akan diubah menjadi bunyi-bunyian yang berbeda-beda tergantung dari posisi alat-alat seperti lidah, bibir, dan rahang. Karena bentuk dan ukuran rongga dan alat-alat tersebut berbeda-beda pada tiap orang dan juga perbedaan cara pengucapan suatu bunyi itulah yang menyebabkan karakter suara dari masingmasing orang berbeda-beda. Vokal seperti /a/, /i/, /u/, /e/, dan /o/ merupakan suara manusia yang sesungguhnya karena sebagian besar suara orang yang kita dengar sebenarnya Dipresentasikan dalam SEMINAR NASIONAL MIPA 2007 dengan tema Peningkatan Keprofesionalan Peneliti, Pendidik & Praktisi MIPA yang diselenggarakan oleh Fakultas Matematika dan Ilmu Pengetahuan Alam UNY, Yogyakarta pada tanggal 25 Agustus 2007.

Siwi Setyabudi, Agus Purwanto dan Warsono adalah vokal dan oleh karenanya karakter suara seseorang dapat dilihat dari suara vokalnya. Untuk dapat memperoleh karakter suatu vokal terlebih dahulu sebuah sinyal suara vokal diubah ke dalam domain frekuensi. Sedangkan untuk dapat mengenali suara seseorang, data suara orang tersebut diperlukan sebagai acuan yang kemudian akan diverifikasi dengan suaranya yang lain menggunakan crosscorrelation. Penelitian ini bertujuan untuk mengetahui domain frekuensi masingmasing vokal dan verifikasi suara. Pengetahuan tentang domain frekuensi dapat digunakan lebih lanjut dalam sintesis suara sedangkan verifikasi suara atau speaker recognition dapat digunakan dalam bidang keamanan sebagai tanda identitas seseorang. KAJIAN PUSTAKA Untuk menganalisis suatu sinyal kita dapat melihatnya dari domain waktu maupun domain frekuensi. Salah satu alat yang sangat penting untuk melakukan tugas tersebut adalah transformasi Fourier yang dinyatakan dalam persamaan sebagai berikut F f ( ω ) f ( t ) iωt = e dt 1 i = ω t e dω ( t) F ( ω ) Kedua persamaan tadi merupakan suatu pasangan, maksudnya adalah bahwa persamaan yang satu merupakan transformasi dari persamaan yang lain. Sementara itu untuk membandingkan antara suatu sinyal dengan sinyal lain dapat dinyatakan dalam persamaan cross-correlation berikut ini R xy T ( τ ) = lim x( t) y( t τ ) T 0 + dt di mana x(t) adalah suatu sinyal acuan dan y(t) adalah sinyal lain yang dibandingkan. Namun perhitungan langsung dengan persamaan ini memakan waktu terlalu lama. Oleh karena itu, diperlukan persamaan yang dapat dikerjakan F-202 Seminar Nasional MIPA 2007

Karakterisasi Suara Vokal dengan lebih cepat. Salah satunya adalah dengan transformasi forier sehingga persamaan tersebut menjadi x iω ( t+ τ ) ( t) y( t τ ) dt = x( t) Y ( ω) e 1 + dωdt 1 = Y 1 = X * iω( t ) ( ω) x( t) e dt e i ( ω) Y ( ω) e ωτ dω di mana X*(ω) merupakan kompleks konjugat dari X(ω). Persamaan ini dapat digunakan untuk menentukan tingkat kesamaan atau kemiripan suatu sinyal terhadap sinyal yang lain. iωτ dω METODOLOGI PENELITIAN Penelitian ini dilakukan di Laboratorium Getaran dan Gelombang, Jurdik Fisika, FMIPA UNY dengan menggunakan sampel suara dua orang laki-laki berusia 22 dan 23 tahun dan menggunakan aksen Jawa. Sampel suara direkam ke dalam komputer menggunakan microphone condensor yang dihubungkan dengan ADC (soundcard) dengan software MATLAB 6.5.1. Data yang diambil merupakan potongan vokal /u/ dan /a/ sepanjang 16 ms dari kata buka yang diucapkan dengan nada yang diusahakan sama dan direkam pada sampling rate 12000 Hz. Analisis dan verifikasi suara (speaker recognition) dilakukan dengan menggunakan program pada MATLAB 6.5.1. HASIL DAN PEMBAHASAN Berikut ini adalah gambar potongan sinyal suara vokal /u/ dan /a/ dari kata buka oleh orang pertama dan domain frekuensi serta respon frekuensinya. Domain frekuensi diperoleh dengan program DFT menggunakan MATLAB 6.5.1. Fisika F-203

Siwi Setyabudi, Agus Purwanto dan Warsono Gambar 1. Domain waktu sinyal suara vokal /u/. Domain frekuensi dan respon frekuensi sistem vokal /u/. Gambar 2. Domain waktu sinyal suara vokal /a/. Domain frekuensi dan respon frekuensi sistem vokal /a/. Dari gambar di atas dapat dilihat bahwa puncak-puncak domain frekuensi pada fonem /u/ berada pada sekitar frekuensi 350 Hz dengan intensitas (relatif) 0.5 db pada puncak pertama dan sekitar 1000 Hz dengan intensitas (relatif) -0.1 db pada puncak kedua. Sedangkan frekuensi fundamentalnya adalah 140 Hz dengan intensitas 0.45 db. Secara relatif perbandingan amplitudo puncak pertama terhadap puncak kedua adalah 1 : 0.25. sedangkan pada vokal /a/ puncak pertama pada frekuensi 120 Hz dengan intensitas (relatif) 0.32 db yang juga merupakan frekuensi fundamentalnya. Puncak kedua sekitar 820 Hz dengan intensitas(relatif) 0.60 db yang merupakan frekuensi dengan intensitas tertinggi, puncak ketiga 1650 Hz dengan intensitas (relatif) 0.23 db, puncak keempat 2500 Hz sebesar - 0.23 db, puncak kelima 3800 Hz -0.50 db, dan puncak keenam 4500 Hz -0.75 db. F-204 Seminar Nasional MIPA 2007

Karakterisasi Suara Vokal Secara relatif perbandingan amplitudo puncak-puncak tersebut adalah 0.52 : 1 : 0. 43 : 0.15 : 0.08 : 0.04. Penelitian selanjutnya mengenai speaker recognition dilakukan dengan data acuan yaitu berupa potongan sinyal vokal /u/ dan /a/ dari kata buka oleh orang pertama yang direkam pada tanggal 27 Juli 2007 pukul 13:53 WIB yang telah dianalisis di atas dan orang kedua yang direkam pada tanggal 28 Juli 2007 pukul 23:30 WIB. Pengujian verifikasi identitas pertama dilakukan dengan kata buka oleh orang pertama yang direkam pada tanggal 28 Juli 2007 pukul 15:26. Hasilnya adalah sebagai berikut: Hasil keluaran program speaker recognition: Gmax = 9.5563e-001 To = 1 Identitas = Mr. Siwi (orang pertama) (c) Gambar 3. domain waktu sinyal acuan dan sinyal teruji maksimum. domain frekuensi sinyal acuan dan sinyal teruji maksimum. (c) Cross-Correlation sinyal acuan dan sinyal teruji maksimum. Sedangkan untuk orang kedua diverifikasi juga dengan kata buka yang direkam pada tanggal 28 Juli 2007 pukul 22:51 WIB. Verifikasi tidak dilakukan Fisika F-205

Siwi Setyabudi, Agus Purwanto dan Warsono seara lifetime tetapi terlebih dahulu merekam kata buka sebanyak-banyaknya kemudian memilih secara acak untuk dijadikan sampel. Nilai minimal Gmax tiap pengujian sehingga diterima (dikenali) adalah 0.85. Hasilnya adalah sebagai berikut: Hasil keluaran program speaker recognition: Gmax = 8.8894e-001 To = 4 Identitas = Mr. Nunu (orang kedua) (c) Gambar 4. domain waktu sinyal acuan dan sinyal teruji maksimum. domain frekuensi sinyal acuan dan sinyal teruji maksimum. (c) Cross-Correlation sinyal acuan dan sinyal teruji maksimum. Gmax adalah nilai cross-correlation maksimum dari semua pengujian, To adalah nomor data teruji maksimum. Pada verifikasi identitas pertama Gmax sebesar 9.5563e-001 adalah pada To = 1 yang berarti pada data pertama atau data vokal /u/ oleh orang pertama. Sedangkan nilai cross-correlation yang lain adalah Gm2 = 8.4682e-001, Gm3 = 7.6024e-001, Gm4 = 7.3146e-001. Dari hasil ini dapat dilihat bahwa Gm2 yang merupakan cross-correlation terhadap data kedua atau vokal /a/ orang pertama juga memiliki nilai lebih besar dari Gm3 dan Gm4 yang merupakan cross-correlation terhadap data vokal /u/ dan /a/ orang kedua. F-206 Seminar Nasional MIPA 2007

Karakterisasi Suara Vokal Pada verifikasi identitas kedua Gmax = 8.8894e-001 berada pada To=4 atau terhadap data vokal /a/ orang kedua. Sedangkan hasil cross-correlation lain yaitu Gm1 = 7.6763e-001, Gm2 = 7.8942e-001, Gm3 = 6.0413e-001 tampaknya menunjukkan bahwa pada pengucapan vokal /u/ orang kedua lebih menyerupai orang pertama. Hal ini bisa saja terjadi karena memang pada saat perekaman digunakan kata buka orang pertama sebagai contoh yang harus ditirukan. Namun hasil ini belum melampaui nilai minimum sebesar 0.85 sehingga belum dapat diterima atau dikenali sebagi suara yang sama. KESIMPULAN 1. Setiap vokal memiliki karakteristik yang dapat dilihat dari puncak-puncak domain frekuensi yaitu pada vokal /u/ pada 350 Hz dan 1000 Hz dengan rasio 1 : 0.25 sedangkan pada vokal /a/ pada 120 Hz, 820 Hz, 1650 Hz, 2500 Hz, 3800 Hz, dan 4500 Hz dengan rasioamplitudo 52 : 1: 0. 43 : 0.15 : 0.08 : 0.04. 2. Cross-correlation untuk suara orang yang sama menghasilkan tingkat kecocokan yang lebih relatif tinggi dibandingkan dengan suara orang lain sehingga dapat dimanfaatkan sebagai alat verifikasi identitas atau speaker recognition. DAFTAR PUSTAKA Karris, Steven T. (2003). Signals and Systems with MATLAB Applications, Second Edition.California: Orchard Publications. Fisika F-207