PENDAHULUAN. Latar Belakang

dokumen-dokumen yang mirip
SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM DENGAN PROBABILISTIC NEURAL NETWORK (PNN) SEBAGAI CLASSIFIER AYU GUSTIAWATI FAKULTAS MATEMATIKA DAN ILMU

PENDAHULUAN. Latar Belakang

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

PENDAHULUAN. Latar Belakang

PENERAPAN MEL FREQUENCY CEPSTRUM COEFFICIENTS

PENDAHULUAN. Latar Belakang

TINJAUAN PUSTAKA. Pengenalan Suara

Karakteristik Spesifikasi

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI CHORD GITAR ARVIANI RIZKI

PERBANDINGAN PEMODELAN WAVELET DAN MFCC SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM DENGAN TEKNIK JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER

PENDAHULUAN Tujuan Latar Belakang Ruang Lingkup Manfaat Penelitian TINJAUAN PUSTAKA Nada dan Chord Gitar

vii MODEL FONEM DENGAN PENDEKATAN DISTRIBUSI NORMAL UNTUK PENGENALAN KATA MENGGUNAKAN MFCC SEBAGAI EKSTRAKSI CIRI ADITYA DWI HAPSARI

BAB II LANDASAN TEORI

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN. Latar Belakang

PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG

PERBANDINGAN BERBAGAI METODE UKURAN JARAK UNTUK PENGENALAN FONEM DENGAN MFCC SEBAGAI EKSTRAKSI CIRI YULIANA SURI

Perbandingan Sistem Perhitungan Suara Tepuk Tangan dengan Metode Berbasis Frekuensi dan Metode Berbasis Amplitudo

SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN MENGGUNAKAN MFCC DAN CODEBOOK PUSPITA KARTIKA SARI

PENGEMBANGAN MODEL CODEBOOK UNTUK IDENTIFIKASI CHORD GITAR TONI HARYONO

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT MENGGUNAKAN FUZZY C-MEANS UNTUK IDENTIFIKASI PEMBICARA. Oleh : VICKY ZILVAN G

BAB IV IMPLEMENTASI DAN EVALUASI. 4.1 Spesifikasi Hardware dan Software yang digunakan dalam penelitian

PEMBANGUNAN METODE CODEBOOK UNTUK IDENTIFIKASI CHORD GITAR DENGAN TEKNIK EKSTRAKSI CIRI MFCC ARMEN MARTA

BAB I PENDAHULUAN 1.1 Latar Belakang

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

BAB II LANDASAN TEORI

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

Hubungan 1/1 filter oktaf. =Frekuesi aliran rendah (s/d -3dB), Hz =Frekuesi aliran tinggi (s/d -3dB), Hz

BAB I PENDAHULUAN I.1 Latar Belakang

BAB 2 LANDASAN TEORI. mencakup teori speaker recognition dan program Matlab. dari masalah pattern recognition, yang pada umumnya berguna untuk

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB 2 LANDASAN TEORI

BAB II DASAR TEORI Suara. Suara adalah sinyal atau gelombang yang merambat dengan frekuensi dan

Jaringan Syaraf Tiruan pada Robot

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Sistem Verifikasi Penutur menggunakan Metode Mel Frequensi.

PENDETEKSIAN TINGKAT USIA MUDA, DEWASA DAN TUA MENGGUNAKAN METODE MFCC DAN FUZZY LOGIC BERBASISKAN SPEECH RECOGNITION

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

BAB I PENDAHULUAN. manusia satu dengan manusia lainnya berbeda-beda intonasi dan nadanya, maka

PENERAPAN LVQ DENGAN INISIALISASI K-MEANS UNTUK PENGENALAN NADA GITAR DENGAN EKSTRAKSI CIRI MFCC ARIF BUDIARTO

Jurnal Komputer Terapan Vol. 1, No. 2, November 2015, Jurnal Politeknik Caltex Riau

ANALISIS DAN PERANCANGAN PROGRAM APLIKASI. mahasiswa Binus University secara umum. Dan mampu membantu

SISTEM PENGENALAN PENUTUR DENGAN METODE MEL-FREQUENCY WRAPPING DAN KUANTISASI VEKTOR

PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN RESILIENT BACKPROPAGATION UNTUK IDENTIFIKASI CHORD GITAR YOSI NURHAYATI

PENGENALAN CHORD PADA GITAR DENGAN MFCC SEBAGAI METODE EKSTRAKSI CIRI DAN JARINGAN SARAF TIRUAN SEBAGAI METODE PENGENALAN POLA FAUZI SISWOYO

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENGENALAN SUARA BERDASARKAN USIA DAN JENIS KELAMIN MENGGUNAKAN ALGORITME SUPPORT VECTOR MACHINE (SVM) IKRA DEWANTARA

IDENTIFIKASI KEBERADAAN TIKUS BERDASARKAN SUARANYA MENGGUNAKAN SMS GATEWAY

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK ADE FRUANDTA

PENGEMBANGAN MODEL MARKOV TERSEMBUNYI UNTUK IDENTIFIKASI PEMBICARA. Oleh : WINI PURNAMASARI G

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

PENERAPAN LEARNING VECTOR QUANTIZATION

KONSEP DAN TERMINOLOGI ==Terminologi==

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA

BAB IV HASIL DAN PEMBAHASAN. dicolokan ke komputer, hal ini untuk menghindari noise yang biasanya muncul

ADLN - PERPUSTAKAAN UNIVERSITAS AIRLANGGA BAB I PENDAHULUAN

SIMULASI REDUKSI DERAU SINYAL SUARA PADA GEDUNG KEBUN RAYA PURWODADI PASURUAN DENGAN METODE DWT

BAB I PENDAHULUAN. 1.1 Latar Belakang

APLIKASI SPEECH RECOGNITION BAHASA INDONESIA DENGAN METODE MEL-FREQUENCY CEPSTRAL COEFFICIENT

PERBANDINGAN METODE HIDDEN MARKOV MODEL DAN VECTOR QUANTIZATION UNTUK APLIKASI IDENTIFIKASI SUARA

DAFTAR ISI. Halaman LEMBAR PENGESAHAN SURAT PERNYATAAN ABSTRAK... i ABSTRACT... ii KATA PENGANTAR...iii DAFTAR ISI... v DAFTAR GAMBAR...

SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

PERBANDINGAN WAVELET DAUBECHIES DAN MFCC SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM BERDASARKAN DISTRIBUSI NORMAL NI WAYAN SUDARMI

BAB 2 LANDASAN TEORI

Identifikasi Pembicara Menggunakan Algoritme VFI5 dengan MFCC sebagai Pengekstraksi Ciri

BAB 2 TINJAUAN PUSTAKA

MODUL II : SPEECH AND AUDIO PROCESSING

Penerapan Metode Mel Frequency Ceptral Coefficient dan Learning Vector Quantization untuk Text-Dependent Speaker Identification

KOMUNIKASI DATA SUSMINI INDRIANI LESTARININGATI, M.T

BAB 2 LANDASAN TEORI

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN:

BABI PENDAHULUAN. Pada dunia elektronika dibutuhkan berbagai macam alat ukur dan analisa.

Perintah Menggunakan Sinyal Suara dengan Mel- Frequency Cepstrum Coefficients dan Learning Vector Quantization

BAB II PENCUPLIKAN DAN KUANTISASI

Available online at TRANSMISI Website TRANSMISI, 13 (3), 2011,

Bab 2 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

Digital Signal Processing To Identify chords Singer Using Mel Frequency Cepstral Coefficients (MFCC) and Neural Network Backpropagation Methods

BAB 1 PENDAHULUAN. berkembang pesat pada akhir-akhir ini mengingat perkembangan teknologi yang

Bab 3. Perancangan Sistem

Bab II Teori Dasar. Gambar 2.1 Diagram blok sistem akuisisi data berbasis komputer [2]

BAB I PENDAHULUAN. 1 Universitas Kristen Maranatha

2.4. Vector Quantization Kebisingan BAB III METODOLOGI PENELITIAN Desain Penelitian Requirements Definition...

PENDETEKSIAN KATA DENGAN MFCC SEBAGAI EKSTRAKSI CIRI DAN CODEBOOK SEBAGAI PENGENALAN POLA MOHAMMAD LUTHFI SYAFRUL

BAB 2 LANDASAN TEORI

IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE RECOGNITION

Rancang Bangun Aplikasi Pendeteksi Suara Tangisan Bayi

1. BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 3 PERANCANGAN SISTEM. yang akan menjalankan perintah-perintah yang dikenali. Sistem ini dibuat untuk

Verifikasi Biometrika Suara Menggunakan Metode MFCC Dan DTW

Analisa Suara Jantung Normal Menggunakan Discrete Wavelet Transform (DWT) dan Fast Fourier Transform (FFT)

Pemampatan Citra Warna Menggunakan 31 Fungsi Gelombang-Singkat

Transkripsi:

Latar Belakang PENDAHULUAN Perkembangan penelitian di dunia telekomunikasi sangat pesat beberapa tahun terakhir ini. Salah satunya adalah penelitian di bidang suara. Suara adalah salah satu cara manusia untuk berinteraksi dengan komputer, dikenal dengan istilah pengenalan kata. Pengenalan kata merupakan bagian dari pengenalan suara yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Kata yang diucapkan terdiri dari fonem-fonem yang menyusun sebuah kata. Teknologi pengenalan suara memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan ditampilkan dalam bentuk tulisan. Berbagai sistem pengenalan suara atau yang dapat disebut juga Automatic Speech Recognition (ASR) telah banyak dikembangkan di berbagai negara dengan berbagai bahasa. Beberapa sistem pengenalan suara yang telah dikembangkan (Ruvinna 28) : Spoken Dialoque System, sistem yang dapat melakukan dialog singkat guna mendapatkan informasi tertentu. Seperti pada seorang customer service, pengguna hanya perlu menjawab ya atau tidak untuk mendapatkan informasi tertentu. Speed Dialing System, sistem yang dapat mengenali sebuah nama atau ID seseorang dan mencarinya dalam buku telepon untuk segera dihubungi. Pengguna tidak perlu mencari nomor telepon seseorang, biasanya dalam telepon selular, untuk dapat menghubungi seseorang, pengguna tidak perlu mencari nomor telepon orang tersebut. Namun cukup dengan menyebutkan nama atau ID orang yang akan dihubungi dan sistem secara otomatis menghubunginya. Speech to Text Translation System, sistem yang secara otomatis mengetikkan kata-kata yang diucapkan pengguna. Oleh karena itu, penulis melakukan penelitian dengan membandingkan metode Wavelet Daubechies dan MFCC sebagai ekstraksi ciri pada pengenalan kata dengan Probabilistic Neural Network (PNN) sebagai pengenalan pola. PNN merupakan salah satu jenis pengenalan pola yang memiliki akurasi cukup tinggi (Suhartono MN 27). Tujuan Penelitian Penelitian ini bertujuan membandingkan metode Wavelet Daubechies dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan PNN untuk mendapatkan informasi tingkat akurasi. Ruang Lingkup Ruang lingkup dari penelitian ini antara lain: 1. Kata yang digunakan terdiri atas sebelas kata yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. 2. Masing-masing kata direkam oleh satu orang pembicara sebanyak 16 kali dalam waktu satu detik, time frame 3 ms, overlap 5%, dan sampling rate 12Hz. 3. Penelitian ini terbatas pada pengenalan fonem tunggal (bukan pengenalan kata atau kalimat). 4. Segmentasi untuk masing-masing fonem dilakukan secara manual. 5. Ekstraksi ciri yang digunakan adalah pemodelan Wavelet Daubechies dan MFCC. 6. Metode yang digunakan pada penelitian ini adalah Probabilistic Neural Network (PNN). 7. Kata yang diucapkan berbahasa Indonesia. Manfaat Manfaat dari penelitian ini antara lain : 1. Menambah pustaka penelitian pengenalan fonem menggunakan metode Wavelet Daubechies dan MFCC dengan Probabilistic Neural Network (PNN). 2. Memberikan informasi tingkat akurasi pengenalan fonem menggunakan metode Wavelet Daubechies dan MFCC dengan Probabilistic Neural Network (PNN). Sinyal TINJAUAN PUSTAKA Menurut Proakis JG & Manolakis DG (27), sinyal adalah suatu besaran fisik yang berubah terhadap variabel waktu, ruang atau variabel independen lainnya. Sinyal Suara Menurut Pelton GE (1993), sinyal suara manusia dibangkitkan dari tekanan udara paruparu yang menyebabkan pita suara bergetar. 1

Efek dari getaran tersebut menyebabkan tekanan udara ke lubang vokal dengan frekuensi getaran yang bervariasi, pada akhirnya melalui bibir dan lubang hidung keluar tekanan gelombang sinyal suara. Menurut Proakis JG & Manolakis DG (27), sinyal suara dihasilkan dengan memaksa udara melewati pita suara. Generasi sinyal biasanya diasosiasikan dengan sebuah sistem yang merespon stimulus. Sistem itu terdiri atas pita suara dan saluran suara, yang disebut juga dengan rongga suara. Stimulus yang berkombinasi dengan sistem tersebut disebut dengan sumber sinyal. Contoh sinyal suara dapat dilihat pada Gambar 1. Gambar 1 Sinyal suara (Proakis JG & Manolakis DG 27) Speech Recognition Speech recognition adalah proses konversi sebuah sinyal akustik, yang berasal dari mikrofon atau telepon, menjadi satu atau sekumpulan kata. Pengenalan suara merupakan masalah besar dan sulit untuk dipecahkan, karena terdapat faktor-faktor tidak tetap yang terkait dengan sebuah sinyal. Beberapa faktor tidak tetap tersebut di antaranya ialah (Zue V, Cole R, & Ward W 27) : Phonetic variabilities, atau yang biasa dikenal sebagai homofon, dimana terdapat dua kata atau lebih yang memiliki penulisan berbeda namun pengucapannya sama, contohnya: bang dengan bank. Acoustic variabilities, yang dapat terjadi karena perbedaan lingkungan tempat berbicara. Within-speaker variabilities, yang dapat terjadi karena kondisi fisik dari pembicara yang dapat disebabkan oleh emosi yang sedang dirasakan. Across-speaker variabilities, hal ini dapat terjadi karena perbedaan logat atau cara pengucapan seseorang. Speech recognition didasarkan pada digitalisasi suatu bentuk gelombang yang sesuai dengan data yang digunakan kemudian diekstraksi dengan menggunakan teknik praproses yang sesuai. Setelah itu data diproses untuk mendapatkan representasi dari sinyal suara (Al-Akaidi 24). Digitalisasi Gelombang Suara Menurut Pelton GE (1993), digitalisasi merupakan proses mengubah sinyal analog menjadi sinyal digital. Sinyal suara yang direkam menggunakan mikrofon akan dikonversi menjadi sinyal analog. Sinyal analog memiliki karakter kontinyu dalam ruang waktu dan amplitudo. Proses digitalisasi terdiri atas dua tahap yaitu sampling dan kuantisasi. Sampling merupakan pengambilan nilai pada setiap jangka waktu tertentu yang akan menghasilkan suatu nilai vektor. Panjang nilai vektor yang dihasilkan tergantung dari panjangnya sinyal suara yang didigitalisasi dan sampling rate yang digunakan. Sampling rate adalah banyaknya nilai yang diambil tiap detik. Sampling rate yang biasanya digunakan pada pengenalan suara yaitu 8Hz 16Hz. Setelah tahap sampling maka proses selanjutnya adalah proses kuantisasi. Kuantisasi merupakan proses menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 27). Hubungan panjang vektor yang dihasilkan, sampling rate dan panjang data suara yang digitalisasi dinyatakan dengan persamaan 1. S = F s x T (1) Keterangan: S = panjang vektor F s = sampling rate yang digunakan (Hertz) T = panjang suara (detik) Noise Noise dari berbagai jenis membuat sebuah pengenalan menjadi lebih sulit. Deteksi pengenalan suara tanpa noise jauh lebih mudah dibandingkan dengan suara yang ditambahkan noise. Penambahan noise sendiri akan mengakibatkan sejumlah tingkat kesalahan dalam pendeteksian (Jurafsky & Martin 27). Ukuran noise dapat dilihat pada persamaan 2. 1 (2) = sinyal asli = sinyal dengan noise ^ 2

White Gaussian Noise White noise didefinisikan sebagai suatu urutan nilai random berkorelasi. White noise adalah wideband dimana semua frekuensi sama. Pembuatan white noise, tidak mempedulikan bagaimana kemungkinan nilainilai amplitudo didistribusikan (Smith 21). Gaussian noise merupakan ide dari white noise yang disebabkan oleh fluktuasi pada sinyal. Gaussian noise adalah white noise dengan distribusi normal (McAndrew 24). White gaussian noise dibutuhkan untuk digital signal processing atau identifikasi sistem dari digital signal processing (Donadio M 1992). Sinyal tanpa noise dan sinyal dengan penambahan white gaussian noise 3dB, 2dB, dan 1dB dapat dilihat pada Gambar 2, Gambar 3, Gambar 4 dan Gambar 5. Gambar 4 White Gaussian Noise 2dB Gambar 2 Tanpa Noise Gambar 3 White Gaussian Noise 3dB Fonem Gambar 4 White Gaussian Noise 1dB Menurut Resmiwati (29), fonem adalah satuan bunyi terkecil yang mampu menunjukkan kontras warna. Fonem dapat dibagi menjadi empat bagian yaitu: 1. Fonem vokal, merupakan bunyi ujaran akibat adanya udara yang keluar dari paruparu tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o. 2. Fonem konsonan, merupakan bunyi ujaran akibat adanya udara yang keluar dari paruparu mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z. 3. Fonem vokal rangkap, merupakan gabungan dua fonem vokal yang menghasilkan bunyi rangkap, yaitu : ai, au, dan ai. 4. Fonem konsonan rangkap, merupakan gabungan dua buah konsonan, yaitu : ny, ng, kh, dan sy. Wave Wave didefinisikan sebagai sebuah fungsi yang bergerak dari waktu atau ruang. Analisis 3

Fourier merupakan analisis wave. Perluasan sinyal atau fungsi wave berdasarkan sinusoids telah terbukti sangat berguna dalam bidang matematika, science, dan teknik mesin khususnya periodik, waktu yang tidak berlainan (time-invariant), atau fenomena ketidakseimbangan (Burrus et al. 1998). Wavelet Wavelet adalah sebuah small wave yang energinya terkonsentrasi dalam waktu untuk analisis transien, ketidakseimbangan atau fenomena yang berubah-ubah terhadap waktu (Burrus et al. 1998). Wavelet ditunjukkan pertama kali sebagai dasar pendekatan baru untuk pemrosesan sinyal dan analisis yang disebut teori multiresolusi. Teori multiresolusi berkaitan dengan analisis dan representasi sinyal atau citra pada lebih dari satu resolusi. Hasil pendekatan teori multiresolusi yakni fitur yang tidak terdeteksi pada suatu resolusi dapat terdeteksi pada resolusi lain (Gonzalez & Woods 22). Secara umum transformasi wavelet kontinyu dituliskan, γ (s,τ) = f(t) ψ s,t (x) dt (3) dimana ψ s,t (x)= ψ (4) dan s,τ disebut dengan parameter skala dan translasi. Menurut Burrus et al. (1998), teori wavelet didasari oleh pembangkitan sejumlah tapis (filter) dengan menggeser dan menskala suatu wavelet berupa tapis pelewat tengah (band-pass filter). Penambahan skala wavelet akan meningkatkan durasi waktu, mengurangi lebar bidang (bandwidth) dan menggeser frekuensi pusat ke nilai frekuensi yang lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi. Menurut McAndrew 24 yang dirujuk pada Oktabroni I N 28, wavelet dapat digunakan untuk mengurangi noise, deteksi tepi, dan kompresi citra. Wavelet Daubechies Wavelet Daubechies secara historis berasal dari sistem Haar. Wavelet Daubechies ini merupakan karya gemilang dari Ingrid Daubechies. h 2 + h 1 2 + h 2 2 + h 3 2 = 1 (5) h h 2 + h 1 h 3 2 = (6) h 3 - h 2 + h 1 h = (7) h 3-1h 2 + 2h 1 3h = (8) Persamaan (4, 5, 6, dan 7) merupakan empat persamaan dengan empat bilangan yang tidak diketahui yaitu h, h 1, h 2, dan h 3. Persamaan tersebut pertama kalinya diperkenalkan dan diselesaikan oleh Ingrid Daubechies, ditunjukkannya bahwa persamaan-persamaan ini mempunyai penyelesaian tunggal. 1 3. 4 / 2 ; (9) 3 3. 4 / 2 ; (1) 3 3. 4 / 2 ; (11) 1 3. 4 / 2 ; (12) Matriks Transformasi ditemukan oleh Ingrid Daubechies yang memungkinkan melalui suatu sinyal dari resolusi 2 j ke resolusi 2 j+1. Untuk menyederhanakannya, matriks ini disebut matriks DAUB. c j = H c j+1 (13) d j = G c j+1 (14) Pada persamaan (13) dan (14) dimana H berkaitan dengan suatu filter low pass dan G berkaitan dengan filter high pass. H dan G disebut filter konjugasi kuadratur. 2 (15) 2 (16) Dari persamaan (15) dan (16), dapat dibentuk suatu matriks transformasi yang mempunyai elemen-elemen h(n) dan g(n). Dapat dihitung dengan persamaan g(n) = (-1) n h((2n-1)-n). Jika N = 2 maka akan diperoleh: g() = ; (17) g(1) = -h(2); (18) g(2) = ; (19) g(3) = -h(); (2) Dengan mengganti variabel-variabel yang bersesuaian, akan diperoleh matriks DAUB4 dengan empat koefisien yang disebut juga matriks transformasi. Matriks transformasi dari Wavelet Daubechies dapat dilihat pada persamaan 2 (Agustini 26). h() h(2) h() h(2) h() h() h(2) h() h() h(2) h() h() (21) 4

Umumnya Wavelet Daubechies ditulis dengan dbn dengan N menunjukkan orde. Daubechies ditopang secara kompak oleh induk wavelet dan fungsi skala dalam interval {,2N-1} dengan N bilangan bulat 1 dan mempunya sifat sebagai berikut (Agustini 26) : 1. Fungsi ψ mempunyai sejumlah tertentu momen nol yaitu, (22) untuk k =, 1, 2,, N-1 2. Supp φ, 2N-1 dan Supp ψ 1-N, N 3. Fungsi konjugasi kuadratur mempunyai bentuk dekomposisi H (filter lowpass) dan G (filter highpass) berhingga yang memungkinkan untuk mengoptimalkan perhitungan koefisien wavelet dengan algoritma dekomposisi dari S. Mallat. Mel-Frequency Cepstrum Coefficients (MFCC) MFCC didasarkan pada variasi yang telah diketahui dari jaringan kritis telinga manusia terhadap frekuensi. Filter dipisahkan secara linear pada frekuensi rendah dan logaritmik pada frekuensi tinggi. Hal ini dilakukan untuk menangkap karakteristik penting dari sinyal suara (Do Mn 1995). Diagram blok MFCC dapat dilihat pada Gambar 6 (Buono 29). Input Suara yg telah melalui praproses frame1 frame 3 frame 5 frame 7... Fast Fourier Transforn (FFT): frame 2 frame 4 frame 6... Frame Blocking WINDOWING Y(t) = X(t) * W(n), <n<n-1 W(n)=.54.46 cos (2πn/(N-1)) Mel Frequency Wrapping: mel (f)=2595 log(1+ f/7) Spektrum Mel : H(k) adalah nilai filter segitiga ke-i Cepstrum Coefficients : Discrete Cosine Transform j=1,2,3,...j ; J=jumlah koefisien ; M=jumlah filter Gambar 6 Diagram Blok MFCC (Buono29) Tahapan MFCC yaitu : 1. Frame blocking Frame blocking merupakan tahapan untuk membagi sinyal suara kedalam frame-frame yang terdiri atas N sample. 2. Windowing Windowing dilakukan dengan cara meminimalisasikan distorsi mengunakan window untuk memperkecil sinyal hingga mendekati nol pada awal dan akhir tiap frame. Jika window didefinisikan sebagai w(n), n N-1, dengan N adalah banyaknya sampel tiap frame. Window yang biasanya digunakan adalah window hamming karena kesederhanaan formulanya yang dapat dilihat pada persamaan 23 dan persamaan 243. Y 1 (n) = x 1 (n)w(n), n N-1 (23) w(n)=.54.46 cos (2πn/N-1) (24) 3. Fast Fourier Transform (FFT) Tahapan ini bertujuan untuk mengonversi tiap frame dengan N sample dari time domain menjadi frekuency domain. FFT merupakan algoritme yang mengimplementasikan Discrete Fourier Transfom (DFT) yang didefinisikan pada persamaan 25. / (25) dengan k=,1,2,,n-1 4. Mel Frequency Wrapping Persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linear. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz), tinggi subjektifnya diukur dengan skala mel. Skala melfrequency adalah selang frekuensi di bawah 1Hz dan selang logaritmik untuk frekuensi di atas 1Hz. Perhitungan melfrequency dapat dilihat pada persamaan 26 dan 27. mel(f) = 2595 * log 1 (1 + f / 7) (26) (27) i = 1, 2, 3, M H(k) = nilai filter segitiga ke-i 5. Cepstrum Tahapan ini bertujuan untuk mengonversi mel frequency ke domain waktu menggunakan Discrete Cosine Transform 5

)( xp () 212/ hd =π (. 12 nh id =Σ. (DCT) yang dapat dilihat pada persamaan berikut : cos (28) = nilai koefisien C ke j j = jumlah koefisien yang diharapkan = hasil mel-frequency wrapping pada frekuensi i = 1, 2,.n jumlah wrapping M = jumlah filter Probabilistic Neural Network (PNN) Menurut Ganchecv (25), PNN untuk klasifikasi, mapping, dan associative memory diperkenalkan pertama kali oleh Specht tahun 1988. PNN diformulasikan ke dalam fourlayer neural network yang sudah terlatih. Secara umum PNN dapat dituliskan,. k = fungsi kernel, dimana e = 2,17 h = parameter (29) k = (3) Struktur PNN terdiri atas empat layer, dapat dilihat pada Gambar 7. Gambar 7 Struktur PNN (Ganchev 25) 1. Input layer, berfungsi sebagai input data pada PNN. 2. Pattern layer, berfungsi menghitung jarak antara nilai input data suara dengan nilai pola dari tiap anggota kelas. Nilai hasil pattern layer dapat ditunjukkan pada persamaan berikut : (31) Keterangan: d x i x ij h j i j n = banyaknya data pada pattern layer = input data uji ke-j = pattern ke-i data ke-j = smoothing parameter (α x simpangan baku ke-j x n 1/5 ) = 1, 2 sampai n = i, 2 sampai = banyaknya pattern pada satu kelas 3. Summation Layer, menghasilkan peluang untuk satu kelas yang didapat dari penjumlahan pattern layer. Hasilnya dibagi dengan (2π) d/2 h i h 2...h d n. Nilai h i h 2...h d n adalah nilai smoothing dari kelas tersebut. Persamaan untuk menghitung peluang tersebut adalah : Keterangan: h i h 2...h d n = nilai smoothing dari kelas (f i (x)) = pattern layer (32) 4. Decision Layer (Output Layer), membandingkan hasil peluang pada setiap kelas kemudian input data dimasukkan dalam kelas yang memiliki nilai peluang terbesar. METODOLOGI PENELITIAN Kerangka Pemikiran Penelitian ini dilakukan dengan pengambilan sebelas kata. Masing-masing kata direkam sebanyak 16 kali dari satu orang pembicara. Kemudian, dilakukan proses penghapusan silent. Selanjutnya, data suara tersebut diolah dengan Wavelet Daubechies dan MFCC sebagai ekstraksi cirinya. Data yang sudah diolah dibagi menjadi dua kelompok yaitu, data latih dan data uji. Kemudian, data latih dimodelkan dengan menggunakan PNN. Adapun langkah-langkah dalam proses pengenalan kata ini dapat dilihat pada Gambar 8. Data Suara Data suara yang digunakan pada penelitian ini berjumlah sebelas kata yang berasal dari satu orang pembicara. Masing-masing kata tersebut direkam sebanyak 16 kali dalam waktu satu detik, sampling rate 12Hz, overlap 5% dengan time frame 3 ms. Kata yang diucapkan antara lain coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. 6