BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Isyarat tutur merupakan isyarat yang diproduksi oleh alat ucap manusia hingga menghasilkan informasi, baik berupa makna dari isyarat tutur yang diucapkan maupun yang menunjukkan identitas penutur. Hal ini menjadi bahan kajian menarik bagi banyak peneliti. Sistem Identifikasi satu kata atau satu vokal yang dituturkan dengan menggunakan algoritme pembelajaran pada mesin pengenalan, belum mampu memberikan pengenalan sempurna layaknya otak manusia. Sebagai contoh, isyarat tutur yang sama dari satu sumber penutur kemudian diulang pada waktu berbeda, sehingga memiliki kecepatan dan waktu pencuplikan yang berbeda akan menjadi masalah pada suatu sistem identifikasi tutur. Hal ini berbeda dengan otak manusia yang mampu mengidentifikasi proses tersebut dengan mudah dan dalam waktu singkat. Sifat alami dari isyarat tutur yang tidak stasioner dan noise yang tidak bisa lepas dari lingkungan isyarat tutur, menjadi masalah lain dalam sistem pengenalan isyarat tutur. Berbagai Algoritme ekstraksi ciri dan pengenalan pola telah dikembangkan untuk memperoleh hasil optimal yang diukur berdasarkan tingkat akurasi pengenalan hingga efisiensi dari segi komputasi. Sistem pengenalan tutur dikatakan handal adalah ketika sistem tersebut mampu mengatasi sifat tidak stasioner dari isyarat tutur dan bisa menyaring kebisingan yang ikut dalam isyarat tutur serta mampu mengatasi perbedaan kecepatan isyarat tutur. Metode Dynamic Time Warping (DTW) merupakan salah satu metode untuk mengatasi perbedaan kecepatan, dan pertama kali diusulkan oleh Saoke dan Chiba [1]. [2],[3],[4],[5],[6]. Metode DTW telah banyak diteliti dan diterapkan dalam pengenalan isyarat tutur, diantaranya pengenalan suara dengan menerapkan ekstraksi ciri Mel Frequency Cepstral Coefficient (MFCC) [2-6]. Penelitian tentang perbandingan 1

metode DTW dan Hidden Markov Models (HMM) dengan ekstraksi ciri menggunakan Mel Frequency Cepstrum Coefficient (MFCC) menyimpulkan bahwa metode HMM lebih unggul diterapkan pada isyarat tidak starsioner dibandingkan metode DTW [7],[8]. Untuk menyamai tingkat akurasi pengenalan pola HMM, filter median menggunakan metode Cepstrum Mean Substraction (CMS),Running Spectral Filtering (RSF), dan Dynamic Range Adjustment (DRA) ditambahkan pada metode DTW[9]. Selanjutnya pengembangan metode DTW untuk peningkatan akurasi pengenalan, dengan penerapan algoritme Shape Averaging (ASA) pada DTW [9]. Kemudian penerapan DTW berbasis DWT untuk mereduksi ukuran isyarat diterapkan oleh peneliti [10]. Upaya untuk meningkatkan kualitas DTW dilakukan dengan menambahkan pembatas jalur slope dan diperoleh peningkatan kecepatan pengenalan dibanding metode tradisional DTW [11]. Proses pelatihan bagian pengenalan DTW ditambahkan untuk mereduksi waktu komputasi dan tetap menjaga tingkat akurasi pada isyarat mengandung derau dilakukan oleh peneliti [12]. Metode dan algoritme pengenalan isyarat tutur menggunakan Discrete Wavelet Transform (DWT) telah dikembangkan oleh beberapa peneliti terdahulu. Metode ekstraksi ciri menghitung nilai entropy minimum dari hasil lokalisasi frekuensi secara adaptif untuk mencari nilai terbaik dari hasil dekomposisi DWT dilakukan oleh peneliti [13]. Sebuah metode DWT diterapkan untuk mengatasi isyarat yang mengandung noise dengan melakukan dekomposisi hingga level 5 pada ekstraksi ciri metode dengan prosedur yang biasa menggunakan Mel Scale filter bank digantikan dengan hasil dari paket wavelet [14]. Penelitian tentang perbandingan Signal-to-Noise Ratio (SNR) metode ekstraksi ciri MFCC dan DWT dengan isyarat yang diberi white Gaussian noise menunjukkan algoritme DWT lebih handal dibandingkan MFCC [15]. Peneliti berikutnya menggunakan metode Mel-Frequency Discrete Wavelet Coefisien (MFDWC). MFDWC diperoleh dengan menerapkan Discrete Wavelet Transform (DWT ) dengan Melscaled log filterbank energies untuk ekstraksi ciri dan memberikan hasil lebih baik dibandingkan metode MFCC tradisional pada isyarat dengan white Gaussian noise [16]. Peneliti berikut yang lain menerapkan ekstraksi ciri yang 2

menggunakan energi frekuensi sub-band, dengan dekomposisi dyadic hingga level 8, metode pengenalan pola menggunakan Gaussian Mixture Models GMM, sehingga diperoleh hasil yang sangat baik pada proses klasifikasi [17] Berdasarkan beberapa hasil penelitian di atas, akurasi pengenalan difokuskan pada pengembangan algoritme DTW, yang menggunakan metode ekstraksi ciri MFCC. Metode DTW tradisional memiliki tingkat akurasi di bawah metode HMM dalam mengatasi sifat isyarat tutur yang tidak stasioner, sehingga dibutuhkan cara yang lain untuk mengoptimalkan metode DTW tradisional tanpa harus mengorbankan efisiensi komputasi yang sudah ada. Sistem pengenalan isyarat tutur tidak hanya bergantung pada metode pengenalan pola saja, namun juga dipengaruhi oleh vektor ciri isyarat. Selain metode MFCC, terdapat metode lain yang tepat untuk mengatasi sifat tidak stasioner dari isyarat tutur yaitu menggunakan metode DWT, namun dalam penerapannya diperlukan langkah yang tepat dalam mengimplementasikan algoritme DWT untuk memperoleh vektor ciri yang optimal. Metode ekstraksi ciri DWT ini, akan menjadi pokok Bahasan dalam penelitian ini. 1.2 Perumusan Masalah Berdasarkan latar belakang masalah yang telah diuraikan sebelumnya maka permasalahan dapat dirumuskan sebagai berikut ; Bagaimana menentukan metode ekstraksi ciri Discret Wavelet Transform (DTW) yang mampu mengoptimalkan hasil pengenalan metode Dynamic Time Warping (DTW) tradisional, serta dapat diterapkan pada isyarat tutur vokal Bahasa Indonesia. 1.3 Keaslian Penelitian Metode pengenalan pola dan ekstraksi ciri mengalami pengembangan yang bertujuan untuk mengoptimalkan hasil pengenalan. Beberapa penelitian tentang sistem pengenalan isyarat tutur telah dilakukan pada Tabel 1.1. 3

Referensi Tabel 1. 1 Beberapa penelitian pengenalan isyarat tutur Metode Ekstraksi Ciri Metode Pengenalan Materi Penelitian % Akurasi Pengenalan dan analisis [3] MFCC DTW 50 kata angka digit dalam Bahasa Inggris dari 0 hingga 9 dari beberapa penutur [5] MFCC +Δ+Δ 2 DTW Pengenalan 5 kata singkat dari 1 perempuan dan 1 lakilaki [6] MFCC DTW Menggunakan kata-kata perintah arah dalam Bahasa Inggris HMM, DTW Perbandingan hasil [7] MFCC +Δ+Δ 2 pengenalan metode DTW dan HMM angka 0 hingga 9 dalam Bahasa Inggris berjumlah 500, dari 16 penutur berbeda. [8] MFCC DTW, HMM, Pengenalan angka perpaduan dalam Bahasa Malay DTW dan HMM [10] MFCC DTW berbasis DWT (Coiflet dan Symlet), dekomposisi DWT untuk mereduksi panjang isyarat [12] MFCC, panjang koefisien 38 [18] MFCC konvensional dengan panjang 38 [19] DWT symlet 7 level 2+RASTA +LPC DTW, dan ditambahkan bagian pelatihan DTW DTW ditambahkan DRA,RSF dan CMS Perbandingan nilai coefisien dari perhitungan sistem statistik nilai; mean, standar deviasi, variance, nilai absolut deviasi Pengenalan Vokal dalam Bahasa Inggris Pengenalan 100 kata Bahasa Jepang yang ditambahkan white noise 20 db Pengenalan 100 kata Bahasa Jepang terisolasi + white nosie 20 db. Menggunakan kombinasi metode RSF/DRA (20 db) CMS/DRA (20 db) Pengenalan pembicara yang berjumlah 5 orang Sangat efektif untuk pengenalan kata dengan jumlah terbatas. Sangat efektif untuk pengenalan kata dengan jumlah terbatas. Hasil pengenalan yang sangat tinggi HMM : 94% DTW : 86 % DTW: 80,5 % HMM: 90,7% Perpaduan HMM dan DTW : 94 % Hasil pengenalan memburuk jika panjang isyarat kurang dari 32 pada level dekomposisi 6 Hasil pengenalan dapat ditingkatkan dan waktu komputasi dapat direduksi hingga 86% RSF/DRA (20 db) =92.76% CMS/DRA (20 db)= 93.58% Persentase rata-rata pengenalan =78,75 % Penelitian menggunakan metode pengenalan pola DTW telah dilakukan 4

dan algoritme yang lain ditambahkan untuk meningkatkan kinerja, menjaga tingkat akurasi dan waktu komputasi. Penerapan metode pengenalan yang lain seperti HMM juga dilakukan untuk mengukur kinerja metode DTW sebagai pembanding hasil pengenalan. Berdasarkan uraian pada bagian 1.1 dan rangkuman beberapa peneliti pada Tabel 1.1 disimpulkan sebagian besar penelitian menggunakan ekstraksi ciri MFCC [1-13]. Penerapan ekstraksi ciri selain MFCC seperti algoritme DWT juga telah digunakan untuk dibandingkan dengan menggunakan metode pengenalan pola DTW. Hasil kinerja pengenalan yang diperoleh lebih baik saat menggunakan ekstraksi ciri DWT. Isyarat tutur yang menjadi bahan dalam penelitian yang sudah ada, sebahgian besar menggunakan bahasa setempat dari para peneliti tersebut [14-18]. Kajian yang diusulkan dalam penelitian ini adalah ekstraksi ciri tutur vokal Bahasa Indonesia menggunakan metode DWT. Pemilihan metode DWT yang tepat diharapkan dapat mengoptimalkan hasil pengenalan metode DTW tradisional. Metode DTW tradisional sebagai pengenalan pola dapat diterapkan tanpa perlu proses pelatihan sehingga sangat efektif dan merupakan algoritme yang sederhana sehingga tidak memerlukan proses komputasi yang kompleks. Ekstraksi ciri menggunakan metode DWT telah banyak diterapkan oleh peneliti sebelumnya, namun yang membedakan dengan peneliti terdahulu adalah metode pencarian karakteristik vektor ciri dan bahan penelitian menggunakan isyarat tutur vokal Bahasa Indonesia. Algoritme wavelet Deubechies orde 2 dan orde 10 diterapkan dalam metode DWT. Proses ekstraksi ciri dilakukan menggunakan tiga metode, metode pertama (dyadic DWT level 8) mengikuti langkah prosedur pada jurnal yang dirujuk, sementara metode dua (full binary DWT level 3) dan metode tiga (full binary DWT level 5) adalah metode yang diusulkan untuk dibandingkan. Proses penentuan metode ekstraksi ciri yang optimal didasarkan hasil pengukuran menggunakan algoritme Dynamic Time Warping (DTW). 5

1.4 Tujuan Penelitian Penelitian ini bertujuan : 1. menentukan metode ekstraksi ciri DWT yang dapat diterapkan pada isyarat tutur vokal Bahasa Indonesia. 2. menentukan orde mother wavelet Daubechies untuk ekstraksi ciri DWT berdasarkan hasil pengenalan metode DTW 3. menentukan metode ekstraksi ciri DWT yang optimal berdasarkan hasil pengukuran algoritme DWT. 1.5 Manfaat Penelitian Hasil penelitian ini diharapkan dapat memberikan manfaat yang besar bagi pengembangan ilmu pengetahuan, serta dapat digunakan sebagai acuan untuk penelitian lebih lanjut dibidang pengenalan isyarat tutur. 6