BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang Suara adalah merupakan gabungan berbagai sinyal, tetapi suara murni secara teoritis dapat dijelaskan dengan

ANALISIS DAN PERANCANGAN PROGRAM APLIKASI. mahasiswa Binus University secara umum. Dan mampu membantu

1. BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN I.1 Latar Belakang

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

PERBANDINGAN METODE HIDDEN MARKOV MODEL DAN VECTOR QUANTIZATION UNTUK APLIKASI IDENTIFIKASI SUARA

2.4. Vector Quantization Kebisingan BAB III METODOLOGI PENELITIAN Desain Penelitian Requirements Definition...

PENERAPAN METODE HIDDEN MARKOV MODEL DAN MEL FREQUENCY CEPSTRUM COEFFICIENT DALAM PENGENALAN VOICE COMMAND BERBAHASA INDONESIA KOMPETENSI KOMPUTASI

BAB 1 PENDAHULUAN. berkembang pesat pada akhir-akhir ini mengingat perkembangan teknologi yang

BAB I PENDAHULUAN. manusia satu dengan manusia lainnya berbeda-beda intonasi dan nadanya, maka

PENDAHULUAN. Latar Belakang

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

BAB 1 PENDAHULUAN. Universitas Indonesia

TUGAS AKHIR. Diajukan Sebagai Salah Satu Syarat untuk Menyelesaikan Program Strata I Pada Jurusan Teknik Elektro Fakultas Teknik Universitas Andalas

BAB I PENDAHULUAN. 1.1 Latar Belakang

Sistem Verifikasi Penutur menggunakan Metode Mel Frequensi.

BAB III METODOLOGI PENELITIAN

PERBANDINGAN METODE HIDDEN MARKOV MODEL DAN VECTOR QUANTIZATION UNTUK APLIKASI IDENTIFIKASI SUARA

IDENTIFIKASI KEBERADAAN TIKUS BERDASARKAN SUARANYA MENGGUNAKAN SMS GATEWAY

APLIKASI SPEECH RECOGNITION BAHASA INDONESIA DENGAN METODE MEL-FREQUENCY CEPSTRAL COEFFICIENT

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

Klasifikasi Burung Berdasarkan Suara Kicau Burung Menggunakan Jaringan Syaraf Tiruan Propagasi Balik

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN:

BAB I PENDAHULUAN SIMULASI DAN ANALISIS PEMANTAUAN KAMAR PASIEN RAWAT INAP DENGAN DETEKSI DAN KLASIFIKASI SINYAL AUDIO 1

APLIKASI SPEECH TO TEXT BERBAHASA INDONESIA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENTS DAN HIDDEN MARKOV MODEL (HMM)

BAB I PENDAHULUAN. menggunakan voice recognition dapat membantu user memilih produk buah

Jurnal Komputer Terapan Vol. 1, No. 2, November 2015, Jurnal Politeknik Caltex Riau

IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE RECOGNITION

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

SISTEM AKSES BUKU PERPUSTAKAAN JURUSAN TEKNIK ELEKTRO UNIVERSITAS ANDALAS MENGGUNAKAN APLIKASI PENGENALAN WICARA DENGAN METODA MFCC-VQ dan SSE

IDENTIFIKASI TUTUR DENGAN METODE KUANTISASI VEKTOR LINDE - BUZO - GRAY TUGAS AKHIR OLEH: YOHANES AGUNG SANTOSO PRANOTO

PENDAHULUAN. Latar Belakang

BAB 2 LANDASAN TEORI

BAB 3 PERANCANGAN SISTEM. yang akan menjalankan perintah-perintah yang dikenali. Sistem ini dibuat untuk

PENDETEKSIAN TINGKAT USIA MUDA, DEWASA DAN TUA MENGGUNAKAN METODE MFCC DAN FUZZY LOGIC BERBASISKAN SPEECH RECOGNITION

Digital Signal Processing To Identify chords Singer Using Mel Frequency Cepstral Coefficients (MFCC) and Neural Network Backpropagation Methods

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model

Pembuatan Prototype Speaker Diarization

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

PENERAPAN METODE POWER SPEKTRUM PADA PROSES KONVERSI SUARA UCAPAN MENJADI TEKS

BAB II TINJAUAN PUSTAKA

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

BAB I PENDAHULUAN 1.1. Latar Belakang

Perbandingan Sistem Perhitungan Suara Tepuk Tangan dengan Metode Berbasis Frekuensi dan Metode Berbasis Amplitudo

Rancang Bangun Aplikasi Pendeteksi Suara Tangisan Bayi

IDENTIFIKASI BUNYI DALAM PEMBELAJARAN NADA DASAR PERMAINAN SULING BATAK MENGGUNAKAN METODE MEL-FREQUENCY CEPSTRAL COEFFICIENT SKRIPSI

BAB I PENDAHULUAN. 2012). Penelitian yang dilakukan oleh Bosma dkk. (1965), menemukan bahwa

SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari

PENDAHULUAN TINJAUAN PUSTAKA

RANCANG BANGUN APLIKASI PENGENAL PENUTUR MENGGUNAKAN METODE HIDDEN MARKOV MODEL (HMM)

Pengenalan Suara Menggunakan Metode MFCC (Mel Frequency Cepstrum Coefficients) dan DTW (Dynamic Time Warping) untuk Sistem Penguncian Pintu

BAB I PENDAHULUAN. 1.1 Latar Belakang

Analisis dan Perancangan Speech Recognition Translate Bahasa Inggris-Indonesia-Gorontalo Berbasis Android

PERBANDINGAN BERBAGAI METODE UKURAN JARAK UNTUK PENGENALAN FONEM DENGAN MFCC SEBAGAI EKSTRAKSI CIRI YULIANA SURI

Bab 1. Pendahuluan. aman semakin diperlukan untuk menjamin keamanan data. Berbagai solusi proteksi

1. Pendahuluan Latar Belakang

BAB 1 PENDAHULUAN. berkaitan dengan pemprosesan sinyal suara. Berbeda dengan speech recognition

BAB I PENDAHULUAN. pengenalan terhadap gelombang suara. Pengenalan gelombang suara yang sudah

BAB I PENDAHULUAN. dapat menghasilkan suara yang enak untuk didengar.

PenerapanHidden Markov Model (HMM) pada Pengenalan Penutur

UKDW BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN ! <!!!!!

SISTEM PENGOLAHAN SUARA MENGGUNAKAN ALGORITMA FFT (FAST FOURIER TRANSFORM)

IMPLEMENTASI MEL FREQUENCY CEPSTRAL COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK PENGENALAN NADA PADA ALAT MUSIK BELLYRA

BAB I PENDAHULUAN. Teknologi sekarang ini berkembang sangat pesat, hampir semua kehidupan

BAB IV IMPLEMENTASI DAN EVALUASI. 4.1 Spesifikasi Hardware dan Software yang digunakan dalam penelitian

TINJAUAN PUSTAKA. Pengenalan Suara

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI CHORD GITAR ARVIANI RIZKI

APLIKASI PENGENALAN SUARA DIGITAL NADA DASAR PIANO SKRIPSI M. ARDIANSYAH

IDENTIFIKASI PARAMETER OPTIMAL GAUSSIAN MIXTURE MODEL PADA IDENTIFIKASI PEMBICARA DI LINGKUNGAN BERDERAU MENGGUNAKAN RESIDU DETEKSI ENDPOINT

PENDAHULUAN. Latar Belakang

BAB 2 LANDASAN TEORI

Aplikasi Teknik Speech Recognition pada Voice Dial Telephone

Analisis Koefisien Cepstral Emosi Berdasarkan Suara

Suara bisa dibuat database engine untuk pengenalan kata. Dengan aplikasi ini, dapat secara otomatis melakukan transkripsi suara, sehingga dapat mengur

Rancang Bangun Modul Pengenalan Suara Menggunakan Teknologi Kinect

INDEPT, Vol. 3, No.1, Februari 2013 ISSN

BAB I PENDAHULUAN. pernah tepat, dan sedikitnya semacam noise terdapat pada data pengukuran.

PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

Pengenalan Gender Melalui Suara dengan Algoritma Support Vector Machine (SVM)

RANCANG BANGUN MODUL PENGENALAN SUARA MENGGUNAKAN TEKNOLOGI KINECT

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara

BAB II LANDASAN TEORI

Jaringan Syaraf Tiruan pada Robot

BAB I PENDAHULUAN. Suara merupakan salah satu media komunikasi yang paling sering dan

BAB 3 PERANCANGAN SISTEM. untuk pengguna interface, membutuhkan perangkat keras dan perangkat lunak.

Karakteristik Spesifikasi

Sistem Pengenal Tutur Bahasa Indonesia Berbasis Suku Kata Menggunakan MFCC, Wavelet Dan HMM

DETEKSI SLEEP APNEA MELALUI ANALISIS SUARA DENGKURAN DENGAN METODE MEL FREKUENSI CEPSTRUM COEFFICIENT

IMPLEMENTASI SISTEM PESAN VIA SUARA : KONVERSI SUARA KE TEKS PADA APLIKASI PENGIRIMAN PESAN BERBAHASA INDONESIA

PENDAHULUAN Tujuan Latar Belakang Ruang Lingkup Manfaat Penelitian TINJAUAN PUSTAKA Nada dan Chord Gitar

BAB 1 PENDAHULUAN 1.1 Latar Belakang

vii MODEL FONEM DENGAN PENDEKATAN DISTRIBUSI NORMAL UNTUK PENGENALAN KATA MENGGUNAKAN MFCC SEBAGAI EKSTRAKSI CIRI ADITYA DWI HAPSARI

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Wicara atau ucapan adalah cara berkomunikasi yang paling sederhana dan sering digunakan oleh manusia. Namun, seiring dengan perkembangan teknologi, proses komunikasi tersebut tidak hanya terjadi antar manusia saja. Proses komunikasi juga terjadi antara manusia dan perangkat-perangkat seperti komputer dan yang lainnya. Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Contoh sederhana interaksi manusia dan komputer adalah pada saat pengguna menekan tombol untuk melakukan fungsi tertentu. Dalam proses ini, antara program yang digunakan pengguna dan perangkat komputer dijembatani oleh sebuah bahasa pemrograman yang menterjemahkan instruksi dalam bahasa manusia ke dalam bahasa mesin. Pengenalan suara otomatis atau Automatic Speech Recognition (ASR) adalah teknik baru yang dikembangkan untuk mendukung interaksi antara manusia dan komputer yang saat ini menjadi salah satu hal yang sangat potensial bagi para peneliti untuk lebih mendalaminya (Abriyono dan Harjoko, 2012). Pengenalan suara otomatis ini merupakan teknologi untuk dapat mengubah suara menjadi teks. Pengenalan suara adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Hingga saat ini, telah banyak penelitian-penelitian terkait dengan Automatic Speech Recognition dengan kemampuan untuk mengenali berbagai kasus percobaan seperti pengucapan kata terisolasi dimana terdapat jeda yang 1

2 signifikan antar kata, pengucapan kata-kata layaknya berbicara biasa, ataupun dalam konteks identifikasi pembicara. Teknik-teknik dalam pengenalan suara telah banyak mengalami perkembangan. Mulai dari metode ekstraksi fitur wicara, terdapat beberapa teknik yang performanya cukup baik diantaranya Linear Predictive Coding(LPC) dan Mel Frequency Cepstral Coefficients (MFCC). Sedangkan untuk pengenalan pola suara digunakan metode Hidden Markov Model yang menggunakan pendekatan stokastik yang sangat populer karena mampu melakukan pengenalan dengan baik. Penelitian yang dilakukan oleh Mehta L. R. dilakukan perbandingan metode ekstraksi fitur wicara MFCC dan LPC pada pengenalan kata terisolasi. Dari hasil penelitian tersebut diperoleh kesimpulan bahwa pengenalan wicara dengan metode ekstrasi fitur MFCC menghasilkan tingkat akurasi yang lebih besar dengan rata-rata keberhasilan 99,62 % dibandingkan metode LPC yang menghasilkan persentase keberhasilan 77,37 %. Pada penelitian oleh Ghulam M. tahun 2009, yang mengambil kasus pengenalan digit terisolasi yang menggunakan kombinasi metode MFCC dan HMM dalam bahasa Bangia, sistem mampu mengenali digit bilangan yang digunakan dengan tingkat keberhasilan mencapai 90%. Sedangkan, untuk studi kasus yang sama pada penelitian oleh M. Chandrasekar yang mengdopsi metode MFCC dalam mengekstrak fitur suara, kemudian dikenali dengan Back Propagation Network diperoleh nilai akurasi yang lebih kecil yaitu 80,95%. Dalam pengenalan kata berkelanjutan(continuous) dengan kosa kata berukuran besar oleh Corneliu O. dan Inger Gavat, digunakan Hidden Markov Model (HMM) sebagai recognizer dan 3 macam metode algoritma ekstraksi fitur yaitu MFCC, LPC, dan PLP. Dari ketiga metode ekstraksi fitur tersebut, MFCC menghasilkan tingkat akurasi tertinggi dengan persentase 90,41%. Sedangkan metode LPC memiliki persentase keberhasilan 63,55% sementara PLP sebesar 75,78% (Prabhakar dan Sahu, 2013).

3 Salah satu objek penelitian terkait pengenalan suara yang dapat dikembangkan menjadi sebuah sistem yang cukup bermanfaat adalah pengenalan voice command atau intruksi suara. Voice command adalah proses mesin untuk mengenali sebuah intruksi dan memberikan respon terhadap intruksi tersebut. Aplikasi ini salah satunya dapat digunakan dalam sistem Smart House yang menjadikan penelitian ini cukup menarik untuk dilakukan. Walaupun telah banyak dilakukan penelitian yang berkaitan dengan pengenalan suara, namun hingga saat ini masih terhitung sedikit pengenalan suara untuk bahasa Indonesia yang berkonsentrasi pada bidang voice command. Dengan alasan inilah peneliti ingin merancang sebuah aplikasi sederhana yang mampu mengenali intruksi berbahasa Indonesia. Dari penelitian yang dilakukan, diharapkan akan dihasilkan aplikasi pengenalan wicara menggunakan bahasa Indonesia dengan metode ekstraksi fitur Mel Frequency Cepstral Coefficients dan metode pengenalan suara Hidden Markov Model yang mampu mengenali input suara sebagai rangkaian kata-kata yang sesuai dengan instruksi yang diucapkan oleh seseorang. 1.2 Rumusan Masalah Berdasaran latar belakang yang dijabarkan diatas, dapat dirumuskan beberapa poin permasalahan, antara lain 1. Bagaimana performa dari metode Mel Frequency Cepstrum Coefficient dan Hiden Markov Model dalam mengenali kata-kata yang terdapat dalam bahasa Indonesia 2. Bagaimana efektifitas energy jangka pendek (short term energy) dari sebuah sinyal suara untuk mendeteksi batasan kata sehingga dapat mengenali kata-kata yang diucapkan pada sebuah intruksi suara

4 1.3 Batasan Masalah Dalam penelitian ini, penulis menggunakan batasan-batasan masalah, antara lain : 1. File suara yang digunakan sebagai dataset pelatihan system memiliki format.wav (waveform audio format). Hal tersebut dikarenakan hanya format audio.wav yang dapat diproses dan dimanipulasi dalam sistem. 2. Dataset suara direkam dengan menggunakan frekuensi sampling 16000 Hz 1.4 Tujuan Penelitian Tujuan penelitian yang penulis lakukan yaitu 1. Untuk mengetahui bagaimana performa dari metode Hidden Markov Model sebagai metode pengenalan dan Mel Frequency Cepstral Coefficient sebagai metode ekstraksi fitur yang dikombinasikan dengan metode segmentasi kata dalam mengenali intruksi suara menggunakan bahasa Indonesia. 2. Untuk mengetahui kemampuan segmentasi kata pada instruksi suara menggunakan wujud energi sinyal suara. 3. Untuk mencari nilai dari parameter-parameter paling optimal pada proses pelatihan sistem sehingga dapat memperoleh hasil pengenalan yang baik. 1.5 Manfaat Penelitian Manfaat yang dapat diperoleh dari penelitian ini adalah sebagai dasar bagi penelitian-penilitian selanjutnya untuk mengembangkan sebuah aplikasi atau perangkat yang dapat melakukan interaksi dengan manusia dengan menggunakan intruksi berupa suara. 1.6 Metodelogi Penelitian Pada sub bab metodelogi penelitian ini akan menjelaskan langkah-langkah yang akan dilalui untuk melakukan pengenalan instruksi suara (voice command). Adapun sub bab bahasan yang akan dijelaskan adalah desain penelitian, pengumpulan data, pengolahan data awal, dan metode yang digunakan.

5 1.6.1 Desain Penelitian Dalam penelitian ini, desain penelitian yang digunakan adalah desain penelitian eksperimen. Data hasil rekaman ini akan di jadikan data awal inputan untuk melakukan ekstraksi fitur guna memperoleh fitur vektor sebagai acuan dalam proses pengenalan. Yang menjadi objek penelitian adalah metode ekstraksi fiturnya yaitu Mel Frequency Cepstrum Coefficient dan metode pengenalan adalah Hidden Markov Model. Kemudian dari hasil penelitian yang telah dilakukan, akan di lihat keakuratan metode-metode tersebut dalam melakukan pengenalan terhadap instruksi yang diucapkan menggunakan bahasa Indonesia. 1.6.2 Pengumpulan data Untuk mendapatkan data-data berupa suara akan dilakukan pengumpulan data secara langsung melalui rekaman menggunakan smartphone. Dataset yang digunakan dalam penelitian ini adalah data primer berupa file suara yang diperoleh langsung dengan merekam wicara menggunakan smartphone. Dalam pengumpulan data ini, akan dilakukan perekaman kata kata yang telah disediakan dan diulang sebanyak 3 kali dari 5 orang pembicara berbeda dengan maksud agar mendapatkan variasi pengucapan dari sebuah kata sehingga memperkaya data penelitian yang akan digunakan. 1.6.3 Pengolahan Data Awal Pada tahap ini hasil dari rekaman suara dengan format.wav dari masingmasing sumber ini akan dikelompokkan berdasarkan kata yang diucapkan. Hal ini bertujuan untuk mempermudah sistem untuk mengambil data suara pada proses pelatihan. Langkah preprocessing selanjutnya adalah melakukan filter preemphasis terhadap sinyal suara yang bertujuan untuk mempertahankan frekuensi tinggi pada sinyal suara. Data suara yang telah mengalami proses preprocessing akan diekstraksi untuk mendapatkan fitur-fitur vektor yang akan dikenali.

6 1.6.4 Metode yang Digunakan Dalam penelitian ini, metode yang digunakan untuk ekstraksi fitur yaitu metode Mel Frequency Cepstrum Coefficient (MFCC) dan untuk klasifikasinya menggunakan Hidden Markov Model (HMM). Untuk ekstraksi fitur, pada MFCC dibagi menjadi beberapa tahapan, yaitu tahap Pre-emphasis, Framing, Windowing, Discrete Fourier Transform (DFT), Mel-Frequency Filtering, Discrete Cosine Transform(DCT), dan perhitungan delta. Dalam pengenalan kata atau kalimat dengan HMM akan dirancang modelmodel untuk setiap kata yang akan dikenali pada dataset yang digunakan. Pada proses pelatihan HMM akan dilakukan penyesuaian terhadap parameter-parameter dalam HMM untuk mencapai nilai yang optimal untuk proses pengenalan kata/kalimat. Langkah selanjutnya, fitur-fitur tersebut masuk ke dalam model HMM yang telah dikombinasikan dengan model bahasa sehingga membentuk arsitektur model yang optimal. Nilai dari setiap data observasi akan dihitung probabilitasnya untuk mendapatkan rangkaian kata yang memiliki nilai probabilitas tertinggi sebagai kata yang dikenali oleh program. Pada proses pengujian atau testing sistem, terdapat sebuah proses tambahan yaitu deteksi batasan-batasan kata. Dimana proses ini digunakan untuk memecah sebuah input suara(utterance) menjadi sejumlah segment yang dikenali sebagai sebuah kata tunggal. hal ini bertujuan untuk membantu sistem dalam mengenali rangkaian kata yang diucapkan.