Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN:

dokumen-dokumen yang mirip
i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

PENDAHULUAN. Latar Belakang

ANALISIS DAN PERANCANGAN PROGRAM APLIKASI. mahasiswa Binus University secara umum. Dan mampu membantu

APLIKASI SPEECH RECOGNITION BAHASA INDONESIA DENGAN METODE MEL-FREQUENCY CEPSTRAL COEFFICIENT

Karakteristik Spesifikasi

Jaringan Syaraf Tiruan pada Robot

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

TINJAUAN PUSTAKA. Pengenalan Suara

VOL. 01 NO. 02 [JURNAL ILMIAH BINARY] ISSN :

PREDIKSI CURAH HUJAN DI KOTA MEDAN MENGGUNAKAN METODE BACKPROPAGATION NEURAL NETWORK

PENDAHULUAN. Latar Belakang

Digital Signal Processing To Identify chords Singer Using Mel Frequency Cepstral Coefficients (MFCC) and Neural Network Backpropagation Methods

ANALISIS DAN IMPLEMENTASI APLIKASI PENGENALAN SUARA MENJADI TEKS MENGGUNAKAN METODE JARINGAN SYARAF TIRUAN BACKPROPAGATION

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

Jurnal Komputer Terapan Vol. 1, No. 2, November 2015, Jurnal Politeknik Caltex Riau

BAB 2 LANDASAN TEORI. Pengenalan suara (voice recognition) dibagi menjadi dua jenis, yaitu

PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN RESILIENT BACKPROPAGATION UNTUK IDENTIFIKASI CHORD GITAR YOSI NURHAYATI

PREDIKSI PENDAPATAN ASLI DAERAH KALIMANTAN BARAT MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION

BAB I PENDAHULUAN 1.1 Latar Belakang

Pengenalan Digit 0 Sampai 9 Menggunakan Ekstraksi Ciri MFCC dan Jaringan Syaraf Tiruan Backpropagation

BAB III METODE PENELITIAN. Pemotong an Suara. Convert. .mp3 to.wav Audacity. Audacity. Gambar 3.1 Blok Diagram Penelitian

PENERAPAN JARINGAN SYARAF TIRUAN DALAM MEMPREDIKSI TINGKAT PENGANGGURAN DI SUMATERA BARAT

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

Verifikasi Suara menggunakan Jaringan Syaraf Tiruan dan Ekstraksi Ciri Mel Frequency Cepstral Coefficient

APLIKASI JARINGAN SYARAF TIRUAN UNTUK MEMPREDIKSI VOLUME PEMAKAIAN AIR BERSIH DI KOTA PONTIANAK

BAB IV HASIL DAN PEMBAHASAN

PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG

Pengembangan Aplikasi Prediksi Pertumbuhan Ekonomi Indonesia dengan Jaringan Syaraf Tiruan Backpropagation

METODOLOGI PENELITIAN

Penerapan Jaringan Saraf Tiruan Metode Backpropagation Menggunakan VB 6

Klasifikasi Burung Berdasarkan Suara Kicau Burung Menggunakan Jaringan Syaraf Tiruan Propagasi Balik

BAB IV HASIL DAN PEMBAHASAN. perangkat. Alat dan bahan yang digunakan sebelum pengujian:

BAB II LANDASAN TEORI

Perbandingan Sistem Perhitungan Suara Tepuk Tangan dengan Metode Berbasis Frekuensi dan Metode Berbasis Amplitudo

PENDAHULUAN. Latar Belakang

EKSPRESI EMOSI MARAH BAHASA ACEH MENGGUNAKAN ALGORITMA PERCEPTRON

Journal of Control and Network Systems

SISTEM PENGENALAN KARAKTER DENGAN JARINGAN SYARAF TIRUAN ALGORITMA PERCEPTRON

APLIKASI JARINGAN SYARAF TIRUAN PADA PENGENALAN POLA TULISAN DENGAN METODE BACKPROPAGATION

PENDETEKSIAN TINGKAT USIA MUDA, DEWASA DAN TUA MENGGUNAKAN METODE MFCC DAN FUZZY LOGIC BERBASISKAN SPEECH RECOGNITION

BAB I PENDAHULUAN I.1 Latar Belakang

BAB 3 METODOLOGI PENELITIAN

PEMANFAATAAN BIOMETRIKA WAJAH PADA SISTEM PRESENSI MENGGUNAKAN BACKPROPAGATION NEURAL NETWORK

BAB III METODE PENELITIAN. menjawab segala permasalahan yang ada dalam penelitian ini.

Sistem Verifikasi Penutur menggunakan Metode Mel Frequensi.

Jl. Telekomunikasi, Dayeuh Kolot, Bandung Indonesia

JARINGAN SARAF TIRUAN DENGAN BACKPROPAGATION UNTUK MENDETEKSI PENYALAHGUNAAN NARKOTIKA

PERANCANGAN PROGRAM PENGENALAN BENTUK MOBIL DENGAN METODE BACKPROPAGATION DAN ARTIFICIAL NEURAL NETWORK SKRIPSI

UJM 3 (1) (2014) UNNES Journal of Mathematics.

Warble Of Lovebird Classification Using Mel Frequency Cepstral Coefficient (MFCC)

KLASIFIKASI POLA HURUF VOKAL DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN BACKPROPAGATION. Dhita Azzahra Pancorowati

BAB 2 KONSEP DASAR PENGENAL OBJEK

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

BAB II LANDASAN TEORI

Identifikasi Pembicara dengan Menggunakan Mel Frequency Cepstral Coefficient (MFCC) dan Self Organizing Map (SOM)

Perintah Menggunakan Sinyal Suara dengan Mel- Frequency Cepstrum Coefficients dan Learning Vector Quantization

BAB IV IMPLEMENTASI DAN PENGUJIAN

lalu menghitung sinyal keluarannya menggunakan fungsi aktivasi,

Seminar Nasional APTIKOM (SEMNASTIKOM), Hotel Lombok Raya Mataram, Oktober 2016

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI CHORD GITAR ARVIANI RIZKI

Jurnal Informatika Mulawarman Vol 5 No. 1 Februari

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2006/2007

IMPLEMENTASI JARINGAN SYARAF TIRUAN METODE BACKPROPAGATION UNTUK MEMPREDIKSI HARGA SAHAM

BAB III METODE PENELITIAN

SISTEM AKSES BUKU PERPUSTAKAAN JURUSAN TEKNIK ELEKTRO UNIVERSITAS ANDALAS MENGGUNAKAN APLIKASI PENGENALAN WICARA DENGAN METODA MFCC-VQ dan SSE

Prediksi Curah Hujan Di Kota Pontianak Menggunakan Parameter Cuaca Sebagai Prediktor Pada Skala Bulanan, Dasarian Dan Harian Asri Rachmawati 1)*

PERBANDINGAN METODE HIDDEN MARKOV MODEL DAN VECTOR QUANTIZATION UNTUK APLIKASI IDENTIFIKASI SUARA

Muhammad Fahrizal. Mahasiswa Teknik Informatika STMIK Budi Darma Jl. Sisingamangaraja No. 338 Simpanglimun Medan

PREDIKSI PERHITUNGAN DOSIS RADIASI PADA PEMERIKSAAN MAMMOGRAFI MENGGUNAKAN ALGORITMA JARINGAN SYARAF TIRUAN PROPAGASI BALIK

IMPLEMENTASI JARINGAN SYARAF TIRUAN MULTI LAYER FEEDFORWARD DENGAN ALGORITMA BACKPROPAGATION SEBAGAI ESTIMASI NILAI KURS JUAL SGD-IDR

Pengenalan Pola Sinyal Suara Manusia Menggunakan Metode Back Propagation Neural Network

ANALISIS ALGORITMA INISIALISASI NGUYEN-WIDROW PADA PROSES PREDIKSI CURAH HUJAN KOTA MEDAN MENGGUNAKAN METODE BACKPROPAGATION NEURAL NETWORK

MEMPREDIKSI KECERDASAN SISWA MENGGUNAKAN JARINGAN SYARAF TIRUAN BERBASIS ALGORITMA BACKPROPAGATION (STUDI KASUS DI LP3I COURSE CENTER PADANG)

BAB I PENDAHULUAN. manusia satu dengan manusia lainnya berbeda-beda intonasi dan nadanya, maka

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

PENGENALAN CHORD PADA GITAR DENGAN MFCC SEBAGAI METODE EKSTRAKSI CIRI DAN JARINGAN SARAF TIRUAN SEBAGAI METODE PENGENALAN POLA FAUZI SISWOYO

JENIS TIPE JANGKAUAN SUARA PADA PRIA DAN WANITA MENGGUNAKAN METODA MEL-FREQUENCY CEPSTRAL COEFFICIENT DAN JARINGAN SYARAF TIRUAN BACKPROPAGATION

Aplikasi yang dibuat adalah aplikasi untuk menghitung. prediksi jumlah dalam hal ini diambil studi kasus data balita

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

IMPLEMENTASI DEEP LEARNING BERBASIS TENSORFLOW UNTUK PENGENALAN SIDIK JARI

IDENTIFIKASI TANDA TANGAN MENGGUNAKAN ALGORITMA DOUBLE BACKPROPAGATION ABSTRAK

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Perbaikan Metode Prakiraan Cuaca Bandara Abdulrahman Saleh dengan Algoritma Neural Network Backpropagation

SATIN Sains dan Teknologi Informasi

BAB II LANDASAN TEORI

PERBANDINGAN PEMODELAN WAVELET DAN MFCC SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM DENGAN TEKNIK JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER

JARINGAN SYARAF TIRUAN UNTUK MEMPREDIKSI CURAH HUJAN SUMATERA UTARA DENGAN METODE BACK PROPAGATION (STUDI KASUS : BMKG MEDAN)

Klasifikasi Pola Huruf Vokal dengan Menggunakan Jaringan Saraf Tiruan

JARINGAN SYARAF TIRUAN PREDIKSI PENYAKIT LUDWIG ANGINA

APLIKASI JARINGAN SYARAF TIRUAN UNTUK MENGENALI TULISAN TANGAN HURUF A, B, C, DAN D PADA JAWABAN SOAL PILIHAN GANDA

IDENTIFIKASI VARIETAS UNGGUL BENIH KEDELAI BERDASARKAN WARNA DENGAN JARINGAN SARAF TIRUAN

KNIT-2 Nusa Mandiri ISBN: SISTEM BIOMETRIK TELINGA MENGGUNAKAN JARINGAN SYARAF TIRUAN

IV. HASIL DAN PEMBAHASAN A.

3. METODE PENELITIAN

BAB III METODOLOGI PENELITIAN

T 11 Aplikasi Model Backpropagation Neural Network Untuk Perkiraan Produksi Tebu Pada PT. Perkebunan Nusantara IX

BAB II. Penelitian dengan jaringan syaraf tiruan propagasi balik. dalam bidang kesehatan sebelumnya pernah dilakukan oleh

PENDAHULUAN Tujuan Latar Belakang Ruang Lingkup Manfaat Penelitian TINJAUAN PUSTAKA Nada dan Chord Gitar

Pengenalan Suara Menggunakan Metode MFCC (Mel Frequency Cepstrum Coefficients) dan DTW (Dynamic Time Warping) untuk Sistem Penguncian Pintu

Transkripsi:

Perintah Suara Berbahasa Indonesia untuk Membuka dan Menutup Aplikasi dalam Sistem Operasi Windows Menggunakan Metode Mel Frequency Cepstrum Coefficient dan Metode Backpropagation Zakaria Ramadhan 1, Sukmawati Nur Endah 2 1 Departemen Ilmu Komputer/ Informatika, Fakultas Sains dan Matematika, Universitas Diponegoro Email: ramadhan.zack@gmail.com 1, sukma_ne@undip.ac.id 2 Abstrak Speech recognition (pengenalan suara ucapan) merupakan upaya manusia untuk menciptakan teknologi yang mampu berinteraksi dengan manusia secara langsung melalui bahasa sehari-hari. Salah satu aplikasi speech recognition adalah perintah kepada komputer lewat suara ucapan. Aplikasi ini dikembangkan menggunakan metode Mel Frequency Cepstrum Coeffcient (MFCC) sebagai ekstraksi ciri dan Jaringan Syaraf Tiruan Backpropagation sebagai metode pengenalan pola. Data yang digunakan dalam aplikasi ini berjumlah 160 suara yang berasal dari lima orang. Masing-masing orang mengucapkan access, foxit, excel, kamus, matlab, notepad, tutup dan winword sebanyak empat kali. Input suara berupa file wav atau rekaman secara langsung dengan frekuensi 44100 Hz. Pengujian terbaik dari aplikasi tersebut diperoleh dari koefisien MFCC 3, hidden neuron 153, MSE 0.0055 dan learning rate 0.1 dengan akurasi pengenalan 50%. Kata kunci: Speech recognition, Mel Frequency Cepstrum Coeffcient, Jaringan Syaraf Tiruan, Backpropagation, Perintah Suara. Abstract Speech recognition is a human effort to create technology that is able to interact with humans directly through daily language. One of speech recognition applications is an instruction to the computer via voice of speech. This application was developed using the Mel Frequency Cepstrum Coefficient (MFCC) as feature extraction and Neural Network Backpropagation as a method of pattern recognition. The data that are used in this application were 160 voices from five people. Each people speaks access, foxit, excel, kamus, matlab, notepad, tutup and winword as much as four times. Input voice was from wav file or direct record with a frequency of 44100 Hz. The best test of the application obtained from MFCC coefficient 3, hidden neuron 153, MSE 0.0055 and the learning rate of 0.1 with recognition accuracy 50%. Keyword: Speech recognition, Mel Frequency Cepstral Coefficient, Artificial Neural Network, Backpropagation, Voice Command. 1. PENDAHULUAN Semakin berkembangnya teknologi saat ini, semakin pula usaha manusia untuk berupaya memaksimalkan fungsi teknologi. Manusia berupaya memaksimalkan fungsi tersebut untuk mempermudah segala urusannya di segala aspek kehidupan. Salah satunya adalah Speech recognition (pengenalan suara ucapan). Speech recognition merupakan upaya manusia untuk menciptakan teknologi yang mampu berinteraksi dengan manusia secara langsung melalui bahasa sehari-hari. Speech recognition adalah kemampuan mesin atau program untuk mengenali kata yang diungkapkan dalam bahasa ucapan dan mengubahnya ke dalam format yang dapat dibaca oleh mesin [1]. Oleh karena itu, Speech recognition dapat melakukan transfer informasi antara manusia dengan komputer dengan suara ucapan. Transfer informasi antara manusia dengan mesin atau komputer biasanya dilakukan lewat keyboard atau mouse. Tetapi tidak semua manusia dapat menggunakan alat tersebut untuk mentransfer informasi ke dalam mesin atau komputer secara langsung. Ada faktor-faktor yang dapat menghambat manusia dalam menggunakan alat tersebut, seperti cacat fisik tangan (tuna daksa) dan tuna netra. Manusia dapat mengeluarkan suara ucapan dengan cepat sebagai pengganti untuk melakukan perintah kepada komputer. Untuk itu dibutuhkan sebuah aplikasi yang dapat melakukan perintah kepada komputer lewat suara ucapan. Aplikasi perintah kepada komputer lewat suara ucapan sudah diterapkan dalam sistem operasi Windows Vista, Windows 7 dan Windows 8. Tetapi aplikasi tersebut belum menyediakan layanan dalam bahasa Indonesia. Hanya tersedia 6 bahasa yaitu bahasa Inggris, Francis, Spanyol, Jerman, Jepang dan China. 33

Perintah kepada komputer lewat suara ucapan membutuhkan dua proses penting yaitu feature extraction (pemisahan ciri) dan pengenalan suara. Feature extraction merupakan proses memisahkan ciri dari suara untuk membedakan suatu pola dengan pola lainnya. Salah satu metode yang digunakan untuk feature extraction yaitu Mel Frequency Cepstrum Coefficient (MFCC). Setelah dilakukan proses ekstraksi ciri, proses selanjutnya adalah pengenalan suara. Salah satu metode yang digunakan untuk pengenalan suara yaitu jaringan syaraf tiruan. Jaringan syaraf tiruan merupakan metode yang cara kerjanya terinspirasi oleh sistem sel syaraf, sama seperti otak yang memproses suatu informasi. Metode tersebut diminati beberapa tahun terakhir dan sukses untuk memecahkan berbagai masalah disiplin ilmu, seperti bidang finansial, kedokteran, teknik, geologi dan fisika [2]. Salah satu metode jaringan syaraf tiruan yang populer digunakan untuk pengenalan suara yaitu metode Backpropagation. Oleh karena itu, pembuatan aplikasi perintah suara dalam penelitian ini fokus pada bahasa Indonesia untuk membuka dan menutup aplikasi dalam sistem operasi Windows. Metode yang diterapkan yaitu Mel Frequency Cepstrum Coefficient (MFCC) sebagai pemisahan ciri dan Backpropagation sebagai pengenalan suara. 2. METODE Aplikasi perintah suara berbahasa Indonesia untuk membuka dan menutup aplikasi dalam Windows mengunakan metode MFCC dan Backpropagation merupakan aplikasi berbasis dekstop yang dapat digunakan untuk membuka dan menutup aplikasi dalam Windows dengan perintah suara. Alur proses aplikasi perintah suara dijelaskan pada Gambar 1. Gambar 1. Alur proses aplikasi perintah suara Berikut penjelasan dari masing-masing blok proses aplikasi perintah suara: 1) Input Data Proses ini adalah proses input sinyal suara melalui rekaman untuk data pelatihan, data uji, dan data suara langsung. Input sinyal suara tersebut terdiri dari access, foxit, excel, kamus, matlab, notepad, tutup, dan winword. Input data pelatihan dan data uji disimpan di tempat penyimpanan data suara. Sedangkan data suara langsung tidak disimpan di tempat penyimpanan data suara. Data suara langsung merupakan data yang digunakan untuk pengenalan suara secara rekaman langsung. 2) Preprocessing Preprocessing merupakan tahap untuk membuang informasi-informasi yang tidak diperlukan dari sinyal. Berikut penjelasan tahapan preprocessing: a. Normalisasi Amplitudo Normalisasi amplitudo dilakukan dengan cara membagi semua sampel sinyal ucapan dengan sampel sinyal ucapan maksimum, sehingga untuk semua sinyal ucapan memiliki nilai maksimum yang sama yaitu 1 [3]. 34

b. DC Removal DC removal dilakukan dengan cara menghitung rata-rata dari sampel suara dan mengurangkan nilai sampel suara dengan nilai rata-rata tersebut [4]. ( ) ( ) ( ) = sampel sinyal hasil proses DC removal ke-n ( ) = hasil normalisasi ke-n = nilai rata rata sampel sinyal asli n = nomor urut sinyal (1,2,...,N); adalah panjang sinyal c. Pre-emphasis Filter ini mempertahankan frekuensi-frekuensi tinggi pada sebuah spektrum, yang umumnya tereliminasi pada saat proses produksi suara [4]. ( ) ( ) ( ) (2) ( ) = hasil perhitungan pre-emphasis ke-n = nomer urut sinyal ( ) = sampel sinyal hasil proses DC removal ke-n = konstanta filter pre-emphasis, biasanya bernilai 0,9 1,0. a. Ekstraksi Ciri Mel Frequency Cepstrum Coefficient (MFCC) Tujuan dari Mel Frequency Cepstrum Coefficient yaitu memisahkan ciri dari suara untuk membedakan suatu pola dengan pola lainnya. Tahapan dari proses MFCC dapat dijelaskan sebagai berikut [5]: a. Frame Bloking, proses ini membagi sinyal suara ke dalam frame. Satu frame terdiri dari beberapa sampel tergantung tiap detik suara akan disampel dan berapa besar frekuensi suara. Sinyal suara dibagi menjadi beberapa frame dan saling overlapping. Panjang daerah overlapping yang umum digunakan adalah 30%-50% dari panjang frame. b. Windowing, dalam tahap ini sinyal suara yang telah dibagi menjadi ke dalam frame dilakukan proses windowing untuk meminimalkan diskontinuitas sinyal. Window yang dipakai dalam proses ini adalah Hamming window dengan persamaan: ( ) ( ) (3) ( ) = hasil perhitungan hamming window ke-n = nomer urut sinyal = panjang sinyal c. Fast Fourier Transform (FFT), mengubah setiap kerangka sampel n dari domain waktu ke domain frekuensi. Berikut pesamaannya: ( ) ( ) ( ) ( ) ( ) (4) ( ) = hasil perhitungan FFT ke-k ( ) = hasil perhitungan windowing ke-n = nomer urut sinyal = indeks dari frekuensi (1,2,...N); adalah panjang sinyal d. Mel-Frequency Wrapping, berdasarkan penelitian psikofisik bahwa persepsi manusia terhadap frekuensi suara tidak mengikuti skala linier. Proses wrapping terhadap sinyal dalam domain frekuensi menggunakan persamaan: ( ) ( ) ( ) (5) ( ) = hasil perhitungan mel-frequency wrapping ke-m ( ) = hasil perhitungan FFT ke-k = koefisien filterbank = nomor urut sinyal = 1,2,..., M ; adalah jumlah filter bank e. Cepstrum, tahap ini mengkonversikan log mel spectrum ke dalam domain waktu. Hasil dari proses ini disebut mel frequency cepstrum coefficient. (1) 35

( ) * ( ) + (6) = hasil proses cepstrum = keluaran dari proses mel frequensi wrapping pada indeks k = jumlah koefisien yang diharapkan b. Normalisasi Hasil Ekstraksi Ciri Normalisasi adalah penskalaan terhadap nilai-nilai masuk ke dalam suatu range tertentu. Hal ini dilakukan agar nilai input dan target output sesuai dengan range dari fungsi aktivasi yang digunakan dalam jaringan. Bila fungsi aktivasi yang digunakan adalah sigmoid biner, maka persamaan normalisasi yang dapat digunakan yaitu [6]: ( ) (7) = hasil normalisasi = data asli = data maksimum = data minimum c. Pelatihan Jaringan Backpropagation Algoritma pelatihan jaringan backpropagation yaitu sebagai berikut [7]: Inisialisasi bobot-bobot. Tentukan angka pembelajaran (α). Tentukan nilai toleransi error dan maksimal epoch sebagai kondisi berhenti. 1. Kondisi berhenti tidak terpenuhi lakukan langkah ke-2 sampai langkah ke-9. 2. Untuk setiap pasangan pola pelatihan, lakukan langkah ke-3 sampai langkah ke-8. Tahap umpan maju. 3. Setiap unit input meneriman sinyal dan meneruskannya ke unit tersembunyi. 4. Hitung semua keluaran di unit tersembunyi dengan rumus: ( ) (8) Kemudian dikirim ke semua unit di lapisan atasnya. 5. Hitung semua keluaran di unit output: ( ) (9) Tahap pempropagasibalikan error 6. Setiap unit output menerima pola target lalu informasi kesalahan lapisan output ( ) dihitung. dikirim ke lapisan di bawahnya dan digunakan untuk menghitung besar koreksi bobot dan bias antara lapisan tersembunyi dengan lapisan output: ( ) ( ) (10) (11) (12) 7. Pada setiap unit di lapisan tersembunyi dilakukan perhitungan informasi kesalahan lapisan tersembunyi ( ). kemudian digunakan untuk menghitung besar koreksi bobot dan bias antara lapisan input dan lapisan tersembunyi. ( ) ( ) (13) (14) (15) Tahap peng-update-an boot dan bias 8. Pada setiap unit output dilakukan peng-update-an bias dan bobot: ( ) ( ) (16) Dari unit ke-1 sampai unit ke-p di lapisan tersembunyi dilakukan peng-update-an pada bias dan bobotnya: ( ) ( ) (17) 9. Tes kondisi berhenti Arsitektur jaringan Backpropagation yang dibentuk pada penelitian ini terlihat pada Gambar 2. 36

Gambar 2. Arsitektur jaringan backpropagation Pada Gambar 2 menunjukkan jaringan ini memiliki satu lapisan input yang terdiri dari m neuron dan satu neuron bias. Nilai m merupakan jumlah neuron input dengan jumlah banyaknya sinyal hasil dari proses ekstraksi ciri MFCC. Jika nilai koefisien MFCC adalah 2, 3, 4, atau 5 maka nilai m untuk lapisan input jaringan yaitu 198, 297, 396, atau 495. Lapisan tersembunyi untuk jaringan ini berjumlah satu lapis. Jumlah neuron pada lapisan tersembunyi berjumlah n neuron dan satu neuron bias. Untuk penelitian ini nilai n yang digunakan adalah dan dari penambahan input dan output neuron. Jika nilai input jaringan adalah 198, 297, 396, atau 495 maka nilai n adalah 103 dan 137, 153 dan 203, 202 dan 269 atau 252 dan 335. Lapisan ini menggunakan aktivasi sigmoid biner yang merupakan fungsi aktivasi yang umum digunakan. Fungsi aktivasi sigmoid biner memiliki range keluaran antara 0 sampai 1. Lapisan output untuk jaringan ini berjumlah satu lapis yang memiliki delapan neuron output. Jumlah node neuron output tersebut dapat mewakili delapan kata yang akan dikenali oleh jaringan backrpopagation. Lapisan ini menggunakan aktivasi sigmoid biner. d. Pengenalan Suara Algoritma proses pengenalan suara yaitu sebagai berikut [7]: 1. Inisialisasi bobot. Bobot ini diambil dari bobot terakhir yang diperoleh dari algoritma pelatihan. 2. Untuk setiap vektor input, lakukan langkah ke-2 sampai ke-4. 3. Setiap unit input meneriman sinyal dan meneruskannya ke unit tersembunyi. 4. Hitung semua keluaran di unit tersembunyi dengan rumus: ( ) (18) Kemudian dikirim ke semua unit di lapisan atasnya. 5. Hitung semua keluaran di unit output: ( ) (19) e. Eksekusi Perintah Suara Proses ini akan membuka/menutup aplikasi dalam sistem operasi windows sesuai dengan hasil yang telah dikenali dalam proses pengenalan suara. 3. HASIL DAN PEMBAHASAN 3.1. Hasil 3.1.1. Rencana Pengujian Pengujian ini digunakan untuk mendapatkan tingkat akurasi terbaik dengan merubah parameter pelatihan dan koefisien MFCC. Data yang digunakan berjumlah 160 data suara yang berasal dari 5 orang yang berbeda. Masing-masing orang mengucapkan 8 kata sebanyak 4 kali. Frekuensi suara yang digunakan sebesar 44100 Hz. Proses perekaman dilakukan di ruangan yang tidak kedap suara. Data suara tersebut akan digunakan sebagai data pelatihan yang berjumlah 128 data suara dan data pengujian yang berjumlah 32 data suara. Pengujian ini dilakukan dengan menggunakan 5-fold cross validation, sehingga data suara dikelompokkan menjadi 5 kelompok. Setiap kelompok terdiri dari 32 data suara, dimana 32 data suara 37

tersebut terdiri dari 8 kelas yang masing-masing terdapat 4 data suara. Komposisi pembagian kelompok data pelatihan dan data uji dapat dilihat pada Tabel 1. Tabel 1. Kelompok data latih dan data uji Fold ke- Kelompok Data Latih Kelompok Data Uji 1 2,3,4,5 1 2 1,3,4,5 2 3 1,2,4,5 3 4 1,2,3,5 4 5 1,2,3,4 5 Dengan pembagian kelompok data latih dan data uji dengan cara seperti pada Tabel 1, semua data suara berkesempatan menjadi data latih dan data uji. Setiap fold kelompok data latih dan kelompk data uji akan menjalankan pelatihan dan pengujian dengan rencana pengujian yang ditunjukkan pada Tabel 2. Tabel 2. Rencana pengujian Parameter Pengujian Koefisien MFCC 2,3,4, dan 5 Nilai Learning Rate 0.1, 0.2, 0.3, 0.4, dan 0.5 Jumlah Hidden Neuron dan dari penambahan input dan output neuron Nilai Epoch Maksimal 30000 epoch MSE Minimal 0.01 dan 0.0055 3.1.2. Hasil Pengujian Bentuk pengujian dilakukan berdasarkan Tabel 2 dengan menggunakan data latih dan data uji berdasarkan Tabel 1. Hasil dari pengujian ditunjukkan pada Tabel 3. Menurut hasil yang ditunjukkan pada Tabel 3, pengujian yang terbaik diperoleh dari koefisien MFCC 3, hidden neuron 153, MSE 0.0055 dan learning rate 0.1 dengan akurasi pengenalan 50%. Koefisien MFCC 3.2. Pembahasan 2 3 4 5 Hidden Neuron 103 137 153 203 202 269 252 335 Tabel 3. Hasil pengujian MSE Learning Rate 0.1 0.2 0.3 0.4 0.5 0.01 42.500% 40.000% 39.375% 44.375% 40.000% 0.0055 46.250% 40.625% 40.000% 40.000% 43.125% 0.01 41.250% 36.875% 39.375% 37.500% 33.750% 0.0055 40.625% 41.250% 46.875% 42.500% 38.125% 0.01 45.000% 40.625% 41.875% 44.375% 46.875% 0.0055 50.000% 41.250% 41.875% 47.500% 48.750% 0.01 45.000% 39.375% 44.375% 43.125% 46.875% 0.0055 48.750% 41.875% 47.500% 49.375% 46.875% 0.01 47.500% 40.000% 41.250% 43.125% 40.625% 0.0055 48.125% 40.625% 41.875% 45.625% 45.000% 0.01 44.375% 45.000% 42.500% 37.500% 43.750% 0.0055 47.500% 43.750% 45.000% 43.125% 45.000% 0.01 46.875% 40.000% 40.625% 42.500% 40.000% 0.0055 48.750% 43.125% 41.250% 45.625% 44.375% 0.01 44.375% 40.625% 41.875% 41.875% 43.125% 0.0055 46.250% 43.750% 44.375% 42.500% 44.375% Berdasarkan hasil pengujian pada Tabel 3, berikut penjelasan analisis hasil berdasarkan tiap parameter pelatihan: 1) Koefisien MFCC Dari hasil pengujian dapat dilihat bahwa akurasi tertinggi didapatkan ketika menggunakan koefisien MFCC 3. Ketika proses pengujian mengganti nilai koefisien MFCC dari 2 menjadi 3, akurasi cenderung meningkat walaupun tidak terlalu signifikan. Sedangkan, ketika pengujian menggunakan jumlah koefisien 4 atau 5 justru hasil akurasi cenderung menurun, meskipun penurunan tidak terlalu signifikan. Penambahan jumlah koefisien menjadi 4 atau 5 akan membuat dimensi data lebih besar. Dimensi data yang besar membuat kemampuan pengenalan JST Backpropagation lebih rendah sehingga akurasinya pun menurun. Grafik perbandingan pengaruh koefisien MFCC terhadap akurasi ditunjukkan pada Gambar 3. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik. 38

Gambar 3. Grafik perbandingan pengaruh koefisien MFCC terhadap akurasi 2) Hidden Neuron Dari hasil pengujian dapat dilihat bahwa hidden neuron dengan jumlah ½ dari penambahan input dan output neuron cenderung menghasilkan akurasi yang lebih baik dibandingkan dengan hidden neuron dengan jumlah 2/3 dari penambahan input dan output neuron. Grafik perbandingan pengaruh jumlah hidden neuron terhadap akurasi ditunjukkan pada Gambar 4. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik. Gambar 4. Grafik perbandingan pengaruh jumlah hidden neuron terhadap akurasi 3) MSE Dari hasil pengujian dapat dilihat bahwa MSE dengan nilai 0.0055 cenderung menghasilkan akurasi lebih baik dibandingkan dengan MSE dengan nilai 0.01. JST Backpropagation dengan nilai MSE yang rendah membuat nilai output semakin mendekat dengan nilai target. Sehingga, JST Backpropagation lebih mudah mengenali suara tertentu sesuai dengan target yang telah ditentukan. Grafik perbandingan pengaruh MSE terhadap akurasi ditunjukkan pada Gambar 5. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik. Gambar 5. Grafik perbandingan pengaruh MSE terhadap akurasi 39

4) Learning Rate Dari hasil pengujian dapat dilihat bahwa hasil akurasi tertinggi terjadi ketika menggunakan learning rate 0.1. Ketika pengujian menggunakan learning rate 0.2, 0.3, 0.4, atau 0.5, hasil akurasi cenderung lebih rendah dibanding ketika menggunakan learning rate 0.1. Grafik perbandingan pengaruh learning rate terhadap akurasi ditunjukkan pada Gambar 6. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik. Gambar 6. Grafik perbandingan pengaruh learning rate terhadap akurasi Hasil akurasi pengujian parameter pelatihan secara umum memiliki nilai yang rendah. Nilai maksimal akurasi yang dapat dicapai hanya sampai 50%. Beberapa faktor yang menyebabkan rendahnya nilai akurasi yaitu: 1) Kata yang sama yang diucapakan oleh orang yang berbeda cenderung menghasilkan sinyal suara yang berbeda. Seperti yang tertera pada Gambar 7 yang merupakan sinyal suara dari kata matlab yang diucapkan oleh dua orang yang berbeda. Hal itu menyebabkan sulitnya JST Backpropagation dalam mengenali kata yang sama. Gambar 7. Sinyal suara kata matlab dari 2 orang berbeda. 2) Sinyal suara yang akan diproses oleh ekstraksi ciri MFCC belum terlebih dahulu mengalami proses penghilangan sinyal suara noise. Seperti yang tertera pada Gambar 8 terdapat sinyal yang dilingkari merah yang merupakan sinyal suara noise. Sinyal tersebut tetap mengalami proses ekstrasi ciri MFCC. MFCC menggunakan power spectrum sebagai penentu ekstraksi ciri. Power spectrum bersifat sensitif terhadap sinyal suara dengan noise yang akan mempengaruhi hasil dari ekstaksi ciri. Sehingga JST backpropagation mengalami kesulitan dalam mengenali kata. 40

Gambar 8. Sinyal suara dengan noise 3) Sinyal suara didapat dari perekaman yang dilakukan di ruangan yang tidak kedap suara. Hal ini menyebabkan suara yang dijadikan untuk data pelatihan masih terdapat noise. 4) Unvoiced (sampel suara dengan nilai amplitudo = 0) dalam sinyal suara tidak terlebih dahulu dihilangkan. Sebab antara sinyal suara memiliki sampel unvoiced yang berbeda. Sehingga bila unvoiced dihilangkan, maka neuron input dalam JST backpropagation akan memiliki jumlah yang berbeda antara satu sinyal dengan sinyal suara lainnya. 4. SIMPULAN Pengujian terbaik dari aplikasi tersebut diperoleh dari koefisien MFCC 3, hidden neuron 153, MSE 0.0055, dan learning rate 0.1 dengan akurasi pengenalan 50%. Faktor-faktor yang mempengaruhi akurasi pengenalan adalah jika nilai MSE minimal dan jumlah hidden neuron semakin kecil maka akurasi pengenalan semakin baik. Sedangkan perubahan nilai learning rate dan koefisien MFCC tidak berpengaruh secara signifikan terhadap akurasi pengenalan. 5. REFERENSI [1] Kaur, J., Nidhi., dan Kaur, R. 2012. Issues Involvel in Speech to Text Conversion. International Journal of Computational Engineering Research. Vol. 2(2):512-515. [2] Yani, E. 2005. Pengantar Jaringan Syaraf Tiruan. http://materikuliah.com, diakses 29 Januari 2014. [3] Irfandy, M. 2010. Aplikasi Pengenalan Ucapan dengan Jaringan Syaraf Tiruan Propagasi Balik untuk Pengendalian Robot Bergerak. http://eprints.undip.ac.id, diakses 25 Juli 2014. [4] Putra, D., Resmawan, A. 2011. Verifikasi Biometrika Suara Menggunakan Metode MFCC dan DTW. Lontar Komputer. Vol.2(1):8-21. [5] Do, M. 1994. Digital Signal Processing Mini Project: An Automatic Speaker Recognition System. http://minhdo.ece.illinois.edu, diakses 3 Juni 2014. [6] Siang, J. 2005. Jaringan Syaraf Tiruan dan Pemrogramannya Menggunakan Matlab. Andi Offset, Yogyakarta. [7] Puspitaningrum, D. 2006. Pengantar Jaringan Saraf Tiruan. Penerbit Andi, Yogyakarta. 41