PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG TUGAS AKHIR MUHAMMAD AGUNG NURSYEHA 2211100164 Pembimbing: Dr. Muhammad Rivai, S.T., M.T. Suwito, S.T., M.T. Bidang Studi Elektronika Jurusan Teknik Elektro Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember 2016
LATAR BELAKANG LATAR BELAKANG Indonesia merupakan Negara agraris 25% masyarakat Indonesia bermata pencaharian sebagai petani (BPS,2015) Beras merupakan makanan pokok masyarakat Indonesia Indonesia belum mampu memenuhi kebutuhan beras dalam negeri(tempo,2015) Penurunan produksi menjadi salah satu faktor
LATAR BELAKANG LATAR BELAKANG Hama burung merupakan salah satu faktor penurunan produksi beras Metode pengusiran hama masih menggunakan metode konvensional
LATAR BELAKANG LATAR BELAKANG Dalam ekosistem sawah terdapat berbagai jenis burung Keberadaan burung dapat dideteksi berdasarkan kicauan Masing-masing jenis burung memiliki kicau yang berbeda (Lee,2006) Kicauan burung digunakan sebagai alat komunikasi
LATAR BELAKANG RUMUSAN MASALAH 1. Bagaimana identifikasi keberadaan burung berdasarkan parameter suara 2. Bagaimana sistem akan membedakan suara hama burung dengan suara nonhama burung 3. Bagaimana cara mengusir hama burung
LATAR BELAKANG TUJUAN 1. Sistem mampu mengekstraksi ciri suara dari kicau burung menggunakan MFCC dan Spektrum Frekuensi 2. Sistem mampu membedakan antara hama burung dan non-hama burung dengan Jaringan Syaraf Tiruan 3. Burung dapat diusir dengan audiosonik repeller
LATAR BELAKANG BATASAN MASALAH 1. Pemrosesan sinyal menggunakan komputer 2. Simulasi pengujian dengan menggunakan berkas suara kicau burung 3. Jenis burung yang dikenali adalah burung bondol (emprit), burung gelatik, burung gereja, burung cekakak jawa (raja udang) dan burung perkutut
DASAR TEORI BURUNG PADA EKOSISTEM SAWAH 1. Ekosistem sawah merupakan ekosistem buatan 2. Sawah merupakan tanah yang digarap dan diairi untuk menanan padi 3. Didalam ekosistem terjadi hubungan timbal balik antara makhluk hidup dengan lingkungannya (membentuk rantai makanan)
BURUNG PADA EKOSISTEM SAWAH BURUNG BONDOL Burung emprit/bondol merupakan burung pemakan biji-bijian. Makanan utama burung ini adalah biji padi. Habitat berada dekat dengan sumber makanan (persawahan)
BURUNG PADA EKOSISTEM SAWAH BURUNG GELATIK Gelatik jawa merupakan jenis dari burung pipit. Makanan dari burung ini adalah biji padi Habitat berada didekat sumber makanan (persawahan)
BURUNG PADA EKOSISTEM SAWAH BURUNG GEREJA Burung gereja merupakan jenis burung pipit. Makanan dari burung gereja adalah biji-bijian Habitat berada didaerah persawahan, perkotaan
BURUNG PADA EKOSISTEM SAWAH BURUNG CEKAKAK JAWA Cekakak jawa merupakan burung pemakan serangga. Habitat didekat perairan, persawahan
BURUNG PADA EKOSISTEM SAWAH BURUNG PERKUTUT Perkutut merupakan burung pemakan biji-bijian Habitat burung perkutut berada pada area hutan terbuka, persawahan Mencari makanan ditanah sehingga bukan merupakan hama utama tanaman padi
DASAR TEORI MIKROFON Mengubah sinyal suara menjadi sinyal listrik Nilai kapasitansi berubah-ubah
DASAR TEORI LOUDSPEAKER Loudspeaker berfungsi mengubah sinyal listrik menjadi sinyal suara Interaksi antara magnet permanen dan medan magnet moving voice coil Cone bergetar, menyebabkan tekanan udara berubah-ubah
DASAR TEORI FAST FOURIER TRANSFORM Merubah sinyal domain waktu berhingga menjadi spektrum frekuensi Merupakan algoritma cepat dari persamaan Discrete Fourier Transform (DFT) x[ k] N 1 n 0 x[ n] kn W N kn j2kn / N W N e
DASAR TEORI VOICE ACTIVITY DETECTION Proses untuk menentukan antara kondisi diam dan kondisi terdapat tutur Pembeda berupa batas dari ekstraksi ciri yang digunakan Ekstraksi ciri berupa energi suara dan frekuensi dominan suara power N 1 1 N n0 x[ n] 2,0 n frekuensi max( FFT ( x[ n])) N 1
DASAR TEORI MEL FREQUENCY CEPSTRUM COEFFICIENT (MFCC) MFCC merupakan metode ekstraksi ciri suara berdasarkan pendengaran telinga manusia yang bertindak sebagai filter Skala pendengaran manusia tidak menggunakan skala hertz. Melainkan skala mel Pendekatan skala mel dapat dilakukan dengan pendekatan filter bank Analisa yang dilakukan berupa short time analysis
DASAR TEORI (MFCC) FRAME BLOCKING Frame blocking merupakan pengelompokan sinyal menjadi frame-frame Dalam satu frame berisi 20ms-30ms suara Sinyal suara memiliki bentuk konstan dalam durasi tersebut
DASAR TEORI (MFCC) WINDOWING Merupakan pendekatan filter digital Finite Impulse Response (FIR) Mengkonvolusikan sinyal waktu berbatas dengan fungsi window Mengurangi aliasing akibat dari frame blocking y[ n] x[ n]* w[ n]
DASAR TEORI (MFCC) FAST FOURIER TRANSFORM N 1 x[ k] n 0 x[ n] kn W N kn j2kn / N W N e Merubah sinyal domain waktu berhingga menjadi spektrum frekuensi Merupakan algoritma cepat dari persamaan Discrete fourier Transform (DFT)
DASAR TEORI (MFCC) MEL FREQUENCY WARPING Persepsi manusia terhadap suara terhadap suara tidak bekerja secara linier Sehingga skala yang digunakan bukan hertz Skala yang bekerja sesuai dengan telinga manusia disebut skala mel Pendekatan skala mel yang bekerja pada manusia menggunakan filter bank mel( f ) 2595*10 log(1 f ) 700
DASAR TEORI (MFCC) DISCRETE COSINE TRANSFORM Telinga manusia menerima respon suara berdasarkan sinyal domain waktu Spektrum mel perlu dirubah kembali dalam sinyal domain waktu Transformasi cosinus diskrit merubah mel spektrum menjadi cepstrum Cn I i1 (log Sk)cos[ n( i 1 ) 2 ], n 1,2,..., I I
DASAR TEORI JARINGAN SYARAF TIRUAN Merupakan metode pengenalan pola Meniru jaringan syaraf manusia Propagasi maju: i J j0 ( ) x[ j]* w[ j, i] Propagasi fungsi aktivasi: 1 1 e f i Propagasi mundur: J i jw j1 ij i g( i ) Perbarui bobot: w baru [ j, i] w[ j, i] x j i
DIAGRAM BLOK SISTEM KESELURUHAN Fs= 48kHz frame_buffer= 1024
VOICE ACTIVITY DETECTION Menganalisa frekuensi dominan dan energi suara dari 100 frame keadaan diam frekuensi, i 1, 2,..., 100 power, i 1, 2,..., 100 frekuensi max( frekuensi i ) min( frekuensi,, i ) power max( power i ) min( power,, i ) frekuensi 1 N 100 i1 frekuensi, i power 1 N 100 i1 i
VOICE ACTIVITY DETECTION A= power B= frekuensi dominan C= status histerisis kicau D= 1 (terdeteksi kicauan) D= 0 (tidak ada terdeteksi kicau) D= X (dapat diabaikan)
VOICE ACTIVITY DETECTION Mengurangi variasi data akibat jarak antara penutur dengan mikrofon kondensor Dilakukan dengan membagi sinyal terhadap nilai peak-topeak NORMALISASI i max( ) min( ) i suara terekam (normalized+dc remove) 6.00E-01 4.00E-01 2.00E-01 amplitudo 0.00E+00-2.00E-01 0 0.02175 0.0435 0.06525 0.087 0.10875 0.1305 0.15225 0.174 0.19575 0.2175 0.23925 0.261 0.28275 0.3045 0.32625 0.348 0.36975 0.3915 0.41325 0.435 0.45675 0.4785 0.50025 0.522 0.54375 0.5655 0.58725 0.609 0.63075 0.6525 0.67425 0.696 0.71775 0.7395 0.76125 0.783 0.80475 0.8265 0.84825 0.87 0.89175 0.9135 0.93525 0.957 0.97875-4.00E-01-6.00E-01 waktu
MEL FREQUENCY CEPSTRUM COEFFICIENT
FRAME BLOCKING Dalam 1 frame berisi 1024 data suara (21ms) Overlapping antar frame 50% Hasil dari frame blocking merupakan sinyal yang telah dibagi beberapa frame. Dalam satu frame berisi 1024 data suara 1 2,..., 1024
WINDOWING Mengurangi aliasing dan kebocoran spectral akibat proses frame blocking Secara khusus digunakan fungsi window hamming 2n w[ n] 0.54 0.46 cos,0 n N 1 N 1 21ms Frame 21ms Frame Windowed 2.50E-01 1.50E-01 2.00E-01 1.50E-01 1.00E-01 1.00E-01 5.00E-02 power spektrum 5.00E-02 0.00E+00-5.00E-02-1.00E-01 0.128458333 0.1294375 0.130416667 0.131395833 0.132375 0.133354167 0.134333333 0.1353125 0.136291667 0.137270833 0.13825 0.139229167 0.140208333 0.1411875 0.142166667 0.143145833 0.144125 0.145104167 0.146083333 0.1470625 0.148041667 0.149020833 power spektrum 0.00E+00-5.00E-02-1.00E-01 0.128458333 0.129354167 0.13025 0.131145833 0.132041667 0.1329375 0.133833333 0.134729167 0.135625 0.136520833 0.137416667 0.1383125 0.139208333 0.140104167 0.141 0.141895833 0.142791667 0.1436875 0.144583333 0.145479167 0.146375 0.147270833 0.148166667 0.1490625-1.50E-01-2.00E-01-1.50E-01-2.50E-01 waktu (s) -2.00E-01 waktu (s)
FAST FOURIER TRANSFORM Dengan frekuensi sampling 48kHz Jumlah N= 1024, sehingga didapatkan resolusi FFT Hasil dari FFT dapat direduksi menjadi N=512 1.20E+00 48000 1024 46.875Hz / titik 1 2,..., 512 Spektrum Frekuensi Burung Perkutut 1.00E+00 Power Spektrum 8.00E-01 6.00E-01 4.00E-01 2.00E-01 0.00E+00 0 515.625 1031.25 1546.875 2062.5 2578.125 3093.75 3609.375 4125 4640.625 5156.25 5671.875 6187.5 6703.125 7218.75 7734.375 8250 8765.625 9281.25 9796.875 10312.5 10828.125 11343.75 11859.375 12375 12890.625 13406.25 13921.875 14437.5 14953.125 15468.75 15984.375 16500 17015.625 17531.25 18046.875 18562.5 19078.125 19593.75 20109.375 20625 21140.625 21656.25 22171.875 22687.5 23203.125 23718.75 Frekuensi (Hz)
MEL FREQUENCY WARPING Spektrum Frekuensi Dipetakan dalam Mel Filter Bank Pendekatan Filter Bank merupakan pendekatan telinga manusia sebagai filter y[ i, k] k a, a k b b a c k, b k c c b 0, k c k b Mel-Frequency Warping, 1 2,..., 512 1,1 x... 2,1 24,1 1,2 2,2... 24,2............ 1,512 2,512... 24,512 1,1... 2,1 24,1 1,2 2,2... 24,2............ 1,512 2,512... 24,512 filter 21 filter 17 filter 13 filter 9 filter 5 filter 1 0 2706.978602 3435.940554 3874.942035 skala mel filter index
DISCRETE COSINE TRANSFORM Manusia mendengar bukan berdasarkan spektrum frekuensi, melainkan sinyal dalam domain waktu Kelebihan sinyal domain waktu tidak menghilangkan ciri fonetis sinyal suara Dalam 1 detik, dihasilkan 92 frame, sehingga terbentuk matriks MFCC Perkutut 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 Frame Index 22 19 16 13 10 7 4 1 Coefficient Index 1,1 2,1... 24,1 1,2 2,2... 24,2............ 1,92 2,92... 24,92
JARINGAN SYARAF TIRUAN Arsitektur jaringan syaraf tiruan yang digunakan memiliki 2 hidden layer, 2208 node input layer, 100 neuron pada hidden layer 1, 40 neuron pada hidden layer 2 dan 4 neuron pada layer output target 0001= burung bondol 0010= burung gereja 0100= burung cekakak 1000= burung gelatik 1001= burung perkutut
REALISASI SISTEM
REALISASI SISTEM No Nilai Terukur (ADC) Sound Level Meter (db) 1 4.8 37 2 55.07 59.8 3 828.5 81 4 2215.5 93 Persamaan umum regresi log 1 y 0x log y log 0 1 log x n 1 N log x.log n1 y n1 n1 n1 n1 N N 2 2 n log x N [ log x. N log x] log y log 0 N log y. 1 n n 1 1 N N log x y 30.78x 0.1460
REGRESI LOGARITMIK No Nilai Terukur Oleh Sistem (db) Nilai Terbaca Oleh Sound Level Meter (db) Galat (%) 1 38.5 36.5 5.479452 2 40.6 39.8 2.01005 3 53.1 54.8 3.10219 4 54.39 54.1 0.536044 5 70.5 67.4 4.599407 6 75.2 73.4 2.452316 7 84.3 80.6 4.590571 8 88.4 81.2 8.866995 9 91.1 91.3 0.219058 10 95.1 95.2 0.105042
FAST FOURIER TRANSFORM No Nilai Terukur Oleh Sistem (Hz) Nilai Terbaca Pada Function (Hz) Galat (%) 1 421 436 3.440367 2 521 537.5 3.069767 3 609.3 604.2 0.844091 4 703.1 696.4 0.962091 5 843.7 826.8 2.044025 6 984.3 1003.9 1.952386 7 2515.3 2507.8 0.299067 8 3046.8 3049.4 0.085263 9 4025.1 4006.9 0.454216 10 7031.2 7013.4 0.2538
Voice Activity Detection No Kondisi Frekuensi (Hz) Kekuatan (db) Atas Bawah Atas Bawah 1 Senyap 843.75 286.4 36.45 33.8 (indoor) 750 287.3 36.06 33.2 1031.2 301.87 36.09 33.1 1078.1 301.1 36.74 33.1 2 Ruang Terbuka (Taman) 796.8 270 36.7 33.3 703.12 246.56 42.26 41.78 937.5 248.9 42.29 40.6 750 270.9 42.42 40.3 703 260.6 43.9 40.6 890.6 251.2 45.3 40.6 3 Pinggir Jalan Raya 656.25 240.9 57.4 51.9 1125 255 67.7 63.3 656.25 232 68.0 63.8 656.25 238.1 51.9 46.2 1031.2 244.2 56.6 49.7
Voice Activity Detection 1 frame white noise 4.00E+01 3.00E+01 2.00E+01 Amplitudo 1.00E+01 0.00E+00-1.00E+01-2.00E+01-3.00E+01 waktu (s) spektrum frekuensi white noise 1.20E+00 1.00E+00 power spektrum 8.00E-01 6.00E-01 4.00E-01 2.00E-01 0.00E+00 0 7031.25 14062.5 21093.75 frekuensi (Hz)
Voice Activity Detection No Jenis burung Frekuensi Kekuatan Suara (db) (Hz) 10cm 50cm 100cm 1 Gelatik 2813.9 82.5 60.4 51.4 2 Cekakak 3508.7 81.8 63.4 52.1 3 Bondol 3413.8 82.1 60.6 53 4 Gereja 3652.7 80.7 59.9 51.6 5 Perkutut 742 76.9 57.9 47.1
SHORT FAST FOURIER TRANSFORM Pengujian dengan dilakukan transformasi fourier waktu pendek (short time fourier transform) Waktu pemrosesan sinyal yang digunakan 21ms (1024 N data) Power Spektrum Spektrum Frekuensi Burung Perkutut 1.50E+00 1.00E+00 5.00E-01 0.00E+00 Frekuensi (Hz) Power Spektrum Spektrum Frekuensi Burung Bondol 1.50E+00 1.00E+00 5.00E-01 0.00E+00 Frekuensi (Hz) Power Spektrum Spektrum Frekuensi Burung Cekakak 1.50E+00 1.00E+00 5.00E-01 0.00E+00 Frekuensi (Hz) Power Spektrum Spektrum Frekuensi Burung Gelatik 1.50E+00 1.00E+00 5.00E-01 0.00E+00 Frekuensi (Hz) Power Spektrum Spektrum Frekuensi Burung Gereja 1.50E+00 1.00E+00 5.00E-01 0.00E+00 Frekuensi (Hz)
SHORT FAST FOURIER TRANSFORM JARINGAN SYARAF TIRUAN Pengujian digunakan untuk mengetahui respon pembelajaran NN terhadap spektrum frekuensi kicau Masing-masing burung dilatihkan 5 data spektrum (total 25 data) Iterasi Terhadap Koefisien Pembelajaran iterasi 25000 20000 15000 10000 5000 0 0.3 0.5 0.6 1 Koefisien Pembelajaran Iterasi Terhadap Galat MSE Iterasi 15000 10000 5000 0 0.0001 0.001 0.01 0.1 Galat MSE
SHORT FAST FOURIER TRANSFORM PENGUJIAN OFFLINE DENGAN BERKAS SUARA 70 Grafik Tingkat Keberhasilan Terhadap Kondisi Akustik Lingkungan 60 Tingkat Keberhasilan (%) 50 40 30 20 10 0 Indoor Luar Ruangan Ramai Kondisi Akustik Lingkungan 10cm 50cm 100cm
MFCC Spektrum frekuensi (STFT) pada lokasi yang berbeda memberikan spektrum yang berbeda amplitudo 1.50E+00 1.00E+00 5.00E-01 0.00E+00-5.00E-01-1.00E+00-1.50E+00 Frame 1 Frame 2 Kicau Burung Bondol 0 0.020854167 0.041708333 0.0625625 0.083416667 0.104270833 0.125125 0.145979167 0.166833333 0.1876875 0.208541667 0.229395833 0.25025 0.271104167 0.291958333 0.3128125 0.333666667 0.354520833 0.375375 0.396229167 0.417083333 0.4379375 0.458791667 0.479645833 0.5005 0.521354167 0.542208333 0.5630625 0.583916667 0.604770833 0.625625 0.646479167 0.667333333 0.6881875 0.709041667 0.729895833 0.75075 0.771604167 0.792458333 0.8133125 0.834166667 0.855020833 0.875875 0.896729167 0.917583333 0.9384375 0.959291667 0.980145833 time power spektrum 1.20E+00 1.00E+00 8.00E-01 6.00E-01 4.00E-01 2.00E-01 0.00E+00 Frekuensi Frame Blocking 1 0 7031.25 14062.5 21093.75 frekuensi power spektrum 1.20E+00 1.00E+00 8.00E-01 6.00E-01 4.00E-01 2.00E-01 0.00E+00 Frekuensi Frame Blocking 2 0 7031.25 14062.5 21093.75 frekuensi
MFCC MFCC Perkutut MFCC Gereja 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 Frame Index 21 17 13 9 5 1 Coefficient Index 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 Frame Index 21 16 11 6 1 Coefficient Index MFCC Gelatik MFCC Bondol 21 16 11 6 Coefficient Index 1 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 Frame Index Frame Index MFCC Cekakak Jawa 21 Coefficient Index 16 11 6 1 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 21 16 11 6 1 Coefficient Index Frame Index
MFCC JARINGAN SYARAF TIRUAN 30000 Grafik Iterasi Terhadap Koefisien Pembelajaran Iterasi 20000 10000 0 15000 0.3 0.5 0.6 1 Koefisien pembelajran MFCC FFT Grafik Iterasi Terhadap Galat MSE Iterasi 10000 5000 0 0.0001 0.001 0.01 0.1 Galat MSE MFCC FFT
PENGUJIAN OFFLINE DENGAN CEPSTRUM DAN SPEKTRUM TERSIMPAN Pengujian dilakukan dengan menguji cepstrum dan spektrum yang tersimpan Sebagian dipelajari, dan sisanya dibuat untuk pengujian No Pengujian Keberhasilan (%) MFCC FFT 1 1 Data Pembelajaran/jenis 80 48 burung 2 2 Data Pembelajaran/jenis 80 48 burung 3 3 Data Pembelajaran/jenis burung 80 76
PENGUJIAN OFFLINE DENGAN BERKAS SUARA KICAU Kondisi akustik dalam ruangan Kondisi akustik luar ruangan Kondisi akustik sekitar jalan raya No Jarak (cm) Keberhasilan (%) MFCC FFT 1 10cm 90 66 2 50cm 78 45 3 100cm 60 38 No Jarak (cm) Keberhasilan (%) MFCC FFT 1 10cm 84 60 2 50cm 72 46 3 100cm 52 38 No Jarak (cm) Keberhasilan (%) MFCC FFT 1 10cm 44 44 2 50cm 24 36 3 100cm 0 0
PENGUJIAN ONLINE Pengujian online dilakukan dengan menggunakan specimen berupa burung bondol No Urutan pengujian Keberhasilan (%) MFCC FFT 1 1 60 27 2 2 60 30 3 3 80 33 4 4 81 33 5 5 60 30
KESIMPULAN Spektrum frekuensi dan cepstrum frekuensi dapat dijadikan parameter pengenalan jenis burung Kondisi akustik yang berbeda dapat membuat batas VAD berubahubah Tingkat keberhasilan pengujian offlline dengan berkas suara pada sistem pengenalan suara burung dengan MFCC mencapai 90% dengan variasi jenis burung dan kicau Tingkat keberhasilan pengujian offlline dengan berkas suara pada sistem pengenalan burung dengan spektrum frekuensi mencapai 60%
VIDEO DEMO
VIDEO DEMO