Data yang pada awalnya berupa chanel stereo diubah ke dalam chanel mono. Kemudian data tersebut disimpan dengan file berekstensi WAV. Praproses Pada tahap ini dilakukan ekstraksi ciri menggunakan metode MFCC. Beberapa parameter MFCC yang digunakan pada penelitian ini adalah, sampling rate sebesar 11000 Hz, jumlah data tiap frame sebanyak 512, dan jumlah cepstral coefficient sebesar 13. Pembagian Data Uji dan Data Latih Untuk pembagian data uji dan data latih digunakan metode k-fold cross validation yang akan membagi data ke dalam subset-subset sesuai jumlah fold yang digunakan. Fold yang dipakai pada penelitian ini berjumlah 2 hingga 10 fold. Pelatihan Input layer merupakan matriks hasil ekstraksi ciri menggunakan MFCC yang dibagi menggunakan k-fold cross validation dengan target kelas pada masing-masing lagu yaitu kelas 1 untuk genre keroncong, kelas 2 untuk genre jazz, kelas 3 untuk genre klasik dan kelas 4 untuk genre rock. Jaringan LVQ yang dibentuk menggunakan 4 neuron sesuai dengan banyaknya genre dalam penelitian. Parameter lain yang digunakan adalah learning rate, learning rate yang dipilih adalah 0.01. Pengujian Proses pengujian dilakukan dengan menguji data yang telah dibagi ke dalam matriks data uji menggunakan metode k-fold cross validation. Data uji tersebut kemudian diuji menggunakan fungsi sim dari Matlab. Fungsi ini menghitung jarak data yang diuji menggunakan model JST hasil pelatihan menggunakan jarak eucllidean. Evaluasi Evaluasi merupakan proses untuk melihat apakah proses klasifikasi sudah tepat atau belum. Pada proses ini akan dilihat apakah tiaptiap lagu yang diuji apakah sudah masuk ke dalam kelas yang tepat atau belum. Hasil klasifikasi dapat dilihat dalam sebuah confusion matrix yang di dalamnya terdapat jumlah dari data yang masuk ke dalam kelas yang benar dan kelas yang salah. Lingkungan Pengembangan Untuk tahap pelatihan, penelitian ini diimplementasikan menggunakan spesifikasi perangkat keras dan lunak sebagai berikut: i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz. Memori 1 GB. Harddisk 80 GB. Keyboard dan mouse. Monitor. Speaker. ii. Perangkat Lunak Sistem operasi Windows XP Professional. Matlab 7.R2008b. Audacity 1.2.6. Pada tahap pengujian, spesifikasi perangkat keras dan lunak yang digunakan adalah: i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz Memori 1 GB. Harddisk 80 GB. Keyboard dan mouse. Monitor. ii. Perangkat Lunak Sistem operasi Windows XP Professional. Matlab 7.R2008b. Data Musik HASIL DAN PEMBAHASAN Penelitian ini menggunakan 80 buah lagu berformat mp3 yang sebelumnya telah diketahui jenis genre dari lagu tersebut. Genre musik yang digunakan adalah keroncong, jazz, klasik, dan rock dengan masing masing 20 buah lagu untuk setiap genre. Judul dari lagu yang digunakan untuk penelitian dapat dilihat pada Lampiran 1. Data tersebut kemudian disesuaikan panjang durasinya menjadi 5, 10, 20, dan 25 untuk selanjutnya diubah chanel-nya menjadi mono. Pemilihan 4 macam durasi tersebut bertujuan membandingkan durasi mana yang menghasilkan akurasi tertinggi. Gambar 10, 11, 12, dan 13 memperlihatkan grafik gelombang audio yang dipergunakan pada penelitian. 6
Gambar 10 Grafik durasi 5 sampling rate sebesar 11000 Hz, banyaknya data dalam satu frame sebanyak 512 data. Parameter ini dipilah berdasarkan parameter yang digunakan pada penelitian Prameswari (2010), apabila nilai sampling rate ditambah maka data yang diambil dalam satu semakin banyak dan semakin mendekati sinyal asli, tetapi waktu proses juga akan semakin panjang. Gambar 14 mengilustrasikan sinyal audio yang digunakan dengan sampling rate sebesar 11000 Hz dengan contoh dari data berdurasi 5. Ganbar 11 Gambar 12 Grafik durasi 10 Grafik durasi 20 Gambar 14 Sinyal audio Sinyal audio tersebut kemudian dilakukan proses frame blocking yang membagi data ke dalam beberapa frame. Overlap antar frame yang digunakan sebesar 94% dikarenakan overlap sebesar 94% menghasilkan akurasi yang paling optimal. Pada awal penelitian overlap antar frame yang digunakan sebesar 50% seperti pada penelitian Prameswari (2010), namun akurasi yang dihasilkan hanya berkisar 65% sehingga digunakan overlap sepanjang 94%. Hasil proses frame blocking dapat dilihat pada Gambar 15. Gambar 13 Praproses Grafik durasi 25 Data musik yang telah disesuaikan panjang durasinya dilakukan proses ekstraksi ciri menggunakan metode MFCC. Parameter yang digunakan dalam proses MFCC antara lain, Gambar 15 Hasil frame blocking Proses selanjutnya adalah proses windowing masing-masing frame, fungsi window yang digunakan adalah Hamming window. Gambar 7
16 mengilustrasikan hasil dari proses windowing. Hasil praproses untuk genre klasik, rock dan keroncong disajikan pada Lampiran 2. Gambar 16 Hasil proses windowing Kemudian dilakukan proses mel-frequency wrapping. Pada proses ini diperlukan beberapa filter yang saling overlap dalam domain frequensi. Selanjutnya hasil dari proses Melfrequency wrapping dilakukan proses konversi log mel spectrum ke dalam domain waktu. Hasil dari proses ini disebut mel frequency cepstrum coefficient. Hasil proses ini disajikan pada Gambar 17, 18, 19 dan 20. Gambar 19 Hasil ekastraksi ciri untuk genre klasik Gambar 17 Gambar 18 Hasil ekstraksi ciri untuk genre jazz Hasil ekstraksi ciri untuk genre keroncong Gambar 20 Pelatihan dan Pengujian Hasil ekstraksi ciri untuk genre rock. Setelah dilakukan proses ekstraksi ciri, selanjutnya dilakukan proses pembagian data menggunakan metode k-fold cross validation. Data yang akan dilakukan percobaan berupa sebuah matriks berukuran banyaknya sample dalam satu data dikali banyaknya data yaitu 80 buah lagu. Pada baris terakhir disisipkan kelas dari data tersebut sebagai inputan untuk pelatihan menggunakan LVQ. Untuk pelatihan paramater-parameter yang digunakan antara lain, jumlah folds, epoch, dan learning rate. Dalam penelitian ini jumlah epoch yang digunakan sebanyak 1000 epoch, tetapi proses pelatihan akan dihentikan ketika error rate pada pelatihan sudah stabil meskipun belum mencapai jumlah epoch maksimum. Learning rate yang digunakan adalah 0.01, nilai ini digunakan karena nilai ini yang menghasilkan error rate yang paling kecil. Ketika nilai learning rate ditambah proses pelatihan akan semakin cepat, tetapi berimbas pada error rate yang semakin besar. Sedangkan apabila 8
learning rate lebih rendah rendah dari 0.01 proses pelatihan akan semakin lambat tetapi error rate yang dihasilkan tidak lebih baik dari nilai learning rate sebesar 0.01. Jumlah fold yang digunakan berjumlah 2 hingga 10 fold. Setiap pembagian menghasilkan 2 buah matriks, satu matriks untuk data latih dan matriks lainnya untuk data uji. Pelatihan menggunakan LVQ menggunakan data dari matriks data latih hasil pembagian metode k-fold cross validation. Hasil dari pelatihan ini adalah sebuah model jaringan syaraf tiruan yang di dalamnya terdapat matriks hasil pelatihan berukuran banyaknya target dari data yang dilatih. Tabel 1 menyajikan hasil klasifikasi tiap fold. Tabel 1 pengujian tiap fold 2 88,7 % 3 91,02% 4 90% 5 5 90% 6 88,75% 7 88,75% 8 88,75% 9 87,5% 10 88,75% 2 87,5% 3 92,5% 4 93,75% 5 90% 10 6 90% 7 90% 8 88,75% 9 90% 10 92,5% 2 66,25% 3 67,5% 20 4 68,75% 5 65% 6 68% 7 65% 20 8 65% 9 70,8% 10 68,75% 2 61,25% 3 65% 4 67,5% 25 5 63,75% 6 63,75% 7 65% 8 65% 9 67,5% 10 66,25% Dari hasil percobaan dapat dilihat bahwa akurasi tertinggi didapatkan dari percobaan dengan durasi 5 dan 10, dengan akurasi masing masing 90%. Sedangkan percobaan dengan hasil akurasi terendah yaitu sebesar 65% didapatkan dari data dengan durasi sepanjang 25. Berdasarkan percobaan dapat dilihat bahwa percobaan menggunakan 4-fold menghasilkan nilai akurasi tertinggi dari tiap panjang durasi. Hasil klasifikasi genre musik dengan 4-fold dapat dilihat pada Tabel 2, 3, 4, dan 5. Tabel 2 Hasil klasifikasi data berdurasi 5 1 18 0 1 1 90% 2 0 20 0 0 100% 3 5 0 14 1 70% 4 0 0 0 20 100% Rata-rata 90% 9
Tabel 3 Hasil klasifikasi data berdurasi 10 1 18 0 1 1 90% 2 0 20 0 0 100% 3 2 0 18 0 90% 4 1 0 0 19 95% Rata-rata 93,75% Tabel 4 Hasil klasifikasi data berdurasi 20 1 16 2 1 1 80% 2 10 7 0 3 35% 3 3 3 14 0 70% 4 1 1 0 18 90% Rata-rata 65% Tabel 5 Hasil klasifikasi data berdurasi 25 1 16 2 1 1 80% 2 12 6 0 2 30% 3 2 4 14 0 70% 4 1 1 0 18 90% Rata-rata 67,5% 1 pada Tabel 2, 3, 4,dan 5 mewakili genre keroncong, kelas 2 mewakili genre jazz, kelas 3 mewakili genre keroncong, dan kelas 4 mewakili genre rock. Hasil klasifikasi untuk data dengan durasi 5 disajikan pada Tabel 2. Dari Tabel 2 dapat dilihat untuk genre dengan kelas 2 dan 4 yaitu genre jazz dan rock memiliki tingkat akurasi hingga 100%. Untuk genre keroncong tingkat akurasinya adalah 90% atau sebanyak 18 buah data diklasifikasikan ke kelas yang benar sedangkan dua buah data yang salah diklasifikasikan ke dalam kelas klasik (3) dan rock (4). Hasil akurasi yang paling rendah adalah genre klasik dengan tingkat akurasi sebesar 70%, sebanyak 5 buah data dari genre klasik diklasifikasikan ke dalam kelas keroncong dan 1 buah diklasifikasikan ke dalam genre rock. Untuk data dengan durasi 10 akurasi tertinggi dimiliki oleh genre jazz dengan akurasi sebesar 100 % seperti disajikan pada Tabel 3. Selanjutnya genre rock meiliki tingkat akurasi sebesar 95% jadi hanya satu data yang salah diklasifikasikan ke dalam kelas keroncong, sementara genre keroncong dan klasik memiliki akurasi yang sama yaitu 90%. Pada genre keroncong 1 data diklasifikasikan ke dalam kelas klasik dan satu lagu ke dalam kelas rock. Sementara untuk genre klasik 2 data yang salah diklasifikasikan ke dalam kelas rock. Data dengan akurasi sepanjang 20 mengalami penurunan tingkat akurasi. tertinggi yang pada durasi 10 dan 5 sebesar 100% kini hanya 90% yang dimiliki oleh genre rock seperti yang terlihat pada Tabel 4 dua data yang salah masuk ke dalam kelas keroncong dan jazz. Genre keroncong menghasilkan akurasi sebesar 80% dimana ada 4 buah data yang salah diklasifikasikan, 2 data diklasifikasikan sebagai kelas jazz, 1 data untuk klasik dan satu lagi untuk jazz. Genre klasik menghasilkan tingkat akurasi masing sebesar 70%, 3 buah data salah diklasifikasikan ke dalam genre keroncong dan 3 data lainya ke dalam genre jazz. Hasil akurasi terendah adalah genre jazz sebesar 35%, pada genre jazz sebanyak 10 data atau 50% dari keseluruhan diklasifikasikan ke dalam genre keroncong dan 3 lainya diklasifikasikan ke dalam genre rock. pada durasi 20 genre klasik lebih banyak diklasifikasikan ke dalam genre keroncong dikarenakan jarak hasil perhitungan jarak genre keroncong lebih dekat kepada genre keroncong. Penyebab lain adalah semakin panjangnya durasi, semakin banyak juga vektor yang dilakukan perhitungan sehingga membuat genre klasik lebih dekat kepada genre keroncong. Hasil klasifikasi dengan durasi 25 tidak terlalu berbeda jauh dengan yang dihasilkan pada data dengan durasi 20. Seperti terlihat pada Tabel 5, akurasi tertinggi masih dipegang oleh genre rock dengan akurasi sebesar 90%, sebanyak 18 data diklasifikasikan benar, 1 data diklasifikasikan sebagai kelas keroncong dan 1 data lagi diklasifikasikan ke dalam kelas jazz. Genre keroncong dengan 10
akurasi sebesar 80% dengan 2 data diklasifikasikan sebagai kelas jazz, 1 data diklasifikasikan sebagai kelas klasik dan 1 data sebagai kelas rock. Genre klasik dengan akurasi 70% dengan 2 buah data diklasifikasikan sebagai kelas keroncong dan 4 buah data diklasifikasikan sebagai kelas jaz. Genre jazz menghasilkan akurasi sebesar 30%, sebanyak 12 data diklasifkasikan salah ke dalam kelas keroncong dan 6 buah data diklasifikasikan sebagai kelas jazz. Hal ini disebabkan oleh jarak vector sampel dari genre klasik lebih dekat kepada genre keroncong. Untuk lebih jelasnya Lampiran 3 menampilkan hasil klasifikasi secara lengkap. Klasifikasi dengan durasi 20 dan 25 sekon mempunyai hasil yang lebih rendah dibandingkan klasifikasi dengan durasi 5 dan 10 sekon. Hal tersebut dikarenakan semakin panjang durasi semakin banyak pula vektor yang dihitung sehingga mempengaruhi hasil dari perhitungan jarak yang menyebabkan proses pelatihan tidak menghasilkan codebook vector yang sesuai. Untuk waktu pelatihan disajikan pada Gambar 21, data dengan durasi 5 memakan waktu 30 menit, durasi 10 memakan waktu 45 menit, durasi 20 memakan waktu 120 menit, dan durasi 25 memakan waktu 150 menit. 200 150 100 50 0 Gambar 21 Grafik perbandingan waktu proses Kesimpulan 30 45 5 Sekon 10 Sekon 120 20 Sekon 150 25 Sekon KESIMPULAN DAN SARAN Dari hasil percobaan yang dilakukan didapatkan, penelitian ini telah berhasil mengimplementasikan metode MFCC dan LVQ dalam membuat model codebook vector dan melakukan klasifikasi genre musik dengan akurasi sebesar 90% untuk durasi 5, 93,75% untuk durasi 10, 65 untuk durasi 20 dan 93,75% untuk durasi 25. Dari hasil percobaan dapat disimpulkan bahwa durasi 10 memiliki tingkat akurasi tertinggi. Hasil penelitian ini lebih tinggi dari penelitian Taluput et al (2002) yang menghasilkan akurasi sebesar 80%. Kecenderungan pengaruh penambahan durasi terhadap penurunan durasi terlihat pada data dengan durasi 10 dan 20 yang mengalami penurunan tingkat akurasi dari 93,75% menjadi 65%. Saran Saran yang penulis dapat berikan untuk penelitian selanjutnya yang berkaitan antara lain: 1. Penelitian ini hanya menggunakan 4 buah genre musik dari genre musik utama. Pada penelitian selanjutnya diharapkan menggunakan genre musik yang lebih beragam dan berasal dari sub genre. 2. Durasi yang digunakan pada penelitian ini adalah 5, 10, 20 dan 25 dan chanel yang digunakan adalah chanel mono. Diharapkan pada penelitian selanjutnya menggunakan durasi yang lebih beragam dan chanel stereo. 3. Untuk pengujian diperhatikan aspek distribusi, jadi tidak hanya dilihat dari jarak data uji terhadap codebook vector. DAFTAR PUSTAKA Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Procedding IEEE, Vol 85 No.9, September 1997. Do MN. 1994. Digital Signal Processing Mini- Project: An Automatic Speaker Recognition System. Audio Visual Communication Laboratory, Swiss Federal Institute of technology, Laussanne,Switzerland. Fausett L. 1994. Fundamental of Neural Network Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Han J, Kamber M. 2001. Data Minning Concepts & Techniques. USA: Academic Press Prameswari. 2010. Pengembangan Sistem Pengenalan Kata Berbasiskan Fonem dalam Bahasa Indonesia dengan Metode Resilent Backpropagation. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. 11