Latar Belakang PENDAHULUAN Genre musik adalah pengelompokan musik sesuai dengan kemiripan satu dengan yang lain, seperti kemiripan dalam hal frekuensi musik, struktur ritmik, dan konten harmoni. Genre musik merupakan hal yang penting bagi masyarakat yang menyukai musik, karena membuat masyarakat dengan mudah mengelompokan musik yang yang mereka sukai. Pada umumnya pengelompokan lagu dilakukan secara manual yaitu dengan mendengarakan lagu secara langsung kemudian dikelompokkan bedasarkan genre lagu tersebut. Metode ini mempunyai keunggulan yaitu mempunyai tingkat akurasi yang tinggi, tetapi kekurangan dari metode ini adalah sangat tidak efisien untuk data berjumlah banyak, karena harus didengarkan satu persatu. Pengelompokan genre lagu secara otomatis mulai dikembangkan untuk membantu mengelompokan lagu yang berjumlah banyak. Proses ini mempunyai keunggulan dalam jumlah data yang bisa diporses namun kekurangan dari proses otomatis adalah akurasi yang rendah. Untuk dapat dikelompokkan data musik harus melalui proses ekstraksi ciri yang bertujuan mendapatkan ciri dari lagu tersebut. Salah satu metode yang dapat digunakan adalah Mel-frequency cepstral coefficient (MFCC). MFCC mengekstraksi ciri suara berdasarkan spektrum yang dihasilkan dari musik. Penelitian yang menggunakan MFCC dalam proses ekstraksi ciri antara lain, Prameswari (2010) yang melakukan penelitian pengembangan sistem pengenalan kata berbasis fonem dalam bahasa Indonesia dengan metode resilent backpropagation, dan Wisnudhisastra (2009) tentang pengenalan chord gitar dengan teknik ekstraksi ciri Mel-frequency cepstral coefficient (MFCC). Leaning Vector Quantization (LVQ) merupakan salah satu contoh dari jaringan syaraf tiruan yang digunakan untuk proses klasifikasi. Metode LVQ sudah banyak digunakan untuk penelitian, seperti penelitian oleh Effedy et al (2008) mengenai deteksi pornografi pada citra digital menggunakan pengolahan citra dan jaringan syaraf tiruan, Qur ani & Rosmalinda (2010) yang meneliti jaringan syaraf tiruan LVQ untuk aplikasi pengenalan tanda tangan. Klasifikasi genre musik telah dilakukan oleh Talupur et al (2002). Pada penelitian ini genre yang diklasifikasikan antara lain klasik, rock, jazz dan country dengan akurasi tertinggi yang dihasilkan sebesar 80 %. Berdasarkan penelitian yang terkait, metode MFCC dan LVQ dapat digunakan untuk klasifikasi genre musik. Rumusan Masalah Rumusan masalah dalam penelitian ini adalah bagaimana membuat model klasifikasi data audio menggunakan jaringan syaraf tiruan LVQ. Ruang Lingkup Ruang lingkup pada penelitian ini antara lain: 1. Dalam penelitian ini, genre musik yang diklasifikasikan dibatasi hanya genre rock, klasik, jazz dan keroncong. 2. Musik yang diolah mempunyai durasi 5, 10, 20, dan 25 detik dengan format wav. 3. Data musik menggunakan chanel mono. Tujuan Tujuan dari penelitian ini adalah mengembangkan model Learning Vector Quantization untuk klasifikasi genre musik. Manfaat Penelitian ini diharapkan dapat melakukan klasifikasi pada data musik menggunakan Learning Vector Quantization agar dapat membantu peran manusia dalam hal menentukan genre musik, sehingga genre musik tidak lagi bersifat relatif, tetapi dapat dikelompokkan dengan standardisasi yang telah ditentukan. Genre Musik TINJAUAN PUSTAKA Genre musik adalah label yang dibuat dan digunakan manusia untuk mengkategorikan dan menggambarkan musik di dunia (Tzanekatis 2002). http://allmusic.com mengelompokan genre musik ke dalam 11 genre utama, yaitu pop/rock, jazz, r&b, rap, country, blues, elektronik, latin, reggae, internasional, dan klasik. Digitalisasi Gelombang Audio Gelombang audio merupakan gelombang longitudinal yang merambat melalui medium seperti medium padat, cair, atau gas. Gelombang suara merupakan gelombang analog yang apabila diolah menggunakan peralatan elektronik, gelombang tersebut harus melalui tahap digitalisasi sehingga gelombang tersebut berupa data digital. 1
Dalam proses digitalisasi audio, gelombang audio melalui dua tahap proses yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling merupakan proses pengambilan nilai dalam jangka waktu tertentu. Nilai yang dimaksud adalah amplitudo, yaitu besarnya volume suara pada suatu waktu. Proses sampling menghasilkan sebuah vektor yang menyatakan nilai nilai hasil sampling. Vektor tersebut mempunyai panjang yang bergantung pada lamanya sinyal dan sampling rate yang digunakan. Sampling rate sendiri adalah banyaknya nilai yang diambil setiap detiknya. Untuk mengukur panjang vektor sinyal, digunakan rumus beikut: S = F s T dengan S = panjang vektor F s = sampling rate (Hertz) T = panjang sinyal (detik) Tahap selanjutnya adalah proses kuantisasi. Kuantisasi bertujuan menyimpan nilai amplitudo ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000). Ekstraksi Ciri Sinyal Audio Ekstraksi ciri berfungsi mengkarakterisasi sinyal audio. Beberapa fitur sinyal audio yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan Mel- Frequency. Proses ini dilakukan karena sinyal audio merupakan sinyal yang bervariasi yang diwaktukan dengan lambat. Jadi pada jangka waktu yang sangat pendek (5 100 ms), karakteristik sinyal tersebut hampir sama, tetapi dalam jangka waktu yang lebih panjang (0,2 detik atau lebih), karakteristik sinyal audio tersebut berubah dan memperlihatkan perbedaan sinyal audio yang diolah (Do 1994). Mel-Frequency Cepstrum Coefficient (MFCC) Tujuan dari MFCC adalah mengadapatasi kemampuan telinga manusia dalam mendengar dan mengolah suara. Proses MFCC dapat dilihat pada Gambar 1. Gambar 1 Sinyal Kontinu Frame Blocking frame Windowing Fast Fourier Transform spectrum Mel Frequency Wrapping Cepstrum mel spctrum mel spectrum Diagram blok proses MFCC (Do 1994) Tahap-tahap dari proses MFCC dapat dijelaskan sebagai berikut (Do 1994): 1. Frame Blocking, proses ini membagi sinyal audio ke dalam frame. Tiap frame terdiri atas N sample. Gambar 2 menggambarkan ilustrasi dari proses frame blocking. Gambar 2 Proses Frame Blocking 2
2. Windowing, pada tahap ini sinyal yang telah dibagi ke dalam frame dilakukan proses windowing untuk meminimalkan diskontinuitas sinyal, dengan cara meminimalkan distorsi spectral dengan menggunakan window untuk memperkecil sinyal hingga mendekati nol pada awal dan akhir tiap frame. Window yang dipakai pada proses ini adalah Hamming window dengan persamaan : w n = 0,54 0,46 cos (2πn/(N 1)) 4. Mel-Frequency Wrapping. Berdasarkan studi psikofisik, persepsi manusia terhadap frekuensi sinyal audio tidak berupa skala linier. Jadi untuk setiap nada dengan frekuensi aktual f (dalam Hertz) dapat diukur tinggi subjektifnya menggunakan skala mel. Skala mel-frequency adalah selang frekuensi di bawah 1000 Hz, dan selang logaritmik untuk frekuensi di atas 1000 Hz. Gambar 5 mengilustrasikan filter pada proses mel- frequency wrapping. (1) Dengan n = 1, 2, 3... N-1 (N adalah jumlah frame yang digunakan) Ilustrasi dari Hamming window dapat dilihat pada Gambar 3. Gambar 3 Hamming window 3. Fast Fourier Transform (FFT), merupakan fast algorithm dari Discrete Fourier Transform (DFT) yang berguna untuk konversi setiap frame dari domain waktu menjadi domain frekuensi. Berikut persamaan yang digunakan : Xn = N 1 k=0 2πjkn /N x k e (2) dengan n=0, 1, 2... N-1, j adalah bilangan imajiner, yaitu j = 1. Gambar 4 memperlihatkan sinyal yang sudah berubah ke dalam domain frekuensi. Gambar 5 Mel - frequency filter Proses wrapping terhadap sinyal dalam domain frekuensi menggunakan persamaan berikut : X i = log 10 N 1 k=0 x k H i (k) (3) dengan i= 1,2,3...,M (M adalah jumlah filter segitiga) dan H i (k) adalah nilai filter segitiga untuk frekuensi akustik sebesar k. 5. Cepstrum, tahap ini menkonversikan log mel spectrum ke dalam domain waktu Hasil proses ini disebut mel frequency cepstrum coefficients. Berikut ini adalah persamaan yang digunakan dalam DCT : M Cj = X i cos(j(i 1)/2 j =1 π M ) (4) dengan j= 1,2,3,... K (K adalah jumlah koefisien yang diingankan) dan M adalah jumlah filter. Gambar 4 Sinyal audio dalam domain frekuensi 3
Klasifikasi Klasifikasi merupakan proses menemukan sekumpulan model (atau fungsi) yang menggambarkan dan membedakan konsep atau kelas-kelas data, dengan tujuan agar model tersebut dapat digunakan untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui (Han & Kamber 2001). Klasifikasi terdiri atas dua tahap, yaitu pelatihan dan prediksi (klasifikasi). Pada tahap pelatihan dibentuk sebuah model domain permasalahan dari setiap instance yang ada. Penentuan model tersebut berdasarkan analisis pada sekumpulan data pelatihan, yaitu data yang label kelasnya telah diketahui. Pada tahap klasifikasi, dilakukan prediksi kelas dari instance (kasus) baru yang telah dibuat pada tahap pelatihan (Güvnir et al 1998). Jaringan Syaraf Tiruan Jaringan syaraf tiruan (JST) adalah sistem pemroses informasi yang memiliki karakteristik mirip dengan jaringan syaraf biologi. JST dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi, dengan asumsi bahwa: Pemrosesan informasi terjadi pada banyak elemen sederhana (neuron). Sinyal dikirimkan di antara neuron-neuron melalui penghubung-penghubung (sinapsis). Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi (Jong 1992). Arsitektur jaringan syaraf tiruan disajikan pada Gambar 6. Gambar 6 Arsitektur JST sederhana (Jong 1992) Learning Vector Quantization (LVQ) Learning Vector Quantization (LVQ) merupakan suatu metode klasifikasi pola yang masing-masing unit output mewakili kategori atau kelas tertentu. Vektor bobot untuk unit output sering disebut vektor referensi untuk kelas yang dinyatakan oleh unit tersebut. LVQ mengklasifikasikan vektor input dalam kelas yang sama dengan unit output yang memiliki vektor bobot yang paling dekat dengan vektor input (Widodo 2005). Ilustrasi dari jaringan LVQ dapat dilihat pada Gambar 7. Gambar 7 Arsitektur jaringan LVQ (Widodo 2005) Algoritme pelatihan LVQ bertujuan memperoleh unit output yang paling dekat dengan vektor input. Bila x dan w c berasal dari kelas yang sama, maka vektor bobot didekatkan ke vektor input, tetapi apabila berasal dari kelas yang berbeda, maka vektor bobot akan dijauhkan dengan vektor input. Kelebihan dari LVQ adalah: 1. nilai error yang lebih kecil dibandingkan dengan jaringan syaraf tiruan seperti backpropagation. 2. Dapat meringkas data set yang besar menjadi vektor codebook berukuran kecil untuk klasifikasi. 3. Dimensi dalam codebook tidak dibatasi seperti dalam teknik nearest neighbour. 4. Model yang dihasilkan dapat diperbaharui secara bertahap. Kekurangan dari LVQ adalah: 1. Dibutuhkan perhitungan jarak untuk seluruh atribut. 2. Akurasi model dangan bergantung pada inisialisasi model serta parameter yang digunakan (learning rate, iterasi, dan sebagainya). 3. Akurasi juga dipengaruhi distribusi kelas pada data training. 4. Sulit untuk menentukan jumlah codebook vektor untuk masalah yang diberikan. Algoritme LVQ Berikut ini adalah algoritme dari LVQ : Diinisialisasikan nilai bobot, maksimum epoch, dan learning rate, Nilai input (m,n), dan kelas target dimasukkan ke dalam vector (1,n) Selama kondisi berhenti bernilai salah, dilakukan : 4
a. Untuk masing-masing pelatihan vektor input x b. Dicari j sehingga x-w j bernilai minimum c. Perbaiki w j dengan : 1. Jika T = c j maka wj baru =wj lama + α x-wj lama 2. Jika T c j wj baru =wj lama - α x-wj lama d. Learning rate dikurangi e. Kondisi berhenti dilihat Informasi tersebut didapatkan dari buku, jurnal, internet dan artikel-artikel yang membahas klasifikasi genre musik. Mulai Studi Pustaka Perumusan Masalah Data Musik Praproses K-fold Cross Validation Metode k-fold cross validation membagi data menjadi k-buah subset, sebanyak k-1 buah subset digunakan sebagai training set dan 1 buah set sebagai testing set (Guiterez 2000). Sebagai gambaran, pada Gambar 8 terdapat ilustrasi k-fold cross validation menggunakan 4 buah fold. Data Latih Pembagian data (K-fold cross validation) Data Uji LVQ Pelatihan Klasifikasi Evaluasi Selesai Gambar 8 Contoh cross validation dengan 4 fold Confusion Matrix Confusion matrix mengandung informasi tentang aktual dan prediksi klasifikasi yang dilakukan oleh sistem. Hasil dari sebuah sistem sering dievaluasi menggunakan confusion matrix (Kohavi and Provost 1998). METODE PENELITIAN Penelitian ini melalui beberapa tahapan proses. Tahapan proses yang dilakukan dalam penelitian ini disajikan pada Gambar 9. Studi Pustaka Pada tahap ini, kegiatan yang dilakukan adalah mengumpulkan semua informasi atau literatur yang terkait dalam penelitian. Gambar 9 Perumusan Masalah Metodologi penelitian Pada tahap ini dilakukan analisis terhadap permasalahan seperti pemilihan data musik, pemilihan bagian yang akan dijadikan data latih dan data uji. Data Musik Data yang digunakan pada penelitian ini berjumlah 80 buah data yang dibagi ke dalam 4 buah genre yaitu, keroncong, jazz, klasik, dan rock, (masing masing genre terdiri atas 20 buah lagu). Penulis menggunakan 4 buah genre dikarenakan penelitian ini dimaksudkan sebagai model awal penelitian klasifikasi genre musik. Setelah data dikumpulkan proses selanjutnya adalah memotong durasi dari tiap lagu secara random, menjadi 5, 10, 20 dan 25 detik dengan menggunakan software Audacity. 5