IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

dokumen-dokumen yang mirip
PENDAHULUAN. Latar Belakang

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK ADE FRUANDTA

PENDAHULUAN Tujuan Latar Belakang Ruang Lingkup Manfaat Penelitian TINJAUAN PUSTAKA Nada dan Chord Gitar

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

PENGEMBANGAN MODEL CODEBOOK UNTUK IDENTIFIKASI CHORD GITAR TONI HARYONO

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

PENDAHULUAN. Latar Belakang

Perbandingan Sistem Perhitungan Suara Tepuk Tangan dengan Metode Berbasis Frekuensi dan Metode Berbasis Amplitudo

PEMBANGUNAN METODE CODEBOOK UNTUK IDENTIFIKASI CHORD GITAR DENGAN TEKNIK EKSTRAKSI CIRI MFCC ARMEN MARTA

SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN MENGGUNAKAN MFCC DAN CODEBOOK PUSPITA KARTIKA SARI

TINJAUAN PUSTAKA. Pengenalan Suara

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI CHORD GITAR ARVIANI RIZKI

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

Karakteristik Spesifikasi

PENERAPAN MODEL CODEBOOK UNTUK TRANSKRIPSI SUARA KE TEKS DENGAN EKSTRAKSI CIRI MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC) MEGGA DARA NINGGAR SUHARTO

PENDAHULUAN. Latar Belakang

BAB II LANDASAN TEORI

PENERAPAN LEARNING VECTOR QUANTIZATION

BAB IV IMPLEMENTASI DAN EVALUASI. 4.1 Spesifikasi Hardware dan Software yang digunakan dalam penelitian

PENDAHULUAN. Latar Belakang

PENERAPAN MEL FREQUENCY CEPSTRUM COEFFICIENTS

BAB I PENDAHULUAN 1.1 Latar Belakang

Pengenalan Chord pada Alat Musik Gitar Menggunakan CodeBook dengan Teknik Ekstraksi Ciri MFCC

vii MODEL FONEM DENGAN PENDEKATAN DISTRIBUSI NORMAL UNTUK PENGENALAN KATA MENGGUNAKAN MFCC SEBAGAI EKSTRAKSI CIRI ADITYA DWI HAPSARI

PENGENALAN CHORD PADA ALAT MUSIK GITAR MENGGUNAKAN CODEBOOK DENGAN TEKNIK EKSTRAKSI CIRI MFCC ELGHAR WISNUDISASTRA

PENDETEKSIAN TINGKAT USIA MUDA, DEWASA DAN TUA MENGGUNAKAN METODE MFCC DAN FUZZY LOGIC BERBASISKAN SPEECH RECOGNITION

PENDAHULUAN TINJAUAN PUSTAKA

Sistem Verifikasi Penutur menggunakan Metode Mel Frequensi.

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN RESILIENT BACKPROPAGATION UNTUK IDENTIFIKASI CHORD GITAR YOSI NURHAYATI

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT MENGGUNAKAN FUZZY C-MEANS UNTUK IDENTIFIKASI PEMBICARA. Oleh : VICKY ZILVAN G

PERBANDINGAN BERBAGAI METODE UKURAN JARAK UNTUK PENGENALAN FONEM DENGAN MFCC SEBAGAI EKSTRAKSI CIRI YULIANA SURI

BAB II LANDASAN TEORI

PENERAPAN LVQ DENGAN INISIALISASI K-MEANS UNTUK PENGENALAN NADA GITAR DENGAN EKSTRAKSI CIRI MFCC ARIF BUDIARTO

SISTEM PENGENALAN PENUTUR DENGAN METODE MEL-FREQUENCY WRAPPING DAN KUANTISASI VEKTOR

TRANSKRIPSI SUARA KE TEKS BAHASA INDONESIA BERBASIS SUKU KATA MENGGUNAKAN CODEBOOK DAN 2-LEVEL DYNAMIC PROGRAMMING SINTYA ROSDWIANTY

PENGENALAN NADA SULING REKORDER MENGGUNAKAN FUNGSI JARAK CHEBYSHEV

2.4. Vector Quantization Kebisingan BAB III METODOLOGI PENELITIAN Desain Penelitian Requirements Definition...

PENGENALAN CHORD PADA GITAR DENGAN MFCC SEBAGAI METODE EKSTRAKSI CIRI DAN JARINGAN SARAF TIRUAN SEBAGAI METODE PENGENALAN POLA FAUZI SISWOYO

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Digital Signal Processing To Identify chords Singer Using Mel Frequency Cepstral Coefficients (MFCC) and Neural Network Backpropagation Methods

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN:

Pengembangan Model HMM Berbasis Maksimum Lokal Menggunakan Jarad Euclid Untuk Sistem Identifikasi Pembicara -,,

INDEPT, Vol. 3, No.1, Februari 2013 ISSN

IDENTIFIKASI TUTUR DENGAN METODE KUANTISASI VEKTOR LINDE - BUZO - GRAY TUGAS AKHIR OLEH: YOHANES AGUNG SANTOSO PRANOTO

APLIKASI SPEECH TO TEXT BERBAHASA INDONESIA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENTS DAN HIDDEN MARKOV MODEL (HMM)

BAB I PENDAHULUAN. 1.1 Latar Belakang

Jurnal Komputer Terapan Vol. 1, No. 2, November 2015, Jurnal Politeknik Caltex Riau

PENDETEKSIAN KATA DENGAN MFCC SEBAGAI EKSTRAKSI CIRI DAN CODEBOOK SEBAGAI PENGENALAN POLA MOHAMMAD LUTHFI SYAFRUL

APLIKASI SPEECH RECOGNITION BAHASA INDONESIA DENGAN METODE MEL-FREQUENCY CEPSTRAL COEFFICIENT

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Penerapan Metode Mel Frequency Ceptral Coefficient dan Learning Vector Quantization untuk Text-Dependent Speaker Identification

Aplikasi Teknik Speech Recognition pada Voice Dial Telephone

BAB 2 LANDASAN TEORI

Perbandingan Spektral Musik Klasik dengan Musik Etnik Jawa menggunakan Analisis MFCC dan Beat Strength

ANALISIS DAN PERANCANGAN PROGRAM APLIKASI. mahasiswa Binus University secara umum. Dan mampu membantu

PENGEMBANGAN MODEL MARKOV TERSEMBUNYI UNTUK IDENTIFIKASI PEMBICARA. Oleh : WINI PURNAMASARI G

Perbandingan Spektral Musik Klasik dengan Musik Etnik Jawa menggunakan Analisis MFCC dan Beat Strength

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

Jaringan Syaraf Tiruan pada Robot

BAB III METODOLOGI PENELITIAN

Bab 3. Perancangan Sistem

SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari

1. Pendahuluan Latar Belakang

PENGENALAN SUARA BERDASARKAN USIA DAN JENIS KELAMIN MENGGUNAKAN ALGORITME SUPPORT VECTOR MACHINE (SVM) IKRA DEWANTARA

BAB II TINJAUAN PUSTAKA

PERBANDINGAN PEMODELAN WAVELET DAN MFCC SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM DENGAN TEKNIK JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER

1. BAB I PENDAHULUAN 1.1. Latar Belakang

PENENTUAN AKOR GITAR DENGAN MENGGUNAKAN ALGORITMA SHORT TIME FOURIER TRANSFORM

PENGENALAN NADA PIANIKA MENGGUNAKAN JENDELA SEGITIGA, DCT, DAN FUNGSI JARAK EUCLEDIAN

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

Identifikasi Pembicara Menggunakan Algoritme VFI5 dengan MFCC sebagai Pengekstraksi Ciri

UNIVERSITAS INDONESIA ANALISIS DAN PERANCANGAN PERANGKAT LUNAK UNTUK MENENTUKAN JENIS IKAN SECARA REAL-TIME DENGAN MENGGUNAKAN METODA HIDDEN MARKOV

Klasifikasi Burung Berdasarkan Suara Kicau Burung Menggunakan Jaringan Syaraf Tiruan Propagasi Balik

BAB IV HASIL DAN PEMBAHASAN. dicolokan ke komputer, hal ini untuk menghindari noise yang biasanya muncul

Identifikasi Pembicara dengan Menggunakan Mel Frequency Cepstral Coefficient (MFCC) dan Self Organizing Map (SOM)

Kata Kunci: Suara; Mel Frequency Cepstral Coefficient; K-NEAREST NEIGHBOUR

BAB I PENDAHULUAN I.1 Latar Belakang

UNIVERSITAS INDONESIA SIMULASI PENGENALAN CHORD TERISOLASI BERBASISKAN SPEAKER DEPENDENT DENGAN METODE HIDDEN MARKOV MODEL SKRIPSI

BAB 2 LANDASAN TEORI

PERBANDINGAN METODE HIDDEN MARKOV MODEL DAN VECTOR QUANTIZATION UNTUK APLIKASI IDENTIFIKASI SUARA

PEMODELAN SUPPORT VECTOR MACHINE UNTUK PENGENALAN CHORD PADA ALAT MUSIK GITAR MENGGUNAKAN METODE MFCC SEBAGAI EKSTRAKSI CIRI WIDO ARYO ANDHIKA

SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM DENGAN PROBABILISTIC NEURAL NETWORK (PNN) SEBAGAI CLASSIFIER AYU GUSTIAWATI FAKULTAS MATEMATIKA DAN ILMU

Verifikasi Biometrika Suara Menggunakan Metode MFCC Dan DTW

PENGENALAN SUARA CHORD DENGAN TIGA NADA PENYUSUN PADA INSTRUMEN PIANO MENGGUNAKAN LEARNING VECTOR QUANTIZATION SARAH RAHMANIA HANIF

APLIKASI PENDETEKSI EMOSI MANUSIA MENGGUNAKAN METODE MFCC DAN DTW

Available online at TRANSMISI Website TRANSMISI, 13 (3), 2011,

PENGENALAN KATA BERBASISKAN FONEM DENGAN PEMODELAN RESILIENT BACKPROPAGATION PRAMESWARI

APLIKASI PENGENALAN SUARA DIGITAL NADA DASAR PIANO SKRIPSI M. ARDIANSYAH

Implementation of Voice Recognition Based Key Using Mel Frequency Cepstral Coefficient (MFCC)

SISTEM AKSES BUKU PERPUSTAKAAN JURUSAN TEKNIK ELEKTRO UNIVERSITAS ANDALAS MENGGUNAKAN APLIKASI PENGENALAN WICARA DENGAN METODA MFCC-VQ dan SSE

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB 1 PENDAHULUAN. Universitas Indonesia

IMPLEMENTASI MEL FREQUENCY CEPSTRAL COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK PENGENALAN NADA PADA ALAT MUSIK BELLYRA

PENGENALAN LAFAL HUKUM NUN MATI MENGGUNAKAN HIDDEN MARKOV MODEL

Warble Of Lovebird Classification Using Mel Frequency Cepstral Coefficient (MFCC)

BAB III METODOLOGI. dari suara tersebut dapat dilihat, sehingga dapat dibandingkan, ataupun dicocokan dengan

BAB 2 LANDASAN TEORI

Transkripsi:

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK Ade Fruandta dan Agus Buono Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor Jl. Meranti Wing 20 Level 5 Darmaga Bogor 16680 Telp. (0251) 8625584, Faks. (0251) 8625584 E-mail: ade_g64070074@yahoo.com ABSTRAK Pada paper ini disajikan teknik pengenalan nada, baik sebagai nada tunggal maupun nada campuran dengan menggunakan mel-frequency cepstrum coefficients (MFCC) sebagai ekstraksi ciri dan pemodelan codebook untuk pengenal pola. Suara yang dpergunakan adalah suara piano dan dikenali 12 nada tunggal dan 66 nada campuran yang disample dengan 11 khz pada durasi 1 detik. Pembuatan codebook dilakukan secara bertahap, yaitu codebook jumlah campuran dan codebook nada (tunggal dan campuran) yang dikembangkan dengan menggunakan teknik pengklasteran. Hasil percobaan menunjukkan bahwa jumlah codeword yang optimum adalah 20 dengan lebar frame 256 data, dengan akurasi 98.2%. Namun demikian, ada beberapa nada yang sulit dikenali, yaitu CC#, CD, CF, dan A#B yang memiliki akurasi masing-masing di bawah 50%. Untuk nada CC# lebih sering dikenali nada C, untuk nada CD lebih sering lebih sering dikenali dengan nada C#, untuk nada CF lebih sering dikenali dengan nada C# dan CF#, sedangkan untuk nada A#B lebih sering dikenali dengan nada A#. Kesalahan dalam pengenalan ini dikarenakan nada-nada tersebut berada dalam klaster yang sama sehingga jarak nada-nada tersebut saling berdekatan. Kata Kunci: MFCC, Codebook, Codework, klastering, nada 1. PENDAHULAN 1.1 Latar Belakang Seiring dengan berkembangnya keinginan manusia terhadap kemampuan komputer untuk membantu pekerjaannya, maka riset pemrosesan suara senantiasa makin meningkat. Hal ini salah satunya disebabkan banyaknya bidang terapan, mulai dari mesin pendikte, mesin konversi sinyal ke teks, mesin penjawab otomatis, hingga pengembangan interface manusia-komputer berbasis suara. Namun demikian, hasil penelitian yang telah ada hingga sekarang belum memberikan hasil yang memuaskan, (Buono, 2009). Oleh karena itu, riset bidang ini masih terus dan layak dilakukan. Dalam bidang musik, telah dilakukan penelitian mengenai pengenalan cord dengan menggunakan teknik Mel-Frequency Cepstral Coefficients (MFCC) sebagai ekstraksi ciri dan codebook sebagai pengenal pola dengan akurasi mencapai 97%, (Wisnudisastra dan Buono, 2009). Dalam musik, hal yang tidak kalah pentingnya adalah mengetahui nada-nada pembentuk cord tersebut. Hal ini adalah hal yang biasa dilakukan oleh seorang perfect pitch. Oleh karena itu, pada penelitian ini akan dilakukan pemodelan suara untuk pengenalan nada-nada penyusun cord dengan teknik MFCC dan codebook yang dimodifikasi sebagai pengenal pola nada. 1.2 Tujuan Penelitian ini bertujuan untuk meneliti kinerja dari algoritma codebook dalam mengidentifikasi campuran nada pada suara piano. 1.3 Ruang Lingkup Adapun ruang lingkup dari penelitian ini antara lain: a. Campuran nada yang akan dikenali hanya campuran nada pada satu octave dan maksimal dua campuran nada. b. Suara yang dikenali hanya dimainkan dengan cara ditekan secara serentak. c. Suara yang dikenali hanya suara piano pada keyboard Yamaha PSR 3000. 1.4 Manfaat Penelitian Penelitian ini diharapkan dapat memberikan informasi mengenai kinerja codebook dalam mengidentifikasi campuran nada pada sebuah suara piano. 2. TINJAUAN PUSTAKA 2.1 Pemrosesan Sinyal Suara Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung (Al-Akaidi, 2007). Pemrosesan suara itu sendiri merupakan teknik mentransformasi sinyal suara menjadi informasi yang berarti sesuai dengan yang diinginkan (Buono, 2009). Sinyal secara umum dapat dikatagorikan sesuai dengan peubah bebas waktu: a. Sinyal waktu kontinyu: kuantitas sinyal terdefinisi pada setiap waktu dalam selang G-8

kontinyu. Sinyal waktu kontinyu disebut juga sinyal analog. b. Sinyal waktu diskret: kuantitas sinyal terdefinisi pada waktu diskret tertentu, yang dalam hal ini jarak antar waktu tidak harus sama. Secara umum proses transformasi tersebut terdiri atas digitalisasi sinyal analog, ekstraksi ciri dan diakhiri dengan pengenalan pola untukk klasifikasi, seperti yang terlihat pada Gambar 1. biasanya memiliki panjang 10-30 ms atau 256-1024 data. Proses ini akan berlanjut sampai seluruh sinyal sudah masuk ke dalam satu atau lebih frame seperti yang diilustrasikan dalam Gambar 3. Gambar 3. Ilustrasi frame blocking pada sinyal suara Gambar 1. Tahapan transformasi sinyal suara menjadi Informasi (Jurafsky dalam Buono, 2009) 2.2 Ekstraksi Sinyal Suara MFCC merupakan salah satu metode ekstraksi ciri dan cara yang paling sering digunakan pada berbagai bidang area pemrosessan suara, karena dianggap cukup baik dalam merepresentasikan ciri sebuah sinyal. Cara kerja MFCC didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh telinga manusia sehingga mampu merepresentasikan ciri sinyal suara sebagaimana manusia merepresentasikannya. Blok diagram proses MFCC dapat dilihat pada Gambar 2 (Do, 1994). Windowing Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame demi frame dan pada setiap frame-nya dilakukan windowing dengan fungsi window tertentu. Proses windowing bertujuan untuk meminimalisasi ketidakberlanjutan sinyal pada awal dan akhir setiap frame (Do, 1994). Dengan pertimbangan kesederhanaan formula dan nilai kinerja window, maka penggunaan window Hamming cukup beralasan (Buono, 2009). Jika kita definisikan window sebagai w(n), 0 n N 1, dimana N adalah jumlah sampel pada setiap frame-nya, maka hasil dari windowing adalah sinyal: y 1(n) = x 1(n) w(n), 0 n N 1 dimana w(n) biasanya menggunakan window Hamming yang memiliki bentuk: w(n) = 0.54 0.46 cos ( ), 0 n N 1 Fast Fourier Transform (FFT) FFT adalah algoritma cepat untuk mengimplementasi discrete fourier transform (DFT). FFT ini mengubah masing-masing frame N sampel dari domain waktu menjadi domain frekuensi yang didefinisikan sebagai berikut: Speech Frame blockin g Frame Windowin FFT, k 0,1,2,,N 1 hasil rangkaian { } direpresentasikan sebagai berikut: Mel cepstrum Cepstru Melfrequency Wrapping Spectrum a. Frekuensi positif 0 f yang merepresentasikan nilai 0 n 1, Gambar 2. Blok diagram proses MFCC Frame blocking Pada proses ini, sinyal suara disegmentasi menjadi beberapa frame yang saling tumpang tindih (overlap), hal ini dilakukan agar tidak ada sedikitpun sinyal yang hilang (deletion). Panjang frame b. Frekuensi negatif < f < 0 yang merepresentasikan nilai + 1 n N 1. Disini, berarti frequency sampling. Hasil dari tahapan ini biasanya disebut dengan spectrum atau periodogram. Mel-Frequency Wrapping G-9

Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara tidak dapat diukur dalam skala linear. Untuk setiap nada dengan frekuensi aktual, f, diukur dalam Hz, sebuah subjective pitch diukur dalam sebuah skala yang disebut mel. Skala melfrequency ialah sebuah frekuensi rendah yang bersifat linear di bawah 1000 Hz dan sebuah frekuensi tinggi yang bersifat logaritmik di atas 1000 Hz. Persamaan berikut menunjukkan hubungan skala mel dengan frekuensi dalam Hz: Cepstrum mel(f) = 2595 * log 10 (1 + f / 700) Langkah terakhir yaitu mengubah spektrum log mel menjadi domain waktu. Hasil ini disebut mel frequency cepstrum coefficient (MFCC). Cepstral dari spectrum suara merepresentasikan sifat-sifat spektral lokal sinyal untuk analisis frame yang diketahui. Koefisien mel spectrum merupakan sebuah nilai riil sehingga kita dapat mengkonversinya ke dalam dominan waktu menggunakan Discrete Cosine Transform (DCT). Selanjutnya kita dapat menghitung MFCC sebagai, sebagai = )cos * ( ) +, dimana, k 0, 2,, K 1 dan n 0, 1,, K 1. 2.3 Codebook Codebook adalah sekumpulan titik (vektor) yang mewakili distribusi suara dari individu maupun objek tertentu dalam ruang suara. Titik-titik pada codebook disebut codeword. Codebook merupakan cetakan yang dihasilkan suara setelah melalui proses training. Dalam pengenalan suara, masing-masing suara yang akan dikenali harus dibuatkan codebooknya. Codebook dibentuk dengan cara membentuk cluster semua vektor ciri yang dijadikan sebagai training set dengan menggunakan clustering algorithm. Algoritma clustering yang akan dipakai adalah algoritma K-means. Langkah pertama yang dilakukan oleh algoritma ini adalah menentukan Kinitial centroid, di mana K adalah parameter spesifik yang ditentukan user, yang merupakan jumlah cluster yang diinginkan.setiap titik atau objek kemudian ditempatkan pada centroid terdekat, dan kumpulan titik atau objek pada tiap centroid disebut cluster.centroid pada setiap cluster kemudian akan berubah berdasarkan setiap objek yang ada pada cluster. Kemudian langkah penempatan objek dan perubahan centroid diulangi sampai tidak ada objek yang berpindah cluster. Prinsip dasar dalam penggunaan codebook adalah setiap suara yang masuk akan dihitung jaraknya kesetiap codebook yang telah dibuat. Kemudian jarak setiap sinyal suara ke codebook dihitung sebagai jumlah jarak setiap frame sinyal suara tersebut ke setiap codeword yang ada pada codebook. Kemudian dipilih codeword dengan jarak minimum. Setelah itu setiap sinyal suara yang masuk akan diidentifikasi berdasarkan jumlah dari jarak minimum tersebut. Perhitungan jarak dilakukan dengan menggunakan jarak euclid yang didefinisikan sebagai berikut:, ) ) 2 1 dimana x dan y adalah vektor yang ada sepanjang D. Jika dalam sinyal suara input O terdapat T frame dan merupakan masing-masing codeword yang ada pada codebook maka jarak sinyal input dengan codebook dapat dirumuskan:, ) ) 3. METODE PENELITIAN 3.1 Kerangka Pemikiran Penelitian ini dikembangkan dengan metode yang terdiri dari beberapa tahap yaitu: (1) pengambilan data, (2) preprocessing, (3) pemodeln codebook, (4) evaluasi. Alur metode ini dapat dilihat pada Gambar 4. 3.2 Pengambilan Data Suara yang akan digunakan dalam penelitian ini adalah suara grand piano yang terdapat di keyboard Yamaha PSR 3000. Nada yang diambil sebanyak 12 nada tunggal yang terdiri dari C, C#, D, D#, E, F, F#, G, G#, A, A#, dan B yang masing-masing akan diulang sebanyak 15. Nada campuran diambil sebanyak 66 nada campuran yang masing-masing akan diulang sebanyak 15. 3.3 Preprocessing Pada tahap ini, suara yang telah direkam akan dilakukan proses pemotongan silent. Pemotongan silent ini diharapkan dapat menfokuskan sinyal yang akan diteliti. Setelah melalui tahap pemotongan silent sinyal akan diekstraksi ciri pada setiap nada dengan menggunakan MFCC. Pada penelitian ini akan diteliti dengan lebar frame 128, 256, dan 512, overlap sebesar 50%, dan jumlah cepstral coefficient setiap frame sebanyak 13 koefisien. 3.4 Pemodelan Codebook Pada tahap ini akan dibuat codebook dari 120 suara nada tunggal dan 660 suara nada campuran yang telah melalui preprocessing. Tiap suara tersebut akan di clustering dengan menggunakan K- means sehingga dihasilkan cluster-cluster yang berisi vektor-vektor nada yang berdekatan. Setiap cluster tersebut kemudian dibuatkan codebook-nya. Masing-masing codebook yang dibuat memiliki jumlah k cluster 5, 10, 15, dan 20. Setiap codebook yang telah dibuat akan di clustering kembali berdasarkan banyaknya campuran nada dengan G-10

menggunakan K-means sehingga dihasilkan clustercluster yang berisi vektor-vektor yang mencirikan banyaknya campuran nada. Data training: 12 nada tunggal @ 10 66 nada campuran @ 10 Pemodelan codebook menggunakan K-means berdasarkan banyaknya campuran nada Pemodelan codebook menggunakan K-means untuk setiap nada baik nada tunggal maupun nada campuran Data codebook Mulai Pengambilan Data: 12 nada tunggal @ 15 66 nada campuran @ 15 Frekuensi sampel 11 khz Durasi 1 detik Preprocessing: Pemotongan silent Ekstraksi ciri MFCC Frame: 128, 256, dan 512 Overlap: 50% Koefisien: 13 Data testing: 66 nada campuran @ 5 12 nada tunggal @ 5 Pencocokan campuran nada Evaluasi Dokumentasi Selesai Gambar 4. Diagram alur proses identifikasi campuran nada 3.5 Evaluasi Evaluasi sistem ini melihat akurasi identifikasi campuran nada pada suara piano. Data yang digunakan adalah 1490 suara yang terdiri dari 286 nada campuran yang masing-masing lima suara dan 12 nada tunggal yang masing-masing lima suara. Untuk perhitungan tingkat akurasi identifikasi campuran nada dilakukan dengan membandingkan jumlah output yang benar diidentifikasi oleh sistem dengan jumlah seluruh data yang diuji. Persentase tingkat akurasi dihitung dengan fungsi berikut: 4. HASIL DAN PEMBAHASAN 4.1 Preprocessing 100 Dari data yang telah direkam yaitu 780 data training dan 390 data testing, terlebih dahulu dilakukan pemotongan silent yang akan diteruskan dengan ekstraksi ciri menggunakan MFCC. Dalam pemakaiannya terdapat lima parameter yang harus digunakan yaitu suara, sampling rate, frame, overlap, dan cepstral coefficient. Pemilihan nilai untuk sampling rate, overlap, dan cepstral coefficient berturut-turut adalah 11000 Hz, 50%, dan 13. Untuk nilai frame akan diuji dengan nilai 128, 256, dan 512. Proses ekstraksi ini akan dilakukan terhadap semua data. MFCC mengubah data menjadi sebuah matriks yang berisikan vektor-vektor yang menunjukkan ciri spectral dari data tersebut. 4.2 Pemodelan Codebook Pada proses pembuatan codebook, data yang digunakan adalah data training yang berupa vektor ciri dari suara piano yang telah direkam dan melewati praprocessing. Terdapat dua jenis model codebook yang akan dimodelkan yaitu codebook tiap nada baik tunggal maupun campuran dan codebook berdasarkan banyaknya campuran nada. a. Pemodelan codebook tiap nada Terdapat 12 jenis nada tunggal dan 66 jenis nada campuran yang masing-masing berjumlah 10 suara yang akan dimodelkan codebook-nya. Tiap jenis nada akan melalui proses clustering dengan K- means. Nilai K yang akan diuji adalah 5, 10, 15, dan 20 untuk tiap frame yang diuji yang masing-masing frame adalah 128, 256, dan 512. Setelah melalui proses clustering akan didapatkan vektor-vektor centroid yang mencirikan masing-masing jenis nada. b. Pemodelan codebook berdasarkan banyaknya campuran nada Setelah mendapatkan model codebook untuk tiap nada, maka hasil tersebut akan diguanakan dalam pemodelan codebook berdasarkan banyaknya campuran nada. Model codebook sebelumnya akan dipisahkan berdasarkan banyaknya campuran nada, dalam hal ini satu campuran dan dua campuran. G-11

Setelah dipisahkan maka akan di proses dengan clustering menggunakan K-means. Nilai K yang akan diuji adalah 5, 10, 15, dan 20 untuk tiap frame yang diuji yang masing-masing frame adalah 128, 256, dan 512. Setelah melalui proses clustering akan didapatkan vektor-vektor centroid yang mencirikan masing-masing banyaknya campuran yang ada. 4.3 Pengujian Pengujian akan dilakukan dengan data testing yang telah direkam dengan sampling rate 11000 Hz. Banyaknya data testing ini adalah 12 nada tunggal dan 66 nada campuran yang masing-masing nada memiliki lima suara. Data testing ini akan melewati preprocessing untuk pemebersihan data dan pencirian data. Setelah melalui preprocessing masing-masing suara akan dikenali berdasarkan model codebook yang telah dibuat sebelumnya dengan mencari jarak yang terdekat dengan model. Untuk tahap awal suara yang akan dikenali berdasarkan banyaknya campuran pada suara tersebut. Setelah diketahui banyaknya campuran pada suara tersebut maka akan dikenali jenis nadanya berdasarkan banyaknya campuran nada. Alur pengenalan campuran nada dapat dilihat pada Gambar 5. Mulai Ekstraksi ciri MFCC Hitung banyaknya campuran pada suara Pengujian dilakukan dengan frame yang berbeda-beda. Nilai frame yang diuji adalah 128, 256, dan 512. Pada frame 128 didapatkan akurasi sebesar 92%, saat frame 256 didapatkan akurasi 96% dan saat frame 512 didapatkan akurasi 96%. Grafik akurasi untuk setiap frame-nya dapat dilihat pada Gambar 6. 97% 96% 95% 94% 93% 92% 91% Gambar 6. Akurasi untuk setiap nilai frame Untuk setiap frame memiliki nilai akurasi berdasarkan nilai K yang berbeda-beda. Nilai K yang digunakan adalah 5, 10, 15, dan 20. Untuk hasil akurasi frame 128 dapat dilihat pada Gambar 7. Dari Gambar 7 dapat dilihat bahwa akurasi yang paling besar saat K bernilai 15 yang memiliki akurasi 94%. 96% 94% 92% 88% Frame = 128 Frame = 256 Frame = 512 = 5 Frame 128 = 10 = 15 = 20 Gambar 7. Akurasi untuk setiap nilai K pada frame 128 Apakah banyaknya campuran satu? Ya Cari nada satu campuran yang terdekat Tidak Cari nada dua campuran yang terdekat Untuk hasil akurasi frame 256 dapat dilihat pada Gambar 8. Dari Gambar 8 dapat dilihat bahwa akurasi paling besar saat K bernilai 20 yang memiliki akurasi 98%. Untuk hasil akurasi frame 512 dapat dilihat pada Gambar 9. Dari Gambar 9 dapat dilihat bahwa akurasi paling besar saat K bernilai 20 yang memiliki akurasi 98%. Selesai Gambar 5. Alur pengenalan campuran nada G-12

100% 95% 85% Gambar 8. Akurasi untuk setiap nilai K pada frame 256 100% 95% 85% = 5 = 5 Frame 256 = 10 = 15 Frame 512 = 10 = 15 = 20 = 20 Gambar 9. Akurasi untuk setiap nilai K pada frame 512 5. KESIMPULAN DAN SARAN 5.1 Kesimpulan Penelitian ini telah berhasil dalam mengimplementasikan metode codebook dalam mengenali banyaknya campuran dari sebuah suara. Total nilai rataan tertinggi dihasilkan saat frame 256 dan 512 yang masing-masing 96%. Pada frame 256 akurasi tertinggi didapatkan pada nilai K = 20 sebesar 98,2051%. Sedangkan untuk frame 512 akurasi tertinggi didapatkan pada nilai K = 20 sebesar 97,9487%. Namun dari nilai-nilai akurasi tersebut terdapat nada-nada yang sulit dikenali atau memiliki nilai akurasi yang rendah yaitu CC#, CD, CF, dan A#B yang memiliki akurasi masing-masing di bawah 50%. Untuk nada CC# lebih sering dikenali nada C, untuk nada CD lebih sering lebih sering dikenali dengan nada C#, untuk nada CF lebih sering dikenali dengan nada C# dan CF#, sedangkan untuk nada A#B lebih sering dikenali dengan nada A#. Kesalahan dalam pengenalan ini dikaranakan nadanada tersebut berada dalam cluster yang sama sehingga jarak nada-nada tersebut berdekatan yang menyebabkan sulit untuk dikenali. 5.2 Saran Penelitian ini masih sangat sederhana sehingga memungkinkan untuk dikembangkan lebih lanjut. Saran-saran yang dapat diberikan untuk pengembangan lebih lanjut adalah: a. Pada penelitian ini nada yang dimodelkan hanya berada pada satu octave sehingga jika dimasukkan dengan nada yang sama namun dengan octave yang berbeda maka akan salah dikenali. Sehingga disarankan untuk memodelkan semua octave pada piano untuk dimodelkan. b. Banyaknya campuran pada penelitian ini hanya dua campuran, sehingga disarankan untuk memodelkan semua kemungkinan campuran yang ada. c. Nada campuran yang dapat dikenali hanya berada pada satu octave, jika terdapat campuran yang masing-masing berbeda octave maka tidak dapat dikenali. Sehingga disarankan untuk memodelkan campuran nada yang masingmasing berbeda octave. PUSTAKA Al-Kaidi M. (2007). Fractal Speech Processing. Cambridge University Press. Buono, A. (2009). Representasi Nilai HOS dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi Pembicara di Lingkungan Ber-noise Menggunakan HMM. [Disertasi]. Depok: Program Studi Ilmu Komputer, Universitas Indonesia. Do MN. (1994). DSP Mini-Project: An Automatic Speaker Recognition System. Jurafsky D, Martin JH. (2007). Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Wisnudisastra, E dan A. Buono. (2009). Pengenalan Cord pada Alat Musik Gitar Menggunakan Codebook dengan Teknik Ekstraksi Ciri MFCC. Jurnal Ilmiah Ilmu Komputer, Departemen Ilmu Komputer IPB. G-13