udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

dokumen-dokumen yang mirip
PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang

PENDAHULUAN Tujuan Latar Belakang Ruang Lingkup Manfaat Penelitian TINJAUAN PUSTAKA Nada dan Chord Gitar

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

BAB II DASAR TEORI Suara. Suara adalah sinyal atau gelombang yang merambat dengan frekuensi dan

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

PENDETEKSIAN TINGKAT USIA MUDA, DEWASA DAN TUA MENGGUNAKAN METODE MFCC DAN FUZZY LOGIC BERBASISKAN SPEECH RECOGNITION

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang

BAB II LANDASAN TEORI

TINJAUAN PUSTAKA. Pengenalan Suara

BAB IV IMPLEMENTASI DAN EVALUASI. 4.1 Spesifikasi Hardware dan Software yang digunakan dalam penelitian

Available online at TRANSMISI Website TRANSMISI, 13 (3), 2011,

APLIKASI SPEECH RECOGNITION BAHASA INDONESIA DENGAN METODE MEL-FREQUENCY CEPSTRAL COEFFICIENT

BAB II LANDASAN TEORI

Kata Kunci: Suara; Mel Frequency Cepstral Coefficient; K-NEAREST NEIGHBOUR

Perbandingan Sistem Perhitungan Suara Tepuk Tangan dengan Metode Berbasis Frekuensi dan Metode Berbasis Amplitudo

Jurnal Komputer Terapan Vol. 1, No. 2, November 2015, Jurnal Politeknik Caltex Riau

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI CHORD GITAR ARVIANI RIZKI

BABI PENDAHULUAN. Pada dunia elektronika dibutuhkan berbagai macam alat ukur dan analisa.

APLIKASI PENGENALAN UCAPAN DENGAN EKSTRAKSI MEL-FREQUENCY CEPSTRUM COEFFICIENTS

IMPLEMENTASI MEL FREQUENCY CEPSTRAL COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK PENGENALAN NADA PADA ALAT MUSIK BELLYRA

BAB 2 LANDASAN TEORI

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

PENGEMBANGAN MODEL CODEBOOK UNTUK IDENTIFIKASI CHORD GITAR TONI HARYONO

BAB I PENDAHULUAN 1.1 Latar Belakang Suara adalah merupakan gabungan berbagai sinyal, tetapi suara murni secara teoritis dapat dijelaskan dengan

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Verifikasi Biometrika Suara Menggunakan Metode MFCC Dan DTW

MODUL 2 SINYAL DAN SUARA

Digital Signal Processing To Identify chords Singer Using Mel Frequency Cepstral Coefficients (MFCC) and Neural Network Backpropagation Methods

Pengenalan Suara Burung Menggunakan Mel Frequency Cepstrum Coefficient dan Jaringan Syaraf Tiruan pada Sistem Pengusir Hama Burung

SISTEM PENGENALAN PENUTUR DENGAN METODE MEL-FREQUENCY WRAPPING DAN KUANTISASI VEKTOR

Identifikasi Suara Vokal Suku Banjar Berdasarkan Frekuensi Formant

vii MODEL FONEM DENGAN PENDEKATAN DISTRIBUSI NORMAL UNTUK PENGENALAN KATA MENGGUNAKAN MFCC SEBAGAI EKSTRAKSI CIRI ADITYA DWI HAPSARI

Penerapan Metode Mel Frequency Ceptral Coefficient dan Learning Vector Quantization untuk Text-Dependent Speaker Identification

ANALISIS DAN PERANCANGAN PROGRAM APLIKASI. mahasiswa Binus University secara umum. Dan mampu membantu

PENERAPAN MEL FREQUENCY CEPSTRUM COEFFICIENTS

BAB II PENCUPLIKAN DAN KUANTISASI

BAB I PENDAHULUAN 1.1 Latar Belakang

Hubungan 1/1 filter oktaf. =Frekuesi aliran rendah (s/d -3dB), Hz =Frekuesi aliran tinggi (s/d -3dB), Hz

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

PENDAHULUAN TINJAUAN PUSTAKA

Implementation of Voice Recognition Based Key Using Mel Frequency Cepstral Coefficient (MFCC)

APLIKASI SPEECH TO TEXT BERBAHASA INDONESIA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENTS DAN HIDDEN MARKOV MODEL (HMM)

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN:

BAB 2 LANDASAN TEORI

Perbandingan Estimasi Selubung Spektral dari Bunyi Voiced Menggunakan Metoda Auto-Regressive (AR) dengan Weighted-Least-Square (WLS) ABSTRAK

Warble Of Lovebird Classification Using Mel Frequency Cepstral Coefficient (MFCC)

Jaringan Syaraf Tiruan pada Robot

SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN MENGGUNAKAN MFCC DAN CODEBOOK PUSPITA KARTIKA SARI

APLIKASI PENDETEKSI EMOSI MANUSIA MENGGUNAKAN METODE MFCC DAN DTW

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN I.1 Latar Belakang

Penerapan Perintah Suara Berbahasa Indonesia untuk Mengoperasikan Perintah Dasar di Windows

Bab II Teori Dasar. Gambar 2.1 Diagram blok sistem akuisisi data berbasis komputer [2]

s(t) = C (2.39) } (2.42) atau, dengan menempatkan + )(2.44)

2.4. Vector Quantization Kebisingan BAB III METODOLOGI PENELITIAN Desain Penelitian Requirements Definition...

BAB II LANDASAN TEORI. Konsep ini pertama kali diperkenalkan oleh Fritz Bauer, yang menerapkan

KONSEP DAN TERMINOLOGI ==Terminologi==

DETEKSI SLEEP APNEA MELALUI ANALISIS SUARA DENGKURAN DENGAN METODE MEL FREKUENSI CEPSTRUM COEFFICIENT

PEMBANGUNAN METODE CODEBOOK UNTUK IDENTIFIKASI CHORD GITAR DENGAN TEKNIK EKSTRAKSI CIRI MFCC ARMEN MARTA

IDENTIFIKASI KEBERADAAN TIKUS BERDASARKAN SUARANYA MENGGUNAKAN SMS GATEWAY

SPECGRAM & SPECGRAMDEMO

Sistem Verifikasi Penutur menggunakan Metode Mel Frequensi.

BAB I PENDAHULUAN. manusia satu dengan manusia lainnya berbeda-beda intonasi dan nadanya, maka

Jony Sitepu/ ABSTRAK

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

PENENTUAN AKOR GITAR DENGAN MENGGUNAKAN ALGORITMA SHORT TIME FOURIER TRANSFORM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

PERBANDINGAN BERBAGAI METODE UKURAN JARAK UNTUK PENGENALAN FONEM DENGAN MFCC SEBAGAI EKSTRAKSI CIRI YULIANA SURI

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model

MODUL 5 EKSTRAKSI CIRI SINYAL WICARA

Identifikasi Pembicara dengan Menggunakan Mel Frequency Cepstral Coefficient (MFCC) dan Self Organizing Map (SOM)

INDEPT, Vol. 3, No.1, Februari 2013 ISSN

Verifikasi Suara menggunakan Jaringan Syaraf Tiruan dan Ekstraksi Ciri Mel Frequency Cepstral Coefficient

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 2 LANDASAN TEORI

MODUL 1 PROSES PEREKAMAN DAN PENGEDITAN SINYAL WICARA

BAB II DIGITISASI DAN TRANSMISI SUARA. 16Hz 20 khz, yang dikenal sebagai frekwensi audio. Suara menghasilkan

PENGENALAN AHKAMUL HURUF MENGGUNAKAN METODE LPC DAN TRANSFORMASI SLANT. Abstract

PERBANDINGAN METODE HIDDEN MARKOV MODEL DAN VECTOR QUANTIZATION UNTUK APLIKASI IDENTIFIKASI SUARA

PENGENALAN NADA SULING REKORDER MENGGUNAKAN FUNGSI JARAK CHEBYSHEV

PERGERAKAN ROBOT LENGAN BERBASIS PERINTAH SUARA MENGGUNAKAN MFCC DAN ANN

MODUL II : SPEECH AND AUDIO PROCESSING

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK ADE FRUANDTA

BAB II DASAR TEORI. sebagian besar masalahnya timbul dikarenakan interface sub-part yang berbeda.

Karakterisasi Suara Vokal dan Aplikasinya Dalam Speaker Recognition

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

BAB 7. INSTRUMENTASI UNTUK PENGUKURAN KEBISINGAN

Klasifikasi Burung Berdasarkan Suara Kicau Burung Menggunakan Jaringan Syaraf Tiruan Propagasi Balik

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT MENGGUNAKAN FUZZY C-MEANS UNTUK IDENTIFIKASI PEMBICARA. Oleh : VICKY ZILVAN G

KOMUNIKASI DATA PROGRAM STUDI TEKNIK KOMPUTER DOSEN : SUSMINI I. LESTARININGATI, M.T

UNIVERSITAS INDONESIA ANALISIS DAN PERANCANGAN PERANGKAT LUNAK UNTUK MENENTUKAN JENIS IKAN SECARA REAL-TIME DENGAN MENGGUNAKAN METODA HIDDEN MARKOV

PENGENALAN CHORD PADA GITAR DENGAN MFCC SEBAGAI METODE EKSTRAKSI CIRI DAN JARINGAN SARAF TIRUAN SEBAGAI METODE PENGENALAN POLA FAUZI SISWOYO

PENGGOLONGAN SUARA BERDASARKAN USIA DENGAN MENGGUNAKAN METODE K MEANS

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

Transkripsi:

BAB II DASAR TEORI 2.1 Suara (Speaker) Suara adalah sinyal atau gelombang yang merambat dengan frekuensi dan amplitudo tertentu melalui media perantara yang dihantarkannya seperti media air, udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia lainnya dengan suara. Pembangkitan ucapan manusia dimulai dengan awal konsep dari gagasan yang ingin disampaikan pada pendengar. Pengucap mengubah gagasan tadi dalam struktur linguistic dengan memilih kata atau frasa yang secara tepat dapat mewakili dan membawakannya dengan tata bahasa yang dimengerti antara pengucap dan pendengar. Ucapan yang diucapkan memiliki tujuan tertentu dengan asumsi bahwa ucapan tersebut diucapkan secara benar, dapat diterima, dan dipahami oleh pendengar yang dituju. Pembangkitan ucapan pada hakekatnya berhubungan dengan kemampuan mendengar. Sinyal ucapan dibangkitkan oleh organ vokal dan ditransmisikan melalui udara menuju telinga pendengar. Pada Gambar 2.1 diperlihatkan proses antara pengucap dengan pendengar serta mekanisme dalam produksi suara dan pemahaman suara oleh manusia [1].

Gambar 2.1 Lingkaran komunikasi Suara Sinyal suara terjadi secara perlahan waktu variasi sinyal (disebut sebagai kuasi stasioner). Contoh dari sinyal suara yang ditunjukkan pada Gambar 2.2 dibawah. Ketika diperiksa selama periode yang cukup singkat (5 sampai 100 msec), karakteristiknya cukup stasioner. Namun, selama jangka waktu yang lama (diurutan 1/5 detik atau lebih) sinyal karakteristik dapat mengubah pantulan berbicara berbeda dengan suara yang diucapkan. Oleh karena itu, waktu singkat spectral analisis adalah cara yang paling umum untuk mengkarakteristik sinyal suara. 0.5 0.4 0.3 0.2 0.1 0-0.1-0.2-0.3-0.4-0.5 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 Time (second) Gambar 2.2 Contoh sinyal suara

Pada dasarnya banyak macam kemungkinan parameter yang mewakili sinyal suara untuk melakukan pengenalan pembicara, seperti Linear Prediksi Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan lain lain. MFCC mungkin yang paling dikenal dan paling popular, dan akan dijelaskan dalam tulisan ini. MFCC (mel frequency cepstrum coefficients) yang didasarkan pada variasi Bandwidth yang dikenali telinga manusia dengan frekuensi, filter spasi linear pada frekuensi rendah dan logaritmik pada frekuensi tinggi telah digunakan untuk menangkap karakteristik penting dari pembicara. Hal ini dinyatakan dalam skala mel frequency, yang merupakan frekuensi linier berada dibawah 1000 Hz dan logaritmik diatas 1000 Hz [2]. 2.2 Pengolahan suara Pengolahan suara adalah suatu perkembangan teknik dan sistem yang memungkinkan komputer suatu perangkat untuk mengenali dan memahami kata kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata - kata diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode kode tertentu untuk mengidentifikasikan kata kata tersebut, hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan [3].

2.2.1 Produksi Pengolahan Ucapan Untuk dapat memahami bagaimana produksi ucapan dilakukan, maka kita perlu mengetahui bagaimana Mekanisme vocal manusia dibangun. Pada Gambar 2.3 bagian yang paling penting dari mekanisme vocal manusia adalah saluran vocal bersama dan rongga nasal, yang dimulai pada velum. Velum merupakan sebuah mekanisme seperti pintu jebakan yang digunakan untuk merumuskan bunyi nasal saat diperlukan. Ketika velum diturunkan, rongga nasal digabungkan bersama-sama dengan saluran vocal untuk merumuskan sinyal ucapan yang diinginkan. Daerah crossectional dari saluran vocal dibatasi oleh lidah, bibir, rahang dan velum dan bervariasi 0-20 cm2 [4]. Gambar 2.3 Mekanisme vocal manusia

2.2.2 Sifat ucapan manusia Salah satu tolak ukur yang paling penting dari ucapan adalah frekuensi ucapan itu sendiri. Ucapan dapat dibedakan satu sama lain dengan bantuan frekuensi. Ketika frekuensi ucapan meningkat, nada ucapan menjadi tinggi dan menyakitkan. Ketika frekuensi ucapan berkurang, ucapan akan lebih dalam. Gelombang ucapan adalah gelombang yang terjadi dari getaran materi ucapan. Nilai tertinggi dari frekuensi yang manusia dapat hasilkan sekitar 10 khz. Dan nilai terendah adalah sekitar 70 Hz. Ini adalah nilai nilai maksimum dan minimum. Interval frekuensi ini berubah untuk setiap orang. Dan besarnya ucapan dinyatakan dalam decibel (db). Ucapan manusia normal memiliki Interval frekuensi 100 Hz 3200 Hz dan besarmya antara 16 Hz dan 20 khz. Dan 0,5 % perubahan frekuensi adalah kepekaan telinga manusia [4]. Karakteristik Pembicara : a) Berdasarkan perbedaan panjang saluran vocal, laki-laki, perempuan, dan ucapan anak-anak yang berbeda. b) Aksen daerah adalah perbedaan frekuensi resonansi, jangka waktu, dan nada. c) Individu memiliki pola frekuensi resonansi dan pola durasi yang unik (memungkinkan kita untuk mengidentifikasi pembicara).

2.3 Mel Frequency Cepstrum Coefficients (MFCC) Mel Frequency Cepstrum Coefficients (MFCC) merupakan satu metode yang banyak dipakai dalam bidang speech recognition. Metode ini digunakan untuk melakukan feature extraction, sebuah proses yang mengkonversikan sinyal suara menjadi beberapa parameter. Masukan suara biasanya direkam pada sampling rate diatas 10000 Hz. Frekuensi sampling ini dipilih untuk meminimalkan atau mengkonversi efek aliasing dari analog ke digital. Sinyalsinyal ini dapat menangkap semua frekuensi sampai dengan 5 Hz, yang meliputi sebagian besar energi suara yang dihasilkan oleh manusia. Seperti yang telah dibahas sebelumnya, tujuan utama dari proses MFCC adalah untuk mengikuti perilaku telinga manusia. Lihat Gambar 2.4 [2]. continuous speech Frame Blocking frame Windowing FFT spectrum mel cepstrum Cepstrum mel spectrum Mel-frequency Wrapping Gambar 2.4 Block diagram proses MFCC Keunggulan dari metode MFCC ini adalah : a. Mampu menangkap karakteristik suara yang sangat penting bagi pengenalan suara atau dengan kata lain mampu menangkap informasiinformasi yang terkandung dalam sinyal suara.

b. Menghasilkan data seminimal mungkin tanpa menghilangkan informasiinformasi penting yang ada. c. Mereplikasi organ pendengaran manusia dalam melakukan persepsi sinyal suara. 2.4 Frame Blocking Frame Blocking adalah pembagian sinyal audio menjadi beberapa frame yang nantinya dapat memudahkan dalam perhitungan dan analisa sinyal, suatu frame terdiri dari beberapa sampel tergantung tiap berapa detik suara akan disampel dan berapa frekuensi samplingnya. Pada proses ini dilakukan pemotongan sinyal dalam slot-slot tertentu agar memenuhi syarat yaitu linear dan timeinvariant. Dalam langkah ini sinyal suara yang kontinyu diblock menjadi frame sampel N, dengan frame yang berdekatan dipisahkan oleh M (M<N). Frame pertama terdiri dari N sampel, Frame kedua dimulai sampel M setelah frame yang pertama, dan melawati dari sampel N-M dan seterusnya. Proses ini berlanjut sampai semua suara dicatat dalam satu frame atau lebih. Nilai-nilai untuk N dan M akan berubah-rubah sesuai dengan pengujian yang akan dilakukan [5]. 2.5 Windowing Dalam melakukan pemrosesan sinyal, maka dari input yang dimasukkan akan terbentuk sinyal yang magnitudenya bervariasi pada awal maupun akhir frame. Hal tersebut menghambat pemrosesan sinyal dan menghasilkan keluaran

yang kurang akurat. Untuk itu perlu diaplikasikan suatu window penghalus pada setiap frame dengan melakukan overlapping antara satu frame dengan frame yang lain, sehingga dapat dibangkitkan suatu feature yang lebih halus sepanjang durasi waktu tersebut. Dalam proyek ini akan digunakan metode Hamming. Digunakan Hamming window karena Hamming window memiliki side lobe yang paling kecil dan Main lobe yang paling besar sehingga hasil windowing akan lebih dalam menghasilkan efek diskontinuitas. Konsep disini adalah untuk meminimalkan distorsi spectral dengan menggunakan window untuk sinyal ke nol pada awal dan akhir disetiap frame. Jika kita mendefenisikan window seperti ini, dimana N adalah jumlah sampel disetiap frame, maka hasil windowing adalah sinyal [2]. Sebuah fungsi window yang baik harus menyempit pada bagian main lobe dan melebar pada bagian side lobe-nya. Berikut ini adalah representasi dari fungsi window terhadap signal suara yang diinputkan : y 1 (n) = x 1 (n)w(n), 0 n N 1 (2.1) Dimana : x(n) = x 1 (n)w(n) n = 0,1,.,N-1 x(n) = nilai sampel signal hasil windowing x 1 (n) = nilai sampel dari frame signal ke i w(n) = fungsi window N = frame size, merupakan kelipatan 2

Windowing Hamming biasa digunakan sebagai berikut : Dimana : w (n) = windowing w(n) = 0.54 0.46.cos( 2.ππ.nn ), 0 n N 1 (2.2) NN 1 N n = jumlah data dari sinyal = waktu diskrit 2.6 Fast Fourier Transform (FFT) Langkah pengolahan selanjutnya adalah Fast Fourier Transform (FFT), yang mengubah setiap frame sampel N dari domain waktu ke domain frekuensi. FFT adalah algoritma cepat untuk mengimplementasikan Discrete Fourier Transform (DFT), yang didefenisikan pada himpunan N sampel {xn} sebagai berikut : X k = N 1 n= 0 x n e j2πkn / N, k = 0,1,2,..., N 1 (2.3) Dalam X k s adalah bilangan kompleks dan hanya mempertimbang kan nilai tersebut (besaran frekuensi). Urutan yang dihasilkan {X k } ditafsirkan sebagai berikut : frekuensi positif 0 f < F s / 2 sesuai dengan nilai-nilai 0 n N / 2 1, sedangkan frekuensi negative F s / 2 < 0 sesuai dengan N / 2 + 1 n N 1. Dimana Fs menunjukkan frekuensi sampling [2].

2.7 Mel Frequency Wrapping Studi psikofisik telah menunjukkan bahwa persepsi manusia tentang frekuensi suara untuk sinyal ucapan tidak mengikuti skala linear. Jadi, untuk setiap suara dengan frekuensi seseungguhnya f, dalam Hz, sebuah pola diukur dalam sebuah skala yang disebut mel. Skala mel frequency adalah skala frekuensi linear dibawah 1000 Hz dan skala logaritmik diatas 1000 Hz. Salah satu pendekatan untuk simulasi spectrum subjektif adalah dengan menggunakan filterbank, jarak pada mel skala (lihat Gambar 2.5). Artinya Filter bank memiliki respon frekuensi Bandpass segitiga, dan jarak bandwidth ditentukan oleh interval frekuensi mel konstan. Jumlah koefisien spectrum mel, K, biasanya dipilih sebagai 20. 2 Mel-spaced filterbank 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 1000 2000 3000 4000 5000 6000 7000 Frequency (Hz) Gambar 2.5 Contoh Mel - spasi filterbank

Filterbank ini dapat diterapkan dalam domain frekuensi, sehingga hanya sebesar yang diterapkan dijendela segitiga, bentuk seperti pada gambar diatas sampai spectrum. Sebuah cara yang digunakan tentang Filter bank mel frequency ini adalah untuk melihat setiap filter sebagai histogram bin (dimana bins memiliki kemampuan) dalam domain frekuensi [2]. Skala ini didefenisikan oleh Stanley Smith, John Volkman dan Edwin Newman sebagai : mmmmmm(ff) = 2595 log 10 (1 + ff ) (2.4) 700 Dalam mel frequency wrapping, sinyal hasil FFT dikelompokkan kedalam berkas filter triangular ini. Maksud pengelompokan disini adalah setiap nilai FFT dikalikan terhadap gain filter yang bersesuaian dan hasilnya dijumlahkan. 2.8 Cepsturm Cepstrum adalah sebutan kabalikan untuk spectrum. Cepstrum biasa digunakan untuk mendapatkan informasi dari suatu sinyal suara yang diucapkan oleh manusia. Pada langkah terakhir ini, spectrum log mel dikonversikan menjadi cepstrum menggunakan Discrete Cosine Transform (DCT). Oleh karena itu jika kita menunjukkan tersebut koefisien spectrum daya mel yang merupakan hasil ~ dari langkah terakhir S, k = 0,2,..., K 1, kita dapat menghitung MFCC seperti : 0 c ~ n K ~ 1 π = (log S k ) cos n k, k = 1 2 K n = 0,1,..., K-1 (2.5)

Perhatikan bahwa kita mengecualikan komponen pertama, dari DCT karena merupakan nilai rata-rata dari sinyal input, yang dilakukan speaker informasi spesifik [2].