Pembuatan Prototype Speaker Diarization

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

BAB 1 PENDAHULUAN. Universitas Indonesia

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

BAB I PENDAHULUAN 1.1 Latar Belakang Suara adalah merupakan gabungan berbagai sinyal, tetapi suara murni secara teoritis dapat dijelaskan dengan

BAB I PENDAHULUAN. 1.1 Latar Belakang

Rekognisi Pengucap Forensik Forensic Speaker Recognition

BAB 1 PENDAHULUAN. berkembang pesat pada akhir-akhir ini mengingat perkembangan teknologi yang

PENDAHULUAN. Latar Belakang

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN SIMULASI DAN ANALISIS PEMANTAUAN KAMAR PASIEN RAWAT INAP DENGAN DETEKSI DAN KLASIFIKASI SINYAL AUDIO 1

IDENTIFIKASI UCAPAN WARNA MENGGUNAKAN LPC (LINIER PREDICTIVE CODE ) DAN KELOMPOK PEMILIHAN BOBOT

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

ANALISIS DAN PERANCANGAN PROGRAM APLIKASI. mahasiswa Binus University secara umum. Dan mampu membantu

BAB 1 PENDAHULUAN. berkaitan dengan pemprosesan sinyal suara. Berbeda dengan speech recognition

PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN. dapat menghasilkan suara yang enak untuk didengar.

SISTEM PENGENALAN WICARA BERDASARKAN CEPSTRUM. Ivanna K. Timotius, Danie Kurniawan. Intisari

BAB I PENDAHULUAN. 2012). Penelitian yang dilakukan oleh Bosma dkk. (1965), menemukan bahwa

BAB III METODOLOGI PENELITIAN

BAB III METODE PENELITIAN

Rancang Bangun Aplikasi Pendeteksi Suara Tangisan Bayi

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

Frekuensi Dominan Dalam Vokal Bahasa Indonesia

UKDW BAB 1 PENDAHULUAN Latar Belakang Masalah

SISTEM PENGOLAHAN SUARA MENGGUNAKAN ALGORITMA FFT (FAST FOURIER TRANSFORM)

Suara bisa dibuat database engine untuk pengenalan kata. Dengan aplikasi ini, dapat secara otomatis melakukan transkripsi suara, sehingga dapat mengur

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

SISTEM AKSES BUKU PERPUSTAKAAN JURUSAN TEKNIK ELEKTRO UNIVERSITAS ANDALAS MENGGUNAKAN APLIKASI PENGENALAN WICARA DENGAN METODA MFCC-VQ dan SSE

BAB I PENDAHULUAN. pengenalan terhadap gelombang suara. Pengenalan gelombang suara yang sudah

DAFTAR ISI. KATA PENGANTAR... Error! Bookmark not defined. DAFTAR ISI... i. DAFTAR TABEL... vi. DAFTAR GAMBAR... vii

Bab 1. Pendahuluan. aman semakin diperlukan untuk menjamin keamanan data. Berbagai solusi proteksi

BAB I PENDAHULUAN. terdapat hubungan langsung antara musik dan emosi (Samira Pouyanfar, dkk,

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB III METODE PENELITIAN

BAB III METODOLOGI PENELITIAN

PENGGUNAAN ALGORITMA LEARNING VECTOR QUANTIZATION DALAM MENGENALI SUARA MANUSIA UNTUK KENDALI QUADROTOR

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model

BAB I PENDAHULUAN I.1 Latar Belakang

CLUSTERING GENDER BERDASARKAN NILAI MAKSIMUM MINIMUN AMPLITUDO SUARA BERBASIS FUZZY C-MEANS (FCM)

BAB IV IMPLEMENTASI DAN EVALUASI

BAB I PENDAHULUAN 1.1 Latar Belakang

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

1. BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB IV IMPLEMENTASI DAN EVALUASI. 4.1 Spesifikasi Hardware dan Software yang digunakan dalam penelitian

PENDETEKSIAN TINGKAT USIA MUDA, DEWASA DAN TUA MENGGUNAKAN METODE MFCC DAN FUZZY LOGIC BERBASISKAN SPEECH RECOGNITION

BAB I PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Pengembangan Model HMM Berbasis Maksimum Lokal Menggunakan Jarad Euclid Untuk Sistem Identifikasi Pembicara -,,

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

Penggolongan Musik Terhadap Suasana Hati Menggunakan Metode K-Means

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING

BAB 1 PENDAHULUAN. Perkembangan pengetahuan dibidang kecerdasan buatan sedemikian

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

Implementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

PENDAHULUAN Tujuan Latar Belakang Ruang Lingkup Manfaat Penelitian TINJAUAN PUSTAKA Nada dan Chord Gitar

BAB 1 PENDAHULUAN. seperti isyarat dan tulisan. Suara yang dihasilkan oleh setiap orang pada dasarnya

Penerapan Metode Mel Frequency Ceptral Coefficient dan Learning Vector Quantization untuk Text-Dependent Speaker Identification

BAB I PENDAHULUAN. menggunakan voice recognition dapat membantu user memilih produk buah

PENGENALAN GENDER MEMANFAATKAN WAJAH MANUSIA DENGAN MENGGUNAKAN METODE KLASIFIKASI NEAREST NEIGHBOR

(M.6) FUZZY C-MEANS CLUSTERING DENGAN ANALISIS ROBUST


BAB 1 PENDAHULUAN 1.1. Latar Belakang

Tidak ada tepat satu teori untuk menyelesaikan problem pengenalan pola Terdapat model standar yang dapat dijadikan teori acuan

KLASIFIKASI & PENGENALAN POLA. Tatap Muka 2

BAB I PENDAHULUAN. secara manual dari suatu kumpulan data. Defenisi lain data mining adalah sebagai

PENERAPAN METODE HIDDEN MARKOV MODEL DAN MEL FREQUENCY CEPSTRUM COEFFICIENT DALAM PENGENALAN VOICE COMMAND BERBAHASA INDONESIA KOMPETENSI KOMPUTASI

STEGANALISIS UNTUK FILE AUDIO BERFORMAT MP3 DENGAN METODE LEAST SIGNIFICANT BIT (LSB) PADA KLASIFIKASI PRINCIPAL COMPONENT ANALYSIS (PCA)

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

Modifikasi Algoritma Pengelompokan K-Means untuk Segmentasi Citra Ikan Berdasarkan Puncak Histogram

IMPLEMENTASI MEL FREQUENCY CEPSTRAL COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK PENGENALAN NADA PADA ALAT MUSIK BELLYRA

Perancangan Sistem Pengenalan Suara Untuk Pengamanan Dan Pemantauan Fasilitas PLTA

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-534

Pengenalan Chord pada Alat Musik Gitar Menggunakan CodeBook dengan Teknik Ekstraksi Ciri MFCC

PENGENALAN SUARA BURUNG MENGGUNAKAN MEL FREQUENCY CEPSTRUM COEFFICIENT DAN JARINGAN SYARAF TIRUAN PADA SISTEM PENGUSIR HAMA BURUNG

BAB II TINJAUAN PUSTAKA. yang revelan dengan penelitian yang akan. antara metode Kohonen Neural Network dengan metode Learning ng Vector

SPEECH RECOGNITION (Pengenalan Ucapan)

DETEKSI DAN SEGMENTASI OTOMATIS DERET PADA CITRA METERAN AIR

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. cukup sempurna karena telur mengandung zat zat gizi yang sangat baik dan. mempercepat proses kesembuhannya (Sudaryani,2003).

BAB III METODE PENELITIAN

ANALISA HASIL PERBANDINGAN IDENTIFIKASI CORE POINT PADA SIDIK JARI MENGGUNAKAN METODE DIRECTION OF CURVATURE DAN POINCARE INDEX

Deteksi Kualitas Pemasangan Ubin Berbasis Ekstraksi Ciri Bunyi Dengan Klasifikasi K-Nearest Neighbor

KLASIFIKASI MUSIK MENGGUNAKAN POLYNOMIAL NEURAL NETWORK

BAB I PENDAHULUAN. 1.1 Latar Belakang

RANCANG BANGUN APLIKASI PENGENAL PENUTUR MENGGUNAKAN METODE HIDDEN MARKOV MODEL (HMM)

BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SEGMENTASI CITRA MENGGUNAKAN PENGHAPUSAN TEKSTUR DAN K-MEANS DENGAN BATASAN RUANG

Transkripsi:

Pembuatan Prototype Speaker Diarization Samuel Enrico Wijaya 13509059@std.stei.itb.ac.id Nur Ulfa Maulidevi ulfa@stei.itb.ac.id Dessi Puji Lestari dessipuji@gmail.com Abstrak - File suara mengandung banyak informasi di dalamnya seperti identitas pembicara dan pembicaraannya. Akan tetapi sulit menarik informasi dari file suara dengan banyak informasi di dalamnya. Semisal ada suatu file suara yang didalamnya terdapat banyak pembicara. Butuh waktu dan tenaga yang besar untuk memisahkan atau mengetahui bagian pembicaraan yang diucapkan oleh pembicara tertentu. Untuk mengatasi hal itu speaker diarization adalah salah satu solusinya. Speaker diarization adalah suatu metode pengolahan file suara untuk mengelompokan file suara tersebut berdasar pembicara dan waktu berbicaranya. Dengan metode ini maka penyimpanan maupun pengolahan file suara menjadi lebih efisien. Kata kunci: suara, informasi, speaker diarization. I. LATAR BELAKANG Media suara adalah salah satu media penyimpanan file yang banyak digunakan manusia. Media ini sering ditemui sebagai media pencatatan wawancara, pencatatan rapat, dan lain-lain [1]. Media ini memiliki keunggulan dibanding media lain. Bila dibandingkan dengan media tulisan, media ini lebih gampang untuk dibuat dan mengandung informasi yang akurat. Bila dibandingkan dengan media video, ukuran file suara relatif lebih kecil [2]. Namun file suara juga memiliki kekurangan, salah satunya adalah banyaknya informasi yang terkandung di dalam file tersebut. Dengan adanya banyak informasi tersebut, proses pencarian suatu informasi dari file suara tersebut pun menjadi sulit. Semisal ada file suara berisi empat orang sedang berbicara di dalamnya, bila dicari data hanya dari satu pembicara saja, dicari secara manual dimana orang terebut berbicara, atau bahkan harus mendengar seluruh isi dari file suara tersebut. Untuk mengatasi hal itu, ada sebuah metode yang dinamakan speaker diarization. Speaker diarization adalah metode untuk menentukan siapa berbicara pada waktu yang mana pada suatu file suara [3]. File suara yang tadinya merupakan gabungan dari banyak pembicara, dapat dipisahkan berdasarkan pembicara dan waktu berbicaranya dengan memanfaatkan metode ini. Dengan adanya metode ini, pencarian data dari file suara pun dapat dipermudah. Selain itu ukuran dari file suara yang disimpan pun dapat dikurangi dengan menghapus pembicara yang dianggap tidak penting dan tidak ingin disimpan. Disamping fungsinya tersebut, speaker diarization bisa juga digunakan sebagai preprocessing dalam pemrosesan lain file suara seperti speech recognition. Tahap speaker diarization dianggap dapat membantu meningkatkan performa dari speech recognition [4]. Karenanya proses speaker diarization memiliki peran yang cukup penting dalam pemrosesan suara. Akurasi dan performa dari speaker diarization mempengaruhi akurasi dan performa dari tahap selanjutnya dalam pemrosesan file suara. II. SPEAKER DIARIZATION Telah banyak penelitian terkait dengan speaker diarization. Berikut adalah beberapa contoh penelitian terkait dengan speaker diarization: A. On the Use of Spectral and Iterative Methods for Speaker Diarization Dalam makalahnya, Shum [5] membagi speaker diarization menjadi tahapan-tahapan seperti Gambar 1 berikut: Gambar 1 Tahapan Speaker Diarization menurut Shum Pada tahap segmentasi, file suara dibagi menjadi segmensegmen kecil. Segmen-segmen ini memiliki durasi bervariasi, dengan maksimal durasi adalah satu detik. Pemotongan ini dapat dibilang kasar, karenanya segmen awal ini dapat memiliki pembicaraan dari beberapa pembicara. Tahap kedua adalah clustering. Pada tahap ini, ada dua metode yang digunakan. Metode pertama adalah k-means dengan dasar cosine distance dan yang kedua adalah spectral clustering. Hasil dari eksperimen tersebut dapat dilihat pada gambar. Gambar 2 merupakan hasil eksperimen dengan jumlah pembicara diketahui, dan Gambar 3 merupakan hasil eksperimen dengan jumlah pembicara yang belum diketahui. 2354-645X/15 2015 270

Tahap ini menggunakan Bayesian Information Criterion sebagai dasarnya. Hasil eksperimen ini dapat dilihat pada Gambar 5 dan Gambar 6 berikut: Gambar 2 Hasil eksperimen oleh Shum [5] Gambar 5 Hasil Eksperimen 1 oleh Reynolds [6] Gambar 3 Hasil eksperimen oleh Shum [5] B. Approaches and Applications of Audio Diarization Dalam makalahnya, Reynold [6] membagi speaker diarization menjadi tahapan-tahapan seperti Gambar 4 berikut: Gambar 6 Hasil Eksperimen 2 oleh Reynolds [6] Pada Gambar 6, label LIMSI adalah eksperimen dengan mengaplikasikan cluster recombination. Label MITLL menggunakan model dari suara penyiar untuk clustering. ICSI- SRI menggunakan batasan sebagai stopping criterion. CUED menggunakan top-down clustering dan AHS distance. Gambar II.7 adalah penjabaran dari MITLL. III. PEMBUATAN PROTOTYPE Alur kerja prototype terdiri dari 4 langkah utama,yaitu Segmentasi dan Ekstraksi Fitur, Voice Activity Detection, Clustering, dan Post Processing. Sedangkan alur eksperimen pada tugas akhir adalah alur dari pengujian prototype yang dibuat, sehingga ada dua tahap tambahan yaitu Pelabelan dan Penghitungan Akurasi. Dua tahap ini bertujuan untuk menghitung akurasi dari prototype yang telah dibuat. Untuk lebih jelasnya, alur kerja eksperimen dapat dilihat pada Gambar 7 berikut: Gambar 4 Komponen kunci Speaker Diarization [6] Tahap speech detection menghilangkan bagian non speech pada file suara. File suara yang sudah dihilangkan bagian non speech nya selanjutnya masuk ke tahap change detection. Pada tahap ini, dicari titik-titik pada file suara yang dianggap merupakan titik pergantian antara pembicara. Sex/ Bandwidth Classification bertujuan mengelompokkan segmen-segmen kedalam kelompok yang berdasar jenis kelamin (pria / perempuan) dan berdasar bandwidth (tinggi, seperti studio atau rendah, seperti telepon). Setelah itu segmensegmen tersebut dimasukkan ke tahap clustering. Idealnya, tahap ini menghasilkan satu cluster untuk satu pembicara. Gambar 7 Alur kerja eksperimen 271

Dalam kegiatan pemrosesan suara dan pembelajaran mesin, ada beberapa tools yang dapat digunakan. Dengan adanya tools tersebut, pengerjaan dari pemrosesan suara dan pembelajaran mesin menjadi lebih mudah. Beberapa tools tersebut antara lain adalah Corel Video Studio X2, Cool Edit Pro, Jaudio, dan WEKA. Peran dari masing-masing tools tersebut dapat dilihat pada Gambar 8 berikut: Gambar 8 Penggunaan tools pada alur eksperimen A. Pelabelan Pelabelan data ini dibagi menjadi dua langkah utama. Langkah pertama adalah mendengarkan file berbentuk video untuk diambil waktu perkiraan pergantian pembicara, serta untuk mengetahui siapa pembicaranya. Pada tahap ini Corel Video Studio digunakan untuk membuka file video serta menghapus overlapping yang dianggap mengganggu. Langkah kedua adalah dengan menggunakan aplikasi Cool Edit Pro. Dengan menggunakan aplikasi ini, pergantian pembicara kadang dapat terlihat cukup jelas pada spektrum suara. Selain itu dengan menggunakan aplikasi ini, didapatkan label yang mencapai satuan milisecond sehingga dapat mengurangi tingkat kesalahan. Waktu pergantian tersebut lalu dicatat dalam sebuah file yang nantinya menjadi kunci untuk menguji akurasi prototype yang dibuat. Contoh file tersebut dapat dilihat pada Tabel 1 berikut: Tabel 1 Label yang disimpan pada file Waktu Mulai Waktu Selesai Speaker 14.36.231 16.53.636 a 16.57.327 17.53.815 b 17.54.362 18.29.908 d 18.30.316 21.15.601 b 21.15.663 21.20.038 c 21.20.264 21.57.387 b 21.58.826 22.17.516 a 22.18.230 27.16.571 c Pada Tabel 1, kolom pertama menunjukan waktu mulai, kolom kedua menujukkan waktu selesai, dan kolom ketiga menunjukkan nomor pembicara. Pada baris pertama, terlihat bahwa pembicara 1 berbicara pada menit ke 14 detik ke 36 milisecond ke 231 sampai ke menit ke 16 detik ke 53 milisecond ke 636. B. Segmentasi dan Ekstraksi Fitur Pada prototype yang dibuat, tahap segmentasi dan pengambilan fitur dilakukan secara bersamaan. Karena gelombang suara selalu berubah setiap waktu, maka diperlukan tahap segmentasi ini. File suara yang tadinya berupa suatu file panjang diubah menjadi potongan-potongan kecil. Durasi dari segmen ini dapat bervariasi, tetapi biasanya digunakan durasi sekitar 20-40ms [7], hal ini dikarenakan durasi tersebut dianggap tidak terlalu pendek sehingga data yang didapat dianggap mewakili, dan tidak terlalu panjang sehingga data dianggap belum mengalami perubahan yang signifikan. Prototype ini menggunakan segmen sebesar 32ms. Durasi tersebut diambil karena durasi tersebut dianggap titik tengah dari 20-40ms. Pada setiap segmen dilakukan pengekstrakan fitur. Ada dua jenis fitur yang diambil dalam prototype ini, yaitu energi dan MFCC. Energi berguna untuk menandai voice activity yang terdapat di dalam suatu file suara. Untuk MFCC, ada 26 fitur yang diambil,yaitu 13 buah MFCC dan 13 turunannya. Hal ini dilakukan karena fitur tersebut dianggap yang paling mewakili karakteristik tiap pembicara sehingga dapat didapatkan perbedaan antara tiap pembicara. Segmentasi dan pengambilan fitur dilakukan dengan menggunakan Jaudio. Hasil dari ekstraksi fitur menggunakan Jaudio ini berupa sebuah file ARFF. File ini akan menjadi masukan ke tahap berikutnya. C. Voice Activity Detection Voice activity detection bertujuan membedakan bagian mana pada suatu file suara yang merupakan bagian pembicaraan dan mana yang bukan. Voice activity detection menggunakan fitur-fitur suara seperti energi sebagai alat bantunya. Dalam pemrosesannya, voice activity detection dapat menggunakan heuristic model, maupun statistical model seperti supervised learning atau unsupervised learning [8]. Pada prototype yang dibuat, ada dua macam voice activity detection yang dilakukan. Yang pertama adalah voice activity detection dengan menggunakan dua kali clustering dan yang kedua adalah menggunakan clustering dengan jumlah cluster +1. Pada dua kali clustering, pertama-tama data dikelompokkan dengan menggunakan fitur energi sebagai acuannya. Pengelompokan itu menghasilkan dua cluster, dimana satu cluster merupakan voice activity dan 1 cluster merupakan non voice. Setelah itu barulah dilakukan clustering dengan menggunakan fitur MFCC sebagai acuan. Pada clustering dengan jumlah cluster +1, tambahan 1 cluster mewakili bagian non voice pada file suara. D. Clustering Clustering dilakukan dengan menggunakan bantuan WEKA. Fitur-fitur yang didapatkan dari tiap segmen tersebut dijadikan file ARFF lalu dimasukkan ke WEKA. Algoritma clustering yang digunakan adalah k-means. Pada tahap inilah pengelompokan file suara menjadi masing-masing pembicaranya dilakukan. Dengan menggunakan fitur MFCC yang telah diekstrak sebelumnya, tiap cluster dianggap mewakili masing-masing pembicara yang ada. 272

E. Post Processing Setelah melalui tahap clustering, segmen-segmen terkumpul menjadi beberapa cluster bergantung pada nilai atributnya. Akan tetapi, masing-masing cluster tersebut dapat memiliki data pencilan. Data pencilan yang ada merupakan segmen yang dianggap salah dikelompokkan. Hal ini dapat dilihat dari adanya kehomogenan data berurutan dengan jumlah yang sedikit. Tabel 2 Segmen# Contoh hasil clustering Cluster 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 2 9 2 10 3 11 3 12 3 13 3 14 3 Semisal Tabel 2 merupakan hasil dari clustering. Segmen 8 dan segmen 9 dianggap data pencilan, karena hanya merupakan 2 data homogen berurutan. Karena 1 buah segmen memiliki durasi 32ms, 2 segmen memiliki durasi 64ms. Durasi terebut dirasa terlalu pendek bagi seseorang untuk melakukan pembicaraan. Karena itu segmen 8 dan segmen 9 diganti nilainya dengan nilai lain yang dianggap merupakan kelompok sebenarnya dari segmen tersebut. Saat pelabelan manual, terkadang didapatkan durasi pembicaraan yang cukup pendek. Nilai itu lalu dijadikan batasan durasi paling pendek dari kehomogenan kumpulan segmen. Nilai yang diambil adalah 17 segmen atau 544 milisecond. Bila ada kumpulan segmen homogen dengan panjang kurang dari 17 segmen, kumpulan tersebut diganti nilainya dengan nilai lain. Nilai pengganti tersebut adalah modus dari 16 segmen sebelum kumpulan dan 16 segmen setelah kumpulan. Pada tahap ini, dibuat sebuah program sederhana dalam bahasa java untuk menjalankan proses post processing. F. Penghitungan Akurasi Penghitungan akurasi pada tugas akhir ini dilakukan dengan cara membandingkan hasil clustering dengan label yang diberikan manual pada tahap awal.. Selain itu, penghitungan ini juga dilakukan dengan cara permutasi. Permutasi dilakukan karena adanya ambiguitas pada label cluster hasil clustering pada WEKA. Permutasi merupakan semua kemungkinan yang ada dari data yang ada dengan tidak adanya data kembar. Jika diberikan data 123, hasil permutasinya adalah 123, 132, 213, 231, 312, dan 321. Tabel 3 Permutasi Penjelasan permutasi Speaker a b C 123 1 2 3 132 1 3 2 213 2 1 3 231 2 3 1 312 3 1 2 321 3 2 1 Tabel 3 menggambarkan bagaimana permutasi digunakan dalam tugas akhir ini. Label a, b, dan c merupakan label yang didapat dari pemberian label secara manual. Label 1, 2, dan 3 merupakan label yang didapat dari hasil clustering. Pada permutasi 213, cluster 2 diartikan speaker a, cluster 1 diartikan speaker b, cluster 3 diartikan speaker c. IV. HASIL EKSPERIMEN Pada eksperimen ini, ada 6 buah skenario yang dilakukan. Masing-masing skenario tersebut dijalankan pada 3 macam fitur. Fitur pertama adalah 13 MFCC beserta 13 turunannya, yang kedua adalah 4 buah MFCC, dan yang terakhir adalah 1 buah MFCC. Skenario tersebut dapat dilihat pada Tabel 4 berikut: Tabel 4 Skenario eksperimen Skenario VAD Post Processing 1 Tidak Tidak 2 Tidak Ya 3 Cluster +1 Tidak 4 Cluster +1 Ya 5 Dua kali clustering Tidak 6 Dua kali clustering Ya Untuk skenario 1, tidak ada proses Voice Activity Detection dan Post Processing yang dilakukan. Skenario ini merupakan skenario dasar untuk melihat seberapa besar pengaruh metode yang lain terhadap akurasi yang didapat. Skenario 2 merupakan skenario tanpa menggunakan VAD tetapi menggunakan Post Processing. Skenario 3 dan 4 merupakan skenario dengan metode penambahan 1 cluster pada VAD. Pada model ini ada penambahan cluster dengan nilai 1. Cluster tersebut dianggap mewakili non voice yang terdapat dalam file suara. Setelah dilakukan clustering, cluster dengan anggota terendah dihilangkan karena cluster itu dianggap mewakili non voice pada file suara. Perbedaan dari skenario 3 dan 4 adalah pada skenario 3 tidak dilakukan post processing, sedangkan pada skenario 4 dilakukan post processing. Skenario 5 dan 6 merupakan skenario dengan metode dua kali clustering pada VAD. Pada skenario ini, ada dua tahap 273

clustering, yaitu dengan menggunakan energi sebagai acuannya dan dengan MFCC. Clustering tahap pertama dilakukan untuk mengetahui segmen mana saja yang merupakan voice activity dan mana yang bukan. Segmen yang merupakan non voice activity, tidak diikutkan ke dalam penghitungan akurasi karena dianggap sebagai non voice activity. Sedangkan segmen yang merupakan voice activity diteruskan ke tahap berikutnya. Pembedaan mana yang merupakan non voice activity dan yang bukan didapat dari jumlah anggota cluster. Jumlah yang lebih sedikit dianggap non voice activity. Fitur Tabel 5 Akurasi Pada Semua Fitur Akurasi Maksimal 1 2 3 4 5 6 13MFCC 31.7172 36.4268 27.5241 48.8204 26.2329 29.7896 4MFCC 32.1970 37.1549 30.3347 43.6788 26.5423 30.7003 1MFCC 33.9983 38.1271 34.2879 40.8544 27.8159 31.4447 Pada Tabel 5, dapat terlihat bahwa akurasi paling besar didapat pada skenario 4 dengan fitur 13 MFCC dan 13 turunannya. Akurasi yang didapat mencapai 48.8%. VAD dan post processing memberikan perubahan pada akurasi yang didapat. Ada peningkatan dan pengurangan akurasi, bergantung pada metode yang digunakan. Tabel 6 Fitur 13MFCC 4MFCC 1MFCC Perbedaan akurasi masing-masing skenario VAD tidak post processing ya tanpa VAD 0.0000 4.7096 VAD cluster+1-4.1930 17.1033 VAD clustering 2x -5.4842-1.9276 tanpa VAD 0.0000 4.9579 VAD cluster+1-1.8622 11.4819 VAD clustering 2x -5.6546-1.4966 tanpa VAD 0.0000 4.1288 VAD cluster+1 0.2895 6.8561 VAD clustering 2x -6.1824-2.5536 Tabel 6 merupakan perbedaan (delta) dari akurasi yang didapat, dibandingkan dengan skenario 1 (tanpa VAD tanpa post processing). Perbedaan paling besar didapat pada metode VAD dengan cluster+1 dan menggunakan post processing. Secara keseluruhan, post processing berhasil meningkatkan akurasi yang didapat, dibanding bila tidak menggunakannya. Hal ini dikarenakan adanya data pencilan yang jumlahnya tidak sedikit pada hasil clustering. Karenanya dengan mengganti nilai dari data pencilan tersebut, akurasi yang didapatkan cenderung meningkat. V. PENUTUP Pada eksperimen ini, fitur yang menghasilkan akurasi paling besar adalah fitur 13 MFCC dan 13 turunannya. Skenario yang menghasilkan akurasi terbaik adalah dengan menggunakan VAD metode cluster +1 yaitu penambahan jumlah cluster dengan nilai 1. Tambahan nilai tersebut akan mewakili non voice yang terdapat pada file. Selain itu, metode post processing juga dilakukan pada skenario ini. Akurasi yang didapat mencapai 48.8%. Mungkin akurasi ini dapat meningkat dengan menggunakan fitur-fitur suara lain sebagai acuan clustering, seperti Linear Frequency Cepstral Coefficients (LFCC), Perceptual Linear Predictors (PLP), dan Linear Predictive Coding (LPC). Tahap post processing diperlukan karena pada hasil clustering, kadang ditemukan data pencilan yang dapat mengurangi akurasi yang didapat. Pada eksperimen ini tahap ini berhasil meningkatkan akurasi sampai dengan 17%. REFERENSI [1] Stolcke, A., Shriberg, E., Vergyri, D., & Tur, G. (n.d.). Meeting Recognition and Understanding. Retrieved August 12, 2015, from http://www.speech.sri.com/projects/meetings/ [2] Johnson, M. (2000). Interactive Design 1. Columbia University - School of the Arts. [3] Miro, X. A., Bozonnet, S., Evans, N., Fredouille, C., Friedland, G., dan Vinyals, O. (2012). Speaker diarization: A Review of Recent Research. IEEE Transactions On Audio, Speech, And Language Processing Vol20, 356-370. [4] Fu, R. (2009). Robust Speaker diarization for Single Channel Recorded Meetings. PhD thesis, University of York: UK. [5] Shum, S., Dehak, N., & Glass, J. (2012). On the use of spectral and iterative methods for speaker diarization. System, 1(w2), 2. [6] Reynolds, D. A., dan Torres-Carrasquillo,P.(2005) Approaches and Applications of Audio Diarization. IEEE International Conference on Acoustics, Speech, and Signal Processing Vol5, 953-956. [7] Lyons, J. (n.d.). Guide mel frequency cepstral coefficients mfccs. Retrieved August 12, 2015, from http://www.practicalcryptography.com/miscellaneous/machinelearning/guide-mel-frequency-cepstral-coefficients-mfccs/ [8] Kola, J., Wilson, C. E., dan Pruthi, T. 2011. Voice activity Detection. Maryland Engineering Research Internship Teams. Biosystems Internships for Engineers. University of Maryland. 274