TRANSFORMASI SUARA BERBASIS PEMETAAN SELUBUNG SPEKTRAL DAN PREDIKSI RESIDU

dokumen-dokumen yang mirip
KOMPRESI SINYAL SUARA DENGAN MENGGUNAKAN STANDAR MPEG-4

DAFTAR ISI. ABSTRACT ii KATA PENGANTAR iii DAFTAR ISI...iv DAFTAR GAMBAR.vii DAFTAR TABEL...ix DAFTAR SINGKATAN...x

PENGENALAN SUARA MANUSIA DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN MODEL PROPAGASI BALIK

DESAIN MESIN PRESENSI BERBASIS IDENTIFIKASI SUARA PENUTUR

Perbandingan Estimasi Selubung Spektral dari Bunyi Voiced Menggunakan Metoda Auto-Regressive (AR) dengan Weighted-Least-Square (WLS) ABSTRAK

ABSTRAK. Teknologi pengkode sinyal suara mengalami kemajuan yang cukup. pesat. Berbagai metode telah dikembangkan untuk mendapatkan tujuan dari

ABSTRACT. Nowadays, speech coding technology that encode speech with a minimum

Jony Sitepu/ ABSTRAK

Aplikasi Teknik Speech Recognition pada Voice Dial Telephone

BAB 1 PENDAHULUAN. Universitas Indonesia

BAB 2 LANDASAN TEORI. mencakup teori speaker recognition dan program Matlab. dari masalah pattern recognition, yang pada umumnya berguna untuk

Jaringan Syaraf Tiruan pada Robot

BAB III KALMAN FILTER DISKRIT. Kalman Filter adalah rangkaian teknik perhitungan matematika (algoritma)

SISTEM AKSES BUKU PERPUSTAKAAN JURUSAN TEKNIK ELEKTRO UNIVERSITAS ANDALAS MENGGUNAKAN APLIKASI PENGENALAN WICARA DENGAN METODA MFCC-VQ dan SSE

INDEPT, Vol. 3, No.1, Februari 2013 ISSN

BAB 3 PERANCANGAN SISTEM

BAB 2 LANDASAN TEORI. Pengenalan suara (voice recognition) dibagi menjadi dua jenis, yaitu

Pengenalan Pembicara dengan Ekstraksi Ciri MFCC Menggunakan Kuantisasi Vektor (VQ) Yoyo Somantri & Erik Haritman dosen tek elektro fptk UPI.

Simulasi Estimasi Arah Kedatangan Dua Dimensi Sinyal menggunakan Metode Propagator dengan Dua Sensor Array Paralel

Penekanan Derau secara Adaptif pada Pengenalan Ucapan Kata

ANALISIS GALAT AKIBAT KUANTISASI PADA IMPLEMENTASI DIGITAL SISTEM ADAPTIF LMS

BAB I PENDAHULUAN. 1.1 Latar Belakang

Identifikasi Suara Vokal Suku Banjar Berdasarkan Frekuensi Formant

BAB I PENDAHULUAN. 1.1 Latar Belakang

Pengenalan Fonem Vokal Bahasa Jawa Mataraman Menggunakan Metode Liner Predictive Model Dan Hidden Markov Model

IMPLEMENTASI DAN ANALISIS KONVERSI SUARA MENGGUNAKAN ALGORITMA PITCH SHIFTING DENGAN TIME DOMAIN PITCH SYNCHRONOUS OVERLAP ADD (TD-PSOLA)

Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal Voice dan Unvoice

PENYEMBUNYIAN GAMBAR DALAM GAMBAR MENGGUNAKAN SISTEM FUNGSI ITERASI ABSTRAK

Penerapan Watermarking pada Citra berbasis Singular Value Decomposition

1. BAB I PENDAHULUAN 1.1. Latar Belakang

PENINGKATAN KUALITAS SINYAL SUARA MENGGUNAKAN FILTER DIGITAL ADAPTIF DENGAN ALGORITMA LEAST MEAN SQUARE (LMS) Ferdian Andrie/

Voice over Internet Protocol Kuliah 6. Disusun oleh : Bambang Sugiarto

Suara bisa dibuat database engine untuk pengenalan kata. Dengan aplikasi ini, dapat secara otomatis melakukan transkripsi suara, sehingga dapat mengur

BAB I PENDAHULUAN. bagi setiap individu manusia yang ada dimuka bumi. Tidak mengherankan jika

APLIKASI PENGENALAN UCAPAN SEBAGAI PENGATUR MOBIL DENGAN PENGENDALI JARAK JAUH

Least Square Estimation

BAB I PENDAHULUAN. Saat ini teknologi berkembang sangat cepat dan semakin banyak perangkat

TRANSKODING PULSE CODE MODULATION 64 KB/S DAN LOW DELAY CODE EXCITED LINEAR PREDICTION 16 KB/S

BAB III METODE PENELITIAN DAN PERANCANGAN SISTEM. Metode penelitian yang digunakan pada penelitian ini adalah denoising

BAB III PEMODELAN MIMO OFDM DENGAN AMC

TUGAS AKHIR. Diajukan Sebagai Salah Satu Syarat untuk Menyelesaikan Program Strata I Pada Jurusan Teknik Elektro Fakultas Teknik Universitas Andalas

BAB III PEMBAHASAN. FRBFNN, Arsitektur FRBFNN, aplikasi FRBFNN untuk meramalkan kebutuhan

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL

APLIKASI PENGENALAN UCAPAN SEBAGAI PENGATUR KECEPATAN PUTARAN KIPAS ANGIN

BAB 1 PENDAHULUAN. Bab 1 Pendahuluan

udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia dari gagasan yang ingin disampaikan pada pendengar.

Karakteristik Spesifikasi

ANALISIS HUBUNGAN ANTARA TINGKAT PENGENALAN JARINGAN SYARAF TIRUAN DENGAN BANYAKNYA JUMLAH KELAS POLA YANG DIKENALI DAN TINGKAT KERUMITAN POLANYA

1. Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN I.1 Latar Belakang

ANALISA KINERJA ESTMASI KANAL DENGAN INVERS MATRIK PADA SISTEM MIMO. Kukuh Nugroho 1.

PENINGKATAN KUALITAS SINYAL SUARA DENGAN METODE PENDEKATAN SUBRUANG ABSTRAK

BAB I PENDAHULUAN. 1 Universitas Kristen Maranatha

Sistem Verifikasi Penutur menggunakan Metode Mel Frequensi.

LOGO IMPLEMENTASI MODULASI DAN DEMODULASI M-ARY QAM PADA DSK TMS320C6416T

BAB I PENDAHULUAN 1.1 Latar Belakang

Pengurangan Noise pada Citra Menggunakan Optimal Wavelet Selection dengan Kriteria Linear Minimum Mean Square Error (LMMSE)

PERANCANGAN DAN IMPLEMENTASI SISTEM KENDALI BISING AKTIF PADA DSK TMS320C6713 MENGGUNAKAN ALGORITMA ADJOINT-LMS. Muhammad Rizki Anggia

BAB I PENDAHULUAN. Proses pengenalan kata merupakan salah satu fungsi dari

BAB I PENDAHULUAN. 1 Universitas Kristen Maranatha

TUGAS AKHIR. Diajukan Sebagai Salah Satu Syarat untuk Menyelesaikan Program Strata I Pada Jurusan Teknik Elektro Fakultas Teknik Universitas Andalas

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

IDENTIFIKASI CAMPURAN NADA PADA SUARA PIANO MENGGUNAKAN CODEBOOK

SIMULASI KENDALI ADAPTIF MENGGUNAKAN ALGORITMA LMS UNTUK IDENTIFIKASI PLANT ORDE-2

ABSTRAK. Kata kunci : Watermarking, SVD, DCT, LPSNR. Universitas Kristen Maranatha

Pengenalan Kata dengan Metode Linear Predictive Coding dan Jaringan Syaraf Tiruan Pada Mobile Robot

ESTIMASI POSISI ROBOT MOBIL MENGGUNAKAN UNSCENTED KALMAN FILTER. Oleh: Miftahuddin ( )

BAB I PENDAHULUAN. seseorang, ataupun takut terhadap sesuatu (Frieda, 1993). Kondisi

Penerapan Teknik Blind Source Separation untuk Memisahkan Noise dari Sinyal Akustik yang Non Gaussian

DEKOMPOSISI NILAI SINGULAR DAN DISCRETE FOURIER TRANSFORM UNTUK NOISE FILTERING PADA CITRA DIGITAL

BAB II LANDASAN TEORI

Identifikasi Tanda Tangan Menggunakan Transformasi Gabor Wavelet dan Jarak Minskowski

IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE RECOGNITION

Rencana Pembelajaran Departemen Teknik Elektro Fakultas Teknologi Elektro INSTITUT TEKNOLOGI SEPULUH NOPEMBER

BAB III METODE PENELITIAN

PEMISAHAN SINYAL SUARA MENGGUNAKAN METODE BLIND SOURCE SEPARATION ABSTRAK

PERANCANGAN DAN ANALISIS STEGANOGRAFI VIDEO DENGAN MENYISIPKAN TEKS MENGGUNAKAN METODE DCT

APLIKASI JARINGAN SYARAF TIRUAN RBF PADA SISTEM KONTROL VALVE UNTUK PENGENDALIAN TINGGI MUKA AIR

BAB III EXTENDED KALMAN FILTER DISKRIT. Extended Kalman Filter adalah perluasan dari Kalman Filter. Extended

PENYEMBUNYIAN CITRA DALAM CITRA DENGAN ALGORITMA BERBASIS BLOK ABSTRAK

BAB I Pendahuluan 1 BAB I PENDAHULUAN

BAB II TINJAUAN PUSTAKA. (b) Variabel independen yang biasanya dinyatakan dengan simbol

PENINGKATAN KUALITAS SINYAL SUARA DENGAN MENGGUNAKAN METODE INDEPENDENT COMPONENT ANALYSIS ABSTRAK

PENDAHULUAN. Latar Belakang

RANCANGAN APLIKASI BIOMETRIK BERDASARKAN FACIAL EMG

EVALUASI PENGARUH FUNGSI AKTIFASI DAN PARAMETER KEMIRINGANNYA TERHADAP UNJUKKERJA PENGENALAN JARINGAN SYARAF TIRUAN

BAB 1 PENDAHULUAN. berkembang pesat pada akhir-akhir ini mengingat perkembangan teknologi yang

TTG3B3 - Sistem Komunikasi 2 Random Process

BAB I PENDAHULUAN Latar Belakang Masalah

ANALISIS MULTI WAVELET PADA KOMPRESI SUARA. Disusun Oleh: Immanuel Silalahi. Nrp :

PENDAHULUAN TINJAUAN PUSTAKA

Simulasi MIMO-OFDM Pada Sistem Wireless LAN. Warta Qudri /

ANALISIS PENGURANGAN DERAU PADA SINYAL LOUDSPEAKER MENGGUNAKAN FILTER ADAPTIF KALMAN

Kata Kunci : non-blind watermarking, complex wavelet transform, singular value decomposition.

ENHANCED K-SVD ALGORITHM for IMAGE DENOISING

BAB IV PEMBAHASAN. A. Hasil Model Radial Basis Function Neural Network (RBFNN) Langkah-langkah untuk menentukan model terbaik Radial Basis Function

Implementasi Kalman Filter Pada Sensor Jarak Berbasis Ultrasonik

BAB 2 LANDASAN TEORI

( ) ( ) (3) II-1 ( ) ( )

Transkripsi:

TRANSFORMASI SUARA BERBASIS PEMETAAN SELUBUNG SPEKTRAL DAN PREDIKSI RESIDU Fitrah Ansori Nasution ) Iwan Iwut T. 2) Hadi Suwastio 3) Jurusan Teknik Elektro, Sekolah Tinggi Telekomunikasi Telkom Bandung ste99222@stttelkom.ac.id ) iww@stttelkom.ac.id 2) hso@stttelkom.ac.id 3) ABSTRACT The Voice Transformation (VT) system is a system that has the capability to modify the source speaker utterance, so that the utterance can be heard as a target speaker utterance. This system can be put adjacent to other systems such as textto-speech system. The system proposed in this paper is a system that utilizes the spectral envelope of the source speaker s speech utterance and residual prediction of the target speaker s speech utterance. Spectral parameters are mapped using a locally linear transformation based on Gaussian mixture models whose parameters are trained by joint density estimation. The VT system is setup using Matlab. Furthermore, a listening test is conducted in order to examine the similarity between the input and output. Keywords: Voice Transformation, Spectral Envelope, Residual Prediction, Gaussian mixture model, Matlab. Pendahuluan Transformasi suara tergolong ruang riset baru pada bidang pengolahan sinyal ucapan. Transformasi suara adalah suatu teknik bagaimana memodifikasi atau mengubah warna suara pembicara sumber ke warna suara pembicara target. Sistem Transformasi Suara (STS) ini biasanya tidak berdiri sendiri dan biasanya disandingkan dengan sistem lain seperti sistem TTS (text-to-speech). Untuk melakukan proses transformasi, selubung spektral sinyal ucapan pembicara sumber dipetakan frame per frame dengan menggunakan suatu fungsi transformasi. Fungsi transformasi yang digunakan berbasis GMM (Gaussian Mixture Model) dimana parameter-parameternya diestimasi dengan algoritma EM (Expectation- Maximization). Untuk mendapatkan kembali sinyal ucapan hasil transformasi yang masih dalam bentuk frame-frame koefisien LPC (linear predictive coding), prediksi residu dari pembicara target digunakan sebagai eksitasinya. Uji dengar akan dilakukan untuk menguji performansi dari sistem ini. Pada uji ini akan diperlihatkan seberapa baik kualitas sinyal ucapan hasil transformasi yang dihasilkan. Kualitas sinyal ucapan hasil transformasi dikatakan baik jika suara hasil transformasi memiliki kemiripan dengan suara target. 2. Landasan Teori 2. Deskripsi Tentang Sistem Transformasi Suara Ada dua mode dasar dalam STS, yaitu: mode training dan mode transformation. Ilustrasi kedua mode di atas bisa dilihat pada Gambar 2.. (a) Mode Training (b) Mode Tranformation Gambar 2.. Mode Dasar Dalam STS [3] STS harus memiliki minimal tiga komponen yaitu: speech corpus, model dan ciri-ciri ucapan, dan fungsi transformasi. 2.2 Gaussian Mixture Model (GMM) Gaussian pdf untuk n-dimensi variabel acak x ~ ( µ, ) N ( x;, ) N memiliki formula sebagai berikut [3,6] : µ = exp x n 2π det 2 ( ) T ( x µ ) ( µ ) () 85

Gaussian Mixture Model (GMM) merupakan kombinasi dari distribusi Gaussian. Dengan demikian, suatu mixture dari Gaussian dapat ditulis sebagai weighted sum dari densitas Gaussian. Weighted mixture dari Gaussian bisa dituliskan sebagai berikut [2,3,6] : P x; α, µ, = α N x ; µ, (2) dimana α selalu positif ( GMM = α > 0) untuk setiap =, 2,..., dan memiliki jumlah sama dengan ( = α = ). Peluang bersyarat dari GMM untuk kelas dimana x diketahui diturunkan dengan memakai aturan Bayes, sehingga diperoleh persamaan [6] : α N ( x; µ, ) p c x = (3) p p α N x; µ, p= p 2.3 Gaussian Mixture Model untuk Regresi Tujuan dari analisa regresi adalah untuk memprediksi data keluaran dari data masukan yang diketahui. Regresi diformulasikan sebagai penjumlahan bobot (weighted sum) dari pemodelan linier dimana weight (bobot) memiliki korespondensi dengan posterior probability dari masukan yang diketahui yang merupakan milik dari kelas khusus. Formulanya adalah sebagai berikut [3] : F x = W x + b p c x (4) ( ) ( ) dimana W adalah matriks transformasi dan b adalah vektor bias dari kelas. = 3. Perancangan Sistem Transformasi Suara STS yang diajukan memiliki empat tahap yang harus dilalui. Keempat tahap tersebut adalah Analysis, Training, Transformation dan Synthesis. Pada tahap analysis, ada beberapa proses yang dilakukan yaitu melakukan preemphasis terhadap sinyal ucapan yang masuk, melakukan framing terhadap sinyal ucapan yang telah di-preemphasis, menghitung koefisien LPC untuk setiap frame sinyal ucapan, dan mengkonversikan koefisien LPC ke parameter line spectral freuencies (LSF). Informasi mengenai selubung spektral terdapat pada koefisien LPC. Preemphasis ini sebenarnya adalah suatu filter yang biasanya memiliki formula sebagai berikut : ( z ) = a z H (5) dimana nilai 0,9 a. Dalam penelitian ini diambil a = 0,95. Alasan digunakannya filter preemphasis ini adalah: () untuk menghilangkan kontribusi spektral dari larynx dan lip secara efektif sehingga analisa bisa difokuskan untuk mencari parameter-parameter yang hanya berhubungan dengan vocal tract dan (2) untuk mencegah ketidakstabilan numerik. Pada tahap training, ada beberapa proses yang harus dilakukan yaitu menghitung parameter LPC dari pembicara target, melakukan dynamic time warping (DTW) terhadap fitur sumber dan target, menghitung parameter-parameter GMM dan menghitung residu dari pembicara target. Lihat kembali Gambar 2..(a). Untuk melakukan proses training diperlukan parameter baik dari parameter sumber maupun target. Kemudian, parameter ini disesuaikan. Untuk keperluan penyesuaian ini digunakan suatu metode yaitu metode dynamic time warping (DTW). Tujuan DTW ini adalah untuk memodifikasi aliran fitur sinyal ucapan sumber dan target sedemikian sehingga aliran fitur yang dihasilkan bisa dianggap sebagai penggambaran fonetic yang sama untuk tiap-tiap frame sinyal ucapan sumber dan target. Dengan kata lain, DTW ini akan menghasilkan frame-frame sinyal ucapan yang bersesuaian antara sumber dengan target. Parameter GMM (α,µ,σ) diestimasi dengan menggunakan algoritma Expectation-Maximization yaitu suatu metode iterasi untuk menghitung parameter kemungkinan yang maksimum. Sebagai nilai awal, α= /k dimana k =,2,..., K. K adalah jumlah komponen mixture atau sama dengan banyaknya cluster. µ sama dengan codevector K yang dihasilkan oleh algoritma Vector uantization (V). Penjelasan lebih rinci mengenai V ini bisa dibaca di [5]. Σ sama dengan matriks identitas dengan dimensi matriks 2x2. Karena algoritma Expectation-Maximization merupakan proses iterasi sangat mungkin matriks kovariansi ini mendekati kondisi singular. Jika suatu matriks singular maka matriks tersebut tidak memiliki invers. Hal ini harus dihindari. Untuk mengantisipasi hal ini, dilakukan penambahan suatu konstanta terhadap komponen matriks diagonal dari matriks kovariansi ini pada setiap iterasinya. Dalam penelitian ini, konstanta yang digunakan adalah 0.0000. Nilai tersebut diperoleh dari hasil eksperimen []. Iterasi akan dihentikan jika proses iterasinya sudah sampai 0 kali [3]. Proses ini akan menghasilkan parameter-parameter GMM berupa nilai mean, matriks kovariansi dan prior probability. Untuk mendapatkan nilai-nilai parameter GMM tersebut digunakan source code yang diperoleh dari Ian T Nabney [4,7]. Nilai-nilai tersebut merupakan nilai-nilai yang digunakan untuk memperoleh parameter fungsi 86

transformasi. Parameter fungsi transformasi ini akan digunakan untuk mentransformasi selubung spektral dari pembicara sumber. Tahap transformation ini terdiri dari dua proses yaitu :melakukan transformasi dengan menggunakan parameterparameter yang diperoleh pada tahap training dan mengkonversikan nilai parameter LSF yang ditransformasi kembali ke koefisien prediksi linier. Untuk melakukan proses transformasi ini diperlukan suatu fungsi yang memetakan nilai parameter LSF dari pembicara sumber ke pembicara target. Fungsi tersebut diperoleh dari Gaussian mixture regression model yang memiliki persamaan seperti persamaan (4). Pada persamaan ini, ada tiga parameter yang harus ada yaitu parameter bobot W, bias b dan parameter posterior probability. Ketiga variabel ini diperoleh dari tahap training. Pada tahap synthesis, selubung spektral hasil tranformasi akan digunakan untuk menghasilkan sinyal ucapan yang utuh. Selubung spektral ini berupa nilai-nilai koefisien LPC yang baru. Akan tetapi, selubung spektral saja belum cukup untuk mendapatkan sinyal ucapan yang utuh tersebut. Diperlukan suatu eksitasi untuk tujuan tersebut. Eksitasi yang digunakan dalam penelitian ini adalah prediksi residu dari sinyal ucapan pembicara target yang diperoleh pada tahap training. Karena pemanfaatan kedua parameter ini (selubung spektral hasil transformasi dan prediksi residu dari sinyal ucapan pembicara target), maka STS ini diusulkan sebagai STS dengan algoritma SEM-RP (Spectral Envelope Mapping and Residu Prediction. Blok diagram STS yang diajukan dalam penelitian ini bisa dilihat pada Gambar. 4. Evaluasi Pengujian dan analisa terhadap performansi STS ini meliputi evaluasi secara objektif dan subjektif. Pada evaluasi secara objektif akan dihitung signal-to-noise ratio (SNR) antara sinyal asli (suara target) dengan suara hasil transformasi (suara hasil sintesa). Pada evaluasi secara subjektif akan dilakukan uji dengar untuk menguji performansi dari sistem tersebut. Pada uji ini akan diperlihatkan seberapa baik kualitas sinyal ucapan hasil transformasi yang dihasilkan. Kualitas sinyal ucapan hasil transformasi dikatakan baik jika suara hasil transformasi memiliki kemiripan dengan suara target. Tabel. Hasil Pengujian dengan Menggunakan SNR Kombinasi Sinyal Ucapan SNR (db) Keterangan P W selamat 4,0393 training W P selamat 2,887 training P P selamat 2,2669 training W W selamat,258 training P W pengolahan -2,35 nontraining W P pengolahan -3,029 nontraining P P pengolahan -3,4485 nontraining W W pengolahan -2,409 nontraining Keterangan : P=Pria; W=Wanita Tabel. menunjukkan hasil pengujian dengan menggunakan SNR. Dari tabel tersebut terlihat bahwa kombinasi pria ke wanita memiliki SNR yang paling tinggi (pada kasus dengan training dan tanpa training). Artinya, transformasi suara pria ke wanita memiliki kualitas hasil yang paling baik secara objektif jika dibandingkan dengan kombinasi yang lain. Kata yang di-training memiliki SNR yang relatif lebih tinggi daripada kata yang tidak di-training. Pada kasus training, kata selamat dibangkitkan dengan menggunakan prediksi residu kata selamat dari pembicara target. Pada kasus nontraining, kata pengolahan juga dibangkitkan dengan menggunakan prediksi residu kata selamat dari pembicara target. Hal inilah yang menyebabkan mengapa nilai SNR antara sinyal ucapan hasil transformasi yang diperoleh dengan training memiliki nilai yang relatif lebih tinggi daripada nilai SNR nontraining. Meskipun demikian, bukan berarti sinyal ucapan hasil transformasi yang diperoleh tanpa training gagal total. Suara sumber berhasil ditransformasi ke suara target hanya saja secara kualitas sinyal ucapan tertransformasi yang dihasilkan lebih rendah kualitasnya dibandingkan dengan sinyal ucapan yang di-training. Gambar 4.. Blok Diagram Sistem Transformasi Suara berbasis Pemetaan Selubung Spektral & Prediksi Residu 87

Untuk uji dengar digunakan kategori sebagai berikut: Tabel 2. Kategori Uji Dengar Score Kualitas Level Kemiripan Sangat Buruk tidak mirip dan tidak dimengerti 2 Buruk tidak mirip dan susah dimengerti 3 Cukup tidak mirip tapi mudah dimengerti 4 Baik mirip tapi bisa dibedakan 5 Sangat Baik mirip dan tidak bisa dibedakan Tabel 3. Hasil Uji Dengar Dengan Algoritma SEM-RP Kombinasi Sinyal Ucapan MOS Keterangan P W Selamat 4,7 training W P Selamat 4,23 training P P Selamat 4,5 training W W Selamat 4,3 training P W Pengolahan 3,27 nontraining W P Pengolahan 3,7 nontraining P P pengolahan 2,8 nontraining W W pengolahan 3,7 nontraining Keterangan : P=Pria; W=Wanita Tabel 3 menunjukkan hasil uji dengar dengan MOS (Mean Opinion Scores) menggunakan algoritma SEM-RP. Dari tabel tersebut dapat dilihat bahwa kombinasi pria pria (training) memiliki nilai MOS paling tinggi. Nilai MOS untuk kombinasi ini mendekati kategori sangat baik artinya kualitas sinyal ucapan hasil transformasi yang dihasilkan mirip dengan suara target dan hampir tidak bisa dibedakan. Jika sinyal yang dihasilkan sudah mirip maka informasi yang didengar sudah pasti bisa dimengerti dengan mudah. Kombinasi pria wanita (training), wanita pria (training) dan wanita wanita (training) memiliki nilai MOS dengan kategori baik artinya kualitas sinyal ucapan yang dihasilkan mirip dengan suara target, tetapi suara hasil transformasi tersebut masih bisa dibedakan antara suara target yang asli dengan suara target hasil transformasi. Kombinasi pria wanita (nontraining), wanita pria (nontraining) dan wanita wanita (nontraining) memiliki nilai MOS sedikit di atas kategori cukup artinya sinyal ucapan hasil transformasi belum mirip dengan suara target, tetapi warna suara pembicara sumber berhasil diubah. Kombinasi pria pria (nontraining) memiliki nilai MOS yang paling rendah dari algoritma SEM-RP ini. Nilai MOS untuk kombinasi ini masih mendekati kategori cukup yang berarti kualitas sinyal ucapan hasil transformasi masih tidak mirip dengan suara target, tetapi informasi yang didengar masih bisa dipahami atau dimengerti dengan mudah. Pada algoritma SEM-RP terlihat bahwa sinyal ucapan yang dihasilkan dengan training memiliki kualitas yang lebih baik daripada sinyal ucapan yang dihasilkan tanpa training. Hal ini wajar karena sinyal eksitasi yang digunakan untuk menghasilkan kembali sinyal ucapan pembicara sumber yang telah ditransformasi (kata pengolahan ) masih menggunakan prediksi residu dari sinyal ucapan sebelumnya (kata selamat ). Dari keterangan di atas bisa ditarik suatu kesimpulan bahwa algoritma SEM-RP ini mampu mengubah suara sumber dengan tingkat kemiripan yang jauh lebih baik daripada algoritma SEM. Suara hasil transformasi terdengar lebih natural daripada suara hasil transformasi yang dihasilkan dengan algoritma SEM. Pada bab sebelumnya dijelaskan bahwa sinyal eksitasi untuk algoritma SEM-RP ini adalah prediksi residu (residual prediction) dari pembicara target. Berdasarkan data yang diperoleh bisa disimpulkan bahwa prediksi residu ini mengandung informasi berupa warna suara dari seseorang. Hal ini bisa dibuktikan dengan melihat kasus nontraining pada algoritma SEM-RP. Kasus nontraining pada algoritma SEM-RP ini menggunakan prediksi residu dari pembicara target yang mengucapkan kata selamat untuk menghasilkan kata pengolahan. Dari pernyataan ini juga bisa disimpulkan bahwa salah satu informasi yang dimiliki selubung spektral adalah informasi berupa kata apa yang diucapkan oleh pembicara sumber. 5. Kesimpulan Gaussian Mixture Model (GMM) hanya dimanfaatkan untuk mencari hubungan statistik antara sinyal ucapan pembicara sumber dan target. Hubungan statistik tersebut berupa parameter-parameter fungsi transformasi. Setelah parameterparameter ini diperoleh, nilai-nilai parameter ini akan digunakan untuk memetakan selubung spektral dari pembicara sumber. Dari kondisi ini terbukti bahwa pemodelan GMM bisa digunakan untuk mengimplementasikan fungsi transformasi tersebut. Disamping itu, dapat disimpulkan juga bahwa STS berhasil diimplementasikan dengan menggunakan algoritma SEM-RP. Kualitas sinyal ucapan yang dihasilkan terdengar natural. 88

Daftar Pustaka [] Gillet, B. Januari 2003, Transforming Voice uality and Intonation, Master of Science Thesis, University of Edinburgh. [2] Kain, Alexander B. dan Macon, Michael W. Mei 998, Spectral Voice Conversion for Text-To-Speech Synthesis, In Proceedings of ICASSP 98. Seattle. [3] Kain, Alexander B. Oktober 200, High Resolution Voice Transformation, PhD Thesis, OGI School of Science and Engineering at Oregon Health and Science University. [4] Nabney, I. Oktober 200, Netlab Toolbox Version 3.2.. [5] Rabiner, L. dan Juang, Biing-Hwang. Thn 993, Fundamentals of Speech Recognition, New Jersey : Prentice Hall, Inc. A Simon and Schuster Company. [6] Stylianou, Y., Cappe, O. dan Moulines, E. Maret 998, Continuous Probabilistic Transform for Voice Conversion, IEEE Transactions on Speech and Audio Processing. [7] http://www.ncrg.aston.ac.uk/netlab/ diakses terakhir tanggal [8] http://labrosa.ee.columbia.edu/matlab/dtw/ diakses terakhir tanggal 89