Jurnal Teknik Elektro dan Komputer, Vol.I, No.2, Oktober 21, 125-129 125 Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal Voice dan Unvoice Luqman Hakim Program Studi Teknik Mekatronika, Politeknik Caltex Riau, Pekanbaru 28265 email: luqman@pcr.ac.id Abstrak Dalam makalah ini akan dikemukakan satu metode untuk melakukan pemisahan sinyal suara (voice) dengan sinyal bukan suara (unvoice). Langkah pemisahan tersebut penting untuk dilakukan sebelum sebuah sinyal suara diolah ataupun dianalisa lebih lanjut. Metoda yang dilakukan untuk pemisahan tersebut dilakukan dengan menerpkan moving standar deviasi. Untuk menentukan titik awal dan akhir sinyal voice dalam metode ini, secara umum terdiri atas dua tahap, yaitu analisa sinyal unvoice yang disebut sebagai noise latar belakang (background noise) untuk membuat nilai ambang batas (threshold), dan kemudian membuat deret logika. Dari pengujian yang dilakukan didapatkan tingkat keberhasilan 8% dari sinyal suara yang dijadikan sampel secara acak. Pendeteksian dengan cara ini masih mempunyai kelemahan yaitu dengan masih ada ketergantungan dengan pemilihan jumlah sampel dan threshold. Kata kunci: titik awal, titik akhir, sinyal voice, unvoice Abstract In this paper will put forward a method to separate the voice signal with the unvoice signal. Separation steps are necessary to be done before a sound signal is processed or analyzed further. The method for the separation is done by applying a moving standard deviation. To determine the start and end voice signal in this method, generally consisting of two phases, namely analysis unvoice signals are referred to as background noise to make a threshold value, and then make a series of logic. Obtained from tests performed 8% success rate of the 59 signal is sampled at random. Detection by this method still has the drawback that there is still a dependency with the selection of sample size and threshold. Keywords: start point, end point, voice signal, unvoice 1 Pendahuluan Dalam makalah ini akan dikemukakan satu metode untuk melakukan pemisahan sinyal suara (voice) dengan sinyal bukan suara (unvoice). Pada saat dilakukan perekaman suara, sering terjadi jeda antara titik mulai perekaman dengan titik awal pengucapan suara sampel. Di akhir perekaman juga terjadi sebuah kejadian di mana akhir pengucapan suara sampel tidak sama dengan titik akhir perekaman. Dari dua kejadian tersebut, maka sinyal yang terekam terdiri dari sinyal periode diam (silient periode) yang menghasilkan sinyal bukan suara (unvoice) dan sinyal suara (voice) sampel yang diinginkan. Langkah pemisahan tersebut penting untuk dilakukan sebelum sebuah sinyal suara diolah ataupun dianalisa lebih lanjut. Proses pemisahan tersebut dilakukan dengan terlebih dahulu mendeteksi titik awal dan titik akhir dari sebuah sinyal suara[1][2]. Penelitian mengenai pendeteksian sinyal voice dan unvoice telah dilakukan oleh para peneliti bidang pengolahan sinyal suara. Salah satunya adalah yang dikemukakan Saha G dkk.
126 Luqman Hakim Metoda yang digunakan adalah dengan mengaplikasikan windowing Gaussian.[] Metoda yang dikemukakan menggunakan statistic dan pembuatan threshold berdasarkan fungsi jarak mahalanobis (mahalanobis distance function). Pengujian dilakukan pada teks berjalan dan suara yang menyebutkan angka. Tingkat keberhasilan mencapai 8% pada deteksi suara angka dan 7% teks berjalan. Pada makalah ini disampaikan teknik pemisahan dengan menggunakan moving standar deviasi. Proses pendeteksian masih berdasarkan perhoitungan statistic, tetapi perlakuan dan pembuatan threshold yang berbeda dari yang telah dipublikasikan Saha G. dkk. Pengujian yang dilakukan pada metoda yang diterapkan dilakukan pada 59 sampel rekaman suara dari 18 orang yang terdiri atas 1 laki-laki dan perempuan. Apa yang disampaikan pada makalah ini diharapkan dapat menambah wacana dalam melakukan pemisahan sinyal voice dan unvoice pada pengolahan sinyal suara. 2 Metodologi Metode penemuan titik awal dan titik akhir sinyal suara yang dikemukakan dalam makalah ini menggunakan prinsip standar deviasi yang digerakkan atau diterapkan per bagian sepenjang sinyal tererkam (moving standard deviation). Ilustrasi bagian voice dan unvoice sebuah sinyal rekaman ditunjukan pada Gambar 1. Moving standar deviasi untuk sebuah sinyal digital x[i], dapat digambarkan dengan persamaan sebagai berikut: di mana μ w nilai rata rata atau mean nilai x dalam frame yang dirumuskan: (1) (2) N w menunjukan lebar frame atau jumlah data yang diambil untuk dicari standar deviasinya. Dengan melakukan perhitungan standar deviasi dari setiap frame sinyal, maka untuk keseluruhan sinyal akan diperoleh sederetan nilai standar deviasi dari frame pertama dan terakhir. Untuk menentukan titik awal dan akhir sinyal voice dalam metode ini, secara umum terdiri atas dua tahap, yaitu analisa sinyal unvoice yang disebut sebagai noise latar belakang (background noise) untuk membuat nilai ambang batas (threshold), dan kemudian membuat deret logika. Gambar 1 Ilustrasi sinyal voice dan unvoice
Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal... 127 2.1 Analisa Sampel Sinyal Unvoice Langkah-langkah untuk menganalisa sinyal unvoice atau noise latar belakang adalah sebagai berikut: 1. Mengambil sampel pada durasi unvoice (Estimasi berdasarkan pengamatan terhadap sinyal) 2. Menghitung moving standar deviasi (setiap 1 ms). Sampel unvoice dibagi ke dalam frame yang lebih kecil (setiap 1 ms / 1 sampel pada frekuensi sampling 1 Hz), kemudian dicari standar deviasi dari tiap frame.. Mencari standar deviasi terbesar dari setiap frame sampel unvoice. Membuat threshold dari standar deviasi terbesar, 5. () 6. di mana C adalah faktor pengali. 2.2 Membuat Deret Logika (logical series) Deret logika adalah sebuah bentuk deret baru yang terdiri atas nilai dan 1 yang dibuat berdasarkan perhitungan standar deviasi. Langkah-langkah pembuatan deret logika yang dimaksud adalah sebagai berikut: 1. Melakukan framing 1 ms pada seluruh sinyal 2. Menghitung standar deviasi pada setiap frame, kemudian dibandingkan dengan threshold yang telah dibuat.. Dari sini dibuat deret logika. Deret logika bernilai 1 jika nilai standar deviasi pada titik tersebut lebih tinggi daripada thershold, sebaliknya berniali.. Menentukan titik awal dan akhir sinyal dari deret logika yang terbentuk dengan mencari di index ke berapa titik awal sinyal voice dan titik akhirnya berada. Dalam konteks di atas, nilai N w adalah sejumlah data pada setiap frame 1 ms atau sebanyak 1 data. Dalam menyelesaikan masalah pemisahan noise latar belakang ini, penentuan jumlah sampel dan koefisien pengali threshold dilakukan secara manual berdasarkan pengamatan terhadap sinyal yang ada. Threshold berkisar sampai dengan kali standar deviasi maksimum noise sudah dapat memisahkan sinyal suara dari noise latar belakang dengan baik. Hasil Dan Pembahasan Pengujian terhadap metoda di atas telah diuji untuk memisahkan sinyal voice dan unvoice sampel rekaman suara dari 1 orang laki-laki dan 5 orang perempuan. Ilustrasi bentuk sinyal rekaman suara, deret logika, dan hasil pemisahan voice dan unvoice ditunjukan pada Gambar 2, Gambar dan Gambar. Pada Gambar 2 ditampilkan salah satu sinyal suara yang baru direkam. Pada sumbu horizontal ditampilkan jumlah N data sinyal keseluruhan sampel bersangkutan. Pada Gambar ditampilkan deret logika yang dibentuk berdasarkan analisa standar deviasi seperti yang telah disebutkan. Pada Gambar 2 terlihat bahwa hasil deret logika membentuk selubung sinyal voice dan unvoice secara tepat. Kemudian pada Gambar ditampilkan sinyal hasil pemisahan. Hasil pemisahan ini baru dapat digunakan untuk analisa sinyal suara lebih lanjut. Dengan melakukan pemisahan sinyal voice ini secara langsung akan mengurangi jumlah data sehingga memperingan proses komputasi selanjutnya. Hal ini karena data digital dari latar
128 Luqman Hakim belakang perekaman merupakan data-data yang tidak diperlukan. Dari Gambar 2 dan Gambar dapat dilihat dari jumlah data yang sebelumnya ribuan berkurang hingga tinggal 2ribuan. Gambar 2 Sampel sinyal rekaman suara Gambar Deret logika dan sinyal suara Gambar Hasil pemisahan voice dan unvoice Hasil pengujian dengan sampel suara yang lain, selengkapnya ditampilkan dalam Tabel 1. Dari total 59 kali pengujian, didapatkan 9 kali berhasil dan 1 kali tidak berhasil. Berdasarkan data pengujian tersebut keberhasilan mencapai 8% dari 59 pengujian. Kegagalan banyak didapatkan pada keadaan noise yang cukup besar. Jika fluktuasi noise tidak terlalu besar, dengan mengambil sampel noise sekitar 1 data sudah menghasilkan pendeteksian yang cukup baik.
Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal... 129 Tabel 1 Hasil Pengujian Sampel Total Uji Jumlah Hasil Uji Berhasil Gagal 1 2 1 2 1 1 2 2 1 5 2 1 6 1 2 7 8 2 1 9 1 11 12 5 5 1 1 15 16 2 1 17 18 Total 59 9 1 Kesimpulan Dari hasil pengujian terhadap sistem yang dibangun untuk melakukan pendeteksian sinyal voice dan unvoice dengan metode moving standar deviasi, dapat dilakukan dengan tingkat keberhasilan sekitar 8%. Pendeteksian dengan cara ini masih mempunyai kelemahan yaitu dengan masih ada ketergantungan dengan pemilihan jumlah sampel dan threshold. 5 Daftar Pustaka [1] Rabiner, L.R. and R.W. Scafer, Digital Processing For Speech Signals, Prentice Hall, 1978 [2] Oppenheimer, Priscilla, Digitizing Human Vocal Communication, http://www.prescilla.com/language.html, Desember 211 : 9:28 WIB [] G. Saha, Sandipan Chakroborty, Suman Senapati, A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications, India