BAB I PENDAHULUAN 1.1 Latar Belakang Pengenalan ucapan (speech recognition) merupakan sistem yang dirancang untuk dapat mengenali sinyal suara, sehingga menghasilkan keluaran berupa tulisan. Input dari sistem berupa ucapan manusia dan kemudian sistem akan mengidentifikasi kata atau kalimat yang diucapkan sehingga dapat menghasilkan keluaran berupa teks dari kata atau kalimat yang diucapkan [SAB06]. Proses pengenalan ucapan terdiri dari beberapa tahap, yaitu [SOE01]: 1. Digitalisasi sinyal Tahapan ini mengubah sinyal analog menjadi sinyal digital. Sinyal ucapan masukan yang merupakan sinyal akustik analog diubah menjadi sinyal listrik analog melalui microphone. Soundcard melakukan konversi sinyal listrik analog menjadi sinyal listrik digital kemudian sinyal tersebut disimpan dalam file dengan format tertentu. 2. Analisis sinyal Tahapan ini melakukan analisis terhadap sinyal masukan sehingga didapatkan feature (ciri/karakteristik) dari sinyal tersebut. Analisis sinyal terdiri dari beberapa proses, yaitu: a. Tracking Proses tracking adalah memotong sinyal menjadi frame-frame kecil berdasarkan rentang waktu tertentu. Frame merupakan potongan dari sinyal ucapan yang terdiri dari sejumlah sample yang sama. b. Windowing Windowing dilakukan untuk menghilangkan efek sisi (bagian dari frame yang tidak dibutuhkan dalam proses pengambilan feature) dan untuk menghindari sinyal diskontinyu pada setiap frame. c. Analisis spektral Analisis spektral merupakan metode untuk mendapatkan feature vector dari setiap potongan sinyal. I-1
I-2 3. Pengelompokan dan Pelabelan Sinyal Setelah dihasilkan kumpulan feature vector dari beberapa frame sebagai hasil analisis sinyal kemudian feature vector tersebut dikelompokkan berdasarkan karakteristik phonetic tertentu. Karakteristik phonetic direpresentasikan oleh nilai spectral envelop dari setiap feature vector. Karakteristik phonetic tersebut merepresentasikan label bagi setiap feature. Pengelompokan dan pelabelan sinyal dapat dilakukan dengan dua cara yaitu secara manual dan otomatis. Proses secara manual dilakukan dengan memberikan nomor feature dan fonemnya secara manual oleh pengguna kepada sistem. Proses secara otomatis pemisahan dan pengelompokan sinyal dilakukan oleh sistem. Pengguna hanya perlu memberikan urutan dari fonem yang ada pada sinyal masukan. Proses pelabelan secara manual membutuhkan waktu yang relatif lebih lama daripada proses pelabelan secara otomatis. Penentuan kelas phonetic/label terhadap suatu sinyal pada umumnya dilakukan secara manual oleh seorang pakar dengan menggunakan tools grafis yang dapat memodelkan bentuk gelombang sinyal tersebut. Hasil pelabelan dari beberapa pakar menunjukkan bahwa terdapat perbedaan label untuk gelombang yang sama [COS06], sehingga dapat dikatakan bahwa pelabelan secara manual dapat memberikan hasil yang tidak akurat. Hal ini disebabkan oleh variasi visualisasi, kemampuan persepsi akustik dan sulitnya menemukan strategi pelabelan yang dapat digunakan sebagai standard. Proses pelabelan secara otomatis dapat mengakibatkan proses pembelajaran oleh sistem pengenal ucapan menjadi lebih baik karena lebih akurat [SOE01]. Teknik yang sering digunakan adalah clustering dengan menggunakan algoritma tertentu, diantaranya Gaussian mixture models (GMM) [JUR00], Algoritma Forward- Backward [DEM06], dan K-Means [NEE05]. Selain teknik clustering, pelabelan otomatis juga dapat dilakukan menggunakan HMM dengan algoritma Viterbi [DEM06] dan jaringan saraf tiruan [CHE06]. Gambar I-1 Vector Quantization
I-3 Pelabelan menggunakan K-Means clustering dilakukan berdasarkan metode kuantisasi vektor (vector quantization). Kuantisasi vektor merupakan metode untuk mengelompokkan semua feature yang merepresentasikan ciri/karakteristik sinyal yang sama pada satu kelompok kelas phonetic. Hasil kuantisasi vektor adalah phonetic model yang terdiri dari beberapa kelompok kelas phonetic sinyal. Setiap satu kelompok direpresentasikan oleh sebuah feature [Gambar I-1]. Ketepatan hasil kuantisasi vektor memegang peranan yang penting pada sistem pengenal ucapan. Hal ini disebabkan oleh beberapa alasan, yaitu: a. Pemilihan vektor yang merepresentasikan ciri phonetic tertentu dalam setiap kelompok kelas phonetic sangat menentukan ketepatan hasil pengenalan b. Hasil yang akurat dari proses pengelompokan dan pelabelan sinyal mengakibatkan proses pembelajaran oleh sistem pengenal ucapan menjadi lebih baik [SOE01]. c. Proses segmentasi sangat berguna untuk mereduksi kebutuhan memori dan meminimalkan kompleksitas komputasi pada sistem pengenalan ucapan untuk data yang besar seperti sistem large vocabulary continuous speech recognition (LVCSR) [HSI98]. 4. Pelatihan Sistem Pengenalan Ucapan Tahapan pelatihan sistem pengenal ucapan dilakukan dengan menggunakan algoritma tertentu. Pada tahap ini feature vector beserta label digunakan sebagai masukan pada algoritma yang digunakan. 5. Pengenalan sinyal ucapan Tahapan untuk mengenali sinyal ucapan masukan dengan menggunakan hasil dari tahap pelatihan. 6. Evaluasi hasil pengenalan Setelah didapatkan hasil pengenalan per kata, jika hasil pengenalan belum memuaskan maka akan dilakukan pencocokan dengan kata-kata yang ada pada basisdata. Tugas akhir ini membahas mengenai pelabelan feature dengan sebuah fonem. Pelabelan dilakukan menggunakan metode kuantisasi vektor. Pengelompokkan sinyal pada proses kuantisasi vektor menggunakan algoritma K-Means. Algoritma K-Means merupakan algoritma dasar yang mudah dan dapat dengan cepat melakukan pemusatan data (convergence) pada proses clustering. Penelitian mengenai pengelompokkan sinyal pada kelas phonetic tertentu pada sistem pengenalan ucapan menunjukkan bahwa
I-4 clustering menggunakan algoritma K-Means memberikan hasil keakuratan 70% dalam menentukan cluster yang tepat untuk setiap sinyal [NEE05]. 1.2 Rumusan Masalah Berdasarkan latar belakang yang telah disebutkan, rumusan masalah yang dikaji dalam Tugas Akhir ini adalah: 1. Bagaimana melakukan analisis sinyal terhadap sinyal ucapan sehingga didapatkan sekumpulan feature vector 2. Bagaimana melakukan kuantisasi vektor untuk mengelompokkan feature vector terhadap fonem dari file label sehingga terbentuk cluster model setiap fonem 3. Bagaimana memberikan label untuk setiap kelompok feature masukan terhadap cluster model yang terbentuk sehingga dihasilkan output yang dapat digunakan sebagai masukan algoritma pembelajaran dalam tahap pelatihan sistem pengenalan ucapan (tahap 4). 1.3 Tujuan Tujuan yang ingin dicapai dalam pembuatan tugas akhir ini adalah 1. Melakukan analisis sinyal terhadap sinyal ucapan hingga dihasilkan sekumpulan feature vector 2. Melakukan kuantisasi vektor terhadap sekumpulan feature vector kemudian memberikan label setiap kelompok yang dihasilkan sehingga terbentuk cluster model. Algoritma yang dipakai untuk pengelompokkan dalam kuantisasi vektor adalah algoritma K-Means 3. Melakukan klasifikasi feature hasil analisis file uji pada cluster model yang terbentuk. Hasil klasifikasi ini ditujukan sebagai masukan classfier dalam tahap pelatihan sistem pengenalan ucapan (tahap 4) 4. Melakukan analisis perbandingan terhadap ketepatan hasil pelabelan suatu file masukan yang dilakukan pada tugas akhir ini terhadap file labelnya. 1.4 Batasan Masalah Dalam tugas akhir ini terdapat beberapa batasan masalah, yaitu: 1. Proses pengelompokkan dan pelabelan sinyal ucapan dilakukan untuk sinyal ucapan dalam bahasa Indonesia
I-5 2. Sinyal ucapan masukan diasumsikan sudah mempunyai kualitas yang cukup memadai sehingga tidak diperlukan proses lain yang digunakan untuk mengurangi pengaruh noise 3. Proses pengolahan sinyal masukan tidak dilakukan secara real-time. 1.5 Metodologi Tugas Akhir yang dilakukan adalah berupa penelitian dan mengimplementasikannya dalam sebuah perangkat lunak. Metodologi yang akan digunakan selama pengerjaan Tugas Akhir ini adalah: 1. Studi Pustaka Studi pustaka akan dilakukan pada seluruh proses pengerjaan Tugas Akhir. Studi pustaka meliputi studi tentang teknologi pada Speech Recognition, Vector Quantization, Digital Speech Processing terutama sinyal ucapan, metode clustering dan nasalisasi dalam bahasa Indonesia. 2. Analisis Permasalahan Kegiatan analisis permasalahan meliputi analisis file sinyal ucapan, proses analisis sinyal ucapan, metode dan algoritma clustering, karakteristik untuk setiap fonem (kelas phonetic) untuk bahasa Indonesia, dan spesifikasi, lingkungan pengembangan serta fungsionalitas perangkat lunak. 3. Perancangan perangkat lunak Perancangan perangkat lunak meliputi yang terdiri dari identifikasi fungsi yang dibutuhkan oleh sistem menggunakan usecase. 4. Implementasi perangkat lunak Implementasi perangkat lunak yang dibangun menggunakan tools pemrograman. 5. Pengujian perangkat lunak Pengujian dilakukan untuk menunjukkan apakah label (fonem) yang dihasilkan untuk setiap sinyal sesuai dengan ucapan masukan. 6. Evaluasi dan penarikan kesimpulan Melakukan evaluasi terhadap hasil percobaan, melakukan analisis perbandingan terhadap ketepatan hasil pelabelan suatu file masukan yang dilakukan pada tugas akhir ini terhadap file labelnya.
I-6 1.6 Sistematika Pembahasan Laporan tugas akhir ini terdiri dari beberapa bab yang terdiri dari Pendahuluan, Dasar Teori, Analisis dan Perancangan, Implementasi dan Pengujian dan Penutup. Penjelasan untuk setiap bab adalah sebagai berikut: 1. Bab Pendahuluan Bab ini berisi penjelasan mengenai latar belakang ide judul, rumusan masalah, tujuan, batasan masalah, metodologi, dan sistematika pembahasan. Bab ini bertujuan untuk memudahkan pemanfaatan laporan tugas akhir ini. 2. Bab Dasar Teori Bab ini berisi penjelasan umum dan dasar teori mengenai sistem, cara penyelesaian persoalan dan teknik-teknik yang digunakan dalam tugas akhir ini berdasarkan referensi yang ada. 3. Bab Analisis dan Perancangan Bab ini berisi analisis dan perancangan sistem yang akan menjadi dasar implementasi. Bab ini bertujuan untuk mempermudah memahami hasil implementasi. 4. Bab Implementasi dan Pengujian Bab ini berisi implementasi hasil rancangan, penjelasan mengenai fungsi-fungsi yang diimplementasikan, hasil pengujian perangkat lunak dan analisis pengujian. 5. Bab Penutup Bab ini berisi kesimpulan dan saran selama pelaksanaan tugas akhir.