BAB I PENDAHULUAN 1.1 Latar Belakang Emosi adalah perasaan intens yang ditujukan kepada seseorang atau sesuatu dan juga merupakan reaksi terhadap seseorang atau kejadian. Emosi dapat ditunjukkan ketika merasa senang mengenai sesuatu, marah kepada seseorang, ataupun takut terhadap sesuatu (Frieda, 1993). Kondisi emosional terefleksi dalam perkataan, gerak tubuh, dan terutama ekspresi wajah (Chibelushi & Bourel, 2003). Manusia memiliki insting untuk berinteraksi satu sama lain demi mencapai suatu tujuan, dan dalam interaksi itu, mengintepretasi kondisi emosional menjadi penting untuk komunikasi yang baik. Komunikasi yang baik menjamin adanya pertukaran pikiran dan pandangan yang benar sehingga tidak terjadi kebingungan. Jika sebuah hal tidak dikomunikasikan dengan baik, maka orang akan sulit mengerti. Jika dibiarkan, masalah pun akan timbul sebagai dampaknya. Dampak yang ditimbulkan merupakan kesalahpahaman yang dapat berakibat fatal dalam berbagai situasi seperti contoh berikut ini. Pada kecelakaan pesawat Korean Air Flight 801 (KE801, KAL801) pada 6 Agustus 1997, terekam terjadi miskomunikasi antara petugas bandara dan pilot sekalipun mereka semua berbahasa Inggris dengan baik. Perbedaan latar belakang budaya dalam berbahasa membuat mereka salah tanggap atas 1
2 apa yang mereka maksudkan. Pilot dan Co-Pilot berusaha untuk menyampaikan urgensi di lokasi kejadian, tetapi urgensi itu tidak tersampaikan ke petugas dengan baik, sehingga petugaspun tidak menyadari akan urgensi tersebut. Kesalah-pahaman ini menyebabkan petugas bandara memberi instruksi yang salah, dan menyebabkan pilot dan co-pilot mengambil tindakan yang salah. Pilot dan co-pilot baru menyadari tindakan mereka salah disaat keadaan sudah kritis dan akhirnya pesawatpun mengalami kecelakaan (Gladwell, 2008). Perbedaan semacam ini tentu sulit dihilangkan atau dihindari tetapi mungkin seandainya kita bisa mendeteksi keadaan emosi mereka, tidak sekedar dari kata-kata belaka, kesalah-pahaman bisa diminimalisasi dengan baik, misalnya: apakah mereka sedang dalam keadaan khawatir atau dalam keadaan baik. Manusia memiliki keterbatasan dalam mengartikan sebuah komunikasi. Perbedaan kebudayaan dan adat istiadat menjadi salah satu kendala dalam menerjemahkan emosi manusia. Dalam kisah ini, kesalahpahaman dalam membaca emosi manusia mengakibatkan bahaya yang sangat fatal. Oleh karena itu, butuh adanya deteksi emosi manusia untuk merepresentasikan keadaan sesungguhnya. Dengan kendala-kendala yang ditemukan, beberapa ilmuwan telah melakukan penelitian deteksi tingkat emosi manusia berdasarkan informasi verbal. Salah satu penelitian tersebut dilakukan oleh Kandali A.B., Routray A., dan Basu T.K. (2008) mengenai pendeteksian tingkat emosi dari hasil percakapan suku Assam menggunakan metodegaussian Mixture Model Classifier (GMM) dengan Mel-Frequency Cepstral Coefficient (MFCC)
3 yang menyimpulkan bahwa keadaan terkejut merupakan emosi yang paling sulit untuk diidentifikasi. Kemudian penelitian yang dilakukan oleh Chaniago I. (2014) dengan menggunakan metodediscrete Wavelet Transform (DWT) dengan Linear Predictive Coefficient (LPC) mencapai tingkat akurasi hingga 95%. Hal ini menjadi bukti bahwa kedua metode tersebut dapat digunakan dalam pendeteksian emosi seseorang. Kemudian penelitian yang dilakukan oleh Muda L., Begam M., dan Elamvazuthi I mengenai pembuktian bahwa metodedynamic Time Warping (DTW) dengan Mel-Frequency Cepstral Coefficient (MFCC) dapat digunakan secara efektif dalam pendeteksian suara. Dari beberapa penelitian di atas dapat dilihat bahwa terdapat perbedaan pada hasil akurasi dari masing-masing metode. Hal ini disebabkan karena perbedaan parameter yang digunakan dalam pengujian yang dilakukan seperti sumber data yang berbeda, banyak data yang berbeda, dan banyak iterasi yang berbeda untuk pelatihan pada masingmasing metode, sehingga sulit untuk menentukan metode mana yang lebih baik dalam melakukan penelitian ini. Tabel 1.1 menjelaskan kelebihan dan kekurangan dari tiga macam metode yang telah digunakan peneliti-peneliti yang disebutkan sebelumnya (Magre, Janse, & Deshmukh, 2014). Identifikasi tingkat emosi orang berdasarkan informasi verbal dilakukan dengan menggunakan Mel-Frequency Cepstral Coefficient (MFCC) untuk membantu manusia dalam berkomunikasi tanpa harus mengkhawatirkan adanya perbedaan kultur, aksen dan cara berbahasa.
4 Tabel 1.1 Perbandingan Hasil dari Model Prediksi yang Berbeda. Kelebihan MFCC Mendekati respon sistem manusia lebih dekat daripada sistem lainnya LPC Memberikan pendekatan yang baik untuk saluran vocal spectral envelope DWT Memiliki resolusi waktu yang lebih baik daripada Fourier Transform. Memberikan lokalisasi simultan dalam waktu dan domain frekuensi. Memberikan akurasi pengenalan suara yang lebih tinggi daripada LPC dan MFCC. Kekurangan Kepekaan terhadap kebisingan karena ketergantungannya pada bentuk spektral. Metode ini akan merangkul spektrum seketat mungkin, dan dalam kondisi tertentu akan turun sampai ke tingkat riuh yang tersisa pada saat berada di celah antara dua parsial harmonic Membutuhkan waktu kompresi lebih lama dan biaya yang dibutuhkan lebih tinggi. Metode yang dipilih adalah Mel-Frequency Cepstral Coefficient (MFCC) karena merupakan salah satu metode yang banyak digunakan dalam bidang teknologi percakapan, baik identifikasi pembicara maupun identifikasi percakapan. Metode ini digunakan untuk melakukan ekstraksi fitur, sebuah proses yang mengkonversikan sinyal suara menjadi beberapa parameter. Beberapa keunggulan dari metode ini adalah (Manunggal, 2005): 1) Mampu untuk menangkap karakteristik suara yang sangat penting bagi pengenalan suara, atau dengan kata lain dapat
5 menangkap informasi-informasi penting yang terkandung dalam sinyal suara. 2) Menghasilkan data seminimal mungkin, tanpa menghilangkan informasi-informasi penting yang dikandungnya. 3) Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap sinyal suara. 4) Mendekati respon sistem manusia lebih dekat daripada sistem lainnya 5) Biaya yang dibutuhkan rendah Sudah banyak penelitian yang dilakukan untuk mengidentifikasi tingkat emosi orang berdasarkan informasi verbal dalam Bahasa Inggris (Sapra, Panwar, & Panwar, 2013), Jerman (Sathe-Pathak & Panat, 2012), Mandarin (Pao, Chen, Yeh, & Liao, 2005), Assam (Kandali, Routray, & Basu, 2008), Persia (Hamidi & Mansoorizade, 2012), Denmark (Lin & Wei, 2005) dan bahasa-bahasa lainnya. Namun belum ada yang melakukan penelitian untuk mengidentifikasi tingkat emosi orang berdasarkan informasi verbal dalam Bahasa Indonesia; sehingga, penelitian yang akan dilakukan akan menggunakan basis data suara berbahasa Indonesia. 1.2 Perumusan Masalah Apakah fitur yang diperoleh dari informasi verbal dalam Bahasa Indonesia dapat digunakan untuk klasifikasi jenis emosi dengan
6 menggunakan metode MFCC dan SVM? Berapakah tingkat akurasi yang bisa dicapai? 1.3 Tujuan Penelitian Tujuan penelitian ini adalah: Mengklasifikasi tingkat emosi manusia berdasarkan informasi verbal berbahasa Indonesia. Mendapatkan rata-rata tingkat emosi manusia berdasarkan informasi verbal berbahasa Indonesia. 1.4 Manfaat Penelitian Manfaat penelitian ini adalah: Memberikan pengalaman kepada penulis untuk menerapkan dan memperluas wawasan penerapan teori dan pengetahuan yang telah didapat dari riset yang telah dilakukan. Hasil riset ini dapat digunakan untuk mengembangkan sebuah aplikasi yang akan berguna di berbagai bidang dalam melancarkan sebuah pekerjaan karena terjalinnya komunikasi yang baik.
7 1.5 Ruang Lingkup Ruang lingkup penelitian ini adalah sebagai berikut: Riset ini hanya melakukan identifikasi empat jenis emosi seseorang (senang, sedih, marah dan takut) Sampel diambil dari 4 orang aktor (2 orang wanita dan 2 orang pria) untuk masing-masing jenis emosi. Sampel yang digunakan merupakan sampel berbahasa Indonesia.