Rekognisi Pengucap Forensik Forensic Speaker Recognition Untuk Komunitas: Lingkar Soca 28 Februari 2016 Oleh: Miranti Indar Mandasari, ST., MT. Institut Teknologi Bandung, Indonesia Radboud University Nijmegen, the Netherlands
SISTEM REKOGNISI PENGUCAP
Berbagai Informasi pada Suara Ucap Dari daerah mana dia berasal? Bahasa apa yang dia gunakan? Apakah kata yang dia ucapkan? Accent Recognition Language Recognition Speech Recognition Sistem Rekognisi Pengucap Emotion Recognition Apakah dia sedih/ senang? Gender Recognition Apakah dia pria/ wanita? Speaker Recognition Siapakah dia?
Sistem Rekognisi Pengucap Dalam Bahasa Inggris dikenal dengan Speaker recognition, atau Voiceprint recognition. Definisi: Speaker recognition is a process of recognizing the identity of a speaker from a given speech segment. Rekognisi Pengucap adalah sebuah proses dalam merekognisi (mengenali) identitas seorang pengucap dari suatu segmen suara ucap.
Mengapa Rekognisi? Operating modes: Rekognisi Pengucap Verifikasi pengucap Identifikasi pengucap Klasifikasi atau diarisasi pengucap Speaker recognition Speaker verification Speaker identification Speaker classification or diarization
Mengapa Rekognisi? unknown known Speaker Verification Same speaker (or) Different speaker? Speaker recognition Speaker verification Speaker identification Speaker classification or diarization
Mengapa Rekognisi? known(s) unknown Speaker Identification Speaker recognition Speaker verification Speaker identification Speaker classification or diarization Who is speaking?
Mengapa Rekognisi? Who is speaking here? Who is speaking here? Speaker recognition Speaker verification Speaker identification Speaker classification or diarization Who is speaking here?
APLIKASI DARI SISTEM REKOGNISI PENGUCAP
Komersial Forensik Akses pada Perangkat elektronik Akun Bank Ruangan rahasia Verifikasi pengucap Verifikasi suara tersangka Diarisasi pengucap untuk: Notulensi otomatis saat rapat Identifikasi pengucap Mencari identitas tersangka Aplikasi dari Sistem Rekognisi Pengucap Diarisasi pengucap Pembuatan transkrip otomatis
FORENSIK SUARA UCAP
Forensik Suara Ucap Aplikasi sistem rekognisi pengucap untuk aplikasi forensik: Speaker profiling: Sistem rekognisi aksen Sistem rekognisi bahasa Sistem rekognisi gender Mengetahui konten percakapan Sistem rekognisi suara ucap (speech recognition) Identitas pengucap Siapa yang berbicara? Sistem rekognisi pengucap (speaker recognition)
BERBAGAI MACAM SISTEM REKOGNISI PENGUCAP
Tipe-tipe Sistem Rekognisi Pengucap Pendekatan fonetik-akustik biasanya menggunakan metode manual Sistem rekognisi pengucap otomatis Sistem hybrid Gabungan antara manual-otomatis
SISTEM REKOGNISI PENGUCAP BERBASIS FONETIK-AKUSTIK
Rekognisi Pengucap Berbasis Fonetik-Akustik Fitur berdasarkan properti akustik dari suara ucap Pitch (Frekuensi Fundamental) Formant & Bandwidth Formant Intensitas sinyal (Energi) Durasi Analisis: Menggunakan pendekatan statistik dasar Level: kalimat, kata/frase, suku-kata, dan fonem Biasanya: text-dependent
Ekstraksi Fitur Akustik Segmen suara ucap Dalam domain waktu Ekstraktor Fitur (Mesin FFT/ LPC) Segmen suara ucap Dalam doman frekuensi
Ekstraksi Fitur Akustik: Pitch dan Formant FORMANT 1 (F1) F2 F2 F2 PITCH: fundamental frequency.
Ekstraksi Fitur Akustik Energi/ intensitas Pitch/ frekuensi fundamental Formants
Analisis Statistik 1 Pengucap
Analisis Statistik N Pengucap Pengucap 1 Pengucap 2 Pengucap 3 Pengucap 4 Pengucap 5 Pengucap 6
SISTEM REKOGNISI PENGUCAP OTOMATIS
Setup Sistem Rekognisi Pengucap Otomatis Background Data Training known Ekstraksi Fitur Pemodelan Pengucap Skor Testing unknown Ekstraksi Fitur Pemodelan Pengucap
Setup Sistem Rekognisi Pengucap Otomatis Ekstraksi fitur: MFCC (Mel), LPC, LPCC, CFCC (cochlear), etc. Metode pemodelan: GMM-UBM, i-vector, JFA, HMM, ANN, SVM, LDA, PLDA, etc.
Ekstraksi Fitur MFCC
Setup Sistem Rekognisi Pengucap Otomatis Background Data Training known Ekstraksi Fitur Pemodelan Pengucap Skor Testing unknown Ekstraksi Fitur Pemodelan Pengucap Decision?
Membuat Keputusan Binary Reject Accept Non-target scores Target scores Threshold
Tipe Error: Yes No False alarm Miss rejection Target trial Non-target/ impostor
Membuat Keputusan Forensik Menggunakan kerangka likelihood ratio Posterior knowledge Evidence Prior knowledge P(H 0 E) P(H 1 E) = P(E H 0 ) P(E H 1 ) x P(H 0 ) P(H 1 ) Posterior odds Likelihood ratio Prior odds Wewenang Pengadilan Wewenang Expert Wewenang Pengadilan
Likelihood Ratio Likelihood ratio (LR) adalah probabilitas relatif dari suatu bukti/skor E terhadap kedua hipotesis: - H 0 : suara unknown dan known berasal dari pengucap yang sama, dan - H 1 : suara unknown dan known berasal dari pengucap yang berbeda Hipotesis Prosecution Likelihood Ratio LR = P(E H 0) P(E H 1 ) Bukti/ skor Hipotesis Defense
Menghitung LR dari Distribusi Skor
PERKEMBANGAN SISTEM REKOGNISI PENGUCAP OTOMATIS
Kondisi Saat ini Kebanyakan: text- dan channel-independent Beberapa: gender- dan language-independent Pada kondisi terkontrol: Performa baik, equal error rate 1.00% Cara meningkatkan performa: Fusion pada saat ekstraksi fitur, pemodelan, atau pada level skor Menggunakan multi-modal biometrics (face, fingerprints, etc.) Aplikasi pada dunia forensik: Masih terbatas Memerlukan proses kalibrasi likelihood ratio
Tantangan Tantangan utama: kondisi mismatched antara segmen suara ucap known dan unknown: Channel atau media perekaman, Level noise, Durasi, Kata dan/atau bahasa yang terucap, Kondisi emosi dan kesehatan pengucap, Gaya berbicara, dan etc. Tantangan lainnya: noise robustness, suara ucap yang tersamarkan (disguised speech: whisper, vocal effort, etc.) & voice aging
Sistem Rekognisi Pengucap Otomatis di Radboud University Nijmegen Equal error rate pada database: NIST SRE 08 : 1.33 % NIST SRE 10 : 1.87 % NIST SRE 12 : 2.85 % (terdapat variasi noise dan durasi)
SISTEM REKOGNISI PENGUCAP FORENSIK DI TEKNIK FISIKA ITB
Sistem Rekognisi Pengucap Forensik di Teknik Fisika ITB Merupakan kolaborasi antara 2 kelompok keahlian (KK) di lingkungan Fakultas Teknologi Industri (FTI) ITB: KK Teknik Fisika, dan KK Instrumentasi & Kontrol. Pendekatan: hybrid Berbasis fonetik-akustik Ekstraksi fitur akustik secara otomatis Analisis dengan menggunakan metode statistik
Peta Jalan Penelitian Menuju otomatisasi sistem
Thank You! Bandung, 28 Februari 2016 Miranti Indar Mandasari, ST., MT. Email: miranti.indar.mandasari@gmail.com