Rekognisi Pengucap Forensik Forensic Speaker Recognition

Rekognisi Pengucap Forensik Forensic Speaker Recognition Untuk Komunitas: Lingkar Soca 28 Februari 2016 Oleh: Miranti Indar Mandasari, ST., MT. Institut Teknologi Bandung, Indonesia Radboud University Nijmegen, the Netherlands

SISTEM REKOGNISI PENGUCAP

Berbagai Informasi pada Suara Ucap Dari daerah mana dia berasal? Bahasa apa yang dia gunakan? Apakah kata yang dia ucapkan? Accent Recognition Language Recognition Speech Recognition Sistem Rekognisi Pengucap Emotion Recognition Apakah dia sedih/ senang? Gender Recognition Apakah dia pria/ wanita? Speaker Recognition Siapakah dia?

Sistem Rekognisi Pengucap Dalam Bahasa Inggris dikenal dengan Speaker recognition, atau Voiceprint recognition. Definisi: Speaker recognition is a process of recognizing the identity of a speaker from a given speech segment. Rekognisi Pengucap adalah sebuah proses dalam merekognisi (mengenali) identitas seorang pengucap dari suatu segmen suara ucap.

Mengapa Rekognisi? Operating modes: Rekognisi Pengucap Verifikasi pengucap Identifikasi pengucap Klasifikasi atau diarisasi pengucap Speaker recognition Speaker verification Speaker identification Speaker classification or diarization

Mengapa Rekognisi? unknown known Speaker Verification Same speaker (or) Different speaker? Speaker recognition Speaker verification Speaker identification Speaker classification or diarization

Mengapa Rekognisi? known(s) unknown Speaker Identification Speaker recognition Speaker verification Speaker identification Speaker classification or diarization Who is speaking?

Mengapa Rekognisi? Who is speaking here? Who is speaking here? Speaker recognition Speaker verification Speaker identification Speaker classification or diarization Who is speaking here?

APLIKASI DARI SISTEM REKOGNISI PENGUCAP

Komersial Forensik Akses pada Perangkat elektronik Akun Bank Ruangan rahasia Verifikasi pengucap Verifikasi suara tersangka Diarisasi pengucap untuk: Notulensi otomatis saat rapat Identifikasi pengucap Mencari identitas tersangka Aplikasi dari Sistem Rekognisi Pengucap Diarisasi pengucap Pembuatan transkrip otomatis

FORENSIK SUARA UCAP

Forensik Suara Ucap Aplikasi sistem rekognisi pengucap untuk aplikasi forensik: Speaker profiling: Sistem rekognisi aksen Sistem rekognisi bahasa Sistem rekognisi gender Mengetahui konten percakapan Sistem rekognisi suara ucap (speech recognition) Identitas pengucap Siapa yang berbicara? Sistem rekognisi pengucap (speaker recognition)

BERBAGAI MACAM SISTEM REKOGNISI PENGUCAP

Tipe-tipe Sistem Rekognisi Pengucap Pendekatan fonetik-akustik biasanya menggunakan metode manual Sistem rekognisi pengucap otomatis Sistem hybrid Gabungan antara manual-otomatis

SISTEM REKOGNISI PENGUCAP BERBASIS FONETIK-AKUSTIK

Rekognisi Pengucap Berbasis Fonetik-Akustik Fitur berdasarkan properti akustik dari suara ucap Pitch (Frekuensi Fundamental) Formant & Bandwidth Formant Intensitas sinyal (Energi) Durasi Analisis: Menggunakan pendekatan statistik dasar Level: kalimat, kata/frase, suku-kata, dan fonem Biasanya: text-dependent

Ekstraksi Fitur Akustik Segmen suara ucap Dalam domain waktu Ekstraktor Fitur (Mesin FFT/ LPC) Segmen suara ucap Dalam doman frekuensi

Ekstraksi Fitur Akustik: Pitch dan Formant FORMANT 1 (F1) F2 F2 F2 PITCH: fundamental frequency.

Ekstraksi Fitur Akustik Energi/ intensitas Pitch/ frekuensi fundamental Formants

Analisis Statistik 1 Pengucap

Analisis Statistik N Pengucap Pengucap 1 Pengucap 2 Pengucap 3 Pengucap 4 Pengucap 5 Pengucap 6

SISTEM REKOGNISI PENGUCAP OTOMATIS

Setup Sistem Rekognisi Pengucap Otomatis Background Data Training known Ekstraksi Fitur Pemodelan Pengucap Skor Testing unknown Ekstraksi Fitur Pemodelan Pengucap

Setup Sistem Rekognisi Pengucap Otomatis Ekstraksi fitur: MFCC (Mel), LPC, LPCC, CFCC (cochlear), etc. Metode pemodelan: GMM-UBM, i-vector, JFA, HMM, ANN, SVM, LDA, PLDA, etc.

Ekstraksi Fitur MFCC

Setup Sistem Rekognisi Pengucap Otomatis Background Data Training known Ekstraksi Fitur Pemodelan Pengucap Skor Testing unknown Ekstraksi Fitur Pemodelan Pengucap Decision?

Membuat Keputusan Binary Reject Accept Non-target scores Target scores Threshold

Tipe Error: Yes No False alarm Miss rejection Target trial Non-target/ impostor

Membuat Keputusan Forensik Menggunakan kerangka likelihood ratio Posterior knowledge Evidence Prior knowledge P(H 0 E) P(H 1 E) = P(E H 0 ) P(E H 1 ) x P(H 0 ) P(H 1 ) Posterior odds Likelihood ratio Prior odds Wewenang Pengadilan Wewenang Expert Wewenang Pengadilan

Likelihood Ratio Likelihood ratio (LR) adalah probabilitas relatif dari suatu bukti/skor E terhadap kedua hipotesis: - H 0 : suara unknown dan known berasal dari pengucap yang sama, dan - H 1 : suara unknown dan known berasal dari pengucap yang berbeda Hipotesis Prosecution Likelihood Ratio LR = P(E H 0) P(E H 1 ) Bukti/ skor Hipotesis Defense

Menghitung LR dari Distribusi Skor

PERKEMBANGAN SISTEM REKOGNISI PENGUCAP OTOMATIS

Kondisi Saat ini Kebanyakan: text- dan channel-independent Beberapa: gender- dan language-independent Pada kondisi terkontrol: Performa baik, equal error rate 1.00% Cara meningkatkan performa: Fusion pada saat ekstraksi fitur, pemodelan, atau pada level skor Menggunakan multi-modal biometrics (face, fingerprints, etc.) Aplikasi pada dunia forensik: Masih terbatas Memerlukan proses kalibrasi likelihood ratio

Tantangan Tantangan utama: kondisi mismatched antara segmen suara ucap known dan unknown: Channel atau media perekaman, Level noise, Durasi, Kata dan/atau bahasa yang terucap, Kondisi emosi dan kesehatan pengucap, Gaya berbicara, dan etc. Tantangan lainnya: noise robustness, suara ucap yang tersamarkan (disguised speech: whisper, vocal effort, etc.) & voice aging

Sistem Rekognisi Pengucap Otomatis di Radboud University Nijmegen Equal error rate pada database: NIST SRE 08 : 1.33 % NIST SRE 10 : 1.87 % NIST SRE 12 : 2.85 % (terdapat variasi noise dan durasi)

SISTEM REKOGNISI PENGUCAP FORENSIK DI TEKNIK FISIKA ITB

Sistem Rekognisi Pengucap Forensik di Teknik Fisika ITB Merupakan kolaborasi antara 2 kelompok keahlian (KK) di lingkungan Fakultas Teknologi Industri (FTI) ITB: KK Teknik Fisika, dan KK Instrumentasi & Kontrol. Pendekatan: hybrid Berbasis fonetik-akustik Ekstraksi fitur akustik secara otomatis Analisis dengan menggunakan metode statistik

Peta Jalan Penelitian Menuju otomatisasi sistem

Thank You! Bandung, 28 Februari 2016 Miranti Indar Mandasari, ST., MT. Email: miranti.indar.mandasari@gmail.com