Klasifikasi dan Pengenalan Pola 1
Features Vector Separability Measures Pada pertemuan yang lalu, kekuatan ciri untuk membedakan kelas diukur secara individual, yaitu menggunakan FDR. Kekuatan kombinasi beberapa ciri dalam membedakan kelas dapat diukur menggunakan: Divergensi Jarak Bhattacharyya (Bhattacharyya distance) Scatter Matrices 2
Divergensi Misalkan terdapat 2 kelas yang terdistribusi normal dalam ruang dimensi l, maka divergensi antara keduanya didefinisikan sbb: dengan S i adalah matriks kovarians; m i adalah rerata masing-masing kelas, I adalah matriks identitas l x l, dan i = 1,2. Dan transformasi divergensi didefinisikan sebagai: 3
Semakin besar nilai transformasi divergensi maka semakin baik hasil akhir klasifikasi. Aturan jangkauan nilai transformasi divergensi berikut dapat digunakan untuk menilai kekuatan kombinasi ciri dalam membedakan kelas: 0.0 to 1.0 (very poor separability) sangat buruk kemungkinan data sebenarnya termasuk pada kelas yang sama 1.0 to 1.9 (poor separability) buruk buat kombinasi ciri yang baru teliti kembali data apa benar-benar dari 2 kelas yang berbeda 1.9 to 2.0 (good separability) baik 4
Example Misalkan 2 kelas dan asumsikan bahwa ciri-cirinya saling independen dan terdistribusi normal. Kelas 1 dimodelkan sebagai distribusi Gaussian dengan rerata m1 = [3, 3] T dan matriks kovarians-nya S1 = 0,2I. Sedangkan kelas 2 dimodelkan sebagai distribusi Gaussian dengan rerata m2 = [2.3, 2.3] T dan matriks kovarians-nya S2 = 1,9I. Hitunglah divergensi antara kedua kelas tersebut, hitung pula transformasi divergensi-nya, dan ambillah kesimpulan dari hasil tersebut. 5
Penyelesaian: Buat dataset dengan script berikut. Carilah divergensinya menggunakan fungsi divergensi.m dengan mengimplementasikan rumus divergensi pada halaman 3 untuk menghitung divergensi. 6
Buat fungsi divergensi sbb: 7
Panggil fungsi untuk menghitung nilai divergensi dari data kelas1.txt dan kelas2.txt. 8
Hasil eksekusi: D = 5.7233 Dan transformasi divergensinya adalah: 2*(1-exp(-D/8)) = 1.0220 Kesimpulan: Nilai transformasi divergensi-nya berada pada range 1 s.d 1,9 yang berarti keterpisahan antara kedua kelas buruk. 9
Bhattacharyya distance Misalkan kedua kelas terdistribusi Gaussian, maka jarak Bhattacharyya bersesuaian dengan error classifier Bayesian. Jika: dengan, dimana. merupakan notasi determinan, maka jarak Bhattacharyya 10
didefinisikan sbb: BD 21 exp( B 1, 2 ) Aturan jangkauan nilai jarak Bhattacharyya berikut dapat digunakan untuk menilai kekuatan kombinasi ciri dalam membedakan kelas: 0.0 to 1.0 (very poor separability) sangat buruk kemungkinan data sebenarnya termasuk pada kelas yang sama 1.0 to 1.9 (poor separability) buruk buat kombinasi ciri yang baru teliti kembali data apa benar-benar dari 2 kelas yang berbeda 1.9 to 2.0 (good separability) baik 11
Example Misalkan 2 kelas dan asumsikan bahwa ciri-cirinya saling independen dan terdistribusi normal. Kelas 1 dimodelkan sebagai distribusi Gaussian dengan rerata m1 = [3, 3] T dan matriks kovarians-nya S1 = 0,2I. Sedangkan kelas 2 dimodelkan sebagai distribusi Gaussian dengan rerata m2 = [2.3, 2.3] T dan matriks kovarians-nya S2 = 1,9I. Hitunglah jarak Bhattacharyya antara kedua kelas tersebut, dan ambillah kesimpulan dari hasil tersebut. 12
Buat fungsi untuk menhitung jarak Bhatacharyya sbb: 13
Panggil fungsi untuk menghitung jarak Bhatacharyya: Hasil eksekusi: B1,2 = D = 0.3516 Hitunglah DB-nya dengan : 2(1-exp(-0.3516)) = 0.5929 14
Scatter Matrices Scatter matrices memberi gambaran bagamana vektor ciri tersebar dalam ruang ciri (feature space). Tiga ukuran keterpisahan kelas berdasar scatter matrices adalah sbb: 15
dengan S m adalah mixture scatter matrix, S w adalah within-class scatter matrix, dan S b adalah between-class scatter matrix. dengan P i adalah priori probabiliti untuk kelas i = 1,2,,c dan S i adalah matriks kovarians untuk kelas i. dengan m 0 adalah rerata global (dari semua data dalam semua kelas yang ada) 16
Semakin besar nilai J1, J2, dan J3, maka hal tersebut berarti bahwa datadata mempunyai varians dalam-kelas yang kecil dan jarak antar-kelas yang besar. Dengan kata lain bahwa Semakin besar nilai J1, J2, dan J3, maka kelas yang satu dengan kelas yang lain mempunyai keterpisahan yang semakin baik. 17