II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat invarian terhadap perubahan iluminasi, perubahan skala, rotasi dan perubahan titik pandang. Scale Invariant Feature ransform (SIF) merupakan salah satu pendekatan untuk melakukan deteksi dan ekstraksi deskriptor fitur lokal tersebut. Berikut merupakan tahap deteksi yang dilakukan oleh metode SIF (Lowe 1999, 001, 004): 1 Deteksi scale space extrema Lokalisasi keypoint 3 Penentuan arah orientasi keypoints 4 Pengembangan deskriptor berdasarkan keypoint yang ada Fitur SIF berhubungan dengan local extrema dari filter difference of Gaussian (DoG) pada skala yang berbeda. Berikut merupakan persamaan dari filter Gaussian-Blurred: dan dengan: L x, G x, * I x, y, (1) 1 x y / G x, e, () * adalah operasi konvolusi x dan L x, adalah fungsi yang merepresentasikan citra output, I x, y adalah fungsi yang merepresentasikan citra input, G x, adalah fungsi yang merepresentasikan variabel skala Gaussian. Hasil dari konvolusi sebuah citra dengan filter DoG, yaitu G x, k G x, adalah D x, L x, k L x,, (3) yang merupakan selisih dari citra blur dengan skala Gambar 1. dan k, seperti terlihat pada

6 Gambar 1 Proses konvolusi citra dengan filter DoG (Lowe 004). Citra yang sudah mengalami konvolusi kemudian dikelompokkan ke dalam grup berdasarkan oktaf tertentu. Nilai oktaf ditentukan berdasarkan nilai dan jumlah citra di setiap kelompok/oktaf ditentukan berdasarkan nilai k. Keypoints ditentukan berdasarkan nilai minimun dan maksimum citra DoG. Gambar menunjukkan proses deteksi keypoint, dimana setiap piksel di dalam citra DoG dibandingkan dengan 8 piksel di sekitarnya pada skala yang sama ditambah dengan 18 piksel di sekitarnya yang saling berhubungan. Jika nilai piksel tersebut merupakan minimun atau maksimum maka piksel tersebut akan dipilih sebagai kandidat keypoint. Gambar Deteksi Local Extrema (Lowe 004). Untuk setiap kandidat keypoint akan: dilakukan interpolasi dengan data terdekat di sekitarnya untuk menentukan posisi yang tepat. dibuang keypoint dengan kontras yang rendah. diberikan orientasi tertentu pada keypoint tersebut.

7 Orientasi sebuah keypoint ditentukan berdasarkan gradien yang terbentuk dari citra yang sudah dikonvolusi dengan Gaussian-blurred L(x, ) dengan skala sedemikian sehingga seluruh perhitungan piksel dilakukan secara invarian terhadap perubahan skala. Untuk citra L(x, ) pada skala, magnitude m(x,y) dan orientasi (x,y) ditentukan dengan rumusan sebagai berikut: m ( x, y) L x 1, y L x 1, y L x, y 1 L x, y 1, (4) ( x, y) tan 1 L L x, y 1 x 1, y L L x, y 1 x 1, y. (5) Perhitungan magnitude dan arah orientasi gradien dilakukan pada seluruh piksel di sekitar keypoint yang berhasil dideteksi pada citra Gaussian-blurred L(x, ). Gambar 3 menunjukkan proses perhitungan orientasi deskriptor menggunakan histogram orientasi gradien pada tetangga keypoint tersebut dengan citra Gauss L(x, ) yang memiliki skala terdekat dengan skala keypoint. Lokasi grid berukuran 4 x 4 dengan 8 arah orientasi (total 18 dimensi) Gambar 3 Penentuan lokasi dan orientasi deskriptor (Lowe 004). Pada gambar 4 terlihat proses segmentasi yang dilakukan di setiap frame untuk menghitung deskriptor SIF. Isi citra ditransformasi ke dalam fragmen lokal yang bersifat invarian terhadap rotasi, translasi, skala dan berbagai parameter pencitraan lainnya.

8 Gambar 4 Fragmentasi dilakukan tanpa memperhatikan pengaruh sudut pandang dan skala gambar (Lowe 1999, 001). pencahayaan,. Kantong Kata Visual (Bag of "Visual" Words) Ekstraksi fitur SIF menghasilkan vektor dengan ukuran 18 k dimana nilai k sangat beragam. Apabila dilakukan perhitungan dari seluruh vektor dapat menyebabkan informasi pada beberapa vektor akan hilang. Untuk mengatasi masalah ini dikembangkan metode Bag of Words (BoW). Metode ini pertama kali diperkenalkan oleh Sivic dan Zisserman (003) pada kasus temu kembali video. Metode ini terbukti sangat efektif dan efisien sehingga banyak digunakan pada bidang temu kembali dan pengkategorisasian. Pada BoW dilakukan kuantisasi deskriptor ke dalam histogram dengan ukuran tertentu (Liu et al. 009). Proses kuantisasi dilakukan dengan melakukan teknik cluster k-means (Grauman & Liebe 009). Clustering dilakukan untuk menghindari adanya masalah dengan ukuran matriks yang tidak seragam dan juga untuk mengurangi ukuran matriks yang cukup besar yaitu dari 18 k menjadi 1 l dimana l adalah jumlah titik pusat cluster k-means yang dipakai. Pada proses kuantisasi deskriptor rumus jarak yang digunakan adalah rumus Euclidean mengingat rumus jarak ini merupakan pendekatan jarak yang paling umum digunakan.

9..1 Cluster K-Means Algoritme cluster k-means bertujuan membagi data menjadi sebanyak k cluster. Inti algoritme ini dibagi menjadi dua langkah dan dilakukan secara iteratif, yaitu: Meng-cluster-kan semua titik di dalam dataset berdasarkan jarak antar titik dengan titik pusat cluster terdekat. Menduga ulang kandidat titik pusat cluster kemudian merelokasi nilai tengah (relocations of means ). Algoritme dinyatakan konvergen apabila nilai pusat setiap cluster tidak mengalami perubahan. Setiap iterasi melakukan sebanyak N k pembandingan, sehingga kompleksitas algoritme ini menjadi O(N*K*I), dimana N = jumlah titik data, K = jumlah cluster dan I = banyaknya iterasi. Cluster dengan metode k-means sangat dipengaruhi oleh: Sensitivitas pemilihan kandidat cluster ketika proses inisialisasi. Penentuan jumlah cluster (besar nilai K). Berikut merupakan algoritme k-means (Gosh & Liu 009): Input: Dataset D, jumlah cluster k Output: titik pusat cluster C, vektor keanggotaan cluster m /* Inisialisasi titik pusat cluster C */ Pilih secara acak k titik data dari D Gunakan k titik data sebagai titik awal kandidat cluster C repeat /* Data Assignment */ Reassign titik pada D yang mendekati dengan titik pusat cluster Update m sedemikian sehingga m i adalah sebagai ID cluster titik ke-i pada D /* Relocation of means */ Update C sedemikian sehingga c j merupakan nilai tengah dari titik-titk pada cluster ke-j ) until fungsi tujuan N i 1 arg min x c konvergen j i j

10.. Jarak Euclidean Kedekatan tiap cluster diukur berdasarkan jarak antara titik data dengan titik pusat cluster. Jarak digunakan untuk mengukur ketidakmiripan antara dua titik data. Bila d dan c menyatakan titik data dan titik pusat cluster dengan koordinat masing-masing (x,y) dan (s,t) maka jarak Euclidean antara titik d dan c seperti (Persamaan 6) (Han & Kamber 006). D E d, c x s y t. (6).3 Metode Vector Space Model (VSM) Di dalam Vector Space Model, dokumen direpresentasikan sebagai sebuah vektor, dimana setiap elemen vektor tersebut merupakan nilai dari bobot tf idf t yang sudah dinormalisasi. ahapan dalam pembentukan model ini adalah pengindeksan dengan inverse document frequency (idf t ), pembobotan tf*idf t dan perhitungan skor kemiripan kueri (Salton et al. 1975; Manning et al. 008):.3.1 Pengindeksan Dengan Inverse Document Frequency (idf t ) Merupakan perbandingan antara jumlah dokumen yang terdapat dalam sebuah korpus (N) terhadap frekuensi kemunculan kata visual di setiap dokumen (df t ). Dalam hal ini setiap frame video dianalogikan sebagai sebuah dokumen dan video itu sendiri adalah sebuah korpus, sehingga: dengan: N idf t log, (7) df t N adalah jumlah frame yang ada pada sebuah cuplikan video, df t adalah frekuensi kemunculan sebuah kata visual di setiap frame. idf t menunjukkan distribusi kata visual di setiap frame video, dimana kata visual dengan frekuensi yang rendah akan memiliki nilai idf t yang tinggi. Nilai idf t yang tinggi menunjukkan bahwa relevansi kata visual tersebut terhadap sebuah frame semakin tinggi pula. Sebaliknya, ketika ukuran N semakin besar dan jika df t = N maka idf t = 0 sehingga kata visual yang demikian justru tidak memberikan ciri apapun terhadap sebuah frame.

11.3. Pembobotan tf*idf Dengan mengombinasikan frekuensi kata visual dengan nilai idf t akan diperoleh bobot komposit dari setiap kata visual di setiap frame. Skema pembobotan tf*idf dimana pembobotan kata t pada sebuah frame d dapat dihitung sebagai: tf * idf tf, idf, (8) t, d t d t dengan: tft,d merupakan frekuensi kemunculan kata visual di setiap frame, idft merupakan nilai inverse document frequency kata tersebut. Pada Vector Space Model, dokumen direpresentasikan sebagai sebuah vektor, dimana setiap elemen vektor tersebut merupakan nilai bobot tf*idf t..3.3 Kemiripan Kueri Bobot kata visual di setiap dokumen dibandingkan dan dihitung kemiripannya. Pembandingan dilakukan menggunakan sebuah operasi perkalian matriks yang disebut sebagai inner product atau dot product yang dapat dinotasikan sebagai X Q, (9) dengan memisalkan vektor bobot kata di dalam dokumen adalah X x1, x,..., xn dan bobot kata yang terdapat pada kueri adalah Q q1, q,..., qn. Panjang vektor X dan Q masing-masing adalah dot product-nya sendiri, yaitu X X X dan Q Q Q. Dengan demikian kemiripan antara frame dengan kueri merupakan sebuah fungsi cosinus sebagai berikut: X Q Sim( q, x) Cos. (10) X Q

1.4. Pengukuran Kinerja Sistem.4.1 Precision dan Recall Dua parameter utama yang dapat digunakan untuk mengukur keefektifan sebuah sistem temu kembali informasi adalah recall (R) dan precision (P). Recall adalah perbandingan antara jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang relevan, sedangkan precision adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang ditemukembalikan (Manning et al. 008). jumlah frame relevan hasil temu kembali recall ( R), (11) jumlah frame relevan dalam basis data jumlah frame relevan hasil temu kembali precision ( P). (1) jumlah seluruh frame yang terambil Average precision adalah suatu ukuran evaluasi yang diperoleh dengan menghitung rata-rata tingkat precision pada berbagai tingkat recall..4. F-measure Merupakan parameter yang menggabungkan nilai precision dan recall sebagai ukuran tunggal keberhasilan temu kembali (Manning et al. 008). 1 PR F measure P R, (13) dengan merupakan parameter kepentingan relatif aspek precision dan recall. Jika recall (R) dan precision (P) memiliki bobot yang sama penting sehingga nilai = 1, maka nilai F-measure akan menjadi: PR F measure. (14) P R