13 III METODOLOGI PENELITIAN 3.1 Kerangka Penelitian Penelitian dilakukan dalam lima tahapan utama, yaitu ekstraksi frame video, ekstraksi fitur SIFT dari seluruh frame, pembentukan kantong kata visual ( visual bag of words ), temu kembali dan evaluasi kinerja sistem (Gambar 5). Ekstraksi frame frame video Frame format *.jpg grayscale Tipe nilai digital piksel adalah double Ekstraksi frame Ekstraksi fitur fitur SIFT SIFT Detektor keypoint: Difference of Gaussian Deskriptor: SIFT Ekstraksi fitur SIFT Kantong deskriptor SIFT Pembentukan BoW & inverted file Clustering k-means Jarak Euclidean Pembentukan Kantong kata visual (Visual ( visual Bag bag of words ) Words) Inverted files Sistem temu kembali idf t tf*idf t sim(q,d) Evaluasi sistem Vector Space Model Recall, Recall Precision, Precision F-measure Gambar 5 Kerangka pemikiran penelitian
14 Kelima tahapan tersebut terdiri atas beberapa proses yang saling berhubungan, yaitu: 1 Ekstraksi frame video. Pada tahap ini dilakukan ekstraksi frame video menjadi citra grayscale berformat.jpg. Frame yang diekstraksi setiap detik adalah sebanyak tiga frame/detik. Tipe data nilai digital piksel dikonversi menjadi format double dalam selang 0 dan 1. 2 Ekstraksi fitur SIFT. Setelah seluruh frame video berhasil diekstraksi, kemudian dari setiap frame dilakukan pendeteksian fitur SIFT. Ada dua matriks fitur SIFT (Vedaldi 2007), yaitu: a Matriks keypoint dengan ukuran 4 k, matriks ini berisi informasi lokasi (koordinat x, y di dalam frame), skala dan arah orientasi keypoint. b Matriks deskriptor dengan ukuran 128 k, dimana k adalah jumlah deskriptor yang berhasil dideteksi pada frame tersebut. Deskriptor yang berhasil diekstraksi dari seluruh frame yang ada kemudian disimpan ke dalam sebuah matriks besar yang berukuran 128 (k*n), dimana N adalah jumlah frame yang diproses. 3 Pembentukan Bag of Words (BoW). Pada tahap ini dilakukan kuantisasi seluruh fitur SIFT yang sudah berhasil diekstraksi pada tahap 2 seperti terlihat pada ilustrasi Gambar 6. Kuantisasi dilakukan dengan menggunakan teknik clustering k-means. Setiap titik pusat cluster dianalogikan sebagai kata visual yang ada pada sebuah frame. a) Cuplikan klip video b) Frame dengan deskriptor SIFT c) Kantong kata visual (BoW) Gambar 6 Ilustrasi proses ekstraksi fitur SIFT dan pembentukan BoW dari sebuah klip video.
15 4 Sistem temu kembali, mencakup kueri citra objek/frame sebagai masukan. Vector Space Model digunakan untuk mengukur tingkat kemiripan antara kueri dengan frame yang ada. 5 Evaluasi kinerja sistem, pengukuran hasil temu kembali berdasarkan pada nilai precision, recall dan F-measure. 3.2 Alat Bantu Penelitian Peralatan yang digunakan untuk melaksanakan penelitian dibagi menjadi dua, yaitu perangkat keras dan perangkat lunak. Perangkat keras berupa satu unit komputer dengan spesifikasi prosesor Intel dual core, RAM 2 GB, Harddisk 80 GB dengan layar beresolusi 1280 x 800 piksel. Perangkat lunak yang diperlukan untuk perancangan dan pengujian sistem adalah MATLAB 7 dengan platform sistem operasi Microsoft Windows XP. 3.3 Tata Laksana Penelitian 3.3.1 Ekstraksi Frame Video Data merupakan data sekunder berupa cuplikan video diambil dari situs internet www.youtube.com. Video berformat *.flv kemudian dikonversi ke dalam format.mpeg dengan frame rate sebesar 30 frame/detik. Frame diekstraksi sebanyak tiga frame/detik, kemudian frame tersebut dikonversi menjadi citra abu-abu dan disimpan dalam format *.jpg (Gambar 7). 3.3.2 Ekstraksi Fitur SIFT Fitur SIFT diekstraksi dari setiap frame yang sudah disimpan ke dalam format *.jpg. Fitur SIFT terdiri atas dua komponen, yaitu: 1 Keypoints SIFT Keypoints SIFT merupakan matriks berukuran 4 k, dimana k adalah jumlah deskriptor yang berhasil diekstraksi dari sebuah citra. Adapun 4 elemen tersebut antara lain data: KEYPOINT(1:2,k), elemen (X,Y) merupakan pusat region deskriptor ke-k, KEYPOINT(3,k), skala SIGMA ( ) region deskriptor ke-k, KEYPOINT(4,k), orientasi THETA region deskriptor ke-k.
16 2 Deskriptor SIFT Deskriptor SIFT merupakan matriks berukuran 128 k, dimana setiap kolom menyimpan 1 set deskriptor (128 elemen). Sebuah set deskriptor merupakan histogram yang terdiri atas 8 selang kelas, dan setiap deskriptor berisikan array 4 histogram yang mengelilingi keypoint. Dengan demikian vektor fitur SIFT berisi 128 elemen (4 4 8). Input Video Ekstraksi frame If k < Jumlah Frame NO Tidak 1. BoW 2. Temu Kembali 3. Evalusi Kinerja Sistem YES Ya Konversi frame ke dalam format grayscale (tipe data double) Normalisasi nilai elemen matriks frame [0, 1] Ekstraksi deskriptor SIFT [SIFT_Frame, SIFT Deskriptor] Simpan Tulis Deskriptor deskriptor ke dalam tabel DWH Visualisasi SIFT Deskriptor Gambar 7 Alur proses ekstraksi deskriptor SIFT dari media video.
17 3.3.3 Pembentukan Bag of Words (BoW) Kuantisasi fitur akan memberikan gambaran distribusi kata visual yang ada di dalam video. Sebaran ini merupakan inverted index dari kata visual terhadap frame yang ada di dalam video. Gambar 8 menunjukkan ilustrasi pembentukan kantong kata visual (BoW): Deteksi dan ekstraksi fitur SIFT. Pembentukan kata visual dengan kuantisasi vektor sekaligus pembentukan kantong kata visual (BoW). Gambar 8 Proses umum pembentukan kantong kata visual (BoW). BoW dibentuk dengan melakukan kuantisasi fitur SIFT yang sudah berhasil diekstraksi. Kuantisasi dilakukan dengan teknik clustering k-means (Gambar 9). kuantisasi vektor Gambar 9 Proses kuantisasi fitur SIFT dalam pembentukan kantong kata visual (BoW).
18 3.3.4 Temu Kembali Proses temu kembali citra dilakukan melalui penghitungan indeks kemiripan (similarity) antara frame dan citra kueri. Kemiripan ditentukan dengan menggunakan model VSM, semakin tinggi indeks kemiripan maka semakin tinggi hubungan citra kueri dengan frame yang berhasil ditemukembalikan (Gambar 10). Kueri Penghitungan vektor tf*idf Kantong Fitur SIFT VSM Temu kembali berdasarkan indeks kemiripan vektor kueri dengan matriks idf Frame hasil temu kembali Gambar 10 Tata laksana temu kembali objek. 3.3.5 Evaluasi Kinerja Sistem Evaluasi kinerja sistem dilakukan penilaian tingkat keefektifan proses temu kembali terhadap sejumlah koleksi. Pengujian dilakukan dengan menghitung nilai recall, precision dan F-measure dari proses temu kembali berdasarkan penilaian relevansinya. Penentuan relevansi hasil temu kembali dibuat berdasarkan frame yang ada di dalam video.