6 BAB 2 LANDASAN TEORI 2.1 Citra Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen gambar / pixel) menyatakan tingkat keabuan pada titik tersebut (Sutoyo & Mulyanto, 2009). Suatu citra dapat didefinisikan sebagai fungsi f(x, y) berukuran M baris dan N kolom, dengan x dan y adalah koordinat spasial dan amplitudo f di titik koordinat (x, y) dinamakan intensitas atau tingkat keabuan dari citra pada titik tersebut. Gambar 2.1 menunjukan posisi koordinat citra digital (Putra, 2010). Koordinat asal 1 2..... N 1 y 1........ 2................. M - 1........ x Sebuah Pixel f(x, y) Gambar 2.1. Koordinat Citra Digital (Putra, 2010). 2.2. Jenis-jenis Citra Digital Ada tiga jenis citra yang umum digunakan dalam pemrosesan citra, antara lain: 1. Citra Berwarna / Red, Green, Blue (RGB). Merupakan jenis citra yang menyajikan warna dalam bentuk komponen R (merah), G (hijau), B (biru). Setiap
7 komponen warna menggunakan delapan bit (nilainya berkisar antara 0 sampai dengan 255). (Kadir & Susanto, 2013). Contoh gambar citra RGB dapat dilihat pada Gambar 2.2. Gambar 2.2. Contoh gambar citra RGB 2. Citra Berskala Keabuan (Grayscale) merupakan citra digital yang hanya memiliki satu nilai kanal pada setiap pixelnya. Nilai tersebut digunakan untuk menunjukkan tingkat intensitas. Warna yang dimiliki adalah warna dari hitam, keabuan, dan putih. Tingkatan keabuan di sini merupakan warna abu dengan berbagai tingkatan dari hitam hingga mendekati putih. Citra Grayscale memiliki kedalaman warna 8 bit (256 kombinasi warna keabuan) (Putra, 2010). Dalam hal ini, intensitas berkisar antara 0 sampai dengan 255. Nilai 0 menyatakan hitam dan nilai 255 menyatakan putih (Kadir & Susanto, 2013) Contoh dari citra Grayscale dapat dilihat pada Gambar 2.3. Gambar 2.3. Contoh gambar citra Grayscale
8 3. Citra Biner. Citra dengan setiap piksel hanya dinyatakan dengan sebuah nilai dari dua kemungkinan (yaitu nilai 0 dan 1). Nilai 0 menyatakan hitam dan nilai 1 menyatakan putih (Kadir & Susanto, 2013). Contoh dari citra biner dapat dilihat pada Gambar 2.4. Gambar 2.4. Contoh gambar citra biner 2.3. Format File Citra Format file citra standar yang digunakan saat ini terdiri dari beberapa jenis. Formatformat ini sering digunakan dalam menyimpan citra pada sebuah file. Setiap format file citra memiliki karakteristik masing-masing (Putra, 2010). 2.3.1 Citra Bitmap Citra bitmap menyimpan data kode citra secara digital dan lengkap (cara penyimpanannya per piksel). Citra bitmap dipresentasikan dalam bentuk matriks atau dipetakan dengan menggunakan bilangan biner atau sistem bilangan lain (Sutoyo & Mulyanto, 2009). 2.4. Pengolahan Citra Pengolahan citra adalah proses pengolahan gambar untuk membuat kualitas yang lebih baik. Pengolahan ini biasanya dilakukan dengan menggunakan media elektronik seperti komputer. Pengolahan citra bertujuan memperbaiki kualitas gambar dilihat dari aspek radiometrik (peningkatan kontras, transformasi warna,
9 restorasi citra) dan dari aspek geometrik (rotasi, translasi, skala, transformasi geometrik), melakukan proses penarikan informasi atau deskripsi objek atau pengenalan objek yang terkandung pada citra dan melakukan kompresi atau reduksi data untuk tujuan penyimpanan data, transmisi data, dan waktu proses data. (Kadir & Susanto, 2013) 2.5. Segmentasi Citra Segmentasi citra merupakan proses yang ditujukan untuk mendapatkan objek-objek yang terkandung di dalam citra ke dalam beberapa daerah dengan setiap objek atau daerah memiliki kemiripan atribut. Segmentasi juga biasa dilakukan sebagai langkah awal untuk melaksanakan klasifikasi objek. Setelah segmentasi citra dilaksanakan, fitur yang terdapat pada objek diambil. Sebagai contoh, fitur objek dapat berupa perbandingan lebar dan panjang objek, warna rata-rata objek, maupun tekstur pada objek. (Kadir & Susanto, 2013). 2.6. Representasi Bentuk Fitur suatu objek merupakan karakteristik yang melekat pada objek. Fitur bentuk merupakan suatu fitur yang diperoleh melalui bentuk objek dan dapat dinyatakan melalui kontur, area dan transformasi. Fitur bentuk biasa digunakan sebagai salah satu fitur pada kepentingan identifikasi objek. (Kadir, dkk., 2011) 2.7. Ekstraksi Fitur Bentuk menurut D.G. Kendall (Stegmann dan Gomez, 2002) adalah informasi geometris yang tetap ketika efek lokasi, skala, pemutaran dilakukan terhadap sebuah objek. Deskriptor adalah seperangkat parameter yang mewakili karakteristik tertentu objek, yang dapat digunakan untuk menyatakan fitur objek. Adapun fitur dinyatakan dengan susunan bilangan yang dapat dipakai untuk mengidentifikasi suatu objek. Fitur suatu objek mempunyai peran penting untuk berbagai aplikasi seperti pencarian citra, penyederhanaan bentuk, pengenalan dan klasifikasi objek.
10 2.7.1 Fitur Tekstur Selain melibatkan fitur bentuk, tekstur banyak digunakan sebagai fitur untuk temu kembali citra. Hal ini disebabkan beberapa objek mempunyai pola-pola tertentu, yang bagi manusia mudah untuk dibedakan. Dalam praktik, tekstur digunakan untuk berbagai kepentingun. Umumnya, aplikasi tekstur dapat dibagi menjadi dua kategori. Pertama adalah untuk kepentingan segmentasi. Pada proses ini, tekstur dipakai untuk melakukan pemisahan antara satu objek dengan objek lain. Kedua adalah untuk klasifikasi tekstur sebagai klasifikasi objek. Tekstur adalah hubungan mutual antara nilai intensitas piksel-piksel yang bertetangga yang berulang di suatu area yang lebih luas daripada jarak hubungan tersebut (Tuceryan & Jain, 1998). 2.8. Information Retrieval Definisi information retrieval (IR) adalah bagaimana menemukan suatu dokumen dari dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari koleksi dokumen yang sangat besar yang tersimpan dalam komputer. (Manning, 2008). Tujuan dari sistem IR ini adalah memenuhi kebutuhan informasi pengguna dengan mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan pada waktu yang sama mendapatkan sedikit mungkin dokumen yang tak relevan (Pardede, 2013). Berdasarkan konten dokumen yang dicari, information retrieval terbagi atas 4 bagian, yaitu text retrieval, image retrieval, video retrieval dan audio retrieval. 2.8.1. Image Retrieval Image Retrieval adalah sistem pencarian informasi berbasis konten gambar ataupun berformat citra. Teknik image retrieval yang pertama, yaitu tekstual, merupakan teknik yang sangat sederhana, yaitu berdasarkan kata kunci yang diberikan untuk tiap citra. Permasalahan dengan teknik ini adalah lamanya waktu pencarian dan adanya ketergantungan terhadap manusia yang sangat tinggi untuk mendeskripsikan suatu citra. Hal ini menyebabkan terjadinya pendeskripsian yang tidak konsisten. Teknik
11 image retrieval yang kedua, berdasarkan isi, adalah teknik yang mengindekskan suatu citra berdasarkan isinya seperti warna, sisi, bentuk, tekstur, informasi spasial, features dan sebagainya. Teknik ini sering disebut dengan Content Based Image Retrieval (CBIR). (Utami, 2011). 2.9. Content Based Image Retrieval (CBIR) Temu kembali citra atau istilah yang lebih spesifik lagi disebut content based image retrieval (CBIR), merupakan proses untuk mendapatkan sejumlah citra berdasarkan masukan satu citra. Istilah tersebut dikemukakan pertama kali oleh Kato pada tahun 1992 (Zhang, 2002). Image retrieval atau image querying adalah aplikasi pengolahan citra yang dapat membantu pengguna mengambil atau mencari dengan cepat suatu citra pada suatu database citra berdasarkan query atau permintaan pengguna. (Putra, 2010). Pada CBIR, ciri-ciri visual citra dalam basis data diekstraksi dan kemudian dideskripsikan sebagai vektor ciri multidimensional. Vektor yang diperoleh dari citra query akan dibandingkan kesamaannya dengan nilai vektor yang terdapat dalam basis data (Devireddy, 2009). Tahap awal dalam sistem pemanggilan citra berdasarkan konten adalah melakukan proses ekstraksi dan deskripsi pada citra dalam database sehingga menghasilkan vektor fitur. Setelah itu dilakukan proses ekstraksi dan deskripsi pada citra query yang dimasukkan oleh user Kemudian dilakukan Similarity Comparison antara citra query dengan citra dalam database. Jarak kesamaan antara citra query dengan citra dalam database akan diurutkan dan di tampilkan sebagai output (Long, et al. 2003). Gambar 2.5. Diagram Sistem Content Based Image Retrieval (Long, et al. 2003)
12 2.10. Algoritma Speeded-Up Robust Features (SURF) Algoritma SURF (Bay H., dkk, 2006) bertujuan untuk mendeteksi fitur lokal suatu citra dengan handal dan cepat. Algoritma ini sebagian terinspirasi oleh algoritma SIFT (Scale-invariant feature transform), terutama pada tahap scale space representation (Lowe DG, 1999). SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses mendeteksi descriptor lokal pada citra. Descriptor adalah sebuah ciri-ciri dari suatu citra berdasarkan aturan tertentu dari suatu algoritma. Algoritma SURF dikembangkan oleh Herbert bay dkk pada tahun 2006. Secara umum, algoritma SURF terdiri dari 3 bagian utama yaitu : 1. Detector Interest Point / KeyPoint Image yang dimasukkan akan diubah menjadi integral image dengan persamaan : I i x (x, y) = i=0 j y I ( i, j )............................. (1) j=0 Setelah diperoleh integral image maka komputasi dilakukan dengan menggunakan persamaan Fast-Hessian Detector : H (X, σ) = [ L xx(x, σ) L xy (X, σ) L xy (X, σ) L yy (X, σ) ]......................... (2) Di dalam algoritma SURF, digunakan turunan kedua Gaussian dalam pembuatan determinan dari Hessian sehingga diperoleh Hessian Matrix yang baru, hal ini dilakukan menggunakan persamaan : det (H approx ) = D xx D yy 0.9D 2 xy......................... (3)
13 2. Pembuatan SURF Descriptor. Langkah selanjutnya adalah menghitung nilai dari semua interest/keypoint yang telah dilakukan pada tahap pertama. Metode Haar Wavelet digunakan pada tahap ini untuk memperoleh nilai dimenso dari vektor, menggunakan persamaan : V = ( d, d, d, d x y x y )...................... (4) 3. Setelah dipilih citra yang akan dicari, dan proses SURF detector & descriptor telah berhasil memperoleh fitur dari seluruh citra koleksi, maka dilakukan proses image matching / similiarity comparison. Dicari dan ditampilkan citra yang memiliki kemiripan fitur dengan citra yang dicari dengan cara melakukan perhitungan jarak antara dua citra. 2.11. Perhitungan Jarak Antara Dua Citra Jarak merupakan pendekatan yang umum dipakai untuk mewujudkan pencarian citra. Fungsinya adalah untuk menentukan kesamaan atau ketidaksamaan dua vektor fitur. Tingkat kesamaan dinyatakan dengan suatu skor atau ranking. Semakin kecil nilai ranking, semakin dekat kesamaan kedua vektor tersebut. Contoh metode untuk mengukur jarak antara dua citra adalah dengan Euclidean Distance. Untuk mempercepat proses, fitur untuk semua citra referensi dapat dihitung terlebih dahulu melalui suatu skrip dan kemudian disimpan di dalam suatu database. Dengan demikian, pembandingan fitur dilakukan secara langsung, tanpa perlu menyiapkan perolehan fitur. 2.11.1. Euclidean Distance Metode yang paling sering digunakan untuk menghitung kesamaan dua vektor salah satunya adalah Euclidean Distance.
14 Adapun persamaan metode ini adalah sebagai berikut : n d(a, B) = (H A j H B j ) 2 j=1................................... (5) Keterangan : A : Vektor A B : Vektor B d(a,b) : Jarak Euclidean antara vektor A dan vektor B. n : Jumlah elemen vektor j : Indeks elemen vektor H : Elemen vektor 2.12. Efektifitas Information Retrieval System Lancaster (1980) menyatakan efektivitas dari suatu sistem temu kembali informasi adalah kemampuan dari sistem itu untuk memangil berbagai dokumen dari suatu basis data sesuai dengan permintaan pengguna. Ada dua parameter dasar yang digunakan dalam mengukur kemampuan suatu sistem temu kembali informasi yaitu rasio atau perbandingan dari perolehan (recall) dan ketepatan (precision). Ukuran efetivitas pencarian pada dokumen yang ditampilkan oleh sistem temu balik dapat ditentukan oleh precision dan recall. Precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah yang ditemukan oleh aplikasi. Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen. Precision = {Relevan documents} {documents retrieved}........... (6) {documents retrieved} Recall = {Relevan documents} {documents retrieved}............... (7) {relevant documents}
15 Keterangan : Precision : Nilai Precision atau nilai ketepatan Recall : Nilai Recall atau nilai rasio perbandingan dari perolehan Relevan Documents : Jumlah dokumen yang relevan Documents Retrieved : Jumlah dokumen yang sesuai dan ditemukan kembali 2.13. Penelitian Sebelumnya Tabel 2.1 Penelitian Sebelumnya Terkait CBIR dan SURF No Nama Judul Hasil Penelitian 1 Setiawan, A. E. Perbandingan Content Based Image Retrieval dengan fitur warna menggunakan metode Colour Histogram dan fitur tekstur menggunakan metode Grey Level Co- Occurrence matrices Proses temu kembali menggunakan fitur tekstur diekstraksi dengan metode Grey Level Co-Occurrence Matrices lebih cepat dibandingkan proses temu kembali menggunakan fitur warna yang diekstraksi dengan metode Colour Histogram Pengenalan gambar 2 Tania, K.D. menggunakan sebagian Pengenalan Gambar data gambar sebagai data query Menggunakan gambar dengan metode SURF Sebagian Data Gambar menghasilkan tingkat pengenalan 90%. 3 Ulum, M. F. Image yang bisa diuji coba pada Ekstraksi Titik - Titik algoritma SURF adalah image Fitur Pada Citra yang berformat grayscale Menggunakan sedangkan untuk Menggunakan image warna tidak bisa Speeded-Up Robust dilakukan. Dan dari beberapa Features (SURF) hasil uji coba ternyata setiap
16 4 Utami, A. S. Perancangan Perangkat Lunak Sistem Temu Balik Citra Menggunakan Jarak Histogram Dengan Model Warna YIQ rotasi image mempunya titik titik berbeda dengan image yang lainnya Jumlah piksel dalam citra berbeda-beda sesuai dengan ukuran citra, sehingga perlu proses normalisasi agar invarian terhadap ukuran citra. Hasil temu-balik diranking dan disimpan dalam indeks berdasarkan nilai jarak antar citra untuk mempercepat proses pencarian.