Search Engine Text Retrieval dan Image Retrieval YENI HERDIYENI 14 JUNI 2008 Search engine atau mesin pencari merupakan bagian dari teknologi inte rnet yang sangat penting untuk pencarian informasi. Dewasa ini perkembangan teknologi search engine sangat pesat. Bagaimana sebenernya teknologi search engine itu dikembangkan?? DEPARTEMEN ILMU KOMP UTER FMIPA IPB HTTP://Y ENIH ERDIYEN I.WOR DPRESS.COM
SEARCH ENGINE Google, Yahoo!, MSN, AOL, dan Altavista merupakan mesin pencari (search engine) berbasis web yang paling popular saat ini. Dengan memasukkan kueri berupa kata kunci kedalam mesin pencari, informasi yang inginkan dapat ditampilkan. Bagaimana mesin pencari melakukan pencarian informasi tersebut sementara jumlah informasi yang tersedia sangat banyak dan tidak terstruktur.?? Adalah temu-kembali informasi (information retrieval) bidang ilmu yang dapat menjelaskan bagaimana pencarian informasi tersebut dilakukan.
Secara umum, proses temu-kembali (retrieval) adalah sebagai berikut: Gambar 1 Proses temu-kembali Sistem temu-kembali dengan bidang-bidang lain (Gambar 2) informasi memiliki keterkaitan keilmuan Gambar 2 Keterkaitan sistem temu kembali informasi dengan bidang lain.
MODEL TEMU-KEMBALI INFORMASI Pada IR terdapat dua aktivitas utama pengguna yaitu retrieval dan browsing. Gambar 3 menjelaskan model IR. U s e r T a s k Retrieval: Adhoc Filtering Browsing Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Browsing Flat Structure Guided Hypertext Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network Gambar 3 Model temu-kembali informasi TEMU-KEMBALI TEKS (TEKS RETRIEVAL) Sistem temu-kembali teks (teks retrieval) adalah sistem penemuan kembali informasi dalam bentuk dokumen dengan mengukur kemiripan (similarity) antara informasi yang tersimpan dalam basis data dengan kueri yang dimasukkan oleh pengguna (Salton, 1998). Teknik pencarian informasi pada sistem IR berb eda dengan sistem pencarian pada sistem manajemen basisdata (DBMS). Berikut perbedaan antara basisdata dengan Information Retrieval.
Tabel 1. Perbedaan DBMS dengan sistem temu kembali informasi DBMS Information Retrieval Data Terstruktur Tidak terstruktur Field Memiliki field Tidak memiliki field Kueri Menggunakan sintak bahasa SQL (Structured Query Language) Pengukuran Pengukuran kemiripan Kemiripan pasti (exact matching) Menggunakan bahasa alami (free text), Boolean Pengukuran kemiripan tidak pasti (imprecise measurement) Dalam sistem temu kembali terdapat dua bagian utama yaitu bagian pengindeksan (indexing) dan pencarian (searching). Kedua bagian tersebut memiliki peran penting dalam proses temu kembali informasi. Gambar 4 menjelaskan proses temu kembali informasi. User Interface Text user need Text Text Operations logical view logical view user feedback Query Operations Indexing DB Manager Module query inverted file Searching Index ranked docs retrieved docs Ranking Text Database Gambar 4. Proses temu kembali informasi
Pada sistem temu-kembali infomasi, kumpulan dokumen direpresentasikan dengan dalam bentuk matriks dokumen (D) dan kata (T). Notasi W merupakan frekuensi kata dalam dokumen. T1 T2. Tt D1 w11 w21 wt1 D2 w12 w22 wt2 : : : : : : : : Dn w1n w2n wtn TEMU-KEMBALI CITRA Sama seperti halnya sistem temu-kembali informasi berbentuk dokumen, sistem temu kembali citra adalah sistem penemuan kembali informasi dalam bentuk citra (gambar) dengan mengukur kemiripan (similarity) antara citra yang tersimpan dalam basis data dengan kueri yang dimasukkan oleh pengguna. Content based image retrieval (CBIR) merupakan suatu pendekatan dalam temu kembali citra yang didasarkan pada informasi yang terkandung di dalam citra itu sendiri seperti warna, bentuk dan tekstur dari citra. Gambar 5 menunjukkan skema CBIR. Koleksi CBIR User Hasil : Gambar 5 Skema CBIR
Pada CBIR sebuah citra direpresentasikan sebagai fungsi dua dimensi f(x,y) di mana x dan y adalah pasangan koordinat spasial, sementara nilai f disebut sebagai derajat tingkat keabuan (gray level) atau intensitas dari citra digital pada koordinat tersebut (Gonzalez et al. 2004). Citra digital direpresentasikan dalam bentuk matriks persegi yang mewakili ukuran dari citra tersebut. Misalkan terdapat sebuah citra digital dengan ukuran NxM, maka citra dapat direpresentasikan dalam sebuah matriks i berukuran NxM sebagai berikut: i i(1,1) i(2,1) i( N,1) i(1,2) i(2,2) i( N,2) i(1, M ) i(2, M ) i( N, M ) Gambar 1 Representasi citra digital. Sumber Pustaka: 1. Salton. 1998. Introduction to Modern Information Retrieval. 2. Deb, S. dan Zhang, Y. 2004. An Overview of Content-Based Image Retrieval Techniques. IEEE. 3. Gonzales dan Woods. 2004. Digital Image Processing Using Matlab. Addison Wesley.