TEMU KEMBALI CITRA DAN TEKS DENGAN PENCARIAN TEKSTUAL BERBASIS INFORMATION GAIN, LATENT SEMANTIC ANALYSIS DAN WEIGHTED TREE SIMILARITY

Transkripsi

1 TEMU KEMBALI CITRA DAN TEKS DENGAN PENCARIAN TEKSTUAL BERBASIS INFORMATION GAIN, LATENT SEMANTIC ANALYSIS DAN WEIGHTED TREE SIMILARITY Hasan Dwi Cahyono 1), Agus Zainal Arifin 2), Nanik Suciati 3) Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Indonesia 1 hasan.cahyono10@mhs.if.its.ac.id, 2 agusza@cs.its.ac.id, 3 nanik@its-sby.edu ABSTRAK Akses informasi seiring perkembangan internet pada konten multimedia dan teks mengalami kemajuan yang cukup pesat. Bahkan pada beberapa tahun terakhir telah banyak mesin pencari berbasis sistem temu kembali citra berbasis konten dikembangkan. Namun karena hasil pencarian metode tersebut masih terbatas dan kurang memuaskan dibanding pencarian berbasis teks, maka diperlukan metode yang mampu mengabungkan pencarian berbasis teks dan citra dengan anotasi teks tidak hanya dalam satu bahasa. Selain itu, sekumpulan dataset dengan jumlah besar dan sangat heterogen, membutuhkan metode yang dapat mengatur penggunaan informasi tekstual. Oleh karena itu, dalam penelitian ini diusulkan metode baru pada temu kembali citra dan teks dengan pencarian tekstual berbasis Information Gain (IG), Latent Semantic Analysis (LSA), dan Weighted Tree (W-Tree) similarity dalam bahasa Inggris, Perancis, dan Jerman. Pada tahap pertama, LSA digunakan untuk menemukan relasi semantik pada informasi tekstual serta IG untuk mengatur penggunaan informasi tekstual serta memilih kombinasi bahasa yang tepat. Selanjutnya, dilakukan proses pembentukan dan pencocokan W-Tree dari database dengan W-Tree dari query user. Sistem akan menampilkan keluaran berupa daftar dokumen beserta nilai kemiripannya. Dari percobaan pada dataset sebanyak , pencarian tekstual berbasis LSA, IG, dan W-Tree similarity mampu meningkatkan Mean Average Precision 30% dibanding pencarian tekstual LSA dan W-Tree pada temu kembali citra dan teks, serta 117% dibanding pencarian visual saja. Kata kunci: pencarian teks dan citra, LSA, W-tree, information gain. ABSTRACT Access to information on the internet as the development of multimedia and text contents are progressing quite rapidly. Even in recent years image-based search engine has been developed. However, because of the result of these methods is limited and less satisfying than text-based search, it requires a method that able to combines text and image-based search. In addition, a set of datasets with large and highly heterogeneous, requiring a method that able to regulate the use of textual information. Therefore, this study proposed a new method on image and text retrieval with textual search based on Information Gain (IG), Latent Semantic Analysis (LSA), and Weighted Tree (W-Tree) similarity in English, France, and German. At the first stage, LSA is used to find semantic relations on textual information and the IG to regulate the use of textual information. Furthermore, performed a process of forming and matching between database W-Tree and user queries W-Tree. The system will show a list of documents and their output value of similarity. From experiments on the dataset as much as 28,550, textual search based on LSA, IG, and W-Tree similarity able to increase the Mean Average Precision 30% compared to LSA and W-Tree similarity, and 117% compared to visual search only. Keywords: text and image retrieval, LSA, W-tree, information gain.

2 PENDAHULUAN Berbagai macam jenis informasi dalam jumlah besar terakumulasi di internet setiap harinya, dan jumlahnya juga semakin bertambah setiap hari. Maka dari itu perlu dilakukan automatisasi sebagai cara untuk mendapatkan akses informasi yang lebih efektif dan efisien [1]. Salah satu cara pencarian informasi diinternet secara efektif adalah pencarian berdasarkan informasi teks yang dapat ditemukan pada hampir semua mesin pencari. Dan faktanya, pencarian berdasarkan informasi teks ini memiliki hasil yang cukup baik untuk citra dengan anotasi teks seperti nama entitas, manusia, objek, atau tempat, namun pencarian seperti ini tidak dapat bekerja baik pada anotasi teks yang bersifat umum. Pencarian berbasis anotasi teks jarang menggambarkan background setting atau gambaran visual, seperti warna, tekstur, bentuk, dan juga ukuran dari objek. Selain itu, pencarian berbasis teks pada konten non tekstual tidak terstruktur seperti video, audio, dan juga citra, tidak sebagus dan seefektif pencarian pada dokumen tekstual [2] [3]. Berlandaskan keterbatasan tersebut, pencarian tekstual saja tidak cukup untuk melakukan pencarian gambar atau juga konten multimedia lainnya. Sehingga perlu adanya penggabungan pencarian tekstual dengan teknik yang mempertimbangkan fitur visual. Saat ini diketahui adanya peningkatan ketertarikan yang cukup pesat terhadap sistem yang tidak hanya dapat menyimpan informasi citra tetapi juga linked text (metadata). Bahkan ide ini telah dibuktikan dalam berbagai forum dan konferensi ilmiah pada beberapa tahun belakangan [4]. Salah satu cara untuk memperdalam makna teks pada citra adalah penggunaan model kemiripan tekstual yang seringkali mengalami kendala pada sisi leksikal. Solusi tersebut adalah dibangun sebuah model kemiripan berdasarkan metode Latent Semantic Analysis (LSA) dan Weighted tree (W-Tree ) yang terbukti mampu menangani kelemahan leksikal. LSA dan W-Tree terbukti efektif namun pada jumlah data dalam jumlah besar yang terdiri lebih dari satu bahasa dan dengan tingkat heterogensi yang tinggi metode tersebut tidak mampu mengatasi noise yang terjadi. Oleh karena itu dalam penelitian ini, diusulkan metode baru pada temu kembali citra dan teks dengan pencarian tekstual berbasis Information Gain (IG), LSA, dan W-Tree similary. Metode ini digunakan pada dataset sebanyak yang terdiri dalam bahasa Inggris, bahasa Perancis, dan bahasa Jerman. METODE Latent Semantic Analysis (LSA) LSA adalah suatu metode dimana dekomposisi nilai singular digunakan untuk membentuk generalisasi semantik dari bagian tekstual. LSA menggunakan fakta bahwa katakata tertentu muncul dalam konteks yang sama untuk membangun hubungan antara makna dari kata [5]. Proses tersebut dilakukan dengan membangun sebuah matriks term-document. Dalam hal ini masing-masing baris mewakili kata/term yang unik dan kolomnya mewakili masing-masing dokumen. Kemudian sel pada matrik diisi frekuensi kemunculan kata/term tersebut. Selanjutnya matriks tersebut akan diproses menggunakan teknik Single Value Decomposition (SVD). SVD didasarkan pada sebuah teorema dalam aljabar linier yang menyatakan bahwa sebuah matriks persegi dapat dipecah menjadi perkalian dari tiga matriks : sebuah matriks orthogonal U, sebuah matriks diagonal S, dan sebuah matriks transpose dari matriks orthogonal V. Teorema tersebut dinyatakan pada persamaan: T A m n = U m r. S r r. V r n, (1) dimana U T U = I; V T V = I; kolom dari U adalah eigenvector orthonormal dari AA T, kolom dari V adalah eigenvector orthonormall dari A T A, dan S adalah sebuah matriks diagonal yang berisi akar dari nilai eigenvalue dari U atau V dalam urutan dari besar ke kecil. Pada penelitian ini, implementasi perhitungan SVD memanfaatkan package LingPipe dari Java [6]. Information Gain Information gain adalah sebuah pengukuran berdasarkan entropi dari sistem,

3 yaitu disorder degree dari sistem [7]. Pengukuran ini mengindikasikan pada apa entropi sistem secara keseluruhan berkurang jika diketahui nilai dari atribut tertentu (cabang pada kasus yang diangkat). Sehingga, dapat ditunjukkan bagaimana seluruh sistem terhubung pada sebuah atribut. Dengan kata lain, seberapa banyak informasi pada atribut berkontribusi kepada sistem. Persamaan untuk menghitung IG adalah: IG C E H C H C E, (2) dimana IG(C E) adalah information gain dari cabang atau atribut E, H(C) adalah sistem entropi dan H(C E) adalah entropi relatif terhadap sistem ketika nilai cabang dari E diketahui. Entropi terhadap sistem mengindikasikan disorder degree dengan persamaan: C H C p(c i )log 2 p(c i ), (3) i 1 dimana p(c i) adalah nilai probabilitas terhadap i. Berikut adalah persamaan entropi relatif: E C H C E p( e ) j p( c e ) log 2 p( c e ) i j i j i 1 i 1 (4) dimana p(e i) adalah nilai probabilitas i terhadap atribut e, dan p(c i e j) adalah probabilitas c i terhadap e j., Weighted Tree Similarity Weighted Tree Similarity pada dasarnya merupakan metode untuk mengetahui kemiripan kebutuhan antara buyer dan seller dengan menggunakan Weighted Tree sebagai representasi informasinya. Struktur Weighted Tree memperkenalkan konsep node berlabel, arc berlabel, dan arc berbobot yang merepresentasikan relasi parent child dari suatu atribut produk / jasa. Informasi semantik dikandung tidak hanya pada label node tetapi juga pada label arc. Sedangkan bobot arc merepresentasikan tingkat kepentingan (importance) dari suatu arc (atribut produk/jasa). Berikut dijabarkan definisi Weighted Tree secara bertahap mulai dari tree yang paling sederhana hingga tree yang telah sempurna berbentuk struktur Weighted Tree. Contoh Weighted Tree dengan cabang berlabel dan berbobot ditampilkan pada Gambar 1. Gambaran Dataset Pengujian Dalam penelitian ini, dataset yang digunakan adalah metadata yang memiliki citra dan teks yang saling berkesuaian oleh CLEF (Cross-Language Evaluation Forum) pada tema khusus yaitu Wikipedia Retrieval. Tema ini dikenal sebagai ImageCLEF 2010 Wikipedia Collection. Dataset percobaan terdiri dari ImageCLEF Wiki 2010 terdiri dari citra beserta annotasi teks dalam bentuk xml seperti pada Gambar 2. Adapun sebaran dataset tersaji dalam. Sebaran tersebut menunjukkan anotasi teks dalam ImageCLEF 2010 Wikipedia sangat heterogen, dengan hampir 3% dari dataset yang memiliki anotasi pada ketiga bahasa, 16% pada dua bahasa, 45% pada satu bahasa, dan 1.5% tidak terdapat keterangan. Adapun bagian yang digunakan untuk pengujian adalah description, caption, dan juga comment yang berada pada anotasi bahasa Inggris (en), bahasa Jerman (de), dan bahasa Perancis (fr) saja. Untuk bagian yang lain tidak dimasukkan dalam pengujian. Arsitektur Sistem Pada sistem yang digagas, ada 3 tahapan yaitu preprocessing, pencarian, dan penggabungan. Proses tersebut seperti pada Gambar 3.

4 Gambar 1. Tree dengan label dan bobot. Tabel 1. Sebaran anotasi teks dataset Bahasa Jumlah Inggris 5666 Jerman 4080 Perancis 3144 Inggris + Jerman 1760 Inggris + Perancis 1648 Jerman + Perancis 1128 Inggris + Jerman + Perancis 778 Tanpa Anotasi 385 Gambar 2. Salah satu dataset yang terdiri dari citra dan teks.

5 Image Query List of Relevant Document (L final ) Merging both list Tekstual Query Chancellery in Berlin, since 2001 (en) Bundeskanzleramtsgebäude in Berlin (de) La chancellerie (fr) CBIR System (GIFT) List of Relevant Document (L v ) List of Relevant Document (L T ) W-Tree Information Gain LSA 1. Local Colour 2. Global Colour, 3. Local Texture 4. Global Texture Image Dataset Text Dataset 1. Document Vector 2. Scales 3. Term Vector Gambar 3. Arsitektur sistem. Preprocessing Untuk dapat menganalisa strategi pengabungan yang akan dilakukan, dua percobaan dilakukan. Pertama berdasarkan citra dan yang kedua berdasarkan tekstual [8]. Pada pemrosesan citra, setiap citra diproses dengan menggunakan sistem CBIR bernama GIFT 1. Sistem ini menggunakan empat fitur pada proses retrieval-nya. Fitur yang dipakai GIFT adalah local color, global color, local texture, dan global texture. Pada pemrosesan tekstual, dilakukan stemming dengan menggunakan snowball stemmer untuk bahasa Inggris, bahasa Perancis, dan bahasa Jerman pada setiap dokumen. Setelah itu diproses dengan metode LSA untuk mendapatkan Term Document Metric. Selanjutnya, dengan SVD didapatkan document vector, term vector, dan scales. Pencarian Dokumen Tekstual Dan Visual Pada pencarian visual, setelah dilakukan ekstraksi fitur, dilakukan pencocokan dengan dataset citra. Hasil yang didapat pada pencarian visual berkisar pada 0 s/d 1. Semakin mendekati 1 berarti citra yang ditampilkan semakin mirip dengan citra user. Dokumen hasil dari pencarian visual diberikan notasi L V. Untuk efektifitas, hanya 1000 dokumen dengan nilai relevansi teratas saja yang diambil. Pada pencarian tekstual, setelah dilakukan perhitungan dengan LSA dan didapatkan document score (nilai kemiripan), pada setiap cabang dan pada setiap kombinasi bahasa (en, de, fr, en+de, en+fr, de+fr, en+de+fr). Permasalahan yang muncul ketika dilakukan penggabungan bahasa adalah memilih nilai document score (kemiripan) yang tepat jika ada lebih dari 1 nilai. Untuk memilih document score digunakan nilai maksimal seperti pada persamaan berikut: s max( doc _ score ij ), i j (5) dimana i adalah cabang (description, comment, caption) dan j adalah kombinasi bahasa(en, de, fr, en+de, en+fr, en+de+fr). Setelah document score didapatkan, maka dilakukan pemisahan cabang berdasarkan IG. Cabang dengan IG tertinggi menjadi C1, 2 cabang tertinggi menjadi C2, dan seluruh cabang tanpa memperhitungkan nilai IG yaitu C3 (W-Tree).

6 Penggabungan Hasil Pencarian Untuk menggabungkan hasil pencarian tekstual dan visual, dilakukan beberapa percobaan dengan berat pada hasil pencarian visual dan tekstual. Rumus yang digunakan untuk menggabungkan kedua hasil pencarian sebagai berikut: RSV TOTAL RSV text RSV visual 1, (6) dimana α ϵ [0, 1] adalah nilai yang diberikan pada RSV tekstual terhadap RSV visual. Total percobaan yang dilakukan adalah 9 dimana nilai α = {0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9} ditambah tekstual saja α = 1 dan visual saja α = 0. Pengukuran Efektifitas Sistem Untuk mengukur seberapa efektif sistem yang digagas, digunakan mean average precision (MAP). Secara geometri, MAP berada dibawah area grafik recall precision. MAP memberikan informasi lebih banyak dari pengukuran lain seperti precision ataupun R-precision, dan oleh karena itu, lebih efektif dan dapat memberikan hasil dengan stabilitas lebih baik [9]. Untuk mendapatkan nilai MAP, digunakan TREC_EVAL 2 yang sudah terbukti dapat melakukan evaluasi dengan batasan precision dan recall untuk menilai performa temu kembali informasi [10]. HASIL DAN PEMBAHASAN Tujuan utama dilakukan percobaan ini adalah menunjukkan bahwa dengan penggunaan cabang dengan nilai IG tertinggi lebih baik daripada menggunakan seluruh cabang yang ada. Untuk itu digunakan dataset seperti pada Tabel 2. Adapun proses pencarian yang dilakukan terbagi menjadi pencarian visual, pencarian tekstual, dan penggabungan pencarian visual dan tekstual. Pencarian Visual Pada Tabel 2, query dengan indeks Q2, Q3, Q4, dan Q5 pada sistem pencarian visual mampu mendapatkan hasil yang sesuai. Beberapa studi yang telah dilakukan menunjukkan bahwa MAP yang didapatkan tidak jauh berbeda dengan yang telah dilakukan seperti yang pada penelitian [11] yaitu dengan MAP Pada pencarian visual ini masih terdapat kegagalan dalam proses pencarian citra roller coaster. Dimana hasil pencarian tidak menemukan citra yang sesuai dengan query. Hal ini dikarenakan pencarian visual yang menggunakan fitur color dan texture tidak dapat menemukan dokumen yang sesuai dengan citra query. Fitur color dan texture tidak menjadi fitur yang dapat menemukan kemiripan yang baik sehingga tidak didapat hasil pencarian yang sesuai. Salah satu cara yang dapat meningkat presisi hasil pencarian visual adalah menambahkan salah satu fitur yaitu tepi (edge) yang terbukti pada penelitian yang telah dilakukan [12]. Pencarian Tekstual Pada pencarian tekstual digunakan metode LSA+IG+W-Tree similarity. Adapun metode pembanding untuk menguji kehandalan metode pencarian yang diusulkan adalah metode LSA+W-Tree similarity. Dimana metode LSA+W-Tree similarity tersebut pada penelitian sebelumnya terbukti efektif dengan mampu meningkatkan performa pencarian sebesar 50% dari metode W-Tree similarity [13]. Tabel 2 menunjukkan hasil pencarian bahwa dengan menggunakan metode LSA dan W-Tree similarity pada cabang dengan nilai IG tertinggi (C1 atau C2) mampu memberikan hasil yang lebih relevan dari metode LSA+W- Tree saja (C3). Hal ini dibuktikan dari pencarian tekstual dengan metode LSA+IG+W- Tree similarity mampu memberikan kenaikan rata-rata MAP sebesar 30% dibanding metode LSA+W-Tree similarity. Selain itu, pencarian tekstual dengan menggunakan metode LSA+IG+W-Tree saja juga terbukti lebih unggul dari pencarian visual saja dimana terjadi peningkatan MAP sebesar 71%. Selain itu, dari 5 query yang diujikan, metode LSA+IG+W-Tree terbukti mampu memberikan hasil yang lebih memuaskan

7 karena memberikan 3 hasil pencarian dengan MAP > 0 dibanding LSA+W-Tree yang hanya memberikan 2 hasil pencarian dengan MAP > 0. Beberapa penelitian sebelumnya telah membuktikan bahwa penggunaan cabang yang hanya memberikan kontribusi lebih kepada sistem terbukti mampu memberikan hasil yang lebih relevan dari pada menggunakan seluruh cabang tanpa memperhatikan kontribusi terhadap sistem [14]. Pada proses pencarian tekstual ini juga terdapat kegagalan pencarian yaitu proses pencarian pada query dengan indeks Q2 dan Q5 yang mendapatkan hasil MAP 0. Hal ini dikarenakan kata-kata dalam query user tersebut hanya ditemukan dalam 1 dokumen dokumen. Dalam konsep semantik, kata tersebut diabaikan karena tidak memberikan informasi tentang relasi antar dokumen [5]. Tabel 1. Query yang digunakan Query Koleksi Indeks Citra Teks relevan Q1 Q2 Q3 Q4 Q5 en de fr en de fr en de fr en de fr en roller coaster wide shot Weitwinkelaufnahme von Achterbahnen plan large d'une montagne russe skeleton of dinosaur Dinosaurierskelette squelette de dinosaure chinese characters chinesische Schriftzeichen caractères chinois male color portrait männliches Farbporträt portrait masculin en couleur yellow flames de gelbe Flammen fr flamme jaune Tabel 2. MAP hasil pencarian tekstual dan visual Indeks Jumlah Dokumen Relevan Visual MAP (x 10-2 ) Tekstual C1 C2 Max(C1,C2) C3 Q Q Q Q Q Rata-rata

8 Gambar 4. Hasil penggabungan informasi visual dan tekstual Tabel 3. Hasil penggabungan informasi visual dan tekstual Similarity (%) Q3 (x 10-2 ) Q4 (x 10-2 ) LSA LSA LSA LSA Tekstual Visual IG W- W- IG Tree Tree W- Tree W- Tree Rata-rata: Tabel 4. Perbandingan MAP visual, tekstual, dan penggabungan Tekstual + Visual Indeks Visual (x 10-2 ) LSA IG W-Tree (x 10-2 ) LSA W-Tree Q Q Rata-rata: Penggabungan Pencarian Visual dan Tekstual Setelah didapatkan daftar dokumen yang relevan berdasarkan fitur visual dan fitur tekstual dengan nilai MAP tertinggi, selanjutnya dilakukan penggabungan dengan persamaan (6). Pada Tabel 2, query dengan indeks Q1, Q2, dan Q5 tidak digunakan untuk penggabungan informasi visual dan tekstual. Hal ini dikarenakan untuk dapat dilakukan penggabungan diperlukan informasi visual dan tekstual dengan nilai MAP > 0. Sementara query indeks Q3 dan Q4 dapat digunakan untuk penggabungan karena nilai kemiripan visual dan tekstual mendapatkan hasil MAP > 0. Pada proses penggabungan query indeks Q3 memiliki nilai MAP yang lebih stabil dengan query indeks Q4 karena perbedaan kemiripan tekstual dan visual query indeks Q3 lebih kecil dari query indeks Q4. Semakin kecil perbedaan kemiripan visual dan tekstual, akan menghasilkan hasil pengabungan yang semakin stabil dimana indikasi tersebut juga telah disampaikan pada penelitian sebelumnya [14]. Hasil penggabungan dengan nilai MAP maksimum pada query dengan indeks Q4 didapat pada 60% kemiripan tekstual dan 40% kemiripan visual seperti pada Tabel 4. Nilai penggabungan visual dan tekstual tersebut pun sama seperti yang telah didapatkan pada penelitian sebelumnya [14]. Adapun hasil penggabungan informasi tekstual dengan visual menunjukkan nilai relevansi lebih dari 117% dibanding pencarian visual saja seperti pada Tabel 5. Kenaikan MAP yang diperoleh ini lebih besar dari kenaikan penelitian sebelumnya yaitu sebesar 90% [14]. Hasil percobaan pada Tabel 4 menunjukkan temu kembali citra dan teks dengan metode pencarian tekstual LSA+IG+W- Tree similarity mendapatkan MAP 30% lebih tinggi dari metode LSA+W-Tree similarity. Beberapa studi empiris menunjukkan bahwa dengan mempertimbangkan kontribusi elemen terhadap sistem secara keseluruhan menggunakan IG dapat memberikan hasil yang lebih memuaskan seperti pada penelitian yang telah dilakukan [15].

9 SIMPULAN Pada sistem ini diusulkan pendekatan baru dengan metode pencarian menggunakan LSA, IG, dan W-Tree similarity yang dapat membantu meningkatkan relevansi hasil temu kembali citra dan teks. Pada penelitian ini terbukti bahwa dengan penggabungan informasi visual dan tekstual menghasilkan pencarian yang lebih baik dari pencarian visual saja. Peran IG dalam pencarian tekstual berbasis LSA dan W-Tree similarity juga memberikan efek positif yaitu dengan meningkatkan relevansi hasil pencarian. Dengan menggunakan cabang yang memberikan kontribusi lebih besar pada sistem serta terbukti mampu memberikan MAP lebih tinggi dari pada menggunakan seluruh cabang tanpa memperhatikan kontribusi cabang tersebut terhadap sistem. DAFTAR PUSTAKA [1] Hsin C. F., Yeong. Y. X., & Hsiao T. P., 2005, "Multimodal Search for Effective Image Retrieval". [2] Kherfi M.L. Bernardi D.Z.A, 2004, "Image retrieval from the world wide web: issues, techniques, and systems," ACM Computing Surveys 36 (1), pp [3] He R., Xiong N.,Yang L. T, 2011, "Using Multi-Modal Semantic Association Rules to fuse keywords and visual features automatically for Web image retrieval," Information Fusion 12, pp [4] Quack T., Monich U., Thiele L, Manjunath B.S., 2004, "Cortina: A System for Largescale, Content-based Web Image Retrieval," Electrical and Computer Engineering Department, University of California. [5] Landauer T., Foltz P., Laham D., 1998, "Introduction to Latent Semantic Analysis. Discourse Processes". [6] SVD Tutorial. [Online] al/svd/read-me.html [7] Shannon C. E, 1998."A Mathematical Theory of Communication," The Bell System Technical Journal, pp , [8] GNU Software. GNU. [Online]. [9] Buckley C., Voorhees E. M., 2008 "Evaluating evaluation measure stability," In Proceeding of the 23rd annual international ACM SIGIR conference on research and development in information retrieval, pp [10] Eckard E., Chappelier J.C., 2007, "Free Software for research in Information Retrieval and Textual Clustering". [11] Tsikrika T., Muller H., Forner P., 2011 "Report on outcomes of first year evaluation activities," Participative Research Laboratory for Multimedia and Multilingual Information System Evaluation, D6.1. [12] Anil J., Aditya V., 1998, "Shape- Based Retrieval: A Case Study with Trademark Image Databases," in Pattern Recognition, pp [13] Sa'adah U., Sarno R., Yuhana U.L, 2012, "Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian Berbasis Semantic," Program Studi Magister Jurusan Teknik Informatika ITS. [14] Martın-Valdivia M.T., Dıaz-Galiano M.C., Montejo-Raez A., Urena-Lopez L.A., 2008, "Using information gain to improve multi-modal information retrieval systems," ELSEVIER Information Processing and Management, pp [15] Lee W., Xiang, 2001,"Information- Theoritic Measure for Anomaly Detection," in IEEE Symposium on Security and Privacy.

10