Aplikasi Inforation Retrieval (IR) CATA Dengan Metode Generalized Vetor Spae Model Hendra Bunyain, Chathalea Puspa Negara Jurusan Teknik Inforatika Fakultas Teknologi Inforasi, Universitas Kristen Maranatha. Prof. Drg. Suria Suantri No. 65 Bandung 4064 Eail: hendra.bunyain@eng.aranatha.edu Abstrat Inforation retrieval (IR) syste is a syste, whih is used to searh and retrieve inforation relevant to the user s needs. IR syste retrieves and displays douents that are relevant to the user s input (query). The Cata appliation is one aong Inforation Retrieval Systes. This appliation has features suh as to add and hange a douent in douent olletions. There is also a feature to searh the inforation in douent olletions by using Generalized Vetor Spae Model algorith. Before applying this algorith, the query whih is entered by the user will be proess first. The proessing of words inludes the disposal of stopwords and steing. This appliation perfors searhing the douents whih are relevant to the queries, based on the siilarities. The searhing result whih is ordered based on the highest of the siilarity value. Keywords : Inforation Retrieval syste, Generalized Vetor Spae Model I. Pendahuluan Pada saat kita elakukan penarian elalui searh engine (google.o, dan yahoo.o), kita bisa endapatkan beberapa hasil, yang berupa dokuendokuen yang saa atau hapir sesuai dengan kata atau query yang kita asukkan. Deikian pula jika kita elakukan penarian dala aplikasi siste inforasi, seperti halnya siste penarian dala perpustakaan. Aplikasi yang dibuat adalah aplikasi yang enggunakan algorita IR (Inforation Retrieval) dengan etode siste Generalized Vetor Spae. Inforation Retrieval (IR) erupakan suatu siste yang ebantu pengguna dala enari inforasi di dala kupulan dokuen. Beberapa siste yang enggunakan IR syste adalah aplikasi searh engine, seperti google.o dan aplikasi siste inforasi, seperti perpustakaan. Algorita Generalized Vetor Spae Model yang dibahas enggunakan konsep ruang vektor. Masukan dari pengguna dan kupulan dokuen diterjeahkan enjadi vektor-vektor. Keudian vektor-vektor tersebut dikenakan operasi perkalian titik dan hasilnya enjadi auan dala enentukan relevansi asukan pengguna (query) terhadap kupulan dokuen. 9
Jurnal Inforatika, Vol.4, No., Juni 008:9-8 II. Inforation Retrieval Syste dan Generalized Vetor Spae Model Siste inforation retrieval (IR) syste adalah syste yang digunakan untuk eneukan kebali (retrieve) inforasi-inforasi yang relevan terhadap kebutuhan pengguna dari suatu kupulan inforasi seara otoatis [Bunyain, 005]. Siste IR terutaa berhubungan dengan penarian inforasi yang isinya tidak eiliki struktur. Deikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak eiliki struktur. Hal ini yang ebedakan siste IR dengan siste basis data. Dokuen adalah ontoh inforasi yang tidak terstruktur. Isi dari suatu dokuen sangat tergantung pada pebuat dokuen tersebut. Sebagai suatu siste, siste IR eiliki beberapa bagian yang ebangun siste seara keseluruhan. Gabaran bagian-bagian yang terdapat pada suatu siste IR digabarkan pada Gabar Douent Colletion Query Text Operations Query forulation. Dokuen. Dokuen. Dokuen.. Text Operations Indexing Ters Index Ranking Colletion Index Gabar Bagian bagian inforation siste retrieval (IR) Dari gabar, terlihat bahwa terdapat dua proses operasi dala siste IR. Proses pertaa diulai dari koleksi dokuen dan proses kedua diulai dari query pengguna. Proses pertaa yaitu perosesan terhadap koleksi dokuen enjadi basis data indeks tidak ada ketergantungan dengan proses kedua. Sedangkan proses kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada proses pertaa. Bagian-bagian dari siste IR enurut gabar eliputi : () Text Operations (operasi terhadap teks) yang eliputi peilihan kata-kata dala query aupun dokuen (ter seletion) dala pentransforasian dokuen atau query enjadi ter index (indeks dari kata-kata). () Query forulation (forulasi terhadap query) yaitu eberi bobot pada indeks kata-kata query. () Ranking (perangkingan), enari dokuen-dokuen yang relevan terhadap query dan engurutkan dokuen tersebut berdasarkan kesesuaiannya dengan query. 0
Aplikasi Inforation Retrieval (IR) CATA Dengan Metode Generalized Vetor Spae Model (Hendra Bunyain, Chatalea Puspa Negara) (4) Indexing (pengindeksan), ebangun basis data indeks dari koleksi dokuen. Dilakukan terlebih dahulu sebelu penarian dokuen dilakukan. Siste IR eneria query dari pengguna, keudian elakukan perangkingan terhadap dokuen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna erupakan dokuen yang enurut siste relevan dengan query. Naun relevansi dokuen terhadap suatu query erupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, suber inforasi aupun tujuan pengguna. Salah satu odel siste IR adalah odel vektor. Beberapa karakteristik dala siste IR adalah :. Model vektor berdasarkan index ter. Model vektor endukung partial athing dan penentuan peringkat dokuen. Prinsip dasar vektor odel adalah sebagai berikut : (a) dokuen direpresentasikan dengan enggunakan vektor index ter (b) Ruang diensi ditentukan oleh index ter () Query direpresentasikan dengan enggunakan vektor index ter (d) Kesaaan douent-query dihitung berdasarkan hasil kali titik (ross produt) antara vektor vektor tersebut 4. Model vektor eerlukan : (a) Bobot index ter untuk vektor dokuen (b) Bobot index ter untuk query () Perhitungan ross produt untuk vektor douent-query 5. Kinerja. Efisien. Mudah dala representasi. Dapat diipleentasikan pada douent-athing Ada beberapa langkah atau proses untuk endapatkan hasil dari query yang diasukkan, yang disebut algorita Generalized Vetor Spae Model [Baeza, 999]:. Mebuang kata depan dan kata penghubung.. Menggunakan steer pada kupulan dokuen dan query, yaitu aplikasi yang digunakan untuk enghilangkan ibuhan (awalan, akhiran). Contoh : keagungan agung, keabadian abadi.. Menentukan inter untuk enentukan keungkinan pola frekuensi kata. Panjang inter ini didasarkan pada banyak kata yang diinput pada query. Keudian diubah enjadi vektor ortogonal sesuai dengan pola inter yang unul. Keungkinan pola yang akan unul adalah : ( 0,0,0,...) (,0,0,...) t (,,,...)
Jurnal Inforatika, Vol.4, No., Juni 008:9-8 4. Menghitung banyaknya frekuensi atau keunulan kata dala kupulan dokuen yang sesuai dengan query 5. Menghitung index ter yang dapat dinyatakan dengan : k i Diana : r, g ( ) i, r r, g ( k i : index ter ke-i i i r r ) i, r r : vektor ortogonal sesuai pola inter yang terpakai i,r : faktor korelasi antara index ter i dengan inter r Sedangkan faktor korelasi sebagai berikut : i,r wi, j d g ( d j ) g ( ) j i i r Diana : i,r : faktor korelasi antara index ter i dengan inter r w i,j : berat index ter i pada dokuen j g i ( ) r : bobot index ter k i dala inter r 6. Mengubah dokuen dan query enjadi vektor d j n i w ij k Diana : d j : vektor dokuen ke-j q : vektor query w i,j : berat index ter i pada dokuen j i r q n i q i k i q i : berat index ter pada query i k i : index ter n : julah index ter 7. Mengurutkan dokuen berdasarkan siilaritas, dengan enghitung perkalian vektor djq sidj, q dj q
Aplikasi Inforation Retrieval (IR) CATA Dengan Metode Generalized Vetor Spae Model (Hendra Bunyain, Chatalea Puspa Negara) Diana : d j : vektor dokuen j q : vektor query III. Aplikasi IR dengan Generalized Vetor Spae Model Sebagai ontoh, terdapat sebuah query (Q), dan buah dokuen yaitu dokuen (D), dokuen (D), dan dokuen (D) sebagai berikut: Q : penyelesaian konflik Aeh Judul D : Gus Dur Tak Mungkin Dijatuhkan Judul D : Bondan: Bukan Saya Nggak Doyan Duit Judul D : AS Dukung Kesepakatan GAM-RI Contoh tersebut dapat diproses sesuai dengan langkah langkah yang telah dijelaskan pada algorita sebelunya. Langkah langkah tersebut antara lain :. Mebuang kata depan dan kata penghubung. Naun dala query tidak terdapat kata depan aupun kata penghubung. Maka proses ini tidak dilakukan.. Menghilangkan ibuhan (awalan, akhiran). Q : selesai konflik Aeh. Menentukan inters berdasarkan banyak kata yang diinput pada query dan keungkinan pola yang unul. Berdasarkan query tersebut, inter yang dipakai adalah 8, 6, 7. 4. Menghitung frekuensi kata dala koleksi dokuen yang sesuai dengan query dan enentukan vektor orthogonal sesuai dengan inter yang dipakai selesai konflik aeh vektor orthogonal D D 0 4 D 0 4 q 5. Menghitung korelasi setiap ters C, = C, = C, = C, = C, = 0 C, = 4 C, = 0 C, = C, = 4 6. Menghitung index ters k,,,,,, 0 0 5
Jurnal Inforatika, Vol.4, No., Juni 008:9-8 k,,,,,, 0 0 8 k,,,,,, 4 4 4 4 4 4 7. Mengubah dokuen dan query kedala bentuk vektor d k k k 4 4 5 5 8 8,7889 0,8944,, 0,74 0,696 0, 696 4,084 d d,5907, 876 k 4 k 4 4 4 5 5 0,8944 0,447 0,696,785, 785,5907 4 q,4, 785 k k 4 4 4 8 8,, 0,696,785, 785,876 k k k,785 4, 9065 4 4 5 5 8 8 0,8944 0,447 0,707 0,707 0,74 0,696 0, 696,7756,45, 404 8. Menghitung siilaritas dokuen dan eranking 4,084,7756,5907,45,876,404 si d, q ( 4,084,5907,876 ),7756,45,404 7,5,889,954,05 0,9858 ( 7,507 ) 6,499,7,5907,7756,4,45,785,404 si d, q (,5907,4,785 ),7756,45,404,844,696,9087 0,49 0,90 ( 0,76 ) 6,499,5469 4
si Aplikasi Inforation Retrieval (IR) CATA Dengan Metode Generalized Vetor Spae Model (Hendra Bunyain, Chatalea Puspa Negara),876,7756,785,45 4,9065,404 d, q (,876,785 4,9065 ),7756,45 5,009,849 6,8858 5,076 0,946 5,99 ( 9,76995 ) 6,499 Dari hasil siilaritas pada butir (8) diatas, dapat diabil ranking yang dihasilkan adalah dokuen, dokuen, dokuen. Yang berarti dokuen adalah dokuen yang paling relevan dengan query. IV. Aplikasi Cata Aplikasi ini erupakan salah satu ontoh IR syste yang enerapkan etode vektor, yaitu Generalized Vetor Spae Model, yang selanjutnya dinaakan aplikasi Cata. Aplikasi ini berfungsi untuk engolah query, serta berfungsi untuk elakukan penookan antara query dengan kata yang ada pada kupulan dokuen. Aplikasi ini enapilkan dokuen yang relevan dengan query dan engurutkannya berdasarkan keiripan antara query dan dokuen yang paling tinggi. Dala aplikasi ini, tidak ada kategori akses untuk user, sehingga seua user dapat enggunakan aplikasi ini. Aplikasi ini dibutuhkan untuk eudahkan user dala enari inforasi dala kupulan dokuen. Terdapat pula fitur untuk enabah, engubah dan enghapus dokuen dala koleksi dokuen. Berikut adalah gabar antaruka aplikasi setiap fitur yang ada :,404 Gabar For Utaa Dala for ini pada gabar, user dapat enari kata yang ada pada koleksi dokuen. Jika enekan tobol ari, aka siste akan elakukan proses penarian. Hasilnya akan ditapilkan dala tabel dan diurutkan berdasarkan nilai keiripan yang paling tinggi. Dala for ini, user dapat eilih fitur tabah, ubah, atau hapus dokuen pada enu File. 5
Jurnal Inforatika, Vol.4, No., Juni 008:9-8 Gabar For Tabah Dokuen Dala for ini pada gabar, user dapat enabah dokuen. Jika enekan tobol sipan, aka siste akan elakukan proses penabahan dokuen kedala koleksi dokuen. Gabar 4 For Daftar Dokuen Dala for pada gabar 4, terdapat sebuah tabel yang digunakan untuk enapilkan indeks dan judul dokuen yang akan diubah oleh user. Tobol Ubah Dokuen Ini berfungsi untuk ebuka For Ubah Dokuen dengan engirikan indeks dan judul dokuen yang dipilih. Gabar 5 For Ubah Dokuen 6
Aplikasi Inforation Retrieval (IR) CATA Dengan Metode Generalized Vetor Spae Model (Hendra Bunyain, Chatalea Puspa Negara) Dala for pada gabar 5, user dapat engubah dokuen yang telah dipilih dala fitur Daftar Dokuen. Jika enekan tobol sipan, aka siste akan elakukan proses perubahan dokuen kedala koleksi dokuen. Gabar 6 For Hapus Dokuen Dala for pada gabar 6, user dapat enghapus dokuen yang telah dipilih. Jika enekan tobol hapus, aka siste akan enghapus dokuen yang telah dipilih dari koleksi dokuen. Gabar 7 For Detail Dokuen Dala for pada gabar 7, user dapat ebaa isi dokuen dari hasil penarian kata. Isi dokuen yang ditapilkan, tidak dapat diubah atau ditabah. Sebelu enggunakan seua fitur yang ada, user diwajibkan untuk eilih sebuah file koleksi dokuen yang epunyai extension file (.all). File ini berisi kupulan dokuen dokuen, yang epunyai forat saa dengan forat XML. Berikut adalah ontoh atau uplikan dari forat koleksi dokuen yang dipakai : 7
Jurnal Inforatika, Vol.4, No., Juni 008:9-8 <douentfile> <douent> <nae>0</nae> <title>gus Dur Tak Mungkin Dijatuhkan</title> <ontent>gus Dur Tak Mungkin Dijatuhkan SEMARANG- Legitiasi sosial yang begitu kuat akan tetap engukuhkan kedudukan Abdurrahan Wahid sebagai Presiden RI. Walau ''digoyang'' berbagai asalah berat sekalipun,legitiasi itu sulit untuk digoyahkan, terasuk pada Sidang Uu Agustus endatang. </ontent> </douent> Gabar 8 Forat Koleksi Dokuen V. Kesipulan Hasil akhir dari seluruh proses peranangan, serta proses ipleentasi telah enghasilkan aplikasi yang setelah dilakukan pengujian, dinilai dapat digunakan dengan baik. Pebuatan aplikasi ini sudah enapai tujuan utaa dari aplikasi, yaitu eperudah user untuk enari inforasi dala koleksi dokuen. Kesipulan engenai etode yang digunakan, yaitu Generalized Vetor Spae Model adalah. Menggunakan bobot index ter. Adanya vektor dokuen dan query. Perhitungan ross produt enentukan kesaaan query dan dokuen Daftar Pustaka [Ano07] Anonyous. IR Models. http://www.s.ui.a.id/webkuliah/tksi/mik/irmodels.do. Deseber 007. [Bae99] Baeza, Riardo, B. Ribeiro. 999. Modern Inforation Retrieval. ACM Press. United States of Aeria. 999. [Bun05] Bunyain, Hendra. 005. Inforation Retrieval Syste dengan Menggunakan Metode Latent Seanti Indexing, Tesis S Magister Teknik Inforatika. [Won85] Wong, S., W Ziarko, P. Wong. 985. Generalized Vetor Spae Model in Inforation Retrieval. http://40..85.0/pastcourses/00f- InforationRetrievalandExtration/Present_00F/00F_GeneralizedVe torspaemodelininforationretrieval.pdf. Deseber 007. [Won87] Wong, S., W. Ziarko, V. Raghavan. 987. On Modeling of Inforation Retrieval Conepts in Vetor Spaes. http://delivery.a.org/0.45/0000/957/p99-wong.pdf. 8 Januari 008. 8