ALGORITMA UMUM PENCARIAN INFORMASI DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN Hendra Bunyamn Jurusan Teknk Informatka Fakultas Teknolog Informas Unverstas Krsten Maranatha Jl. Prof. drg. Sura Sumantr No. 65, Bandung 4064 E-mal: hendra.bunyamn@eng.maranatha.edu Abstract Informaton retreval (IR) system s a system, whch s used to search and retreve nformaton relevant to the users needs. IR system retreves and dsplays documents that are relevant to the users nput (query). The nformaton retreval system has several steps and must execute the steps n order to obtan query results. The steps consst of two processes. The frst one s processng query and the second one s processng the document collecton. Processng query ncludes: conduct text operaton, query formulaton, and make terms ndex for query. Processng the document collecton ncludes: conduct text operaton, ndexng, and make collecton ndex for document collecton. Obtanng terms ndex and collecton ndex, we are able to process terms ndex and collecton ndex to obtan rankng results. To obtan rankng results requres knowledge from basc lnear algebra. Ths paper also explores how to make rankng from the most relevant documents to the most rrelevant documents Keywords: nformaton retreval system, non-nterpolated average precson
. Pendahuluan Informaton retreval (IR) system dgunakan untuk menemukan kembal (retreve) nformas-nformas yang relevan terhadap kebutuhan pengguna dar suatu kumpulan nformas secara otomats. Query Informaton Retreval System Koleks Dokumen. Dokumen. Dokumen. Dokumen Hasl Pencaran Gambar Ilustras nformaton retreval system Salah satu aplkas umum dar IR system adalah search engne atau mesn pencaran yang terdapat pada jarngan nternet. Pengguna dapat mencar halaman-halaman web yang dbutuhkannya melalu search engne. Contoh lan dar IR system adalah sstem nformas perpustakaan. IR system terutama berhubungan dengan pencaran nformas yang snya tdak memlk struktur. Ekspres kebutuhan pengguna yang dsebut query, juga tdak memlk struktur. Hal n yang membedakan IR system dengan sstem bass data. Dokumen adalah contoh nformas yang tdak terstruktur. Is dar suatu dokumen sangat tergantung pada pembuat dokumen tersebut. Sebaga suatu sstem, IR system memlk beberapa bagan yang membangun sstem secara keseluruhan. Bagan-bagan yang terdapat pada suatu IR system dgambarkan pada Gambar
Document Collecton Query Text Operatons Query formulaton. Dokumen. Dokumen. Dokumen.. Text Operatons Indexng Terms Index Rankng Collecton Index Gambar Bagan-bagan nformaton retreval system Gambar memperlhatkan bahwa terdapat dua buah alur operas pada IR system. Alur pertama dmula dar koleks dokumen dan alur kedua dmula dar query pengguna. Alur pertama yatu pemrosesan terhadap koleks dokumen menjad bass data ndeks tdak tergantung pada alur kedua. Sedangkan alur kedua tergantung dar keberadaan bass data ndeks yang dhaslkan pada alur pertama. Bagan-bagan dar IR system menurut gambar melput:. Text Operatons (operas terhadap teks) yang melput pemlhan katakata dalam query maupun dokumen (term selecton) dalam pentransformasan dokumen atau query menjad term ndex (ndeks dar kata-kata).. Query formulaton (formulas terhadap query) yatu member bobot pada ndeks kata-kata query.. Rankng (perangkngan), mencar dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaannya dengan query. 4. Indexng (pengndeksan), membangun bass data ndeks dar koleks dokumen. Dlakukan terlebh dahulu sebelum pencaran dokumen dlakukan.
IR system menerma query dar pengguna, kemudan melakukan perangkngan terhadap dokumen pada koleks berdasarkan kesesuaannya dengan query. Hasl perangkngan yang dberkan kepada pengguna merupakan dokumen yang menurut sstem relevan dengan query. Namun relevans dokumen terhadap suatu query merupakan penlaan pengguna yang subjektf dan dpengaruh banyak faktor sepert topk, pewaktuan, sumber nformas maupun tujuan pengguna. Model IR system menentukan detl IR system yatu melput representas dokumen maupun query, fungs pencaran (retreval functon) dan notas kesesuaan (relevance notaton) dokumen terhadap query. Terdapat beberapa model IR system sepert model boolean dan model ruang vektor. Dalam tulsan n, model ruang vektor dplh karena model ruang vektor mampu menghaslkan dokumen-dokumen terurut berdasarkan kesesuaan dengan query. Dan juga query d dalam model ruang vektor dapat berupa sekumpulan kata-kata dar pengguna dalam ekspres bebas.. Model Ruang Vektor Msalkan terdapat sejumlah n kata yang berbeda sebaga kamus kata (vocabulary) atau ndeks kata (terms ndex). Kata-kata n akan membentuk ruang vektor yang memlk dmens sebesar n. Setap kata dalam dokumen atau query dberkan bobot sebesar w. Bak dokumen maupun query drepresentaskan sebaga vektor berdmens n. Sebaga contoh terdapat buah kata ( T, T dan T ), buah dokumen ( D dan D ) serta sebuah query Q. Masng-masng bernla: D = T + T + 5T ; D = T + 7T + 0T ; Q = 0T + 0T + T Maka representas grafs dar ketga vektor n adalah sepert pada gambar Koleks dokumen drepresentas pula dalam ruang vektor sebaga matrks kata-dokumen (terms-documents matrx). Nla dar elemen matrks w adalah bobot kata dalam dokumen j. j 4
T 5 D + T = T + T 5 Q = 0T + T + 0T T D T + T = T + 7 T 7 Gambar Contoh vektor-vektor D, D, D dan Q Msalkan terdapat sekumpulan kata T sejumlah m, yatu T = T, T,, T ) dan sekumpulan dokumen D sejumlah n, yatu ( m ( D, D,, Dn D = ) serta w j adalah bobot kata pada dokumen j. Maka gambar 4 adalah representas matrks kata-dokumen T T Tm D w w wm D w w wm Dn wn w n wmn Gambar 4 Representas matrks kata-dokumen Penentuan relevans dokumen dengan query dpandang sebaga pengukuran kesamaan (smlarty measure) antara vektor dokumen dengan vektor query. Semakn sama suatu vektor dokumen dengan vektor query maka dokumen dapat dpandang semakn relevan dengan query. Salah satu pengukuran 5
kesesuaan yang bak adalah dengan memperhatkan perbedaan arah (drecton dfference) dar kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometr dapat danggap sebaga sudut yang terbentuk oleh kedua vektor. Gambar 5 menglustraskan kesamaan antara dokumen D dan D dengan query Q. Sudut θ menggambarkan kesamaan dokumen D dengan query sedangkan sudut θ menggambarkan kesamaan dokumen D dengan query. T D θ Q θ T D T Gambar 5 Representas grafs sudut vektor dokumen dan query Jka Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua buah vektor dalam ruang berdmens- n, dan θ adalah sudut yang dbentuk oleh kedua vektor tersebut. Maka Q D = Q D cosθ...() dengan Q D adalah hasl perkalan ttk (dot product) kedua vektor, sedangkan D = n D = n Q = dan Q =...() merupakan norm atau panjang vektor d dalam ruang berdmens- n. Perhtungan kesamaan (Smlarty) kedua vektor adalah sebaga berkut 6
n Q D Sm( Q, D) = cos( Q, D) = = Q D...() Q D Q D = dengan Q D adalah perkalan antara Q dan D. Metode pengukuran kesesuaan n memlk beberapa keuntungan, yatu adanya normalsas terhadap panjang dokumen. Hal n memperkecl pengaruh panjang dokumen. Panjang kedua vektor dgunakan sebaga faktor normalsas. Hal n dperlukan karena dokumen yang panjang cenderung mendapatkan nla yang besar dbandngkan dengan dokumen yang lebh pendek. Proses perangkngan dar dokumen dapat danggap sebaga proses pemlhan (vektor) dokumen yang dekat dengan (vektor) query, kedekatan n dndkaskan dengan sudut yang dbentuk. Nla cosnus yang cenderung besar mengndkaskan bahwa dokumen cenderung sesua query. Nla cosnus sama dengan mengndkaskan bahwa dokumen sesua dengan query.. Pembobotan Kata Bagan sebelumnya membahas mengena metode pengukuran kesesuaan antara dokumen dan query dalam model ruang vektor. Dokumen maupun query drepresentaskan sebaga vektor berdmens- n. Bagan n akan membahas mengena nla dar vektor atau bobot kata dalam dokumen. Salah satu cara untuk member bobot terhadap suatu kata adalah memberkan nla jumlah kemunculan suatu kata (term frequency) sebaga bobot. Semakn besar kemunculan suatu kata dalam dokumen akan memberkan nla kesesuaan yang semakn besar. Faktor lan yang dperhatkan dalam pemberan bobot adalah kejarangmunculan kata (term scarcty) dalam koleks. Kata yang muncul pada sedkt dokumen harus dpandang sebaga kata yang lebh pentng (uncommon terms) darpada kata yang muncul pada banyak dokumen. Pembobotan akan memperhtungkan faktor kebalkan frekuens dokumen yang mengandung suatu kata (nverse document frequency). Hal n merupakan usulan dar George Zpf. Zpf mengamat bahwa frekuens dar sesuatu cenderung kebalkan secara proporsonal dengan urutannya. Faktor terakhrnya adalah faktor normalsas terhadap panjang dokumen. Dokumen dalam koleks dokumen memlk karakterstk panjang yang beragam. Ketmpangan terjad karena dokumen yang panjang akan cenderung mempunya frekuens kemunculan kata yang besar. Sehngga untuk mengurang ketmpangan tersebut dperlukan faktor normalsas dalam pembobotan. 7
Perbedaan antara normalsas pada pembobotan dan perangkngan adalah normalsas pada pembobotan dlakukan terhadap suatu kata dalam suatu dokumen sedangkan pada perangkngan dlakukan terhadap suatu dokumen dalam koleks dokumen. Pembobotan yang danggap palng bak adalah menggunakan persamaan log( tf + = ).0 w...(4) t [log( tf j ) +.0] j= untuk pembobotan kata ( w ) pada dokumen dan menggunakan persamaan (log( tf ) +.0) + log( N ) n q =...(5) t tf j + N [(log( ).0) (log( ))] n j j= untuk pembobotan kata ( q ) pada query. Dengan tf adalah frekuens kemunculan kata, n banyak dokumen yang mengandung kata dan N jumlah dokumen dalam koleks. 4. Kesmpulan Pengguna menggunakan IR system sebaga alat bantu untuk dapat mencar dokumen yang sesua dengan query pengguna. D dalam IR system, terdapat beberapa proses yang harus dlakukan sehngga IR system dapat menamplkan daftar rankng dokumen dar dokumen yang palng relevan dengan query sampa dengan dokumen yang tdak relevan dengan query. Model IR system yang dgunakan dalam tulsan n adalah model ruang vektor. D dalam model ruang vektor, query dan dokumen drepresentaskan sebaga vektor-vektor. Kesesuaan vektor query dengan vektor-vektor dokumen dhtung dengan menggunakan aljabar lner sederhana. 5. Daftar Pustaka Jacob, Bll (990), Lnear Algebra, W.H. Freeman and Company. Karlgren, Juss (998), The Bascs of Informaton Retreval. URL: http://cteseer.nj.nec.com/4685.html Lddy, Elzabeth (00), How a search engne works URL: http://www.nfotoday.com/searcher/may0/lddy.htm Rjsbergen, C.J. van (979), Informaton Retreval, Butterworths, London. Setawan, Hendra (00), Umpan Balk Relevans pada Sstem Temu Kembal Informas, Tugas Akhr Departemen Teknk Informatka ITB. 8