Algortma Umum Pecara Iformas Dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume Hedra Buyam Jurusa Tekk Iformatka Fakultas Tekolog Iformas Uverstas Krste Maraatha Jl. Prof. drg. Sura Sumatr No. 65, Badug 4064 E-mal: hedra.buyam@eg.maraatha.edu Abstract Iformato retreval (IR) system s a system, whch s used to search ad retreve formato relevat to the users eeds. IR system retreves ad dsplays documets that are relevat to the users put (query). The formato retreval system has several steps ad must execute the steps order to obta query results. The steps cosst of two processes. The frst oe s processg query ad the secod oe s processg the documet collecto. Processg query cludes: coduct text operato, query formulato, ad make terms dex for query. Processg the documet collecto cludes: coduct text operato, dexg, ad make collecto dex for documet collecto. Obtag terms dex ad collecto dex, we are able to process terms dex ad collecto dex to obta rakg results. To obta rakg results requres kowledge from basc lear algebra. Ths paper also explores how to make rakg from the most relevat documets to the most rrelevat documets Keywords: formato retreval system, o-terpolated average precso. Pedahulua Iformato retreval (IR) system dguaka utuk meemuka kembal (retreve) formas-formas yag releva terhadap kebutuha peggua dar suatu kumpula formas secara otomats. Query Iformato Retreval System Koleks Dokume. Dokume. Dokume. Dokume Hasl Pecara Gambar 0 Ilustras formato retreval system 85
Jural Iformatka UKM, Vol. I, No., Desember 005: 85-9 Salah satu aplkas umum dar IR system adalah search ege atau mes pecara yag terdapat pada jarga teret. Peggua dapat mecar halama-halama web yag dbutuhkaya melalu search ege. Cotoh la dar IR system adalah sstem formas perpustakaa. IR system terutama berhubuga dega pecara formas yag sya tdak memlk struktur. Ekspres kebutuha peggua yag dsebut query, juga tdak memlk struktur. Hal yag membedaka IR system dega sstem bass data. Dokume adalah cotoh formas yag tdak terstruktur. Is dar suatu dokume sagat tergatug pada pembuat dokume tersebut. Sebaga suatu sstem, IR system memlk beberapa baga yag membagu sstem secara keseluruha. Baga-baga yag terdapat pada IR system dgambarka pada Gambar Documet Collecto Query Text Operatos Query formulato. Dokume. Dokume. Dokume.. Text Operatos Idexg Terms Idex Rakg Collecto Idex Gambar Baga-baga formato retreval system Gambar memperlhatka bahwa terdapat dua buah alur operas pada IR system. Alur pertama dmula dar koleks dokume da alur kedua dmula dar query peggua. Alur pertama yatu pemrosesa terhadap koleks dokume mejad bass data deks tdak tergatug pada alur kedua. Sedagka alur kedua tergatug dar keberadaa bass data deks yag dhaslka pada alur pertama. 86
Algortma Umum Pecara Iformas dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume (Hedra Buyam) Baga-baga dar IR system meurut gambar melput:. Text Operatos (operas terhadap teks) yag melput pemlha kata-kata dalam query maupu dokume (term selecto) dalam petrasformasa dokume atau query mejad term dex (deks dar kata-kata).. Query formulato (formulas terhadap query) yatu member bobot pada deks katakata query.. Rakg (peragkga), mecar dokume-dokume yag releva terhadap query da megurutka dokume tersebut berdasarka kesesuaaya dega query. 4. Idexg (pegdeksa), membagu bass data deks dar koleks dokume. Dlakuka terlebh dahulu sebelum pecara dokume dlakuka. IR system meerma query dar peggua, kemuda melakuka peragkga terhadap dokume pada koleks berdasarka kesesuaaya dega query. Hasl peragkga yag dberka kepada peggua merupaka dokume yag meurut sstem releva dega query. Namu relevas dokume terhadap suatu query merupaka pelaa peggua yag subjektf da dpegaruh bayak faktor sepert topk, pewaktua, sumber formas maupu tujua peggua. Model IR system meetuka detl IR system yatu melput represetas dokume maupu query, fugs pecara (retreval fucto) da otas kesesuaa (relevace otato) dokume terhadap query. Terdapat beberapa model IR system sepert model boolea da model ruag vektor. Dalam tulsa, model ruag vektor dplh karea model ruag vektor mampu meghaslka dokume-dokume terurut berdasarka kesesuaa dega query. Da juga query d dalam model ruag vektor dapat berupa sekumpula kata-kata dar peggua dalam ekspres bebas.. Model Ruag Vektor Msalka terdapat sejumlah kata yag berbeda sebaga kamus kata (vocabulary) atau deks kata (terms dex). Kata-kata aka membetuk ruag vektor yag memlk dmes sebesar. Setap kata dalam dokume atau query dberka bobot sebesar w. Bak dokume maupu query drepresetaska sebaga vektor berdmes. Sebaga cotoh terdapat buah kata ( T, da T ), buah dokume ( da ) serta T D D sebuah query Q. Masg-masg berla: D = T + T + 5T ; D = T + 7T + 0T ; Q = 0T + 0T + T Maka represetas grafs dar ketga vektor adalah sepert pada gambar Koleks dokume drepresetas pula dalam ruag vektor sebaga matrks kata-dokume (terms-documets matrx). Nla dar eleme matrks adalah bobot kata dalam dokume j. w j 87
Jural Iformatka UKM, Vol. I, No., Desember 005: 85-9 T 5 D + T = T + T 5 Q = 0T + T + 0T T D T + T = T + 7 T 7 Gambar Cotoh vektor-vektor D, D, D da Q Msalka terdapat sekumpula kata T sejumlah m, yatu T = T, T, Κ, T ) da ( m D w j sekumpula dokume D sejumlah, yatu D = ( D, D, Κ, ) serta adalah bobot kata pada dokume j. Maka gambar 4 adalah represetas matrks kata-dokume T T Μ Tm D w w Μ wm D w w Μ wm Μ D w w Μ wm Gambar Represetas matrks kata-dokume Peetua relevas dokume dega query dpadag sebaga pegukura kesamaa (smlarty measure) atara vektor dokume dega vektor query. Semak sama suatu 88
Algortma Umum Pecara Iformas dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume (Hedra Buyam) vektor dokume dega vektor query maka dokume dapat dpadag semak releva dega query. Salah satu pegukura kesesuaa yag bak adalah dega memperhatka perbedaa arah (drecto dfferece) dar kedua vektor tersebut. Perbedaa arah kedua vektor dalam geometr dapat daggap sebaga sudut yag terbetuk oleh kedua vektor. Gambar 5 meglustraska kesamaa atara dokume D da D dega query Q. Sudut θ meggambarka kesamaa dokume D dega query sedagka sudut θ meggambarka kesamaa dokume dega query. D T D θ Q θ T D T Gambar 5 Represetas grafs sudut vektor dokume da query Jka Q adalah vektor query da D adalah vektor dokume, yag merupaka dua buah vektor dalam ruag berdmes-, da θ adalah sudut yag dbetuk oleh kedua vektor tersebut. Maka Q D = Q D cosθ...() dega Q D adalah hasl perkala ttk (dot product) kedua vektor, sedagka D = Q = D = da Q =...() merupaka orm atau pajag vektor d dalam ruag berdmes-. Perhtuga kesamaa (Smlarty) kedua vektor adalah sebaga berkut 89
Jural Iformatka UKM, Vol. I, No., Desember 005: 85-9 Q D Sm( Q, D) = cos( Q, D) = = Q D...() Q D Q D D D dega Q adalah perkala atara Q da. Metode pegukura kesesuaa memlk beberapa keutuga, yatu adaya ormalsas terhadap pajag dokume. Hal memperkecl pegaruh pajag dokume. Pajag kedua vektor dguaka sebaga faktor ormalsas. Hal dperluka karea dokume yag pajag cederug medapatka la yag besar dbadgka dega dokume yag lebh pedek. Proses peragkga dar dokume dapat daggap sebaga proses pemlha (vektor) dokume yag dekat dega (vektor) query, kedekata ddkaska dega sudut yag dbetuk. Nla cosus yag cederug besar megdkaska bahwa dokume cederug sesua query. Nla cosus sama dega megdkaska bahwa dokume sesua dega query. =. Pembobota Kata Baga sebelumya membahas megea metode pegukura kesesuaa atara dokume da query dalam model ruag vektor. Dokume maupu query drepresetaska sebaga vektor berdmes-. Baga aka membahas megea la dar vektor atau bobot kata dalam dokume. Salah satu cara utuk member bobot terhadap suatu kata adalah memberka la jumlah kemucula suatu kata (term frequecy) sebaga bobot. Semak besar kemucula suatu kata dalam dokume aka memberka la kesesuaa yag semak besar. Faktor la yag dperhatka dalam pembera bobot adalah kejaragmucula kata (term scarcty) dalam koleks. Kata yag mucul pada sedkt dokume harus dpadag sebaga kata yag lebh petg (ucommo terms) darpada kata yag mucul pada bayak dokume. Pembobota aka memperhtugka faktor kebalka frekues dokume yag megadug suatu kata (verse documet frequecy). Hal merupaka usula dar George Zpf. Zpf megamat bahwa frekues dar sesuatu cederug kebalka secara proporsoal dega urutaya. Faktor terakhrya adalah faktor ormalsas terhadap pajag dokume. Dokume dalam koleks dokume memlk karakterstk pajag yag beragam. Ketmpaga terjad karea dokume yag pajag aka cederug mempuya frekues kemucula kata yag besar. Sehgga utuk megurag ketmpaga tersebut dperluka faktor ormalsas dalam pembobota. Perbedaa atara ormalsas pada pembobota da peragkga adalah ormalsas pada pembobota dlakuka terhadap suatu kata dalam suatu dokume sedagka pada peragkga dlakuka terhadap suatu dokume dalam koleks dokume. Pembobota yag daggap palg bak adalah megguaka persamaa log( tf = ) +.0 w...(4) t [log( tf j ) +.0] j= 90
Algortma Umum Pecara Iformas dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume (Hedra Buyam) utuk pembobota kata ( w ) pada dokume da megguaka persamaa (log( tf ) +.0) + log( N ) q =...(5) t [(log( tf j ) +.0) (log( N ))] j j= q utuk pembobota kata ( ) pada query. Dega tf adalah frekues kemucula kata, bayak dokume yag megadug kata da N jumlah dokume dalam koleks. 4. Kesmpula Peggua megguaka IR system sebaga alat batu utuk dapat mecar dokume yag sesua dega query peggua. D dalam IR system, terdapat beberapa proses yag harus dlakuka sehgga IR system dapat meamplka daftar rakg dokume dar dokume yag palg releva dega query sampa dega dokume yag tdak releva dega query. Model IR system yag dguaka dalam tulsa adalah model ruag vektor. D dalam model ruag vektor, query da dokume drepresetaska sebaga vektor-vektor. Kesesuaa vektor query dega vektor-vektor dokume dhtug dega megguaka aljabar ler sederhaa. Daftar Pustaka [Jac90] Jacob, Bll (990), Lear Algebra, W.H. Freema ad Compay. [Kar98] [Ld0] [Rj79] [Set0] Karlgre, Juss (998), The Bascs of Iformato Retreval. URL: http://cteseer.j.ec.com/4685.html Lddy, Elzabeth (00), How a search ege works URL: http://www.fotoday.com/searcher/may0/lddy.htm Rjsberge, C.J. va (979), Iformato Retreval, Butterworths, Lodo. Setawa, Hedra (00), Umpa Balk Relevas pada Sstem Temu Kembal Iformas, Tugas Akhr Departeme Tekk Iformatka ITB. 9