PENINGKATAN PERFORMANSI SISTEM TEMU BALIK INFORMASI DENGAN METODE PHRASAL TRANSLATION DAN QUERY EXPANSION Ar Wbowo Teknk Multmeda dan Jarngan, Polteknk Neger Batam wbowo@polbatam.ac.d Abstract Development of the Internet as a medum of nformaton very rapdly today. Almost all of 24 hours a day people spend tme at the computer. All ths can not be separated from one branch of scence called the nformatcs behnd nformaton retreval systems (nformaton retreval). Even though most people use the nternet, there are also some people who stll cloud ths ssue. How would someone want to fnd an artcle n another language, but he dd not know or forget the word (n other languages before). In ths case there s a part of nformaton retreval called CLIRS (Cross Lngual Informaton Retreval System) or through the nformaton retreval systems across languages. The system works lke a user enters a word he was lookng for an artcle later mentranslaskannya system and remove these artcles are certanly n a dfferent language. For ths study, CLIRS vewed from several methods, namely, dctonary, phrasal translaton and query expanson. Key Word : CLIRS, query, phrasal 1. PENDAHULUAN Saat n jumlah nformas yang terseda d nternet semakn banyak dan terus menngkat dengan tajam. Informas-nformas tersebut terseda dalam berbaga format, sepert teks, audo, dan vsual. Dengan semakn banyak dan beragamnya nformas yang terseda, kebutuhan pengguna nternet telah bergeser dar arah kuanttatf ke arah kualtatf. Kebutuhan yang semula berupa nformas sebanyak-banyaknya telah bergeser menjad nformas secukupnya asalkan relevan dengan keperluan. Walaupun terseda secara grats dan dalam jumlah banyak, keberadaan mesn pencar (Search Engne) d nternet drasakan mash kurang dar aspek kualtas. Hal n wajar, mengngat hasl pencaran yang dberkan oleh mesn-mesn pencar tersebut serngkal membludak dan kurang relevan. Oleh karena tu, kebutuhan akan suatu mekansme pencaran dokumen yang lebh efektf drasakan semakn mendesak. Indkator yang lazm dpaka untuk menla keakuratan dan kerelevansan hasl pencaran suatu dokumen adalah kesesuaan (press) antara query yang dberkan dan dokumen yang dperoleh. D dalam bdang lmu Sstem Temu Balk Informas (STBI), dkenal berbaga model untuk menla secara obyektf press dar suatu pencaran, antara lan model ruang-vektor (Vector- Space Model) dan model probablstc (Probablstc Model). Penggunaan salah satu model d atas dapat dlhat pada Cross Lngual Informaton Retreval System (CLIRS) atau sstem temu balk nformas lntas bahasa. Jens Informaton Retreval (IR) satu n menggunakan dua atau lebh bahasa sebaga query dan hasl yang ngn ddapat sehngga dapat melhat satu artkel yang artnya bsa berbeda jka dterjemahkan ke dalam bahasa yang berbeda pula. 2. METODE PENELITIAN Metodolog yang dterapkan dalam peneltan n adalah sebaga berkut: 1. Stud Lteratur Eksploras dan stud lteratur dlakukan dengan mempelajar cara kerja phrasal translaton, query expanson, dan CLIRS melalu lteratur lteratur sepert buku (textbook), paper dan sumber lmah lan sepert stus nternet, artkel dokumen teks yang berhubungan. 2. Analss dan Perancangan Perangkat Lunak Analss dan perancangan perangkat lunak dlakukan untuk menentukan permasalahan 37
mengena bahasa pemrograman apa yang dgunakan, struktur data, nput/output dar program, dan permasalahan teknk bagamana algortma akan dmplementaskan. 3. Implementas Program dan Pengujan Performans Detal mengena mplementas program dlakukan sesua hasl analss pada tahap sebelumnya. Pengujan performans phrasal translaton dan query expanson dlakukan dengan membandngkan Non-Interpolated Average Precson (NIAP) dar kedua metode CLIRS tersebut. 4. Analss Hasl dan Penarkan Kesmpulan Analss hasl dlakukan untuk mengetahu performans metode phrasal translaton dan query expanson pada CLIRS tersebut. Jka ternyata performans yang dtamplkan lebh bak, akan dlakukan analss mengapa bsa demkan. Setelah analss hasl selesa, dlakukanlah penarkan kesmpulan terhadap performans metode phrasal translaton dan query expanson. 2.1 Sstem Temu Balk Informas Sstem Temu Balk Informas (Informaton Retreval) adalah lmu mencar nformas dalam suatu dokumen, mencar dokumen tu sendr dan mencar metadata yang menggambarkan suatu dokumen. Sstem Temu Balk Informas merupakan cabang dar lmu komputer terapan (appled computer scence) yang berkonsentras pada representas, penympanan, pengorgansasan, akses dan dstrbus nformas [KAN05]. Dalam sudut pandang pengguna, Sstem Temu Balk Informas membantu pencaran nformas dengan memberkan koleks nformas yang sesua dengan kebutuhan pengguna. 2.2 Sstem Temu Balk Informas Lntas Bahasa Sstem temu balk nformas lntas bahasa atau dalam bahasa Inggrs dnamakan Cross-Lngual Informaton Retreval System (CLIRS) merupakan cabang dar IR yang menangan pemenuhan nformas yang dtulskan dalam bahasa yang berbeda dengan apa yang dmasukkan oleh query user. Msalnya user memasukkan query dalam bahasa Indonesa kemudan sstem mencar dokumen-dokumen yang relevan dalam bahasa Inggrs. Penggunaan CLIRS tu sendr sebenarnya dtekankan untuk seseorang yang msalnya da bsa berbahasa Inggrs namun pasf kemudan da hendak mencar suatu dokumen yang berhubungan dengan kerajaan Inggrs da memasukkan query kerajaan Inggrs lalu sstem me-retreve semua dokumen (dalam bahasal lan) yang memuat query tersebut. Workshop pertama mengena CLIRS dadakan d Zurch ketka konferens SIGIR-96. Hasl dar workshop n bsa dtemukan pada buku Cross- Language Informaton Retreval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X. Kemudan workshop dlakukan secara rutn sejak tahun 2000 pada pertemuan Cross Language Evaluaton Forum (CLEF). Term "cross-language nformaton retreval" mempunya banyak snonm, basanya yang serng dgunakan adalah : cross-lngual nformaton retreval, translngual nformaton retreval, multlngual nformaton retreval. Term "multlngual nformaton retreval" bsa dartkan CLIR pada umumnya, namun juga memlk makna yang spesfk dalam sstem temu balk nformas lntas bahasa dmana dokumen koleksnya multlngual. 2.3 Phrasal Translaton Gagal dalam mentranslaskan konsep multterm sebaga frase sangat mengurang keefektfan dar dctonary translaton. Pada ekspermen d mana frase query dtranslas secara manual [BC96], performans menngkat sebanyak 25% melebh automatc word-by-word (WBW) translas query. Ada hpotess yang mengatakan bahwa cara n secara otomats mengndentfkas frase dan mendefnskannya sepert WBW dapat menngkatkan keefektfan. Phrasal translaton berbasskan bass data frase dan kata yang telah ddefnskan terlebh dahulu. Ketka frase dtranslaskanm bass data mencar frase dalam bahasa Inggrs. Jka ketemu maka mengeluarkan art kata dalam bahasa Indonesa yang berbentuk frase juga. Jka lebh dar satu yang dtemukan maka dtambahkan ke query. 2.4 Model Probablstk Menurut [DIK02], model adalah pola (contoh, acuan, ragam) dar sesuatu yang akan dbuat atau dhaslkan. Selan tu, model secara lmah dapat dartkan sebaga dealsas atau abstraks 38
dar proses yang sebenarnya. Kesmpulan yang dambl berdasarkan suatu model akan sangat tergantung dar kesesuaan model tersebut dengan keadaan sebenarnya. Model dalam Sstem Temu Balk Informas dpaka untuk menentukan detal dar sstem, yatu bagamana merepresentaskan dokumen dan query, melakukan pencaran, dan notas kesesuaan antara dokumen dan query[kan05]. Dalam model probablstk, notas yang lazm dpaka untuk merepresentaskan kerelevansan suatu dokumen adalah P (X ) dan P ( X Y). P (X ) adalah notas untuk kemungknan X, sementara P ( X Y) adalah notas untuk kemungknan X, jka dberkan Y. Salah satu mplementas model probablstk yang sangat populer dan lazm dpaka adalah Bnary Independence Retreval Model (BIR). Dalam BIR, sama sepert model probablstk lannya, sstem akan mencar probabltas suatu dokumen d m relevan terhadap query q k. Notas yang dpaka bag nla probabltasnya adalah [RIJ79] P ( R q k, d m ). Karena model probablstk mengasumskan bahwa setap dokumen ddeskrpskan lewat ada atau tdak ada -nya term ndeks, maka dokumen dapat drepresentaskan menjad vektor bner. Secara matemats [RIJ79]: x x, x,... x )... (2.1) ( 1 2 n 1 Dmana x 0 jka term ndeks tdak terdapat d dalam dokumen tersebut dan x 1 1 jka term ndeks ada d dalam dokumen tersebut. Dengan demkan, dokumen juga dapat drepresentaskan dengan notas d 1 dan d 2. d 1 = Dokumen adalah relevan d 2 = Dokumen yang tdak relevan Karena sfatnya yang bner, maka persamaan [RIJ79]: P ( d1 x) d 2 x) 1... (2.2) harus terpenuh. Untuk memperoleh rumus yang tepat bag penghtungan probabltas, model probablstk mengaplkaskan dua jens transformas [FUH92]: 1. Teorema Bayes, dalam bentuk a) a b) b a)...... (2.3) b) 2. Penggunaan faktor O, yatu O( b a)..(2.4) (1 ) Dalam model probablstk, smlarty dhtung berdasarkan faktor O antara query yang menghaslkan dokumen relevan dengan query yang menghaslkan dokumen yang tdak relevan [FUH92]. 1. Query yang menghaslkan dokumen relevan [FUH92]: P O( p) x 1 R).(2.5) 1 P 2. Query yang menghaslkan dokumen tdak relevan [FUH92]: r O( r) x 1 R).(2.6) 1 r 3. Sehngga smlarty (dalam bentuk logartma) adalah [FUH92]: p (1 r ) S log.. (2.7) r (1 p ) Semakn besar nla probabltas bahwa S, semakn besar pula d relevan terhadap query m qk. Prnsp nlah yang dpaka dalam Probablty Rankng Prncple (PRP) dalam pengurutan dokumen. 3. ANALISIS PERANCANGAN 3.1 Analss Kebutuhan Perangkat Lunak Dalam peneltan n, akan dbangun sebuah perangkat lunak Sstem Temu Balk Informas Lntas Bahasa (Indonesa - Inggrs) yang mengmplementaskan metode phrasal translaton dan query expanson. Analss kebutuhan perangkat lunak terdr dar spesfkas kebutuhan perangkat lunak, tujuan pengembangan perangkat lunak dan analss use case. Perancangan perangkat lunak terdr dar batasan perancangan perangkat lunak, perancangan arstektur perangkat lunak, class dagram, sequence dagram dan perancangan antarmuka perangkat lunak. Perangkat lunak yang dbangun nantnya dharapkan mampu mengmplementaskan fungsfungs berkut: 1. Melakukan dentfkas frase dar dokumen dan query 39
2. Melakukan translas ke bahasa Inggrs dar query yang dmasukkan. 3. Melakukan pengndeksan terhadap dokumen dan query. 4. Melakukan pencaran dokumen yang relevan dengan query. 5. Melakukan pengurutan perngkat dokumen hasl pencaran. 6. Melakukan pengndeksan ulang jka adanya kata tambahan yang dmasukkan sesua perngkat dokumen. 7. Menghtung nla Non-Interpolated Average Precson untuk menla performans sstem. Gambar 1 Use Case Dagram 3.2 Dagram Kelas Perancangan kelas perangkat lunak mengacu pada hasl analss kelas potensal pada Tabel III- 2. Hasl perancangan kelas tersebut dtuangkan dalam Gambar III-3 berkut: Keterangan mengena kelas-kelas d atas adalah sebaga berkut: 1. Interface Kelas antarmuka, memlk satu atrbut saja, yatu ntrface. Kelas n menangan operas yang berkatan dengan tamplan. 2. Dokumen Kelas n mempunya atrbut Nama, Ukuran, sindexed, dan Frase. Kelas n menangan operas-operas berkatan dengan dokumen, sepert pengndeksan dan penghlangan stopwords. 3. Query Kelas n memlk atrbut sindexed, dan Frase. Kelas n menangan operas-operas berkatan dengan query, sepert pengndeksan, translas dan penghlangan stopwords. 4. Frase Kelas n memlk atrbut Pembentuk, dan Length.Kelas n menangan operasoperas berkatan dengan frase, sepert kata pembentuk, dan length. Kelas n dhaslkan dar kelas dokumen dan query. 5. Relevant Judgement Kelas bawaan sstem. Kelas n merupakan kelas yang berfungs untuk membandngkan perhtungan sstem dengan bass data yang telah ddefnskan terlebh dahulu. Mempunya beberapa operas yatu kalkulas performans dan perbandngan perhtungan smlarty. 3.3 Perancangan Antarmuka Perangkat Lunak Rancangan layar utama pada perangkat lunak dperlhatkan pada gambar III-10. Tampak ada sebuah kotak (textbox) untuk memasukkan query yang kemudan akan dtranslaskan dengan mengklk button CARI. D kr bawah adalah kotak yang nantnya berskan kata setelah translas, bobotnya, dokumen-dokumen yang dhaslkan dan nla smlartas yang ddapat setelah perhtungan. D kanan bawah ada kotak yang nantnya berskan ekspans kata dar query dar dokumen-dokumen yang memuat kata-kata sesua query. Gambar 2 Kelas Dagram 40
Gambar 3 Rancangan Antarmuka 4. HASIL DAN PEMBAHASAN 4.1 Batasan Pengujan Batasan pengujan perangkat lunak adalah sebaga berkut: 1. Mnmal kata pada frase adalah 2 kata dan maksmal 3 kata. Pembatasan n dlakukan karena ada beberapa query yang hanya memlk panjang 2 kata. 2. Pengujan doman frase tdak dperhtungkan, karena sama sekal tdak mempengaruh hasl NIAP. 3. Pengujan untuk query expanson hanya dapat dlakukan jka query awal sudah dcoba terlebh dahulu. 4. Maksmal panjang query adalah 60 kata dan sebaknya hndar penggunaan stopwords untuk hasl yang lebh maksmal. 5. Maksmal waktu eksekus query adalah 60 detk dan jka lebh dar tu sstem akan hang. Pelaksanaan Pengujan 1. Pengujan dlakukan dengan melakukan pencaran dokumen yang sesua dengan query yang ada dalam koleks 2. Jumlah dokumen yang hasl pencaran yang dtamplkan adalah 10 perngkat teratas 3. Perhtungan rata-rata bobot dlakukan terhadap 50 query yang telah terdefns terlebh dahulu Hasl Pengujan Tabel 1 Hasl Pengujan Query Query Worb By Frase Query Word Expanson 1 0.036 0.024 0.040 Query Worb By Frase Query Word Expanson 2 0.096 0 0.200 3 0.048 0 0.061 4 0.040 0 0.080 5 0.125 0 0.232 6 0.072 0 0.158 7 0.058 0 0.078 8 0.204 0.335 0.282 9 0.032 0 0,282 10 0.067 0.005 0.075 11 0.020 0.041 0.043 12 0.155 0 0.195 13 0.468 0 0.468 14 0.079 0.019 0.081 15 0.034 0.151 0.042 16 0.090 0.029 0.095 17 0.050 0 0.050 18 0.030 0.089 0.194 19 0.194 0 0.330 20 0.755 0 0.755 21 0.041 0.095 0.061 22 0.109 0 0.138 23 0.125 0 0.128 24 0.058 0.005 0.061 25 0.031 0 0.032 26 0.072 0 0.139 27 0.021 0 0.021 28 0.053 0 0.064 29 0.085 0 0.096 30 0.091 0.200 0.125 31 0.229 0 0.256 32 0.127 0 0.133 33 0.014 0.077 0.018 34 0.132 0.005 0.135 35 0.144 0 0.189 36 0.051 0.031 0.061 37 0.100 0.007 0.101 38 0.130 0.119 0.145 39 0.117 0 0.153 40 0.037 0.040 0.050 41 0.030 0.033 0.035 42 0.063 0.040 0.086 43 0.026 0 0.026 44 0.159 0.007 0.303 45 0.069 0.064 0.116 46 0.089 0.021 0.094 47 0.050 0 0.050 48 0.088 0.048 0.088 49 0.068 0 0.064 50 0.068 0 0.096 Rata-rata 0.09471 0.0345 0.118953 4.2 Pengujan dengan Membandngkan Nla Performans antara Frase Dua dan Tga Pengujan n dlakukan untuk membandngkan nla NIAP dar frase yang terdr dar dua dan tga kata. Nla n dperoleh dengan menggunakan aplkas lan dluar CLIRS yang dkembangkan secara bersamaan. Adapun nla yang dbandngkan adalah frase dua dan tga kata dalam bahasa Inggrs dan frase dua dan tga kata setelah dlakukannya translas. 41
Pelaksanaan Pengujan 1. Pengujan dlakukan dengan menghtung nla NIAP sesua dokumen relevan yang dhaslkan 2. Frase dbag menjad 2 dan 3 kata kemudan dlakukan translas untuk query bahasa Indonesa 3. Jumlah dan letak dokumen relevan telah terdefns terlebh dahulu pada relevant judgement yang dberkan Hasl Pengujan Tabel 2 - Perbandngan Nla NIAP antara Frase Dua dan Tga Frase 2 (translas) Frase 2 (Inggrs) Frase 3 (translas) Frase 3 (Inggrs) 0.10224980 0.1144563 0.112087 0. 126129 4.3 Analss Hasl Pengujan Berdasarkan Tabel 1 dapat dlhat dar 50 query yang dgunakan untuk pengujan bahwa hampr semua nla melalu metode query expanson mendapatkan hasl yang lebh bak darpada kata per kata. Sebalknya, tdak semua query melalu metode phrasal translaton mendapatkan nla yang lebh bak dar kata per kata. Sepertnya kamu yang dgunakan belum terlalu lengkap sehngga banyak kata tdak dartkan secara frase pada sstem tersebut. Selan tu, karena koleks dokumen yang terlalu banyak, sstem hanya menggunakan 10 dokumen teratas saja untuk perhtungan (namun n bukan menjad penyebab utama mengapa nla frase lebh kecl). Dar nla rata-rata bobot masng-masng metode dapat dambl kesmpulan bahwa metode query expanson merupakan metode terbak dalam hal penngkatan bobot query dsusul kata per kata dan frase. Pada Tabel 2 yatu perbandngan nla NIAP antara frase dua dan tga kata terlhat bahwasanya untuk frase tga kata memlk nla yang lebh bak. Melalu nla n, ddapat bahwa untuk sebuah query akankah lebh bak jka kata yang ngn dlakukan pencaran adalah lebh dar satu kata. Hal n dmaksudkan agar dokumen yang dhaslkan akan lebh akurat dan relevan. Sepert paragraf d atas, yatu untuk pencaran memang bahasa asl lebh akurat darpada setelah dlakukan translas. 5. KESIMPULAN 1. Identfkas frase akan memberkan hasl yang lebh bak jka kamus kata yang dmlk lebh lengkap. 2. Ekspans query sangat efektf untuk mendapatkan dokumen yang sesua karena memlk nla keakuratan yang tertngg. 3. Nla performans dar sstem dengan translas frase lebh tngg dar sstem dengan translas kata per kata. 4. Nla performans dar frase tga kata lebh bak dar frase dua kata bak setelah translas maupun sebelum. 5. Performans asal tanpa translas selalu lebh bak darpada setelah dlakukan translas bak kata per kata maupun frase. 6. SARAN 1. Term ndeks sebaknya langsung dbuat dluar sstem namun yang dapat merangkum koleks dokumen yang lebh banyak. 2. Untuk peneltan berkutnya, sebaknya koleks dokumen yang sudah ada dtambahkan dengan dokumen-dokumen baru dengan tema yang lebh ambgu. Hal n dmaksudkan untuk menguj lebh lanjut performans yang dberkan oleh model probablstas. 7. DAFTAR PUSTAKA [1] Ballesteros, L. & Croft, B. (1996). "Dctonary methods for cross-lngual nformaton retreval". In: Database and Expert Systems Applcatons. 7th Internatonal Conference, DEXA '96 Proceedngs. Sprnger-Verlag Berln, Germany. [2] Ballesteros, L. & Croft, W. B. (1997). "Phrasal translaton and query expanson technques for cross-language nformaton retreval". In: Proceedngs of the 20th annual nternatonal ACM SIGIR conference on Research and development n nformaton retreval, pp. 84-91. Assocaton for Computng Machnery. 42
[3] Ballesteros, L. & Croft, W. B. (1998). "Resolvng ambguty for cross-language retreval". In: Proceedngs of the 21st Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval. Assocaton for Computng Machnery. [4] Document Retreval: An Examnaton of Syntactc and Non-Syntactc Methods. Cornel Unversty [5] Fuhr, Norbert. 1992. Probablstc Models n Informaton Retreval. Computer Journal 43