PENINGKATAN PERFORMANSI SISTEM TEMU BALIK INFORMASI DENGAN METODE PHRASAL TRANSLATION DAN QUERY EXPANSION



dokumen-dokumen yang mirip
BAB I PENDAHULUAN I-1

BAB 4 METODOLOGI PENELITIAN DAN ANALISIS

BAB III METODOLOGI PENELITIAN

PROPOSAL SKRIPSI JUDUL:

ALGORITMA UMUM PENCARIAN INFORMASI DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN. Metode yang digunakan dalam penelitian ini adalah metode eksperimen

BAB 1 PENDAHULUAN. Pertumbuhan dan kestabilan ekonomi, adalah dua syarat penting bagi kemakmuran

BAB III METODE PENELITIAN. Sebelum dilakukan penelitian, langkah pertama yang harus dilakukan oleh

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB III METODOLOGI PENELITIAN. Jenis penelitian yang digunakan adalah penelitian pengembangan yang

BAB III HIPOTESIS DAN METODOLOGI PENELITIAN

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMP Negeri 13 Bandar Lampung. Populasi dalam

BAB IV PEMBAHASAN HASIL PENELITIAN PENGARUH PENGGUNAAN METODE GALLERY WALK

Bab 1 PENDAHULUAN Latar Belakang

BAB IV PEMBAHASAN MODEL

BAB III METODE PENELITIAN. sebuah fenomena atau suatu kejadian yang diteliti. Ciri-ciri metode deskriptif menurut Surakhmad W (1998:140) adalah

III. METODE PENELITIAN

ANALISIS SENTIMEN PENGGUNA JEJARING SOSIAL MENGGUNAKAN METODE SUPPORT VECTOR MACHINE

BAB 2 TINJAUAN PUSTAKA

IV. HASIL DAN PEMBAHASAN

III. METODE PENELITIAN. Penelitian ini dilakukan di MTs Negeri 2 Bandar Lampung dengan populasi siswa

BAB III METODE PENELITIAN

III. METODE PENELITIAN. Penelitian ini merupakan studi eksperimen yang telah dilaksanakan di SMA

BAB I PENDAHULUAN. Semakin tinggi penerimaan Pajak di Indonesia, semakin tinggi pula kualitas

IV. PERANCANGAN DAN IMPLEMENTASI SISTEM

BAB III METODE PENELITIAN. Penelitian ini merupakan penelitian yang bertujuan untuk mendeskripsikan

Bab III Analisis dan Rancangan Sistem Kompresi Kalimat

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMP Al-Azhar 3 Bandar Lampung yang terletak di

Bab III Analisis Rantai Markov

BAB II LANDASAN TEORI

ANALISIS DATA KATEGORIK (STK351)

IV. UKURAN SIMPANGAN, DISPERSI & VARIASI

BAB II METODOLOGI PENELITIAN. Jenis penelitian yang digunakan dalam penelitian ini adalah penelitian. variable independen dengan variabel dependen.

Didownload dari ririez.blog.uns.ac.id BAB I PENDAHULUAN

III. METODE PENELITIAN. Metode dalam penelitian ini adalah metode eksperimen. Penggunaan metode eksperimen ini

RANGKAIAN SERI. 1. Pendahuluan

BAB III METODE PENELITIAN. yang digunakan meliputi: (1) PDRB Kota Dumai (tahun ) dan PDRB

BAB III METODE PENELITIAN. Pada penelitian ini, penulis memilih lokasi di SMA Negeri 1 Boliyohuto khususnya

BAB III METODE PENELITIAN. menghasilkan Lembar Kegiatan Siswa (LKS) pada materi Geometri dengan

METODE PENELITIAN. digunakan untuk mengetahui bagaimana pengaruh variabel X (celebrity

SISTEM PENDUKUNG KEPUTUSAN PENILAIAN KINERJA DAN PEMILIHAN MITRA BADAN PUSAT STATISTIK (BPS) KABUPATEN GUNUNGKIDUL MENGGUNAKAN METODE SAW BERBASIS WEB

BAB IV PERHITUNGAN DAN ANALISIS

BAB VB PERSEPTRON & CONTOH

BAB III METODE PENELITIAN. pembelajaran berupa RPP dan LKS dengan pendekatan berbasis masalah ini

BAB 1 PENDAHULUAN. 1.1 Latar belakang

BAB III METODE PENELITIAN. SMK Negeri I Gorontalo. Penetapan lokasi tersebut berdasarkan pada

BAB III METODELOGI PENELITIAN. metode penelitian yang digunakan dalam penelitian ini adalah metode deskriptif

BAB III METODE PENELITIAN. berjumlah empat kelas terdiri dari 131 siswa. Sampel penelitian ini terdiri dari satu kelas yang diambil dengan

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

UJI NORMALITAS X 2. Z p i O i E i (p i x N) Interval SD

BAB I PENDAHULUAN. 1.1 Latar Belakang

Teori Himpunan. Modul 1 PENDAHULUAN. impunan sebagai koleksi (pengelompokan) dari objek-objek yang

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI

BAB III METODE PENELITIAN. Metode penelitian yang digunakan dalam penelitian ini adalah metode

BAB 2 LANDASAN TEORI. estimasi, uji keberartian regresi, analisa korelasi dan uji koefisien regresi.

BAB 2 LANDASAN TEORI

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

BAB.3 METODOLOGI PENELITIN 3.1 Lokasi dan Waktu Penelitian Penelitian ini di laksanakan di Sekolah Menengah Pertama (SMP) N. 1 Gorontalo pada kelas

BAB III METODE PENELITIAN. Jenis penelitian yang akan digunakan dalam penelitian ini adalah

BAB IV PEMBAHASAN HASIL PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN. Karangkajen, Madrasah Tsanawiyah Mu'allimaat Muhammadiyah Yogyakarta,

BAB 2 LANDASAN TEORI

PENDAHULUAN TINJAUAN PUSTAKA

BAB III OBYEK DAN METODE PENELITIAN. Obyek dalam penelitian ini adalah kebijakan dividen sebagai variabel

III. METODE PENELITIAN. bersifat statistik dengan tujuan menguji hipotesis yang telah ditetapkan.

SISTEM PENDUKUNG KEPUTUSAN PEMBELIAN PERANGKAT KOMPUTER DENGAN METODE TOPSIS (Studi Kasus: CV. Triad)

TINJAUAN PUSTAKA. Node. Edge. Gambar 1 Directed Acyclic Graph

BAB 2 KAJIAN PUSTAKA

BAB III METODE PENELITIAN. problems. Cresswell (2012: 533) beranggapan bahwa dengan

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

Tinjauan Algoritma Genetika Pada Permasalahan Himpunan Hitting Minimal

IMPLEMENTASI TEOREMA BAYES UNTUK MENGANALISA KERUSAKAN PADA AIR CONDITIONER RUANGAN BERBASIS ANDROID I Putu Warma Putra

III. METODE PENELITIAN. Penelitian ini merupakan studi eksperimen dengan populasi penelitian yaitu

ANALISIS REGRESI. Catatan Freddy

ε adalah error random yang diasumsikan independen, m X ) adalah fungsi

BAB 4 METODOLOGI PENELITIAN. data, dan teknik analisis data. Kerangka pemikiran hipotesis membahas hipotesis

BAB I PENDAHULUAN. 1.1 Latar Belakang

IMAGE CLUSTER BERDASARKAN WARNA UNTUK IDENTIFIKASI KEMATANGAN BUAH TOMAT DENGAN METODE VALLEY TRACING

BAB III METODE PENELITIAN. Jenis penelitian yang dipakai adalah penelitian kuantitatif, dengan

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. pembangunan dalam sektor energi wajib dilaksanakan secara sebaik-baiknya. Jika

BAB III METODE PENELITIAN. Adapun yang menjadi objek penelitian adalah siswa MAN Model Gorontalo.

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SD Al-Azhar 1 Wayhalim Bandar Lampung. Populasi

PERTEMUAN I PENGENALAN STATISTIKA TUJUAN PRAKTIKUM

PENGEMBANGAN MODEL PERSEDIAAN DENGAN MEMPERTIMBANGKAN WAKTU KADALUARSA BAHAN DAN FAKTOR INCREMENTAL DISCOUNT

PENENTUAN LOKASI PEMANCAR TELEVISI MENGGUNAKAN FUZZY MULTI CRITERIA DECISION MAKING

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

III. METODE PENELITIAN. Penelitian ini merupakan penelitian pengembangan (Research and

Kecocokan Distribusi Normal Menggunakan Plot Persentil-Persentil yang Distandarisasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV METODE PENELITIAN. Penelitian mengenai Analisis Pengaruh Kupedes Terhadap Performance

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. dan. 0. Uji fungsi distribusi empiris yang populer, yaitu uji. distribusi nol

Transkripsi:

PENINGKATAN PERFORMANSI SISTEM TEMU BALIK INFORMASI DENGAN METODE PHRASAL TRANSLATION DAN QUERY EXPANSION Ar Wbowo Teknk Multmeda dan Jarngan, Polteknk Neger Batam wbowo@polbatam.ac.d Abstract Development of the Internet as a medum of nformaton very rapdly today. Almost all of 24 hours a day people spend tme at the computer. All ths can not be separated from one branch of scence called the nformatcs behnd nformaton retreval systems (nformaton retreval). Even though most people use the nternet, there are also some people who stll cloud ths ssue. How would someone want to fnd an artcle n another language, but he dd not know or forget the word (n other languages before). In ths case there s a part of nformaton retreval called CLIRS (Cross Lngual Informaton Retreval System) or through the nformaton retreval systems across languages. The system works lke a user enters a word he was lookng for an artcle later mentranslaskannya system and remove these artcles are certanly n a dfferent language. For ths study, CLIRS vewed from several methods, namely, dctonary, phrasal translaton and query expanson. Key Word : CLIRS, query, phrasal 1. PENDAHULUAN Saat n jumlah nformas yang terseda d nternet semakn banyak dan terus menngkat dengan tajam. Informas-nformas tersebut terseda dalam berbaga format, sepert teks, audo, dan vsual. Dengan semakn banyak dan beragamnya nformas yang terseda, kebutuhan pengguna nternet telah bergeser dar arah kuanttatf ke arah kualtatf. Kebutuhan yang semula berupa nformas sebanyak-banyaknya telah bergeser menjad nformas secukupnya asalkan relevan dengan keperluan. Walaupun terseda secara grats dan dalam jumlah banyak, keberadaan mesn pencar (Search Engne) d nternet drasakan mash kurang dar aspek kualtas. Hal n wajar, mengngat hasl pencaran yang dberkan oleh mesn-mesn pencar tersebut serngkal membludak dan kurang relevan. Oleh karena tu, kebutuhan akan suatu mekansme pencaran dokumen yang lebh efektf drasakan semakn mendesak. Indkator yang lazm dpaka untuk menla keakuratan dan kerelevansan hasl pencaran suatu dokumen adalah kesesuaan (press) antara query yang dberkan dan dokumen yang dperoleh. D dalam bdang lmu Sstem Temu Balk Informas (STBI), dkenal berbaga model untuk menla secara obyektf press dar suatu pencaran, antara lan model ruang-vektor (Vector- Space Model) dan model probablstc (Probablstc Model). Penggunaan salah satu model d atas dapat dlhat pada Cross Lngual Informaton Retreval System (CLIRS) atau sstem temu balk nformas lntas bahasa. Jens Informaton Retreval (IR) satu n menggunakan dua atau lebh bahasa sebaga query dan hasl yang ngn ddapat sehngga dapat melhat satu artkel yang artnya bsa berbeda jka dterjemahkan ke dalam bahasa yang berbeda pula. 2. METODE PENELITIAN Metodolog yang dterapkan dalam peneltan n adalah sebaga berkut: 1. Stud Lteratur Eksploras dan stud lteratur dlakukan dengan mempelajar cara kerja phrasal translaton, query expanson, dan CLIRS melalu lteratur lteratur sepert buku (textbook), paper dan sumber lmah lan sepert stus nternet, artkel dokumen teks yang berhubungan. 2. Analss dan Perancangan Perangkat Lunak Analss dan perancangan perangkat lunak dlakukan untuk menentukan permasalahan 37

mengena bahasa pemrograman apa yang dgunakan, struktur data, nput/output dar program, dan permasalahan teknk bagamana algortma akan dmplementaskan. 3. Implementas Program dan Pengujan Performans Detal mengena mplementas program dlakukan sesua hasl analss pada tahap sebelumnya. Pengujan performans phrasal translaton dan query expanson dlakukan dengan membandngkan Non-Interpolated Average Precson (NIAP) dar kedua metode CLIRS tersebut. 4. Analss Hasl dan Penarkan Kesmpulan Analss hasl dlakukan untuk mengetahu performans metode phrasal translaton dan query expanson pada CLIRS tersebut. Jka ternyata performans yang dtamplkan lebh bak, akan dlakukan analss mengapa bsa demkan. Setelah analss hasl selesa, dlakukanlah penarkan kesmpulan terhadap performans metode phrasal translaton dan query expanson. 2.1 Sstem Temu Balk Informas Sstem Temu Balk Informas (Informaton Retreval) adalah lmu mencar nformas dalam suatu dokumen, mencar dokumen tu sendr dan mencar metadata yang menggambarkan suatu dokumen. Sstem Temu Balk Informas merupakan cabang dar lmu komputer terapan (appled computer scence) yang berkonsentras pada representas, penympanan, pengorgansasan, akses dan dstrbus nformas [KAN05]. Dalam sudut pandang pengguna, Sstem Temu Balk Informas membantu pencaran nformas dengan memberkan koleks nformas yang sesua dengan kebutuhan pengguna. 2.2 Sstem Temu Balk Informas Lntas Bahasa Sstem temu balk nformas lntas bahasa atau dalam bahasa Inggrs dnamakan Cross-Lngual Informaton Retreval System (CLIRS) merupakan cabang dar IR yang menangan pemenuhan nformas yang dtulskan dalam bahasa yang berbeda dengan apa yang dmasukkan oleh query user. Msalnya user memasukkan query dalam bahasa Indonesa kemudan sstem mencar dokumen-dokumen yang relevan dalam bahasa Inggrs. Penggunaan CLIRS tu sendr sebenarnya dtekankan untuk seseorang yang msalnya da bsa berbahasa Inggrs namun pasf kemudan da hendak mencar suatu dokumen yang berhubungan dengan kerajaan Inggrs da memasukkan query kerajaan Inggrs lalu sstem me-retreve semua dokumen (dalam bahasal lan) yang memuat query tersebut. Workshop pertama mengena CLIRS dadakan d Zurch ketka konferens SIGIR-96. Hasl dar workshop n bsa dtemukan pada buku Cross- Language Informaton Retreval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X. Kemudan workshop dlakukan secara rutn sejak tahun 2000 pada pertemuan Cross Language Evaluaton Forum (CLEF). Term "cross-language nformaton retreval" mempunya banyak snonm, basanya yang serng dgunakan adalah : cross-lngual nformaton retreval, translngual nformaton retreval, multlngual nformaton retreval. Term "multlngual nformaton retreval" bsa dartkan CLIR pada umumnya, namun juga memlk makna yang spesfk dalam sstem temu balk nformas lntas bahasa dmana dokumen koleksnya multlngual. 2.3 Phrasal Translaton Gagal dalam mentranslaskan konsep multterm sebaga frase sangat mengurang keefektfan dar dctonary translaton. Pada ekspermen d mana frase query dtranslas secara manual [BC96], performans menngkat sebanyak 25% melebh automatc word-by-word (WBW) translas query. Ada hpotess yang mengatakan bahwa cara n secara otomats mengndentfkas frase dan mendefnskannya sepert WBW dapat menngkatkan keefektfan. Phrasal translaton berbasskan bass data frase dan kata yang telah ddefnskan terlebh dahulu. Ketka frase dtranslaskanm bass data mencar frase dalam bahasa Inggrs. Jka ketemu maka mengeluarkan art kata dalam bahasa Indonesa yang berbentuk frase juga. Jka lebh dar satu yang dtemukan maka dtambahkan ke query. 2.4 Model Probablstk Menurut [DIK02], model adalah pola (contoh, acuan, ragam) dar sesuatu yang akan dbuat atau dhaslkan. Selan tu, model secara lmah dapat dartkan sebaga dealsas atau abstraks 38

dar proses yang sebenarnya. Kesmpulan yang dambl berdasarkan suatu model akan sangat tergantung dar kesesuaan model tersebut dengan keadaan sebenarnya. Model dalam Sstem Temu Balk Informas dpaka untuk menentukan detal dar sstem, yatu bagamana merepresentaskan dokumen dan query, melakukan pencaran, dan notas kesesuaan antara dokumen dan query[kan05]. Dalam model probablstk, notas yang lazm dpaka untuk merepresentaskan kerelevansan suatu dokumen adalah P (X ) dan P ( X Y). P (X ) adalah notas untuk kemungknan X, sementara P ( X Y) adalah notas untuk kemungknan X, jka dberkan Y. Salah satu mplementas model probablstk yang sangat populer dan lazm dpaka adalah Bnary Independence Retreval Model (BIR). Dalam BIR, sama sepert model probablstk lannya, sstem akan mencar probabltas suatu dokumen d m relevan terhadap query q k. Notas yang dpaka bag nla probabltasnya adalah [RIJ79] P ( R q k, d m ). Karena model probablstk mengasumskan bahwa setap dokumen ddeskrpskan lewat ada atau tdak ada -nya term ndeks, maka dokumen dapat drepresentaskan menjad vektor bner. Secara matemats [RIJ79]: x x, x,... x )... (2.1) ( 1 2 n 1 Dmana x 0 jka term ndeks tdak terdapat d dalam dokumen tersebut dan x 1 1 jka term ndeks ada d dalam dokumen tersebut. Dengan demkan, dokumen juga dapat drepresentaskan dengan notas d 1 dan d 2. d 1 = Dokumen adalah relevan d 2 = Dokumen yang tdak relevan Karena sfatnya yang bner, maka persamaan [RIJ79]: P ( d1 x) d 2 x) 1... (2.2) harus terpenuh. Untuk memperoleh rumus yang tepat bag penghtungan probabltas, model probablstk mengaplkaskan dua jens transformas [FUH92]: 1. Teorema Bayes, dalam bentuk a) a b) b a)...... (2.3) b) 2. Penggunaan faktor O, yatu O( b a)..(2.4) (1 ) Dalam model probablstk, smlarty dhtung berdasarkan faktor O antara query yang menghaslkan dokumen relevan dengan query yang menghaslkan dokumen yang tdak relevan [FUH92]. 1. Query yang menghaslkan dokumen relevan [FUH92]: P O( p) x 1 R).(2.5) 1 P 2. Query yang menghaslkan dokumen tdak relevan [FUH92]: r O( r) x 1 R).(2.6) 1 r 3. Sehngga smlarty (dalam bentuk logartma) adalah [FUH92]: p (1 r ) S log.. (2.7) r (1 p ) Semakn besar nla probabltas bahwa S, semakn besar pula d relevan terhadap query m qk. Prnsp nlah yang dpaka dalam Probablty Rankng Prncple (PRP) dalam pengurutan dokumen. 3. ANALISIS PERANCANGAN 3.1 Analss Kebutuhan Perangkat Lunak Dalam peneltan n, akan dbangun sebuah perangkat lunak Sstem Temu Balk Informas Lntas Bahasa (Indonesa - Inggrs) yang mengmplementaskan metode phrasal translaton dan query expanson. Analss kebutuhan perangkat lunak terdr dar spesfkas kebutuhan perangkat lunak, tujuan pengembangan perangkat lunak dan analss use case. Perancangan perangkat lunak terdr dar batasan perancangan perangkat lunak, perancangan arstektur perangkat lunak, class dagram, sequence dagram dan perancangan antarmuka perangkat lunak. Perangkat lunak yang dbangun nantnya dharapkan mampu mengmplementaskan fungsfungs berkut: 1. Melakukan dentfkas frase dar dokumen dan query 39

2. Melakukan translas ke bahasa Inggrs dar query yang dmasukkan. 3. Melakukan pengndeksan terhadap dokumen dan query. 4. Melakukan pencaran dokumen yang relevan dengan query. 5. Melakukan pengurutan perngkat dokumen hasl pencaran. 6. Melakukan pengndeksan ulang jka adanya kata tambahan yang dmasukkan sesua perngkat dokumen. 7. Menghtung nla Non-Interpolated Average Precson untuk menla performans sstem. Gambar 1 Use Case Dagram 3.2 Dagram Kelas Perancangan kelas perangkat lunak mengacu pada hasl analss kelas potensal pada Tabel III- 2. Hasl perancangan kelas tersebut dtuangkan dalam Gambar III-3 berkut: Keterangan mengena kelas-kelas d atas adalah sebaga berkut: 1. Interface Kelas antarmuka, memlk satu atrbut saja, yatu ntrface. Kelas n menangan operas yang berkatan dengan tamplan. 2. Dokumen Kelas n mempunya atrbut Nama, Ukuran, sindexed, dan Frase. Kelas n menangan operas-operas berkatan dengan dokumen, sepert pengndeksan dan penghlangan stopwords. 3. Query Kelas n memlk atrbut sindexed, dan Frase. Kelas n menangan operas-operas berkatan dengan query, sepert pengndeksan, translas dan penghlangan stopwords. 4. Frase Kelas n memlk atrbut Pembentuk, dan Length.Kelas n menangan operasoperas berkatan dengan frase, sepert kata pembentuk, dan length. Kelas n dhaslkan dar kelas dokumen dan query. 5. Relevant Judgement Kelas bawaan sstem. Kelas n merupakan kelas yang berfungs untuk membandngkan perhtungan sstem dengan bass data yang telah ddefnskan terlebh dahulu. Mempunya beberapa operas yatu kalkulas performans dan perbandngan perhtungan smlarty. 3.3 Perancangan Antarmuka Perangkat Lunak Rancangan layar utama pada perangkat lunak dperlhatkan pada gambar III-10. Tampak ada sebuah kotak (textbox) untuk memasukkan query yang kemudan akan dtranslaskan dengan mengklk button CARI. D kr bawah adalah kotak yang nantnya berskan kata setelah translas, bobotnya, dokumen-dokumen yang dhaslkan dan nla smlartas yang ddapat setelah perhtungan. D kanan bawah ada kotak yang nantnya berskan ekspans kata dar query dar dokumen-dokumen yang memuat kata-kata sesua query. Gambar 2 Kelas Dagram 40

Gambar 3 Rancangan Antarmuka 4. HASIL DAN PEMBAHASAN 4.1 Batasan Pengujan Batasan pengujan perangkat lunak adalah sebaga berkut: 1. Mnmal kata pada frase adalah 2 kata dan maksmal 3 kata. Pembatasan n dlakukan karena ada beberapa query yang hanya memlk panjang 2 kata. 2. Pengujan doman frase tdak dperhtungkan, karena sama sekal tdak mempengaruh hasl NIAP. 3. Pengujan untuk query expanson hanya dapat dlakukan jka query awal sudah dcoba terlebh dahulu. 4. Maksmal panjang query adalah 60 kata dan sebaknya hndar penggunaan stopwords untuk hasl yang lebh maksmal. 5. Maksmal waktu eksekus query adalah 60 detk dan jka lebh dar tu sstem akan hang. Pelaksanaan Pengujan 1. Pengujan dlakukan dengan melakukan pencaran dokumen yang sesua dengan query yang ada dalam koleks 2. Jumlah dokumen yang hasl pencaran yang dtamplkan adalah 10 perngkat teratas 3. Perhtungan rata-rata bobot dlakukan terhadap 50 query yang telah terdefns terlebh dahulu Hasl Pengujan Tabel 1 Hasl Pengujan Query Query Worb By Frase Query Word Expanson 1 0.036 0.024 0.040 Query Worb By Frase Query Word Expanson 2 0.096 0 0.200 3 0.048 0 0.061 4 0.040 0 0.080 5 0.125 0 0.232 6 0.072 0 0.158 7 0.058 0 0.078 8 0.204 0.335 0.282 9 0.032 0 0,282 10 0.067 0.005 0.075 11 0.020 0.041 0.043 12 0.155 0 0.195 13 0.468 0 0.468 14 0.079 0.019 0.081 15 0.034 0.151 0.042 16 0.090 0.029 0.095 17 0.050 0 0.050 18 0.030 0.089 0.194 19 0.194 0 0.330 20 0.755 0 0.755 21 0.041 0.095 0.061 22 0.109 0 0.138 23 0.125 0 0.128 24 0.058 0.005 0.061 25 0.031 0 0.032 26 0.072 0 0.139 27 0.021 0 0.021 28 0.053 0 0.064 29 0.085 0 0.096 30 0.091 0.200 0.125 31 0.229 0 0.256 32 0.127 0 0.133 33 0.014 0.077 0.018 34 0.132 0.005 0.135 35 0.144 0 0.189 36 0.051 0.031 0.061 37 0.100 0.007 0.101 38 0.130 0.119 0.145 39 0.117 0 0.153 40 0.037 0.040 0.050 41 0.030 0.033 0.035 42 0.063 0.040 0.086 43 0.026 0 0.026 44 0.159 0.007 0.303 45 0.069 0.064 0.116 46 0.089 0.021 0.094 47 0.050 0 0.050 48 0.088 0.048 0.088 49 0.068 0 0.064 50 0.068 0 0.096 Rata-rata 0.09471 0.0345 0.118953 4.2 Pengujan dengan Membandngkan Nla Performans antara Frase Dua dan Tga Pengujan n dlakukan untuk membandngkan nla NIAP dar frase yang terdr dar dua dan tga kata. Nla n dperoleh dengan menggunakan aplkas lan dluar CLIRS yang dkembangkan secara bersamaan. Adapun nla yang dbandngkan adalah frase dua dan tga kata dalam bahasa Inggrs dan frase dua dan tga kata setelah dlakukannya translas. 41

Pelaksanaan Pengujan 1. Pengujan dlakukan dengan menghtung nla NIAP sesua dokumen relevan yang dhaslkan 2. Frase dbag menjad 2 dan 3 kata kemudan dlakukan translas untuk query bahasa Indonesa 3. Jumlah dan letak dokumen relevan telah terdefns terlebh dahulu pada relevant judgement yang dberkan Hasl Pengujan Tabel 2 - Perbandngan Nla NIAP antara Frase Dua dan Tga Frase 2 (translas) Frase 2 (Inggrs) Frase 3 (translas) Frase 3 (Inggrs) 0.10224980 0.1144563 0.112087 0. 126129 4.3 Analss Hasl Pengujan Berdasarkan Tabel 1 dapat dlhat dar 50 query yang dgunakan untuk pengujan bahwa hampr semua nla melalu metode query expanson mendapatkan hasl yang lebh bak darpada kata per kata. Sebalknya, tdak semua query melalu metode phrasal translaton mendapatkan nla yang lebh bak dar kata per kata. Sepertnya kamu yang dgunakan belum terlalu lengkap sehngga banyak kata tdak dartkan secara frase pada sstem tersebut. Selan tu, karena koleks dokumen yang terlalu banyak, sstem hanya menggunakan 10 dokumen teratas saja untuk perhtungan (namun n bukan menjad penyebab utama mengapa nla frase lebh kecl). Dar nla rata-rata bobot masng-masng metode dapat dambl kesmpulan bahwa metode query expanson merupakan metode terbak dalam hal penngkatan bobot query dsusul kata per kata dan frase. Pada Tabel 2 yatu perbandngan nla NIAP antara frase dua dan tga kata terlhat bahwasanya untuk frase tga kata memlk nla yang lebh bak. Melalu nla n, ddapat bahwa untuk sebuah query akankah lebh bak jka kata yang ngn dlakukan pencaran adalah lebh dar satu kata. Hal n dmaksudkan agar dokumen yang dhaslkan akan lebh akurat dan relevan. Sepert paragraf d atas, yatu untuk pencaran memang bahasa asl lebh akurat darpada setelah dlakukan translas. 5. KESIMPULAN 1. Identfkas frase akan memberkan hasl yang lebh bak jka kamus kata yang dmlk lebh lengkap. 2. Ekspans query sangat efektf untuk mendapatkan dokumen yang sesua karena memlk nla keakuratan yang tertngg. 3. Nla performans dar sstem dengan translas frase lebh tngg dar sstem dengan translas kata per kata. 4. Nla performans dar frase tga kata lebh bak dar frase dua kata bak setelah translas maupun sebelum. 5. Performans asal tanpa translas selalu lebh bak darpada setelah dlakukan translas bak kata per kata maupun frase. 6. SARAN 1. Term ndeks sebaknya langsung dbuat dluar sstem namun yang dapat merangkum koleks dokumen yang lebh banyak. 2. Untuk peneltan berkutnya, sebaknya koleks dokumen yang sudah ada dtambahkan dengan dokumen-dokumen baru dengan tema yang lebh ambgu. Hal n dmaksudkan untuk menguj lebh lanjut performans yang dberkan oleh model probablstas. 7. DAFTAR PUSTAKA [1] Ballesteros, L. & Croft, B. (1996). "Dctonary methods for cross-lngual nformaton retreval". In: Database and Expert Systems Applcatons. 7th Internatonal Conference, DEXA '96 Proceedngs. Sprnger-Verlag Berln, Germany. [2] Ballesteros, L. & Croft, W. B. (1997). "Phrasal translaton and query expanson technques for cross-language nformaton retreval". In: Proceedngs of the 20th annual nternatonal ACM SIGIR conference on Research and development n nformaton retreval, pp. 84-91. Assocaton for Computng Machnery. 42

[3] Ballesteros, L. & Croft, W. B. (1998). "Resolvng ambguty for cross-language retreval". In: Proceedngs of the 21st Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval. Assocaton for Computng Machnery. [4] Document Retreval: An Examnaton of Syntactc and Non-Syntactc Methods. Cornel Unversty [5] Fuhr, Norbert. 1992. Probablstc Models n Informaton Retreval. Computer Journal 43