Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query

Transkripsi

1 Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query 1 Indra Lukmana 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember 1 indrolm@gmail.com, 2 agusza@its-sby.edu, 3 diana@its-sby.edu Abstrak Pencarian data sederhana untuk mendapatkan informasi berdasarkan kata dan memasangkannya dengan dokumen sudah jamak di temukan pada sistem komputer saat ini, Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Makalah ini bertujuan untuk mengaplikasikan metode perangkingan dokumen berdasarkan susunan posisi kata dari query untuk dokumen berbahasa Arab. Dengan mendasarkan perangkingan pada susunan kata dari query, hasil perangkingan akan lebih sesuai dengan konteks yang ada pada query dibandingkan dengan berdasarkan kata per kata saja. Berdasarkan uji coba perangkingan berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab. Dengan rata-rata F-Measure sebesar 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Evaluasi hasil perangkingan ini meningkat dibandingkan dengan perangkingan kata per kata. 1 Pendahuluan Kebutuhan untuk menemukan informasi tertentu dari data-data yang banya secara cepat tidak terbatas pada i nternet, komputer desktop pun saat ini dapat menyimpan data dalam jumlah yang sangat besar hingga multi-tera- byte. Membuka file satu persatu untuk mencari informasi jelas bukan merupakan tindakan yang efektif. Pencarian d ata sederhana untuk mendapatkan informasi b erdasarkan kata dan memasangkannya dengan dokumen dalam suatu dokumen sudah umum di temukan pada sistem komputer saat ini, proses ini biss memberikan hasil pencarian dokumen yang ditemukan pada sistem baik hasil yang relevan maupun tidak. Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna [1]. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Metode-metode untuk menangani masalah-masalah tersebut dibahas dalam information retrieval (temu kembali informasi) [1][2]. Hingga saat ini pembahasan tentang temu kembali informasi paling banyak dalam bahasa Inggris, baru dewasa ini pembahasan selain dalam bahasa Inggris mulai semakin bertambah banyak. Termasuk juga bahasa Arab meskipun masih jauh dari bahasa Inggris yang telah mendominasi temu kembali informasi selama lebih dari 50 t ahun[2][4]. Salah satu alasan kurangnya pembahasan temu kembali dalam bahasa Arab adalah perbedaan struktur bahasanya dengan bahasa latin seperti bahasa Inggris[2][5]. Salah satu pembahasan temu kembali informasi yang biasa di teliti adalah tentaang perangkingan dokumen. Perangkingan dokumen ini dilakukan untuk menyediakan informasi dokumen yang sesuai dengan data yang diinginkan pengguna dari query pengguna[6][1]. Beberapa penelitian yang membahas perangkingan dokumen berbahasa Arab telah dilakukan sebelumnya, seperti: perangkingan

2 dengan menggunakan pencocokan N-gram terhadap kata dari query dan dokumen[7][8], menggunakan modul crawler dokumen dengan feedback bentuk kata yang tepat[6], berdasarkan variasi orthographic [9]. Permasalahan pada penelitian-penelitian ini adalah perangkingan dokumen dilakukan dengan melakukan perbandingan pada kata per kata (term by term). Perbandingan dokumen dengan menggunakan kata per kata memiliki beberapa kelemahan. Salah satunya dengan hanya menggunakan kata saja, konteks yang dicari kurang lengkap dibandingkan dengan query yang diberikan. Salah satu solusi masalah ini adalah dengan melakukan perbandingan dengan mendasarkan posisi kata dari query. Dengan melakukan perbandingan tersebut maka rangking dokumen yang dilakukan akan lebih sesuai dengan konteks query [10]. Pembahasan perangkingan dokumen dengan mendasarkan posisi kata dari query telah dilakukan sebelumnya pada bahasa Cina [11][10]. Penelitian-penelitian tersebut menunjukkan peningkatan hasil dengan melakukan perangkingan dengan mendasarkan posisi kata dari query dibandingkan dengan hanya mengunakan kata per kata. Hal ini dikarenakan dengan mendasarkan perangkingan pada posisi kata dari query, hasil yang dikembalikan lebih berkaitan dengan konteks dari query yang gunakan. Oleh karena itu makalah ini dibuat untuk mengatasi masalah perangkingan kata per kata dengan menggunakan metode yang menggunakan posisi kata dari query sebagai kunci perangkingan dokumen berbahasa Arab. 2 Perangkingan Dokumen Perangkingan dokumen menggunakan representasi vector space model dari kumpulan dataset. Dokumen dalam vector space model di representasikan dalam matriks yang berisi bobot kata pada dokumen. Bobot tersebut menyatakan kepentingan/kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen. Biasanya kata yang berbeda memiliki frekuensi yang berbeda. Dibawah ini terdapat beberapa metode pembobotan : 1. Term Frequency (TF) Term frequency merupakan metode yang paling sederhana dalam membobotkan kata. Setiap kata diasumsikan memiliki kepentingan yang proporsional terhadap jumlah kemunculan kata pada dokumen. Bobot dari kata t pada dokumen d yaitu : TF(d, t) = f(d, t, ) ( 2.1) dimana f(d,t) adalah frekuensi kemunculan term t pada dokumen d. 2. Inverse Document Frequency (IDF) Bila term frequency memperhatiakan kemunculan term di dalam dokumen, maka IDF memperhatikan kemunculan term pada kumpulan dokumen. Latar belakang pembobotan ini adalah term yang jarang muncul pada kumpulan dokumen sangat bernilai. Kepentingan tiap term diasumsikan memilki proporsi yang berkebalikan dengan jumlah dokumen yang mengandung term. Faktor IDF dari term t yaitu : IDF(t) = log(n df(t) ), ( 2.2) dimana N adalah jumlah seluruh dokumen, df(t) jumlah dokumen yang mengandung term t. 3. TFIDF Perkalian antara term frequency dan IDF dapat menghasilkan performansi

3 yang lebih baik. Kombinasi bobot dari term t pada dokumen d yaitu : TFIDF(d, t) = TF(d, t) IDF(t), ( 2.3) Term yang sering muncul pada dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TFIDF akan meningkat dengan jumlah kemunculan term pada dokumen dan berkurang dengan jumlah term yang muncul pada dokumen [3]. Dari pembobotan tersebut di peroleh bobot kata pada dokumen. Bobot tiap kata ini merupakan representasi vektor kata pada dokumen. Dari representasi bobot tersebut dapat dihitung nilai kemiripan suatu dokumen dengan query. Nilai kemiripan ini biasa dihitung dengan rumusan cosine similarity, perhitungan tingkat kemiripan ini dibuat dengan berdasar pada besar sudut kosinus antara dua vektor, dalam hal ini adalah vektor dokumen. Karena berdasarkan kosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antara query dan dokumen benar-benar identik. Cosine dinyatakan sebagai berikut [17]: cos( q, d j ) = [ TFIDF( t, )] [ (, )] t k q TFIDF tk d j k, 2 2 TFIDFq TFIDFd j dimana cos(q,d j ) merupakan nilai kosinus antara query dan dokumen j, sedangkan TFIDF(t k,q) dan TFIDF(t k,d j ) adalah pembobotan TFIDF kata t k pada query dan dokumen j. TFIDFq dan TFIDFd j adalah panjang dari vektor query q dan dokumen. Sebagai contoh d i 2 = (TFIDFt TFIDFt ( 2.4) TFIDFt TFIDFt k 2 ) 1/2, dimana TFIDFt k adalah bobot kata ke-t k pada vektor dokumen d i. 3 Perangkingan Berdasarkan Posisi Kata dari Query Perhitungan perangkingan dokumen menggunakan cosine similarity yang dibahas sebelumnya menggunakan kata per kata query (term by term). Hal ini memiliki beberapa "كتاب الفقه " query kelemahan, misal dengan maka saat perhitungan menggunakan kata per "كتاب " kata kata dokumen yang mengandung dalam jumlah yang tinggi bisa mendapat nilai similairity tinggi, padahal belum tentu [10]. "كتاب الفقه " query berhubungan dengan Oleh karena itu maka cosine similarity ini di kembangkan agar dapat menitikberatkan pada dokumen yang lebih berelasi dengan susunan kata dari query. Perangkingan dokumen dengan menggunakan kata dari query memerlukan tahapan berikut: 1) Melakukan perhitungan cosine similarity kata per kata 2) Menentukan kata dari query pada dokumen dan menghitung bobot. 3) Menghitung nilai rangking baru yang menitik beratkan pada penggunaan kata dari query BPenentuan kata dari query pada dokumen Kata dari query di identifikasi dengan mencatat posisi kemunculan query pada dokumen. Posisi ini digunakan sebagai dasar susunan query untuk pembobotan BPerhitungan bobot kata dari query Perhitugan bobot kata dari query dilakukan dengan menggunakan persamaan sebagai berikut:

4 Wp K ( i=1 df(t, di) f(i)) K = t, df(t, C) R 1 t di df(t, di) = 0 t di, dimana K adalah jumlah dokumen hasil pencarian kata per kata, df(t,di) jumlah dokumen yang terdapat kata dari query t pada dokumen ke-i, f(i) jumlah kemunjulan kata dari query pada dokumen ke-i, df(t,c) jumlah dokumen yang mengandung kata dari query pada corpus dataset, R jumlah dataset. 3.3 Perhitungan perangkingan berdasarkan posisi kata dari Setelah di tentukan bobot kata dari query maka nilai yang di dapat dari cosine similarity kata per kata di modifikasi dengan nilai bobot pada persamaan 2.5. Nilai bobot ini di aplikasikan pada dokumen yang mengandung kata dari query yang didapat dari query. 4 Contoh Perangkingan Dokumen Pada Bahasa Arab Dari beberapa teori perhitungan temu kembali informasi pada subbab sebelumnya pada Tabel 2.2 diberikan contoh perhitungan temu kembali informasi. Yang meliputi frekuensi term, pembobotan menggunakan rumus TFIDF dan perhitungan jarak menggunakan Cosine Similairty. Misalkan diberikan beberapa dokumen bahasa Arab yang terdiri dari dokumen 1 dampai dokumen 4 dan dicari suatu query. Tabel 4.1 Representasi Dokumen Contoh Perhitungan ( 3.1) Dari dokumen-dokumen yang terdapat pada Tabel 4.1 setelah di lakukan filtering dan stemming diperoleh term-term dan frekuensi kemunculannya TF sebagaimana persamaan 2.1 dalam Tabel 4.2. Dengan kolom kata dasar menunjukkan term yang telah diproses, dan kolom Frekuensi menunjukkan jumlah kemunculan term pada dokumen. Tabel 4.2 Contoh Perhitungan Frekuensi Term Kata dasar Frekuensi (TF) d1 d2 d3 d4 t1 كيفية t2 صلاة t3 تهجد t4 رسالة t5 ركن t6 وضوء t7 نية t8 ا ول t9 مسح t10 را س Tabel 4.3 Contoh Perhitungan IDF Term df(t) IDF t1 1 0,60 t2 3 0,12 t3 1 0,60 t4 1 0,60 t5 3 0,12 t6 2 0,30 t7 1 0,60 t8 1 0,60 t9 1 0,60 t10 1 0,60 Dokumen d1 d2 d3 d4 query Isi Dokumen كيفية صلاة التهجد رسالة في اركان الوضوء والصلاة النية هى الا ول م ن ا ركان الصلاة مسح الرا س ركن من ا ركان الوضوء ا ركان الصلاة Dari Tabel 4.2 lalu dihitung inverse document frequency (IDF) sebagaimana dalam persamaan 2.2, dengan hasil perhitungan pada Tabel 4.3. Dengan kolom df(t) menunjukan jumlah kemunculan term pada dataset, dan IDF

5 menunjukan hasil perhitungan persamaan 2.2 dengan jumlah dataset 4. Dari TF yang didapat pada Tabel 4.2 dan IDF pada Tabel 4.3 berdasarkan persamaan 2.3 diperoleh bobot term pada Tabel 4.4. Tabel 4.4 Contoh Perhitungan TFIDF Term TFIDF d1 d2 d3 d4 t1 0,60 0,00 0,00 0,00 t2 0,12 0,12 0,12 0,00 t3 0,60 1,20 0,00 0,00 t4 0,00 0,60 0,00 0,00 t5 0,00 0,12 0,12 0,25 t6 0,00 0,30 0,00 0,30 t7 0,00 0,00 0,60 0,00 t8 0,00 0,00 0,60 0,00 t9 0,00 0,00 0,00 0,60 t10 0,00 0,00 0,00 0,60 Dari hasil perhitungan bobot pada Tabel 4.4 maka selanjutnya dapat dicari jarak kemiripan antara query terhadap dokumen d1, d2, d3, dan d4 menggunakan cosine similarity sebagaimana ditunjukkan pada persamaan 2.4. Untuk menentukan nilai cosine similarity tersebut diperlukan dua langkah. Yang pertama menghitung perkalian vektor antara query dan dokumen, dan yang kedua menghitung dotproduct dari query dan dokumen. Berdasarkan persamaan 2.4 diperoleh hasil perkalian vektor sebagaimana diperlihatkan pada Tabel 4.5. Dengan kemunculan term pada query dianggap sebagai bobot query pada kolom Wq, kolom perkalian vektor q denan dokumen adalah perkalian antara vektor bobot term query dengan bobot term dokumen i dan baris jumlah adalah hasil perkalian vektor TFIDF term dokumen dengan bobot query. Tabel 4.5 Contoh Perhitungan Perkalian Vektor Term query Perkalian vektor q dengan dokumen d1 d2 d3 d4 t t2 1 0,12 0,12 0,12 0 t t t ,12 0,12 0,25 t t t t t Jumlah 0,12 0,25 0,25 0,25 Setelah itu berdasarkan permaan 2.4 juga dihitung dot product (perkalian titik) dari query dan dokumen. Dengan kemunculan term pada query dianggap sebagai bobot query dan dengan bobot TFIDF pada Tabel 4.4, maka diperoleh hasil perkalian titik sebagaimana Tabel 4.6 pada kolom perkalian titik. Tabel 4.6 Contoh Hasil Perkalian Titik Dokumen Perkalian Titik d1 1,21 d2 1,96 d3 1,23 d4 1,33 Dari hasil perkalian vektor pada Tabel 4.5 dan akar jumlah kuadrat bobot dari Tabel 4.6 selanjutnya dapat ditentukan Cosine Distance berdasarkan persamaan 2.4 sebagai berikut. Cos(query,d1) = 0.12/1.21 = 0.08 Cos(query,d2) = 0.25/1.96 = 0.25 Cos(query,d3) = 0,25/1.23 = 0,15 Cos(query,d4) = 0.25/1,33 = 0.17 Dari hasil perhitungan tersebut maka di dapatkan jarak dari query ke dokumen d1,d2, d3 dan d4 yang dapat di lihat pada Tabel 4.7. Tabel 4.7 Hasil cosine similarity Rank dokumen Cosine 1 d2 0,25

6 2 d4 0,17 3 d3 0,15 4 d1 0,08 Karena rentang nilai Cosine Similary antara 0 sampai 1 ya ng artinya 0 dok umen yang dihitung jaraknya tidak mirip sama sekali sedangkan 1 mengindikasikan dokumen tersebut identik / mirip. Dari Tabel 4.7 dapat disimpulkan query paling dekat dengan dokumen d2. 5 Contoh Perangkingan Berdasarkan Susunan Posisi Kata dari Query Dari contoh dokumen untuk perhitungan cosine similarity pada Tabel 4.1 Representasi Dokumen Contoh Perhitungan. Dan hasil perhitungan Tabel 4.7. di hitung bobot kata dari query dengan t adalah kata dari query pada Tabel 4.1. Berdasarkan persamaan 2.5 maka diperoleh hitungan sebagai berikut: Dengan K = 4 dan di adalah dokumen yang mengandung kata dari query t: K i=1 df(t, di) f(i) = (1 0)+(1 0) +(1 1) +(1 0) dengan jumlah dokumen pada dataset yang mengandung kata dari query t: df(t, C) = 1, dengan jumlah dataset sebesar R = 4, dan dengan t = 2 = 1,41 Maka diperoleh Wp = 1,41 Setelah didapat Wp nilai ini dikalikan pada hasil cosine similarity pada dokumen di Tabel 4.7 yang mengandung kata dari query t. Maka nilai cosine similarity baru adalah seperti pada Tabel 5.1. dari table tersebut dapat dilihat terjadi perubahan rangking dokumen d3 da ri rangking ke-4 menjadi ke-3. Tabel 5.1 Hasil Perhitungan Nilai Cosine Similarity Berdasarkan Posisi Kata Pada Query Rank dokumen Cosine 1 d2 0,25 2 d3 0,21 3 d4 0,17 4 d1 0,08 Pada metode ini dokumen yang dikembalikan adalah dokumen yang benar benar mengandung susunan kata pada query. Sehingga yang di kembalikan kepada pengguna adalah dokumen d3 karena mengandung susunan kata sesuai query yang diberikan pengguna. 6 Uji Coba Data yang digunakan dalam uji coba ini merupakan corpus atau kumpulan dokumen teks berbahasa Arab, yang diambil dari 20 kitab dalam perangkat lunak Maktabah Syamilah. halaman kitab-kitab sebagai suatu dokumen. Jumlah total dokumen dari seluruh kitab tersebut adalaha 6642 dokumen. Tiap dokumen tersebut terdiri dari ratarata 426 kata. Dan dari seluruh dokumen dataset tersebut terdapat kata bebeda (distincnt term). Data uji perangkingan pada aplikasi dalam Makalah ini berupa dokumen berisi teks bahasa Arab yang diambil dari kitab pada perangkat lunak Maktabah Syamilah. Dokumen-dokumen inilah yang nanti akan diproses dari tahap preprocessing, penghapusan stopword, pembentukan kata dasar, hingga proses perangkingan itu sendiri Uji pertama dilakukan untuk melihat keterkaitan antara metode perangkingan dokumen berdasarkan posisi kata dari query dengan perangkingan dokumen berdasarkan kata per kata. Pelaksanaan uji coba ini dilakukan dengan memasukkan query satu kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan query tersebut. Pada uji coba ini digunakan query sebanyak tiga seperti terlihat pada. Dari uji coba pertama ini diperoleh hasil temu kembali yang sama baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan dokumen berdasarkan kata per kata sebagaimana Tabel 6.1. Hasil seperti ini didapatkan karena penggunaan query satu kata saja tidak merubah rangking cosine similarity. Perubahan rangking dilakukan dengan modifikasi score cosine similarity menggunakan

7 pembobotan kata dari query pada persamaan WP dilakukan pada dokumen yang berisi kata dari query. Dengan query yang hanya satu kata saja maka modifikasi score cosine similarity ini dilakukan pada seluruh hasil temu kembali. Sehingga rangking yang di hasilkan tidak sama dengan rangking awal sebelum modifikasi Tabel 6.1 Hasil temu kembali pencarian satu kata Rank Q1 Q2 Q3 Kitab Halaman Kitab Halaman Kitab Halaman Uji coba kedua dilakukan untuk mengetahui keberhasilan proses perangkingan dokumen bahasa Arab berdasarkan posisi kata pada query. Keberhasilan proses perangkingan ini bisa dilihat pada hasil evaluasi dengan perhitungan recall, precission,dan F-Measure. Pelaksanaan uji coba ini dilakukan dengan memasukkan query dua kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan query tersebut. Disini di uji cobakan query sebanyak sebelas seperti yang terdapat pada Tabel 6.2. Tabel 6.2 Query Uji Coba II Query Isi Relevan Q1 فراي ض الوضوء 6 Q2 سنن الوضوء 23 Q3 اركان الصلاة 17 Q4 سنن الصلاة 14 Q5 صلاة الجمعه 14 Q6 زكاة الفطر 16 Q7 زكاة المال 13 Q8 صلاة التطوع 11 Q9 صلاة العيدين 18 Q10 سجود السهو 16 Q11 سجود التلاوة 18 Query pada Tabel 6.2 di uji cobakan pada perangkingan berdasarkan posisi kata dari query dan perangkingan kata perkata. Hasil temu kembali setiap query dari Tabel 6.2 dihitung nilai prescision, recall, dan F-Measure nya, baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan kata per kata. Hal ini dimaksudkan untuk menganalisa performa perangkingan dokumen terhadap tiap query. Nilai precision yang tinggi menunjukan keberhasilan pencarian dalam memberikan dokumen yang relevan pada rangkingnya. Dengan nilai 1,00 mengindikasikan pencarian berhasil memberikan dokumen relevan pada perangkingannya. Nilai recall yang semakin tinggi menunjukan keberhasilan proses pencarian dalam mendapat dokumen yang relevan. Dengan nilai 1,00 mengindikasikan proses pencarian berhasil mendapatkan seluruh dokumen yang relevan dengan query. Tabel 6.3 Nilai Rata-Rata evaluasi uji coba II untuk perangkingan berdasar posisi kata Query Precision Recall F-Measure Q1 0,93 0,60 0,68 Q2 0,63 0,15 0,23 Q3 0,67 0,44 0,52 Q4 0,56 0,44 0,49 Q5 0,70 0,50 0,53 Q6 0,48 0,29 0,33 Q7 0,50 0,47 0,52 Q8 0,73 0,45 0,59 Q9 0,47 0,27 0,34 Q10 0,44 0,29 0,32 Q11 0,52 0,25 0,30 Rata-Rata 0,60 0,38 0,44 Tabel 6.4 Nilai Rata-Rata evaluasi uji coba II untuk perangkingan kata per kata Query Precision Recall F-Measure Q1 0,36 0,52 0,37 Q2 0,76 0,33 0,42 Q3 0,44 0,32 0,36 Q4 0,13 0,13 0,13 Q5 0,32 0,24 0,26 Q6 0,46 0,30 0,33

8 Q7 0,46 0,42 0,42 Q8 0,43 0,46 0,43 Q9 0,46 0,30 0,34 Q10 0,37 0,27 0,29 Q11 0,67 0,36 0,43 Rata-Rata 0,44 0,33 0,34 Dari uji coba kedua metode pencarian tersebut didapati peningkatan nilai evaluasi pada perangkingan berdasarkan posisi kata dari query.dibandingakan dengan perangkingan kata per kata. Baik pada nilai evaluasi precision, recall, dan F-Measure. Nilai rata-rata keseluruhan precision meningkat dari 0,44 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,60 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. hal ini disebabkan modifikasi score yang digunakan pada pencaraian berdasarkan pisisi kata dari query mengakibatkan dokumen-dokumen yang lebih relevan dengan bentuk kata dari query dikembalikan pada rangking yang atas. Dibandingkan dengan pencarian kata per kata yang tidak menghiraukan susunan kata. Peningkatan nilai evaluasi juga didapati pada nilai rata-rata keseluruhan recall yang meningkat dari 0,33 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,38 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. Peningkatan ini menunjukkan dokumen-dokumen yang relevan dengan query lebih banyak di kembalikan oleh perangkingan berdasarkan posisi kata dari query. Hal ini dikarenakan metode ini menggunakan susunan kata dari query dan membentuknya sebagai kata dari query, sehingga hasil temu kembali yang dihasilkan lebih sesuai dengan konteks dari query dibandinkan dengan perangkingan kata per kata. Dengan meningkatnya hasil evaluasi precision dan recall dari perangkingan berdasarkan posisi kata dari query dibandingkan dengan perangkingan kata per kata, maka nilai rata-rata F-Measure yang dihasilkan juga meningkat. Dengan nilai rata-rata keseluruhan F-Measure perangkingan berdasarkan posisi kata dari query 0,44 pada Tabel 6.3 meningkat dari 0,34 pada Tabel 6.4 untuk perangkingan kata per kata. 7 7BKesimpulan dan Saran Berdasarkan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan bahwa, perangkingan berdasarkan posisi dokumen berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab dengan nilai rata-rata F-Measure 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Dibandingkan dengan perangkingan kata perkata nilai-nilai evaluasi perangkingan berdasarkan posisi kata dari query meningkat lebih tinggi. Untuk penelitian lebih lanjut metode yang dibahas di disini dapat di palikasikan untuk pemilihan dan pembobotan kata dari query pada query yang panjang, untuk meningkatkan kesesuaian konteks query dengan pencarian dokumen. 8 8BDaftar Pustaka [1] C.D. Manning, R. Prabhakar, and S. Hinrich, An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press, [2] A. Ibrahim El-Khair, "Arabic Information Retrieval," Information Science and Technology, vol. 41, no. 1, pp , [3] G. Salton, Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer.: Addison-Wesly, [4] M. Haidar and L. Andrew, "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designe for English Do the Job?," Libri, vol. 51, pp , [5] L.S. Leah and B. Lisa, "Improving Stemming for Arabic Information Retrieval: Light Stemming and Cooccurrence Analysis," Special Interest Group on Information Retrieval, pp , [6] E.A. Esraa, B.L. Nagma, and M.F. Tolba, "An Efficient Rangking Module for an Arabic Search Engine," International Journal of Computer Science and Network Security, vol. 10, no. 2, pp , 2010.

9 [7] H.M. Suleiman, "Character Contiguity in N-gram-based Word Matching: the Case for Arabic Text Searching," Information Processing and Management, pp , [8] N. Ahmad, Z.A. Agus, and P. Diana, Makalah Jurusan Teknik Informatika dengan Judul: Implementasi N-Gram Dalam Pencarian Teks Sebagai Penunjang Aplikasi Perpustakaan Kitab Berbahasa Arab. Surabaya, Indonesia: Institut Teknologi Sepuluh Nopember, [9] H.M. Suleiman, "Arabic String Searching in the Context of Character Code Standards and Orthographic Variations," Computer Standards and Interfaces, vol. 20, pp , [10] M. Zhu, S. Shi, M. Li, and J. Wen, "Effective top-k Computation with Term Proximity Support," Information Processing & Management, vol. 45, pp , [11] Y. Lingpeng, J. Donghong, and L. Munkew, "Document reranking by term distribution and maximal marginal relevance for chinese information retrieval," Information Processing and Management, vol. 43, pp , 2007.