Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query
|
|
- Susanto Kusuma
- 7 tahun lalu
- Tontonan:
Transkripsi
1 Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query 1 Indra Lukmana 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember 1 indrolm@gmail.com, 2 agusza@its-sby.edu, 3 diana@its-sby.edu Abstrak Pencarian data sederhana untuk mendapatkan informasi berdasarkan kata dan memasangkannya dengan dokumen sudah jamak di temukan pada sistem komputer saat ini, Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Makalah ini bertujuan untuk mengaplikasikan metode perangkingan dokumen berdasarkan susunan posisi kata dari query untuk dokumen berbahasa Arab. Dengan mendasarkan perangkingan pada susunan kata dari query, hasil perangkingan akan lebih sesuai dengan konteks yang ada pada query dibandingkan dengan berdasarkan kata per kata saja. Berdasarkan uji coba perangkingan berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab. Dengan rata-rata F-Measure sebesar 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Evaluasi hasil perangkingan ini meningkat dibandingkan dengan perangkingan kata per kata. 1 Pendahuluan Kebutuhan untuk menemukan informasi tertentu dari data-data yang banya secara cepat tidak terbatas pada i nternet, komputer desktop pun saat ini dapat menyimpan data dalam jumlah yang sangat besar hingga multi-tera- byte. Membuka file satu persatu untuk mencari informasi jelas bukan merupakan tindakan yang efektif. Pencarian d ata sederhana untuk mendapatkan informasi b erdasarkan kata dan memasangkannya dengan dokumen dalam suatu dokumen sudah umum di temukan pada sistem komputer saat ini, proses ini biss memberikan hasil pencarian dokumen yang ditemukan pada sistem baik hasil yang relevan maupun tidak. Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna [1]. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Metode-metode untuk menangani masalah-masalah tersebut dibahas dalam information retrieval (temu kembali informasi) [1][2]. Hingga saat ini pembahasan tentang temu kembali informasi paling banyak dalam bahasa Inggris, baru dewasa ini pembahasan selain dalam bahasa Inggris mulai semakin bertambah banyak. Termasuk juga bahasa Arab meskipun masih jauh dari bahasa Inggris yang telah mendominasi temu kembali informasi selama lebih dari 50 t ahun[2][4]. Salah satu alasan kurangnya pembahasan temu kembali dalam bahasa Arab adalah perbedaan struktur bahasanya dengan bahasa latin seperti bahasa Inggris[2][5]. Salah satu pembahasan temu kembali informasi yang biasa di teliti adalah tentaang perangkingan dokumen. Perangkingan dokumen ini dilakukan untuk menyediakan informasi dokumen yang sesuai dengan data yang diinginkan pengguna dari query pengguna[6][1]. Beberapa penelitian yang membahas perangkingan dokumen berbahasa Arab telah dilakukan sebelumnya, seperti: perangkingan
2 dengan menggunakan pencocokan N-gram terhadap kata dari query dan dokumen[7][8], menggunakan modul crawler dokumen dengan feedback bentuk kata yang tepat[6], berdasarkan variasi orthographic [9]. Permasalahan pada penelitian-penelitian ini adalah perangkingan dokumen dilakukan dengan melakukan perbandingan pada kata per kata (term by term). Perbandingan dokumen dengan menggunakan kata per kata memiliki beberapa kelemahan. Salah satunya dengan hanya menggunakan kata saja, konteks yang dicari kurang lengkap dibandingkan dengan query yang diberikan. Salah satu solusi masalah ini adalah dengan melakukan perbandingan dengan mendasarkan posisi kata dari query. Dengan melakukan perbandingan tersebut maka rangking dokumen yang dilakukan akan lebih sesuai dengan konteks query [10]. Pembahasan perangkingan dokumen dengan mendasarkan posisi kata dari query telah dilakukan sebelumnya pada bahasa Cina [11][10]. Penelitian-penelitian tersebut menunjukkan peningkatan hasil dengan melakukan perangkingan dengan mendasarkan posisi kata dari query dibandingkan dengan hanya mengunakan kata per kata. Hal ini dikarenakan dengan mendasarkan perangkingan pada posisi kata dari query, hasil yang dikembalikan lebih berkaitan dengan konteks dari query yang gunakan. Oleh karena itu makalah ini dibuat untuk mengatasi masalah perangkingan kata per kata dengan menggunakan metode yang menggunakan posisi kata dari query sebagai kunci perangkingan dokumen berbahasa Arab. 2 Perangkingan Dokumen Perangkingan dokumen menggunakan representasi vector space model dari kumpulan dataset. Dokumen dalam vector space model di representasikan dalam matriks yang berisi bobot kata pada dokumen. Bobot tersebut menyatakan kepentingan/kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen. Biasanya kata yang berbeda memiliki frekuensi yang berbeda. Dibawah ini terdapat beberapa metode pembobotan : 1. Term Frequency (TF) Term frequency merupakan metode yang paling sederhana dalam membobotkan kata. Setiap kata diasumsikan memiliki kepentingan yang proporsional terhadap jumlah kemunculan kata pada dokumen. Bobot dari kata t pada dokumen d yaitu : TF(d, t) = f(d, t, ) ( 2.1) dimana f(d,t) adalah frekuensi kemunculan term t pada dokumen d. 2. Inverse Document Frequency (IDF) Bila term frequency memperhatiakan kemunculan term di dalam dokumen, maka IDF memperhatikan kemunculan term pada kumpulan dokumen. Latar belakang pembobotan ini adalah term yang jarang muncul pada kumpulan dokumen sangat bernilai. Kepentingan tiap term diasumsikan memilki proporsi yang berkebalikan dengan jumlah dokumen yang mengandung term. Faktor IDF dari term t yaitu : IDF(t) = log(n df(t) ), ( 2.2) dimana N adalah jumlah seluruh dokumen, df(t) jumlah dokumen yang mengandung term t. 3. TFIDF Perkalian antara term frequency dan IDF dapat menghasilkan performansi
3 yang lebih baik. Kombinasi bobot dari term t pada dokumen d yaitu : TFIDF(d, t) = TF(d, t) IDF(t), ( 2.3) Term yang sering muncul pada dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TFIDF akan meningkat dengan jumlah kemunculan term pada dokumen dan berkurang dengan jumlah term yang muncul pada dokumen [3]. Dari pembobotan tersebut di peroleh bobot kata pada dokumen. Bobot tiap kata ini merupakan representasi vektor kata pada dokumen. Dari representasi bobot tersebut dapat dihitung nilai kemiripan suatu dokumen dengan query. Nilai kemiripan ini biasa dihitung dengan rumusan cosine similarity, perhitungan tingkat kemiripan ini dibuat dengan berdasar pada besar sudut kosinus antara dua vektor, dalam hal ini adalah vektor dokumen. Karena berdasarkan kosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antara query dan dokumen benar-benar identik. Cosine dinyatakan sebagai berikut [17]: cos( q, d j ) = [ TFIDF( t, )] [ (, )] t k q TFIDF tk d j k, 2 2 TFIDFq TFIDFd j dimana cos(q,d j ) merupakan nilai kosinus antara query dan dokumen j, sedangkan TFIDF(t k,q) dan TFIDF(t k,d j ) adalah pembobotan TFIDF kata t k pada query dan dokumen j. TFIDFq dan TFIDFd j adalah panjang dari vektor query q dan dokumen. Sebagai contoh d i 2 = (TFIDFt TFIDFt ( 2.4) TFIDFt TFIDFt k 2 ) 1/2, dimana TFIDFt k adalah bobot kata ke-t k pada vektor dokumen d i. 3 Perangkingan Berdasarkan Posisi Kata dari Query Perhitungan perangkingan dokumen menggunakan cosine similarity yang dibahas sebelumnya menggunakan kata per kata query (term by term). Hal ini memiliki beberapa "كتاب الفقه " query kelemahan, misal dengan maka saat perhitungan menggunakan kata per "كتاب " kata kata dokumen yang mengandung dalam jumlah yang tinggi bisa mendapat nilai similairity tinggi, padahal belum tentu [10]. "كتاب الفقه " query berhubungan dengan Oleh karena itu maka cosine similarity ini di kembangkan agar dapat menitikberatkan pada dokumen yang lebih berelasi dengan susunan kata dari query. Perangkingan dokumen dengan menggunakan kata dari query memerlukan tahapan berikut: 1) Melakukan perhitungan cosine similarity kata per kata 2) Menentukan kata dari query pada dokumen dan menghitung bobot. 3) Menghitung nilai rangking baru yang menitik beratkan pada penggunaan kata dari query BPenentuan kata dari query pada dokumen Kata dari query di identifikasi dengan mencatat posisi kemunculan query pada dokumen. Posisi ini digunakan sebagai dasar susunan query untuk pembobotan BPerhitungan bobot kata dari query Perhitugan bobot kata dari query dilakukan dengan menggunakan persamaan sebagai berikut:
4 Wp K ( i=1 df(t, di) f(i)) K = t, df(t, C) R 1 t di df(t, di) = 0 t di, dimana K adalah jumlah dokumen hasil pencarian kata per kata, df(t,di) jumlah dokumen yang terdapat kata dari query t pada dokumen ke-i, f(i) jumlah kemunjulan kata dari query pada dokumen ke-i, df(t,c) jumlah dokumen yang mengandung kata dari query pada corpus dataset, R jumlah dataset. 3.3 Perhitungan perangkingan berdasarkan posisi kata dari Setelah di tentukan bobot kata dari query maka nilai yang di dapat dari cosine similarity kata per kata di modifikasi dengan nilai bobot pada persamaan 2.5. Nilai bobot ini di aplikasikan pada dokumen yang mengandung kata dari query yang didapat dari query. 4 Contoh Perangkingan Dokumen Pada Bahasa Arab Dari beberapa teori perhitungan temu kembali informasi pada subbab sebelumnya pada Tabel 2.2 diberikan contoh perhitungan temu kembali informasi. Yang meliputi frekuensi term, pembobotan menggunakan rumus TFIDF dan perhitungan jarak menggunakan Cosine Similairty. Misalkan diberikan beberapa dokumen bahasa Arab yang terdiri dari dokumen 1 dampai dokumen 4 dan dicari suatu query. Tabel 4.1 Representasi Dokumen Contoh Perhitungan ( 3.1) Dari dokumen-dokumen yang terdapat pada Tabel 4.1 setelah di lakukan filtering dan stemming diperoleh term-term dan frekuensi kemunculannya TF sebagaimana persamaan 2.1 dalam Tabel 4.2. Dengan kolom kata dasar menunjukkan term yang telah diproses, dan kolom Frekuensi menunjukkan jumlah kemunculan term pada dokumen. Tabel 4.2 Contoh Perhitungan Frekuensi Term Kata dasar Frekuensi (TF) d1 d2 d3 d4 t1 كيفية t2 صلاة t3 تهجد t4 رسالة t5 ركن t6 وضوء t7 نية t8 ا ول t9 مسح t10 را س Tabel 4.3 Contoh Perhitungan IDF Term df(t) IDF t1 1 0,60 t2 3 0,12 t3 1 0,60 t4 1 0,60 t5 3 0,12 t6 2 0,30 t7 1 0,60 t8 1 0,60 t9 1 0,60 t10 1 0,60 Dokumen d1 d2 d3 d4 query Isi Dokumen كيفية صلاة التهجد رسالة في اركان الوضوء والصلاة النية هى الا ول م ن ا ركان الصلاة مسح الرا س ركن من ا ركان الوضوء ا ركان الصلاة Dari Tabel 4.2 lalu dihitung inverse document frequency (IDF) sebagaimana dalam persamaan 2.2, dengan hasil perhitungan pada Tabel 4.3. Dengan kolom df(t) menunjukan jumlah kemunculan term pada dataset, dan IDF
5 menunjukan hasil perhitungan persamaan 2.2 dengan jumlah dataset 4. Dari TF yang didapat pada Tabel 4.2 dan IDF pada Tabel 4.3 berdasarkan persamaan 2.3 diperoleh bobot term pada Tabel 4.4. Tabel 4.4 Contoh Perhitungan TFIDF Term TFIDF d1 d2 d3 d4 t1 0,60 0,00 0,00 0,00 t2 0,12 0,12 0,12 0,00 t3 0,60 1,20 0,00 0,00 t4 0,00 0,60 0,00 0,00 t5 0,00 0,12 0,12 0,25 t6 0,00 0,30 0,00 0,30 t7 0,00 0,00 0,60 0,00 t8 0,00 0,00 0,60 0,00 t9 0,00 0,00 0,00 0,60 t10 0,00 0,00 0,00 0,60 Dari hasil perhitungan bobot pada Tabel 4.4 maka selanjutnya dapat dicari jarak kemiripan antara query terhadap dokumen d1, d2, d3, dan d4 menggunakan cosine similarity sebagaimana ditunjukkan pada persamaan 2.4. Untuk menentukan nilai cosine similarity tersebut diperlukan dua langkah. Yang pertama menghitung perkalian vektor antara query dan dokumen, dan yang kedua menghitung dotproduct dari query dan dokumen. Berdasarkan persamaan 2.4 diperoleh hasil perkalian vektor sebagaimana diperlihatkan pada Tabel 4.5. Dengan kemunculan term pada query dianggap sebagai bobot query pada kolom Wq, kolom perkalian vektor q denan dokumen adalah perkalian antara vektor bobot term query dengan bobot term dokumen i dan baris jumlah adalah hasil perkalian vektor TFIDF term dokumen dengan bobot query. Tabel 4.5 Contoh Perhitungan Perkalian Vektor Term query Perkalian vektor q dengan dokumen d1 d2 d3 d4 t t2 1 0,12 0,12 0,12 0 t t t ,12 0,12 0,25 t t t t t Jumlah 0,12 0,25 0,25 0,25 Setelah itu berdasarkan permaan 2.4 juga dihitung dot product (perkalian titik) dari query dan dokumen. Dengan kemunculan term pada query dianggap sebagai bobot query dan dengan bobot TFIDF pada Tabel 4.4, maka diperoleh hasil perkalian titik sebagaimana Tabel 4.6 pada kolom perkalian titik. Tabel 4.6 Contoh Hasil Perkalian Titik Dokumen Perkalian Titik d1 1,21 d2 1,96 d3 1,23 d4 1,33 Dari hasil perkalian vektor pada Tabel 4.5 dan akar jumlah kuadrat bobot dari Tabel 4.6 selanjutnya dapat ditentukan Cosine Distance berdasarkan persamaan 2.4 sebagai berikut. Cos(query,d1) = 0.12/1.21 = 0.08 Cos(query,d2) = 0.25/1.96 = 0.25 Cos(query,d3) = 0,25/1.23 = 0,15 Cos(query,d4) = 0.25/1,33 = 0.17 Dari hasil perhitungan tersebut maka di dapatkan jarak dari query ke dokumen d1,d2, d3 dan d4 yang dapat di lihat pada Tabel 4.7. Tabel 4.7 Hasil cosine similarity Rank dokumen Cosine 1 d2 0,25
6 2 d4 0,17 3 d3 0,15 4 d1 0,08 Karena rentang nilai Cosine Similary antara 0 sampai 1 ya ng artinya 0 dok umen yang dihitung jaraknya tidak mirip sama sekali sedangkan 1 mengindikasikan dokumen tersebut identik / mirip. Dari Tabel 4.7 dapat disimpulkan query paling dekat dengan dokumen d2. 5 Contoh Perangkingan Berdasarkan Susunan Posisi Kata dari Query Dari contoh dokumen untuk perhitungan cosine similarity pada Tabel 4.1 Representasi Dokumen Contoh Perhitungan. Dan hasil perhitungan Tabel 4.7. di hitung bobot kata dari query dengan t adalah kata dari query pada Tabel 4.1. Berdasarkan persamaan 2.5 maka diperoleh hitungan sebagai berikut: Dengan K = 4 dan di adalah dokumen yang mengandung kata dari query t: K i=1 df(t, di) f(i) = (1 0)+(1 0) +(1 1) +(1 0) dengan jumlah dokumen pada dataset yang mengandung kata dari query t: df(t, C) = 1, dengan jumlah dataset sebesar R = 4, dan dengan t = 2 = 1,41 Maka diperoleh Wp = 1,41 Setelah didapat Wp nilai ini dikalikan pada hasil cosine similarity pada dokumen di Tabel 4.7 yang mengandung kata dari query t. Maka nilai cosine similarity baru adalah seperti pada Tabel 5.1. dari table tersebut dapat dilihat terjadi perubahan rangking dokumen d3 da ri rangking ke-4 menjadi ke-3. Tabel 5.1 Hasil Perhitungan Nilai Cosine Similarity Berdasarkan Posisi Kata Pada Query Rank dokumen Cosine 1 d2 0,25 2 d3 0,21 3 d4 0,17 4 d1 0,08 Pada metode ini dokumen yang dikembalikan adalah dokumen yang benar benar mengandung susunan kata pada query. Sehingga yang di kembalikan kepada pengguna adalah dokumen d3 karena mengandung susunan kata sesuai query yang diberikan pengguna. 6 Uji Coba Data yang digunakan dalam uji coba ini merupakan corpus atau kumpulan dokumen teks berbahasa Arab, yang diambil dari 20 kitab dalam perangkat lunak Maktabah Syamilah. halaman kitab-kitab sebagai suatu dokumen. Jumlah total dokumen dari seluruh kitab tersebut adalaha 6642 dokumen. Tiap dokumen tersebut terdiri dari ratarata 426 kata. Dan dari seluruh dokumen dataset tersebut terdapat kata bebeda (distincnt term). Data uji perangkingan pada aplikasi dalam Makalah ini berupa dokumen berisi teks bahasa Arab yang diambil dari kitab pada perangkat lunak Maktabah Syamilah. Dokumen-dokumen inilah yang nanti akan diproses dari tahap preprocessing, penghapusan stopword, pembentukan kata dasar, hingga proses perangkingan itu sendiri Uji pertama dilakukan untuk melihat keterkaitan antara metode perangkingan dokumen berdasarkan posisi kata dari query dengan perangkingan dokumen berdasarkan kata per kata. Pelaksanaan uji coba ini dilakukan dengan memasukkan query satu kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan query tersebut. Pada uji coba ini digunakan query sebanyak tiga seperti terlihat pada. Dari uji coba pertama ini diperoleh hasil temu kembali yang sama baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan dokumen berdasarkan kata per kata sebagaimana Tabel 6.1. Hasil seperti ini didapatkan karena penggunaan query satu kata saja tidak merubah rangking cosine similarity. Perubahan rangking dilakukan dengan modifikasi score cosine similarity menggunakan
7 pembobotan kata dari query pada persamaan WP dilakukan pada dokumen yang berisi kata dari query. Dengan query yang hanya satu kata saja maka modifikasi score cosine similarity ini dilakukan pada seluruh hasil temu kembali. Sehingga rangking yang di hasilkan tidak sama dengan rangking awal sebelum modifikasi Tabel 6.1 Hasil temu kembali pencarian satu kata Rank Q1 Q2 Q3 Kitab Halaman Kitab Halaman Kitab Halaman Uji coba kedua dilakukan untuk mengetahui keberhasilan proses perangkingan dokumen bahasa Arab berdasarkan posisi kata pada query. Keberhasilan proses perangkingan ini bisa dilihat pada hasil evaluasi dengan perhitungan recall, precission,dan F-Measure. Pelaksanaan uji coba ini dilakukan dengan memasukkan query dua kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan query tersebut. Disini di uji cobakan query sebanyak sebelas seperti yang terdapat pada Tabel 6.2. Tabel 6.2 Query Uji Coba II Query Isi Relevan Q1 فراي ض الوضوء 6 Q2 سنن الوضوء 23 Q3 اركان الصلاة 17 Q4 سنن الصلاة 14 Q5 صلاة الجمعه 14 Q6 زكاة الفطر 16 Q7 زكاة المال 13 Q8 صلاة التطوع 11 Q9 صلاة العيدين 18 Q10 سجود السهو 16 Q11 سجود التلاوة 18 Query pada Tabel 6.2 di uji cobakan pada perangkingan berdasarkan posisi kata dari query dan perangkingan kata perkata. Hasil temu kembali setiap query dari Tabel 6.2 dihitung nilai prescision, recall, dan F-Measure nya, baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan kata per kata. Hal ini dimaksudkan untuk menganalisa performa perangkingan dokumen terhadap tiap query. Nilai precision yang tinggi menunjukan keberhasilan pencarian dalam memberikan dokumen yang relevan pada rangkingnya. Dengan nilai 1,00 mengindikasikan pencarian berhasil memberikan dokumen relevan pada perangkingannya. Nilai recall yang semakin tinggi menunjukan keberhasilan proses pencarian dalam mendapat dokumen yang relevan. Dengan nilai 1,00 mengindikasikan proses pencarian berhasil mendapatkan seluruh dokumen yang relevan dengan query. Tabel 6.3 Nilai Rata-Rata evaluasi uji coba II untuk perangkingan berdasar posisi kata Query Precision Recall F-Measure Q1 0,93 0,60 0,68 Q2 0,63 0,15 0,23 Q3 0,67 0,44 0,52 Q4 0,56 0,44 0,49 Q5 0,70 0,50 0,53 Q6 0,48 0,29 0,33 Q7 0,50 0,47 0,52 Q8 0,73 0,45 0,59 Q9 0,47 0,27 0,34 Q10 0,44 0,29 0,32 Q11 0,52 0,25 0,30 Rata-Rata 0,60 0,38 0,44 Tabel 6.4 Nilai Rata-Rata evaluasi uji coba II untuk perangkingan kata per kata Query Precision Recall F-Measure Q1 0,36 0,52 0,37 Q2 0,76 0,33 0,42 Q3 0,44 0,32 0,36 Q4 0,13 0,13 0,13 Q5 0,32 0,24 0,26 Q6 0,46 0,30 0,33
8 Q7 0,46 0,42 0,42 Q8 0,43 0,46 0,43 Q9 0,46 0,30 0,34 Q10 0,37 0,27 0,29 Q11 0,67 0,36 0,43 Rata-Rata 0,44 0,33 0,34 Dari uji coba kedua metode pencarian tersebut didapati peningkatan nilai evaluasi pada perangkingan berdasarkan posisi kata dari query.dibandingakan dengan perangkingan kata per kata. Baik pada nilai evaluasi precision, recall, dan F-Measure. Nilai rata-rata keseluruhan precision meningkat dari 0,44 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,60 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. hal ini disebabkan modifikasi score yang digunakan pada pencaraian berdasarkan pisisi kata dari query mengakibatkan dokumen-dokumen yang lebih relevan dengan bentuk kata dari query dikembalikan pada rangking yang atas. Dibandingkan dengan pencarian kata per kata yang tidak menghiraukan susunan kata. Peningkatan nilai evaluasi juga didapati pada nilai rata-rata keseluruhan recall yang meningkat dari 0,33 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,38 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. Peningkatan ini menunjukkan dokumen-dokumen yang relevan dengan query lebih banyak di kembalikan oleh perangkingan berdasarkan posisi kata dari query. Hal ini dikarenakan metode ini menggunakan susunan kata dari query dan membentuknya sebagai kata dari query, sehingga hasil temu kembali yang dihasilkan lebih sesuai dengan konteks dari query dibandinkan dengan perangkingan kata per kata. Dengan meningkatnya hasil evaluasi precision dan recall dari perangkingan berdasarkan posisi kata dari query dibandingkan dengan perangkingan kata per kata, maka nilai rata-rata F-Measure yang dihasilkan juga meningkat. Dengan nilai rata-rata keseluruhan F-Measure perangkingan berdasarkan posisi kata dari query 0,44 pada Tabel 6.3 meningkat dari 0,34 pada Tabel 6.4 untuk perangkingan kata per kata. 7 7BKesimpulan dan Saran Berdasarkan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan bahwa, perangkingan berdasarkan posisi dokumen berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab dengan nilai rata-rata F-Measure 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Dibandingkan dengan perangkingan kata perkata nilai-nilai evaluasi perangkingan berdasarkan posisi kata dari query meningkat lebih tinggi. Untuk penelitian lebih lanjut metode yang dibahas di disini dapat di palikasikan untuk pemilihan dan pembobotan kata dari query pada query yang panjang, untuk meningkatkan kesesuaian konteks query dengan pencarian dokumen. 8 8BDaftar Pustaka [1] C.D. Manning, R. Prabhakar, and S. Hinrich, An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press, [2] A. Ibrahim El-Khair, "Arabic Information Retrieval," Information Science and Technology, vol. 41, no. 1, pp , [3] G. Salton, Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer.: Addison-Wesly, [4] M. Haidar and L. Andrew, "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designe for English Do the Job?," Libri, vol. 51, pp , [5] L.S. Leah and B. Lisa, "Improving Stemming for Arabic Information Retrieval: Light Stemming and Cooccurrence Analysis," Special Interest Group on Information Retrieval, pp , [6] E.A. Esraa, B.L. Nagma, and M.F. Tolba, "An Efficient Rangking Module for an Arabic Search Engine," International Journal of Computer Science and Network Security, vol. 10, no. 2, pp , 2010.
9 [7] H.M. Suleiman, "Character Contiguity in N-gram-based Word Matching: the Case for Arabic Text Searching," Information Processing and Management, pp , [8] N. Ahmad, Z.A. Agus, and P. Diana, Makalah Jurusan Teknik Informatika dengan Judul: Implementasi N-Gram Dalam Pencarian Teks Sebagai Penunjang Aplikasi Perpustakaan Kitab Berbahasa Arab. Surabaya, Indonesia: Institut Teknologi Sepuluh Nopember, [9] H.M. Suleiman, "Arabic String Searching in the Context of Character Code Standards and Orthographic Variations," Computer Standards and Interfaces, vol. 20, pp , [10] M. Zhu, S. Shi, M. Li, and J. Wen, "Effective top-k Computation with Term Proximity Support," Information Processing & Management, vol. 45, pp , [11] Y. Lingpeng, J. Donghong, and L. Munkew, "Document reranking by term distribution and maximal marginal relevance for chinese information retrieval," Information Processing and Management, vol. 43, pp , 2007.
Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab
Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab M. Ali Fauzi 1, Dr. Agus Zainal Arifin 2, S.Kom, M.Kom, Anny Yuniarti 3, S.Kom, M.Comp.Sc Institut Teknologi Sepuluh
Lebih terperinciPerangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing
Wahib, Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing 83 Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Aminul Wahib 1, Pasnur 2, Putu Praba Santika
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciPEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB
PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB Septiyawan R. Wardhana Jurusan Teknik Informatika Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciSistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciROCCHIO CLASSIFICATION
DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi
Lebih terperinciPengujian Kerelevanan Sistem Temu Kembali Informasi
Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciPEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB
Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 2, No. 2, Oktober 2015, hlm. 132-137 PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB Septiyawan R.
Lebih terperinciRANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
Lebih terperinciSistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)
Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI
IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik
Lebih terperinciBAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
Lebih terperinciStudi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine
Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,
Lebih terperinciTEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK
F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciPEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi
Lebih terperinci1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah
1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciPRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Lebih terperinciBAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan
Lebih terperinciMAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA
MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email
Lebih terperinciSistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient
Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,
Lebih terperinciSISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak
SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas
Lebih terperinciANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE
ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE Trisna Ari Roshinta 1, Faisal Rahutomo 2, Deddy Kusbianto 3 1,2,3 Teknik Informatika, Teknologi Informasi, Politeknik Negeri
Lebih terperinciVECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami
Lebih terperinciINTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com
Lebih terperincicommit to user BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek
Lebih terperinciImplementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan
Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently
Lebih terperinciBAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN
28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi
Lebih terperinciPENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Lebih terperinciFatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang
45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinciRata-rata token unik tiap dokumen
Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciRELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE
RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE Sri Ulinar Romatua N B¹, Yanuar Firdaus A.w.², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Dengan semakin
Lebih terperinciIMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi
Lebih terperinciAnalisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering
Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciImplementasi Metode Document Oriented Index Pruning pada Information Retrieval System
Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,
Lebih terperinciIMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,
Lebih terperinciIMPLEMENTASI N-GRAM DALAM PENCARIAN TEKS SEBAGAI PENUNJANG APLIKASI PERPUSTAKAAN KITAB BERBAHASA ARAB. Ahmad Najibullah ( )
IMPLEMENTASI N-GRAM DALAM PENCARIAN TEKS SEBAGAI PENUNJANG APLIKASI PERPUSTAKAAN KITAB BERBAHASA ARAB Ahmad Najibullah (51016100803) Latar Belakang (1) Penerapan Information Retrieval pada teks Berbahasa
Lebih terperinciSISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL
Sistem Informasi Pengelolaan Arsip Statis... SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Silmi Kafatan, Djalal Er Riyanto,
Lebih terperinciAplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)
Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri
Lebih terperinciPENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI
18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,
Lebih terperinciKlasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor
Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga
Lebih terperinciText & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga
Lebih terperinciV HASIL DAN PEMBAHASAN
22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
Lebih terperinciBAB I PENDAHULUAN I.1. Latar Belakang Masalah
BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user
Lebih terperinciEFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA
EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciSistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model
392 Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model Tudesman* 1, Enny Oktalina 2, Tinaliah 3, Yoannita 4 1-4 STMIK Global Informatika MDP Jl. Rajawali No. 14 Palembang
Lebih terperinciPemanfaatan Permodelan Ruang Vektor untuk Pengecekan Kemiripan
Pemanfaatan Permodelan Ruang Vektor untuk Pengecekan Kemiripan Andri Hardono Hutama - 13514031 1 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha
Lebih terperinciPENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM
Pengukuran Kemiripan Dokumen dengan Menggunakan Tools Gensim (Sekarwati dkk.) PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM Kemal Ade Sekarwati 1*, Lintang Yuniar Banowosari 2, I Made Wiryana
Lebih terperinciPENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi
Lebih terperinciSISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR
SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinciMetode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia
JLK Vol. 1, No. 1 Maret 2018 Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia Maryamah #1, Made Agus Putra Subali #2, Lailly S. Qolby #3, Agus Zainal Arifin #4, M. Ali Fauzi
Lebih terperinciAPLIKASI DETEKSI KEMIRIPAN TUGAS PAPER
APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER Anthony Anggrawan 1, Azhari 2, 1 Tenaga Pengajar Teknik Informatika STMIK Bumigora Mataram 2 Mahasiswa Teknik Informatika STMIK Bumigora Mataram Jl Ismail Marzuki,
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciSISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA
SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA Broto Poernomo T.P. 1 dan Ir. Gunawan 2 1 Teknik Informtika Sekolah Tinggi
Lebih terperinciPERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL
PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE
Lebih terperincibeberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
Lebih terperinciQUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL
QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen
Lebih terperinciImplementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks
Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Penyusun: Andreas Daniel Arifin - 5108100132 Pembimbing: Isye Arieshanti, S.Kom, M.Phil Dr. Agus
Lebih terperinciPENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.
PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciPembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 1 Pembuatan Kakas Komunikasi Antar Perangkat Lunak Anugerah Firdaus, Daniel Oranova Siahaan dan Rizky Januar Akbar Jurusan Teknik
Lebih terperinciPenerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi
Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN
Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas
Lebih terperinciKLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)
Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat
Lebih terperinciAPLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA
APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas
Lebih terperinciSISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS
SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS Surya Agustian 1, Imelda Sukma Wulandari 2 1,2 Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN
Lebih terperinciBAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era globalisasi seperti sekarang ini, perkembangan teknologi komputer berpengaruh besar pada tingkat kebutuhan manusia di berbagai bidang seperti bidang
Lebih terperinciPENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR
PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinci