RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

dokumen-dokumen yang mirip
Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Information Retrieval

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

KOM341 Temu Kembali Informasi

TEMU KEMBALI INFORMASI

BAB II TINJAUAN PUSTAKA

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

BAB II LANDASAN TEORI

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

JULIO ADISANTOSO - ILKOM IPB 1

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Sistem Temu Kembali Informasi/ Information Retrieval

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PENDAHULUAN. Latar belakang

Information Retrieval

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

BAB 1 PENDAHULUAN UKDW

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB II LANDASAN TEORI

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB 3 LANDASAN TEORI

SISTEM TEMU KEMBALI INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

BAB 1 PENDAHULUAN UKDW

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB 2 LANDASAN TEORI

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PENDAHULUAN. 1.1 Latar Belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

Aplikasi Indonesian News Aggregator Berbasis Android yang Didukung oleh Sistem Perekomendasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

ROCCHIO CLASSIFICATION

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

BAB II TINJAUAN PUSTAKA

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB II LANDASAN TEORI

Document Indexing dan Term Weighting. M. Ali Fauzi

BAB I. Pendahuluan. 1. Latar Belakang Masalah

commit to user BAB II TINJAUAN PUSTAKA

PENDAHULUAN. Latar belakang

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB III METODOLOGI PENELITIAN

BAB 2 TINJAUAN PUSTAKA

ANALISIS CLUSTER PADA DOKUMEN TEKS

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

BAB II LANDASAN TEORI

TEMU KEMBALI INFORMASI

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

Temu-Kembali Informasi 2017

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB 2 LANDASAN TEORI

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB III Landasan Teori

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

JULIO ADISANTOSO - ILKOM IPB 1

Transkripsi:

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights. Memahami model Extended Boolean untuk IR. Memahami language model dengan metode query likelihood untuk IR. 1

Text & Web Mining - Budi Susanto - TI UKDW 3 Diskusi Latihan Terdapat 3 dokumen D1 = Manajemen Sistem Informasi D2 = Sistem Sumber Daya Manusia D3 = Manajemen Informasi Penggajian Q = informasi daya manusia Hitunglah rangking dari semua dokumen terhadap query dengan pendekatan vector space model! Text & Web Mining - Budi Susanto - TI UKDW 4 Contoh VSM Matrik Term Frekuensi Manajemen Sistem Informasi Sumber Daya Manusia Penggajian d1 1 1 1 0 0 0 0 d2 0 1 0 1 1 1 0 d3 1 0 1 0 0 0 1 Q 0 0 1 0 1 1 0 Manajemen Sistem Informasi Sumber Daya Manusia Penggajian d1 0.176091 0.176091 0.176091 - - - - d2-0.176091-0.477121 0.477121 0.477121 - d3 0.176091-0.176091 - - - 0.477121 Q - - 0.176091-0.477121 0.477121 - =1/1*idf =1/1*idf =1/1*idf 2

Text & Web Mining - Budi Susanto - TI UKDW 5 Contoh VSM Length of Document + Query D1 = sqrt(3*(0.18^2)) = 0.304999007 D2 = sqrt(0.18^2 + 3*(0.48^2)) = 0.844951008 D3 = sqrt(2*(0.18^2) + 0.48^2) = 0.538201593 Q = qrt(0.18^2 + 2*(0.48^2)) = 0.697350353 Kemiripan D dengan Q cossim(d1, Q) = (0.176091 * 0.176091)/(0.304999*0.697350) cossim(d2, Q) = (0.477121* 0.477121+ 0.477121* 0.477121)/ (0.84495*0.69735) cossim(d3, Q) = (0.176091* 0.176091)/(0.5382*0.69735) Sehingga urutan ranking: D2, D1, D3 Text & Web Mining - Budi Susanto - TI UKDW 6 1. Probabilistic Retrieval Model probabilitas menghitung koefisien kemiripan antara sebuah query dan dokumen sebagai sebuah probabilitas bahwa dokumen tersebut akan relevan dengan query. Semua penelitian terhadap probabilitic retrieval berakar pada konsep perkiraan bobot term berdasar seberapa sering term muncul atau tidak dalam dokumen relevan dan non-relevan. 3

Text & Web Mining - Budi Susanto - TI UKDW 7 Simple Term Weights Term dalam query dapat dilihat sebagai indikator bahwa dokumen relevan. Sehingga ada atau tidaknya term query dapat digunakan untuk memprediksi apakah dokumen relevan atau tidak. Operasi dot product semua bobot dapat digunakan untuk menghitung probabilitas relevansi. Sebagian besar model probabilitic mengasumsikan independensi tiap term. Karena untuk memperhatikan dependensi tiap term membutuhkan komputasi lebih mahal dan membutuhkan adanya pelatihan ke sistem. Text & Web Mining - Budi Susanto - TI UKDW 8 Simple Term Weights q = { t 1, t 2 } Dokumen Terambil t 1 t 1 t 2 t 1 t 2 t 2 P(t 1 Di relevan) = ½ P(t 1 Di non relevan) = 2/3 P(t 2 Di relevan) = 1 P(t 2 Di non relevan ) = 1/3 4

Text & Web Mining - Budi Susanto - TI UKDW 9 Simple Term Weights Metode Robertson dan Sparck Jones (1976) menyediakan mekanisme perhitungan probabilitas relevan dan tidak relevan untuk sebuah term. Definisi asumsi mutually exclusive independence: I1 = distribusi term dalam dokumen relevan adalah independen dan distribusi term dalam seluruh dokumen juga independen I2 = distribusi term dalam dokumen relevan adalah independen dan distribusi term dalam dokumen non-relevan juga independen. Definisi dua metode untuk presentasi hasil: O1 = kemungkinan relevan didasarkan hanya pada kemunculan term yang dicari dalam dokumen O2 = kemungkinan relevan didasarkan baik pada kemunculan atau ketidakmunculan term yang dicari dalam dokumen Text & Web Mining - Budi Susanto - TI UKDW 10 Simple Term Weights Empat bobot diturunkan dari kombinasi prinsip rankings dan asumsi independensi 5

Text & Web Mining - Budi Susanto - TI UKDW 11 Simple Term Weights N = jumlah dokumen dalam koleksi R = jumlah dokumen relevan untuk query q n = jumlah dokumen yang mengandung term t r = jumlah dokumen relevan yang memiliki term t Text & Web Mining - Budi Susanto - TI UKDW 12 Simple Term Weights O1 O2 I1 w 1 w 3 I2 w 2 w 4 W 4 merupakan hasil terbaik W 3 dan w 4 adalah hasil lebih baik dari pada w 1 dan w 2. 6

Text & Web Mining - Budi Susanto - TI UKDW 13 Simple Term Weights Jika dalam suatu perhitungan bobot diketahui adanya inifiniti, maka perhitungan keempat bobot dapat diubah menjadi:! # w 1 = log# # "#! # w 2 = log# # "# (r + 0.5) (R +1) (n +1) (N + 2) $ & & & %& (r + 0.5) (R +1) (n r + 0.5) (N R +1) $ & & & %& " (r + 0.5) % $ (R r + 0.5) ' w 3 = log$ ' $ (n +1) ' # $ (N n +1) &' " (r + 0.5) % $ (R r + 0.5) ' w 4 = log$ ' $ (n r + 0.5) ' # $ (N n (R r)+ 0.5) &' Text & Web Mining - Budi Susanto - TI UKDW 14 Contoh Q: gold silver truck D 1 = Shipment of gold damaged in a fire D 2 = Delivery of silver arrived in a silver truck D 3 = Shipment of gold arrived in a truck Oleh karena dalam model probabilistik diperlukan dokumen pelatihan, maka ketiga dokumen diasumsikan adalah dokumen pelatihan. D 1 dan D 2 adalah relevan terhadap query. 7

Text & Web Mining - Budi Susanto - TI UKDW 15 Simple Term Weights gold silver truck N 3 3 3 n 2 1 2 R 2 2 2 r 1 1 1 Text & Web Mining - Budi Susanto - TI UKDW 16 Simple Term Weights Hitunglah bobot tiap term dalam query untuk w 1, w 2, w 3, dan w 4. Secara ringkas dapat ditunjukkan pada tabel berikut: w 1 w 2 w 3 w 4 gold -0.079-0.176-0.176-0.477 silver 0.097 0.301 0.176 0.477 truck 0.143 0.523 0.523 1.176 8

Text & Web Mining - Budi Susanto - TI UKDW 17 Simple Term Weights Selanjutnya, hitung koefisien kemiripan dengan cara menjumlahkan bobot term query yang dimiliki masingmasing dokumen. w 1 w 2 w 3 w 4 D 1-0.079-0.176-0.176-0.477 D 2 0.240 0.824 0.699 1.653 D 3 0.064 0.347 0.347 0.699 Rangking dokumen: D 2, D 3, D 1. Text & Web Mining - Budi Susanto - TI UKDW 18 Latihan Simple Term Weight Terdapat 3 dokumen D1 = Manajemen Sistem Informasi D2 = Sistem Sumber Daya Manusia D3 = Manajemen Informasi Penggajian Q = informasi daya manusia Tampilkan urutan dokumen yang ditampilkan dengan menggunakan strategi Simple Term Weight. 9

Text & Web Mining - Budi Susanto - TI UKDW 19 2. Extended Boolean Ide dasar adalah memberikan bobot term untuk setiap term dalam query dan untuk tiap term dalam dokumen. Bobot-bobot term dikaitkan dengan perangkingan dokumen. Misal diberikan query (t 1 OR t 2 ) yang akan mengembalikan dokumen yang berisi t 1 dengan bobot w 1 dan t 2 dengan bobot w 2. Jika baik w 1 dan w 2 adalah 1, sebuah dokumen yang berisi kedua term tersebut diberikan kemungkinan ranking paling tinggi. Dengan menggunakan Eucledian distance, dari titik (w 1, w 2 ) dari titik asal, kita dapat mendapatkan koefisien kemiripan. Text & Web Mining - Budi Susanto - TI UKDW 20 Extended Boolean 2 dimensi Untuk sebuah dokumen berisi term t 1 dan t 2 dengan bobot w 1 dan w 2, maka koefisien kemiripan dapat dihitung sebagai: sc(q, d i ) = (w 1 ) 2 + (w 2 ) 2 Nilai SC tertinggi adalah 1.414 10

Text & Web Mining - Budi Susanto - TI UKDW 21 Extended Boolean 2 dimensi Jika t1 t2 dinormalisasikan: sc(q t1 t 2, d i ) = (w 1 )2 + (w 2 ) 2 2 Jika t1 t2 dinormalisasikan : sc(q t1 t 2, d i ) =1 (1 w 1) 2 + (1 w 2 ) 2 2 Text & Web Mining - Budi Susanto - TI UKDW 22 Extended Boolean p-norm Untuk sembarang term, m, kita mendapatkan ekspresi yang tergantung pada parameter-p. 11

Text & Web Mining - Budi Susanto - TI UKDW 23 Extended Boolean normalisasi TF-IDF Oleh karena nilai bobot term harus bernilai [0, 1], maka nilai bobot TF-IDF tiap term dalam dokumen harus dinormalisasikan. Dimana: tf max i,j = maksimum frekuensi term I dalam dokumen j idf max g = maksimum idf dari sebuah term dalam koleksi c Text & Web Mining - Budi Susanto - TI UKDW 24 Latihan #2 D 1 = Shipment of gold damaged in a fire D 2 = Delivery of silver arrived in a silver truck D 3 = Shipment of gold arrived in a truck Q 1 : gold OR silver OR truck Q 2 : gold AND silver AND truck Q 3 : gold OR silver AND truck 12

Text & Web Mining - Budi Susanto - TI UKDW 25 3. Query Likelihood Language Model Statistical language model adalah sebuah mekanisme probabilistik untuk menghasilkan sebuah deretan teks. Language model untuk IR dimulai tahun 1998 oleh Ponte dan Croft. Idenya adalah dokumen dapat dirangking terhadap kemungkinan (likelihood) dari generating query. Koefisien kemiripan Q dan D i adalah: SC(Q, D i ) = P(Q M Di ) Dimana M Di adalah language model dalam dokumen D i. Text & Web Mining - Budi Susanto - TI UKDW 26 Language Model Generating sebuah query memerlukan sebuah model probabilistik untuk query. Ponte dan Croft menghitung probabilitas query sebagai product probabilitas baik terhadap adanya term dalam query atau tidak. SC(Q, D i ) = P(t j M Di ) (1 P(t j M Di )) t j Q t Q 13

Text & Web Mining - Budi Susanto - TI UKDW 27 Language Model Model p(t j M Di ) dapat diperkirakan dengan model: p(t j M Dj ) = p ml (t j M Di ) Dimana p ml (t j M Di ) adalah perkiraan maximum likelihood dari distribusi term, yang diberikan dengan: p ml (t j M Di ) = tf (t, D ) j i dl Di Dimana dl Di adalah panjang dokumen D i. Text & Web Mining - Budi Susanto - TI UKDW 28 Language Model Koleksi Dokumen D 1 M D1 P(Q M D1 ) D 2 M D2 P(Q M D2 ) Query (Q) D 3 M D3 P(Q M D3 ) Model Dokumen 14

Text & Web Mining - Budi Susanto - TI UKDW 29 Contoh Perkiraan Maximum Likelihood D 1 = Shipment of gold damaged in a fire D 2 = Delivery of silver arrived in a silver truck D 3 = Shipment of gold arrived in a truck Q 1 : gold silver truck P ml (silver M Di ) = tf (silver, D i ) dl Di = 0 Text & Web Mining - Budi Susanto - TI UKDW 30 Smoothing untuk ML Untuk menghindari masalah karena term query tidak ada dalam dokumen, perlu diterapkan smoothing. # % p(t M Di ) = $ % & dimana p avg (t) = d(t d ) p ml (t, d) (1 R(t,d )) p avg (t) R(t,d ) cft cs Jika tf(t,d)>0 Selain itu p ml (t M D )! 1.0 $! f $ R (t,d ) = # & # t & df t " 1.0 + f t % " 1.0 + f t % f t = p avg (t) dl d tf t,d 15

Text & Web Mining - Budi Susanto - TI UKDW 31 Contoh cs = 22 token Total jumlah token dalam tiap dokumen (dl d ) D1 = 7, D2 = 8, D3 = 7 Jumlah dokumen dari tiap term t, df t, adalah a arrived damaged delivery fire gold in of shipment silver truck df t 3 2 1 1 1 2 3 3 2 1 2 Jumlah kemunculan token dalam koleksi, cf t : a arrived damaged delivery fire gold in of shipment silver truck cf t 3 2 1 1 1 2 3 3 2 2 2 Text & Web Mining - Budi Susanto - TI UKDW 32 Contoh Jumlah kemunculan tiap term di tiap dokumen, tf t,d : a arrived damaged delivery fire gold in of shipment silver truck D 1 1 0 1 0 1 1 1 1 1 0 0 D 2 1 1 0 1 0 0 1 1 0 2 1 D 3 1 1 0 0 0 1 1 1 1 0 1 16

Text & Web Mining - Budi Susanto - TI UKDW 33 Contoh Pertama, kita hitung perkiraan maximum likelihood dari kemungkinan term t untuk dokumen d. P ml (t M d ) D1 D2 D3 a 0.143 0.125 0.143 arrived 0 0.125 0.143 damaged 0.143 0 0 delivery 0 0.125 0 fire 0.143 0 0 gold 0.143 0 0.143 in 0.143 0.125 0.143 of 0.143 0.125 0.143 shipment 0.143 0 0.143 silver 0 0.250 0 truck 0 0.125 0.143 Text & Web Mining - Budi Susanto - TI UKDW 34 Contoh Kedua, kita hitung rata-rata kemungkinan term t dalam dokumen yang berisi term tersebut. a arrived damaged delivery fire gold P avg (t) 0.137 0.134 0.143 0.125 0.143 0.143 in of shipment silver truck P avg (t) 0.137 0.137 0.143 0.250 0.134 17

Text & Web Mining - Budi Susanto - TI UKDW 35 Contoh Ketiga, kita hitung resiko sebuah term t dalam sebuah dokumen d. Sebelumnya kita hitung rata-rata kemunculan term dalam dokumen ( f ). f t a arrived Damaged delivery fire gold D 1 0.958 0.938 1 0.875 1 1 D 2 1.096 1.071 1.143 1 1.143 1.143 D 3 0.958 0.938 1 0.875 1 1 f t In Of Shipment Silver truck D 1 0.958 0.958 1 1.750 0.938 D 2 1.096 1.096 1.143 2 1.071 D 3 0.958 0.958 1 1.750 0.938 Text & Web Mining - Budi Susanto - TI UKDW 36 Contoh Nilai resiko tiap term di tiap dokumen ( R (t,d) ) R t,d D1 D2 D3 a 0.250 0.249 0.250 arrived 0.516 0.250 0.250 damaged 0.250 0.467 0.500 delivery 0.533 0.250 0.533 fire 0.250 0.467 0.500 gold 0.250 0.467 0.250 in 0.250 0.249 0.250 of 0.250 0.249 0.250 shipment 0.250 0.467 0.250 silver 0.364 0.148 0.364 truck 0.516 0.249 0.250 18

Text & Web Mining - Budi Susanto - TI UKDW 37 Contoh Keempat, kita hitung probabilitas bentuk query untuk sebuah model dokumen. p(t M d ) D1 D2 D3 A 0.141 0.128 0.141 arrived 0.091 0.127 0.141 damaged 0.143 0.045 0.045 delivery 0.045 0.125 0.045 fire 0.143 0.045 0.045 gold 0.143 0.091 0.143 in 0.141 0.128 0.141 of 0.141 0.128 0.141 shipment 0.143 0.091 0.143 silver 0.091 0.250 0.091 truck 0.091 0.127 0.141 Text & Web Mining - Budi Susanto - TI UKDW 38 Contoh Kelima, kita hitung kemiripan Query dengan model dokumen. D 1 D 2 D 3 P(Q M d ) 0.000409 0.001211 0.000743 19

Text & Web Mining - Budi Susanto - TI UKDW 39 Latihan Query Likelihood Terdapat 3 dokumen D1 = Manajemen Sistem Informasi D2 = Sistem Sumber Daya Manusia D3 = Manajemen Informasi Penggajian Q = informasi daya manusia Tampilkan urutan dokumen yang ditampilkan dengan menggunakan strategi Query Likelihood. Text & Web Mining - Budi Susanto - TI UKDW 40 TERIMA KASIH Budi Susanto 20