KOM341 Temu Kembali Infrmasi Prses Temu-Kembali KULIAH #6 Relevance feedback Query epansin 2 Cnth regan Relevance feedback: user memberi feedback pada dkumen hasil yang dianggap relevan User memberikan query pendek dan sederhana User memberi tanda pada dkumen yang dihasilkan sebagai relevan dan tidak relevan. IRs menghitung dan memperbaiki query berdasarkan feedback dari user tadi. Dilakukan berulang sesuai dengan banyaknya iterasi yang diinginkan. Ide: sulit memfrmulasikan query yang baik ketika tidak tahu tentang kleksi yang ada. 3 4 Cnth Hasil Query Awal Image search engine http://nayana.ece.ucsb.edu/imsearch/imsearch.html 5 6 JULIO ADISANTOSO - ILKOM IPB 1
Hasil Setelah RF 7 8 Refrmulasi Query Kita dapat mengubah query berdasarkan pada relevance feedback dan menerapkan vectr space mdel. Gunakan hanya dkumen yang ditandai. Relevance feedback dapat meningkatkan recall dan precisin Berdasarkan feedback dari user Berdasarkan infrmasi yang diperleh dari sekumpulan dkumen awal yang diperleh Berdasarkan pada infrmasi glbal dari kleksi dkumen 9 10 Rcchi Algrithm Best Query Implementasi RF berdasarkan vectr space mdel. Memaksimumkan sim (Q, C r ) - sim (Q, C nr ) Optimal query: Q pt = ptimal query; C r = dk. relevan; N = ukuran kleksi Tidak realistik: kita tidak tahu dk. Yang relevan. Optimal query nn-relevant dcuments relevant dcuments 11 12 JULIO ADISANTOSO - ILKOM IPB 2
Rcchi 1971 Algrithm Initial query Revised query knwn nn-relevant dcuments knwn relevant dcuments Praktis menggunakan: q m = query yang dimdifikasi; q 0 = query awal; α,β,γ: bbt yang dipilih; D r = vektr dk relevan yg diketahui; D nr = vektr tdk relevan yg diketahui Query baru mendekati dkumen relevan, dan menjauhi dkumen yang tidak relevan Bbt istilah dapat menjadi negatif Bbt istilah yang negatif dihilangkan (dibuat 0) 13 14 Cnth Misal diketahui: Misalkan : α=1, β=¾, =¼ Cnth = (0 0 5 10 2) + ¾ (1/3) [ (1 10 19 0 2) + (7 4 1 3 8) + (9 5 2 1 2) ] ¼ (4 0 12 8 20) = (0 0 5 10 2) + (4¼ 4¾ 5½ 1 3) (1 0 3 2 5) = (3¼ 4¾ 7½ 9 0) Similarity (dt prduct) sim(d 1, q) = 99 sim(d 1, q ) = 193¼ naik sim(d 2, q) = 180 sim(d 2, q ) = 175 turun sim(d 3, q) = 51 sim(d 3, q ) = 76¼ naik sim(d 4, q) = 24 sim(d 4, q ) = 77 naik 15 16 Evaluasi RF Gunakan q 0 dan hitung grafik P/R Gunakan q m dan hitung grafik P/R Bandingkan. Pseud Blind relevance feedback Metde untuk analisis lkal secara tmatis: Menggunakan metde relevance feedback tanpa input eksplisit dari user. Pseud Hanya asumsikan dkumen yang diperleh pada tp n adalah relevan, dan gunakan untuk membentuk query yang baru. Query epansin diperblehkan berisi kata-kata yang berkaitan dengan kata-kata pada query. 17 18 JULIO ADISANTOSO - ILKOM IPB 3
Pseud Ambil tp n dkumen Dari semua kata-kata pada dkumen tsb., ambil tp t kata Urutan kata-kata menunjukkan cara kata-kata tersebut diurutkan: n (banyaknya dkumen yang berisi kata t) f (jumlah kemunculan kata t) n * idf f * idf Pseud Cnth: Tp 3 dkumen: D1 : A, B, B, C, D D2 : C, D, E, E, A, A D3 : A, A, A Asumsikan idf dari A=1, B=1, C = 1, D=2, E = 2 Rank: kata n f n * idf f * idf A 3 6 3 6 B 1 2 1 2 C 2 2 2 2 D 2 2 4 4 E 1 2 4 8 19 20 Query Epansin Query Epansin Banyak kaitan dengan RF: QE merupakan suatu teknik umum untuk memperbaiki query sehingga dapat memperleh hasil yang lebih baik. Idenya adalah mengubah query sehingga lebih dekat ke dkumen yang relevan. Cara mengubahnya : menambah, membuang, atau mengubah bbt kata pada query. RF vs QE Pada RF, user memberikan input tambahan (relevant/tidak-relevant) pada dkumen, yang digunakan untuk membbt kembali kata-kata pada dkumen Pada QE, user memberikan tambahan input (kata yg baik/tidak baik) pada kata atau frase. 22 Metde Refrmulasi Query Glbal methds QE menggunakan thesaurus atau WrdNet QE melalui thesaurus tmatis Teknik mirip kreksi ejaan Lcal/basic methds Relevance feedback Pseud relevance feedback Indirect relevance feedback Thesaurus Suatu thesaurus memberikan infrmasi tentang synnym dan kata-kata serta frase yang secara semantik berkaitan. Misal (http://thesaurus.reference.cm): market Part f Speech: verb Definitin: package and sell gds Synnyms: advertise, barter, display, echange, merchandise, ffer fr sale, retail, vend, whlesale Antnyms: buy 23 24 JULIO ADISANTOSO - ILKOM IPB 4
Ekspansi Query dgn Thesaurus Tidak memerlukan input dari user Untuk setiap kata t pada suatu query, ekspansi query dengan sinnim dan kata lain t dari thesaurus. Bbt kata-kata tambahan dapat lebih kecil daripada kata-kata pada query awal. Biasanya meningkatkan recall. Banyak digunakan pada bidang ilmu pengetahuan / teknik Wrdnet http://www.cgsci.princetn.edu/~wn/ Suatu database yang detil berisi hubungan semantik antara kata- kata dalam bahasa Inggris. Kira- kira berisi 144,000 kata dalam bahasa Inggris. Kata benda, sifat, kerja, dan keterangan dikelmpkkan menjadi 109,000 set sinnim yang disebut synsets. 25 26 Hubungan Pada WrdNet Synset Antnym: frnt back Attribute: benevlence gd (nun t adjective) Pertainym: alphabetical alphabet (adjective t nun) Similar: unquestining abslute Cause: kill die Hlnym: chapter tet (part-f) Mernym: cmputer cpu (whle-f) Hypnym: tree plant (specializatin) Hypernym: fruit apple (generalizatin) QE menggunakan WrdNet Tambahkan sinnim pada synset yang sama. Tambahkan hipnim untuk memasukkan katakata khusus. Tambahkan hipernim untuk membuat query lebih umum. Tambahkan kata-kata lain yang berkaitan untuk memperluas query. 27 28 QE menggunakan WrdNet Cnth query awal : infrmatin system WrdNet (synnym): infrmatin : message, cntent, subject matter, substance system : grup, gruping Query epansin: infrmatin message system grup Tipe Ekspansi Query Glbal Analysis: (statis; dari semua dkumen dalam kleksi) Cntrlled vcabulary Manual thesaurus Autmatically derived thesaurus (kemunculan secara statistik) Based n query lg mining (umum di web) Lcal Analysis: (dynamic) Analisis dkumen yang terambil 29 30 JULIO ADISANTOSO - ILKOM IPB 5
Cntrlled Vcabulary Autmatic Thesaurus Generatin Membuat thesaurus secara tmatis dengan menganalisis dkumen dalam kleksi Dua pendekatan utama: Berdasarkan kemunculan kata Berdasarkan hubungan gramatikal Kemunculan kata lebih rbust, sedangkan hubungan gramatikal lebih akurat. 31 32 C-ccurrence Thesaurus Cara paling sederhana adalah menghitung kesamaan antar kata (term-term similarities) in C = AA T dimana A adalah matrik term-dcument. w i,j = (nrmalized) weighted cunt (t i, d j ) n d j t i m 33 JULIO ADISANTOSO - ILKOM IPB 6