KOM341 Temu Kembali Informasi Proses Temu-Kembali KULIAH #4 Pemoelan IR Boolean moel Vector space moel Konsep IR Pemoelan IR Moel IR iefinisikan sebagai empat komponen [D, F, Q, R(q, )] Keterangan: D aalah kumpulan okumen Q aalah query F menunukkan pemoelan okumen an query R(q, ) aalah fungsi peringkat yang ikaitkan engan suatu nilai R, imana q Q an D Set Theoretic Moel IR Classic Moels Fuzzy Extene Boolean Boolean Moel U s e r T a s k Retrieval: Ahoc Filtering Browsing boolean vector probabilistic Structure Moels Non-Overlapping Lists Proximal Noes Browsing Flat Structure Guie Hypertext Algebraic Generalize Vector Lat. Semantic Inex Neural Networks Probabilistic Inference Network Belief Network Exact match, pencocokan secara tepat sama. Query berbentuk ekspresi boolean. Dokumen bisa cocok atau tiak cocok engan query yang iberikan. Hasilnya berupa sekumpulan okumen yang cocok. Tiak aa peringkat okumen sesuai engan query yang iberikan. 1
Boolean Moel Bobot w t, {0,1} Query q teriri ari kata, frase, atau konsep yang ihubungkan engan operator Boolean AND, OR, atau NOT. Contoh: q = [k a (k b k c )] = k a && (k b!k c ) Contoh 1 An the angels, all palli an wan, 2 Uprising, unveiling, affirm 3 That the play is the tragey, Man, 4 Angel an its hero the Conqueror Worm. Hasil Tokenisasi: 1) affirm 7) play 2) angel 8) tragey 3) conqueror 9) unveil 4) hero 10) uprise 5) man 11) wan 6) palli 12) worm Pembobotan Boolean Contoh query: hero AND (angel OR NOT man) Formulasi query : = [k 4 {k 2 kk 5 }] = [(0 1 0 1) {(1 0 0 0} (0 0 1 0)}] = (0 1 0 1) Hasil query (tiak aa urutan): 2 an 4 Boolean Moel Keuntungan Implementasi muah an seerhana Query muah isusun an imengerti Operator AND, OR, NOT sesuai engan bahasa alami Kelemahan Tiak aa peringkat okumen sesuai engan query yang iberikan Exact matching Repot untuk query yang kompleks Boolean Scoring : Linear zone combinations Contoh: tiap okumen memiliki ua zona, yaitu title an boy (atau text). Untuk setiap w [0,1] apat ihitung: score(,q)=w.s T (,q) + (1-w).s B (,q) s T (, q) {0,1} : nilai Boolean q alam Title s B (, q) {0,1} : nilai Boolean q alam Boy Vector Space Moel Moel berbasis token Memungkinkan partial matching an pemeringkatan okumen. Cenerung sebagai best matching. Prinsip asar: Dokumen sebagai vektor token Terapat t kumpulan token Query sebagai vektor token Kesamaan vektor okumen an query ihitung berasarkan arak atau kesamaan antar vektor 2
Moel Geometrik Kesamaan Antar Vektor Dok-1 Token-3 Dok-2 Query Dok-4 Dok-3 Token-2 Dokumen mana yang paling ekat engan query? Urutkan setiap okumen berasarkan ukuran kesamaan/keekatannya engan vektor query Ukuran kemiripan Cosine Ukuran kemiripan Cosine t 3 1 Ukuran kesamaan Cosine antara an k k sim(, k ) Panang vektor k t 1 Ukuran kemiripan sebagai nilai Cosinus ari suut t 2 '. Nilai koefisien vektor Koefisien vektor menunukkan seberapa penting suatu kata VSM tiak memberi ketentuan mengenai nilai koefisien vektor (bobot kata) Beberapa contoh nilai bobot {0, 1} tf tf.if 3
Ukuran kemiripan Dot Prouct Dot prouct vektor an q sim (, q ) q sim(d1, Q) = 0.106 sim(d2, Q) = 0.016 sim(d3, Q) = 0.000 sim(d4, Q) = 0.922 Ukuran kemiripan Cosine Panang vektor Q = 0.912 D1 = 0.615 D3 = 1.126 D2 = 0.748 D4 = 1.385 Ukuran kesamaan Cosine sim(d1, Q) = 0.189 sim(d2, Q) = 0.023 sim(d3, Q) = 0.000 sim(d4, Q) = 0.730 Proseur Masalah komputasi Jika ukuran koleksi = N sangat besar (utaan, milyaran, ), berapa nilai kompleksitas untuk menentukan urutan okumen ari satu query paa N okumen paa koleksi? Sangat besar sehingga waktu komputasi akan sangat lama. Cluster pruning : preprocessing untuk mengelompokkan okumen alam koleksi sesuai engan keekatan vektor. Cluster pruning Visualisasi Cluster pruning Proseur (preprocessing): Ambil secara acak N okumen. Disebut sebagai leaers. Untuk setiap okumen yang bukan leaer (isebut followers), hitung keekatannya engan leaer. Query Proses query q: Dapatkan leaer L yang ekat engan q. Cari K okumen terekat q i antara follower ari L Leaer Follower 4
Latihan Gunakan tf.if an Cosine Dokumen: 1 : "Shipment of gol amage in a fire" 2 : "Delivery of silver arrive in a silver truck" 3 : "Shipment of gol arrive in a truck" 3 Query: "gol silver truck Asumsi : N=1000 5