JULIO ADISANTOSO - ILKOM IPB 1

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

TEMU KEMBALI INFORMASI

BAB 1 PENDAHULUAN UKDW

TEMU KEMBALI INFORMASI

PENDAHULUAN. Data dan Informasi. Sistem Informasi. Komponen sistem informasi. Basis data

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

BAB I PENDAHULUAN Latar Belakang

INTERNET & INTRANET SEARCH ENGINE. Bambang Pujiarto, S.Kom

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

BAB III ANALISIS DAN PERANCANGAN SISTEM

TEMU KEMBALI INFORMASI

beberapa tag-tag lain yang lebih spesifik di dalamnya.

PENDAHULUAN. Latar belakang

JULIO ADISANTOSO - ILKOM IPB 1

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 2 TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB 1 PENDAHULUAN. perusahaan harus dapat meningkatkan kinerja dan perfomansinya agar dapat unggul

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

DATA & INFORMASI DALAM SISTEM INFORMASI BISNIS ASIH ROHMANI,M.KOM

BAB 2 LANDASAN TEORI. Sejak komputer ditemukan, para peneliti telah berpikir adakah kemungkinan agar

JULIO ADISANTOSO - ILKOM IPB 1

LESSON 5 : INFORMED SEARCH Part I

APLIKASI PENENTUAN JENIS PART OF SPEECH MENGGUNAKAN METODE N-GRAM DAN STRING MATCHING

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

BAB II TINJAUAN PUSTAKA

TEMU KEMBALI INFORMASI

KULIAH 12. Multimedia IR. Image Retrieval. BAB 11: Baeza-Yates & Ribeiro-Neto. Fakultas Ilmu Komputer Universitas Indonesia

Desain Software. Arna Fariza PENS. Rekayasa Perangkat Lunak. Materi. Apakah desain software itu? Apakah modularisasi itu? Model

sering dihadapi oleh petugas perpustakaan SD Muhammadiyah 4 Surabaya.

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

BAB I PENDAHULUAN. PLN, di ganti menjadi kwh meter digital yang dapat memberikan nilai lebih

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

BAB II TINJAUAN PUSTAKA

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB 1 PENDAHULUAN. ini akan semakin tinggi.apalagi pada tahun ini terjadi kenaikan harga bahan bakar

PENGANTAR SISTEM KENDALI

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

BAB II LANDASAN TEORI

Jaringan Komputer, Pertemuan 9. Routing

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

BAB III ANALISIS DAN PERANCANGAN SISTEM. Berdasarkan System Development Life Cycle (SDLC) metode waterfall yang

APLIKASI WORDNET INDONESIA BERDASARKAN KAMUS THESAURUS BAHASA INDONESIA MENGGUNAKAN ALGORITMA RULE BASED TEXT PARSING

Dalam menentukan harga setiap usaha mungkin memiliki strategi yang berbeda-beda. Namun

Implementasi Generalized Vector Space Model Menggunakan WordNet

BAB 1 PENDAHULUAN UKDW

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

JULIO ADISANTOSO - ILKOM IPB 1

KONSEP DASAR PENGEMBANGAN BERBAGAI PROGRAM IMC

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

BAB 1 PENDAHULUAN. Setiap usaha yang didirikan dengan orientasi laba (keuntungan) mempunyai

A. IDENTITAS B. DESKRIPSI MATAKULIAH C. TUJUAN MATAKULIAH

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

SOP CMS WEBSITE. - Berikut adalah penjelasan pada menu bagian atas o Home

Sistem Informasi Akademis NextGeneration UNIVERSITAS INDONESIA. Panduan Pengisian Isian Rencana Studi (IRS) Khusus Fakultas Kedokteran

APLIKASI SOFTWARE PERPUSTAKAAN DIGITAL

Implementasi Algoritma Genetika Dalam Menyelesaikan Sebuah Persoalan Anagram Scrabble

BAB IV DESKRIPSI PEKERJAAN. meninjau SMA Wahid Hasyim Krian, didapatkan informasi bahwa proses

Recommendation System

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

: Luas Bidang-Bidang Tanah

Text dan Web Mining - Budi Susanto 1 EVALUASI IR. Budi Susanto

EVALUASI IR. Tujuan 4/16/13. Budi Susanto

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

RANGKUMAN APLIKASI PENGOLAHAN DATABASE (Menggunakan Microsoft Access 2007)

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

Jurnal Penelitian Pos dan Informatika 771/AU1/P2MI-LIPI/08/ a/E/KPT/2017

BAB IV DESKRIPSI KERJA PRAKTEK

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

RANCANG BANGUN MODUL PENGKATEGORIAN DAN PENGELOMPOKKAN TOPIK OTOMATIS PADA APLIKASI FORUM phpbb

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB V HASIL DAN PEMBAHASAN. Pengelolaan Kas Fakultas Teknik Universitas 45 Surabaya memiliki

BAB II LANDASAN TEORI

PEMROGRAMAN LINIER VERSUS PEMROGRAMAN KUADRATIK KONVEKS

BAB I PERSYARATAN PRODUK

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

BAB 1 PENDAHULUAN Pengantar

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

PENYUSUNAN DATABASE JARINGAN JALAN KOTA MAKASSAR BERBASIS GIS OPEN SOURCE

TAHAPAN SKRIPSI. Apa itu Skripsi? Program Ekstensi ILKOM IPB 2014/2015

KULIAH 11 WEB IR. BAB 13 Baeza-Yates & Ribeiro-Neto. Fakultas Ilmu Komputer Universitas Indonesia

BAB II TINJAUAN PUSTAKA

system) yang elemennya terdiri dari hardware, software dan brainware. Ketiga

BAB 1 PENDAHULUAN. memarkirkan mobilnya di tempat-tempat perparkiran yang cukup sibuk seperti

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

Transkripsi:

KOM341 Temu Kembali Infrmasi Prses Temu-Kembali KULIAH #6 Relevance feedback Query epansin 2 Cnth regan Relevance feedback: user memberi feedback pada dkumen hasil yang dianggap relevan User memberikan query pendek dan sederhana User memberi tanda pada dkumen yang dihasilkan sebagai relevan dan tidak relevan. IRs menghitung dan memperbaiki query berdasarkan feedback dari user tadi. Dilakukan berulang sesuai dengan banyaknya iterasi yang diinginkan. Ide: sulit memfrmulasikan query yang baik ketika tidak tahu tentang kleksi yang ada. 3 4 Cnth Hasil Query Awal Image search engine http://nayana.ece.ucsb.edu/imsearch/imsearch.html 5 6 JULIO ADISANTOSO - ILKOM IPB 1

Hasil Setelah RF 7 8 Refrmulasi Query Kita dapat mengubah query berdasarkan pada relevance feedback dan menerapkan vectr space mdel. Gunakan hanya dkumen yang ditandai. Relevance feedback dapat meningkatkan recall dan precisin Berdasarkan feedback dari user Berdasarkan infrmasi yang diperleh dari sekumpulan dkumen awal yang diperleh Berdasarkan pada infrmasi glbal dari kleksi dkumen 9 10 Rcchi Algrithm Best Query Implementasi RF berdasarkan vectr space mdel. Memaksimumkan sim (Q, C r ) - sim (Q, C nr ) Optimal query: Q pt = ptimal query; C r = dk. relevan; N = ukuran kleksi Tidak realistik: kita tidak tahu dk. Yang relevan. Optimal query nn-relevant dcuments relevant dcuments 11 12 JULIO ADISANTOSO - ILKOM IPB 2

Rcchi 1971 Algrithm Initial query Revised query knwn nn-relevant dcuments knwn relevant dcuments Praktis menggunakan: q m = query yang dimdifikasi; q 0 = query awal; α,β,γ: bbt yang dipilih; D r = vektr dk relevan yg diketahui; D nr = vektr tdk relevan yg diketahui Query baru mendekati dkumen relevan, dan menjauhi dkumen yang tidak relevan Bbt istilah dapat menjadi negatif Bbt istilah yang negatif dihilangkan (dibuat 0) 13 14 Cnth Misal diketahui: Misalkan : α=1, β=¾, =¼ Cnth = (0 0 5 10 2) + ¾ (1/3) [ (1 10 19 0 2) + (7 4 1 3 8) + (9 5 2 1 2) ] ¼ (4 0 12 8 20) = (0 0 5 10 2) + (4¼ 4¾ 5½ 1 3) (1 0 3 2 5) = (3¼ 4¾ 7½ 9 0) Similarity (dt prduct) sim(d 1, q) = 99 sim(d 1, q ) = 193¼ naik sim(d 2, q) = 180 sim(d 2, q ) = 175 turun sim(d 3, q) = 51 sim(d 3, q ) = 76¼ naik sim(d 4, q) = 24 sim(d 4, q ) = 77 naik 15 16 Evaluasi RF Gunakan q 0 dan hitung grafik P/R Gunakan q m dan hitung grafik P/R Bandingkan. Pseud Blind relevance feedback Metde untuk analisis lkal secara tmatis: Menggunakan metde relevance feedback tanpa input eksplisit dari user. Pseud Hanya asumsikan dkumen yang diperleh pada tp n adalah relevan, dan gunakan untuk membentuk query yang baru. Query epansin diperblehkan berisi kata-kata yang berkaitan dengan kata-kata pada query. 17 18 JULIO ADISANTOSO - ILKOM IPB 3

Pseud Ambil tp n dkumen Dari semua kata-kata pada dkumen tsb., ambil tp t kata Urutan kata-kata menunjukkan cara kata-kata tersebut diurutkan: n (banyaknya dkumen yang berisi kata t) f (jumlah kemunculan kata t) n * idf f * idf Pseud Cnth: Tp 3 dkumen: D1 : A, B, B, C, D D2 : C, D, E, E, A, A D3 : A, A, A Asumsikan idf dari A=1, B=1, C = 1, D=2, E = 2 Rank: kata n f n * idf f * idf A 3 6 3 6 B 1 2 1 2 C 2 2 2 2 D 2 2 4 4 E 1 2 4 8 19 20 Query Epansin Query Epansin Banyak kaitan dengan RF: QE merupakan suatu teknik umum untuk memperbaiki query sehingga dapat memperleh hasil yang lebih baik. Idenya adalah mengubah query sehingga lebih dekat ke dkumen yang relevan. Cara mengubahnya : menambah, membuang, atau mengubah bbt kata pada query. RF vs QE Pada RF, user memberikan input tambahan (relevant/tidak-relevant) pada dkumen, yang digunakan untuk membbt kembali kata-kata pada dkumen Pada QE, user memberikan tambahan input (kata yg baik/tidak baik) pada kata atau frase. 22 Metde Refrmulasi Query Glbal methds QE menggunakan thesaurus atau WrdNet QE melalui thesaurus tmatis Teknik mirip kreksi ejaan Lcal/basic methds Relevance feedback Pseud relevance feedback Indirect relevance feedback Thesaurus Suatu thesaurus memberikan infrmasi tentang synnym dan kata-kata serta frase yang secara semantik berkaitan. Misal (http://thesaurus.reference.cm): market Part f Speech: verb Definitin: package and sell gds Synnyms: advertise, barter, display, echange, merchandise, ffer fr sale, retail, vend, whlesale Antnyms: buy 23 24 JULIO ADISANTOSO - ILKOM IPB 4

Ekspansi Query dgn Thesaurus Tidak memerlukan input dari user Untuk setiap kata t pada suatu query, ekspansi query dengan sinnim dan kata lain t dari thesaurus. Bbt kata-kata tambahan dapat lebih kecil daripada kata-kata pada query awal. Biasanya meningkatkan recall. Banyak digunakan pada bidang ilmu pengetahuan / teknik Wrdnet http://www.cgsci.princetn.edu/~wn/ Suatu database yang detil berisi hubungan semantik antara kata- kata dalam bahasa Inggris. Kira- kira berisi 144,000 kata dalam bahasa Inggris. Kata benda, sifat, kerja, dan keterangan dikelmpkkan menjadi 109,000 set sinnim yang disebut synsets. 25 26 Hubungan Pada WrdNet Synset Antnym: frnt back Attribute: benevlence gd (nun t adjective) Pertainym: alphabetical alphabet (adjective t nun) Similar: unquestining abslute Cause: kill die Hlnym: chapter tet (part-f) Mernym: cmputer cpu (whle-f) Hypnym: tree plant (specializatin) Hypernym: fruit apple (generalizatin) QE menggunakan WrdNet Tambahkan sinnim pada synset yang sama. Tambahkan hipnim untuk memasukkan katakata khusus. Tambahkan hipernim untuk membuat query lebih umum. Tambahkan kata-kata lain yang berkaitan untuk memperluas query. 27 28 QE menggunakan WrdNet Cnth query awal : infrmatin system WrdNet (synnym): infrmatin : message, cntent, subject matter, substance system : grup, gruping Query epansin: infrmatin message system grup Tipe Ekspansi Query Glbal Analysis: (statis; dari semua dkumen dalam kleksi) Cntrlled vcabulary Manual thesaurus Autmatically derived thesaurus (kemunculan secara statistik) Based n query lg mining (umum di web) Lcal Analysis: (dynamic) Analisis dkumen yang terambil 29 30 JULIO ADISANTOSO - ILKOM IPB 5

Cntrlled Vcabulary Autmatic Thesaurus Generatin Membuat thesaurus secara tmatis dengan menganalisis dkumen dalam kleksi Dua pendekatan utama: Berdasarkan kemunculan kata Berdasarkan hubungan gramatikal Kemunculan kata lebih rbust, sedangkan hubungan gramatikal lebih akurat. 31 32 C-ccurrence Thesaurus Cara paling sederhana adalah menghitung kesamaan antar kata (term-term similarities) in C = AA T dimana A adalah matrik term-dcument. w i,j = (nrmalized) weighted cunt (t i, d j ) n d j t i m 33 JULIO ADISANTOSO - ILKOM IPB 6