Information Retrieval

dokumen-dokumen yang mirip
Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

KOM341 Temu Kembali Informasi

BAB III METODOLOGI PENELITIAN

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

TEMU KEMBALI INFORMASI

Mengenal Information Retrieval

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Penerapan Model Gravitasi Newton Versi Continuous dan Diskrit pada Sistem Temu Balik Informasi

BAB 1 PENDAHULUAN UKDW

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

PENDAHULUAN. 1.1 Latar Belakang

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

... BAB 2 LANDASAN TEORI. 2.1 Citra

BAB II LANDASAN TEORI

SISTEM TEMU KEMBALI INFORMASI

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi/ Information Retrieval

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB III Landasan Teori

ROCCHIO CLASSIFICATION

Implementasi Generalized Vector Space Model Menggunakan WordNet

KATA PENGANTAR Sistem Pencarian Informasi Data-Teks Menggunakan Model Ruang Vektor

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II TINJAUAN PUSTAKA

ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB I PENDAHULUAN Latar Belakang

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING

JULIO ADISANTOSO - ILKOM IPB 1

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

BAB I PERSYARATAN PRODUK

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB 3 LANDASAN TEORI

SISTEM PENCARIAN SKRIPSI BERBASIS INFORMATION RETRIEVAL DI FASTIKOM UNSIQ

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

1. Pendahuluan. 1.1 Latar belakang

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Information Retrieval

DAFTAR ISI. SKRIPSI... ii

BAB II TINJAUAN PUSTAKA

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN (PENCARIAN 10 KATA KUNCI DI EJOURNAL BSI)

PENERAPAN ALGORITMA DEPTH FIRST SEARCH PADA SISTEM PENCARIAN DOKUMEN APPLYING DEPTH FIRST ALGORITHM ON DOCUMENT SEARCHING SYSTEM

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

BAB II LANDASAN TEORI

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

IDENTIFIKASI NASKAH DOKUMEN TEKS DENGAN METODE INDEXING

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Sistem Deteksi Kemiripan Identitas...

Document Indexing dan Term Weighting. M. Ali Fauzi

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

Information Retrieval Budi Susanto

Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity? matching Ranked/ binary result Information need Query formulation Structured query representation

Retrieval Model Penentu Representasi struktur dokumen Representasi struktur query Fungsi pencocokan kemiripan Relevansi Ditentukan oleh fungsi pencocokan kemiripan Merefeksikan topik yang tepat, kebutuhan pemakai, otoritas, kebaruan Kualitas model retrieval tergantung pada bagaimana model memenuhi kebutuhan pemakai.

Information Retrieval dan Browsing Retrieval Menghasilkan hasil terperingkat dari sebuah permintaan pemakai Interpretasi informasi oleh sistem Browsing Membolehkan pemakai melakukan navigasi dalam himpunan informasi Interpretasi informasi oleh manusia

Text Based IR Pendekatan dasar: menggunakan kata-kata yang muncul dalam suatu teks sebagai features untuk interpretasi isi. Disebut pendekatan full text retrieval. Mengabaikan grammar, arti, dsb.

Ranked docs User feedback User need Arsitektur User Interface 1. feature extraction Operasi-operasi teks text Query Operation searching Query repr. query Retrieved docs Doc. Repr. Inverted file Query Operation index 3. efficient data access Text DB Manager Module Text Database Ranking 2. ranking system

Index Inverted Indexing Suatu struktur data index yang menyimpan pemetaan dari isi dengan lokasinya dalam dokumen. Latent Semantic Index Indexing yang menerapkan Singular Value Decomposition (SVD) untuk mengidentifkasikan pola hubungan antara istilah dan konsep. Kata yang digunakan dalam kontek yang sama akan memiliki arti yang sama.

Inverted Index

Strategi: Vector Space Model Metode Vector Space Model atau Term Vector Model adalah sebuah model aljabar untuk menggambarkan dokumen teks (beberapa objek) sebagai vektor dari identifer. Proses dari perhitungan metode ini adalah indexing dokumen, pembobotan term dan perhitungan kesamaan.

LSI Lihat fotocopy materi.

Mengukur Jarak Query dan Document Eucledian Distance Canberra

Mengukur Jarak Query dan Document DICE Jaccard Cosine

Mengukur Jarak Query dan Document Pearson

Mengukur Jarak Query dan Document

Vector Space Model

Contoh Token D1 D2 D3 manajemen 1 0 1 transaksi 1 0 0 logistik 1 0 1 transfer 0 0 1 pengetahuan 0 1 2 individu 0 1 0 Query: Pengetahuan logistik

Strategi Probabilistic Retrieval Model probabilistik menghitung koefsien kemiripan antara query dan dokumen sebagai probabilitas dokumen yang relevan dengan query. Semua model probabilistic mencangkok dari konsep perkiraan bobot kata berdasar seberapa sering kata tersebut muncul atau tidak muncul dalam dokumen relevan dan tidak relevan. Simple Term Weight Non-binary independence model Poisson.

Simple Term Weight Berdasarkan pada Probability Ranking Principle (PRP), yang mengasumsikan bahwa: efektiftas optimal terjadi ketika dokumen dirangking berdasar perkiraan probabilitas relevansi dengan suatu query. Kuncinya: menyatakan probabilitas terhadap query, dan menggunakannya sebagai dasar bukti dalam komputasi probabilitas akhir bahwa suatu dokumen relevan dengan query.

Simple Term Weight Kata dalam query dapat dilihat sebagai indikator bahwa suatu dokumen relevan. Ada atau tidaknya kata query A, dapat digunakan untuk memprediksi apakah suatu dokumen relevan atau tidak. Robertson dan Sparck Jones (1976) mengasumsikan dua asumsi mutually exclusive independence : I1: distribusi kata-kata dalam dokumen relevan adalah independen, dan distribusinya dalam semua dokumen juga independen. I2: distribusi kata dalam dokumen relevan adalah independen dan distribusinya dalam semua dokumen tidak releval juga independen.

Simple Term Weight Robertson dan Sparck Jones juga menyatakan dua metode prinsip pengurutan terhadap hasil: O1: kemungkinan relevansi didasarkan hanya pada kemunculan kata yang dicari dalam dokumen O2: kemungkinan relevansi didasarkan baik pada kehadiran kata yang dicari dalam dokumen dan juga ketidakhadirannya dari dokumen.

Simple Term Weight Kemudian 4 bobot diturunkan berdasar kombinasi asumsi-asumsi tersebut N = jumlah dokumen dalam koleksi R = jumlah dokumen relevan berdasar query q N = jumlah dokumen yang berisi kata t r = jumlah

Simple Term Weight n-r R-r N-n-R+r N-n N-R Jumlah dokumen non-relevan yang berisi kata t Jumlah dokumen relevan yang tidak berisi kata t Jumlah dokumen non-relevan yang tidak berisi kata t Jumlah dokumen yang tidak berisi kata t Jumlah dokumen non-relevan

Simple Term Weight Tabel probabilitas

Simple Term Weight r/r probability that a relevant document contains the term. (n r)/(n-r) probability that a non-relevant document contains the term. n/n probability that a document contains the term. (R r)/r probability that a relevant document does not contain the term. (N n R + r)/(n R) probability that a non-relevant document does not contain the term. (N n)/n probability that a document does not contain the term. r/(r r) odds that a relevant document contains the term. (n r)/(n n R + r) odds that a non-relevant document contains the term. n/(n n) odds that a document contains the term.

Simple Term Weight

Contoh Q: gold silver truck D1 = Shipment of gold damaged in a fre D2 = Delivery of silver arrived in a silver truck D3 = Shipment of gold arrived in a truck

Contoh N n R r gold silver truck

Contoh Terms Weight gold silver truck w1 w2 w3 w4 Documents Weight D1 D2 D3 w1 w2 w3 w4 Similarity Coefficient untuk suatu dokumen diperoleh dari penjumlah bobot kata yang muncul dalam dokumen tersebut!

Boolean Model Model paling dasar dalam menerapkan strategi retrieval. Tapi tidak berdasarkan relevansi. Contoh: D1: Saya suka makan bakso sapi D2: Daging sapi dapat diolah D3: Bakso Sapi di daerah Boyolali lezat. Q: bakso AND sapi.

Boolean Model Dibentuk himpuan bakso dan himpunan sapi Karena operasi AND, dilakukan operasi himpunan interseksi. (OR -> Union)

Extended Boolean Retrieval Pembenahan model perangkingan terhadap model boolean. Konjungtif: Disjungtif:

LSI Dari indeks yang terbentuk U Σ V T di tentukan nilai k singular value terbesar (k < 3). Sebagai contoh k=2, maka akan terbentuk U 2 Σ V 2 T. Untuk mendapatkan dimensi k x 1, maka kita perlu menggabungkan dengan query q T. Sehingga vektor query dipetakan ke ruang 2 dimensi dengan transformasi: q T U 2 Σ 2-1. Dilakukan hal yang sama untuk semua dokumen. Selanjutnya, dhitung similarity coefcient dengan cosine similarity.