Sistem Temu Kembali Informasi/ Information Retrieval

dokumen-dokumen yang mirip
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Document Indexing dan Term Weighting. M. Ali Fauzi

Text dan Web Mining - Budi Susanto TI UKDW 1 INDEXING. Budi Susanto

INDEXING. Tujuan 4/2/13. Budi Susanto (v1.01)

Temu-Kembali Informasi 2017

BAB 1 PENDAHULUAN UKDW

SISTEM TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI

Temu-Kembali Informasi 2017

Sistem Temu-Kembali Informasi Temu-Kembali Boolean

STBI Sistem Temu Balik Informasi Temu-Balik Boolean. Husni. Husni.trunojoyo.ac.id Komputasi.wordpress.

TEMU KEMBALI INFORMASI

ROCCHIO CLASSIFICATION

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB 1 PENDAHULUAN UKDW

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

KOM341 Temu Kembali Informasi

Information Retrieval

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

BAB II TINJAUAN PUSTAKA

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

BAB I PENDAHULUAN Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. Latar belakang

BAB II LANDASAN TEORI

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB 2 LANDASAN TEORI. membuat sebuah komputer dapat melakukan hal yang membutuhkan intelegensi

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM MANAJEMEN BASISDATA UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

PENDAHULUAN. 1.1 Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

RANCANG BANGUN APLIKASI PENCARIAN RESEP MASAKAN MENGGUNAKAN METODE BOOLEAN RETRIEVAL

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

BAB I PERSYARATAN PRODUK

PEMEROLEHAN INFORMASI MENGGUNAKAN INVERTED INDEX DENGAN STRUKTUR DATA KLASIK VS ORDBMS

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

SKRIPSI TEMU KEMBALI INFORMASI DENGAN EKSPANSI PERMINTAAN MENGGUNAKAN MATRIKS ASOSIASI

BAB 2 TINJAUAN PUSTAKA

BAB 3 PROSEDUR DAN METODOLOGI. perhitungan LSI dan juga interface yang akan dibuat oleh penulis.

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB 3 LANDASAN TEORI

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

Temu-Kembali Informasi

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

JULIO ADISANTOSO - ILKOM IPB 1

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

BAB II LANDASDAN TEORI

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Relational Database & Pemodelan Data [Review]

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB IV ANALISA DAN PERANCANGAN

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

BAB III METODELOGI PENELITIAN

UKDW. Bab 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

JULIO ADISANTOSO - ILKOM IPB 1

DAFTAR ISI. SKRIPSI... ii

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

BAB 3 LANDASAN TEORI

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Pencarian Materi Kuliah Pada Aplikasi Blended Learning Menggunakan Metode Vector Space Model

BAB III ANALISIS DAN PERANCANGAN

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

Transkripsi:

Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom.

Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector Space Model (The Next) TF, IDF & Cosine Similarity 4. Case Study 5. Latihan Individu

Boolean Retrieval Model Model proses pencarian informasi dari query, yang menggunakan ekspresi boolean. Ekspresi boolean dapat berupa operator logika AND, OR dan NOT. Hasil perhitungannya hanya berupa nilai binary (1 atau 0). Ini menyebabkan di dalam Boolean Retrieval Model (BRM), yang ada hanya dokumen relevan atau tidak sama sekali. Tidak ada pertimbangan dokumen yang mirip.

Boolean Retrieval Model Dalam pengerjaan operator boolean (AND, NOT, OR) ada urutan pengerjaannya (Operator precedence). Urutannya adalah: () Prioritas yang berada dalam tanda kurung NOT AND OR Jadi kalau ada query sebagai berikut? (Madding OR crow) AND Killed OR slain (Brutus OR Caesar) AND NOT (Antony OR Cleopatra)

Permasalahan IR Misalkan kita ingin mencari dari cerita-cerita karangan shakespeare yang mengandung kata Brutus AND Caesar AND NOT Calpurnia. Salah satu cara adalah: Baca semua teks yang ada dari awal sampai akhir. Komputer juga bisa disuruh melakukan hal ini (menggantikan manusia). Proses ini disebut grepping. Melihat kemajuan komputer jaman sekarang, grepping bisa jadi solusi yang baik.

Permasalahan IR Tapi, kalau sudah bicara soal ribuan dokumen, kita perlu melakukan sesuatu yang lebih baik. Karena ada beberapa tuntutan yang harus dipenuhi : Kecepatan dalam pemrosesan dokumen yang jumlahnya sangat banyak. Fleksibilitas. Perangkingan. Salah satu cara pemecahannya adalah dengan membangun index dari dokumen.

Incidence Matrix Incidence matrix adalah suatu matrix yang terdiri dari kolom (dokumen) dan baris (token/terms/kata). Pembangunan index akan berbeda untuk tiap metode Retrieval. Untuk boolean model, salah satunya kita akan menggunakan Incidence matrix sebagai index dari korpus (kumpulan dokumen) data kita. Dokumen yang ada di kolom adalah semua dokumen yang terdapat pada korpus data kita.

Incidence Matrix Token/Terms/Kata pada baris adalah semua token unik (kata yang berbeda satu dengan yang lainnya) dalam seluruh dokumen yang ada. Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1. Jika tidak ditemukan, maka nilai kolom (t,d) adalah 0. Dari sudut pandang kolom, kita bisa tahu token apa saja yang ada di satu dokumen (d). Dari sudut pandang barisnya, kita bisa tahu di dokumen mana saja token (t) ada (posting lists).

Case Study A (1 of 3) Perhatikan tabel berikut. (Vektor baris menyatakan keberadaan suatu Token/Terms/Kata unik yang ada dalam semua dokumen. Vektor kolom menyatakan semua nama dokumen yang digunakan). Diketahui 6 dokumen dengan masing-masing kata yang terdapat di dalamnya. Jika kata tersebut berada dalam dokumen, maka Term Frekuensi Biner/ TF biner = 1, jika tidak TF biner = 0. Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 Mercy 1 0 1 1 1 1 Worser 1 0 1 1 1 0.

Case Study A (2 of 3) Dengan mengunakan Incidence matrix yang sudah dibangun, kita sudah bisa memecahkan masalah yang pertama dihadapi tadi. Kemudian misalkan mencari hasil Boolean Query Retrieval : Brutus AND Caesar AND NOT Calpurnia Maka dapat diketahui dengan mudah, dokumen mana saja yang mengandung kata Brutus dan Caesar, tetapi tidak mengandung kata Calpurnia.

Case Study A (3 of 3) TF biner (Brutus) = 110100 TF biner (Caesar) = 110111 TF biner (Calpurnia) = 010000 Brutus AND Caesar AND NOT Calpurnia = 110100 AND 110111 AND NOT 010000 = 110100 AND 110111 AND 101111 = 100100 1 0 0 1 0 0 Berarti, jawaban hasil Boolean Query Retrieval : Brutus AND Caesar AND NOT Calpurnia adalah Dokumen Antony & Cleopatra dan Hamlet

Latihan Individu (Today) Buatlah Incidence matrix untuk dokumen-dokumen berikut : Dokumen (Doc) Doc 1 Doc 2 Doc 3 Doc 4 Isi (Content) New home sales top forecasts Home sales rise in july Increase in home sales in july July new home sales rise Tentukan hasil boolean query retrieval berikut berdasarkan Incidence matrix di atas : Home AND Sales AND NOT July Home AND July AND NOT Sales

Inverted Index Inverted index adalah sebuah struktur data index yang dibangun untuk memudahkan query pencarian yang memotong tiap kata (term) yang berbeda dari suatu daftar term dokumen. Tujuan : Meningkatkan kecepatan dan efisiensi dalam melakukan pencarian pada sekumpulan dokumen. Menemukan dokumen-dokumen yang mengandung query user.

Inverted Index Ilustrasi : Brutus Caesar Calpurnia 1 2 4 11 31 45 173 174 1 2 4 5 6 16 57 132 2 31 54 101 (Dictionary) Kumpulan semua kata unik dari semua dokumen (Postings) Posisi Token/Terms/Kata pada dokumen

Inverted Index Inverted index mempunyai vocabulary, yang berisi seluruh term yang berbeda pada masing-masing dokumennya (unik), dan tiap-tiap term yang berbeda ditempatkan pada inverted list. Notasi : <idj, fij,[o1,o2,,ok fij ]> Keterangan : idj adalah ID dokumen dj yang mengandung term ti fij adalah frekuensi kemunculan term ti didokumen dj Ok adalah posisi term ti di dokumen dj.

Case Study B (1 of 4) Perhatikan beberapa dokumen berikut : (Buatlah Inverted Index-nya) Dokument 1 (Id1): Algoritma Genetik dapat digunakan untuk 1 2 3 4 5 Optimasi fuzzy 6 7 Dokument 2 (Id2) : Optimasi fungsi keanggotaan pada fuzzy 1 2 3 4 5 Dokument 3 (Id3) : Algoritma genetik merupakan algoritma Learning 1 2 3 4 5

Case Study B (2 of 4) Set vocabulary : {algoritma, genetik, dapat, digunakan, untuk, optimasi, fuzzy, fungsi, keanggotaan, pada, merupakan, learning} Inverted Index sederhana : Term Inverted List Algoritma Dapat Digunakan Fungsi Fuzzy Genetik Keanggotaan Learning Merupakan Optimasi Pada Untuk Id1, id3 Id1 Id1 Id2 Id1, id2 Id1, id3 Id2 Id3 Id3 Id1, id2 Id2 id1

Case Study B (3 of 4) Bentuk komplek dari Inverted Index : Term Inverted List Algoritma Dapat Digunakan Fungsi Fuzzy Genetik Keanggotaan Learning Merupakan Optimasi Pada Untuk <Id1,1,[1]>, <id3,2,[1,4]> <Id1,1,[3]> <Id1,1,[4]> <Id2,1,[2]> <Id1,1,[7]>, <id2,1,[5]> <Id1,1,[2]>, <id3,1,[2]> <Id2,1,[3]> <Id3,1,[5]> <Id3,1,[3]> <Id1,1,[6]>, <id2,1,[1]> <Id2,1,[4]> <Id1,1,[5]> Kemudian misalkan mencari hasil Boolean Query Retrieval : Fuzzy OR NOT (Genetik AND Learning)

Case Study B (4 of 4) Kemudian misalkan mencari hasil Boolean Query Retrieval : Fuzzy OR NOT (Genetik AND Learning) TF biner (Fuzzy) = 110 TF biner (Genetik) = 101 TF biner (Learning) = 001 Fuzzy OR NOT (Genetik AND Learning) = 110 OR NOT (101 AND 001) = 110 OR NOT (001) = 110 OR 110 = 110 Jadi hasil Boolean Query Retrieval : Fuzzy OR NOT (Genetik AND Learning) adalah Dokumen 1 dan 2.

Selesai