Sistem Temu-Kembali Informasi Temu-Kembali Boolean

dokumen-dokumen yang mirip
Temu-Kembali Informasi 2017

STBI Sistem Temu Balik Informasi Temu-Balik Boolean. Husni. Husni.trunojoyo.ac.id Komputasi.wordpress.

Sistem Temu Kembali Informasi/ Information Retrieval

Temu-Kembali Informasi

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text dan Web Mining - Budi Susanto TI UKDW 1 INDEXING. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

INDEXING. Tujuan 4/2/13. Budi Susanto (v1.01)

BAB I PENDAHULUAN Latar Belakang

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM MANAJEMEN BASISDATA UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

JULIO ADISANTOSO - ILKOM IPB 1

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu-Kembali Informasi Konstruksi Indeks

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

beberapa tag-tag lain yang lebih spesifik di dalamnya.

Brigida Arie Minartiningtyas, M.Kom

BAB II LANDASAN TEORI

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Struktur Data adalah : suatu koleksi atau kelompok data yang dapat dikarakteristikan oleh organisasi serta operasi yang didefinisikan terhadapnya.

BAB III METODOLOGI PENELITIAN

Struktur Data adalah : suatu koleksi atau kelompok data yang dapat dikarakteristikan oleh organisasi serta operasi yang didefinisikan terhadapnya.

Struktur Data adalah : suatu koleksi atau kelompok data yang dapat dikarakteristikan oleh organisasi serta operasi yang didefinisikan terhadapnya.

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Struktur dan Organisasi Data 2 STRUKTUR DATA

PENGENALAN BINARY INDEXED TREE DAN APLIKASINYA

Algoritma dan Struktur data

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan. 1.1 Latar belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Type Data terdiri dari : - Data Tunggal : Integer, Real, Boolean dan Karakter. - Data Majemuk : String

Bab 1 Pengantar Struktur Data

BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Langkah Mudah Belajar Struktur Data Menggunakan C/C++

Pengenalan Algoritma & Struktur Data. Pertemuan ke-1

Sistem Temu-Kembali Informasi Pengantar Perkuliahan

Implementasi Struktur Data Rope menggunakan Binary Tree dan Aplikasinya dalam Pengolahan Teks Sangat Panjang

BAB III ANALISIS PERMASALAHAN

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

BAB 1 TIPE DATA. Selain itu terdapat operasi MOD (Modulo) adalah sisa dari pembagian Contoh : 27 MOD 4 = 3

BAB 1 TIPE DATA. Struktur Data 1. Sederhana : Array dan Record 2. Majemuk terdiri atas Linier Non Linier

STRUKTUR DATA. Deskripsi Mata Kuliah

Pengenalan Trie dan Aplikasinya

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Organisasi File Semester Ganjil 2014 Fak. Teknik Jurusan Teknik Informatika. Caca E. Supriana, S.Si.,MT. Si

BAB 1 PENDAHULUAN UKDW

Struktur Data. PDE - Struktur Data 1

Temu-Kembali Informasi 2017

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

HASHTABLE SEBAGAI ALTERNATIF DARI ALGORITMA PENCARIAN BINER PADA APLIKASI E-ACESIA

BAB 2 TINJAUAN PUSTAKA

MATERI 2 JENIS-JENIS DATA SEDERHANA & INPUT/OUTPUT DATA

Studi Digital Tree dan Aplikasinya pada Kamus

IKI 20100: Struktur Data & Algoritma

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

ROCCHIO CLASSIFICATION

2.3 Algoritma Tidak Berhubungan dengan Bahasa Pemrograman Tertentu

Algoritma dan Struktur Data

Algoritma Huffman dan Kompresi Data

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Struktur Data. Pertemuan 2

Review : Sifat Implementasi Linear List dengan Array

Information Retrieval

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

Document Indexing dan Term Weighting. M. Ali Fauzi

PEMEROLEHAN INFORMASI MENGGUNAKAN INVERTED INDEX DENGAN STRUKTUR DATA KLASIK VS ORDBMS

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

Integer (Bilangan Bulat) Yang dimaksud bilangan bulat adalah, -1, -2, -3, 0, 1, 2, 3, 4 dan lain lain yang bukan merupakan bilangan pecahan.

Temu-Kembali Informasi 2017

Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita

SEKOLAH TINGGI MANAJEMEN INFORMATIKA & KOMPUTER JAKARTA STI&K SATUAN ACARA PERKULIAHAN

STRUKTUR DATA TIPE DATA DNA-STRUKTURDATA 1

SOLUSI PERMAINAN CHEMICALS DENGAN ALGORITMA RUNUT BALIK

PENGANTAR KOMPUTER & SOFTWARE I REPRESENTASI DATA

PENGANTAR KOMPUTER & SOFTWARE I REPRESENTASI DATA

BAB 2 LANDASAN TEORI

Algoritma Brute Force (lanjutan)

MATEMATIKA DASAR (Kardinalitas)

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

Algoritma dan Pemrograman Array/Tabel[2] Oleh: Eddy Prasetyo N

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Silabus Struktur Data. Bandung 2013

PROGRAM STUDI S1 SISTEM KOMPUTER UNIVERSITAS DIPONEGORO. Oky Dwi Nurhayati, ST, MT

BAB I PENDAHULUAN Latar Belakang Masalah

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

PENDAHULUAN. Latar belakang

sistem basis data ti ti ukdw Indexing Materi Minggu ke-10 Teknik Informatika Universitas Kristen Duta Wacana Yogyakarta 04/07/13 budi susanto 1

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Matematika Diskrit. Rudi Susanto

OPERASI LOGIKA PADA GENERAL TREE MENGGUNAKAN FUNGSI REKURSIF

2. Dasar dari Komputer, Sistem Bilangan, dan Gerbang logika 2.1. Data Analog Digital

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

ORGANISASI FILE. Alif Finandhita, S.Kom

Transkripsi:

Sistem Temu-Kembali Informasi Temu-Kembali Boolean Husni Program Studi Teknik Informatika Universitas Trunojoyo Madura Semeter Gasal 2015-17 Sep. 2015

Boolean Retrieval: Outline Matriks dokumen-term Kebutuhan informasi dan evaluasi IR Inverted index Pemrosesan query Boolean Algoritma Merge Optimisasi Query Pointer Skip Struktur data kamus Hash table Binary tree 2

Kejadian Term-Document 1 jika Kata yang dimaksud hadir 0 jika tidak 3

Vektor Kejadian Sehingga diperoleh vektor 0/1 untuk setiap term Untuk menjawab Query: Brutus, Caesar and NOT Calpurnia Ambil vektor untuk Brutus 110100 Caesar 110111 Calpurnia (dikomplemenkan) 101111 Bitwise AND 110100 AND 110111 AND 101111 = 100100 4

Jawaban untuk Query Antony and Cleopatra, Act III, Scene ii Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus, When Antony found Julius Caesar dead, He cried almost to roaring; and he wept When at Philippi he found Brutus slain. Hamlet, Act III, Scene ii Lord Polonius: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. http://www.rhymezone.com/shakespeare/ 5

Asumsi Dasar dari IR Koleksi (Collection): Himpunan tetap dokumen Tujuan (Goal): Meretrieve dokumen berisi informasi yang relevan dengan kebutuhan [informasi] pengguna dan membantu pengguna menyelesaikan tugasnya Pada model Boolean Retrieval, kebutuhan informasi (Query) harus ditulis dalam ekspresi Boolean: Term (kata kunci) dalam Query dapat dikombinasikan dengan operator AND, OR dan NOT Mendukung retrieval ad hoc: menyediakan dokumen tertentu (khusus) dimana relevansinya mengikuti kebutuhan informasi pengguna yang berubah-ubah. 6

Seberapa Tepat Dokumen yang Ditemukan Kembali? Presisi: Persen dokumen yang di-retrieve dan relevan dengan kebutuhan informasi pengguna Recall : Persen dokumen yang relevan dalam koleksi yang berhasil di-retrieve Definisi dan ukuran lebih tepat akan dibahas pada pertemuan setelah UTS (Evaluasi). 7

Relevansi Relevansi adalah konsep inti dalam IR, tetapi tidak ada definisi yang tepat Relevansi = berdayaguna Relevansi = terkait secara topik Relevansi = baru Relevansi = menarik Relevansi =??? Relevansi sangat dinamis bergantung pada kebutuhan personal pada titik waktu tertentu Hasil yang sama untuk query yang sama mugkin relevan bagi seorang pengguna dan tidak relevan bagi yang lain. 8

Boolean Retrieval dan Relevansi Asumsi: Suatu dokumen dikatakan relevan terhadap kebutuhuan informasi yang diekspresikan dengan suatu query jika ia memenuhi ekspresi boolean dari query tersebut. Pertanyaan: Apakah ini selalu benar? TIDAK: Misalnya koleksi dokumen ber-tanggal sebelum 2014. Query "oscar AND 2014". Relevankah dokumen yang diretrieve oleh Query ini? 9

Relevansi dari Dokumen yang diretrieve T = True F = False P = Positive F = Negetive 10

Kata atau Term yang muncul di dalam dokumen Kemunculan Term-Document Nama/Judul Dokumen 1 jika Kata yang dimaksud hadir 0 jika tidak 11

Koleksi Lebih Besar Pertimbangkan kasus yang lebih realistis 1 juta dokumen, masing-masing mengandung 1000 kata dimana rata-rata perkata memerlukan 6 byte, termasuk spasi dan tanda baca 6GB data dalam dokumen Misalnya ada 500 Ribu term berbeda (total pada 1 juta dokumen tersebut) Matriks 500 Ribu x 1 Juta mempunyai ½ triliun 0 dan 1 Tetapi tidak lebih dari 1 milyar 1 Matriks sangat tersebar Apa representasi lebih baik? Salah satu: hanya merekam posisi bernilai 1. 12

Inverted index Untuk setiap term t, harus disimpan suatu daftar (list) berisi semua dokuman yang mengandung t Identifikasi berdasarkan docid, nomor seri dokumen Dapatkah digunakan array berukuran tetap? Apa yang terjadi jika kata Caesar ditambahkan ke dokumen 14? 13

Inverted index Diperlukan daftar posting yang variable-size Pada disk, run terus-menerus dari posting adalah normal dan terbaik Di memory, dapat menggunakan linked lists atau array dengan panjang variable Ada tarik-ulur dalam ukuran/kemudahan INSERT 14

Konstruksi Inverted Index 15

Tahapan Indexer: Tokenisasi Rangkaian pasangan (Token termodifikasi, ID dokumen) Doc1 Doc2 I did enact Julius Caesar I was killed i the Capitol; Brutus killed me. So let it be whe noble Brutus hath told you Caesar was ambitious Term docid I 1 did 1 enact 1 Julius 1 Caesar 1 I 1...... So 2 let 2 it 2...... 16

Tahapan Indexer: Urutkan Ubah ke huruf kecil Urutkan berdasarkan Term Kemudian docid Langkah Indexing Inti Term docid I 1 did 1 enact 1 Julius 1 Caesar 1 I 1...... So 2 let 2 it 2...... Term docid ambitious 2 be 2 brutus 1 brutus 2 capitol 1 caesar 1 caesar 2 caesar 1 did 1 enact 1...... 17

Tahapan Indexer: Kamus & Posting Term-term yang hadir di dalam dokumen digabungkan Pemisahan ke dalam Kamus dan Posting Informasi frekuensi dokumen ditambahkan. Term docid ambitious 2 be 2 brutus 1 brutus 2 capitol 1 caesar 1 caesar 2 caesar 1 did 1 Kamus Posting Mengapa Frekuensi? enact 1...... 18

Biaya Penyimpanan? Term & Frekuensi Dokumen Pointer Daftar docid Akan dibahas: Bagaimana mengindex secara efisien? Berapa banyak storage diperlukan? 19

Latihan Berapa byte diperlukan untuk menyimpan inverted index jika ada: N = 1 juta dokumen, masing-masing mengandung sekitar 1000 kata Jika ada M = 500 ribu term berbeda Jika perlu menyimpan: term ID, frekuensi dokumen, pointer ke daftar posting (postings lists), daftar ID dokumen (doc Id = posting). 20

Solusi Latihan Log 2 (500,000) = 19 bit diperlukan untuk menyajikan term dan pointer ke postings lists-nya Karena itu 3 bytes (= 24bits, mewakili 16.7M) cukup untuk setiap term dan pointer 3 bytes untuk setiap frekuensi term (frekuensi term terbesar adalah 1 Juta = # dokumen) Karena itu 9 x 500,000 = 4.5 x 10 6 Paling banyak 1 milyar posting (#token dalam dokumen), karena itu 3 bytes untuk setiap posting (docid) = 3 x 10 9 Jadi total 3,004,500,000 ~ 3GB 21

Index yang Baru dibangun Bagaimana memroses suatu Query? Kemudian, jenis query apa yang dapat diproses? 22

Pemrosesan Query: AND Jika query yang akan diproses : Brutus AND Caesar Cari Brutus di dalam Kamus Retrieve posting-nya Cari Caesar di dalam Kamus Retrieve posting-nya Gabungkan irisan dua posting tersebut (caranya?) 23

Ide??? brutus nn 02 nn 04 nn nn nn nn nn nn nn nn nn nn nn 16 cesar 01 02 nn nn 05 nn nn 08 nn nn nn nn 13 nn nn nn Position 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 Entri dari dua list (daftar) kejadian dijelajah secara paralel (bersamaan) mulai dari posisi pertama Bagaimana jika operasi tersebut diberlakukan terhadap dua array dimana entri bernilai nn di hapus? Arahkan pointer ke setiap list, naikkan pointer ke DocID paling kecil dan periksa apakah sekarang pointer mengacu ke doc ID yang sama? Jika YA maka DocID tersebut adalah jawaban 24

Irisan dengan AND Berjalan melalui dua posting secara simultan, dalam waktu yang linier dengan jumlah total entri dari posting Jika panjang list adalah x dan y, gabungannya memerlukan operasi O(x+y). Krusial: posting diurutkan berdasarkan docid. 25

Irisan dua postings list (Algoritma merge ) 26

Query Boolean: Pencocokan Pasti Model retrieval Boolean mampu untuk menangani query berekspresi Boolean: Query Boolean adalah query menggunakan AND, OR dan NOT untuk menyatukan term-term Query Menampilkan setiap dokumen sebagai sehimpunan kata Tepatkah? Dokumen cocok dengan kondisi atau tidak. Model paling simpel untuk membangun sistem IR Tool retrieval komersil utama selama 3 dekade Banyak sistem pencarian masih menggunakan Boolean: Email, katalog perpustakaan, Spotlight Mac OS X. 27

Contoh: WestLaw.com Layanan pencarian legal komersil terbesar (berbayar, dimulai 1975; ranking ditambahkan 1992) Datanya puluhan terabytes; 700.000 pengguna Mayoritas pengguna masih menggunakan query boolean Contoh query: What is the statute of limitations in cases involving the federal tort claims act? LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = dalam 3 kata, /S = dalam kalimat sama 28

Merge (Penggabungan) Latihan: Adaptasikan merge untuk query: Brutus AND NOT Caesar Brutus OR NOT Caesar Dapatkah merge dijalankan dalam waktu O(x+y)? Apa yang dapat dicapai? 29

Penggabungan Bagaimana dengan formula Boolean yang berubah-ubah? (Brutus OR Caesar) AND NOT (Antony OR Cleopatra) Dapatkah merge dilakukan selalu dalam waktu linier? Linier dalam apa? Dapatkah dilakukan lebih baik? 30

Optimisasi Query Apa urutan terbaik untuk pemrosesan Query? Perhatikan query berisi AND dari n term Untuk setiap n term, dapatkan posting-nya, kemudian AND semuanya bersama-sama Query: Brutus AND Calpurnia AND Caesar 31

Optimisasi Query: Contoh Proses secara urut mengikuti frekuensi dokumen, yaitu panjang posting list: Mulai dengan himpunan terkecil, kemudian yang lebih kecil berikutnya. Inilah mengapa frekuensi dokumen disimpan dalam Kamus Eksekusi query sebagai (Calpurnia AND Brutus) AND Caesar 32

Optimisasi Secara Umum Contoh: (madding OR crowd) AND (ignoble OR strife) Dapatkan frekuensi dokumen (doc. Freq) untuk semua term Estimasikan ukuran dari setiap OR dengan mentotalkan doc. freq-nya (konservatif) Proses secara urut naik mengikuti ukuran OR. 33

Algoritma Query Konjunktif Hasil antara diletakkan di dalam memory List diiriskan dengan yang dibaca dari disk List hasil antara selalu lebih pendek dan makin pendek 34

Latihan Rekomendasikan urutan pemrosesan query: (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes) 35

IR Berikutnya? Diluar Pencarian Term Bagaimana dengan frasa? Universitas Trunojoyo Madura Pendekatan: Denny Mahasiswa Informatika Perlu index untuk menangkap informasi posisi dalam dokumen. Zona dalam dokumen: (author = Ullman) AND (teks mengandung automata). 36

Akumulasi Fakta 1 kali vs. 0 kemunculan dari term pencarian 2 vs. 1 kemunculan 3 vs. 2 kemunculan, dll. Biasanya lebih banyak muncul lebih baik Perlu informasi term frequency (frekuensi kehadiran term) di dalam dokumen 37

Penggabungan Posting Lebih Cepat: Pointer/List Skip

Recall: Dasar Penggabungan Menjelajah dua posting secara simultan, dalam waktu linier dengan jumlah total entri posting. Jika panjang list adalah m dan n, penggabungan memerlukan operasi O(m+n). Dapatkah dilakukan lebih baik? YA (jika indeks tidak berubah terlalu cepat). 39

Memperbanyak Posting dengan Pointer Skip: Saat Indexing Mengapa? Untuk melompati postings yang tidak mempengaruhi hasil pencarian. Bagaimana? Dimana kita meletakkan Pointer Skip? 40

Pemrosesan Query dengan Pointer Skip Misal list telah dijelajah sampai pada dokumen ke-8 pada setiap list. Lakukan pencocokan dan Lanjut. Pada list pertama diperoleh 41 dan 11 di list bawah. 11 lebih kecil bukan? Namun tidak lanjut ke-17, tetapi melompat dari 11 menuju 31, dan itu lebih kecil dari 41, jadi skip terus berlanjut. 41

Irisan dengan Pointer Skip 42

Dimana Meletakkan Skip? Tarik-Ulur: Lebih banyak skip bentang skrip lebih pendek lebih mungkin bagi skip. Tetapi banyak perbandingan untuk pointer skip. Lebih sedikit skip sedikit perbandingan pointer, tetapi kemudian bentang skip panjang skip sukses sedikit. 43

Penempatan Skip Heuristik sederhana: untuk posting dengan panjang L, gunakan L evenly spaced skip pointers Ini memerlukan distribusi term-term query secara sederhana lebih besar frekuensi dok. dari suatu term lebih besar jumlah dari skip pointers Mudah jika index relatif statik; lebih sulit jika postings sering berubah karena adanya update Ini mungkin kurang membantu pada hardware modern (Bahle et al. 2002) kecuali dijadikan memory-based: Karena biaya I/O untuk memuat struktur index yang lebih besar dapat lebih berat daripada memperoleh lebih cepat melalui penggabungan memory! 44

Struktur Data Kamus Inverted Index Struktur data kamus menyimpan kosakata term, frekuensi dokumen (doc. freq), pointer ke setiap postings list dalam struktur data apa? 45

Suatu Kamus Naïve Array dari struktur: Bagaimana menyimpan kamus di dalam memory secara efisien? Bagaimana dengan cepat mencari elemen pada waktu query? 46

Struktur Data Kamus Dua pilihan utama: Hash table Tree Beberapa sistem IR menggunakan hash, lainnya menggunakan tree. 47

Hashes Setiap istilah kosakata dihash menjadi suatu integer (bil. Bulat) (anggapan: telah mengetahui hashtable sebelumnya) Pro: Pencarian lebih cepat daripada untuk pohon : O(1) Kontra: Tidak ada cara mudah untuk menemukan varian minor : judgment/judgement Tidak ada pencarian prefix (awalan, "bar*") [tolerant retrieval] Jika kosakata bertambah, kadang perlu melakukan operasi rehashing yang mahal. 48

Tree: binary tree 49

Tree: B-tree Definisi: Setiap node internal mempunyai sejumlah anak di dalam interval [a,b] dinama a, b adalah bilangan asli yang tepat, misal [2,4]. 50

Tree (Pohon) Paling simpel: pohon biner (binary tree) Lebih biasa: B-trees Tree memerlukan standard pengurutan karakter dan karena itu string tetapi ada masalah dengan lexicographic Kecuali berurusan dengan Chinese Pro: Memecahkan masalah prefix (term yang dimulai dengan 'hyp') Kont: Lebih lambat: O(log M) [dan ini memerlukan tre yang berimbang] Penyeimbangan-ulang (rebalancing) pohon biner mahal Tetapi B-trees meredam masalah rebalancing. 51

Bahan Bacaan Buku IIR: Bab 1 Sub bab 2.3: Faster postings list intersection via skip pointers Sub bab 3.1: Search structures for dictionaries 52

Latihan Exercise 1.2 dan 1.3 Bagaimana operasi Query Boolean dilakukan di dalam database? Bagaimana jika diberlakukan pada Array (bahasa Java misalnya)? 53

Latihan Diberikan 7berita (B1 s.d B7) berikut: B1: Pemain Totenham London Tanpa Mobil Merah B2: Arsenal Merahkan London, Manchester United kalah B3: Chelsea kalah, Manchester City Sempurna B4: Totenham Petik Kemenangan Pertama B5: Chelsea kalah, Mourinho Ribut dengan Martinez B6: Laju Buruk Chelsea malukan London B7: Mourinho Manajer Si Merah Liverpool Apa yang dihasilkan dari proses terhadap Query: Mourinho Manchester AND London London AND NOT Chelsea 54