Search Engines. Information Retrieval in Practice

dokumen-dokumen yang mirip
BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

E-MARKETING. On Page SEO

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PERSYARATAN PRODUK

BAB III METODOLOGI PENELITIAN

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB II LANDASAN TEORI. bidang media komunikasi dan informasi. Internet adalah suatu jaringan komputer

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB III Validasi HTML5

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

DAFTAR ISI. SKRIPSI... ii

Standards + Web Perguruan Tinggi Widianto Nugroho

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

Mengenal Information Retrieval

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 2 TINJAUAN PUSTAKA. : Multi sistem operasi, bisa Windows, Linux, Mac OS, maupun Solaris

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

BAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.

BAB 1 PENDAHULUAN. menjual berbagai jenis pakaian. Seiring dengan perkembangan fashion pakaian ini

BAB 3 LANDASAN TEORI

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

HASIL DAN PEMBAHASAN. untuk langkah berikutnya hingga tercapai hasil maksimal.

Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

Fauzan Azmi Apa itu Search Engine. Cara Kerja Search Engine. Lisensi Dokumen:

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

TIK Agribisnis UMY 2016 Heri Akhmadi, S.P., M.A.

Text Pre-Processing. M. Ali Fauzi

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

1. Pendahuluan. 1.1 Latar belakang

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB 1 PENDAHULUAN UKDW

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

Sistem Manajemen Basis Data Web 2 :

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

PENGEMBANGAN SISTEM TEMU KEMBALI INFORMASI DIGITAL FULLTEXT ARTIKEL JURNAL DI PDII LIPI

BAB 1 PENDAHULUAN. Latar Belakang

PERTEMUAN 6 PROMOSI DAN PEMELIHARAAN WEB

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

Search Engine. Adri Priadana ilkomadri.com

Gambar 1. Grafik Statistik Angka Pertumbuhan Website (sumber :

BAB 3 ANALISA DAN PERANCANGAN

BAB II LANDASAN TEORI. suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem

BAB I PENDAHULUAN. Teknologi Informasi saat ini mengalami perkembangan yang signifikan.

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB III METODE PENELITIAN Langkah-Langkah Penelitian Sistem Pendukung Keputusan (SPK) yang dibangun merupakan sistem

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III LANDASAN TEORI

Webometrics Best Practice. Beni Rio Hermanto, ITB webmaster team.

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB III LANDASAN TEORI. Secara umum pengertian inventori adalah stock barang yang harus dimiliki

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM PENGKOREKSIAN KATA KUNCI DENGAN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Studi Kasus Pada Website Universitas Halmahera.

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

Perancangan Website Ujian. Teknik Elektro UNDIP Berbasis HTML

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB 1 PENDAHULUAN Latar Belakang

Faktor On-Page (kode & konten)

WebE Analisis & Design. Nisa ul Hafidhoh

BAB III LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

Search Engine Optimization

IMPLEMENTASI INFORMATION RETRIVALS UNTUK MENINGKATKAN PEMASARAN PRODUK

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB IV IMPLEMENTASI DAN PENGUJIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III ANALISA DAN PERANCANGAN SISTEM

HTML. Hypertext Markup Language. Pemrograman Web 1. Genap

BAB II TINJAUAN PUSTAKA. yang tidak memberikan manfaat dalam mencapai tujuan yang sama, maka elemen

BAB I PENDAHULUAN 1.1 Latar Belakang

SEARCH ENGINE OPTIMIZATION (MESIN PENCARI)

Video Retrieval Berdasarkan Teks dan Gambar

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

KATALOG ON-LINE TERDISTRIBUSI PADA JARINGAN KAMPUS

MESIN PENCARI BERBASISKAN SEMANTIK UNTUK BAHASA INDONESIA. 2 Universitas Gunadarma

INFORMATION RETRIEVAL TUGAS AKHIR DAN PERHITUNGAN KEMIRIPAN DOKUMEN MENGACU PADA ABSTRAK MENGGUNAKAN VECTOR SPACE MODEL

Transkripsi:

Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008

Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi (waktu respon dan throughput)

Indexing Process

Indexing Process Text acquisition mengidentifikasi dan menyimpan dokumen untuk mengindeks Text transformation mengubah dokumen ke dalam istilah indeks atau fitur Index creation mengambil istilah indeks dan menciptakan struktur data (indeks) untuk mendukung pencarian cepat

Query Process

Query Process User interaction mendukung penciptaan dan perbaikan query, menampilkan hasil Ranking menggunakan query dan indeks untuk menghasilkan daftar peringkat dokumen Evaluation memonitor dan mengukur efektivitas dan efisiensi (terutama offline)

Crawler Details: Text Acquisition Mengidentifikasi dan memperoleh dokumen Web crawler mengikuti link untuk menemukan dokumen Efisien harus menemukan sejumlah besar halaman web (coverage) dan menjaga mereka upto-date (kesegaran)

Conversion Text Acquisition Mengkonversi berbagai dokumen ke dalam teks yang konsisten ditambah Format metadata misalnya HTML, XML, Word, PDF, dll XML Mengkonversi pengkodean teks untuk bahasa yang berbeda Menggunakan standar Unicode seperti UTF-8

Text Acquisition Menyimpan data Dokumen Stores teks, metadata, dan konten terkait lainnya untuk dokumen Metadata adalah informasi tentang dokumen seperti tipe dan tanggal pembuatan Konten lain termasuk link, anchor text Bisa menggunakan sistem database relasional

Text Transformation Parser Pengolahan urutan token teks dalam dokumen untuk mengenali elemen struktur Tokenizer mengakui "kata" dalam teks harus mempertimbangkan isu-isu seperti kapitalisasi, tanda hubung, apostrof, karakter non-alpha, pemisah Bahasa markup seperti HTML, XML sering digunakan untuk menentukan struktur Tag digunakan untuk menentukan elemen dokumen Misalnya, <h2> Ikhtisar </ h2> Dokumen parser menggunakan sintaks bahasa markup (atau format lainnya) untuk mengidentifikasi struktur

Text Transformation Stopping Hapus kata-kata umum misalnya, "dan", "atau", "yang", "di Stemming Kata kelompok berasal dari batang umum e.g., computer, computers, computing, compute

Text Transformation Link Analysis Memanfaatkan link dan anchor teks dalam halaman web Anchor teks secara signifikan dapat meningkatkan representasi halaman ditunjukkan oleh link

Text Transformation Information Extraction Identifikasi kelas istilah indeks yang penting untuk beberapa aplikasi misalnya, recognizers bernama entitas mengidentifikasi kelas seperti orang, lokasi, perusahaan, tanggal, dll Classifier Mengidentifikasi metadata kelas terkait untuk dokumen yaitu, memberikan label ke dokumen mis., topik, tingkat membaca, sentimen

Document Statistics Index Creation Mengumpulkan jumlah dan posisi kata-kata dan fitur lainnya Digunakan dalam algoritma peringkat Weighting Menghitung bobot untuk istilah indeks Digunakan dalam algoritma peringkat

Inversion Index Creation Inti dari proses pengindeksan Mengubah informasi dokumen panjang untuk istilah-dokumen untuk mengindeks Sulit untuk jumlah yang sangat besar dokumen

Index Creation Index Distribution Salurkan indeks di beberapa komputer dan / atau beberapa situs Penting untuk pemrosesan query cepat dengan sejumlah besar dokumen

Query input User Interaction Menyediakan antarmuka dan parser untuk bahasa query Kebanyakan query web sangat sederhana, aplikasi lain dapat menggunakan form Bahasa query yang digunakan untuk menggambarkan pertanyaan lebih kompleks

User Interaction Query transformation Spell checking dan saran permintaan memberikan alternatif untuk query Ekspansi permintaan dan umpan balik relevansi memodifikasi query asli

Results output User Interaction Membangun tampilan dokumen peringkat untuk query Highlight kata-kata penting Mengambil iklan yang sesuai dalam berbagai aplikasi

Ranking Scoring Menghitung skor untuk dokumen menggunakan algoritma peringkat Komponen inti dari search engine

Ranking Performance optimization Merancang algoritma peringkat untuk proses yang efisien Distribution Pengolahan Query dalam lingkungan terdistribusi

Evaluation Logging Logging permintaan pengguna dan interaksi sangat penting untuk meningkatkan efektivitas dan efisiensi pencarian Query logs dan data klik per tayang yang digunakan untuk saran query, memeriksa ejaan, query caching, peringkat, pencarian iklan, dan komponen lainnya Ranking analysis Mengukur efektivitas dan tuning peringkat Performance analysis Mengukur dan efisiensi sistem tuning