TEMU KEMBALI INFORMASI

dokumen-dokumen yang mirip
TEMU KEMBALI INFORMASI

JULIO ADISANTOSO - ILKOM IPB 1

KOM341 Temu Kembali Informasi

KOM341 Temu Kembali Informasi

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

Mengenal Information Retrieval

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

JULIO ADISANTOSO - ILKOM IPB 1

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

JULIO ADISANTOSO - ILKOM IPB 1

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

ABSTRAK. Kata kunci: Sistem Tanya Jawab, Semantic Web, Ontology, domain terbatas. v Universitas Kristen Maranatha

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. sim(, )=

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

UKDW BAB 1 PENDAHULUAN Latar Belakang

KBKF53110 WEB PROGRAMMING

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

BAB III METODOLOGI PENELITIAN

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

Search Engines. Information Retrieval in Practice

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB IV PREPROCESSING DATA MINING

Mencari dokumen yang dituliskan dalam berbagai bahasa

Penerapan Algoritma K-Means untuk Clustering

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Begitu juga halnya pada perkembangan Internet, hampir semua bidang teknologi

Bab 1 Pendahuluan. 1.1 Latar Belakang

PENDAHULUAN. Latar belakang

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

Information Retrieval

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

KLASIFIKASI CITRA SIDIK JARI DENGAN METODE TEMPLTE MATCHING

SISTEM TEMU KEMBALI INFORMASI

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

FORMULIR No.Dokumen RENCANA PEMBELAJARAN SEMESTER

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

KULIAH 12. Multimedia IR. Image Retrieval. BAB 11: Baeza-Yates & Ribeiro-Neto. Fakultas Ilmu Komputer Universitas Indonesia

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

PENERAPAN ALGORITMA DEPTH FIRST SEARCH PADA SISTEM PENCARIAN DOKUMEN APPLYING DEPTH FIRST ALGORITHM ON DOCUMENT SEARCHING SYSTEM

Text dan Web Mining - Budi Susanto 1 EVALUASI IR. Budi Susanto

EVALUASI IR. Tujuan 4/16/13. Budi Susanto

PENDAHULUAN. I.1 Latar Belakang

Text Pre-Processing. M. Ali Fauzi

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

PENGENALAN KOMPUTER DAN SOFTWARE II. Semester: 2 Pengenalan Komputer dan Software II. Introduction to Computer and Software II

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

Pendahuluan. Bab Latar Belakang

TEMU KEMBALI INFORMASI

Penelusuran online dan Pelaporan

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun

BAB III METODOLOGI PENELITIAN

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

BAB I PENDAHULUAN. informasi yang disampaikan dapat lebih cepat dan efektif. Pada tempat observasi penelitian, penyampaian informasi melalui layanan

BAB III METODOLOGI PENELITIAN

BAB 3 LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Konsep dan Arsitektur Basis Data. IKI20410 Basis Data Aniati Murni Fakultas Ilmu Komputer Universitas Indonesia

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

BAB II TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

KNOWLEDGE IN TEXT (IR-2)

BAB 1 PENDAHULUAN UKDW

BAB III METODOLOGI PENELITIAN

Sistem Temu-Kembali Informasi Pengantar Perkuliahan

JULIO ADISANTOSO - ILKOM IPB 1

Transkripsi:

Pendahuluan JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 PENDAHULUAN

Pendahuluan Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi Kode Mata Kuliah : KOM431 Koordinator : Julio Adisantoso (JAS) Semester : Ganjil 2016/2017 Beban SKS : 3(3-0) Deskripsi Mata Kuliah Matakuliah ini menjelaskan pengantar temu kembali informasi, dasar-dasar temu kembali informasi: pemodelan, evaluasi, query, operasi teks dan multimedia, indexing and searching. Topik dalam temu kembali informasi: relevance feedback, query expansion, text classification, text clustering, summarization, cross-language, question answering, web search, semantic web, semantic search.

Pendahuluan Penentuan Nilai Akhir Nilai akhir (NA) adalah nilai kumulatif dari nilai ujian tengah semester (UTS), ujian akhir semester (UAS), tugas perorangan (TP), dan tugas kelompok atau proyek akhir (PA). UTS dan UAS dilakukan melalui ujian tertulis dengan bobot masing-masing 35%. Nilai TP adalah rata-rata dari semua tugas yang diberikan, dan diberi bobot 10%. Nilai PA terdiri dari nilai produk proyek (program komputer, laporan) dan presentasi. Bobot nilai PA adalah 20%. Catatan: Tidak ada ujian perbaikan

Pendahuluan What is this course about? Processing Indexing Retrieving... textual data Fits in four lines, but much more complex and interesting than that.

Need for IR Pendahuluan With the advance of WWW - more than 8 Billion documents indexed on Yahoo, Google Various needs for information: Search for documents that fall in a given topic Search for a specific information Search an answer to a question Search for information in a different language... Search for images Search for music Search for a (candidate) friend...

Pendahuluan Beberapa Definisi IR Salton (1989): Information-retrieval systems process files of records and requests for information, and identify and retrieve from the files certain records in response to the information requests. The retrieval of particular records depends on the similarity between the records and the queries, which in turn is measured by comparing the values of certain attributes to records and information requests. Information retrieval mempelajari algoritme dan model untuk memperoleh informasi dari koleksi dokumen Information retrieval system : sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi (Beeza-Yates & Ribeiro-Neto)

Pendahuluan IR versus Data Retrieval IR berkaitan dengan natural language text unstructured and semantically ambigous spesifikasi set of words untuk menentukan semantics dari information needed Data Retrieval berkaitan dengan data well defined structure and semantic spesifikasi query expression untuk menentukan constrain yang harus dipenuhi untuk obyek yang akan menjadi himpunan jawaban

IR Principal Pendahuluan The indexing and retrieval of textual documents. Searching for pages on the World Wide Web is the most recent and perhaps most widely used IR application Concerned firstly with retrieving relevant documents to a query. Concerned secondly with retrieving from large sets of documents efficiently. Retrieve semua dokumen yang relevan terhadap kueri pengguna dan seminimum mungkin retrieve dokumen yang tidak relevan

Typical IR Task Pendahuluan Given: A corpus of textual natural-language documents. A user query in the form of a textual string. Find: A ranked set of documents that are relevant to the query.

Pendahuluan IR System Architecture

Web Search System Pendahuluan

Pengertian Teks Pendahuluan Korpus Pengolahan Teks Teks Korpus Koleksi dokumen yang bisa dibaca oleh mesin Contoh: Kumpulan artikel surat kabar yang diperoleh dari Internet Kumpulan skripsi mahasiswa yang telah dikumpulkan secara digital oleh perpustakaan

Korpus Pendahuluan Korpus Pengolahan Teks Korpus adalah sekumpulan teks/dokumen alami yang dipilih dengan cara tertentu. Masalah pada perancangan korpus: Ukuran Jenis Bahasa Media: teks, audio, video (multimedia) Isu pada korpus: Tokenisasi pada korpus Anotasi pada korpus

Pendahuluan Korpus Pengolahan Teks Contoh Dokumen : Free Text Sekurangnya 17 ribu ayam ras milik peternak di wilayah kabupaten Kotawaringin Timur (Kotim), Kalimantan Tengah mati dan kuat dugaan akibat terserang virus avian influenza (AI) atau yang lagi ramai disebut penyakit flu burung. Kasubdin Produksi Peternakan Dinas Pertanian Kotim Drh. Mawardi di Sampit, Selasa mengatakan sebanyak 17 ribu ekor ayam ras yang mati diduga terserang flu burung itu sejak Desember 2003. Dari hasil diagnosa Balai Penyelidikan dan Pengujian Veteriner (BPPV) regional V Banjar Baru Kalimantan Selatan yang diterima Disnak Kotim, Senin (26/1) menyebutkan ayam yang mati terserang panyakit itu hanya ada dua kemungkinan yaitu terserang virus AI dan VVND atau tetelo. Namun kasus kematian masal ayas ras di Kotim kemungkinan besar akibat akibat serangan virus avian influenza yang bila menular kepada manusia namanya menjadi flu burung, ucapnya.

Pendahuluan Korpus Pengolahan Teks Contoh Dokumen : XML Format <DOC> <DOCNO>DOC01</DOCNO> <TITLE>Flu Burung Menyerang Kalimantan Tengah</TITLE> <AUTHOR>Ark, Ant</AUTHOR> <DATE>7 Februari 2003</DATE> <TEXT> <P>Sekurangnya 17 ribu ayam ras milik peternak di wilayah kabupaten Kotawaringin Timur (Kotim), Kalimantan Tengah mati dan kuat dugaan akibat terserang virus avian influenza (AI) atau yang lagi ramai disebut penyakit flu burung. Kasubdin Produksi Peternakan Dinas Pertanian Kotim Drh. Mawardi di Sampit, Selasa mengatakan sebanyak 17 ribu ekor ayam ras yang mati diduga terserang flu burung itu sejak Desember 2003.</P> <P>Dari hasil diagnosa Balai Penyelidikan dan Pengujian Veteriner (BPPV) regional V Banjar Baru Kalimantan Selatan yang diterima Disnak Kotim, Senin (26/1) menyebutkan ayam yang mati terserang panyakit itu hanya ada dua kemungkinan yaitu terserang virus AI dan VVND atau tetelo. Namun kasus kematian masal ayas ras di Kotim kemungkinan besar akibat akibat serangan virus avian influenza yang bila menular kepada manusia namanya menjadi flu burung, ucapnya.</p> </TEXT> </DOC>

Pendahuluan Korpus Pengolahan Teks Dalam IR, langkah awal yang umum dilakukan adalah pengolahan teks menjadi bentuk yang mudah untuk diproses sesuai tujuan tertentu (sering disebut pre-processing). Merupakan bagian dari text mining.

Statistik Teks Pendahuluan Korpus Pengolahan Teks Jumlah Kata : seberapa besar korpus yang ada (N) Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus?

Tokenisasi Pendahuluan Korpus Pengolahan Teks Pengertian : suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit kecil yang disebut token, yang dapat berupa suatu paragraf, kalimat, kata, angka, tanda baca, atau unit lainnya sesuai kebutuhan. Konsekuensinya: Perlu mengenali unit secara otomatis Apakah suatu kata itu? Kalimat? Paragraf? Pertanyaannya: Bagaimana program komputernya? Bahasa pemrograman apa yang digunakan?