STBI-2011 Sistem Temu Balik Informasi 2011 Mengenal Information Retrieval Husni husni@if.trunojoyo.ac.id Husni.trunojoyo.ac.id Komputasi.wordpress.com
2
3
Amazon.com 4
Amazon.com 5
6
7
8
9
Wordpress.com 10
11
12
13
14
15
16
17
18
Dosen Pengampu Husni, S.Kom. MT. Lab. Sistem Terdistribusi (SisTer) Departemen Teknik Informatika Universitas Trunojoyo Rumah di Internet Komputasi.wordpress.com Husni.trunojoyo.ac.id husni@if.trunojoyo.ac.id Facebook: Husni Ilyas Muda Intan 19
Perkualiahan (1) Halaman web Kuliah http://komputasi.wordpress.com Waktu: 07.30-09.30, Selasa (C) dan Kamis (D) Ruangan: RKB-A 201 (C), RKB-A 103 (D) Buku Teks Wajib: Christopher D. Manning, Prabhakar Raghavan and Hinrich Schuetze, Introduction to Information Retrieval, Cambridge University Press, 2008. (Tersedia online, free) Prasyarat : Pengetahuan dasar mengenai struktur data, algoritma, aljabar linier dan teori peluang. Pengalaman pemrograman diperlukan untuk menyelesaikan proyek 20
Perkualiahan (2) Referensi Pendukung (penting): Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval: The Concepts and Technology behind Search, Addison-Wesley, 2011. Stefan Buettcher, Charles L.A. Clarke, and Gordon V. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2010. Bruce Croft, Donald Metzler, and Trevor Strohman, Search Engines: Information Retrieval in Practice, Addison-Wesley, 2010. Gerald Kowalski, Information Retrieval Architecture and Algorithms, Springer, 2011. 21
Buku lain tentang IR Gerald Salton, Automatic information organization and retrieval, McGraw-Hill, 1968. Gerald Salton and M.J. McGill, Introduction to modern information retrieval, McGraw-Hill, 1983. C. J. van Rijsbergen, Information Retrieval, Butterworths, 1979. K. Sparck Jones, P. Willett, Readings in Information Retrieval, Morgan Kaufmann, 1997. I.H. Witten, A. Moffat, T.C. Bell. Morgan Kaufmann, Managing Gigabytes, 1999. 22
Penilaian UTS 25% UAS 30% Proyek 30% (termasuk proposal) Tugas 25% Semua komponen penilaian bersifat wajib. Ketiadaan nilai pada salah satu komponen, nilai akhir otomatis E. 23
Tugas Pemrograman dan Proyek Setidaknya ada dua tugas pemrograman Team-based (maksimal 4 mahasiswa per tim) Boleh menulis kode sendiri, boleh menggunkaan ulang open source Topik: (diumumkan kemudian ) Proyek akhir Boleh pengembangan sistem berbasis tim (sama dengan tugas pemrograman) Boleh juga presentasi makalah akademis berbahasa Inggris Makalah 2 tahun terakhir Bersifat individu, bukan team-based Batas pengumpulan proposal (hardcopy, 1 halaman A4): UTS Latar belakang, metode, rancangan eksperiman 24
Kuliah ini Tidak Mengajari... Tip & trik ketika menggunakan search engine, meskipun ide-ide lebih baik diperlukan dalam menggunakan search engine Silakan membaca buku tentang itu Bagaimana mendapatkan buku di perpustakaan, meskipun ilmu IR berawal dari sana Bagaimana memperoleh uang di Web, meskipun sekarang banyak ditawarkan oleh search engine 25
Information Retrieval? 26
Wikipedia 27
Google Maps 28
Google News 29
Blogs 30
Information Retrieval? Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information. (Salton, 1968) 31
Goal (Tujuan) Information retrieval (IR): suatu bidang penelitian yang menargetkan pencarian informasi secara efektif dan efisien dalam dokumen text dan multimedia Kuliah ini akan memperkenalkan model dasar teks dan query dalam IR, evaluasi retrieval, indexing dan searching, dan aplikasi bagi IR 32
Menurut Wikipedia Information retrieval (IR) adalah sains tentang pencarian dokumen, informasi dalam dokumen dan metadata mengenai dokumen, baik pencarian itu terhadap database relasional atau melibatkan Web. IR merupakan pengetahuan antar-bidang keilmuan, termasuk ilmu komputer (informatika), matematika, ilmu perpustakaan, psikologi, linguistika dan statistika. Sistem IR otomatis digunakan untuk mengurangi efek dari information overload. Search engine adalah aplikasi IR yang paling banyak digunakan. 33
Gambaran Besar 34
user need User Interface Text Operations Text user feedback Query Expansion quer y Retrieval retrieved docs Ranking ranked docs logical view inverted file Indexing Inverted Index Doc representation Document Collection 35
Topik dalam IR Text IR Indexing and Searching Query Languages and Operations Retrieval Evaluation Modeling Boolean model Vector space model Probabilistic model Applications for IR Multimedia IR Web Search Digital Libraries 36
Organisasi Buku Teks Dasar IR (fokus) Inverted indexes for boolean queries (Ch.1-5) Term weighting and vector space model (Ch. 6-7) Evaluation in IR (Ch. 8) Topik Lanjut Relevance feedback (Ch. 9) XML retrieval (Ch. 10) Probabilistic IR (Ch. 11) Language models (Ch. 12) Pembelajaran Mesin dalam IR Text classification (Ch. 13-15) Document clustering (Ch. 16-18) Pencarian Web Web crawling and indexes (Ch. 19-20) Link analysis (Ch. 21) 37
Topik lain (diluar kuliah ini) Cross-language IR Image, video, and multimedia IR Speech retrieval Music retrieval User interfaces Parallel, distributed, and P2P IR Digital libraries Information science perspective Logic-based approaches to IR Natural language processing techniques 38
Jadwal (Tentatif) Sebelum UTS Boolean retrieval (1 pertemuan) Indexing (3 pertemuan) Vector space model (2 pertemuan) Setelah UTS Evaluasi (1 pertemuan) Relevance feedback (1 pertemuan) Web search (2 pertemuan) Text classification (1 pertemuan) Document clustering (1 pertemuan) Presentasi Proyek (5 minggu terakhir, 1 jam) 39
Acuan Awal Wikipedia: http://en.wikipedia.org/wiki/information_retrieval Sumber lebih lengkap: http://nlp.stanford.edu/ir-book/informationretrieval.html 40
Pertanyaan? 41