Sistem Temu-Kembali Informasi Pengantar Perkuliahan Husni Program Studi Teknik Informatika Universitas Trunojoyo Madura Semeter Gasal 2015-03 Sep. 2015
Perkenalan... Husni (UGM, ITB) Bidang Minat Sistem Terdistribusi dan Web Data Mining (Social Network Analysis, Web Retrieval) Lab. CC dan Lab. SisTer Email: husni@if.trunojoyo.ac.id FB: facebook.com/lunix96 Jam Diskusi Perkuliahan: Kamis (13.00 s.d 17.00) Jumat (10.00 s.d 11.30) Web kuliah: Husni.trunojoyo.ac.id 2
Bentuk Perkuliahan 14 kali kuliah di kelas: 14 x 3 x 50 menit Lab: Mandiri, sesuai kebutuhan (tentatif) Jadwal Kuliah: Kamis, 07.20 09.30 dan 09.30 11.40, ruang F403 Tugas: Kelompok (4 s.d 5 mahasiswa): Proyek pembuatan search engine mini Web Crawler, Preprocessing, Indexing, Searching, Ranking, Classification Presentasi proposal pada pertemuan ke-7 Presentasi akhir pada pertemuan ke-14 Penilaian: UTS (closed, 40%), UAS (30%), Proyek (40%) 3
Motivasi WWW atau Web telah menjadi sumber utama informasi bagi kebutuhan kerja maupun pengisi waktu Kandungan raksasa WWW akan terbuang jika informasi tidak dapat ditemukan (lagi), dianalisis dan dimanfaatkan. Setiap pengguna sebaiknya mampu dengan cepat menemukan informasi yang relevan dan komprehensif sesuai kebutuhannya WWW telah menjadi penggerak utama dari inovasi dan sederet teknik baru telah diperkenalkan untuk menjinakkan dan memanfaatkan kandungan informasinya Recommender systems: Tool (web, mobile, standalone) yang sangat terkenal untuk mendukung pengguna menemukan dan memilih produk, layanan dan informasi. 4
Teknik Pengelolaan Data 5
Silabus Konsep dasar Information Retrieval (IR) Boolean retrieval, Indexing Model ruang vektor (vector space model, VSM) Klasifikasi Teks dan Ruang Vektor Evaluasi dalam Information Retrieval Web search & crawling dan link analysis Sistem Perekomendasi (Recommender) Collaborative & Content-based filtering and Social Filtering Hybrid recommender systems, Knowledge based recommenders, Conversational recommender systems, Context-dependent recommender systems, Group recommendations 6
Apa yang harus dipelajari? Dasar-dasar ilmiah dari bidang Pencarian & Temu-Kembali Informasi (Searching & IR) Teknik & Tool pencarian & penemuan informasi yang dapat dimanfaatkan untuk merancang danmengimplementasikan situs web khusus (ecommerce, egovernment) Kelebihan & kekurangan berbagai teknik yang ada Analisis tentang manfaat dan keterbatasan teknik dan sistem terhadap aktor yang terlibat dalam proses IR Kemampuan untuk memutuskan kapan (untuk jenis produk atau layanan apa) suatu teknik dapat berguna atau tidak Mengidentifikasi aplikasi baru dari teknik-teknik tersebut. 7
Bahan Bacaan Topik-topik Information Retrieval: C. D. Manning, P. Raghavan and H. Schutze. Introduction to Information Retrieval, Cambridge University Press, 2008. http://nlp.stanford.edu/ir-book/informationretrievalbook.html Penelitian mengenai Recommender Systems termasuk baru, lahir sekitar 95. Koleksi paper dalam bentuk review ada di: Ricci, F.; Rokach, L.; Shapira, B.; Kantor, P.B. (Eds.), Recommender Systems Handbook. 1st Edition., 2011, 845p. 20 illus., Hardcover, ISBN: 978-0-387-85819-7. http://www.springerlink.com/content/978-0-387-85819-7 Harus membaca paper juga, tidak hanya buku dan slide 8
Tugas dan Proyek (1) Semua tugas dan proyek dikerjakan dalam kelompok (3 s.d 5 Mahasiswa) (1) Tugas Pemrograman: Preprocessing terhadap dokumen teks bahasa Indonesia: Tokenisasi, Stemming, Stopword Removal dan Indexing Perhitungan kemiripan antar dokumen (atau dokumen dengan query) dan perankingannya (pada model ruang vektor) Evaluasi hasil pencarian/perhitungan kemiripan: Presisi, Recall, F-Measure Setiap anggota kelompok harus mampu menguasai 3 proses di atas secara manual (di atas kertas, boleh ber-kalkulator) 9
Tugas dan Proyek (2) (2) Tugas membaca dan merangkum paper tentang Web Search, Information Retrieval atau Recommender System 2 tahun terakhir (2014 s.d 2015) untuk melihat trend. Paper ini dijadikan sebagai salah satu referensi pada proyek Search Engine Mini Dipresentasikan pada pertemuan ke-7, sebagai bagian dari proposal proyek. Dikumpulkan: paper asli dan rangkumannya (A4, 1 spasi, Time New Roman 11 poin, 1 halaman) Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide, mahasiswa lain boleh bertanya. 10
Tugas dan Proyek (3) (3) Proyek Pembuatan prototipe Search Engine Mini Proposal proyek dipresentasikan pada pertemuan ke-7. Hasil: Layak (lanjut) atau ganti proyek (cari kasus lain) Laporan proyek (dikumpulkan): (1) latar belakang, (2) masalah yang diselesaikan, (3) solusi yang dipilih, (4) langkah-langkah dari metode/teknik dari solusi yang dipilih, (5) penjelasan kode program, (6) hasil yang diperoleh, (7) kesimpulan, (8) referensi, (9) peran dan tanggungjawab setiap anggota tim. Panjang laporan 5 halaman A4, 1.5 spasi. Dipresentasikan & didemokan pada pertemuan ke-14, maks. 20 menit. 11
Bagaimana Agar Lulus? Baca dan Pahami paper/bab yang akan didiskusikan di setiap perkuliahan slide hanya memberikan pemahaman secara garis besar Jika ada hal yang tidak jelas selama perkuliahan, segera membuat catatan dan ajukan pertanyaan. Tidak ber-social media selama perkuliahan Tim segera memulai proyek, agar: Punya waktu cukup untuk menyiapkan laporan Mengirimkan laporan (draft) agar lekas direview Mampu menjelaskan dengan baik aplikasi dari teknik yang dipilih (saat dipresentasikan). 12
Penilaian Ujian Tengah Semester (UTS): 40% (kemampuan membangun inverted index, menghitung kemiripan antar dokumen dan cara evaluasinya) Laporan & Presentasi Proyek Recommender System: 40% Ujian Akhir Semester (UAS): 30% (kemampuan memahami klasifikasi dokumen dan recommender system) Tugas Tambahan/Bonus Nilai? TIDAK ADA 13
14
15
Search Engine 16
Arsitektur Search Engine 17
18
Area Kerja Dalam Proses IR Web Crawling: menghimpun data dari Web Data Extraction: mengambil informasi dan URL dari halaman web Preprocessing: menerapkan aturan bahasa untuk menyederhanakan proses IR Indexing: membuat index (pemetaan term ke dokumen) Penanganan Query: mendapatkan dokumen yang relevan dengan Query (kebutuhan informasi pengguna) Klasifikasi dan Clusterisasi Recommendation: memberikan dokumen yang sesuai dengan kebutuhan/profil pengguna, berdasarkan kemiripan dokumen atau kemiripan pengguna Evaluasi sistem IR: Presisi, Recall, F-Measure 19
Amazon.com 20
movielens.org 21
Lain-lain Facebook Youtube igoogleportal 22
Pertanyaan 23