EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

dokumen-dokumen yang mirip
1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN UKDW

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

SISTEM TEMU KEMBALI INFORMASI

BAB 1 PENDAHULUAN UKDW

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

Text dan Web Mining - Budi Susanto 1 EVALUASI IR. Budi Susanto

EVALUASI IR. Tujuan 4/16/13. Budi Susanto

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN Latar Belakang Masalah

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB V EKSPERIMEN TEXT CLASSIFICATION

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB I PERSYARATAN PRODUK

ROCCHIO CLASSIFICATION

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. oleh perpustakaan. Ketersediaan Online Public Access Catalog (OPAC)

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

JULIO ADISANTOSO - ILKOM IPB 1

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ANALISIS PERBANDINGAN KINERJA SEARCH ENGINE MENGGUNAKAN PENELUSURAN PRECISION DAN RECALL UNTUK INFORMASI ILMIAH BIDANG ILMU KEDOKTERAN

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

1. Pendahuluan. 1.1 Latar belakang

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

1. BAB I PENDAHULUAN 1.1 Latar Belakang

Rata-rata token unik tiap dokumen

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

I. TINJAUAN PUSTAKA. query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi

BAB III METODOLOGI PENELITIAN

Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

BAB 3 ANALISA DAN PERANCANGAN

I. ANALISIS DAN PERANCANGAN SISTEM. Penelitian ini dilakukan di Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

BAB III METODOLOGI PENELITIAN

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

Penerapan Model Gravitasi Newton Versi Continuous dan Diskrit pada Sistem Temu Balik Informasi

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENGGUNAAN KAMUS SINONIM DAN HIPONIM SEBAGAI SUMBER EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

Implementasi Generalized Vector Space Model Menggunakan WordNet

BAB I PENDAHULUAN. 1.1 Latar Belakang

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

BAB 1 PENDAHULUAN. masyarakat setelah kebutuhan primer. Salah satu perkembangan teknologi

Search Engines. Information Retrieval in Practice

BAB II TINJAUAN PUSTAKA

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Universitas Gadjah Mada, Jalan Grafika No. 2 Yogyakarta 1), 2),

SVM untuk Ranking. Model Linear

BAB I. Pendahuluan. 1. Latar Belakang Masalah

APLIKASI CONTENT BASED IMAGE RETRIEVAL DENGAN FITUR WARNA DAN BENTUK

Temu Kembali Informasi Big Data Menggunakan K-Means Clustering

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

BAB 2 TINJAUAN PUSTAKA

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Cepatnya perkembangan ilmu pengetahuan di era Teknologi Informasi

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

Penerapan Graf dalam Algoritma PageRank Mesin Pencari Google

BAB I PENGANTAR Pendahuluan Penyajian 1.1 Latar Belakang 1.2 Algoritma dan Struktur Data

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara

Mencari dokumen yang dituliskan dalam berbagai bahasa

Pemanfaatan Permodelan Ruang Vektor untuk Pengecekan Kemiripan

BAB 1 PENDAHULUAN. perpustakaan adalah adanya proses temu kembali informasi, yang secara spesifik

SIDANG TUGAS AKHIR Anggoro Sukmo

PENDAHULUAN. Latar belakang

Transkripsi:

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung, Indonesia E-mail: rila@if.itb.ac.id ABSTRAKSI Mesin pencari merupakan salah satu aplikasi yang sering digunakan untuk mencari informasi dari internet. Seringkali mesin pencari tidak memberikan informasi yang diharapkan oleh penggunanya. Hal ini mungkin disebabkan oleh kesalahan sistem, atau karena pengguna tidak dapat mengekspresikan kebutuhan informasinya dengan baik. Apapun alasannya, mesin pencari selalu diharapkan dapat memberikan hasil yang sesuai dengan kebutuhan informasi pengguna. Algoritma pembelajaran merupakan salah satu metode untuk meningkatkan kualitas informasi yang diperoleh dalam sistem temu balik informasi (information retrieval). Algoritma pembelajaran merupakan salah satu cara untuk memperbaiki hasil pencarian dalam sistem temu balik informasi dengan cara memberi tahu atau mengajari sistem mengenai kebutuhan informasi pengguna. Hal ini akan memberikan pelajaran kepada sistem, sehingga diharapkan pada pencarian selanjutnya, sistem akan memperoleh hasil yang lebih memuaskan dibandingkan sebelumnya. Kata kunci: search-engine, machine-learning, information retrieval.. 1. PENDAHULUAN Pada era informasi sekarang ini, informasi merupakan unsur yang sangat penting. Untuk menemukan kebutuhan informasi, kita biasanya menggunakan perangkat bernama mesin pencari. Mesin pencari merupakan alat yang sangat berguna untuk mencari informasi di dalam dunia maya. Mesin pencari memiliki kemampuan untuk mencari informasi dari dokumen-dokumen yang tidak terstruktur. Kemampuan ini sangat berguna ketika kita ingin mencari suatu informasi dari dokumendokumen yang masing-masing memiliki struktur yang berbeda. Walaupun memiliki manfaat yang menjanjikan, mesin pencari tidak selalu memberikan informasi yang akurat. Kekurangan ini biasanya disebabkan oleh dua masalah utama. Pertama, mesin pencari tidak mampu menemukan pola dari dokumen relevan. Kedua, pengguna tidak menyatakan permintaannya dengan benar, misalnya dengan menggunakan kalimat yang redundan. Masalah pertama dapat diselesaikan dengan memperbaiki teknologi mesin pencari, sehingga mesin pencari dapat mengenali pola dokumendokumen relevan. Masalah kedua dapat diselesaikan dengan algoritma pencarian. Karena bahasa manusia dan komputer berbeda, sering terjadi kesalahan komunikasi antara keduanya. Algoritma pembelajaran berusaha mengatasi hal ini dengan berupaya memahami kebutuhan informasi pengguna, kemudian menterjemahkan kebutuhan informasi ini ke dalam bahasa yang dimengerti oleh komputer. Algoritma pembelajaran yang datang dari bidang intelegensia buatan dapat digunakan untuk meningkatkan kinerja mesin pencari. Metode yang akan digunakan untuk mendapatkan masukan bagi mesin pencari adalah manual relevance feedback. Algoritma pembelajaran yang akan dibahas adalah algoritma Rocchio dan algoritma Widrow-Hoff. Keduanya merupakan algoritma pembelajaran yang banyak dipakai saat ini. Rocchio merupakan algoritma menumpuk yang menggunakan rata-rata dari umpan balik sebagai masukan. Widrow-Hoff merupakan algoritma online yang menggunakan satu per satu umpan balik sebagai masukan. Tujuan dari studi ini adalah mengetahui bagaimana peran algoritma pembelajaran dalam meningkatkan kinerja mesin pencari. Selain itu studi ini juga akan menganalisa perbedaan antara kedua algoritma pencarian yang akan digunakan. 2. SEARCH ENGINE Mesin pencari atau yang lebih dikenal dengan search engine adalah perangkat yang digunakan untuk mencari informasi dalam koleksi dokumen sistem. Pengguna hanya tinggal memasukkan kata-kata kunci dari informasi yang dicari, dan dalam waktu yang relatif singkat sistem akan menampilkan daftar dokumen yang sesuai dengan kebutuhan informasi pengguna. 3. Algoritma Pembelajaran Kebutuhan informasi pengguna diperoleh sistem melalui query. Sistem menerjemahkan query menjadi kumpulan term yang menggambarkan kebutuhan informasi pengguna. Keterbatasan bahasa dan kemampuan user untuk mengungkapkan kebutuhan informasinya dalam query dapat menyebabkan sistem memberikan kinerja yang buruk. Umpan balik relevansi adalah interaksi antara pengguna dan sistem untuk secara bersamasama merundingkan masalah query yang tepat G-11

untuk menggambarkan kebutuhan informasi. Proses umpan balik relevansi akan mengubah query awal menjadi query baru yang menggambarkan lebih jelas mengenai kebutuhan informasi pengguna. Umpan balik relevansi memiliki beragam jenis. Masing-masing dibuat dengan kelebihan dan kekurangannya masing-masing. Umpan balik ini melibatkan pengguna secara langsung. Sistem akan meminta masukkan dari pengguna untuk memperbaiki kinerja sistemnya. Manual Relevance Feedback melakukan 5 buah proses utama, yaitu: 1. Inisialisasi pencarian dokumen 2. Memberikan hasilnya kepada pengguna 3. Menerima umpan balik dari pengguna 4. Membuat query baru berdasarkan umpan balik dan melakukan pencarian ulang 5. Memberikan hasil pencarian ulang kepada pengguna Setelah proses 5, pengguna dapat kembali ke proses 3 apabila diperlukan. User Query Retrieved Relevance Feedback Learning Result System Gambar 1. Manual Relevance Feedback Cara ini menuntut adanya campur tangan dari pengguna secara eksplisit. Hal ini dapat menimbulkan perasaan tidak nyaman bagi pengguna. Di lain pihak, cara ini memberikan umpan balik yang benar-benar tepat dengan kebutuhan informasi pengguna. Automatic Relevance Feedback. Umpan balik relevansi otomatis atau sering disebut sebagai pseudo-relevance feedback merupakan suatu cara untuk mengurangi gangguan terhadap pengguna. Dengan menggunakan cara ini, sistem beranggapan bahwa n-dokumen awal yang ditemukan merupakan dokumen yang sesuai dengan kebutuhan informasi pengguna. Prosesproses yang terjadi dalam Automatic relevance feedback adalah sebagai berikut: a. Inisialisasi pencarian dokumen. b. N-dokumen pertama yang ditemukan digunakan sebagai umpan balik. c. Membuat query baru dari umpan balik dan melakukan pencarian ulang. d. Memberikan hasil pencarian kepada pengguna. User Query Top-n Retrieved Relevance Feedback Learning Result System Gambar 2. Automatic Relevance Feedback Cara ini hanya baik digunakan, apabila sistem memiliki kinerja pencarian awal yang memuaskan. Penggunaan cara ini pada sistem yang memiliki kinerja buruk, hanya akan memperburuk hasil pencarian. Dalam model ruang vektor, umpan balik relevansi memiliki fungsi untuk menggerakkan vektor query mendekati vektor dokumen relevan dan menjauhi vektor dokumen tidak relevan. Pergerakan ini dilakukan dengan mengubah bobot setiap term dalam query berdasarkan umpan balik yang didapat. Sampai saat ini ada beberapa metode yang telah diterapkan untuk melakukan perubahan bobot tersebut, antara lain: 1. Metode Rocchio Menurut Rocchio, query yang optimal adalah query yang memaksimalkan perbedaan antara rata-rata kesesuaian dokumen-dokumen relevan dan dokumen-dokumen tidak relevan. Metode umpan balik yang diajukan oleh Rocchio bertujuan untuk mendekatkan vektor query awal ke arah vektor query optimal. Metode ini dapat dirumuskan sebagai berikut: Q R n1 n2 k k 1 = Q0 + β γ k= 1 n1 k= 1 n2 dimana: Q 1 adalah vektor query baru Q 0 adalah vektor query awal R k adalah vektor dokumen yang relevan ke-k S k adalah vektor dokumen yang tidak relevan ke-k n 1 adalah jumlah dari dokumen yang relevan n 2 adalah jumlah dari dokumen yang tidak relevan Parameter β dan γ merupakan nilai yang menyatakan berapa besar kontribusi dokumendokumen relevan dan dokumen-dokumen tidak relevan S (1) 2. Metode Widrow-Hoff Metode Widrow-Hoff atau LMS adalah algoritma online. Vektor query mendapatkan perubahan dari satu dokumen pada setiap waktu. Perubahan vektor query ini dirumuskan sebagai berikut: Q i+1 = Q i - 2µ(Q i D i - Y i ) D i (2) G-12

dimana: Q i+1 adalah vektor query baru Q i adalah vektor query lama D i adalah dokumen umpan balik ke-i Y i adalah pengukur kesesuaian dokumen. Y i = 1 jika D i relevan,y i =0 jika D i tidak relevan. µ adalah koefisien yang menyatakan berapa besar kecepatan pembelajaran sistem. Nilai µ berkisar antara 0-1. Semakin besar nilai µ, semakin mudah sistem terpengaruh oleh umpan balik yang diberikan. Sehingga jika nilai µ terlalu besar, sistem akan memberikan hasil yang buruk. Sebaliknya jika nilai µ terlalu kecil, sistem tidak akan atau sedikit mengalami pembelajaran. Perubahan vektor terjadi sampai seluruh umpan balik yang diberikan pengguna diproses. Misalnya sistem menemukan 5 buah dokumen yang dianggap sesuai dengan query. Jika pengguna menyatakan hanya dokumen D 1, D 2, dan D 3 yang relevan, maka vektor query Q 0 akan digerakkan ke arah kumpulan dokumen relevan menjadi vektor Q 1. Dengan demikian pada pencarian selanjutnya sistem akan menemukan bahwa dokumen D 1, D 2, dan D 3 lebih relevan dibandingkan dengan dokumen D 4 dan D 5. T 1 D 1 D 2 Q1 D 3 Rocchio (Gambar II.9) menggunakan akumulasi perhitungan umpan balik untuk mengubah vektor Q 0 menjadi Q 1. Metode Widrow-Hoff (Gambar II.10) mengubah vektor query dengan menggunakan satu-persatu umpan balik yang didapatkan, sehingga vektor query Q 0 berubah menjadi Q 0 akibat umpan balik D 1, dan menjadi Q 0 setelah memproses umpan balik D 2, dan akhirnya menjadi Q 1 setelah menerima umpan balik D 3. Jumlah perubahan vektor query dengan menggunakan metode Widrow-Hoff adalah sama dengan jumlah umpan balik yang diterima sistem. 4. EKSPERIMEN Pengukuran kinerja merupakan suatu cara untuk menghitung seberapa baik suatu sistem dalam menemukan dokumen yang sesuai dengan kebutuhan pengguna. Penilaian yang umum dilakukan adalah dengan menggunakan metoda perbandingan Dua metoda perbandingan yang digunakan adalah precision dan recall. Precision adalah perbandingan jumlah dokumen relevan yang diambil dengan jumlah seluruh dokumen yang diambil oleh sistem[man04]. Precision mencerminkan kualitas pengambilan yang dilakukan. Recall adalah perbandingan antara jumlah dokumen relevan yang diambil dengan jumlah dokumen relevan yang berada di koleksi dokumen (database)[man04]. Jika jumlah dokumen relevan yang berada di dalam koleksi dokumen tidak diketahui, perkiraan dapat dilakukan. Q 0 Collection Relevant Relevant Retrieved Retrieved T 1 Gambar 3. Contoh Perubahan Vektor Query Dengan Metode Rocchio D 1 D 2 Q 0 Q 0 Q 1 T 2 Precision = Recall = Relevant Retrieved Retrieved Relevant Retrieved Relevant Gambar 5. Representasi Himpunan Precision dan Recall Gambar 4. Contoh Perubahan Vektor Query Dengan Metode Widrow-Hoff Perbedaan metode Rocchio dan metode Widrow-Hoff terletak pada penggunaan umpan balik dalam pengubahan vektor query. Metode Q 0 D 3 T 2 Kinerja dari suatu sistem harus memperhatikan kedua metode pengukuran di atas. Misalnya suatu sistem berhasil menemukan 10 dokumen, di mana 9 dari 10 dokumen tersebut merupakan dokumen yang relevan. Menurut metode precision, sistem ini memiliki performansi yang baik. Namun bilamana total dokumen relevan yang berada di dalam koleksi dokumen jauh lebih besar daripada 9, sistem tidak dapat dikatakan memiliki kinerja yang baik. Oleh karena itu, pengukuran kinerja harus melihat dari dua buah metoda tersebut. Pada kondisi yang ideal, suatu sistem akan memperoleh nilai precision 1 pada nilai recall G-13

manapun. Namun kondisi ini hampir tidak mungkin terjadi. Kondisi yang terjadi pada umumnya adalah penurunan tingkat precision seiring dengan naiknya recall. Precision G1 G 2 Recall Gambar 6. Grafik Perbandingan Recall dan Precision Dua buah sistem atau lebih tidak dapat dibandingkan kinerjanya dengan menggunakan grafik perbandingan presisi dan recall. Grafik dua buah sistem (G 1 dan G 2 )yang saling menyilang seperti pada gambar II-6 menyulitkan kita untuk menentukan sistem mana yang lebih baik. Ada beberapa cara untuk membandingkan kinerja sistem, antara lain adalah IAP (Interpolated Average Precision) dan NIAP (Non Interpolated Average Precision). a. IAP IAP menghitung kinerja sistem berdasarkan interpolated precision-nya pada standard recall level. Standard recall level adalah titik-titik recall saat nilainya 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, dan 100%. Notasi yang digunakan adalah sebagai berikut: r(j) = Standard recall level ke-j r(0) = 0, r(1) = 0.1, r(2) = 0.2, r(10) = 1 Suatu interpolated precision pada standard recall level ke-j adalah presisi maksimum dalam recall level ke-j dan recall level ke-j+1. Nilai IAP didapatkan dengan menghitung rata-rata interpolated precision pada recall level ke- 0 sampai dengan recall level ke-10. b. NIAP NIAP menghitung kinerja sistem berdasarkan rata-rata presisinya saat suatu dokumen relevan ditemukan. Jadi saat suatu dokumen relevan ditemukan, nilai presisi dokumen tersebut akan dihitung. Kemudian seluruh nilai presisi tersebut akan dijumlahkan dan dibagi dengan jumlah dokumen relevan dalam koleksi dokumen. Kedua buah cara di atas akan memberikan satu nilai yang dapat digunakan untuk membandingkan kinerja dua buah sistem atau lebih, tanpa membawa banyak kebingungan. Kelebihan IAP dibandingkan NIAP adalah kemampuannya dalam menggambarkan kinerja sistem dalam setiap tahapan. Namun NIAP dapat memberikan gambaran kinerja sistem yang lebih akurat dibandingkan dengan IAP, karena tidak semua sistem memiliki 11 titik recall yang sesuai dengan standar recall level. Hal ini menyebabkan sistem mengambil nilai titik recall dari titik recall lain yang terdekat dengan standar recall level. Tabel 1 (terlampir) merupakan hasil pengujian yang dilakukan terhadap mesin pencari. Secara umum, algoritma pembelajaran memberikan dampak positif terhadap kinerja mesin pencari. Namun dalam beberapa percobaan, algoritma pembelajaran mengurangi kinerja mesin pencari. Berikut ini adalah kesimpulan yang didapatkan setelah menganalisis percobaanpercobaan yang dilakukan: 1. Jumlah umpan balik akan mempengaruhi kemampuan sistem untuk mengenali pola dokumen relevan. Semakin banyak umpan balik relevan yang berada dalam kumpulan dokumen relevan, semakin besar peningkatan kinerja sistem setelah pembelajaran. 2. Umpan balik akan menarik vektor query ke arah vektor umpan balik. Adanya umpan balik yang posisinya berjauhan dengan dokumen relevan yang lain akan menarik vektor query menjauhi kumpulan dokumen relevan dan menyebabkan turunnya kinerja sistem. Algoritma pembelajaran Rocchio dan Widrow-Hoff menggunakan cara yang berbeda untuk melakukan pembelajaran. Perbedaan ini memberikan hasil pembelajaran yang berbeda pula. Dalam beberapa percobaan, algoritma Rocchio lebih unggul dibandingkan algoritma Widrow-Hoff. Sementara pada percobaan lainnya algoritma Widrow-Hoff lebih unggul. Setelah melalui pengamatan, berikut ini adalah hal-hal yang dapat disimpulkan dari kedua algoritma pembelajaran tersebut: 1. Algoritma pembelajaran Widrow-Hoff ditentukan oleh urutan pemrosesan dokumen dan jumlah dokumen. 2. Jika dalam seluruh umpan balik yang diberikan terdapat dokumen relevan di luar kumpulannya, algoritma Widrow-Hoff akan memberikan hasil yang lebih baik bilamana dokumen di luar kumpulannya tersebut tidak diproses di bagian akhir. Sebaliknya, jika dokumen tersebut diproses di akhir, Algoritma Widrow-Hoff akan memberikan hasil yang lebih buruk dibandingkan algoritma Rocchio. Algoritma Rocchio tidak tergantung pada urutan pemrosesan dokumen. 3. Jika seluruh umpan balik merupakan dokumen relevan di dalam kumpulannya, Semakin G-14

banyak umpan balik, semakin unggul hasil pembelajaran algoritma Widrow-Hoff dibandingkan algoritma Rocchio. 4. Pemrosesan algoritma Widrow-Hoff cenderung lebih lama dibandingkan pemrosesan algoritma Rocchio. 5. KESIMPULAN Makalah ini membahas tentang penerapan algoritma pembelajaran dalam memperbaiki kinerja dari mesin pencari. Kemudian efektifikas algoritma pembelajaran ini diukur berdasarkan keakuratan pencarian informasi dan juga waktu yang dibutuhkan untuk pembelajaran. Hasil evaluasi menunjukkan bahwa algoritma pembelajaran dapat memberikan performansi yang lebih baik. DAFTAR PUSTAKA [JOA04] Joachims, Thorsten. (2004). STRIVER: The Search Engine that Learns. Cornell University.Department Of Computer Science. Tanggal Akses: 22 November 2004 [LEW96] Lewis, David D; Schapire, Robert E; Callan, James P; Papka, Ron. (1996). Training Algoritms For Linear Text Classifiers, In Procceding Of 19 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. [MAN04] Mandala, Rila. (2004). Bahan Kuliah Sistem Temu Balik Informasi: Pengantar Sistem Temu Balik Informasi, Institut Teknologi Bandung. Departemen Teknik Informatika. [WAL04] Wall,Aaron.(2004). History of Search Engines and Web History. http://www.searchmarketing.info/searchengines/index.htm. Tanggal Pengaksesan: 24 Januari 2005 [KIM03] Kim, Byeong Man; Li, Qing; Kim, Jong-Wan. (2003). Extraxtion Of User Preferences from a Few Positive. http://acl.ldc.upenn.edu/w/w03/w03-1116.pdf Tanggal Pengaksesan: 8 Februari LAMPIRAN Tabel 1. Hasil Pengujian Mesin Pencari Koleksi Dokumen No Query IAP NIAP Normal Rocchio Widrow-Hoff Normal Rocchio Widrow-Hoff cran.all 001 0.168845911 0.054142091 0.055037186 0.132175897 0.049628195 0.04952369 cran.all 002 0.068525141 0.082648294 0.076287095 0.058317001 0.07425883 0.064897689 cran.all 023 0.05226748 0.143013021 0.143013021 0.044856769 0.077690694 0.077690694 cran.all 083 0.022895693 0.034549442 0.034549442 0.020997552 0.029586988 0.029586988 cran.all 213 0.095364115 0.162885499 0.130860742 0.08874513 0.175311304 0.139445237 cran.all 225 0.037110452 0.153551017 0.106788086 0.033633611 0.11546245 0.058026016 cisi.all 1 0.201436125 0.07078845 0.07078845 0.183403263 0.066010718 0.066010718 cisi.all 3 0.094426952 0.053685977 0.064288287 0.081764805 0.049740095 0.059689306 cisi.all 9 0.075327212 0.038067195 0.045974282 0.071390256 0.034060441 0.039896548 cisi.all 10 0.113657088 0.136126028 0.028150246 0.097715759 0.102871823 0.025918162 cisi.all 11 0.187379766 0.094695699 0.094695699 0.17806675 0.087664453 0.087664453 cisi.all 12 0.02286429 0.013429423 0.013429423 0.017375559 0.012610174 0.012610174 cisi.all 13 0.227591052 0.100067931 0.099260423 0.207079572 0.080848686 0.085688623 cisi.all 15 0.194464075 0.08331016 0.08331016 0.17836998 0.081384488 0.081384488 cisi.all 17 0.015983965 0.082419408 0.082419408 0.013564285 0.068464656 0.068464656 Tabel 2. Waktu Pengujian (Detik) Koleksi Dokumen No Query Time Normal Rocchio Widrow-Hoff cran.all 001 6.098634958 86.51209188 88.47923398 cran.all 002 5.861355066 125.5784049 143.781744 cran.all 023 9.136739016 60.32504416 62.62536192 cran.all 083 4.793849945 41.60915685 41.0847919 cran.all 213 8.059700012 59.21317983 62.55222893 cran.all 225 12.534868 76.85486293 81.16612911 cisi.all 1 12.83498096 51.43880391 50.71574187 cisi.all 3 7.322800875 101.3111899 109.655427 cisi.all 9 13.13868213 79.5608871 81.22122908 cisi.all 10 9.296489 104.101779 118.035229 cisi.all 11 11.37331104 97.76658607 96.96471119 cisi.all 12 7.029132843 37.77302098 38.80676889 cisi.all 13 14.21238208 71.54807997 75.7498529 cisi.all 15 20.9052608 39.38961983 38.67125893 cisi.all 17 11.46323895 43.82619286 43.87877107 G-15

G-16