RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

Ukuran: px
Mulai penontonan dengan halaman:

Download "RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR"

Transkripsi

1 RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Oleh: Andika Wahyu Agusetyawan G DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006

2 RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Oleh: Andika Wahyu Agusetyawan G DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006

3 ABSTRAK ANDIKA WAHYU AGUSETYAWAN. Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular. Dibimbing oleh JULIO ADISANTOSO dan AHMAD RIDHA. Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja perluasan kueri dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa Indonesia. Metode relevance feedback yang digunakan adalah Ide-Dec-Hi dan Ide-Regular. Untuk kepentingan pengujian, penelitian ini juga melengkapi corpus yang digunakan dengan 30 kueri disertai gugus jawabannya. Evaluasi kinerja relevance feedback dilakukan menggunakan test and control group. Masing-masing group terdiri atas 500 dokumen yang berupa artikel-artikel pertanian berbahasa Indonesia dari berbagai situs media massa. Sistem dasar yang digunakan adalah sistem temu kembali berbasis vector space model hasil penelitian Ridha (2002). Sistem ini melakukan rule-based stemming sekaligus memakai stoplist untuk bahasa Indonesia. Variasi jumlah dokumen yang diperiksa yakni lima dan sepuluh. Hasil penelitian menunjukkan bahwa relevance feedback secara keseluruhan meningkatkan kinerja sistem temu kembali. Siklus relevance feedback dalam penelitian ini telah menunjukkan hasil memuaskan pada iterasi pertama. Peningkatan kinerja terbesar diperoleh ketika menggunakan formula Ide-Dec-Hi. Hasil ini sesuai dengan hasil penelitian Ruthven & Lalmas (2003). Kinerja sistem tanpa relevance feedback adalah sedangkan dengan Ide-Dec-Hi mencapai 0.516, meningkat 15.44%. Sementara menggunakan Ide-Regular peningkatan yang diperoleh adalah 14.54%, menjadi Dari perbandingan query-by-query dapat disimpulkan bahwa penggunaan relevance feeback tidak terlalu membantu pada kueri yang kinerja awalnya memang sudah tinggi. Sebaliknya, untuk kueri-kueri yang memberikan hasil buruk pada pencarian awal, relevance feedback sangat cocok untuk digunakan dan menjanjikan peningkatan kinerja yang cukup tinggi. Kata Kunci: Temu Kembali Informasi, Relevance Feedback, formula Rocchio, Ide-Dec-Hi dan Ide-Regular.

4 Judul Nama NRP : Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular : Andika Wahyu Agusetyawan : G Pembimbing I, Menyetujui: Pembimbing II, Ir. Julio Adisantoso, M.Kom NIP Ahmad Ridha, S.Kom NIP Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. Ir. Yonny Koesmaryono, MS NIP Tanggal Lulus :

5 RIWAYAT HIDUP Penulis dilahirkan di Kendal pada tanggal 14 Agustus 1983 dari ayah Sugeng dan ibu Sri Wahyuni. Penulis merupakan putra kedua dari dua bersaudara. Tahun 2001 penulis lulus dari SMU Negeri 1 Kendal dan pada tahun yang sama diterima di IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Pada tahun 2005 penulis menjalankan praktek lapangan di Rumah Sakit Azra Bogor, Divisi Sistem Informasi Rumah Sakit selama kurang lebih dua bulan. Di tahun yang sama penulis berkesempatan menjadi pengembang Sistem Informasi Akademik Universitas Winaya Mukti di Jatinangor, Sumedang. Pada bulan Agustus tahun 2005 penulis beserta dua rekan seangkatan mendirikan CV INTEGRA SOLUSI AKSESINDO, sebuah perusahaan konsultan teknologi informasi yang berlokasi di Bogor.

6 PRAKATA Alhamdulillah wa syukrulillah penulis panjatkan ke hadirat Allah Subhanahu wa ta ala atas segala rahmat, kasih sayang, hidayah dan cinta-nya sehingga skripsi ini berhasil diselesaikan. Shalawat serta salam selalu untuk Nabi Muhammad Shallalahu alaihi wasallam beserta seluruh sahabat dan umatnya hingga akhir zaman. Tema yang dipilih pada penelitian ini adalah temu kembali informasi, dengan judul Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia Dengan Metode Ide-Dec-Hi dan Ide-Regular. Penulis sampaikan terima kasih kepada semua pihak yang telah membantu dan memberikan pengalaman yang menyenangkan selama melakukan penelitian ini. Khususnya kepada Bapak Ir. Julio Adisantoso, M.Kom dan Bapak Ahmad Ridha, S.Kom serta Ibu Yeni Herdiyeni, S.Si, M.Kom yang telah memberikan begitu banyak masukan, bimbingan dan pelajaran berharga selama menjadi pembimbing dan penguji. Selanjutnya penulis juga ingin mengucapkan terima kasih kepada: 1. Keluarga tercinta, khususnya kedua orang tua penulis atas rasa cinta, kasih sayang, kesabaran, dukungan dan doa yang tak pernah berhenti, yang selalu meringankan langkah penulis bahkan di saat-saat terberat sekalipun. Terima kasih juga kepada Mas A an yang selalu memberi inspirasi, semangat dan ide-ide baru. 2. Ratna Purnama Sari, yang dengan kesabarannya dan keceriaannya semakin memantapkan langkah penulis di setiap harinya. 3. Sahabat-sahabat Ilkom angkatan 38, terimakasih atas persahabatan kita yang penuh gelak tawa selama ini. 4. Sahabat-sahabat serumah di Pakuan. 5. Departemen Ilmu Komputer, staf dan dosen yang telah begitu banyak membantu baik selama pelaksanaan skripsi ini maupun sebelumnya. Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, terima kasih. Semoga penelitian ini dapat memberikan manfaat. Bogor, Januari 2006 Andika Wahyu Agusetyawan

7 DAFTAR ISI Halaman DAFTAR TABEL... viii DAFTAR GAMBAR... ix DAFTAR LAMPIRAN... x PENDAHULUAN... Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 TINJAUAN PUSTAKA Information Retrieval System (Sistem Temu Kembali Informasi)... 1 Query (Kueri)... 2 Daftar Kata Buang... 2 Stemming... 2 Vector Space Model (VSM)... 2 Pembobotan Istilah... 2 Query Expansion (Perluasan Kueri) dan Relevance Feedback... 3 Pembobotan dan Pemilihan Istilah... 3 Corpus... 4 Recall Precision... 4 Average Precision (AVP)... 4 Algoritma RF... 4 METODOLOGI Algoritma RF... 5 Sistem Temu Kembali dan Evaluasinya... 5 Evaluasi RF... 5 Corpus... 6 Asumsi-asumsi... 6 Lingkungan Pengembangan... 7 HASIL DAN PEMBAHASAN Gugus Kueri dan Gugus Jawaban... 6 Evaluasi RF... 6 KESIMPULAN DAN SARAN Kesimpulan... 9 Saran DAFTAR PUSTAKA... 10

8 DAFTAR TABEL Halaman 1. Deskripsi koleksi pengujian Contoh hasil pooling beberapa kueri Perbandingan nilai average precision sebelum dan setelah menggunakan RF Daftar nilai Sig. pada Wilcoxon Signed Ranks Test (α=0.05)... 8

9 DAFTAR GAMBAR Halaman 1. Kurva recall-precision RG5 dan DH5 pada iterasi ke Kurva recall-precision RG10 dan DH10 pada iterasi ke Kurva recall-precision RG5 dan DH5 pada iterasi ke Kurva recall-precision RG10 dan DH10 pada iterasi ke

10 DAFTAR LAMPIRAN Halaman 1. Proses penemukembalian informasi (Baeza-Yates & Ribeiro-Neto 1999) Antarmuka implementasi Contoh dokumen dalam koleksi Contoh kueri dan deskripsinya Gugus kueri dan gugus jawaban Perbandingan query-by-query... 21

11 1 Latar Belakang PENDAHULUAN Sejalan dengan semakin populernya penggunaan Internet dan Perpustakaan Digital, informasi dalam jumlah yang luar biasa besar kini bisa diakses secara luas oleh masyarakat, suatu hal yang tidak tersedia di masa lalu. Akan tetapi bersamaan dengan itu, muncul masalah baru. Pengguna kini harus menyaring seluruh kumpulan informasi tersebut untuk menemukan kebutuhan informasinya. Bahkan setelah melalui bantuan search engine pun, yang rata-rata kini telah mengindeks milyaran halaman Web dari beragam kategori, setelah disaring melalui penggunaan kata kunci, pengguna seringkali belum bisa menemukan dokumen yang relevan dengan informasi yang dicarinya. Dalam temu kembali informasi, jumlah dokumen relevan yang ditemukembalikan akan dipengaruhi oleh jumlah kata kunci yang digunakan untuk pencarian. Dalam Web, pencarian pada umumnya dilakukan menggunakan kueri pendek, hanya kurang dari tiga kata (Spink et al. 2000). Hal ini cukup menyulitkan karena kueri pendek hanya menyediakan sedikit informasi bagi sistem temu kembali mengenai kebutuhan pencarian pengguna. Sebagai hasilnya adalah meskipun jumlah dokumen yang ditemukembalikan banyak akan tetapi hanya sedikit yang dianggap relevan oleh pengguna. Masalah lain yang sering terjadi dalam Web dan Perpustakaan Digital adalah pilihan kata yang digunakan pengguna dalam kueri seringkali berbeda dengan pilihan kata yang yang digunakan penulis dalam dokumen. Bahkan ketika beberapa pengguna memiliki kebutuhan informasi yang sama, jarang mereka menggunakan pilihan kata yang sama untuk menggambarkannya dalam kueri (Xu & Croft 2005). Beberapa pendekatan dalam temu kembali informasi telah dilakukan untuk menangani perbedaan ini. Salah satu pendekatannya adalah penggunaan relevance feedback. Dalam pendekatan ini sistem menemukembalikan dokumen-dokumen yang mungkin relevan bagi kueri pengguna, selanjutnya pengguna memeriksa beberapa dokumen tersebut dan menandai dokumen yang dianggap relevan. Informasi ini digunakan oleh sistem untuk memodifikasi atau menambahkan kata dalam kueri dan diharapkan meningkatkan hasil pencarian. Siklus ini bisa terus diulang sampai pengguna merasa kebutuhan informasinya telah terpenuhi. Tujuan Penelitian ini bertujuan mengimplementasikan dan menganalisis kinerja perluasan kueri dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa Indonesia. Ruang Lingkup Penelitian ini dibatasi pada analisis kinerja relevance feedback pada sistem temu kembali informasi berbahasa Indonesia menggunakan formula Ide-Dec-Hi dan Ide-Regular. Model sistem temu kembali yang digunakan adalah vector space model. TINJAUAN PUSTAKA Information Retrieval System (Sistem Temu Kembali Informasi) Tujuan utama sebuah information retrieval system (IRS) adalah menemukembalikan informasi yang mungkin berguna atau relevan bagi pengguna sesuai dengan kueri yang telah dimasukkannya. Penekanannya adalah pada penemukembalian informasi, bukan data (Baeza-Yates & Ribeiro-Neto 1999). Kerangka proses penemukembalian informasi dapat dilihat pada Lampiran 1. IRS memberikan pengguna kemampuan untuk bisa mengakses informasi elektronik dalam jumlah yang sangat besar dalam waktu yang relatif singkat. Informasi tersebut bisa berupa dokumen teks, halaman web, gambar, audio atau video. Sejumlah fitur membedakan IRS dengan sistem pencarian informasi yang lain, antara lain IRS tidak menyaring dan tidak pula memproses informasi yang terkandung dari objek informasi yang diaksesnya. Data yang diakses IRS juga biasanya tidak berstruktur, begitu pula informasi yang diterimanya (Ruthven & Lalmas 2003). Berbeda dengan sistem basisdata yang kuerinya terikat dalam aturan tertentu, IRS bisa menangani kueri seperti Bagaimana keadaan perekonomian Irak setelah jatuhnya rezim Saddam Husein? atau Apa saja penelitian di bidang temu kembali informasi yang telah dilakukan mahasiswa Indonesia?. IRS pada dasarnya memang ditujukan untuk menangani permintaan informasi yang jawabannya tidak harus unik atau objektif.

12 2 Query (Kueri) Menurut Baeza-Yates & Ribeiro-Neto (1999), kueri adalah pernyataan kebutuhan informasi pengguna dalam bentuk masukan berupa bahasa yang dikenali oleh sistem informasi. Jenis bahasa masukan sederhana yang paling banyak digunakan adalah kata kunci dan beberapa penghubung berupa ekspresi Boolean. Daftar Kata Buang Salah satu langkah dalam pengindeksan adalah menghilangkan istilah-istilah yang sangat sering muncul dalam koleksi dan yang tidak membantu penemukembalian dokumen relevan. Daftar istilah-istilah yang dihilangkan ini disebut daftar kata buang (stoplist). Daftar kata buang dapat berupa daftar yang dibuat secara umum yang bisa digunakan pada kebanyakan jenis koleksi atau daftar yang khusus dibuat untuk satu koleksi tertentu. (Ruthven & Lalmas 2003). Daftar kata buang biasanya kebanyakan terdiri dari kata sandang dan kata penghubung (Selberg 1997). Semisal sang, si, namun, dan tetapi. Stemming Istilah bisa muncul dalam berbagai variasi linguistik dari kata yang sama. Sebagai contoh, kata petani dan bertani sebenarnya berasal dari satu bentuk dasar yaitu tani. Dalam sistem temu kembali hal ini akan cukup menyulitkan pengguna karena ketika pengguna memasukkan kueri bertani, sistem akan menemukembalikan semua dokumen yang mengadung kata bertani tapi tidak yang mengandung kata petani. Untuk menghindari kesulitan tersebut sehingga pengguna tidak perlu mencoba semua kemungkinan variasi untuk setiap kata dalam kueri, banyak sistem temu kembali yang mengubah istilah-istilahnya ke bentuk dasarnya. Proses ini disebut stemming (Ruthven & Lalmas 2003). Vector Space Model (VSM) Vector space model merupakan model temu kembali yang paling populer sekaligus sederhana (Baeza-Yates & Ribeiro-Neto 1999). Berikut adalah beberapa definisi matematika yang digunakan dalam VSM (Selberg 1997): 1. D={d 0, d 1,..., d N } adalah himpunan N dokumen dalam koleksi. d mengacu pada sembarang dokumen d i D. 2. T={t 0, t 1,..., t m } adalah himpunan m istilah yang terindeks dalam D. t mengacu pada sembarang istilah t i T. 3. w i adalah bobot dari istilah t i. Bobot bisa diartikan sebagai suatu nilai numerik yang menyatakan tingkat kepentingan sebuah istilah. 4. d i adalah sebuah dokumen tunggal, direpresentasikan sebagai vektor berdimensi m, d i =[w i1, w i2,..., w im ] dengan w ij adalah bobot istilah t j dalam dokumen d i. Dalam kasus paling sederhana, w ij bernilai 1 jika istilah t j muncul dalam dokumen d i, dan w ij bernilai 0 jika sebaliknya. 5. Q adalah kueri yang direpresentasikan sebagai sebuah vektor berdimensi m, mirip dengan dokumen, Q=[w 1, w 2,...,w m ] dengan w i adalah bobot istilah t i dalam Q. Hasil penemukembalian ditampilkan berupa daftar dokumen yang telah teranking berdasar tingkat kesamaan dokumen dengan kueri. Ukuran kesamaan sim(d j,q) antara dokumen d i dan kueri Q dihitung menggunakan kosinus sudut antara d i dan Q sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999): di Q sim( d i, Q) =. d Q Pembobotan Istilah Pembobotan dilakukan terhadap istilahistilah yang berada dalam dokumen koleksi. Sistem temu kembali yang paling sederhana memboboti dengan bobot biner, 1 jika istilah itu muncul di dokumen dan 0 jika sebaliknya. Semakin canggih suatu sistem temu kembali, semakin kompleks skema pembobotannya. Berbagai macam penelitian dalam temu kembali informasi selama bertahun-tahun telah menunjukkan bahwa pembobotan yang optimal didapatkan melalui penggunaan fungsi tf*idf (Liddy 2001). Pada fungsi tf*idf bobot istilah ke-i pada dokumen ke-j dihitung dari perkalian term frequency dan inverse document frequency yang dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999): selanjutnya tf w i j * i, = tf idf, freq max l i, j =, ( freq ) l, j

13 3 dengan freq i,j merupakan frekuensi kemunculan istilah ke-i dalam dokumen ke-j, max l (freq l,j ) sebagai frekuensi maksimum istilah-istilah yang berada dalam dokumen kej dan N idf = log, n i dengan N adalah jumlah total dokumen dalam koleksi serta n i merupakan jumlah dokumen yang mengandung istilah ke-i. Query Expansion (Perluasan Kueri) dan Relevance Feedback Menurut Selberg (1997), perluasan kueri adalah sekumpulan teknik untuk memodifikasi kueri dengan tujuan untuk memenuhi sebuah kebutuhan informasi. Seringnya modifikasi dilakukan dengan penambahan istilah ke dalam kueri, meskipun sebenarnya perluasan kueri juga meliputi penyesuaian bobot dan penghapusan istilah kueri. Perluasan kueri bisa dilakukan dengan salah satu dari dari tiga metode berikut: 1. Manual Query Expansion (MQE) Menggunakan metode ini pengguna memodifikasi kueri secara manual. Sistem tidak memberikan bantuan sama sekali kepada pengguna. 2. Automatic Query Expansion (AQE) Dalam metode ini sistem akan memodifikasi kueri secara otomatis tanpa perlu bantuan kendali dari pengguna. Beberapa teknik yang biasa digunakan antara lain: a. Global Analysis (GA) GA beroperasi dengan cara memeriksa seluruh dokumen yang ada dalam koleksi untuk membangun suatu struktur yang mirip dengan tesaurus. Menggunakan tesaurus ini, kueri akan diperluas dengan istilah-istilah yang dianggap berhubungan erat dengan istilah kueri dalam ruang lingkup koleksi (Baeza-Yates & Ribeiro-Neto 1999). b. Local Analysis (LA) Dalam LA, sistem menemukembalikan dokumen dengan sebuah kueri awal, memilih dan memeriksa sejumlah dokumen dengan ranking teratas, mengasumsikan bahwa dokumen-dokumen teratas tersebut relevan, untuk kemudian membangkitkan sebuah kueri baru (Baeza-Yates & Ribeiro-Neto 1999). c. Local Context Analysis (LCA) LCA merupakan sebuah teknik baru yang mengkombinasikan GA dan LA. Berdasar penelitian Xu dan Croft (1996), LCA mampu mengalahkan efektifitas dan konsistensi dari GA dan LA. 3. Interactive Query Expansion (IQE) IQE mencakup metode-metode yang di dalamnya pengguna melakukan interaksi dengan sistem dalam proses perluasan kueri. Teknik yang tercakup di dalamnya adalah relevance feedback dan teknik inilah yang menjadi topik dalam penelitian ini. Relevance feedback (RF) adalah metode yang sudah diterima secara luas untuk meningkatkan keefektifan penemukembalian secara interaktif. Sebuah pencarian awal dilakukan oleh sistem menggunakan kueri yang diberikan oleh pengguna dan sebagai hasilnya menemukembalikan sejumlah dokumen. Pengguna memeriksa dokumen-dokumen tersebut dan menandai dokumen yang dianggap relevan. Sistem kemudian secara otomatis memodifikasi kueri berdasar penilaian relevansi pengguna tadi. Kueri baru dijalankan untuk menemukembalikan kumpulan dokumen yang lebih relevan. Proses ini dapat berulang hingga pengguna merasa kebutuhan informasinya terpenuhi (Buckley et al ). Penelitian yang dilakukan Ruthven dan Lalmas (2003) melalui simulasi yang dilakukan pada pengguna berpengalaman, menyimpulkan bahwa IQE memberikan peningkatan kinerja yang lebih stabil daripada AQE. Sementara Belkin et al. (1997) menunjukkan bahwa kinerja RF tidak lebih buruk dibandingkan LCA. Pembobotan dan Pemilihan Istilah Teknik RF biasanya berfokus pada salah satu dari dua pendekatan berikut: 1. Pembobotan Istilah, adalah sebuah proses yang di dalamnya istilah-istilah kueri diboboti atau disesuaikan bobotnya. Bobot masing-masing istilah akan berbeda, bergantung pada tingkat kepentingan istilah tersebut untuk menemukembalikan tambahan dokumen relevan. 2. Pemilihan Istilah, adalah sebuah proses penambahan, atau dalam beberapa kasus, penghapusan istilah-istilah kueri. Biasanya

14 4 pemilihan istilah diimplementasikan dengan menggunakan sebuah formula perankingan untuk mengurutkan seluruh istilah yang menjadi kandidat, dan kemudian memilih x kandidat teratas (Selberg 1997). Corpus Istilah corpus terutama dikenal dalam bidang linguistik yang pada prinsipnya bermakna koleksi yang memiliki lebih dari satu teks. Suatu corpus modern memiliki beberapa karakteristik yakni (McEnery & Wilson 2001): 1. Sampling & representativeness 2. Finite size 3. Machine-readable form 4. A standard reference Menurut Hiemstra & Leeuwen (2001), suatu corpus pengujian sistem temu kembali informasi terdiri dari koleksi dokumen, topiktopik, yang dapat digunakan sebagai kueri, dan penilaian relevansi sebagai daftar dokumen yang relevan dengan topik-topik yang tersedia. Corpus dapat menyediakan pendekatan yang seragam dalam evaluasi kinerja sistem temu kembali informasi. Teknik evaluasi ini juga digunakan dalam Text Retrieval Conference (TREC). Dalam TREC, daftar dokumen relevan untuk setiap topik/kueri didapat melalui sebuah kumpulan dokumen yang dimungkinkan relevan yang disebut pool. Pool ini dibentuk dari K dokumen teratas (biasanya K=100) dari hasil perankingan oleh beberapa sistem temu kembali informasi yang telah teruji kinerjanya. Dokumen-dokumen dalam pool kemudian diperlihatkan pada penguji untuk memberikan penilaian relevansi untuk tiap dokumen. Teknik mendapatkan daftar dokumen relevan ini disebut metode pooling dan berdasar pada dua asumsi. Pertama, nyaris seluruh dokumen relevan berhasil dikumpulkan ke dalam pool. Kedua, dokumen-dokumen yang tidak termasuk dalam pool dianggap tidak relevan. Kedua asumsi ini telah terbukti akurat dalam pengujian yang dilakukan pada konferensi TREC (Baeza-Yates & Ribeiro-Neto 1999). Recall Precision Recall dan precision dapat dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999): Ra Re call =, R Ra Precisio n =, A dengan Ra adalah jumlah dokumen relevan yang ditemukembalikan, R adalah jumlah dokumen relevan dalam koleksi dan A adalah jumlah dokumen yang ditemukembalikan. Average Precision (AVP) Average Precision adalah suatu ukuran evaluasi IRS yang diperoleh dengan menghitung rata-rata tingkat precision pada berbagai tingkat recall, yang. biasanya digunakan adalah sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Adakalanya tingkat recall yang bisa didapat untuk tiap kueri kurang dari sebelas tingkat recall standar yang ada. Untuk kasus seperti ini digunakan prosedur interpolasi. Misalkan r j, j {0, 1, 2,...,10} adalah tingkat recall standar ke-j maka P( r ) = maxr r r P( r ), j j j+ 1 sehingga precision terinterpolasi pada tingkat recall standar ke-j adalah precison tertinggi pada setiap tingkat recall antara j hingga (j+1) (Baeza-Yates & Ribeiro-Neto 1999). Algoritme RF Teknik RF ditemukan pertama kali oleh Rocchio dan diterapkan dalam vector space model. Rocchio memandang temu kembali sebagai permasalahan mencari sebuah kueri optimal, yaitu kueri yang memaksimalkan selisih antara vektor rataan dokumen relevan dengan vektor rataan dokumen tak-relevan. RF berguna untuk mendekatkan vektor kueri ke vektor rataan dokumen relevan dan menjauhkan dari vektor rataan dokumen takrelevan. Ini bisa dilakukan melalui penambahan istilah kueri dan penyesuaian bobot istilah kueri sehingga sesuai dengan kegunaan istilah tersebut dalam fungsinya membedakan dokumen relevan dan takrelevan (Ruthven & Lalmas 2003). Formula awal Rocchio adalah sebagai berikut: n1 n2 1 1 Q 1 = Q0 + Ri Si, n n 1 i= 1 2 i= 1

15 5 dengan Q 0 =vektor kueri awal, Q 1 =vektor kueri baru, n 1 =jumlah dokumen relevan, n 2 =jumlah dokumen tak-relevan, R i =vektor dokumen relevan ke-i, S i =vektor dokumen tak-relevan ke-i. Kueri yang telah termodifikasi akan memiliki istilah-istilah baru (dari dokumen-dokumen relevan). Selain itu penyesuaian bobot diterapkan terhadap istilah-istilah kueri. Jika bobot istilah kueri turun hingga nol atau di bawah nol, istilah tersebut dihilangkan dari kueri. Ide (1971), diacu dalam Ruthven & Lalmas (2003), kemudian melakukan modifikasi terhadap formula Rocchio, dinamakan Ide-Dec-Hi, dengan menggunakan hanya dokumen tak-relevan pertama yang ditemukembalikan. Formula tersebut adalah sebagai berikut: Q nr 1 = Q0 + r i si, i dengan n r =jumlah dokumen relevan, r i =vektor dokumen relevan ke-i, s i =vektor dokumen tak-relevan pertama. Modifikasi lain yang lazim dilakukan adalah dengan memboboti kontribusi relatif kueri awal, dokumen relevan dan dokumen tak-relevan terhadap proses RF. Dalam persamaan di bawah ini, nilai α, β dan γ merupakan derajat pengaruh tiap komponen dalam RF. Q n1 n2 β γ = α Q0 + Ri Si, n n 1. 1 i= 1 2 i= 1 Versi yang lebih baru lagi dari skema Ide adalah Ide-regular, yang menggunakan semua dokumen non-relevan yang ditemukembalikan. Ide-regular juga berdasar formula Rocchio namun tidak melakukan normalisasi terhadap vektor-vektor dokumen. Berikut adalah formula Ide-regular: n1 n2 i= 1 Q = Q + R i S. 1 0 Algoritme RF i= 1 METODOLOGI Penelitian ini akan menginvestigasi kinerja relatif dua algoritme RF yaitu Ide-Dec-Hi dan Ide-Regular. Keduanya dipilih karena meskipun formula Ide-Dec-Hi dan Ide- Regular tidak memberikan peningkatan kinerja yang signifikan namun lebih konsisten i dibanding formula Rocchio (Ruthven & Lalmas 2003). Sistem Temu Kembali dan Evaluasinya Sistem dasar yang digunakan untuk pengujian RF adalah sistem temu kembali hasil penelitian Ridha (2002). Sistem yang dihasilkan menggunakan vector space model dengan pembobotan tf*idf. Dalam penelitian ini diterapkan rule-based stemming dan penggunaan daftar kata buang dalam Bahasa Indonesia. Cara yang paling umum untuk mengevaluasi sistem temu kembali adalah dengan menentukan kinerjanya dalam recall dan precision. Hal ini dilakukan dengan menggunakan koleksi pengujian yang terdiri dari kumpulan dokumen yang disertai gugus kueri dan penilaian relevansinya (gugus jawaban). Dari hasil penemukembalian yang dilakukan sistem, dihitung precision pada berbagai tingkat recall. Tingkat recall yang digunakan adalah sebelas tingkat recall standar terinterpolasi. Hasilnya kemudian dirata-rata untuk mendapatkan average precision (AVP). Evaluasi RF Chang et al. (1971), diacu dalam Ruthven & Lalmas (2003) menunjukkan bahwa evaluasi algoritme RF memiliki beberapa masalah berkaitan dengan recall dan precision. RF bertujuan untuk meningkatkan recall dan precision berdasar informasi dari dokumen-dokumen relevan yang diidentifikasi pengguna, hal ini biasanya akan membuat dokumen-dokumen relevan yang telah diidentifikasi (yaitu dokumen relevan yang digunakan oleh RF) terdorong menempati ranking teratas. Ranking effect ini seolah-olah membuat kurva recall-precision meningkat tajam karena sistem meranking ulang dokumen relevan yang telah diidentifikasi. Seberapa banyak RF meningkatkan penemukembalian dokumen relevan yang belum teridentifikasi, feedback effect-nya, justru tidak terdeteksi. Untuk mengatasi masalah pengukuran feedback effect, digunakan teknik test and control groups. Dalam teknik ini, koleksi dokumen dibagi menjadi dua bagian, test group dan control group. Modifikasi kueri dilakukan oleh RF pada test group dan kueri baru dijalankan pada control group. Penilaian recall dan precision hanya dilakukan pada

16 6 control group sehingga tidak terjadi ranking effect. Test and control pada dasarnya mengukur kinerja relatif kueri baru pada tiap iterasi (Ruthven & Lalmas 2003). Dalam penelitian ini pembagian koleksi untuk test dan control group dilakukan dengan cara sebagai berikut: 1. Dokumen-dokumen dikelompokkan berdasar sumbernya 2. Pada masing-masing kelompok, dokumen diurutkan berdasar ID dokumen 3. Untuk setiap kelompok, separuh dokumen teratas dimasukkan ke dalam test group dan sisanya masuk ke control group Untuk melihat pengaruh penggunaan RF terhadap kinerja sistem dilakukan pengukuran average precision pada lima jenis penemukembalian, yakni: 1. NoRF: penemukembalian awal pada control group 2. DH5: menggunakan Ide-Dec-Hi dengan memeriksa 5 dokumen teratas 3. DH10: menggunakan Ide-Dec-Hi dengan memeriksa 10 dokumen teratas 4. RG5: menggunakan Ide-Regular dengan memeriksa 5 dokumen teratas 5. RG10: menggunakan Ide-Regular dengan memeriksa 10 dokumen teratas Perbandingan query-by-query juga dilakukan untuk melihat secara lebih detail pengaruh RF pada tiap kueri. Selanjutnya dilakukan pengujian statistik uji Wilcoxon Signed Rank Test dengan selang kepercayaan 95% terhadap: 1. DH5 - NORF dan DH10 - NORF: untuk pengaruh formula Ide-Dec-Hi 2. RG5 - NORF dan RG10 - NORF: untuk pengaruh formula Ide-Regular 3. RG10 - RG5 dan DH10 - DH5: untuk pengaruh jumlah dokumen yang diperiksa. 4. DH10 - RG5, DH5 - RG10, DH5 - RG5 dan DH10 - RG10: untuk perbedaan kinerja Ide-Dec-Hi dan Ide-Regular. Pengujian dilakukan oleh dua mahasiswa Fakultas Pertanian dengan skenario sebagai berikut: 1. Penguji mengeksekusi kueri yang telah disediakan pada gugus kueri pada test group. 2. Dari hasil penemukembalian diperiksa dokumen-dokumen teratas. Dokumen yang dianggap relevan ditandai dan seluruh dokumen yang tidak ditandai akan dianggap tidak relevan. 3. RF kemudian dilakukan untuk memodifikasi kueri. 4. Kueri yang telah dimodifikasi lalu dijalankan pada control group. Antarmuka implementasi diberikan pada Lampiran 2. Pengujian RF dilakukan pada kedua formula, Ide-Dec-Hi dan Ide-Regular. Untuk masing-masing formula dilakukan dua kali iterasi dan untuk setiap kali iterasi variasi jumlah dokumen yang diperiksa adalah lima dan sepuluh. Corpus Penelitian ini menggunakan corpus yang merupakan hasil penelitian Adisantoso & Ridha (2004). Koleksi dokumen yang dimiliki corpus ini terdiri dari 1000 artikel berbahasa Indonesia yang seluruhnya mempunyai domain yang sama, yaitu pertanian. Artikelartikel ini dikumpulkan dari berbagai situs web Indonesia, yang sebagian besar merupakan situs-situs media massa. Sumbersumber tersebut antara lain: 1. Gatra 2. Indosiar 3. Kompas 4. Media Indonesia 5. Republika 6. Situs Hijau 7. Suara Karya 8. Suara Merdeka Sebagian besar dokumen yang terkumpul bersifat artikel media umum sedangkan hanya 22 dokumen yang merupakan tulisan ilmiah. Seluruh sumber artikel menggunakan Bahasa Indonesia semi-formal/formal (Adisantoso & Ridha 2004). Contoh dokumen dapat dilihat pada Lampiran 3. Untuk kepentingan evaluasi RF koleksi dokumen dibagi dua secara acak menjadi test dan control group. Langkah berikutnya adalah pembentukan gugus kueri untuk pengujian beserta gugus jawabannya karena keduanya belum tersedia dalam corpus. Pembentukan gugus kueri dan gugus jawaban dilakukan oleh dua mahasiswa Fakultas Pertanian yang dianggap kompeten untuk menentukan penilaian relevansi dokumen-dokumen dengan domain pertanian. Asumsi-asumsi Asumsi-asumsi yang digunakan dalam penelitian ini adalah sebagai berikut: 1. Jumlah dokumen yang diperiksa untuk feedback dalam setiap iterasi adalah tetap. 2. Jumlah dokumen relevan untuk tiap kueri telah diketahui sebelumnya.

17 7 3. Penilaian relevansi yang dilakukan akurat. Lingkungan Pengembangan Lingkungan pengembangan yang digunakan adalah sebagai berikut: 1. Perangkat lunak: Windows XP Professional, Visual Basic 6.0, Microsoft Access Perangkat keras: Duron 1.2 GHz, 256 MB RAM. HASIL DAN PEMBAHASAN Gugus Kueri dan Gugus Jawaban Kueri yang dibuat untuk pengujian penelitian ini berjumlah 30. Sebagian besar berupa frasa, seperti gagal panen atau tanaman obat, yang panjangnya kurang dari lima kata. Hal ini dilakukan untuk mensimulasikan keadaan di dunia nyata yang pada umumnya pengguna jarang menggunakan kueri panjang. Contoh kueri pengujian dan deskripsinya dapat dilihat pada Lampiran 4. Setelah kueri tersedia, hal selanjutnya yang harus dilakukan adalah pembentukan gugus jawaban pada test dan control group. Pembentukan gugus jawaban merupakan proses yang penting dan sangat mempengaruhi hasil evaluasi RF sekaligus sistem temu kembali pada umumnya. Jika gugus jawaban yang dibentuk tidak akurat maka kinerja sistem akan tampak buruk karena ada dokumen-dokumen yang ditemukembalikan sistem, yang sebenarnya relevan, akan dianggap tidak relevan sebab tidak ada dalam gugus jawaban dan berakibat mengurangi nilai recall dan precision. Pembentukan gugus jawaban menggunakan metode pooling dan dilakukan sebanyak dua kali. Pada kali pertama, sistemtemu kembali yang digunakan untuk mendapatkan pool adalah Google Desktop Search dan Copernic Desktop Search versi Keduanya merupakan perangkat lunak freeware yang dikenal luas sebagai mesin pencari dengan kinerja yang cukup baik. Hasil pool yang didapat ternyata tidak terlalu akurat karena setelah diperiksa masih cukup banyak dokumen-dokumen yang sebenarnya relevan namun tidak termasuk dalam pool. Alasannya adalah karena memang kedua sistem temu kembali tersebut tidak dikhususkan untuk mencari dokumendokumen berbahasa Indonesia. Keduanya tidak menggunakan stemming terhadap kueri maupun dokumen-dokumen berbahasa Indonesia yang terindeks. Pada kali kedua, sistem temu kembali hasil penelitian Ridha (2002) diikutsertakan untuk mendapatkan calon dokumen relevan tambahan. Karena sistem ini memang dikhususkan untuk Bahasa Indonesia, hasil yang didapat cukup memuaskan dengan didapatkannya tambahan dokumen relevan hampir untuk setiap kueri yang diujikan. Pada Lampiran 5 tertera daftar lengkap kueri beserta gugus jawabannya. Tabel 1 menunjukkan deskripsi corpus yang digunakan sedangkan di Tabel 2 dapat dilihat contoh hasil pooling beberapa kueri menggunakan ketiga sistem yakni Google Desktop Search (GDS), Copernic Desktop Search (CDS) dan sistem temu kembali hasil penelitian Ridha (2002) (R2002). Tabel 1 Deskripsi koleksi pengujian Koleksi Test Control Jumlah kueri Ukuran (KB) Jumlah dokumen Rataan kata 2,6 2,6 tiap kueri Rataan kata tiap dokumen Rataan dokumen relevan tiap kueri 13 18,8 Tabel 2 Contoh hasil pooling beberapa kueri ID Tingkat Recall * GDS CDS R /48 (8) 21/48 (4) 25/48 (8) 5 21/39 (6) 17/39 (2) 26/39 (9) 11 34/57 (7) 30/57 (5) 41/57 (9) *Angka di dalam tanda kurung menunjukkan jumlah dokumen unik yang hanya ditemukan pada sistem tersebut dan tidak ditemukan di kedua sistem lainnya. Evaluasi RF Hasil pengujian RF dengan perhitungan average precision dapat dilihat pada Tabel 3 sedangkan hasil Wilcoxon Signed Rank Test dirinci pada Tabel 4. Dari Tabel 3 terlihat bahwa hampir secara keseluruhan RF memberikan peningkatan kinerja pada sistem. Pada DH5 dan DH10 iterasi ke-1, terlihat bahwa dengan RF kinerja sistem meningkat 15.44% dibanding tanpa RF. Peningkatan kinerja ini secara statistik

18 8 signifikan (Sig. < 0.05). Pada Ide-Regular, peningkatan juga signifikan, RG5 mencapai 14.54%, akan tetapi kemudian turun pada RG10 tinggal 12.75%. Ini menunjukkan bahwa meskipun secara statistik tidak ada perbedaan signifikan antara Ide-Dec-Hi dan Ide-Regular (Sig. > 0.05), Ide-Dec-Hi mampu memberikan hasil yang lebih konsisten daripada Ide-Regular. Hal ini sesuai dengan hasil penelitian Ruthven dan Lalmas (2003). Kekonsistenan ini karena Ide-Dec-Hi hanya menggunakan satu dokumen tak-relevan teratas. Sehingga meskipun terjadi ketidakakuratan penilaian relevansi saat pengguna memberikan feedback, yaitu dokumen relevan tidak ditandai oleh pengguna dan dihitung sebagai dokumen takrelevan, hal itu tidak akan terlalu memperburuk kueri yang baru. Tabel 3 Perbandingan nilai average precision sebelum dan setelah menggunakan RF Metode NoRF Iterasi I Iterasi II DH % % 10.07% DH % % 10.07% RG % % 6.71% RG % % -2.24% Persentase perubahan kinerja dibandingkan dengan NoRF Tabel 4 Daftar nilai Sig. pada Wilcoxon Signed Ranks Test (α=0.05) Pair Iterasi I Iterasi II RG5 - NORF RG10 - NORF DH5 - NORF DH10 - NORF RG10 - RG DH10 - DH DH10 - RG DH5 - RG DH5 - RG DH10 - RG Sig. < 0.05 Pada iterasi ke-2, DH5 dan DH10 keduanya hanya memberikan peningkatan masing-masing sebesar 10.07%, lebih kecil dari iterasi ke-1. RG5 juga mengalami penurunan kinerja dibanding iterasi ke-1 menjadi 6.71%. RG10 bahkan menurun hingga -2.24%. Pada iterasi kali ini, DH5 dan DH10 secara signifikan lebih baik bila dibandingkan RG10 namun tidak jika dibandingkan RG5. Melalui pemeriksaan lebih lanjut, alasan penurunan kinerja ini adalah karena pada iterasi ke-1 RF sudah bekerja dengan sangat baik sehingga pada hampir semua kueri, seluruh dokumen relevan untuk kueri tersebut telah ditemukan oleh sistem. Lebih jauh lagi untuk kueri-kueri yang belum seluruh dokumen relevannya ditemukan tingkat recall-nya sudah mencapai di atas 90%. Hal lain yang berkaitan erat dengan penurunan ini adalah kinerja sistem dasar yang ternyata sudah cukup tinggi. Melalui hasil perbandingan query-byquery, ditemukan pula bahwa kueri yang tidak berhasil ditingkatkan kinerjanya adalah kuerikueri yang seluruh atau setidaknya nyaris seluruh dokumen relevannya telah muncul di penemukembalian awal. Hal ini mengindikasikan bahwa pada keadaankeadaan seperti ini RF sudah tidak cocok lagi digunakan untuk membantu menemukan tambahan dokumen relevan. Perbandingan query-by-query secara lengkap tertera pada Lampiran 6. Pada lampiran tersebut terlihat bahwa kueri ke-27 yakni upaya peningkatan pendapatan petani menunjukkan nilai AVP nol pada NoRF. Ini terjadi karena memang tidak ada satu pun dokumen relevan yang ditemukan. Ketiga stem istilah dalam kueri, yaitu upaya, peningkatan dan pendapatan hanya muncul di tiga dokumen di control group, semuanya tidak relevan. Di lain pihak, stem istilah petani muncul di semua dokumen sehingga nilai idf-nya nol, akibatnya bobotnya juga nol. Setelah menggunakan RF nilai AVP kueri ini bisa ditingkatkan mencapai di atas 0.3. Penambahan istilah-istilah dari test group terlihat sangat membantu kinerja kueri ini. Keseluruhan hasil yang ada pada penelitian ini menunjukkan bahwa RF memberikan peningkatan kinerja terbesar ketika menggunakan Ide-Dec-Hi. Penambahan jumlah dokumen yang diperiksa dari lima menjadi sepuluh ternyata tidak berpengaruh terhadap hasil yang diperoleh. Ini menunjukkan bahwa pemeriksaan lima dokumen sudah optimal untuk koleksi pengujian ini. Iterasi ke-2 tampaknya tidak diperlukan karena kinerja RF telah maksimal pada iterasi ke-1 dengan menemukembalikan nyaris seluruh dokumen relevan untuk semua kueri, sekali lagi ini hanya berlaku untuk

19 9 koleksi pengujian dalam penelitian ini. Hal ini sangat dipengaruhi oleh ukuran koleksi dan gugus jawaban yang relatif kecil. Selain menunjukkan kinerja yang sangat baik, secara komputasional Ide-Dec-Hi juga lebih efektif daripada Ide-Regular karena hanya menggunakan satu dokumen takrelevan teratas untuk perhitungan, berbeda dengan Ide-Regular yang menggunakan seluruh dokumen tak-relevan setelah menggunakan RF ternyata lebih tinggi pada hampir semua tingkat recall dibanding sebelum menggunakan RF. Ini mengindikasikan bahwa RF juga bisa menjadi mekanisme untuk memperbaiki precision. Presicion Presicion Recall Recall Ide-Dec-Hi Ide-Regular NoRF Gambar 3 Kurva recall-precision RG5 dan DH5 pada iterasi ke Ide-Dec-Hi Ide-Regular NoRF Gambar 1 Kurva recall-precision RG5 dan DH5 pada iterasi ke Presicio n P resicion Recall Ide-Dec-Hi Ide-Regular NoRF Gambar 2 Kurva recall-precision RG10 dan DH10 pada iterasi ke-1. RF umumnya dipandang sebagai suatu mekanisme untuk meningkatkan recall. Akan tetapi melalui penelitian ini, terlihat dari kurva recall-precision pada Gambar 1-4, precision Recall Ide-Dec-Hi Ide-Regular NoRF Gambar 4 Kurva recall-precision RG10 dan DH10 pada iterasi ke-2. KESIMPULAN DAN SARAN Kesimpulan Melalui penelitian ini dapat ditarik kesimpulan sebagai berikut: 1. Menggunakan penilaian relevansi yang diberikan oleh pengguna, RF teruji mampu

20 10 meningkatkan kinerja sistem temu kembali informasi. Pengguna juga cukup dimudahkan karena hanya perlu mengenali dokumen yang dianggapnya relevan, tanpa perlu mendeskripsikannya. 2. Pada kasus kali ini, peningkatan kinerja yang optimal dicapai melalui penggunaan formula Ide-Dec-Hi dan cukup melalui pemeriksaan lima dokumen teratas. Iterasi ke-2 juga tidak perlu dilakukan karena pada iterasi ke-1, RF telah memberikan hasil yang sangat baik dengan tingkat recall mendekati 100%. 3. Penggunaan relevance feeback tidak terlalu membantu pada kueri yang kinerja awalnya memang sudah tinggi. Sebaliknya, untuk kueri-kueri yang memberikan hasil buruk pada pencarian awal, RF sangat cocok untuk digunakan dan menjanjikan peningkatan kinerja yang cukup tinggi. Saran Untuk pengembangan penelitian disarankan hal-hal sebagai berikut: 1. Penggunaan koleksi pengujian dan gugus jawaban dengan ukuran maupun jumlah lebih besar sehingga bisa memberikan gambaran yang lebih akurat mengenai kinerja RF pada umumnya. 2. Penggabungan formula Ide-Dec-Hi dengan teknik pemilihan istilah diperkirakan akan memberikan peningkatan kinerja yang cukup signifikan (Selberg EW 1997). 3. Penggunaan teknik Automatic Query Expansion, seperti Local Analysis dan Local Context Analysis. Hasilnya kemudian bisa diperbandingkan dengan RF yang merupakan teknik Interactive Query Expansion. DAFTAR PUSTAKA Adisantoso J, Ridha A Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektivitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4. Departemen Ilmu Komputer FMIPA IPB, Bogor. Baeza-Yates R, Ribeiro-Neto B Modern Information System. Addison- Wesley. Belkin NJ et al Relevance Feedback versus Local Context Analysis as Term Suggestion Devices. Rutgers' TREC-8 Interactive Track Experience. Buckley C, Salton G, Allan J The Effect of Adding Relevance Information in a Relevance Feedback Environment Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. Chang YK, Cicirillo C, Razon J Evaluation of Feedback Retrieval using Modified Freezing, Residual Collection &Test and Control Groups. The SMART Retreival System - Experiments In Automatic Document Processing 17: Hiemstra D, Leeuwen D.van Creating a Dutch Information Retrieval Test Corpus. Ide E New Experiments in Relevance Feedback. The SMART Retrieval System - Experiments In Automatic Document Processing 16: Liddy E How a Search Engine Works. Searcher 9(5). Information Today, Inc. McEnery T, Wilson A Corpus Linguistic 2 nd Edition. Edinburgh University Press. Ridha A Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. Skripsi. Departemen Ilmu Komputer FMIPA IPB, Bogor. Ruthven I, Lalmas M A Survey on the Use of Relevance Feedback for Information Access Systems. Knowledge Engineering Review 18(2): Selberg EW Information Retrieval Advances Using Relevance Feedback. Department of Computer Science and Engineering University of Washington, Seattle. Spink A, Jansen BJ, Ozmultu HC Use of Query Reformulation and Relevance Feedback by Excite Users. Internet Research:Electronic Networking Applications and Policy 10(4): Xu J, Croft WB Query Expansion Using Local and Global Document Analysis. Proceedings of the 19 th Annual International ACM SIGIR Conference on

21 11 Research and Development in Information Retrieval. Xu J, Croft WB Improving the Effectiveness of Information Retrieval with Local Context Analysis. ACM Transactions on Information Systems 18(1):

22 LAMPIRAN

23 13 Lampiran 1 Proses penemukembalian informasi (Baeza-Yates & Ribeiro-Neto 1999) User Interface teks kebutuhan pengguna Operasi Teks teks logical view logical view feedback pengguna Operasi Kueri kueri Pengindeksan inverted file DB Module Manager Pencarian Indeks dokumen yang ditemukan Basisdata Teks dokumen teranking Perankingan

24 Lampiran 2 Antarmuka implementasi 14

25 15 Lampiran 3 Contoh dokumen dalam koleksi <DOC> <DOCNO>situshijau </DOCNO> <TITLE>Nilai Tukar Petani pada Agustus Naik Setelah Enam Bulan Anjlok</TITLE> <AUTHOR>(MAR/boy/eta)</AUTHOR> <DATE>05/11/2003</DATE> <TEXT> Nilai tukar petani (NTP) pada bulan Agustus mengalami kenaikan 1,35 persen dibanding dengan bulan Juli Kenaikan ini memperbaiki nilai tukar petani yang sejak enam bulan sebelumnya terus anjlok. Deputi Bidang Statistik Ekonomi Badan Pusat Statistik (BPS) Slamet Mukeno dalam jumpa pers di Jakarta, Senin (3/11), mengatakan, kenaikan NTP disebabkan oleh kemampuan petani tanaman pangan dan tanaman perkebunan rakyat mampu menjual hasil produksinya sebesar 1,96 persen lebih tinggi dibanding dengan bulan Juli. Sementara itu, harga rata-rata barang dan jasa konsumsi rumah tangga pedesaan untuk keperluan produksi pertanian hanya naik 0,60 persen. Kenaikan itu merupakan kenaikan pertama kalinya sejak bulan Februari tahun ini. Dari laporan BPS sebelumnya, sejak bulan Februari hingga Juli NTP selalu mengalami penurunan. NTP tertinggi terjadi pada bulan Februari. Namun, setelah itu terus turun. NTP diperoleh dari perbandingan indeks harga yang diterima petani terhadap indeks harga yang dibayar petani. NTP merupakan indikator relatif tingkat kesejahteraan petani. Semakin tinggi NTP, berarti semakin tinggi pula kesejahteraan petani. Pengukuran NTP berdasarkan hasil pemantauan harga-harga di 16 provinsi di Indonesia. Dari provinsi yang diamati itu, kenaikan NTP bulan Agustus yang tertinggi terjadi di Jawa Tengah, yaitu sebesar 3,39 persen. Hal ini diakibatkan harga cabai merah di Jawa Tengah naik 23,59 persen. Adapun penurunan NTP terendah terjadi di Jawa Timur sebesar 5,44 persen akibat harga tembakau rajangan turun 32,32 persen. Meskipun demikian, dibanding dengan NTP Agustus 2002, NTP Agustus tahun ini naik 5,66 persen. </TEXT> </DOC>

26 16 Lampiran 4 Contoh kueri dan deskripsinya ID : 25 Kata kunci : Institut Pertanian Bogor Deskripsi : Dokumen dianggap relevan jika memuat informasi hasil penelitian atau laporan kegiatan Institut Pertanian Bogor. Dokumen yang hanya memuat informasi tentang orang atau jabatan tertentu di Institut Pertanian Bogor tanpa menyinggungnya sebagai suatu institusi tidak dianggap relevan. Contoh dokumen relevan : <DOC> <DOCNO>republika </DOCNO> <TITLE>IPB Benahi Program Penelitian</TITLE> <AUTHOR>ant</AUTHOR> <DATE>10 juli 2004</DATE> <TEXT> BOGOR Institut Pertanian Bogor (IPB) terus melakukan pembenahan guna menuju research based university. Sebagai perguruan tinggi pertanian di Asia Tenggara, IPB terus memperkuat kegiatan riset."sudah cukup lama IPB mencita-citakan payung penelitian ini, namun hingga kini hal tersebut masih belum dapat terealisasi karena keinginan dan pola pikir yang terlalu melebar," kata Kepala Lembaga Penelitian dan Pemberdayaan Masyarakat (LPPM) IPB, Prof Dr Rizal Syarief, DESS di Bogor, Jumat pagi. Lebih lanjut ia menjelaskan bahwa untuk bisa membuat payung penelitian perlu semacam portofolio dan roadmap penelitian. Hal itu diperlukan untuk menganalisis kekuatan, kelemahan, peluang, dan ancaman atau lebih dikenal dengan "Analisis SWOT". "Saat ini IPB mencoba terus menelusuri judul-judul penelitian apa saja yang kita miliki, baik yang dilakukan lembaga pusat, fakultas maupun departemen," katanya. Ia mengemukakan, tercetusnya payung penelitian ini bermula dari banyaknya penelitian di IPB yang arahnya tersebar. "Kadang-kadang penelitian hanya sebagai karya penelitian dan belum membantu di dalam pemecahan masalah, juga belum memberikan kontribusi dalam konsep, dan barangkali juga belum memberikan kontribusi dalam pengembangan Iptek itu sendiri," katanya. Oleh karena itu, menurut dia, perlu payung penelitian yang skenario pertamanya adalah bahwa payung itu tidak hanya satu melainkan bisa lebih dari satu, tetapi tidak terlalu banyak. "Dan bentuk payung itu betulbetul mengerucut, bukan terbalik yang tidak menghasilkan apa-apa," katanya. Dengan adanya payung penelitian ini, diharapkan penelitian IPB benar-benar jelas sasaran dan target yang diinginkan serta hasilnya. Adapun target yang ingin dihasilkan adalah dalam rangka memperkuat pendidikan, perkuliahan, dan pengajaran di IPB, sehingga dari berbagai penelitian di IPB akan keluar paket-paket teknologi yang bisa diterapkan dalam rangka pemberdayaan masyarakat. Dengan melakukan analisis SWOT, IPB akan mengevaluasi diri untuk melihat kekuatan dan kelemahannya. Hal tersebut nantinya baru akan dibahas pada forum pimpinan IPB sesuai skala prioritas. Dalam upaya memperkuat penelitian itu, maka IPB perlu mencari sumber dana. Salah satu yang tengah dipikirkan adalah mencoba mengembangkan kembali apa yang disebut livy grant: dana riset dicari dan dialokasikan berdasarkan komoditas. "Tetapi hal ini perlu dipikirkan kembali seperti apa sistemnya," kata Dr Rizal Syarief. </TEXT> </DOC>

27 17 Lampiran 5 Gugus kueri dan gugus jawaban No. Kueri Gugus Jawaban 1 gagal panen gatra070203, gatra190802, gatra , gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar , indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar , indosiar , kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia , mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika , republika , republika080703, republika , republika , republika , republika , republika200603, republika , republika , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan , suarapembaruan petani tebu indosiar , indosiar290604, kompas031003, kompas250901, kompas310702, republika , republika020804, republika100902, republika , republika , republika , republika , republika , republika , situshijau280203, suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan industri gula gatra200103, kompas031003, kompas250901, mediaindonesia , pikiranrakyat , republika , republika020804, republika090902, republika100902, republika , republika , republika301002, situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan perdagangan hasil pertanian 5 penerapan teknologi pertanian 6 pupuk organik 7 penyakit hewan ternak 8 penerapan bioteknologi di indonesia gatra011102, indosiar070204, indosiar201103, jurnal , jurnal , kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas , kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika , republika041102, republika281202, situshijau , situshijau191103, situshijau , suarakarya , suaramerdeka120104, suaramerdeka270601, suarapembaruan , suarapembaruan , wartapenelitian republika201102, situshijau080103, situshijau , jurnal , jurnal , jurnal , jurnal , jurnal , kompas121099, kompas290402, republika , republika , republika , republika , republika , suarapembaruan no, suarapembaruan160702, situshijau , mediaindonesia170403, situshijau , kompas251003, suarapembaruan060602, wartapenelitian , situshijau , situshijau , indosiar , situshijau , wartapenelitian , republika050903, republika260803, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , wartapenelitian balaipenelitian , kompas , kompas280502, kompas , republika , republika190104, republika201102, republika270604, situshijau , situshijau , suarakarya , suarakarya , suaramerdeka031101, suaramerdeka , suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian , wartapenelitian gatra , gatra , gatra300104, mediaindonesia090204, republika150103, republika , republika , republika , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka kompas121099, situshijau , situshijau , situshijau , situshijau , situshijau300403, suarapembaruan020603, situshijau , suarapembaruan no, situshijau , situshijau , situshijau , suarakarya , republika , situshijau no, wartapenelitian , situshijau , situshijau , republika , situshijau , suarapembaruan151102, situshijau , situshijau160103, situshijau , situshijau310303, situshijau , situshijau , puslitbang , jurnal , suarakarya , situshijau , situshijau , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Julio Adisantoso, Ahmad Ridha, Andika Wahyu Agusetyawan Staf Departemen Ilmu Komputer, Fakultas Matematika

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE Sri Ulinar Romatua N B¹, Yanuar Firdaus A.w.², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Dengan semakin

Lebih terperinci

PENYAJIAN SISTEM INFORMASI SPASIAL SUMBER DAYA ALAM DENGAN MENGGUNAKAN FRAMEWORK PMAPPER AMALIA RAHMAWATI G

PENYAJIAN SISTEM INFORMASI SPASIAL SUMBER DAYA ALAM DENGAN MENGGUNAKAN FRAMEWORK PMAPPER AMALIA RAHMAWATI G PENYAJIAN SISTEM INFORMASI SPASIAL SUMBER DAYA ALAM DENGAN MENGGUNAKAN FRAMEWORK PMAPPER AMALIA RAHMAWATI G64103020 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya perkembangan teknologi dewasa ini telah menyebabkan aliran informasi begitu lancar

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi.

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi. 5 Mulai HASIL DAN PEMBAHASAN Kromosom P = rand [0,1] Ya P < Pm R = random Gen(r) dimutasi Selesai Tidak Gambar 7 Diagram alur proses mutasi. Hasil populasi baru yang terbentuk akan dievaluasi kembali dan

Lebih terperinci

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI Search Engine Text Retrieval dan Image Retrieval YENI HERDIYENI 14 JUNI 2008 Search engine atau mesin pencari merupakan bagian dari teknologi inte rnet yang sangat penting untuk pencarian informasi. Dewasa

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G

EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G64103024 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA Broto Poernomo T.P. 1 dan Ir. Gunawan 2 1 Teknik Informtika Sekolah Tinggi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun

Lebih terperinci

Pengembangan Sistem Penelusuran Katalog Perpustakaan Dengan Metode Rocchio Relevance Feedback

Pengembangan Sistem Penelusuran Katalog Perpustakaan Dengan Metode Rocchio Relevance Feedback 47 Pengembangan Sistem Penelusuran Katalog Perpustakaan Dengan Metode Rocchio Relevance Feedback Pausta Yugianus, Harry Soekotjo Dachlan, dan Rini Nur Hasanah Abstrak Tanpa adanya sistem penelusuran katalog

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang xi BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan ilmu pengetahuan dan teknologi informasi dewasa ini membuat perubahan perilaku dalam pencarian informasi yang berdampak bagi lembagalembaga yang bergerak

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era globalisasi seperti sekarang ini, perkembangan teknologi komputer berpengaruh besar pada tingkat kebutuhan manusia di berbagai bidang seperti bidang

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

Mengenal Information Retrieval

Mengenal Information Retrieval STBI-2011 Sistem Temu Balik Informasi 2011 Mengenal Information Retrieval Husni husni@if.trunojoyo.ac.id Husni.trunojoyo.ac.id Komputasi.wordpress.com 2 3 Amazon.com 4 Amazon.com 5 6 7 8 9 Wordpress.com

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN JB Budi Darmawan Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM. Oleh: WULAN ANGGRAENI G

PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM. Oleh: WULAN ANGGRAENI G PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM Oleh: WULAN ANGGRAENI G54101038 PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

KULIAH 12. Multimedia IR. Image Retrieval. BAB 11: Baeza-Yates & Ribeiro-Neto. Fakultas Ilmu Komputer Universitas Indonesia

KULIAH 12. Multimedia IR. Image Retrieval. BAB 11: Baeza-Yates & Ribeiro-Neto. Fakultas Ilmu Komputer Universitas Indonesia KULIAH 12 Multimedia IR Image Retrieval BAB 11: Baeza-Yates & Ribeiro-Neto Multimedia IR Mempunyai kemampuan untuk menyimpan, memperoleh, memindahkan, memperlihatkan data yang karakteristiknya sangat beragam

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci