EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G

Ukuran: px
Mulai penontonan dengan halaman:

Download "EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G"

Transkripsi

1 EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT R U S I D I G DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

2 EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Oleh : R U S I D I G DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

3 Judul Nama NIM : EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN PELUANG BERSYARAT : R U S I D I : G Pembimbing I, Menyetujui: Pembimbing II, Firman Ardiansyah, S.Kom. M.Si Ir. Julio Adisantoso, M.Kom NIP NIP Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. drh. Hasim, DEA NIP Tanggal Lulus :

4 i RINGKASAN RUSIDI. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Peluang Bersyarat. Dibimbing oleh FIRMAN ARDIANSYAH dan JULIO ADISANTOSO. Tujuan penelitian ini adalah mengimplementasikan dan mengevaluasi kinerja dari Automatic Query Expansion (AQE) dengan metode conditional probability dalam sistem temu kembali informasi probabilistic model. Pemilihan dan pembobotan istilah kueri ekspansi menggunakan nilai conditional probability. Pengujian dilakukan dengan memperhatikan term dan jumlah term yang ditambahkan sebagai kueri, kemudian membandingkan hasil nilai rata-rata precision yang dihasilkan pada setiap tingkat recall dengan hasil metode lain yang telah diteliti sebelumnya. Selain itu, dilakukan perbandingan hasil pada setiap pengujian berdasarkan nilai threshold yang digunakan. Jumlah term ekspansi yang diujikan di antaranya addterm 2, addterm 4, addterm 5, addterm 6, addterm 8, dan addterm 10. Jumlah dokumen yang digunakan dalam pengujian sistem ini sebanyak 700 dokumen dengan 30 kueri beserta gugus jawabannya. Hasil penelitian ini menunjukkan tiga hal. Pertama adalah ekspansi kueri dengan jumlah istilah kueri lebih kecil, lebih baik dibandingkan jumlah kueri yang lebih besar. Kedua adalah keefektifan proses ekspansi dipengaruhi oleh metode pengindeksan, pembobotan dan jumlah istilah yang diambil sebagai kueri. Penelitian ini menggunakan nilai 1 dan 0 untuk memboboti istilah dokumen dan kueri, sedangkan nilai peluang digunakan untuk memboboti addterm. Sebaran nilai peluang 98.7% memiliki nilai Nilai tersebut menunjukkan bobot addterm sebagian besar bernilai kecil jika dibandingkan bobot istilah kueri yang bernilai 1, sehingga ekspansi kueri mungkin tidak memberikan pengaruh terhadap hasil temu kembali informasi. Rata-rata nilai dokumen relevan yang ditemukembalikan untuk semua pengujian berkisar antara 74% - 98%. Ketiga adalah metode peluang bersyarat lebih baik kinerjanya dibandingkan metode ekspansi dengan similarity thesaurus pada model temu kembali Vector Space Model (VSM). Penurunan nilai precision secara drastis ditunjukkan oleh metode similarity thesaurus pada tingkat recall 0 sampai 0.2, sedangkan metode peluang bersyarat lebih stabil pada semua tingkat recall standar. Kata kunci : automatic query expansion, conditional probability, probabilistic model

5 ii PRAKATA Alhamdulillahi Rabbil Alamin, segala puji syukur penulis panjatkan kepada Allah Subhanallahuwata ala atas segala rahmat dan karunia-nya sehingga penelitian ini berhasil diselesaikan dengan baik. Shalawat dan salam selalu tercurah kepada junjungan dan suri teladan ummat Nabi Muhammad Shalallahu alaihiwassalam. Tema yang dipilih dalam penelitian tugas akhir ini ialah temu kembali informasi, dengan judul Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Peluang Bersyarat. Penyelesaian penelitian ini tidak lepas dari bantuan berbagai pihak, karena itu penulis ingin mengucapkan terima kasih kepada: 1 Ibunda Parsini, Ayahanda Sujak, Adinda Sutiah, dan almarhum Kakek Basri yang selalu aku cinta dan aku sayangi, semoga Allah Subhanallahu Wata ala selalu memberi ampunan kepada mereka semua, 2 Bapak Firman Ardiansyah S.Kom. M.Si. selaku pembimbing I, Bapak Ir. Julio Adisantoso M.Kom. selaku pembimbing II, 3 Bapak Tahsinul Fuad, Mas Rabis, Kak Lasmin, my first friend Fuad Zein atas nasehatnasehatnya, semoga istiqomah menjalankan amanahnya masing-masing, 4 Dona Wirawan beserta keluarga yang telah memberikan dorongan semangat dan banyak membantu mengusahakan beasiswa bagi penulis, 5 Teman seperjuangan Bram, Budi, Eric, Ali, Roni, Nurheri, Redi yang memberikan banyak kenangan indah selama di TPB-IPB, 6 Adik-adikku di Ikasabiq Lina Kosasih, Dewi Fatimah, Mustafida Aini, Rustamadji, Ihsan Purwadi yang telah membantu meringankan beban selama membesarkan organisasi, 7 Teman-teman Ilkomerz, khususnya kepada Kak Oman, Mba Liesca, Kak Kelik, Kak Abdul, Sinar, Tera, Rizal, Akhyar, Albert, Vira dkk, Fikri dkk atas persaudaraan yang indah, 8 Teman-teman kos Kak Zaki, Kak Hakim, Kak Adi, Kak Yasa, Kak Ode, Tedi, Rama, Saefuddin dan ibu kos yang telah memberikan kenyamanan dalam menjalani hidup sehari-hari, 9 Rekan-rekan DPM TPB 2003 dan DPM FMIPA 2007 atas perjuangan dan dorongan semangat, 10 Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah membantu dalam penyelesaian penelitian ini. Segala kesempurnaan hanya milik Allah SWT, semoga hasil penelitian ini dapat bermanfaat, Amin. Bogor, Mei 2008 Rusidi

6 iii RIWAYAT HIDUP Penulis dilahirkan di Rembang tanggal 10 Februari 1985 dari ayah bernama Sujak dan ibu bernama Parsini. Penulis merupakan anak pertama dari dua bersaudara. Penulis melanjutkan pendidikan di SMU Negeri 1 Rembang. Tahun 2003 penulis lulus SMU dan diterima di Departemen Ilmu Komputer Institut Pertanian Bogor pada Program Studi Ilmu Komputer melalui jalur Undangan Masuk IPB (USMI). Selama mengikuti perkuliahan, penulis pernah aktif sebagai ketua Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) tahun kepengurusan 2004/2005. Sejak tahun 2005 penulis berkesempatan mengembangkan usaha lembaga bimbingan belajar dan guru komputer bernama ITshare Community. Tahun 2006 penulis juga berkesempatan bekerja menjadi surveyor PT. SUCOFINDO untuk data kependudukan di Kabupaten Majalengka Jawa Barat. Penulis berkesempatan menjadi operator Warnet CoreNet Babakan Raya Bogor selama empat bulan di tahun yang sama. Pada tahun 2007 penulis menjalankan Praktek Lapangan di PT. (Persero) PELINDO II cabang Tanjung Priok Jakarta dengan membuat aplikasi single sign on intranet sederhana selama dua bulan. Bulan Februari Maret 2008 penulis berkesempatan bekerja menjadi programer PT. LOGOS untuk membuat aplikasi Sistem Informasi Geografis Reklame Dinas Kebersihan dan Pertamanan Kabupaten Tangerang.

7 iv DAFTAR ISI Halaman DAFTAR TABEL...v DAFTAR GAMBAR...v DAFTAR LAMPIRAN...v PENDAHULUAN...1 Latar Belakang...1 Tujuan...1 Ruang Lingkup...1 Manfaat Penelitian...1 TINJAUAN PUSTAKA...1 Sistem Temu Kembali Informasi...1 Pembobotan Istilah...2 Temu Kembali Model Peluang...2 Ekspansi Kueri...3 Evaluasi Temu Kembali Informasi...4 METODE PENELITIAN...4 Sistem Temu Kembali Informasi...4 Dokumen Pengujian...5 Modul Istilah...5 Modul Peluang...6 Modul Kueri...6 Modul Evaluasi...6 Asumsi-asumsi...7 Lingkungan Pengembangan...7 HASIL DAN PEMBAHASAN...7 Modul Istilah...7 Modul Peluang...8 Modul Kueri...8 Modul Evaluasi...8 Perbandingan Threshold Perbandingan Metode Ekspansi...11 KESIMPULAN DAN SARAN...12 Kesimpulan...12 Saran...12 DAFTAR PUSTAKA...12 LAMPIRAN...13 iv

8 v DAFTAR TABEL Halaman 1 Deskripsi dokumen pengujian Hasil proses tokenizing Hasil proses stemming Hasil proses indexing Sebaran nilai peluang bersyarat MIP Contoh kueri dan istilah ekspansi Perbandingan frekuensi tertinggi dengan rata-rata frekuensi term...8 DAFTAR GAMBAR Halaman 1 Ilustrasi proses temu kembali informasi Diagram ilustrasi recall dan precision Tahap perancangan modul sistem Tahap-tahap perancangan sistem temu kembali informasi Kurva recall-precision pengujian Kurva recall-precision pengujian Kurva recall-precision pengujian Kurva recall-precision pengujian Kurva recall-precision pengujian Kurva perbandingan recall Ekspansi kueri dengan addterm Ekspansi kueri dengan addterm Ekspansi kueri dengan addterm DAFTAR LAMPIRAN Halaman 1 Contoh dokumen pengujian Contoh kueri pengujian dan jawaban Daftar sepuluh istilah ekspansi untuk masing-masing kueri Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 0 (IRX0) Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 2 (IRX2) Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 4 (IRX4) Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 6 (IRX6) Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 8 (IRX8) Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 5 (IRX5) Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 10 (IRX10) Tampilan Antarmuka Sistem Temu Kembali Informasi Peluang Bersyarat...23 v

9 1 Latar Belakang PENDAHULUAN Pada prinsipnya proses temu kembali informasi dilakukan berdasarkan ukuran kesamaan antara istilah kueri dengan istilah di dokumen. Masalah yang sering muncul adalah pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain adalah istilah yang digunakan sebagai kueri terbatas jumlahnya. Untuk memecahkan masalah tersebut salah satu pendekatan yang dapat digunakan adalah penambahan kueri atau yang disebut ekspansi kueri. Salah satu metode ekspansi kueri adalah Automatic Query Expansion (AQE) di mana istilah yang ditambahkan dipilih secara otomatis. Tetapi banyak penelitian ekspansi kueri otomatis menunjukkan, kueri yang diekspansi tidak lebih efektif dibandingkan dengan kueri aslinya. Didapatkan kesimpulan bahwa, ekspansi kueri otomatis berbasis data statistik belum mampu meningkatkan efektivitas temu kembali informasi (Qiu 1993). Ada dua masalah utama dalam proses ekspansi kueri, yaitu : 1 bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri, 2 cara pembobotan istilah yang digunakan untuk ekspansi. Pemilihan istilah ekspansi dilakukan berdasarkan keeratan hubungan istilah-istilah kueri terhadap istilah lain. Keeratan hubungan antara dua obyek istilah dapat diukur dengan korelasi, ukuran kesamaan, dan peluang bersyarat (Adisantoso 1997). Peluang bersyarat dapat digunakan untuk merepresentasikan bobot istilah di dalam dokumen dan di dalam kueri. Semakin sering sejumlah istilah bersama dalam satu dokumen, maka nilai peluangnya semakin tinggi. Hal ini menunjukkan ada keeratan hubungan antar istilah. Peluang munculnya istilah t i akibat munculnya istilah t j dalam suatu himpunan istilah dinyatakan sebagai peluang bersyarat t i setelah t j disebut P(t i t j ). Jika istilah t j merupakan istilah kueri, maka istilah t i yang memiliki nilai peluang tertinggi adalah istilah yang akan ditambahkan sebagai kueri. Dengan bantuan Matrik Istilah Peluang (MIP), akan dipilih r istilah yang paling dekat dengan kueri t j. Tujuan Tujuan penelitian ini adalah : 1 mengimplementasikan sistem temu kembali informasi model probabilistic untuk koleksi dokumen teks berbahasa Indonesia, 2 mengevaluasi ekspansi kueri menggunakan peluang bersyarat sebagai dasar pemilihan istilah dan pembobotan istilah kueri. Ruang Lingkup Ruang lingkup penelitian ini adalah: 1 Model sistem temu kembali yang digunakan adalah model peluang (probabilistic). 2 Term yang digunakan untuk kueri ekspansi adalah term yang berada di dalam indeks. 3 Nilai threshold yang digunakan ditentukan oleh penulis sesuai nilai kesamaan yang terbentuk pada masing-masing pengujian. Manfaat Penelitian Kinerja mesin pencari seringkali dikembangkan berdasarkan berbagai macam model. Penelitian ini dapat bermanfaat sebagai pembanding kinerja metode ekspansi kueri peluang bersyarat dalam temu kembali informasi model peluang dengan metode ekspansi kueri lainnya. TINJAUAN PUSTAKA Sistem Temu Kembali Informasi Menurut Rijsbergen (1979), Information Retrieval System (IRS) tidak memberitahu pengguna masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan dan keterangan dokumen yang berhubungan dengan permintaan pengguna. Dengan memakai bahasa natural sebagai bahasa kueri, IRS memberikan kemudahan kepada pengguna dalam merepresentasikan kebutuhan informasinya dalam bentuk kueri. Kueri berfungsi sebagai variabel untuk menemukan dokumen di dalam koleksi. IRS menerima kueri dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan kueri. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan kueri. Namun relevansi dokumen terhadap suatu kueri merupakan penilaian pengguna yang subyektif dan

10 2 dipengaruhi banyak faktor seperti topik, waktu proses, sumber informasi maupun tujuan pengguna. Rangkaian proses di dalam mesin temu kembali informasi dapat dilihat pada Gambar 1. Query Text Operations Query formulation Terms Index Ranked Documents 1. Dok1 2. Dok2 3. Dok3.. Ranking Document Collection Text Operations Indexing Collection Index Gambar 1 Ilustrasi proses temu kembali informasi. Pembobotan Istilah Model sistem temu kembali meliputi metode representasi dokumen maupun kueri, fungsi pencarian (retrieval function), dan notasi kesesuaian (relevance notation) dokumen terhadap kueri. Sehingga cara menentukan bobot istilah dalam dokumen atau dalam kueri menentukan keberhasilan sebuah model temu kembali informasi. Selama ini dikenal ada tiga model klasik dalam temu kembali informasi yaitu Boolean, Vector Space Model (VSM), dan Probabilistic. Masing-masing memiliki cara merepresentasikan dokumen atau kueri melalui cara pembobotan istilah penyusunnya. Bobot istilah dalam sistem temu kembali model VSM adalah dengan memberikan nilai jumlah kemunculan suatu istilah (term frequency) sebagai bobot. Faktor lain yang diperhatikan adalah kejarangmunculan istilah (term scarcity) dalam koleksi. Istilah yang muncul pada sedikit dokumen harus dipandang sebagai istilah yang lebih penting (uncommon tems) daripada istilah yang muncul pada banyak dokumen. Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung suatu istilah atau inverse document frequency (Mandala & Setiawan 2002). Dalam temu kembali model probabilistic, bobot istilah dianggap sebagai nilai peluang. Jika istilah muncul dalam suatu dokumen maka nilai bobotnya 1 jika sebaliknya maka 0. Istilah kueri, dibobot dengan 1 untuk masing-masing istilah. Karena nilai bobotnya 1 atau 0, hal ini sering dianggap sebagai kelemahan cara pembobotan ini karena menghilangkan faktor frekuensi istilah. Temu Kembali Model Peluang Model bersifat peluang (probabilistic) dalam temu kembali informasi tergantung pada dua komponen utama yaitu sekumpulan dokumen yang diidentifikasi sebagai record yang relevan dan yang tidak relevan. Penelusuran informasi model peluang dapat diekspresikan sebagai hubungan pertidaksamaan ` a B ` ac P rel a 2 1@ P rel a 1...(1) di mana P(rel) adalah peluang suatu dokumen relevan, a 1 adalah parameter kehilangan berkaitan dengan pencarian suatu dokumen yang tidak relevan dan a 2 adalah parameter yang berkaitan dengan dokumen relevan yang tidak dicari (Adisantoso 1997). Untuk mengimplementasikan urutan penelusuran informasi dengan menggunakan pertidaksamaan (1) didefinisikan dua buah peluang bersyarat P(x i rel) yaitu peluang munculnya istilah ke-i pada dokumen yang relevan dan P(x i rel ) yang menunjukkan peluang munculnya istilah ke-i pada dokumen yang tidak relevan. Dengan menggunakan formula Bayes dapat ditentukan P(rel x i ) yaitu: b c ` a b c P x i rel P rel f P rel x i = ` a.(2) P x i b P rel. x i b c ` a c P x i rel. P rel. = ` a P x i f...(3) Jika a 1 =a 2 =1 dan vektor x =(x 1,x 2,,x t ) maka diperoleh : g ` x a = P b rel x c b c ` a P x rel f P rel b c = b c ` a f...(4) P rel. x P x rel. P rel. Untuk jumlah dokumen yang besar faktor P(rel)/P(rel ) pada persamaan (4) mendekati 1, maka dapat ditulis fungsi g(x) sebagai : P(x) = log P (x rel ) - log P( x rel )...(5) Dengan asumsi bahwa kemunculan suatu istilah dalam setiap dokumen adalah saling bebas dan x i =(0,1), i=1,2,...,t maka P(x rel) dan P(x rel ) dapat ditulis sebagai peluang binom sebagai berikut :

11 3 b c t` a b c x 1@ x i P x rel =Y p i i 1@ p i...(6) i = 1 b c t` a b c x 1@ x i P x rel. =Y q i i 1@ q i...(7) i = 1 sedangkan p i= P(x i =1 rel) dan q i =(P(x i =1 rel ). Dengan demikian persamaan (7) dapat ditulis sebagai : g `a t x =Xx i log p b c i 1@q i t f b c +X i = 1 1@ p i qi i = 1 log 1@ p if...(8) 1@q 1 Peluang p i dan q i dapat diduga berdasarkan pada sekumpulan dokumen contoh yang relevan dan yang tidak relevan dengan vektor kueri q. Jika yang diasumsikan bahwa p i =p untuk semua i=1,2,...,t dan q i diduga dengan n i /N di mana n i adalah banyaknya dokumen yang mengandung istilah ke-i dan N adalah banyaknya dokumen maka bagian pertama dari fungsi g(x) pada persamaan (8) dapat ditulis sebagai : t i = 1 t g `a x = CX x i +X x i log N@ n if...(9) n i i = 1 sedangkan C adalah konstanta. Persamaan (9) selanjutnya digunakan sebagai dasar untuk menentukan ukuran kesamaan antara kueri dan dokumen yaitu : t i = 1 t CX x i q i +X x i q i log N@ n if...(10) n i i = 1 Ukuran kesamaan pada persamaan pada persamaan (10) menghasilkan temu kembali yang mempunyai ketepatan relatif tinggi bila diasumsikan bahwa p i =0.9 atau C=t log 9 (Croft & Harper dalam Adisantoso 1997). Ekspansi Kueri Terdapat tiga jenis ekspansi kueri yaitu Manual Query Expansion (MQE), Automatic Query Expansion (AQE), dan Interactive Query Expansion (IQE). Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Beberapa cara di antaranya memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) atau memasukkan seluruh istilah indeks koleksi. Bobot istilah yang biasa digunakan dalam kueri maupun dokumen adalah keberadaan istilah. Nilai 0 menunjukkan istilah tidak digunakan dalam kueri atau tidak terdapat dalam dokumen dan 1 menunjukkan sebaliknya. Dengan demikian hasil kali x i q i =0 bila q i =0. Umumnya kueri yang diberikan oleh pemakai mengandung sedikit istilah sehingga cenderung menghilangkan dokumen yang tidak mengandung istilah dalam kueri walaupun dokumen tersebut relevan dengan yang diinginkan pengguna. Oleh karena itu bobot istilah kueri dapat disempurnakan menjadi r =(r 1 r0 ) sedangkan r 1 =1 bersesuaikan dengan setiap q i =1 dan r 0 =vektor rataan P(t j t i ) bersesuaikan dengan setiap q i =0 di mana P(t j t i ) adalah peluang munculnya istilah t j setelah kemunculan t i (Adisantoso 1997). Misalnya terdapat lima istilah unik (t 1,t 2,t 3,t 4,t 5 ) yang terpilih dari sekumpulan dokumen masukan dan diberikan kueri dengan bentuk q =(1,1,0,0,0) maka r =(1,1,r 3,r 4,r 5 ) sedangkan r i = P b t c b c i t 1 + P t i t 2 f...(11) 2 untuk i=3,4 dan 5. Nilai r i ini merupakan b c pendekatan dari P t i t 1 T t 2. Pendekatan lainnya yang dapat digunakan adalah : D b c b ce (1) r i = minimum P t i t 1, P t i t 2...(12) D b c b ce (2) r i = maksimum P t i t 1,P t i t 2...(13) Peluang bersyarat t j setelah t i atau ditulis P(t j t i ) diformulasikan sebagai : b c b c P t i T t j f P t j t i = ` a...(14) P t i sedangkan b c dokumenyangadat i dant j f P t i Tt j = (15) banyaknya dokumen keseluruhan dan ` a dokumen yang ada t P t i = i f...(16) banyaknya dokumen keseluruhan Dengan demikian peluang bersyarat t x setelah t y dapat dihitung dengan menggunakan formula : b c dokumen yang ada t i dan t j f P t i t j =...(17) dokumen yang ada istilah t i

12 4 Dalam sistem temu kembali informasi t x dapat diartikan sebagai istilah kueri dan sistem dapat menghitung istilah lain (t y ) yang berhubungan dengan t x. Istilah yang memiliki r rangking tertinggi diambil sebagai istilah tambahan di dalam ekspansi kueri. Evaluasi Temu Kembali Informasi Dalam bidang temu kembali informasi (information retrieval) terdapat berbagai metode yang digunakan dalam pembobotan istilah, pengukuran kesesuaian, perangkingan, umpan balik relevansi, model sistem temu kembali informasi dan lain-lain. Sehingga diperlukan suatu ukuran sebagai perbandingan keefektifan metode-metode tersebut. Recall dan precision adalah salah satu metode evaluasi yang sering digunakan. Recall merupakan rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan di dalam koleksi. Precision merupakan rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemukembalikan. Penjelasan ini digambarkan dengan Gambar 2. Sesuai Gambar 2, jika S merupakan himpunan dokumen yang ada di koleksi, R merupakan himpunan dokumen yang ada di koleksi, R merupakan himpunan dokumen yang relevan terhadap kueri, dan T merupakan himpunan dokumen yang ditemukembalikan berdasarkan kueri tertentu, maka recall dan precision-nya adalah : Recall = Precision = TT R f.....(18) R TT R f....(19) T Pengukuran recall dan precision ini merupakan penghitungan yang dilakukan terhadap kumpulan dokumen hasil pencarian (set based measure) secara keseluruhan. Pengukuran dengan menggunakan set based measure ini tidak dapat menggambarkan performansi sistem temu kembali informasi mengenai urutan dari dokumen-dokumen relevan (Mandala & Setiawan 2002). Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking dapat dilakukan dengan melakukan interpolasi antara precision dan recall. Keuntungan penggunaan nilai rata-rata interpolated precision maupun rata-rata non interpolated precision dalam evaluasi performansi adalah nilai dapat langsung mencerminkan performansi sistem temu kembali informasi. Nilai rata-rata interpolated precision dapat mencerminkan urutan dari dokumen-dokumen relevan pada perangkingan. Standar yang biasa digunakan adalah 11 standar tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0. Misalkan r j, j {0,1,2,...,10} adalah tingkat standar recall ke- j maka P(r j ) = max r j r r j+1 P(r)...(20) Prinsip interpolasi ini adalah pada tiap standar tingkat recall diambil nilai precision maksimum di antara standar tingkat recall ke-j dan j+1 (Baeza-Yates & Ribeiro-Neto 1999). Gambar 2 Diagram ilustrasi recall dan precision METODE PENELITIAN Sistem Temu Kembali Informasi Sistem temu kembali yang digunakan adalah model peluang. Tahapan pelaksanaan penelitian ini dapat dirangkum menjadi empat tahap pembuatan dan analisis modul yaitu Modul Istilah, Modul Peluang, Modul Kueri dan Modul Evaluasi. Tahap pembuatan Modul Istilah menghasilkan tiga jenis data yaitu Matrik Istilah, Matrik Istilah Dokumen (MID) dan Matrik Dokumen Istilah (MDI). Modul Peluang menghasilkan data Matrik Istilah Peluang (MIP). Modul Kueri berisi 30 kueri yang digunakan untuk pengujian dan digunakan menyimpan nilai ukuran kesamaan. Modul Evaluasi menghasilkan peringkat dokumen dan nilai recall precision. Tahap pembuatan modul penelitian ini dapat dilihat di Gambar 3. Gambar 3 Tahap perancangan modul sistem temu-kembali informasi.

13 5 Tahapan pembuatan modul-modul tersebut secara detail dapat dilihat di Gambar 4. Dokumen Pengujian Dokumen yang digunakan sebagai dokumen pengujian adalah dokumen corpus hasil penelitian Adisantoso & Ridha (2004). Dokumen ini merupakan isi berita dari beberapa sumber di Internet sebanyak 700 dokumen. Penelitian ini juga memerlukan dokumen yang berisi istilah buangan (stopword) dan dokumen yang berisi istilah-istilah kueri. Banyaknya kueri yang digunakan dalam penelitian ini 30 kueri. Dokumen berisi kueri dan istilah buangan (stopword) diambil dari penelitian Ridha (2002). Modul Istilah Dalam pembuatan Modul Istilah dilakukan tahap tokenizing, stemming dan indexing. Tokenizing akan menghasilkan token-token. Dari token-token ini dilakukan stemming. kemudian indexing akan menghasilkan istilah terurut berbentuk kata dasar dan telah bersih dari istilah buangan (stopword). Gambar 4 Tahap-tahap perancangan sistem temu kembali informasi.

14 6 Pada tokenizing dilakukan pembacaan tiap karakter dan dibersihkan dari separator. Salah satu contoh separator adalah karakter titik dan koma. Selain kedua karakter tersebut, karakter angka akan dianggap sebagai separator. Sebelum dilakukan proses stemming masingmasing token diperiksa keberadaannya di dalam stopword. Jika token termasuk dalam istilah yang ada dalam stopword, maka harus dibuang, jika sebaliknya maka akan digunakan sebagai indeks. Proses stemming istilah berbahasa Indonesia akan dilakukan menggunakan algoritma yang telah dikembangkan Ridha (2002). Proses ini bertujuan mendapatkan istilah berupa kata dasar yang telah dibersihkan dari awalan (prefik), akhiran (sufik), gabungan (konfik) dan partikel -kah,-lah, -pun. Hasil dari stemming ini dipakai untuk membuat indeks istilah. Indexing merupakan proses mengurutkan istilah unik yang digunakan pada seluruh dokumen. Dokumen yang terbentuk berbentuk matrik di antaranya Matrik Istilah, Matrik Dokumen Istilah (MDI) dan Matrik Istilah Dokumen (MID). MDI (Matrik Dokumen Istilah) di mana kemunculan istilah di dalam setiap dokumen. MID (Matrik Istilah Dokumen) di mana muncul-tidaknya suatu istilah t i dalam dokumen ke-j ditunjukkan oleh nilai x ij =1 jika f ij > 0 dan x ij =0 jika f ij =0. Seluruh proses dilakukan dengan automatis, sehingga kesalahan ejaan kata yang diindeks diabaikan. Modul Peluang Modul Peluang bertujuan menghitung bobot setiap istilah kueri khususnya istilah yang ditambahkan sebagai istilah ekspansi. Hasil pembobotan ini menghasilkan pasangan istilah membentuk matrik yang disebut Matrik Istilah Peluang (MIP). Masukan modul ini adalah dokumen term dan matrik MID dan dihitung dengan rumus (17). Dokumen MIP digunakan sebagai dasar penghitungan bobot istilah yang digunakan sebagai istilah ekspansi dengan menggunakan rumus (11). Bobot istilah dihitung berdasarkan nilai peluang di dalam dokumen MIP di mana jika istilah t i terdapat dalam daftar kueri maka bobot t i bernilai 1, jika tidak maka bernilai rata-rata peluang istilah t i setelah istilah t j di mana t j istilah yang berbobot 1. Modul Kueri Metode ekspansi kueri yang akan digunakan dalam penelitian ini adalah Automatic Query Expansion (AQE) menggunakan analisis global. Selanjutnya dihitung nilai rata-rata peluang istilah setelah istilah kueri. Nilai rata-rata peluang tersebut dirangking dan selanjutnya dipilih r istilah. Istilah yang dipilih ini kemudian ditambahkan secara otomatis sehingga didapatkan kueri baru. Nilai peluang tersebut digunakan sebagai bobot istilah ekspansi, sedangkan bobot istilah kueri tetap 1. Dalam penelitian ini jumlah istilah ekspansi yang akan diuji adalah dua istilah (IRX2), empat istilah (IRX4), lima istilah (IRX5), enam istilah (IRX6), delapan istilah (IRX8), sepuluh istilah (IRX10) dan uji juga untuk kueri tanpa ekspansi (IRX0). Masing-masing pengujian di disimpan nilai kesamaan yang dihasilkan dari rumus (10). Selain menguji enam kemungkinan tersebut, akan dilakukan pengujian dengan mengimplementasikan nilai ambang batas (threshold). Dari dua cara pengujian ini akan diperoleh gambaran nilai evaluasi temu kembali informasi yang efektif. Modul Evaluasi Metode evaluasi yang umum digunakan adalah mengukur kinerja sistem temu kembali informasi adalah recall dan precision sesuai rumus (20). Dalam hal ini koleksi dokumen yang digunakan sudah memiliki gugus kueri dan gugus jawaban. Dari hasil penemukembalian ini, dilakukan penghitungan nilai precision pada tingkat recall tertentu. Tingkat recall yang digunakan adalah sebelas tingkat recall standar terinterpolasi. Hasilnya kemudian dirata-ratakan untuk mendapatkan Average Precision (AVP). Untuk melihat pengaruh pemberian bobot kueri dalam ekspansi kueri dilakukan pengukuran Average Precision terhadap enam jenis penemukembalian, yaitu: IRX0, yaitu penemukembalian tanpa ekspansi kueri. IRX2, yaitu penemukembalian dengan mengambil dua istilah teratas sebagai istilah ekspansi. IRX4, yaitu penemukembalian dengan mengambil empat istilah teratas sebagai istilah ekspansi. IRX5, yaitu penemukembalian dengan mengambil lima istilah teratas sebagai istilah ekspansi. IRX6, yaitu penemukembalian dengan mengambil enam istilah teratas sebagai istilah ekspansi.

15 7 IRX8, yaitu penemukembalian dengan mengambil delapan istilah teratas sebagai istilah ekspansi. IRX10, yaitu penemukembalian dengan mengambil sepuluh istilah teratas sebagai istilah ekspansi. Penelitian ini menghasilkan nilai AVP di mana masing-masing akan dievaluasi dan dibandingkan terhadap beberapa pengujian lainnya dengan nilai ambang batas (threshold) yang berbeda dan dibandingkan dengan hasil penelitian sejenis dengan metode yang berbeda. Asumsi-asumsi Asumsi-asumsi yang digunakan dalam penelitian ini antara lain : token hasil tokenizing dan stemming merupakan istilah yang belum tentu bernilai benar secara bahasa, jumlah dokumen relevan untuk tiap kueri telah diketahui sebelumnya, nilai peluang bersyarat telah dihitung sebelum dilakukan pengujian. Lingkungan Pengembangan Penelitian ini dilakukan dengan menggunakan bantuan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut : Perangkat lunak : Microsotf Windows XP2 Professional, PHP 5.1.1, Apache , MySQL Perangkat keras : AMD Sempron GHz, 512 MB RAM. HASIL DAN PEMBAHASAN Modul Istilah Dokumen corpus yang digunakan untuk pengujian sebanyak 700 dokumen dalam bentuk file teks. Dokumen memiliki struktur dokumen XML di mana isi dikelompokkan ke dalam tagtag tertentu. Dokumen pengujian, kueri dan jawabannya dapat dilihat di Lampiran 1 dan Lampiran 2. Deskripsi dokumen pengujian ditunjukkan oleh Tabel 1. Tabel 1 Deskripsi dokumen pengujian Uraian Nilai (bytes) Ukuran rata-rata dokumen Ukuran dokumen keseluruhan Ukuran dokumen terbesar Ukuran dokumen terkecil 456 Tokenizing Proses tokenizing menghasilkan token setiap dokumen. Sesuai Tabel 2 jumlah token tiap dokumen sangat beragam jika dilihat dari rentang jumlah dokumen dengan token terbesar dan jumlah token tekecil 31. Tetapi dengan rata-rata token tiap dokumen 359 menunjukkan sebagian besar dokumen memiliki token yang kecil. Hasil tokenizing disimpan di dokumen dengan nama sesuai id dokumen masingmasing, sehingga dihasilkan 700 dokumen berisi kumpulan token. Penjelasan hasil tokenizing ditunjukkan oleh Tabel 2. Tabel 2 Hasil proses tokenizing Uraian Nilai Rata-rata token tiap dokumen 359 Jumlah token keseluruhan Jumlah token terbesar Jumlah token terkecil 31 Stemming Proses stemming dilakukan terhadap setiap token dan menghasilkan istilah yang disebut term. Istilah ini merupakan kata yang telah dibersihkan dari awalan, akhiran dan imbuhan. Dari Tabel 2 dan Tabel 3 didapat penjelasan bahwa kebanyakan dokumen disusun oleh istilah-istilah yang sama. Hal ini ditunjukkan dengan perbandingan yang mencolok (359 dan 179) jumlah rata-rata istilah setelah melalui stemming. Hasil ini juga menjelaskan bahwa memperkecil ukuran indeks dapat dilakukan dengan proses stemming yang efektif selain menggunakan dokumen stopword. Hasil proses stemming adalah 700 dokumen yang penyimpanannya diberi nama sesuai dengan id dokumen masing-masing. Setiap dokumen berisi indeks istilah unik dari isi dokumen. Ringkasan hasil proses stemming ditunjukkan oleh Tabel 3. Tabel 3 Hasil proses stemming Uraian Nilai Rata-rata term unik tiap dokumen 179 Jumlah term unik koleksi Jumlah term unik terbesar Jumlah term unik terkecil 24 Indexing Indexing merupakan pembentukan urutan istilah unik yang ada di dalam koleksi. Indeks yang dibentuk menggunakan istilah tunggal di mana setiap istilah diwakili satu kata. Sesuai Tabel 4 dan Tabel 3, di mana didapatkan jumlah indeks dari term dari seluruh

16 8 dokumen yang menggambarkan hubungan antar dokumen yang cukup erat. Hal ini terlihat dari jumlah term yang menurun setelah indexing, sehingga besar kemungkinan term tersebut banyak yang sama. Hal ini dikuatkan dengan nilai frekuensi rata-rata tiap term di dalam indeks cukup tinggi. Deskripsi indeks yang terbentuk ditunjukkan oleh Tabel 4. Tabel 4 Hasil proses indexing Uraian Nilai Jumlah term Rata-rata frekuensi term 17 Modul Peluang Weighting Weighting (pembobotan) istilah dokumen dilakukan dengan memberikan nilai 1 yang menunjukkkan suatu istilah ada di dokumen dan 0 untuk sebaliknya. Begitu juga dengan istilah kueri. Untuk istilah yang dimasukkan pengguna sebagai kueri diboboti dengan nilai 1. Nilai peluang bersyarat digunakan sebagai nilai bobot istilah yang ditambahkan secara otomatis oleh ekspansi kueri. Istilah yang dipilih untuk ekspansi dicari melalui Matrik Istilah Peluang (MIP). Pengujian menggunakan 30 gugus kueri yang terdiri dari 58 istilah sehingga didapatkan nilai sebaran peluang dalam Matrik Istilah Peluang (MIP) yang dapat dilihat di Tabel 5. Dari istilah indeks, 98.7% memiliki bobot pada interval sehingga bobot rataratanya kecil yaitu Nilai rata-rata yang kecil diakibatkan istilah yang digunakan sebagai kueri jumlahnya sedikit dan nilai frekuensi term dalam indeks yang juga kecil, sehingga peluang setiap istilah tersebut ada ketika istilah kueri ada atau P(t q) juga kecil. Tabel 5 Sebaran nilai peluang bersyarat MIP Interval Bobot Jumlah Persen Jumlah Modul Kueri Ekspansi Kueri Pemilihan istilah yang digunakan untuk ekspansi berpengaruh terhadap hasil temu kembali. Tabel 6 dan Tabel 7 menunjukkan istilah yang terambil sebagai istilah ekspansi selalu didominasi istilah yang frekuensinya besar. Istilah tersebut tentunya digunakan banyak dokumen, sehingga setiap kueri yang diberikan berpeluang memunculkan istilah yang sama dengan ketika kueri yang lain diberikan. Padahal istilah dengan frekuensi besar dianggap tidak mampu mewakili isi suatu dokumen. Sehingga perlu dilakukan modifikasi cara mengindeks istilah-istilah dokumen. Hal itu dapat dilakukan dengan menambah istilah stopword secara manual. Data lengkap pasangan kueri dengan istilah ekspansi pada Lampiran 3. Tabel 6 Contoh kueri dan istilah ekspansi Kueri 10 Istilah Ekspansi gagal *nani, *nanam, besar, *nahun, panen *hasil, ngakibat, bisa, satu, mroduks, ngalam petani tebu besar, *hasil, merintah, *ngindonesia, mroduks,* nahun ningkat, bisa, beri, *nanam industri gula *nani, besar,* ngindonesia, *hasil, *ningkat,*nahun, ngembang,merintah,mroduks,satu * Istilah ekspansi yang memiliki frekuensi tinggi Tabel 7 Perbandingan frekuensi tertinggi dengan rata-rata frekuensi term Istilah Frekuensi nani 7795 nanam 2630 hasil 1771 nahun 1758 Rata-rata frekuensi term 17 Hasil pembobotan istilah ekspansi berdasarkan MIP menunjukkan perbandingan yang relatif kecil jika dibandingkan bobot kueri asli. Istilah kueri asli dibobot 1 dan istilah ekspansi dibobot dengan nilai rata-rata peluang bersyarat. Hal ini disebabkan pembobotan ini tidak memperhitungkan frekuensi istilah di dalam dokumen. Modul Evaluasi Modul ini berisi hasil evaluasi nilai recall dan precision. Enam pengujian dilakukan untuk proses ekspansi kueri dengan penambahan istilah yang berbeda. Karena metode ekspansi ini cenderung memperbanyak dokumen dengan ukuran kesamaan tidak nol, maka diperlukan nilai ambang (threshold) untuk menyatakan suatu dokumen terambil atau tidak. Masingmasing pengujian menggunakan nilai threshold yang berbeda-beda. Perbedaan nilai threshold ini disebabkan range nilai kesamaan yang didapatkan berbeda di setiap penambahan istilah ekspansi. Perbedaan nilai kesamaan ini, di mana

17 9 nilainya bertambah sebanding dengan bertambahnya jumlah istilah yang digunakan sebagai kueri. Bertambahnya nilai kesamaan ini karena temu kembali model peluang digunakan dengan menambahkan faktor log N-n/n dan adanya nilai konstanta C. Pengujian IRX0 menggunakan kueri asli tanpa ekspansi. Kurva di Gambar 5 menunjukkan IRX0 diujikan menggunakan dua nilai threshold yaitu 0 dan 1. Penggunaan dua nilai threshold ini karena nilai kesamaan yang diperoleh pada range 0 Sim(x,y) < 3.8. Nilai threshold 0 menghasilkan rata-rata 83% dokumen relevan dapat ditemukembalikan dan threshold 1 menghasilkan rata-rata 69% dokumen relevan dapat ditemukembalikan. Nilai rata-rata precision keduanya mengalami penurunan tidak terlalu besar dan jumlah yang hampir sebanding, sehingga dapat dikatakan perbedaan threshold tidak banyak memberi pengaruh. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 0 (IRX0) dapat dilihat pada Lampiran 4. Precision Recall Threshold 0 Threshold 1 Gambar 5 Kurva recall-precision pengujian kueri tanpa ekspansi. Pengujian IRX2 menggunakan kueri dengan dua istilah ekspansi. Nilai kesamaan yang diperoleh dari pengujian ini antara 0 Sim(x,y) < 3.8. Nilai threshold 0, 1 dan 1.5 sama-sama menemukembalikan rata-rata 94% - 98% dokumen relevan. Sesuai fakta tersebut dan kurva di Gambar 6 menunjukkan, penggunaan threshold 1 sebanding dengan penggunaan threshold 0 berdasarkan data penurunan rata-rata precision yang relatif sama tetapi threshold 0 lebih banyak menemukembalikan dokumen. Threshold 1.5 walaupun menghasilkan dokumen yang lebih kecil, tetapi dokumen relevan yang ditemukembalikan menurun. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 2 (IRX2) dapat dilihat pada Lampiran 5. Precision Recall Threshold 0 Threshold 1 Threshold 1.5 Gambar 6 Kurva recall-precision pengujian dengan dua istilah ekspansi. Pengujian IRX4 menggunakan kueri dengan empat istilah ekspansi. Nilai kesamaan yang diperoleh dari pengujian ini lebih besar dibandingkan pengujian pertama dan kedua yaitu antara 0 Sim(x,y) < 5.2. Bertambahnya range nilai kesamaaan membuat pengujian dilakukan dengan menambah threshold yang digunakan di antaranya 0, 1, 1.5, 2, 2.5, dan 3. Dari penggunaan enam nilai threshold ditemukembalikan dokumen relevan masingmasing 98%, 98%, 97%, 96%, 89% dan 74%. Kurva pada Gambar 7 menunjukkan penurunan rata-rata precision threshold 0 sampai 2 relatif sama dan jumlah dokumen yang ditemukembalikan berbeda sehingga penggunaan threshold 2 dapat dianggap lebih baik karena menemukembalikan jumlah dokumen lebih kecil dan jumlah dokumen yang relevan hampir sama dengan yang lain. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 4 (IRX4) dapat dilihat pada Lampiran 6. Precision Recall Threshold 0 Threshold 1 Threshold 1.5 Threshold 2 Threshold 2.5 Threshold 3 Gambar 7 Kurva recall-precision pengujian dengan empat istilah ekspansi.

18 10 Pengujian IRX6 menggunakan kueri dengan enam istilah ekspansi. Nilai kesamaan yang diperoleh dari pengujian ini antara 0 Sim(x,y) < 6.2. Dari enam nilai threshold yang digunakan di antaranya 0, 1.5, 2, 2.5, 3 dan 3.5 ditemukembalikan dokumen relevan masingmasing 98%, 98%, 97%, 94%, 87% dan 76%. Kurva pada Gambar 8 menunjukkan penurunan rata-rata precision yang relatif sama threshold antara 0 sampai 2.5. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 6 (IRX6) dapat dilihat pada Lampiran 7. Precision Recall Threshold 0 Threshold 1.5 Threshold 2 Threshold 2.5 Threshold 3 Threshold 3.5 Gambar 8 Kurva recall-precision pengujian dengan enam istilah ekspansi. Precision Recall Threshold 0 Threshold 2 Threshold 2.5 Threshold 3 Threshold 3.5 Threshold 4 Gambar 9 Kurva recall-precision pengujian dengan delapan istilah ekspansi. Pengujian IRX8 menggunakan kueri dengan delapan istilah ekspansi. Nilai kesamaan yang diperoleh dari pengujian ini lebih besar dibandingkan pengujian pertama dan kedua yaitu antara 0 Sim(x,y) < 7.3. Dengan beberapa menggunakan enam nilai threshold di antaranya 0, 2, 2.5, 3, 3.5 dan 4 ditemukembalikan dokumen relevan masingmasing 98%, 98%, 97%, 93%, 85% dan 74%. Kurva pada Gambar 9 menunjukkan penurunan rata-rata precision yang relatif sama dengan threshold 0 sampai 2.5 sedangkan threshold 3 ke atas menunjukkan penurunan nilai precision cukup besar. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 8 (IRX8) dapat dilihat pada Lampiran 8. Perbandingan Threshold 0 Hasil semua pengujian menunjukkan nilai precision cenderung menurun seiring meningkatnya nilai recall. Hal ini menunjukkan bahwa semakin banyak dokumen yang terambil mengakibatkan tingkat relevansi semakin menurun. Walaupun demikian, kinerja sistem temu kembali informasi dikatakan lebih baik jika penurunan tingkat relevansi (nilai precision) pada setiap nilai recall tidak terlalu drastis R ecall IRX0 IRX2 IRX4 IRX5 IRX6 IRX8 IRX10 Gambar 10 Kurva perbandingan recall precision enam pengujian dengan threshold 0. Penambahan istilah ekspansi dalam pengujian ini menunjukkan hasil berbanding terbalik terhadap penambahan istilah ekspansi. Perbandingan kurva di Gambar 11 terlihat nilai precision temu kembali tanpa ekspansi (IRX0) hampir sama dengan hasil temu kembali dengan dua istilah ekspansi (IRX2). Kurva nilai ratarata precision pengujian selainnya (IRX4, IRX5 IRX6, IRX8, IRX10) selalu di bawah dari dua pengujian yang pertama (IRX0 dan IRX2). Penambahan istilah untuk ekpansi kueri semakin menurunkan nilai rata-rata precision temu kembali.

19 11 Perbandingan Metode Ekspansi Pada penelitian sebelumnya (Paiki 2006) telah dibahas ekspansi kueri dengan similarity thesaurus yang diimplementasikan pada temu kembali model vektor. Perbandingan dilakukan pada level yang sama yaitu jumlah term ekspansi yaitu 5 term dan 10 term dan pengujian tanpa ekspansi (0 term) dengan threshold Precision Recall Gambar 11 Ekspansi kueri dengan addterm 0 model Peluang dan model VSM Precision Recall Gambar 12 Ekspansi kueri dengan addterm 5 model Peluang dan model VSM. Perbandingan hasil temu kembali tanpa ekspansi (IRX0, NoTH-1 dan NoTH-idf) menunjukkan nilai recall dan precision ekspansi kueri peluang bersyarat memiliki nilai yang lebih stabil dibandingkan dengan dua pengujian lainnya (Gambar 11). Walaupun nilai precision pada tingkat recall 0 lebih rendah dibandingkan metode VSM, tetapi pada tingkat recall lainnya metode peluang bersyarat lebih optimal. Karena pada pengujian ini belum dilakukan ekspansi kueri, perbandingan ini lebih menunjukkan kinerja model temu kembali dari pada metode ekspansi yang digunakan. Dari grafik ini didapatkan kesimpulan bahwa model temu kembali probabilistic memiliki kinerja lebih baik dibandingkan model VSM (Vector Space Model). Perbandingan ekspansi kueri 5 term pada metode ekspansi peluang bersyarat memiliki nilai precision yang lebih kecil dibandingkan metode similarity thesaurus (Gambar 12). Tetapi pada tingkat recall 0.1 sampai 1 nilai precision selalu di atas metode similarity thesaurus. Penurunan nilai precision secara drastis ditunjukkan metode similarity tehsaurus pada tingkat recall 0 sampai 0.2, sebaliknya pada metode peluang bersyarat, penurunan nilai precision lebih stabil pada semua tingkat recall. Pada perbandingan ini metode ekspansi kueri peluang bersyarat pada model temu kembali probabilistic lebih baik dibandingkan metode similarity thesaurus pada model temu kembali VSM. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 5 (IRX5) dapat dilihat pada Lampiran 9. P r e c is io n Recall Gambar 13 Ekspansi kueri dengan addterm 10 model Peluang dan model VSM Perbandingan selanjutnya dilakukan pada ekspansi dengan 10 term (Gambar 13). Model ekspansi similarity thesaurus (VSM) pada tingkat recall 0 memiliki nilai precision tinggi. Penurunan nilai precision terjadi secara drastis terjadi setelah tingkat recall 0 dan nilainya tidak stabil di setiap tingkat recall. Tetapi pada tingkat recall 0.1 sampai 0.8 kurva hampir sama pada masing-masing metode, yaitu penurunan nilai precision lebih stabil. Sehingga pada perbandingan ini metode ekspansi kueri peluang bersyarat lebih baik, walaupun nilai precision masih di bawah metode similarity thesaurus untuk istilah berbobot tf-idf. Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 10 (IRX10) dapat dilihat pada Lampiran 10.

20 12 Perubahan hasil pengujian model VSM banyak dipengaruhi perubahan bobot istilah dokumen dan jumlah term ekspansi. Bobot 0 dan 1 atau tf-idf (Gambar 13) memiliki pengaruh besar terhadap nilai precision. Pada metode peluang bersyarat di semua pengujian, kurva recall precision menunjukkan penambahan term yang lebih banyak mempengaruhi nilai kesamaan walaupun nilai precision tidak terpengaruh secara signifikan. Secara keseluruhan perbandingan nilai precision menunjukkan metode ekspansi kueri peluang bersyarat pada model temu kembali probabilistic memiliki kinerja lebih baik dibandingkan model similarity thesaurus pada model temu kembali VSM. Tetapi model VSM memiliki keunggulan nilai precision yang tinggi pada tingkat recall yaitu 0. Metode peluang bersyarat berpotensi memiliki efektifitas kinerja pada semua tingkat recall jika pemilihan, pembobotan, dan jumlah istilah ekspansi tepat. KESIMPULAN DAN SARAN Kesimpulan Melalui penelitian ini dapat ditarik kesimpulan : 1 Pada metode ekspansi kueri automatis dengan metode peluang bersyarat, jumlah istilah ekspansi yang lebih sedikit lebih baik dibandingkan dengan jumlah istilah kueri yang lebih banyak. Penggunaan nilai threshold hanya mengurangi jumlah dokumen yang ditemukembalikan tetapi tidak mempengaruhi nilai precision secara signifikan. 2 Keberhasilan metode ekspansi kueri peluang bersyarat dipengaruhi cara pengindeksan istilah, pembobotan, dan jumlah istilah ekspansi. Ekspansi kueri IRX2, IRX4, IRX5, IRX6, IRX8 dan IRX10 hampir memunculkan istilah sama sebagai istilah ekspansi. 3 Ekspansi kueri dengan metode peluang bersyarat mampu meningkatkan kinerja ekspansi kueri pada temu kembali informasi jika dibandingkan metode similarity thesaurus pada model temu kembali Vector Space Model (VSM). 1 melakukan ekspansi kueri dengan istilahistilah yang frekuensinya kecil dan frekuensinya sedang, 2 menggunakan metode pembobotan lain selain 1 dan 0 untuk istilah dokumen, 3 mengimplementasikan metode concept based query untuk ekspansi kueri model temu kembali probabilistic di mana metode ini telah banyak diuji pada model Vector Space Model (VSM). DAFTAR PUSTAKA Adisantoso J Temu Kembali Informasi Menggunakan Peluang Bersyarat. Tesis. Program Studi Ilmu Komputer Universitas Indonesia. Jakarta. Adisantoso J, Ridha A Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektifitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4, Departemen Ilmu Komputer FMIPA IPB, Bogor. Baaeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Addison-Wesley, New York. Mandala R, Setiawan H Peningkatan Performansi Sistem Temu Kembali Informasi dengan Perluasan Query Secara Otomatis. Departemen Teknik Informatika ITB. Bandung. ndex2.php?option=com_content&do_pdf=1 &id=93 12 Desember Paiki FF Evaluasi Penggunaan Similarity Thesaurus Terhadap Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia. Skripsi. Institut Pertanian Bogor. Qiu Y Concept Based Query Expansion. Department of Computer Science, Swiss Federal Institute of Technology, Zurich.CH Ridha A Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. Skripsi. Institut Pertanian Bogor. Rijsbergen CJ van Information Retrieval Secod Edition. Butterworths, London. Saran Sistem ini dapat dikembangkan dengan beberapa alternatif, di antaranya :

21 LAMPIRAN

22 13 Lampiran 1 Contoh dokumen pengujian LAMPIRAN <DOC> <DOCNO>indosiar130104</DOCNO> <TITLE>Departemen Pertanian Berikan Bantuan 200 Ton Benih Padi</TITLE> <AUTHOR> RS Manihuruk/Tom </AUTHOR> <DATE>13/1/2004 </DATE> <TEXT> indosiar.com, Jambi - Departemen Pertanian memberikan bantuan bibit padi sekitar 200 ton kepada korban banjir di Provinsi Jambi. Bantuan tersebut diserahkan oleh Sekretaris Jenderal Departemen Pertanian Dr Ir Memet Gunawan kepada Gubernur Jambi Drs H Zulkifri Nurdin di rumah dinas Gubernur Jambi, Selasa (13/01/2004). Turut hadir pada kesempatan itu, Direktur Jenderal Departemen Pertanian Rohadian Msc, jajaran dinas pertanian Provinsi Jambi. Menurut Memet, bantuan bibit padi itu baru sebagian kecil dari kebutuhan yang diusulkan oleh Provinsi Jambi. Bantuan bibit yang setara dengan nilai 600 juta itu diupayakan penambahannya agar kebutuhan benih padi untuk seluruh korban banjir di Provinsi Jambi dapat dipenuhi. Memet Gunawan mengatakan bantuan benih padi untuk korban banjir perlu segera disalurkan, agar para petani jangan sampai meninggalkan usaha pertaniannya dan beralih menjadi penebang hutan. Penyaluran bantuan itu perlu diawasi supaya tidak terjadi penyelewengan. Sementara itu, Gubernur Jambi mengatakan jumlah benih padi yang dibutuhkan para korban banjir di daerah itu sekitar 800 ton. Hal ini berarti hingga kini masih terdapat kekurangan sekitar 600 ton bantuan benih padi. Sedangkan bantuan benih jagung juga dibutuhkan sekitar 35 ton dan bantuan kedelai sebanyak 8 ton. Mengenai dampak banjir terhadap pertanian tanaman pangan, Zulkifri Nurdin mengatakan luas tanaman padi yang mengalami rusak berat atau puso sekitar hektar, dan sekitar hektar mengalami kerusakan ringan. Sedangkan tanaman jagung yang rusak berat sekitar hektar dan rusak ringan sekitar 12 hektar. Sementara, tanaman kedelai yang rusak berat sekitar 224 hektar dan rusak ringan sekitar 165 hektar. Menurut Gubernur Jambi, salah satu upaya untuk mencegah beralihnya para petani ke usaha penebang liar, saat ini pihaknya meningkatkan program agropolitan atau pembangunan pertanian yang dikaitkan dengan usaha industri pertanian di beberapa wilayah, seperti Tanjung Jabung Timur, sehingga mereka tidak sampai membuka usaha-usaha penebangan liar dan pertambangan tanpa ijin di alur Sungai Batanghari. Mengenai kekurangan bantuan, Gubernur Jambi menyatakan pihaknya sudah mengajukan permohonan kembali kepada pemerintah pusat. Sementara itu, upaya penanggulangan masalah banjir di masa akan datang, telah dilakukan pemerintah setempat, antara lain membentuk tim terpadu yang bertugas mencari solusi penanganan kerusakan hutan, pendangkalan Sungai Batanghari. Upaya tersebut melibatkan pemerintah pusat, yakni Menteri Koordinator Bidang Kesejahteraan Rakyat, Departemen Kimpraswil, Departemen Kehutanan, dan pihak Bappenas. </TEXT> </DOC>

23 14 Lampiran 2 Contoh kueri pengujian dan jawaban No Kueri Gugus Jawaban 1 gagal panen gatra txt, gatra txt, gatra txt, gatra txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt 2 petani tebu indosiar txt, indosiar txt, kompas txt, kompas txt, kompas txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt 3 industri gula gatra txt, indosiar txt, indosiar txt, jurnal txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, 4 perdagangan hasil pertanian 5 penerapan teknologi pertanian wartapenelitian txt gatra txt, indosiar txt, indosiar txt, jurnal txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, ediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, wartapenelitian txt indosiar txt, jurnal txt, jurnal txt, jurnal txt, jurnal txt, jurnal txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt,

24 15 Lanjutan No Kueri Gugus Jawaban republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarapembaruan No.txt, suarapembaruan txt, suarapembaruan txt, wartapenelitian txt, wartapenelitian txt, wartapenelitian txt 6 pupuk organic balaipenelitian txt, kompas txt, kompas txt, kompas txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, wartapenelitian txt, 7 penyakit hewan ternak 8 penerapan bioteknologi di indonesia 9 laboratorium pertanian wartapenelitian txt gatra txt, gatra txt, gatra txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt jurnal txt, kompas txt, puslitbang txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suarapembaruan No.txt, suarapembaruan txt, suarapembaruan txt, wartapenelitian txt balaipenelitian txt, gatra txt, indobic txt, indosiar txt, jurnal txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suaramerdeka txt 10 riset pertanian balaipenelitian txt, gatra txt, indobic txt,jurnal txt, jurnal txt, jurnal txt, jurnal txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, puslitbang txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt,

25 16 Lanjutan No Kueri Gugus Jawaban republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau No.txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, 11 harga komoditas pertanian wartapenelitian txt, wartapenelitian txt indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, pikiranrakyat txt, pikiranrakyat txt, poskota txt, poskota txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, trubus txt, wartapenelitian txt 12 tanaman pangan bitraindonesia txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya

26 17 Lanjutan No Kueri Gugus Jawaban txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt 13 kelompok bitraindonesia txt, indosiar txt, jurnal masyarakat tani 017.txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, replubika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt,suaramerdeka txt, suarapembaruan txt, suarapembaruan txt 14 musim panen gatra txt, gatra txt, gatra txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, pikiranrakyat txt, pikiranrakyat txt, poskota txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt 15 tanaman obat balaipenelitian txt, balaipenelitian txt, ndobic txt, indosiar txt, indosiar txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt 16 gabah kering indosiar txt, indosiar txt, indosiar txt, giling kompas txt, kompas txt, kompas txt, mediaindonesia txt, pikiranrakyat txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suaramerdeka txt 17 impor beras indonesia gatra txt, gatra txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt,

27 18 Lanjutan No Kueri Gugus Jawaban kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt 18 pertanian organik indosiar txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt 19 swasembada indosiar txt, kompas txt, kompas txt, pangan kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt, 20 penyuluhan pertanian suarapembaruan txt, suarapembaruan txt bitraindonesia txt, gatra txt, indosiar txt, jurnal txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, poskota txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, suaramerdeka txt, wartapenelitian txt, wartapenelitian txt 21 tadah hujan gatra txt, gatra txt, indosiar txt, indosiar txt, jurnal txt, kompas txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suarapembaruan txt, wartapenelitian txt 22 bencana kekeringan gatra txt, gatra txt, gatra txt, gatra txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt,

28 19 Lanjutan No Kueri Gugus Jawaban mediaindonesia txt, mediaindonesia txt, pikiranrakyat txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, suarapembaruan txt, suarapembaruan txt 23 peternak unggas gatra txt, gatra txt, gatra txt, indosiar txt, indosiar txt, indosiar txt, jurnal txt, kompas txt, kompas txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarapembaruan txt 24 flu burung gatra txt, gatra txt, gatra txt, gatra txt, indosiar txt, indosiar txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt, suaramerdeka txt 25 institut pertanian gatra txt, gatra txt, gatra txt, gatra txt, bogor gatra txt, gatra txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suarakarya txt, suarapembaruan txt, suarapembaruan txt 26 pembangunan untuk sektor pertanian gatra txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, mediaindonesia txt, pembaruan txt, poskota txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt,

29 20 Lanjutan No Kueri Gugus Jawaban situshijau txt, situshijau txt, suarapembaruan txt 27 peningkatan indosiar txt, jurnal txt, kompas txt, pendapatan kompas txt, kompas txt, kompas txt, petani kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, pembaruan txt, poskota txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suaramerdeka txt, suaramerdeka txt, suarapembaruan txt, 28 produk usaha peternakan rakyat 29 kelangkaan pupuk 30 dukungan pemerintah pada pertanian suarapembaruan txt, wartapenelitian txt jurnal txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarapembaruan txt indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, indosiar txt, kompas txt, kompas txt, pikiranrakyat txt, republika txt, republika txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suarakarya txt, suaramerdeka txt indosiar txt, jurnal txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, kompas txt, mediaindonesia txt, mediaindonesia txt, pembaruan txt, poskota txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, republika txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, situshijau txt, suarakarya txt, suaramerdeka txt, wartapenelitian txt, wartapenelitian txt

30 21 Lampiran 3 Daftar sepuluh istilah ekspansi untuk masing-masing kueri No Kueri 10 Istilah Ekspansi 1 gagal panen nani, nanam, besar, nahun, hasil, gakibat, bisa, satu, mroduks, ngalam 2 petani tebu besar, hasil, merintah, ngindonesia, mroduks, nahun,ningkat, bisa, beri, nanam 3 industri gula nani, besar, ngindonesia, hasil, ningkat, nahun, ngembang, merintah, mroduks, satu 4 perdagangan hasil pertanian nani, besar, nahun, ningkat, mroduks, bisa, ngindonesia, satu, dapat, ngembang, merintah 5 penerapan teknologi pertanian nani, hasil, besar, ngembang, nahun, ningkat, ngindonesia, mroduks, satu, bisa, bai 6 pupuk organic nani, hasil, nanam, mroduks, guna,ningkat, besar, nahun, ngembang, ninggi, 7 penyakit hewan ternak nerna, nani, hasil, besar, ngindonesia, bisa, dapat, mroduks, ningkat, satu, nahun, 8 penerapan bioteknologi di indonesia ngindonesia, nani, hasil, ngembang, nahun, besar, satu, ningkat, bisa, mroduks, nanam 9 laboratorium pertanian hasil, besar, nahun, guna, nanam, ngindonesia, bisa,satu, dapat, ngembang 10 riset pertanian hasil, nahun, ngembang, satu, ngindonesia, besar, ningkat, bisa, merlu, mili 11 harga komoditas pertanian nani, besar, hasil, mroduks, ningkat, nahun, ngindonesia, ngembang, satu, masar, bisa 12 tanaman pangan nani, nahun, besar, hasil, mroduks, ningkat, bisa, satu, ngalam, dapat 13 kelompok masyarakat tani nani, hasil, besar, nahun, ningkat, bisa, ngembang, satu, nanam, dapat, mroduks 14 musim panen nani, nanam, nahun, besar, hasil, mroduks, bisa, lahan, satu, daerah 15 tanaman obat nani, hasil, besar, nahun, bisa, ngembang, mroduks, satu, ningkat, dapat 16 gabah kering giling giling, nani, mroduks, nahun, besar, ningkat, hasil, nanam, ton, madi, merintah 17 impor beras indonesia ngindonesia, nani, besar, hasil, mroduks, ningkat, nahun, merintah, satu, bisa, ngembang 18 pertanian organik hasil, besar, nanam, nahun, mroduks, ningkat, guna, ngembang, bisa, satu 19 swasembada pangan nani, mroduks, nahun, hasil, ningkat, besar, nanam, capa, ngindonesia, satu 20 penyuluhan pertanian besar, hasil, nahun, bisa, nanam, ningkat, dapat, bai, mroduks, guna 21 tadah hujan nani, nanam, madi, nahun, ngair, daerah, musim, lahan, ngalam, ngering 22 bencana kekeringan nani, nanam, ngalam, nahun, besar, ngakibat, ngair, lahan, luas, daerah 23 peternak unggas nani, besar, merintah, hasil, ngindonesia, nahun, bisa, ngayam, dapat, nambah 24 flu burung nani, nerna, sakit, besar, merintah, ngayam, wabah, negara, ngakibat, ngunggas 25 institut pertanian bogor bogor, hasil, besar, ngindonesia, satu, nahun, bisa, ningkat, bai, merintah, guna 26 pembangunan untuk sektor pertanian nani, besar, nahun, hasil, ningkat, ngindonesia, merintah, satu, ngembang, bisa, mroduks 27 peningkatan pendapatan petani nani, besar, hasil, nahun, mroduks, bisa, nanam, satu, ngindonesia, ngembang, bai

31 22 Lanjutan No Kueri 10 Istilah Ekspansi 28 produk usaha peternakan rakyat nerna, rakyat, nani, besar, hasil, ngindonesia, ningkat, nahun, ngembang, merintah, mroduks, satu 29 kelangkaan pupuk nani, nanam, nahun, mroduks, butuh, ningkat, besar, ngalam, hasil, bisa 30 dukungan pemerintah pada pertanian nani, besar, hasil, nahun, ningkat, ngindonesia, bisa,mroduks, ngembang, satu, bai Lampiran 4 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 0 (IRX0) TH TH TH Lampiran 5 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 2 (IRX2) TH TH TH TH Lampiran 6 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 4 (IRX4) TH TH TH TH TH TH TH Lampiran 7 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 6 (IRX6) TH TH TH TH TH TH TH Lampiran 8 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 8 (IRX8) TH TH TH TH TH TH TH

32 23 Lampiran 9 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 5 (IRX5) TH TH TH TH TH TH TH Lampiran 10 Data lengkap nilai rata-rata AVP hasil pengujian jumlah addterm 10 (IRX10) TH TH TH TH TH TH TH Lampiran 11 Tampilan Antarmuka Sistem Temu Kembali Informasi Peluang Bersyarat

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Sistem Informasi Pengelolaan Arsip Statis... SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Silmi Kafatan, Djalal Er Riyanto,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN MENGGUNAKAN METODE N-GRAM DAN EKSPANSI KUERI Disusun oleh : Dwi iswanto L200100014 Pembimbing : Husni Thamrin PROGRAM STUDI INFORMATIKA FAKULTAS

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA Broto Poernomo T.P. 1 dan Ir. Gunawan 2 1 Teknik Informtika Sekolah Tinggi

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan pengetahuan dan kehidupan manusia sungguh dipercepat dengan kemudahan akses terhadap begitu banyak informasi. Pada beberapa waktu yang lalu akses terhadap

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya perkembangan teknologi dewasa ini telah menyebabkan aliran informasi begitu lancar

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Oleh: Andika Wahyu Agusetyawan G64101007 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

METODE PENELITIAN. Gambar 2 Metodologi penelitian.

METODE PENELITIAN. Gambar 2 Metodologi penelitian. 4 penelitian i, kata diasosiasikan dengan anotasi citra (kata) dan dokumen diasosiasikan dengan citra. Matriks kata-citra tersebut didekomposisi meadi : A USV T dengan A adalah matriks kata-citra, matriks

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Julio Adisantoso, Ahmad Ridha, Andika Wahyu Agusetyawan Staf Departemen Ilmu Komputer, Fakultas Matematika

Lebih terperinci

AN ANALISIS RANCANGAN PENAWARAN DISKON DENGAN BANYAK PELANGGAN DAN TITIK IMPAS TUNGGAL

AN ANALISIS RANCANGAN PENAWARAN DISKON DENGAN BANYAK PELANGGAN DAN TITIK IMPAS TUNGGAL AN ANALISIS RANCANGAN PENAWARAN DISKON DENGAN BANYAK PELANGGAN DAN TITIK IMPAS TUNGGAL Oleh: Endang Nurjamil G05497044 DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Mengenal Information Retrieval

Mengenal Information Retrieval STBI-2011 Sistem Temu Balik Informasi 2011 Mengenal Information Retrieval Husni husni@if.trunojoyo.ac.id Husni.trunojoyo.ac.id Komputasi.wordpress.com 2 3 Amazon.com 4 Amazon.com 5 6 7 8 9 Wordpress.com

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan komputer di dalam lingkungan kehidupan masyarakat di seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad terakhir ini. Hal

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci