METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI

Ukuran: px
Mulai penontonan dengan halaman:

Download "METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI"

Transkripsi

1 METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

2 METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

3 ABSTRACT PUTRI DEWI PURNAMA SARI. Term Weight Method based on Term Distribution for Information Retrieval on Indonesian Documents. Supervised by JULIO ADISANTOSO. Term weight algorithm plays an important role in the process of document searching, which is greatly influenced by the precision and recall results of the Search Engine. Currently, TF-IDF term weight algorithm is widely applied in language models to build the search engine systems. Since term frequency is not the only discriminator which is necessary to be considered in term weighting and make each weight suitable to indicate the term s importance, term weighting algorithm based on term distribution has been developed. In a single document, a term with higher frequency and closer to hypo-dispersion distribution usually contains more semantic information and should be given higher weight. One the other hand, in collection of documents, the term with higher frequency and hypo-dispersion distribution usually contains less information. This research implements term weight based on term distribution, with Local Term Weight Algorithm and Global Term Weight Algorithm for the documents in Indonesian Language. The result of this research is a Search Engine with an average precision of 84.8%. Keyword : IDF, Term Weight, TF, TFIDF

4 Judul Skripsi Nama NRP : Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen Bahasa Indonesia : Putri Dewi Purnama Sari : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Ilmu Komputer Dr. Ir. Agus Buono, M.Si, M.Kom NIP Tanggal Lulus :

5 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wata ala yang telah memberikan rahmat dan karunia-nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen Bahasa Indonesia. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam tugas akhir ini, yaitu: Ayahanda Sudirman Limi, Ibunda Yetty Marianis, serta keluarga besar penulis (Maimunah, Okdista, Andi Saputra, Syarifah, Dadang K, Maulina, Saka, Syaqeela, dan Alee) yang selalu memberikan doa, nasihat, semangat, dan kasih sayang yang luar biasa kepada penulis. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang memberikan bimbingan, ide, dukungan, semangat serta kesabaran dalam pengerjaan tugas akhir ini. Bapak Toto H, S.Kom, M.Si selaku dosen pembimbing akademik penulis yang sabar. Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom selaku dosen penguji yang telah memberi masukan dan saran pada tugas akhir penulis. Rekan satu bimbingan Susi Handayani, Fania R K, Meri Marlina, Meriska Defriani, Anita, Hafidzhia Dzikrul A, Alfa Nugraha, Risky Utama P, dan Nofel Saputra. Terima kasih atas bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini. Wido Aryo Andhika, Wangi Saraswati, Brenda K, Siska Susanti, Zola Mukhda, Aditya Nur J, Santia Risky K, Dyah Kenyar NH, Ihsan Mentaya, dan Abdul Rahman Halim. Terima kasih atas semangat dan dukungannya yang telah diberikan kepada penulis. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses. Seluruh staf dan pimpinan BEM KM IPB Bersahabat yang terus menyebarkan energi positif, khususnya Kementrian Budaya Olahraga dan Seni (ka Dean, Bunda Icha, ka Andre, ka Ari, ka Nina, ka Indah, ka Rommy, ka Mitha, Ruri, Deni, Suci, Rahma, Amel, Rocky, Dziki, Eris), OMI 2011, IAC 2011 dan divisi Publikasi Dokumentasi Gebyar Nusantara Seluruh panitia OMI 2012 khususnya Cici, Tri, Alfi, Johan, BPH dan seluruh pimpinan OMI 2012 yang selalu memberikan kebersamaan dan dukungan mental kepada penulis selama melaksanakan tugas akhir ini. Seluruh keluarga besar KOST ARINI (kak Sarah, kak Nova, kak Rani, Ima, Ardini, Tika, Prista, Ayu, Timeh, Jay, Dita, dan Vio) yang selalu bersedia mendengarkan keluh kesah, dan memberikan semangat kepada penulis selama melaksanakan tugas akhir ini. Keluarga kecil penulis yaitu UROSITA (Ella Rahmadani, Fauziah Azzahro, Winahyu Hapsari, Fatima Rosniar, Ratna Anggun Kartika, dan Arini Khairiyah) yang sabar memberikan energi positif, dukungan dan semangat bagi penulis. Seluruh rekan-rekan Ilmu Komputer angkatan 45 atas segala kebersamaan, bantuan, canda tawa, dan kenangan indah serta semangat bagi penulis slama masa studi. Semoga kita semua bisa berjumpa kembali kelak sebagai orang-orang sukses. Penulis berharap tugas akhir ini dapat memberikan manfaat, khususnya bagi bidang temu kembali informasi. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan dalam berbagai hal. Penulis berharap adanya masukan yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Bogor, Agustus 2012 Putri Dewi Purnama Sari

6 RIWAYAT HIDUP Putri Dewi Purnama Sari dilahirkan di Jakarta pada tanggal 20 April 1991 dari pasangan Bapak Sudirman Limi dan Ibu Yetty Marianis. Pada tahun 2008, penulis lulus dari SMA Negeri 31 Jakarta dan menjadi mahasiswa di Departemen Ilmu Komputer Institut Pertanian Bogor (IPB) melalui Undangan Seleksi Masuk IPB (USMI). Selama menjadi mahasiswa, penulis menjadi asisten praktikum di beberapa matakuliah, yaitu Penerapan Komputer (2009,2010,2012), Algoritma dan Pemrograman (2011) dan Bahasa Pemrograman (2011). Pada bulan Juli hingga Agustus 2011, penulis melaksanakan Praktik Kerja Lapangan di Badan Kepegawaian Pendidikan dan Pelatihan (BKPP) Kota Bogor. Selain itu, penulis aktif menjadi anggota BEM KM IPB (Badan Eksekutif Mahasiswa Keluarga Mahasiswa Institut Pertanian Bogor). Pada tahun penulis sebagai staf Kementerian Pengembangan Sumberdaya Mahasiswa (PSDM). Penulis melaksanakan berbagai kegiatan mahasiswa salah satunya mengadakan sekolah kepemimpinan dan wirausaha bagi mahasiswa tingkat pertama IPB dengan nama Leadership and Enterpreneurship School (LES). Pada tahun , penulis sebagai staf Kementerian Budaya Olahraga dan Seni (BOS). Penulis ikut serta dalam mengadakan kegiatan olahraga, seni, dan budaya untuk mehasiswa IPB, yaitu OMI (Olimpiade Mahasiswa IPB), IAC (IPB Art Contest), dan GENUS (Gebyar Nusantara). Pada tahun 2012, penulis aktif dalam kepanitiaan OMI 2012, yang merupakan kepanitiaan terakhir bagi penulis saat menjadi mahasiswa IPB.

7 DAFTAR ISI Halaman DAFTAR TABEL... vi DAFTAR GAMBAR... vi DAFTAR LAMPIRAN... vi PENDAHULUAN Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 METODE Koleksi Dokumen... 1 Pengindeksan... 2 Tokenisasi... 2 Pembuangan Stop words... 2 Pembobotan sebaran kata... 2 Kesamaan dokumen dan kueri... 3 Evaluasi Sistem... 4 Lingkungan Implementasi... 4 HASIL DAN PEMBAHASAN Koleksi Dokumen... 4 Pengindeksan Dokumen... 5 Tokenisasi... 5 Pembuangan Stopword... 5 Pembobotan Sebaran Kata... 5 Kesamaan Dokumen dan Kueri... 8 Pengujian Kinerja Sistem... 8 Perbandingan Hasil Uji Kueri... 9 SIMPULAN DAN SARAN Simpulan Saran DAFTAR PUSTAKA LAMPIRAN... 12

8 DAFTAR TABEL Halaman 1 Relevant dan retrieved dokumen Deskripsi dokumen uji Contoh hasil parsing kalimat Hasil perhitungan peluang(r) Hasil perhitungan v dan n pada dokumen dok Hasil perhitungan U j, S j, dan bobot lokal pada dokumen dok Perbandingan hubungan distribusi dan bobot lokal Hasil perhitungan peluang(r ) Hasil perhitungan n, chi, dan U j Hasil perhitungan p, dan S j dengan N = Hasil perhitungan U j, S j dengan persamaan(2) dan bobot global Hasil perhitungan U j, S j dengan persamaan(1) dan bobot Global Perbandingan hubungan distribusi dan bobot global Hasil perhitungan bobot lokal, global, dan sebaran kata pada dok Perbedaan hasil AVP untuk proses parsing 3, 4, dan 5 kalimat Perbandingan 15 kueri pada sistem DAFTAR GAMBAR Halaman 1 Tahapan pembangunan sistem Contoh dokumen Grafik recall precision Perbandingan pembobotan sebaran kata dan TFIDF DAFTAR LAMPIRAN Halaman 1 Daftar kueri uji dan dokumen yang relevan Contoh dokumen koleksi pengujian Daftar stopword Daftar AVP masing-masing kueri pada pengujian parsing 3 kalimat Daftar AVP masing-masing kueri pada pengujian parsing 4 kalimat Daftar AVP masing-masing kueri pada pengujian parsing 5 kalimat Daftar AVP masing-masing kueri pada pengujian pembobotan TFIDF Antarmuka halaman utama sistem pencarian jurnal hortikultura Antarmuka hasil pencarian Antarmuka pemilihan dokumen vi

9 1 Latar Belakang PENDAHULUAN Mesin pencari digunakan oleh pengguna untuk memberikan kemudahan dalam temu kembali informasi berdasarkan kueri tertentu. Informasi yang dikembalikan oleh mesin pencari berupa dokumen terurut sesuai kedekatan kueri dengan dokumen dalam koleksi. Mesin pencari telah banyak dikembangkan dengan berbagai metode dan sistem pengindeksan. Pengindeksan adalah proses pembentukan inverted index (Manning et al. 2008). Salah satu tahap dari pengindeksan adalah pembobotan, yaitu pemberian bobot pada kata dalam koleksi. Bobot tersebut menentukan kata apa saja yang menjadi penciri bagi masing-masing dokumen dalam koleksi. Pembobotan memegang peranan penting bagi sistem temu kembali informasi. Pembobotan kata yang kurang tepat dalam proses pengindeksan dapat menurunkan kinerja sistem secara keseluruhan. Terdapat beberapa metode pembobotan kata yang digunakan dalam pengindeksan dokumen. Salah satu metode yang digunakan ialah TFIDF. Metode TFIDF menggunakan frekuensi kata pada dokumen sebagai penentu nilai bobot kata. Notasi SMART merupakan variasi dari pembobotan TFIDF. Notasi SMART digunakan untuk membantu merepresentasikan kombinasi pembobotan kata. Contoh representasi kombinasi vektor dokumen dan kueri adalah ddd.qqq, ddd menggambarakan pembobotan kata dari vektor dokumen dan qqq menggambarkan pembobotan vektor kueri. Huruf tersebut merepresentasikan penggunaan rumus pada notasi SMART untuk menghitung frekuensi kata (hurufpertama), frekuensi dokumen (hurufkedua), dan proses normalisasi (hurufketiga) (Manning et al. 2008). Beberapa penelitian pembobotan dokumen antara lain Ridha (2002) yang menggunakan istilah tunggal dengan pembobotan TFIDF dan BM25, Herdi (2010) menggunakan pembobotan TFIDF dan BM25 pada mesin pencari dengan framework Indri. Pada penelitian tersebut, hasil kinerja TFIDF dan BM25 memberi bobot sama pada sebuah kata, tanpa memperhatikan sebarannya. Xia dan Chai (2011) mengungkapkan bahwa pada perhitungan bobot kata lokal yang diukur dalam suatu dokumen, kata yang mempunyai frekuensi tinggi dan distribusi penyebaran luas seharusnya diberi bobot yang lebih tinggi dari kata yang frekuensinya rendah dan distribusi penyebaran intensif. Selain itu, pada perhitungan bobot kata global yang diukur pada seluruh koleksi dokumen, kata yang mempunyai frekuensi tinggi dan distribusi penyebarannya luas biasanya berisi sedikit informasi sehingga bobot yang diberikan pada kata tersebut rendah. Berdasarkan Xia dan Chai (2011), penelitian ini akan mengimplementasikan pembobotan yang terfokus pada sebaran kata pada dokumen bahasa Indonesia. Pembobotan sebaran kata yang digunakan adalah sebaran kata lokal (dokumen) dan global (koleksi). Tujuan Tujuan penelitian ini adalah mengimplementasikan metode pembobotan kata menggunakan sebaran kata sebagai alternatif pembobotan dalam sistem IR dokumen Bahasa Indonesia. Ruang Lingkup Ruang lingkup dalam penelitian ini adalah: 1 Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. 2 Dokumen yang relevan dengan kueri uji, ditentukan berdasarkan pustaka yang ada di lab Information Retrieval Ilmu Komputer IPB. 3 Kesalahan dalam pengetikan dalam korpus tidak diperhatikan. METODE Penelitian ini dilaksanakan dalam beberapa tahapan, yaitu: pengumpulan koleksi dokumen (korpus), pengindeksan dokumen, pengindeksan kueri, perhitungan ukuran kesamaan antara dokumen dan kueri, pemeringkatan dokumen, dan perhitungan evaluasi hasil temu-kembali sistem. Tahapantahapan tersebut dapat dilihat pada Gambar1. Koleksi Dokumen Dokumen yang digunakan sebagai dokumen uji adalah korpus yang berasal dari Laboratorium Temu Kembali Informasi IPB. Dokumen berjumlah 324 jurnal hortikultura dan kueri uji berjumlah 15 kueri dengan daftar dokumen yang relevan. Daftar kueri uji dan dokumen yang relevan terdapat pada Lampiran 1.

10 2 Pengindeksan Dokumen DOKUMEN Tokenization Pembuangan Stop words Pembobotan sebaran kata Kesamaan dokumen dan kueri Peringkat dokumen Evaluasi KUERI Pengindeksan kueri Matriks termdokumen Matriks termkueri Gambar 1 Tahapan pembangunan sistem. Pengindeksan Proses pengindeksan terdiri atas proses tokenisasi, pembuangan stopwords, dan pembobotan (Manning et al. 2008). Pada penelitian ini metode pembobotan yang dilakukan adalah metode sebaran kata. Tokenisasi Tokenisasi menerima masukan berupa rangkaian karakter dan memilahnya menjadi token dengan aturan sebagai berikut: 1 Suatu token dimulai oleh huruf atau angka 2 Token dipisahkan oleh karakter whitespace 3 Karakter-karakter khusus yang mengikuti huruf atau angka akan dihilangkan. Pembuangan Stop words Stop words adalah kata-kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna (Manning et al. 2008). Pada penelitian ini stopwords diperoleh dari Herdi (2010). Pembobotan sebaran kata Pembobotan yang digunakan pada penelitian ini adalah pembobotan sebaran kata. Input dari proses pembobotan sebaran kata adalah kata terpilih yang akan digunakan untuk membangun inverted index dari koleksi dokumen. Menurut Xia dan Chai (2011) pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu sebaran kata lokal(dalam suatu dokumen individu) dan sebaran kata global(dalam koleksi dokumen). Nilai bobot dari suatu kata terpilih adalah perkalian antara kedua pembobotan tersebut. Pembobotan Lokal Pembobotan lokal terdiri dari luas distribusi seragam kata ke-j pada dokumen (Uj) dan perluasan penyebaran kata ke-j pada dokumen (Sj). Pada pembobotan kata lokal terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu positif non linear. Artinya, kata yang luas distribusi seragam tinggi mempunyai bobot kata yang tinggi. Pada perhitungan luas distribusi seragam kata digunakan teori K.Pearson Chi Square dengan rumus: dengan m 2 = (v n ) 2 i=1 : frekuensi kata ke-j pada paragraf ke-i : frekuensi kata ke-j di dokumen : peluang kata ke-j ada di paragraf ke-i : frekuensi kata ke-j di paragraf ke-i jika kata ke-j tersebar Nilai yang rendah menyatakan kata ke j mendekati distribusi seragam. Nilai rendah tersebut bertentangan dengan hubungan distribusi seragam pada dokumen dan bobot kata, sehingga rumus distribusi seragam(u j ) adalah U j = 1 1 n 1 U j = (v -n )2 1 m i=1 n Pada perhitungan perluasan penyebaran kata (S j ) digunakan rumus: dengan : S j = l (1 ) : total paragraf yang mengandung term ke-j : total paragraf pada dokumen

11 3 Pembobotan lokal dari kata ke-j dalam dokumen d adalah d l =l (1 ) d l = l (1 l (1 ) ) 1 m (v i n ) 2 Pembobotan Global Pembobotan global terdiri atas luas distribusi seragam kata ke-j pada koleksi (U j ) dan perluasan penyebaran kata ke-j pada koleksi (S j ). Pada pembobotan global, terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu negatif non linear. Artinya, kata yang luas distribusi seragamnya tinggi mempunyai bobot kata yang rendah. Pada perhitungan luas distribusi seragam kata, digunakan teori K.Pearson Chi Square dengan rumus: dengan: m i=1 = (v n ) 2 i=1 : frekuensi kata ke-j pada dokumen ke-i : frekuensi kata ke-j di koleksi : peluang kata ke-j ada di dokumen ke-i : frekuensi kata ke-j di dokumen ke-i jika kata ke-j tersebar Nilai yang rendah menyatakan kata ke-j mendekati distribusi seragam. Nilai rendah tersebut sesuai dengan hubungan distribusi seragam pada koleksi dan bobot kata, sehingga rumus distribusi seragam(u j ) adalah U j = 1 n U j =1 (v -n ) 2 m i=1 Pada perhitungan perluasan penyebaran kata di koleksi (S j ), digunakan rumus: dengan : S j = l (1 ) : total dokumen yang mengandung term ke-j : total dokumen pada koleksi Pembobotan global dari kata ke-j dalam dokumen d adalah n d = l 2 (1 ) n Nilai menunjukkan penyebaran kata dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TFIDF, nilai ini dapat disetarakan dengan d t = l, N merupakan d t total dokumen di koleksi dan merupakan total adalah total dokumen yang mengandung kata ke-j. Oleh karena itu, nilai S j dapat dirumuskan sebagai S j = l (1 ).(2) sehingga bobot global kata ke-j dalam dokumen d adalah d = l (1 ) d = l (1. l (1 )) Oleh karena itu, pembobotan sebaran kata ke-j pada dokumen d adalah: W j,d = d l d.(3) Kesamaan dokumen dan kueri Hasil matriks term-dokumen dokumen dan kueri akan diukur kesamaannya menggunakan ukuran kemiripan kosinus (Cosine Similarity). Ukuran kemiripan kosinus yang digunakan menggunakan persamaan(4). Nilai pengukuran kesamaan pada sistem akan mengembalikan dokumen relevan menurut sistem. Ukuran kesamaan kosinus (cosine similarity) adalah sebuah model matematika yang digunakan untuk menghitung kesamaan antara kueri dan dokumen (Manning et al. 2008). Dokumen dan kueri dengan kata penciri digambarkan sebagai model vektor sehingga dapat dihitung kesamaannya (Salton 1989). Kueri dan dokumen dinyatakan dalam vektor sebagai berikut: Q ( wq 1, wq 2,, wqt) dan D w, w,, w ) i ( i1 i2 it dengan w qj dan w ij sebagai bobot istilah T j dalam kueri Q dan dokumen D i. Dengan demikian koefisien kesamaan antara kueri dan dokumen dapat diperoleh dengan rumus inner t product : sim(, )= w.w Namun dengan formula tersebut, dokumen yang lebih panjang dengan lebih banyak kata penciri memiliki kemungkinan lebih besar j=1

12 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i menjadi persamaan: sim(, )= t j=1 w.w t j=1 w 2. (4) Formula ini merepresentasikan kosinus sudut antara vektor kueri dan vektor dokumen sebagai vektor-vektor dalam ruang t dimensi, dengan t sebagai jumlah istilah unik dalam sistem (Salton 1989). Evaluasi Sistem. Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temukembali. Dua ukuran utama untuk keefektifan penemu kembalian yang telah digunakan sejak lama adalah recall dan precision (Salton 1989). Recall adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang relevan, sedangkan precision adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang ditemukembalikan. Tabel 1 Relevant dan retrieved documents Relevant non relevant retrieved true positive(tp) false positive(fp) Non retrieved false negative (fn) true negative(tn) Berdasarkan Tabel 1, recall (R) dan precision (P) dapat dinyatakan sebagai persamaan sebagai berikut: = t t dan = t t n...(5) Recall dan Precision dihitung berdasarkan persamaan(3). Average precision (AVP) dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza- Yates & Ribeiro-Neto 1999). Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat lunak: 1 Sistem operasi Windows 7 Professional sebagai sistem operasi, 2 PHP sebagai bahasa pemrograman, 3 XAMPP version sebagai web server, dan 4 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras: 1 Processor Intel Dual-Core 2.10 GHz 2 RAM 2 GB 3 Harddisk dengankapasitas 160 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Penelitian ini menggunakan 324 jurnal hortikultura yang berasal dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Deksripsi dokumen uji yang digunakan dapat dilihat pada Tabel 2. Gambar 2 dan Lampiran 2 menunjukkan contoh salah satu dokumen yang digunakan dalam penelitian. Tabel 2 Deskripsi dokumen uji Dokumen bytes Ukuran rata-rata dokumen 1329 Ukuran seluruh dokumen Ukuran dokumen terbesar 2866 Ukuran dokumen terkecil 445 Gambar 2 Contoh dokumen. Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML pada masingmasing dokumen. Tag XML yang digunakan dalam koleksi dokumen, yaitu: <DOC> <docid>dok001.txt</docid> <content>akhir-akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai.... </content> </DOC> <DOC></DOC>, mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih jelas.

13 5 <docid></docid>, menunjukkan ID dari dokumen tanaman obat. <content></content>, menunjukkan isi atau informasi dari dokumen. Jumlah kueri uji yang akan digunakan dalam penelitian ini adalah 15 kueri uji yang berasal dari Laboratorium Temu Kembali Informasi. Daftar kueri uji yang digunakan dapat dilihat pada Lampiran 1. Pengindeksan Dokumen Pemrosesan dokumen dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan stopword, dan pembobotan. Pembobotan yang dilakukan adalah pembobotan sebaran kata. Tokenisasi Tahap tokenisasi dilakukan pada fungsi get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi, penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen. Dokemen koleksi diproses secara sekuensial per karakter dari awal sehingga menghasilkan sebuah token. Tahapan untuk memperoleh token adalah sebagai berikut: 1 Sistem menggolongkan karakter menjadi 4 jenis, yaitu : a whitespace, berarti karakter ini merupakan karakter pemisah token b alpha, berarti karakter ini merupakan huruf c numeric, berarti karakter ini merupakan angka d other, berarti karakter ini tidak termasuk jenis-jenis a,b,dan c. 2 Sistem mengubah jenis karakter numeric dan other menjadi whitespace. 3 Sistem melakukan pemisahan kata berdasarkan whitespace. 4 Kata yang dianggap token adalah yang mempunyai panjang lebih dari dua. Pembuangan Stopword Pembuangan stopword dilakukan setelah proses tokenisasi pada dokumen koleksi. Prosesnya dengan melakukan perbandingan antara kata hasil tokenisasi dengan stopword. Jika terdapat stopword dalam daftar token, maka dilakukan penghapusan kata. Daftar stopword yang digunakan dalam penelitian ini diperoleh dari Herdi (2010) dan dilampirkan pada Lampiran 3. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan. Pembobotan Sebaran Kata Pembobotan yang dilakukan dalam skripsi ini adalah pembobotan sebaran kata. Pembobotan sebaran kata terdiri atas tiga tahap, yaitu pembobotan kata lokal, pembobotan kata global, dan perkalian antara lokal dan global. Pada tulisan ini, akan diberikan contoh 5 dokumen (dok001, dok002, dok003, dok006, dan dok248) dan 5 kata (organik, pupuk, kentang, tanaman, dan pertanian). Contoh tersebut digunakan untuk menggambarkan tahap pengerjaan dan hasil perhitungan pada penelitian ini. Pembobotan Kata Lokal Pembobotan kata lokal merupakan pencarian bobot kata berbasis sebaran pada suatu dokumen. Secara umum, bobot kata lokal terdiri atas 2 bagian, yaitu luas distribusi seragam kata (U j ) dan perluasan penyebaran kata (S j ) pada suatu dokumen. Untuk mengukur luas keseragaman sebaran kata digunakan teori K.Pearson Chi Square. Tahap awal yang dilakukan pada penelitian ini untuk mendapatkan hasil Chi Square adalah membuat paragraf dari isi dokumen yang ada. Proses pembuatan paragraf pada penelitian ini adalah parsing dokumen. Setiap paragraf berisi lima kalimat. Hasil dari proses parsing dokumen disimpan dalam parsing.txt. Parsing.txt digunakan sebagai input untuk mendapatkan frekuensi kata per paragraf pada setiap dokumen. Tabel 3 Contoh hasil parsing kalimat Jumlah Jumlah Dokumen Kalimat Paragraf dok dok dok dok dok Pada Tabel 3 dapat dilihat hasil parsing kalimat pada 5 dokumen contoh. Tabel 3 juga menggambarkan bahwa jumlah paragraf yang dihasilkan oleh dokumen beragam, mulai dari satu paragraf hingga empat paragraf tergantung jumlah kalimat yang dimiliki oleh dokumen. Proses selanjutnya adalah perhitungan peluang(r) dari setiap paragraf di suatu

14 6 dokumen. Peluang ditentukan dengan jumlah kata pada paragraf(c i ) dibagi jumlah token pada dokumen(c m ). Hasil perhitungan dari 5 contoh dokumen dapat dilihat pada Tabel 4. Pada dok002, paragraf 2 memiliki jumlah kata lebih banyak sehingga peluang(r) paragraf 2 lebih besar dari paragraf lain. Dokumen yang hanya memiliki 1 paragraf(dok003), maka peluang(r) paragraf tersebut adalah 1. Pada dok248, paragraf 1 dan 3 memiliki jumlah kata yang sama, sehingga dihasilkan peluang(r) yang sama. Tabel 4 Hasil perhitungan peluang(r) Jumlah Dokumen Paragraf Kata dok dok dok dok dok Perhitungan selanjutnya adalah frekuensi kata pada setiap paragraf(v), dan dokumen(n). Hasil perhitungan dok001 pada kata organik, pupuk, kentang, tanaman, dan pertanian dapat dilihat pada Tabel 5. Nilai v, n, dan r digunakan untuk menghitung nilai chi-square. Tabel 5 Hasil perhitungan v dan n pada dokumen dok001 Kata v 1 v 2 v 3 n chi j organik pupuk kentang tanaman pertanian Kata organik mempunyai nilai chisquare(chi j ) yang terendah. Nilai terendah tersebut menyatakan kata organik mendekati distribusi seragam, dan memiliki nilai distribusi seragam(u j ) yang tinggi. Terbukti r pada Tabel 6 organik memiliki nilai U yang terbesar. Pada perhitungan perluasan penyebaran kata(s j ) sebuah kata, harus dilihat kata tersebut tersebar di dokumen atau tidak. Nilai yang diperlukan adalah total paragraf yang mengandung kata tersebut(p) dan total paragraf pada dokumen(n). Berdasarkan Tabel 5 kata organik dan kentang merupakan kata yang tersebar di ke-3 paragraf sehingga nilai S adalah 1. Proses terakhir tahap ini adalah perhitungan bobot kata lokal pada setip kata j ( ( )). Hasil tahap ini berupa lokal.txt yang digunakan pada tahap selanjutnya. Hasil perhitungan bobot kata lokal dapat dilihat pada Tabel 6. Kata organik mendapat nilai tertinggi, artinya organik merupakan kata penting dalam dokumen dok001. Sebaliknya pada kata pertanian mendapat nilai terendah, artinya pertanian bukan merupakan kata penting dalam dokumen dok001. Tabel 6 Hasil perhitungan U j, S j, dan bobot lokal pada dokumen dok001 Kata U j S j Lokal organik pupuk kentang tanaman pertanian Tabel 7 Perbandingan hubungan distribusi dan bobot lokal Kata p n U j Lokal organik pupuk kentang tanaman pertanian Pada Xia dan Chai (2011), hubungan antara luas distribusi seragam dan bobot kata pada suatu dokumen adalah korelasi positif non linear. Pada penelitian ini hal tersebut terbukti pada kata organik yang memiliki luas distribusi seragam yang tinggi dan bobot lokal yang dihasilkan juga tinggi. Hasil perbandingan hubungan distribusi seragam dan bobot kata tersebut dapat dilihat pada Tabel 7.

15 7 Pembobotan Global Proses pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Secara umum, bobot kata global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata(u j ) dan perluasan penyebaran kata(s j ) pada koleksi dokumen. Untuk mengukur luas keseragaman sebaran kata digunakan teori K.Pearson Chi Square. Tahap awal perhitungan chi-square pada pembobotan kata global adalah proses perhitungan peluang dari setiap dokumen di koleksi apabila kata menyebar(r ). Hasil peluang didapat dari pembagian jumlah kata di dokumen(c i ) dibagi jumlah kata di koleksi(c m ). Tabel 8 merupakan hasil perhitungan peluang(r ) pada 5 dokumen contoh. Jumlah kata yang dimiliki oleh seluruh koleksi adalah kata. Nilai pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen dok248 memiliki jumlah kata terbanyak, sehingga peluang(r ) dok248 memiliki nilai tertinggi. Sebaliknya untuk dokumen dok003 memiliki jumlah kata terkecil sehingga peluang(r ) dok248 memiliki nilai terkecil. Tabel 8 Hasil perhitungan peluang(r ) Dokumen Jumlah kata dok dok dok dok dok Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen(v ), dan frekuensi kata pada suatu koleksi(n ). Nilai r, v dan n digunakan untuk menghitung nilai chi-square dari koleksi dokumen. Hasil perhitungan v, n, dan chi-square dari 5 contoh kata dapat dilihat pada Tabel 9. Tabel 9 Hasil perhitungan n, ch, dan U j Kata n' ch U' organik pupuk kentang tanaman pertanian Kata pertanian mempunyai nilai chisquare(chi) yang terendah. Nilai terendah menyatakan token pertanian mendekati distribusi seragam. Artinya untuk nilai chisquare(chi) yang rendah akan mendapat nilai distribusi seragam(u j ) yang rendah. Terbukti pada Tabel 9 organik memiliki nilai U yang terkecil. Pada perhitungan perluasan penyebaran kata pada koleksi dokumen(s j ), sebuah kata harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total dokumen yang mengandung kata tersebut(p ) dan total seluruh dokumen pada koleksi( ). Pada Tabel 10, kata tanaman berada pada 274 dokumen dengan total koleksi 324 dokumen. Oleh karena itu, tanaman memperoleh nilai yang kecil artinya koleksi tersebut tersebar di koleksi dokumen. Tabel 10 Hasil perhitungan p, dan S j dengan =324 Kata p' S j ' organik pupuk kentang tanaman pertanian Tabel 11 Hasil perhitungan U j, S j dengan persamaan(2) dan bobot global Kata U j ' S j ' Global organik pupuk kentang tanaman pertanian Proses terakhir tahap ini adalah perhitungan bobot kata lokal pada setiap kata ( ( )). Hasil tahap ini berupa global.txt yang digunakan pada tahap selanjutnya. Hasil perhitungan bobot kata global dapat dilihat pada Tabel 11. Kata organik mendapat nilai global lebih tinggi, artinya organik merupakan kata lebih penting dalam koleksi dibandingkan pupuk, kentang, tanaman, dan pertanian. Pada Tabel 11, kata tanaman yang mempunyai frekuensi tinggi dan penyebarannya luas mendapatkan hasil perhitungan bobot yang rendah sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011).

16 8 Berbeda dengan hasil pembobotan global dengan perhitungan pada Tabel 12, kata tanaman organik tidak mendapat bobot tinggi. Tabel 12 merupakan hasil perhitungan pembobotan global dengan perhitungan S j menggunakan persamaan(1). Nilai terbesar diperoleh kata tanaman. Hal tersebut terjadi karena dengan persamaan(1), kata yang menyebar pada banyak dokumen dikoleksi menghasilkan yang tinggi sehingga tanaman mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011) sehingga, pada tahap selanjutnya digunakan hasil pada Tabel 11, yaitu dengan perhitungan S j menggunakan persamaan (2). Tabel 12 Hasil perhitungan U j, S j dengan persamaan(1) dan bobot Global Kata U j ' S j ' Global organik pupuk kentang tanaman pertanian Pada Xia dan Chai (2011), hubungan antara luas distribusi seragam dan bobot kata pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada kata tanaman yang memiliki luas distribusi seragam yang tinggi dan bobot global yang rendah. Hasil perbandingan hubungan distribusi seragam dan bobot tersebut dapat dilihat pada Tabel 13 Tabel 13 Perbandingan hubungan distribusi seragam dan bobot global Kata n' p' Global organik pupuk kentang tanaman pertanian Perkalian antara lokal dan global Tahap terakhir dalam pembobotan persebaran kata adalah perhitungan nilai keseluruhan pembobotan persebaran kata. Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan lokal dan pembobotan global menggunakan persamaan(3). Hasil dari tahap ini disimpan dalam lokalglobal.txt. Hasil perhitungan pembobotan sebaran kata dapat diliihat pada Tabel 14. Berdasarkan pembobotan sebaran kata, organik memiliki nilai tertinggi pada dokumen dok001. Oleh karena itu, organik merupakan kata penciri dari dokumen dok001. Tabel 14 Hasil perhitungan bobot lokal, global, dan sebaran kata pada dok001 Kata Lokal Global Sebaran Kata organik pupuk kentang tanaman pertanian Kesamaan Dokumen dan Kueri Metode yang digunakan untuk pengukuran kesamaan adalah ukuran kesamaan kosinus. Pada tahap awal dalam pengukuran kesamaan dokumen, diperlukan kueri yang di masukkan ke dalam sistem oleh pengguna. Kueri diterima oleh sistem, dan dilakukan perubahan menjadi vektor kueri. Tahap selanjutnya adalah proses perhitungan kesamaan antara vektor dokumen dan kueri yang diimplementasikan menggunakan persamaan(4). Pengujian Kinerja Sistem Proses evaluasi dalam penelitian ini dilakukan pada koleksi jurnal hortikultura. Proses evaluasi pada koleksi jurnal hortikultura menggunakan 15 kueri uji yang terdapat pada Laboratorium Information Retrieval. Daftar kueri uji dan dokumen relevan yang digunakan pada penelitian ini terdapat pada Lampiran 1. Pencarian dengan kueri uji ini dilakukan dengan melakukan pengukuran recallprecision dari sistem. Recall adalah rasio dokumen relevan yang ditemukembalikan dan precision adalah dokumen relevan yang ditemukembalikan. Perhitungan recall dan precision menggunakan persamaan(5). Hasil dari evaluasi recall precision masing-masing kueri diinterpolasi maksimum untuk mencari nilai average precision (AVP) dan digambarkan dalam bentuk grafik serta tabel. Proses evaluasi yang dilakukan pada penelitian ini menggunakan kode program

17 9 dari Putra (2011) dengan modifikasi oleh penulis. Gambar 3 merupakan grafik dari 11 titik recall yang dihitung menggunakan interpolasi maksimum. Hasil temu kembali informasi menghasilkan nilai average precision (AVP) sebesar yang artinya secara rata-rata pada tiap titik recall, 84.8% hasil temukembali relevan dengan kueri. precision recall Gambar 3 Grafik recall precision. Perbandingan Hasil Uji Kueri Pada tahap evaluasi penelitian ini, dilakukan beberapa perbandingan hasil temu kembali pada kueri uji, yaitu perbandingan pembobotan sebaran kata menggunakan parsing 3, 4, dan 5 kalimat, serta perbandingan pembobotan sebaran kata dengan TFIDF. Penentuan jumlah kalimat pada pembuatan sebuah paragraf diduga akan mempengaruhi kinerja sistem dalam proses temu kembali dokumen. Penelitian ini melakukan 3 percobaan, yaitu membuat parsing kalimat sebanyak 3, 4, dan 5 kalimat per paragraf. Proses parsing pada penelitian ini merupakan tahap awal pada pembobotan lokal. Kinerja sistem pembobotan sebaran kata dengan parsing 3, 4, dan 5 kalimat memiliki hasil AVP yang berbeda. Perbedaan hasil AVP dapat ditunjukan oleh Tabel 13. AVP sistem dengan parsing sebanyak 3 kalimat sebesar 0.785, 4 kalimat sebesar 0.803, dan 5 kalimat sebesar Pada Lampiran 4, 5 dan 6 dapat dilihat nilai AVP pada masingmasing kueri untuk parsing 3, 4, dan 5 kalimat. Pada Tabel 15 terlihat bahwa AVP sistem yang melakukan parsing 5 kalimat per paragraf memiliki nilai yang lebih tinggi, yaitu atau 84,8%. Hal tersebut disebabkan oleh parsing 5 kalimat membuat setiap paragraf akan memiliki jumlah kalimat yang lebih banyak sehingga bobot dari kata penanda dokumen akan semakin bertambah. Selain itu, pada parsing 5 kalimat, dokumen harus memiliki jumlah kata yang banyak. Pada dokumen yang jumlah katanya sedikit, parsing 5 kalimat kinerjanya menurun, terlihat pada kueri hama pengerek, lalat buah, dan pupuk npk. Pada kueri tersebut lebih cocok menggunakan parsing 3 atau 4. Karena parsing 3 atau 4 kalimat, paragraf akan lebih banyak dan kata penciri lebih tersebar, sehingga bobot meningkat. Tabel 15 Perbedaan hasil AVP untuk proses parsing 3, 4, dan 5 kalimat Jumlah kalimat per Kueri paragraf cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Average precision(avp) Kinerja sistem pembobotan sebaran kata dan TFIDF menghasilkan output yang berbeda. Secara umum, sistem sebaran kata menghasilkan AVP sebesar 0.848, sedangkan TFIDF menghasilkan AVP sebesar Pada penelitian ini, dapat dikatakan hasil pembobotan sebaran kata lebih tinggi. Perbandingan nilai AVP dari sebaran kata dan TFIDF dapat dilihat pada Gambar 4. Pada Lampiran 6 dan 7 dapat dilihat nilai AVP pada masing-masing kueri uji untuk pembobotan sebaran kata dan TFIDF. Tabel 16 merupakan hasil perbandingan dari 15

18 10 precision kueri yang dimasukkan ke sistem sebaran kata dan TFIDF recall TFIDF Sebaran Kata Gambar 4 Perbandingan pembobotan sebaran kata dan TFIDF. Tabel 16 Perbandingan 15 kueri pada sistem Kueri Sebaran Kata TFIDF cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Average precision(avp) Berdasarkan Tabel 16, sistem pembobotan berdasarkan sebaran kata memiliki hasil yang lebih baik dari TFIDF. Namun, terdapat beberapa kueri dari sistem TFIDF yang memiliki nilai yang lebih baik dari sebaran kata. Kueri tersebut adalah kultur in vitro, hama pengerek, pupuk npk, dan lalat buah. Hal tersebut disebabkan oleh jumlah kata yang terdapat pada gugus jawaban dari kueri tersebut sedikit. Jumlah kata yang sedikit berakibat pada sedikitnya jumlah paragraf pada dokumen dan mengakibatkan kata penciri pada dokumen tidak tersebar. Pada penelitian ini, penciri yang tidak tersebar menyebabkan penciri dokumen mendapatkan bobot yang kecil dan kinerja sistem menurun. Simpulan SIMPULAN DAN SARAN Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa: 1 Hasil akurasi sistem pembobotan sebaran kata lebih dari 80% dengan parsing 5 kalimat per paragraf. 2 Akurasi hasil pembobotan sebaran kata lebih besar dibandingkan pembobotan TFIDF untuk koleksi dokumen jurnal hortikultura, dengan sebaran kata 84.8% dan TFIDF 83.2%. Saran Pada penelitian ini, perhitungan pembobotan berdasarkan sebaran kata dilakukan pada seluruh token yang terdapat pada suatu dokumen maupun pada suatu koleksi. Pada penelitian selanjutnya, diharapkan adanya pemilihan fitur sehingga hanya token tertentu yang dipilih untuk proses perhitungan. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. New York: Addison-Wesley. Herdi H Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework Indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge: Cambridge University Press. Putra DDP Temu kembali model Extended Boolean menggunakan P-Norm Model dan Belief Revision [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Ridha A Pengindeksan otomatis dengan istilah tunggal untuk dokumen bahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu

19 11 Pengetahuan Alam, Institut Pertanian Bogor. Salton G Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Boston: Addison-Wesley. T. Xia, Y. Chai An improvement to TF-IDF: Term distribution based Term Weight Algorithm. Journal of Software 6:

20 LAMPIRAN

21 13 Lampiran 1 Daftar kueri uji dan dokumen yang relevan Kueri Uji cabai merah buah tropika padi budidaya anggrek Dokumen Relevan dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt, dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, dok283.txt dok025.txt, dok064.txt, dok079.txt, dok104.txt, dok106.txt, dok111.txt, dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt, dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok238.txt, dok264.txt, dok286.txt, dok296.txt, dok301.txt dok011.txt, dok089.txt, dok108.txt, dok243.txt dok023.txt, dok110.txt, dok186.txt kultur in vitro dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt, dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt, dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt, dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt, dok324.txt dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt dok051.txt, dok053.txt, dok065.txt, dok069.txt, dok076.txt, dok108.txt, dok137.txt, dok145.txt, dok315.txt dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok056.txt, dok087.txt, dok100.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt, dok189.txt, dok194.txt, dok244.txt dok075.txt, dok099.txt, dok107.txt, dok125.txt, dok193.txt, dok199.txt, dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt dok024.txt, dok080.txt, dok324.txt dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt, dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt, dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt, dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt, dok229.txt, dok248.txt, dok286.txt dok058.txt, dok297.txt, dok313.txt, dok316.txt

22 14 Lampiran 2 Contoh dokumen koleksi pengujian <DOC> <docid>dok001.txt</docid> <content> Akhir akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai ekonomi tinggi. Produksi umbi kentang di Indonesia masih rendah sehingga diperlukan upaya untuk menaikkan produksi dan mutu umbi. Kendala yang dihadapi petani kentang di dataran medium pada lahan sawah adalah kandungan bahan organik tanah rendah. Percobaan ini dilaksanakan pada musim kemarau di daerah Magelang. Percobaan ini bertujuan untuk mempelajari pengaruh dari macam dan dosis pupuk organik terhadap pertumbuhan dan hasil tanaman kentang pada kondisi tersebut. Perlakuan terdiri atas dua faktor, yaitu lima macam pupuk organik dan lima macam dosis pupuk organik. Rancangan yang digunakan adalah split plot dengan tiga ulangan. Perlakuan macam pupuk organik sebagai petak utama dan dosis pupuk organik sebagai anak petak. Hasil penelitian menunjukkan bahwa penggunaan pupuk organik meningkatkan pertumbuhan vegetatif dan hasil kentang. Penggunaan pupuk kandang kambing memberikan hasil yang tertinggi dibandingkan dengan perlakuan yang lainnya. Implikasi dari hasil penelitian ini menunjukkan bahwa limbah pertanian/bahan organik dapat meningkatkan produksi kentang. </content> </DOC>

23 15 Lampiran 3 Daftar stopword acapkali apalagi begini berikut bukankah ada apalah beginilah berikutnya bukanlah adakah apanya begitu berjumlah bukannya adakan apapun begitulah berkat buktikan adalah arti begitupula berkenaan cara adanya artian begitupun berkesan cerita adapun artinya belakang berkesempatan ceritanya aduh asalan belakangan berkesimpulan contoh agak asalkan belum berlalu contohkan agaknya asumsi belumlah berlalunya contohnya agar asumsinya benar berlama cukup aja atas benarkah berlangsung Cuma akalan atasnya benarnya bermula daerah akan atau berada bersama dahulu akankah ataukah berakhir bersamaan dalam akhir ataupun berakhirnya bertepatan dan akhirnya awal berakibat beruntun dapat akibat bagai berakibatkan berupa dapatkah akibatkan bagaikan beralasan besarnya dapatkan akibatnya bagaimana beralih beserta dapatlah aku bagaimanakah beralihnya besok dari ala bagaimanapun beranggapan besoknya darinya alangkah bagi berapa betapa daripada alasan baginya berapanya biar dekat alasannya bagus berapapun biarlah dekatnya alih bagusnya berarti biasa demi alihkan bahkan berasumsi biasanya demikian amat bahwa berbagai bicarakan demikianlah amatlah baik berbagi bicaranya dengan ambil baiknya berbanding bila dengannya anda balik berbeda bilamana depan andai banding berdampak bilang depannya anggap bandingkan berdasarkan bisa di anggapan banyak berhadapan bisakah dia antar banyaknya berharap bisanya dialah antara barangkali berhubung boleh dialami antaranya baru berhubungan boro dialihkan apa bawah beri buat diambil apabila bawahnya berikan buatnya diambilkan apakah beberapa berikanlah bukan diambilnya

24 16 Lanjutan dianggap dimulailah haruslah kapan lakukan diantara dimulainya harusnya karena lalu diantaranya dimungkinkan hendak karenanya lalui diapakan dipaparkan hendaklah kata lama dibagi dipersilahkan hendaknya katakan lanjut dibagikan disaat hingga katakanlah lantaran dibeberapa disebabkan how katanya lantas diberbagai disejumlah ialah kau lebih diberi diseluruh ingin kayak lepas diberikan disertai ini kayaknya lewat diberinya disertakan inilah ke lokasi dibiarkan disimpulkan inipun kebanyakan maka dibiasakan disitulah itu kebetulan makin dibilang ditanggapi itulah kebiasaan mampu dicontoh ditanya itupun kecil mampukah dicontohkan ditanyakan iya kecuali mampunya dicontohkannya dituturkan jadi kemana mana didapat diucapkan jadikan kemanakah manakala didapati dkk jadilah kembali manalagi didapatkan dll jadinya kemudian manapun didapatnya dsb jangan kemungkinan masa didasarkan dua jarang kemungkinannya masih digolongkan dulu jauh kenapa masihkah digunakan dulunya jelaskan kenapakah masing diharapkan empat jika kepada masuk dijadikan enggak jikalau kepadanya masyarakat dijadikannya engkau juga kepala mau dikarenakan esok jumlah ketika maupun dikasih gimana jumlahnya ketimbang melainkan dikata habis justru khususnya melakukan dikatakan habisan juta kini melalui dikatakannya habiskan kabupaten kita melihat dikategorikan habisnya kadang kondisi memang dikembangkan hal kalau kurang memaparkan diketahui hampir kalaupun lagi membagi diketahuinya hanya kali lagian membagikan dilaksanakan hanyalah kalian lagipula memberi dilakukan hari kami lain memberikan dimana harus kamu lainnya memberinya dimulai haruskah kan laksana membiarkan

25 17 Lanjutan membolehkan menuju paparan sambil segera membuat menunjukkan paparkan sambutannya sehabis memeperoleh menurut paparnya sampai seharusnya memiliki menurutnya para sana seharusnyalah meminta menuturkan pasti sang sehingga memperbolehkannya menyatakan pastilah sangat sehubungan mempersilahkan menyebabkan pastinya sangatlah sejak mempunyai menyebutkan pelak satunya sejauhmana memungkinkan menyia pelbagai saya sejumlah menanggapi mereka pemaparan sayangnya sekalian menanggapinya merupakan pembagian seakan sekaligus menanyakan meski pembagiannnya seandainya sekalipun mencapai meskipun pendapat seantero sekarang mencontohkan mesti pengalihan sebab sekata mendapat mestinya pengambil sebabkan sekedar mendapati misal pengambilan sebabnya sekeliling mendapatkan misalkan pengandaian sebagai seketika mendapatkannya misalnya per sebagaimana sekian menerus mudah peralihan sebagainya sekitar mengada mula percuma sebagian selagi mengaku mulai peri sebaik selain mengalami mulainya perihal sebaiknya selalu mengalihkan mulanya perlahan sebaliknya selama mengambil muncul perlu sebanyak selanjutnya mengambilnya mungkin pernah sebelum selesai menganggap mungkinkah persen sebelumnya selesaikah menganggapnya namun pertamanya sebenarnya seluruh mengapa nanti pinggir seberapa seluruhnya mengatakan negara pula seberat semakin mengembangkan nilai pulalah sebesar semampunya mengenai nyaris pun sebetulnya semenjak menggunakan nyiakan rata sebuah sementara mengungkapkan oleh relevankah secara semestinya meningkat orang rendah sedalam semisal meningkatkan pada saat sedang semoga menjadi padahal saatnya sedangkan semua menjadikan padanannya saatnyalah sedapat semuanya menjadikannya paling saja sedemikian semula menjelang panjangnya salah sedikit seolah menjelaskan papar sama sedikitnya seorang

26 18 Lanjutan seorangpun sia tergolong untuk sepadan sialnya terhadap usah sepanjang siap terjadi usahlah sepasang siapa terjadilah usai sepele siapakah terjadinya usianya sependapat siapapun terkadang waktu seperti silahkan terkait waktulah sepertinya singkatnya terkecuali waktunya seputar sini terlalu walau seraya sinilah terlebih walaupun serba situ termasuk warga serentak sosok ternyata yaitu sering sosoknya tersebut yakni seringkali suatu tertentu yang seringkalinya sudah terus seringlah sulit tetap seringnya sungguh tetapi serta sungguhpun tiap sertanya supaya tiba sesaat tak tidak sesama tambahnya tidaklah sesamamu tanggapan tidaknya sesedikit tanggapannya tiga seseorang tanggapnya tinggi sesuai tanpa tutur sesuatu tapi tuturnya sesuatunya tatkala ucap sesudah telah ucapan sesudahnya tempat ucapannya sesukanya tengah ucapkan sesungguhnya tentang ucapnya setelah tentu ujar setelahnya tentunya ujarnya seterusnya tepatnya umpamanya setiap terbagi umum setidak terbalik umumnya setidaknya terbiasa ungkap seusai terbilang ungkapan sewaktu terdapat ungkapkan seyogyanya terdapat ungkapnya

27 Lampiran 4 Daftar AVP masing-masing kueri pada pengujian parsing 3 kalimat Kueri Uji Titik Recall cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Rata-rata interpolasi maksimum AVP

28 Lampiran 5 Daftar AVP masing-masing kueri pada pengujian parsing 4 kalimat Kueri Uji Titik Recall cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Rata-rata interpolasi maksimum AVP

29 Lampiran 6 Daftar AVP masing-masing kueri pada pengujian parsing 5 kalimat Kueri Uji Titik Recall cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Rata-rata interpolasi maksimum AVP

30 Lampiran 7 Daftar AVP masing-masing kueri pada pengujian pembobotan TFIDF Kueri Uji Titik Recall cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Rata-rata interpolasi maksimum AVP

31 23 Lampiran 8 Antarmuka halaman utama sistem pencarian jurnal hortikultura Lampiran 9 Antarmuka hasil pencarian Lampiran 10 Antarmuka pemilihan dokumen

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt LAMPIRAN 13 Lampiran 1 Daftar kueri uji dan dokumen yang relevan Kueri Uji cabai merah buah tropika padi budidaya anggrek Dokumen Relevan dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt,

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

Lampiran 1 Contoh koleksi dokumen. <DOC> <DOCNO>gatra </DOCNO> <TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE> <AUTHOR>Tma,

Lampiran 1 Contoh koleksi dokumen. <DOC> <DOCNO>gatra </DOCNO> <TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE> <AUTHOR>Tma, LAMPIRAN 11 12 Lampiran 1 Contoh koleksi dokumen. gatra230103-002 Semarang Kembangkan Sapi Potong Gemuk Tma, Ant 23 Januari 2003

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dipaparkan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan laporan. 1.1 Latar Belakang

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Identifikasi Masalah Merumuskan Masalah Study Literatur Perancangan Struktur Menu Interface Analisa

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian menjelaskan bagaimana langkah-langkah atau tahapan-tahapan yang akan dilakukan dalam penelitian agar rumusan masalah penelitian dapat terselesaikan.

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN JB Budi Darmawan Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi (TKI) Information Retrieval (IR) Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently

Lebih terperinci