MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

Ukuran: px
Mulai penontonan dengan halaman:

Download "MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI"

Transkripsi

1 MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

2 MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

3 ABSTRACT SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO. Current users tend to like search engine based on semantic of word. This is caused by the existence of synonymy and polysemy problems in the selection of the use of the word. One technique to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant documents even if the word of the query are not written in the document. Currently, TF-IDF term weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document collection, the term with higher frequency and hypo-dispersion distribution usually contains less information. The purpose of this research is to implement LSI using Singular Value Decomposition (SVD) method with term distribution based global term weight. This research used 1000 Indonesian agricultural documents. The performance of search engine using LSI with term-distribution-based global term weight gave highest average precision around 40.47%. The test result also showed that LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF. Keyword: Latent Semantic Indexing, Singular Value Decomposition, Term Distribution based Global Term Weighting

4 Judul Skripsi Nama NRP : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic Indexing dengan Pembobotan Global : Susi Handayani : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: an. Ketua Departemen Ilmu Komputer Sekretaris Ahmad Ridha S.Kom, MS NIP Tanggal Lulus:

5 KATA PENGANTAR Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan karunia-nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada: Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga penulis dapat menyelesaikan tugas akhir ini. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini. Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji. Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik. Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita, Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat diselesaikan. Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi. Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini. Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat. Bogor, September 2012 Susi Handayani

6 RIWAYAT HIDUP Penulis dilahirkan di Bekasi pada tanggal 5 April Penulis merupakan anak kedua dari dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa Ilmu Komputer (Himalkom) sebagai sekretaris Komunitas PHP pada tahun Penulis juga aktif mengikuti beberapa kegiatan kepanitiaan, antara lain Dies Natalis KMB IPB 2008, FOTRANUSA 2008, MPD 2010, Pesta Sains Nasional 2010, dan IT TODAY Penulis juga melakukan Praktik Kerja Lapang di PPPTMGB LEMIGAS pada tahun 2011.

7 DAFTAR ISI Halaman DAFTAR TABEL... vi DAFTAR GAMBAR... vi DAFTAR LAMPIRAN... vi PENDAHULUAN... 1 Latar Belakang... 1 Tujuan Penelitian... 1 Ruang Lingkup Penelitian... 1 METODE PENELITIAN... 1 Praproses... 1 Matriks Term-Dokumen... 3 Singular Value Decomposition (SVD)... 3 Pengolahan Kueri... 3 Ukuran Kemiripan... 3 Evaluasi... 4 Lingkungan Implementasi... 4 HASIL DAN PEMBAHASAN... 4 Koleksi Korpus... 4 Praproses... 5 Pembobotan... 5 Matriks Term-Dokumen... 7 Singular Value Decomposition... 7 Pengolahan Kueri... 7 Pengukuran Kemiripan... 8 Pengujian Kinerja Sistem... 8 SIMPULAN DAN SARAN... 9 Simpulan... 9 Saran... 9 DAFTAR PUSTAKA... 9 LAMPIRAN v

8 DAFTAR TABEL Halaman 1 Confusion matrix Deskripsi dokumen uji Hasil perhitungan peluang (r) Hasil perhitungan n, chi, dan U pada 5 term contoh Hasil perhitungan p dan S pada 5 term contoh Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) Perbandingan hubungan distribusi term dengan bobot global Hasil perhitungan TF, global, dan bobot kata pada jurnal Matriks A sebelum didekomposisi Matriks A setelah didekomposisi dan direduksi dengan k = Hasil perhitungan average precision pada setiap nilai k Rata-rata waktu pencarian pada setiap nilai k... 9 DAFTAR GAMBAR Halaman 1 Metode penelitian Matriks term-dokumen Matriks A yang telah didekomposisi Matriks A yang telah didekomposisi dan direduksi Contoh dokumen pertanian Format dokumen setelah pembuangan tag Sebelas tingkat recall standar pada dokumen pertanian DAFTAR LAMPIRAN Halaman 1 Antarmuka sistem Daftar stopwords Gugus kueri dan jawaban untuk dokumen pertanian Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = Grafik perbandingan average precision LSI TF-IDF dengan LSI Global...24 vi

9 1 Latar Belakang PENDAHULUAN Mesin pencari (search engine) memegang peranan penting dalam pencarian informasi. Kebanyakan mesin pencari hanya membandingkan isi dari dokumen terhadap kueri berdasarkan kata kunci yang tersedia berupa statistik kemunculan kata. Masalah akan muncul pada saat sebuah kata yang secara statistik berbeda tetapi memiliki makna yang sama (sinonim). Hal ini mengakibatkan recall yang rendah karena mesin pencari akan mengembalikan dokumen yang sedikit. Masalah lain ialah apabila ada satu kata yang secara statistik sama tetapi memiliki banyak makna (polisemi) yang akan menghasilkan nilai precision yang rendah karena mesin pencari akan mengembalikan dokumen yang tidak sesuai dengan keinginan pengguna. Hal ini dapat mengakibatkan kinerja mesin pencari menjadi kurang baik karena tidak memperhatikan kata secara semantik (Deerwester et al. 1990). Deerwester et al. (1990) mengungkapkan bahwa upaya untuk mengatasi sinonim saat ini ialah dengan ekspansi kata secara otomatis atau pembentukan tesaurus. Kekurangan dari metode ini ialah kata yang ditambahkan mungkin akan memiliki makna yang berbeda dari yang dimaksudkan oleh pengguna yang akan menyebabkan efek polisemi. Pendekatan lainnya untuk mengatasi permasalahan ini ialah menggunakan Latent Semantic Indexing (LSI) dengan pendekatan ruang vektor. LSI adalah suatu teknik yang memetakan kueri dan dokumen ke dalam suatu ruang yang disebut Latent Semantic Space. Dalam Latent Semantic Space, suatu kueri dan suatu dokumen dapat memiliki nilai kesamaan yang tinggi walaupun kueri dan dokumen tersebut tidak memiliki term yang sama. Selama term tersebut mirip secara semantik, nilai kesamaan yang dihasilkan akan tinggi. Pada dasarnya, LSI menggunakan teknik Singular Value Decomposition (SVD) untuk mendekomposisikan matriks termdokumen. Dengan mengurangi ruang term dan dokumen menjadi dimensi yang lebih kecil, SVD menampakkan hubungan yang mendasari term dan dokumen dalam semua kombinasi yang memungkinkan dan membuang noise yang ada pada ruang vektor (Deerwester et al. 1990). Penelitian mengenai LSI yang sudah dilakukan antara lain Geiss (2006) yang menerapkan LSI pada mesin pencari BoSSE, dan Maulizar (2011) yang mengimplementasikan Singular Value Decomposition (SVD) dan Semi Discrete Decomposition (SDD) pada sistem temu kembali dokumen bahasa Indonesia. Umumnya penelitian tersebut menggunakan TF-IDF yang memberikan bobot yang sama pada sebuah term di mana pun posisi term di dalam dokumen. Untuk meningkatkan akurasi sistem, Xia dan Chai (2011) mengungkapkan bahwa pada suatu koleksi dokumen, term yang mempunyai frekuensi tinggi dan penyebarannya luas diberi bobot lebih rendah. Oleh karena itu, penelitian ini mengimplementasikan LSI menggunakan pembobotan global dengan memperhatikan sebaran kata. Tujuan Penelitian Tujuan penelitian ini ialah mengimplementasikan Latent Semantic Indexing dengan pembobotan global ke dalam mesin pencari dokumen bahasa Indonesia. Ruang Lingkup Penelitian Ruang lingkup dalam penelitian ini antara lain: Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. Kesalahan pengetikan di dalam korpus tidak diperhatikan. Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di Laboratorium Temu-Kembali Informasi (TKI). METODE PENELITIAN Tahapan penelitian ini dapat dilihat pada Gambar 1. Tahap offline hanya dilakukan satu kali, terdiri atas pengumpulan korpus, praproses, pembuatan matriks term-dokumen, dan pengolahan SVD. Praproses Praproses terdiri atas tokenisasi, pembuangan stopwords, dan pembobotan kata (Manning et al. 2008). Tokenisasi adalah suatu proses pemisahan (parsing) kalimat ke dalam unit-unit yang lebih kecil yang disebut token. Hal ini dilakukan dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada

10 2 dokumen dan mengubah kata menjadi lowercase. Stopwords merupakan kata-kata yang dianggap tidak memiliki makna dan akan dibuang serta tidak ikut diproses pada tahap selanjutnya. Pada umumnya, kata-kata dalam stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Offline Korpus Kueri sebuah dokumen d dan dinotasikan dengan tf t,d. Pembobotan tf memiliki kekurangan, yaitu semua kata dianggap penting ketika dihubungkan dengan relevansi kueri. Padahal, beberapa kata cenderung tidak relevan. Untuk mengurangi pembobotan suatu kata, digunakan document frequency (df) yang dinotasikan df t, yaitu jumlah dokumen dalam koleksi yang berisi kata t. Total seluruh dokumen dinotasikan dengan N, maka ditetapkan inverse document frequency (idf) dari sebuah kata t yang disebut juga sebagai pembobotan global yaitu: idf t = log (1) Pada akhirnya, nilai bobot TF-IDF dari suatu kata adalah perkalian antara kedua pembobotan tersebut. Pembobotan Praproses Matriks Term- Dokumen (A) SVD A = T S D T Ranked Document Praproses Vektor Kueri Mengukur kemiripan antara dokumen dan kueri Evaluasi Gambar 1 Metode penelitian. Menurut Manning et al. (2008), pembobotan lokal atau term frequency (tf) adalah jumlah kemunculan setiap term t dalam Pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu penyebaran kata dalam suatu dokumen individu (lokal) dan koleksi dokumen (global). Setiap term yang terdistribusi secara intensif di dalam beberapa dokumen harus diberikan bobot yang tinggi, karena term tersebut cenderung mewakili topik dokumen, sedangkan term yang terdistribusi seragam dan sering digunakan dalam setiap dokumen harus diberikan bobot yang rendah. Dari analisis ini, sebaran kata berdasarkan algoritme global term weight terdiri atas dua bagian yaitu U (Uniform Distribution Extent) dan (Spread Extension). Nilai U menunjukkan luas keseragaman penyebaran kata ke-j dan S adalah persebaran dari kata ke-j pada koleksi (Xia & Chai 2011). dengan p U = 1 + ( ) S = log 2 (1+ ) (2) : frekuensi kata ke-j di dokumen ke-i. : frekuensi kata ke-j di koleksi. : peluang kata ke-j ada di dokumen ke-i. : frekuensi kata ke-j di dokumen ke-i jika kata ke-j tersebar. : total dokumen yang mengandung kata ke-j : total dokumen di koleksi.

11 3 Nilai S menunjukkan penyebaran kata dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TF-IDF, nilai ini dapat disetarakan dengan persamaan (1). Oleh karena itu, nilai S dapat dipersamaankan sebagai S = log 2 (1+ ) (3) Berdasarkan nilai U dan S pada persamaan, persamaan untuk pembobotan global adalah: W g = log 2 (1 + U x S ) (4) sehingga nilai bobot dari suatu kata adalah perkalian antara pembobotan tf t,d dan pembobotan global berbasis sebaran kata. Matriks Term-Dokumen (5) Setelah proses indexing, akan didapatkan matriks term-dokumen. Matriks termdokumen berukuran M x N menyatakan matriks bobot term dalam suatu dokumen. Setiap baris M mewakili sebuah term dan setiap kolom N mewakili sebuah dokumen di dalam koleksi (Manning et al. 2008). Matriks term-dokumen dapat dilihat pada Gambar 2. dengan urutan menurun, dan D merupakan matriks yang kolomnya merupakan orthogonal eigenvectors dari A T A. Ukuran t adalah jumlah baris dari matriks A. Ukuran d adalah jumlah kolom dari matriks A. Nilai r adalah pangkat dari matriks A dengan r (min (t, d)). Setelah matriks A didekomposisi, hasilnya direduksi dengan nilai k sehingga menjadi reduced SVD. Nilai k adalah jumlah dimensi matriks yang tersisa. Tujuan dari reduksi ini adalah untuk membuang noise yang ada pada ruang vektor. Pada dasarnya, tidak ada cara khusus yang digunakan untuk menentukan nilai k, tetapi nilai k diperoleh dengan trial and error sampai ditemukan nilai k yang memungkinkan SVD membuang noise dan menemukan latent semantic dengan sangat baik. Nilai k yang digunakan dalam penelitian ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan Matriks A yang telah didekomposisi dan direduksi dapat dilihat pada Gambar 4. A = A k T T k S k D k T S k x k D T k x d [ ] t x d t x k A t x d Gambar 2 Matriks term-dokumen. Singular Value Decomposition (SVD) SVD adalah salah satu metode dari aljabar linear untuk mendekomposisi matriks A dengan dimensi t x d menjadi tiga matriks (Gambar 3). = A = TSD T T t x r S r x r D T r x d Gambar 3 Matriks A yang telah didekomposisi. Matriks A merupakan matriks termdokumen, T merupakan matriks yang kolomnya adalah orthogonal eigenvectors dari AA T, S adalah matriks diagonal singular value Gambar 4 Matriks A yang telah didekomposisi dan direduksi. Pengolahan Kueri Pengolahan kueri dilakukan secara online setiap kali kueri dimasukkan ke sistem. Kueri yang dimasukkan akan diubah menjadi vektor q yang merepresentasikan kemunculan katakata pada kueri dengan term yang telah didapat dari koleksi dokumen. Untuk mencari dokumen yang mirip dengan kueri yang dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri digunakan persamaan: Ukuran Kemiripan q = q T T k (6) Cosine similarity digunakan untuk mengukur kesamaan antara vektor kueri q

12 4 dengan matriks dokumen DD dengan persamaan: ( ) Matriks dokumen didapat dari persamaan: T = ( T ) T T = T T T = T = ( ) T DD = (7) Hasil dari cosine similarity adalah ranked document yang terurut secara menurun. Dokumen teratas merupakan dokumen hasil pencarian yang paling mendekati dengan kueri yang diinginkan. Evaluasi Manning (2008) menyatakan terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif yaitu recall dan precision (R-P). Perhitungan recall-precision didasarkan pada tabulasi silang seperti pada Tabel 1. Tabel 1 Confusion matrix Retrieved Not retrieved Relevant true positives (tp) false negatives (fn) Nonrelevant false positives (fp) true negatives (tn) Oleh karena itu, recall dan precision didefinisikan sebagai: Precision = ( ) (8) Recall = ( ) (9) Average precision adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Biasanya, digunakan sebelas tingkat recall standar yaitu, 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average precision dapat dipersamaankan sebagai berikut: (r) = ( ) (10) sedangkan (r) adalah average precision pada tingkat recall r i. N q adalah jumlah kueri yang digunakan dan P i (r) adalah nilai precision pada tingkat recall r untuk kueri ke-i (Baeza- Yates & Ribeiro-Neto 1999). Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan precision seperti pada persamaan (8) dan (9). Kemudian, dilakukan perhitungan average precision menggunakan sebelas tingkat recall standar seperti pada persamaan (10). Evaluasi juga dilakukan dengan membandingkan hasil penelitian dengan Maulizar (2011). Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat Lunak: Sistem operasi Windows 7 Profesional sebagai sistem operasi, MATLAB R2008b untuk melakukan dekomposisi matriks SVD, Xampp Server Apache version sebagai web server, Notepad++ untuk pembangunan sistem dengan bahasa pemrograman PHP, Microsoft Excel 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan recall dan precision. Perangkat keras: Prosesor Intel Core i5-2450m RAM 4.0 GB Harddisk 500GB HASIL DAN PEMBAHASAN Koleksi Korpus Penelitian ini menggunakan 1000 dokumen pertanian yang berasal dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Tabel 2 menunjukkan deskripsi dokumen uji yang digunakan dalam penelitian ini. Tabel 2 Deskripsi dokumen uji Dokumen Ukuran (bytes) Ukuran rata-rata dokumen 4139 Ukuran seluruh dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil 451 Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML, yaitu setiap file terdiri atas satu dokumen yang ditunjukkan dengan tag-tag sebagai berikut: <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik. <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

13 5 <TITLE></TITLE>, tag ini menunjukkan judul dari berita. <DATE></DATE>, tag ini menunjukkan tanggal dari berita. <AUTHOR></AUTHOR>, tag ini menunjukkan penulis dari berita tersebut. <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen. Gambar 5 menunjukkan contoh salah satu dokumen pertanian yang digunakan dalam penelitian ini. <DOC> <DOCNO>suaramerdeka </DOCNO> <TITLE>Ribuan Bibit untuk Lahan Kritis</TITLE> <AUTHOR></AUTHOR> <DATE>Minggu, 4 Januari 2004 </DATE> <TEXT> <P>NGALIYAN-Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati.</p> </TEXT> </DOC> Gambar 5 Contoh dokumen pertanian. Praproses Praproses dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Proses awal adalah pembuangan tag karena tag bukan merupakan penciri suatu dokumen. Tag yang diambil untuk proses indexing hanya <TITLE> dan <TEXT>. Format dokumen setelah dilakukan pembuangan tag dapat dilihat pada Gambar 6. Ribuan Bibit untuk Lahan Kritis NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. Gambar 6 Format dokumen setelah pembuangan tag. Tahap tokenisasi dilakukan pada fungsi get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi. Selain itu, dilakukan juga penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen. Pembuangan stopwords dilakukan setelah proses tokenisasi pada koleksi dokumen. Teknis yang dilakukan adalah perbandingan antara token hasil tokenisasi dan stopwords yang ada. Jika token adalah stopwords, token tersebut dihapus dalam daftar token. Daftar stopwords yang digunakan dalam penelitian ini diperoleh dari Herdi (2010) dan dilampirkan pada Lampiran 2. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan. Pembobotan Pembobotan yang dilakukan dalam penelitian ini adalah pembobotan term frequency (TF) dan pembobotan global dengan memperhatikan sebaran kata. Pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Pembobotan global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata (U) dan perluasan penyebaran kata (S) pada koleksi dokumen. Pembobotan global diawali dengan proses perhitungan peluang dari setiap dokumen dengan menghitung perbandingan jumlah kata yang terdapat dalam setiap dokumen dengan jumlah seluruh kata yang ada di koleksi dokumen. Tabel 3 merupakan contoh 5 dokumen hasil perhitungan peluang dengan jumlah seluruh kata di dalam koleksi dokumen adalah kata. Nilai r pada pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen jurnal memiliki jumlah kata terbanyak, sehingga nilai r jurnal memiliki nilai tertinggi. Sebaliknya untuk dokumen situshijau memiliki jumlah kata terkecil sehingga nilai r dokumen situshijau memiliki nilai terkecil. Tabel 3 Hasil perhitungan peluang (r) Dokumen Jumlah Kata r jurnal jurnal jurnal indosiar situshijau

14 6 Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen (v) dan frekuensi kata pada suatu koleksi (n). Nilai r, v, dan n digunakan untuk menghitung nilai chi-square dari koleksi dokumen. Hasil perhitungan v, n, dan chi-square pada 5 term contoh dapat dilihat pada Tabel 4. Tabel 4 Hasil perhitungan n, chi, dan U pada 5 term contoh Term n chi U pertanian petani ipb bambu anggrek Term petani memiliki nilai chi-square (chi) terendah. Nilai terendah menyatakan term petani mendekati distribusi seragam. Artinya untuk nilai chi-square (chi) yang rendah akan mendapat nilai distribusi seragam (U) yang rendah. Pada perhitungan perluasan penyebaran kata pada koleksi dokumen (S), harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total dokumen yang mengandung kata tersebut (p) dan total seluruh dokumen pada koleksi (N). Pada Tabel 5, term pertanian terdapat pada 877 dokumen dari total koleksi 1000 dokumen. Oleh karena itu, term pertanian memperoleh nilai S yang kecil artinya koleksi tersebut tersebar luas di koleksi dokumen. Tabel 5 Hasil perhitungan p dan S pada 5 term contoh Term p S pertanian petani ipb bambu anggrek Proses terakhir tahap ini adalah perhitungan bobot kata global pada setiap kata menggunakan persamaan (4). Hasil perhitungan bobot kata global dengan S menggunakan persamaan (3) dapat dilihat pada Tabel 6. Kata anggrek mendapat nilai global lebih tinggi, artinya term anggrek merupakan kata yang lebih penting dalam koleksi dibandingkan term pertanian, petani, ipb, dan bambu. Pada Tabel 6, term pertanian yang mempunyai frekuensi tinggi dan penyebarannya luas mendapatkan hasil perhitungan bobot yang rendah sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Tabel 6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) Term U S Global pertanian petani ipb bambu anggrek Tabel 7 merupakan hasil perhitungan pembobotan global dengan perhitungan S menggunakan persamaan (2). Nilai terbesar diperoleh term pertanian karena dengan persamaan (2), kata yang menyebar pada banyak dokumen di koleksi menghasilkan S yang tinggi sehingga term pertanian mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Oleh karena itu, pada tahap selanjutnya digunakan hasil pada Tabel 6, yaitu dengan perhitungan S menggunakan persamaan (3). Tabel 7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) Term U S Global pertanian petani ipb bambu anggrek Pada Xia dan Chai (2011), hubungan antara luas distribusi seragam dan bobot kata pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada term pertanian yang memiliki luas distribusi seragam yang tinggi dan bobot global yang dihasilkan rendah. Hasil perbandingan hubungan distribusi seragam dan bobot global dapat dilihat pada Tabel 8. Tabel 8 Perbandingan hubungan distribusi term dengan bobot global Term n p Global pertanian petani ipb bambu anggrek Tahap terakhir dalam pembobotan kata adalah perhitungan nilai keseluruhan.

15 7 Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan TF dan pembobotan global menggunakan persamaan (5). Hasil perhitungan pembobotan kata dapat diliihat pada Tabel 9. Tabel 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal Term TF Global Bobot pertanian petani ipb bambu anggrek Matriks Term-Dokumen Setelah hasil pembobotan didapatkan, matriks term-dokumen dibuat. Pembentukan matriks term-dokumen sangat diperlukan karena matriks term-dokumen selanjutnya akan didekomposisi. Matriks term-dokumen ini disimpan dalam format comma delimited (.CSV) dengan ukuran 47.5 MB. Jumlah baris dalam matriks term-dokumen berjumlah baris yang mewakili jumlah term yang ada di koleksi dokumen. Jumlah kolom dalam matriks term-dokumen berjumlah 1000 kolom yang mewakili jumlah dokumen di dalam koleksi dokumen. Singular Value Decomposition Matriks term-dokumen yang didapat selanjutnya didekomposisi menggunakan fungsi singular value decomposition pada Matlab dan akan dihasilkan tiga matriks baru yaitu matriks T, S, dan D. [T, S, D] = svd (matriksa, 0) Matriks hasil dekomposisi memiliki ukuran yang besar sehingga akan membutuhkan penyimpanan yang besar. Matriks T merupakan matriks yang merepresentasikan term. Ukuran matriks T dalam format.csv adalah 265 MB. Kemudian, S merupakan matriks yang elemen diagonalnya adalah nilai singular dengan urutan menurun memiliki ukuran 1.91 MB, dan D merupakan matriks yang kolomnya merepresentasikan dokumen memiliki ukuran 11.7 MB. Ukuran matriks tersebut akan mempengaruhi waktu eksekusi kueri pada saat user melakukan proses pencarian dokumen. Perkalian dari matriks T, S, dan D T akan mengembalikan matriks A. Apabila dilakukan perkalian matriks T, S, dan D T yang telah direduksi dengan nilai rank k, akan didapat matriks yang nilainya mendekati matriks A. Pada Tabel 10, dapat dilihat matriks termdokumen A yang belum didekomposisi. Tabel 11 adalah matriks term-dokumen A hasil perkalian dari matriks T, S, dan D T. Tabel 10 Matriks A sebelum didekomposisi Term jurnal jurnal pertanian petani ipb 0 0 bambu anggrek 0 0 Tabel 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 Term jurnal jurnal pertanian petani ipb bambu anggrek Dari kedua tabel, dapat dilihat bahwa setelah didekomposisi dan direduksi term yang sebelumnya memiliki bobot 0 menjadi bernilai minus atau bertambah bobotnya. Seperti pada term bambu dan anggrek pada dokumen jurnal sebelum matriks A didekomposisi dan direduksi, kedua term ini memiliki bobot 0. Setelah matriks A didekomposisi dan direduksi, kedua term ini bertambah bobotnya. Hal ini membuktikan bahwa dengan dekomposisi dan reduksi, struktur latent semantic terungkapkan dan menunjukkan bahwa term bambu dan anggrek memiliki keterkaitan walaupun term bambu dan anggrek tidak terdapat pada kedua dokumen tersebut. Sedangkan pada term ipb yang sebelumnya memiliki bobot 0 di kedua dokumen, setelah matriks A didekomposisi dan direduksi struktur latent semantic menunjukkan bahwa term ipb di kedua dokumen ini bernilai minus. Hal ini membuktikan bahwa term ipb tidak memiliki keterkaitan di dalam kedua dokumen ini. Pengolahan Kueri Tahap selanjutnya adalah membuat program untuk melakukan indexing pada kueri. Indexing pada kueri juga terdiri atas tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Untuk mencari dokumen yang mirip dengan kueri yang

16 8 dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri akan digunakan persamaan (6). Pengukuran Kemiripan Vektor kueri yang didapat dari tahap sebelumnya akan dibandingkan kemiripannya dengan matriks dokumen. Setelah itu, vektor kueri dapat dibandingkan dengan matriks dokumen menggunakan persamaan cosine similarity pada persamaan (7). Pengujian Kinerja Sistem Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji berikut dokumendokumen relevan yang telah ditentukan dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Daftar kueri uji beserta dokumen yang relevan dapat dilihat pada Lampiran 3. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai average precision dari sistem. Proses pencarian average precision dilakukan pada nilai k = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000}. Nilai sebelas tingkat recall standar pada dokumen pertanian dapat dilihat pada Gambar 7. Nilai average precision setiap nilai k dapat dilihat pada Tabel 12. Dari Tabel 12, nilai k dengan nilai akurasi paling tinggi adalah k = 1000 dengan nilai average precision sebesar yang artinya secara rata-rata pada tiap titik recall, 40.47% hasil temu-kembali relevan dengan kueri. Nilai precision pada pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 dapat dilihat pada Lampiran 4. Nilai k adalah nilai yang penting untuk menentukan performa mesin pencari yang menggunakan LSI. Jika terlalu banyak dimensi yang disimpan, struktur latent semantic tidak dapat diperlihatkan karena terlalu banyak noise. Jika nilai k terlalu kecil, akan terlalu banyak kata atau dokumen yang diproyeksikan ke dalam dimensi sehingga akan menghancurkan struktur latent semantic. Hasil penelitian Maulizar (2011) menunjukkan bahwa nilai k yang optimum adalah k = 70 dengan average precision sebesar Sedangkan hasil average precision dalam penelitian ini dengan k = 70 adalah sebesar Pada Gambar 8 juga dapat dilihat bahwa pada nilai k = 20, 30, 40, 50, 60, 70, 80, 90, dan 100 nilai akurasi LSI dengan pembobotan global berbasis sebaran Precision lebih besar dibandingkan dengan LSI menggunakan pembobotan TF-IDF. Grafik perbandingan nilai average precision LSI TF- IDF dengan LSI Global dapat dilihat pada Lampiran Recall K=10 K=20 K=30 K=40 K=50 K=60 K=70 K=80 K=90 K=100 K=200 K=300 K=400 K=500 K=600 K=700 K=800 K=900 K=1000 Gambar 7 Sebelas tingkat recall standar pada dokumen pertanian. Dari hasil tersebut, dapat disimpulkan bahwa Latent Semantic Indexing dengan pembobotan global berbasis sebaran menghasilkan nilai average precision yang lebih tinggi dibandingkan Latent Semantic Indexing hanya dengan TF-IDF tanpa memperhatikan sebaran kata. Pada Tabel 13 dapat dilihat rata-rata, maksimum, dan minimum waktu pencarian pada setiap nilai k. Untuk k = 10, rata-rata waktu yang diperlukan untuk mencari dokumen adalah detik, sedangkan untuk k = 1000 rata-rata waktu yang diperlukan adalah detik. Dari hasil tersebut dapat disimpulkan bahwa semakin besar nilai k maka semakin lama waktu pencarian dokumen karena semakin banyak pula dimensi matriks yang dihitung.

17 9 Tabel 12 Hasil perhitungan average precision pada setiap nilai k Nilai k Average Precision LSI TF-IDF LSI Global Tabel 13 Rata-rata waktu pencarian pada setiap nilai k Nilai k Rata-rata Waktu Pencarian (detik) Maksimum Waktu Pencarian (detik) Minimum Waktu Pencarian (detik) Simpulan SIMPULAN DAN SARAN Penelitian ini berhasil mengimplementasikan metode Latent Semantic Indexing dengan pembobotan global berbasis sebaran. Hasil penelitian ini menunjukkan bahwa nilai k yang memberikan hasil akurasi paling tinggi adalah k = 1000 dengan nilai average precision 40.47%. Akurasi hasil LSI dengan pembobotan global berbasis sebaran lebih besar dibandingkan dengan LSI dengan pembobotan TF-IDF. Saran Jika ingin menambahkan dokumen baru maka matriks T, S, dan D perlu dihitung ulang sehingga diperlukan teknik folding-in. Folding-in adalah metode untuk memproyeksikan dokumen baru ke dalam ruang SVD sehingga matriks T, S, dan D tidak perlu dihitung ulang. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Boston: Addison Wesley. Deerwester S, Dumais ST, Fumas GW, Landauer TK, Harshman R Indexing by latent semantic analysis. Journal of the American Society of Information Science 41(6): Geiss J Latent semantic indexing and information retrieval: A quest with BoSSE [tesis]. Heidelberg: Universitat Heidelberg. Herdi, H Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning CD, Raghavan P, Schutze H An Introduction to Information Retrieval. Cambridge: Cambridge University Press. Maulizar N Latent semantic indexing pada sistem temu kembali dokumen bahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

18 10 Xia T, Chai Y An improvement to TF- IDF: term distribution based term weight algorithm. Journal of Software 6:

19 LAMPIRAN 11

20 Lampiran 1 Antarmuka sistem 12

21 13 Lampiran 2 Daftar stopwords acapkali apanya begitupula berkesempatan contohkan diberinya ada apapun begitupun berkesimpulan contohnya dibiarkan adakah arti belakang berlalu cukup dibiasakan adakan artian belakangan berlalunya Cuma dibilang adalah artinya belum berlama daerah dicontoh adanya asalan belumlah berlangsung dahulu dicontohkan adapun asalkan benar bermula dalam dicontohkannya aduh asumsi benarkah bersama dan didapat agak asumsinya benarnya bersamaan dapat didapati agaknya atas berada bertepatan dapatkah didapatkan agar atasnya berakhir beruntun dapatkan didapatnya aja atau berakhirnya berupa dapatlah didasarkan akalan ataukah berakibat besarnya dari digolongkan akan ataupun berakibatkan beserta darinya digunakan akankah awal beralasan besok daripada diharapkan akhir bagai beralih besoknya dekat dijadikan akhirnya bagaikan beralihnya betapa dekatnya dijadikannya akibat bagaimana beranggapan biar demi dikarenakan akibatkan bagaimanakah berapa biarlah demikian dikasih akibatnya bagaimanapun berapanya biasa demikianlah dikata aku bagi berapapun biasanya dengan dikatakan ala baginya berarti bicarakan dengannya dikatakannya alangkah bagus berasumsi bicaranya depan dikategorikan alasan bagusnya berbagai bila depannya dikembangkan alasannya bahkan berbagi bilamana di diketahui alih bahwa berbanding bilang dia diketahuinya alihkan baik berbeda bisa dialah dilaksanakan amat baiknya berdampak bisakah dialami dilakukan amatlah balik berdasarkan bisanya dialihkan dimana ambil banding berhadapan boleh diambil dimulai anda bandingkan berharap boro diambilkan dimulailah andai banyak berhubung buat diambilnya dimulainya anggap banyaknya berhubungan buatnya dianggap dimungkinkan anggapan barangkali beri bukan diantara dipaparkan antar baru berikan bukankah diantaranya dipersilahkan antara bawah berikanlah bukanlah diapakan disaat antaranya bawahnya berikut bukannya dibagi disebabkan apa beberapa berikutnya buktikan dibagikan disejumlah apabila begini berjumlah cara dibeberapa diseluruh apakah beginilah berkat cerita diberbagai disertai apalagi begitu berkenaan ceritanya diberi disertakan apalah begitulah berkesan contoh diberikan disimpulkan

22 14 Lanjutan disitulah itupun kemana manalagi mengaku mulanya ditanggapi iya kemanakah manapun mengalami muncul ditanya jadi kembali masa mengalihkan mungkin ditanyakan jadikan kemudian masih mengambil mungkinkah dituturkan jadilah kemungkinan masihkah mengambilnya namun diucapkan jadinya kemungkinannya masing menganggap nanti dkk jangan kenapa masuk menganggapnya negara dll jarang kenapakah masyarakat mengapa nilai dsb jauh kepada mau mengatakan nyaris dua jelaskan kepadanya maupun mengembangkan nyiakan dulu jika kepala melainkan mengenai oleh dulunya jikalau ketika melakukan menggunakan orang empat juga ketimbang melalui mengungkapkan pada enggak jumlah khususnya melihat meningkat padahal engkau jumlahnya kini memang meningkatkan padanannya esok justru kita memaparkan menjadi paling gimana juta kondisi membagi menjadikan panjangnya habis kabupaten kurang membagikan menjadikannya papar habisan kadang lagi memberi menjelang paparan habiskan kalau lagian memberikan menjelaskan paparkan habisnya kalaupun lagipula memberinya menuju paparnya hal kali lain membiarkan menunjukkan para hampir kalian lainnya membolehkan menurut pasti hanya kami laksana membuat menurutnya pastilah hanyalah kamu lakukan memeperoleh menuturkan pastinya hari kan lalu memiliki menyatakan pelak harus kapan lalui meminta menyebabkan pelbagai haruskah karena lama memperbolehkannya menyebutkan pemaparan haruslah karenanya lanjut mempersilahkan menyia pembagian harusnya kata lantaran mempunyai mereka pembagiannnya hendak katakan lantas memungkinkan merupakan pendapat hendaklah katakanlah lebih menanggapi meski pengalihan hendaknya katanya lepas menanggapinya meskipun pengambil hingga kau lewat menanyakan mesti pengambilan how kayak lokasi mencapai mestinya pengandaian ialah kayaknya maka mencontohkan misal per ingin ke makin mendapat misalkan peralihan ini kebanyakan mampu mendapati misalnya percuma inilah kebetulan mampukah mendapatkan mudah peri inipun kebiasaan mampunya mendapatkannya mula perihal itu kecil mana menerus mulai perlahan itulah kecuali manakala mengada mulainya perlu

23 15 Lanjutan pernah sebenarnya semakin sesungguhnya tentunya umum persen seberapa semampunya setelah tepatnya umumnya pertamanya seberat semenjak setelahnya terbagi ungkap pinggir sebesar sementara seterusnya terbalik ungkapan pula sebetulnya semestinya setiap terbiasa ungkapkan pulalah sebuah semisal setidak terbilang ungkapnya pun secara semoga setidaknya terdapat untuk rata sedalam semua seusai terdapat usah relevankah sedang semuanya sewaktu tergolong usahlah rendah sedangkan semula seyogyanya terhadap usai saat sedapat seolah sia terjadi usianya saatnya sedemikian seorang sialnya terjadilah waktu saatnyalah sedikit seorangpun siap terjadinya waktulah saja sedikitnya sepadan siapa terkadang waktunya salah segera sepanjang siapakah terkait walau sama sehabis sepasang siapapun terkecuali walaupun sambil seharusnya sepele silahkan terlalu warga sambutannya seharusnyalah sependapat singkatnya terlebih yaitu sampai sehingga seperti sini termasuk yakni sana sehubungan sepertinya sinilah ternyata yang sang sejak seputar situ tersebut sangat sejauhmana seraya sosok tertentu sangatlah sejumlah serba sosoknya terus satunya sekalian serentak suatu tetap saya sekaligus sering sudah tetapi sayangnya sekalipun seringkali sulit tiap seakan sekarang seringkalinya sungguh tiba seandainya sekata seringlah sungguhpun tidak seantero sekedar seringnya supaya tidaklah sebab sekeliling serta tak tidaknya sebabkan seketika sertanya tambahnya tiga sebabnya sekian sesaat tanggapan tinggi sebagai sekitar sesama tanggapannya tutur sebagaimana selagi sesamamu tanggapnya tuturnya sebagainya selain sesedikit tanpa ucap sebagian selalu seseorang tapi ucapan sebaik selama sesuai tatkala ucapannya sebaiknya selanjutnya sesuatu telah ucapkan sebaliknya selesai sesuatunya tempat ucapnya sebanyak selesaikah sesudah tengah ujar sebelum seluruh sesudahnya tentang ujarnya sebelumnya seluruhnya sesukanya tentu umpamanya

24 16 Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian Kueri Bencana kekeringan Dukungan pemerintah pada pertanian Flu burung Gugus Jawaban gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar , indosiar310504, kompas210504, kompas250803, mediaindonesia , mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika , republika , republika , republika , republika , republika , republika , republika200603, republika , republika250604, republika270503, republika , situshijau , suarakarya , suarakarya , suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan indosiar070504, jurnal , kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika , republika , republika , situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka130902, wartapenelitian , wartapenelitian gatra220604, gatra , gatra , gatra300104, indosiar020304, indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka160204, suaramerdeka Gabah giling kering indosiar180603, indosiar240703, indosiar300304, kompas , kompas , kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika , republika , republika100804, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suaramerdeka Gagal panen/puso gatra070203, gatra190802, gatra , gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar , indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar , indosiar , kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia , mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika , republika , republika080703, republika , republika , republika , republika , republika200603, republika , republika , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan , suarapembaruan

25 17 Lanjutan Kueri Impor indonesia beras Gugus Jawaban gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar , kompas , kompas , kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas , kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika , republika , republika090902, republika100703, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130104, suaramerdeka , suaramerdeka270601, suarapembaruan100903, suarapembaruan Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia , pikiranrakyat , republika , republika020804, republika090902, republika100902, republika , republika , republika301002, situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan Institut pertanian bogor Kelangkaan pupuk Kelompok masyarakat tani/kelompok tani Laboratorium pertanian gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas , kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia , republika , republika061003, republika , republika , republika , republika , republika , republika , republika , republika180303, republika180604, republika , republika , republika211002, republika , republika , situshijau070503, situshijau , situshijau , suarakarya , suarakarya , suarapembaruan150903, suarapembaruan indosiar010704, indosiar060204, indosiar , indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas , pikiranrakyat , republika050604, republika , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka bitraindonesia , indosiar , jurnal , kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas , kompas , kompas , replubika110804, republika030304, republika , republika , republika140703, republika151202, republika180303, republika , republika280703, republika , situshijau070503, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka260902, suarapembaruan090202, suarapembaruan balaipenelitian , gatra100203, indobic , indosiar010704, jurnal , kompas220801, kompas241203, kompas , mediaindonesia , republika , republika , republika , republika , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka031101

26 18 Lanjutan Kueri Musim panen Pembangu nan untuk sektor pertanian Penerapan bioteknolo gi di indonesia/ penerapan bioteknolo gi/biotekn ologi di indonesia harga komoditas pertanian Gugus Jawaban gatra , gatra , gatra240203, indosiar010504, indosiar , indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas , kompas041103, kompas , kompas240103, kompas , mediaindonesia , mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika , republika , republika , republika151202, republika171102, republika , republika , republika , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka290901, suarapembaruan gatra180304, jurnal , kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas , kompas190802, kompas191099, kompas200799, kompas210502, kompas , kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia , mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika , republika , republika , republika150903, republika190803, republika , republika , republika , situshijau , situshijau280203, suarapembaruan jurnal , kompas121099, puslitbang , republika , republika , situshijau , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau160103, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau300403, situshijau310303, situshijau no, suarakarya , suarakarya , suarapembaruan020603, suarapembaruan no, suarapembaruan151102, wartapenelitian indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304,jur nal ,jurnal ,kompas ,kompas ,kompas ,kompas080702,kompas100399,kompas101004,kompas111099,kompas140802, kompas160304,kompas170104,kompas171002,kompas180502,kompas180504,kom pas230603,kompas250901,kompas ,kompas270401,kompas ,kompas280602,kompas311203,mediaindonesia060803,mediaindonesia310503, pikiranrakyat240404,pikiranrakyat300604,poskota ,poskota ,republika ,republika060503,republika ,republika ,republika061102,republika090902,republika ,situshijau ,situshijau070503,situshijau ,situshijau ,situshijau280203,situshijau ,situshijau ,situshijau ,suarakarya ,suarakarya ,suaramerdeka ,suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,suarapemb aruan220403,trubus000004,wartapenelitian

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt LAMPIRAN 13 Lampiran 1 Daftar kueri uji dan dokumen yang relevan Kueri Uji cabai merah buah tropika padi budidaya anggrek Dokumen Relevan dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt,

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

Lampiran 1 Contoh koleksi dokumen. <DOC> <DOCNO>gatra </DOCNO> <TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE> <AUTHOR>Tma,

Lampiran 1 Contoh koleksi dokumen. <DOC> <DOCNO>gatra </DOCNO> <TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE> <AUTHOR>Tma, LAMPIRAN 11 12 Lampiran 1 Contoh koleksi dokumen. gatra230103-002 Semarang Kembangkan Sapi Potong Gemuk Tma, Ant 23 Januari 2003

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN (PENCARIAN 10 KATA KUNCI DI EJOURNAL BSI)

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN (PENCARIAN 10 KATA KUNCI DI EJOURNAL BSI) SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN (PENCARIAN 10 KATA KUNCI DI EJOURNAL BSI) Melisa Winda Pertiwi 1* Taufiqurrochman 2 *12 Program Pascasarjana Magister Ilmu Komputer, Nusa Mandiri Jl. Kramat

Lebih terperinci

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

2. Ketepatan untuk setiap jawaban.

2. Ketepatan untuk setiap jawaban. dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 1 Pembuatan Kakas Komunikasi Antar Perangkat Lunak Anugerah Firdaus, Daniel Oranova Siahaan dan Rizky Januar Akbar Jurusan Teknik

Lebih terperinci

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING Muhammad, Sukmawati Nur Endah, dan Beta Noranita SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE

Lebih terperinci

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING Muhammad, Sukmawati Nur Endah, dan Beta Noranita SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING Muhammad 1, Sukmawati Nur Endah 2, dan Beta Noranita 3 Program Studi

Lebih terperinci

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI

METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi 67 BAB 4 HASIL DAN BAHASAN 4.1 Hasil Penelitian dan Evaluasi 4.1.1 Hasil Penelitian Berikut disajikan beberapa data hasil query dari penelitian yang dilakukan dengan melampirkan tabel data precision dan

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI

ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI 071401022 PROGRAM STUDI S1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN JB Budi Darmawan Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY. Rahimi Fitri 1, Arifin Noor Asyikin 2

APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY. Rahimi Fitri 1, Arifin Noor Asyikin 2 APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY Rahimi Fitri 1, Arifin Noor Asyikin 2 mahaluddin@yahoo.com (1) Staf Pengajar Jurusan Teknik Elektro Politeknik Negeri Banjarmasin

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition. ABSTRAK Penelitian ini bertujuan untuk memudahkan pencarian dokumen-dokumen yang memiliki hubungan antar kata, bukan hanya pencarian pada judul dokumen saja akan tetapi dapat juga mencari dari isi dokumen

Lebih terperinci

PENILAIAN JAWABAN ESSAY MENGGUNAKAN SEMI DISCRETE DECOMPOSITION PADA METODE LATENT SEMANTIC INDEXING

PENILAIAN JAWABAN ESSAY MENGGUNAKAN SEMI DISCRETE DECOMPOSITION PADA METODE LATENT SEMANTIC INDEXING PENILAIAN JAWABAN ESSAY MENGGUNAKAN SEMI DISCRETE DECOMPOSITION PADA METODE LATENT SEMANTIC INDEXING Kania Evita Dewi 1, Nelly Indriani W. 2, Andri Heryandi 3 1,2,3 Program Studi Teknik Informatika, Fakultas

Lebih terperinci

Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita

Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita [VOL.VI NO.2 AGUSTUS 2017] JURNAL SISTEM INFORMASI STMIK ANTAR BANGSA Perancangan Sistem Temu Kembali Informasi Menggunakan Metode Vector Space Model Pada Pencarian Dokumen Berbasis Teks Berita Jamal Maulana

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, putu.hariyadi@stmikbumigora.ac.id

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci