MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

Transkripsi

1 MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

2 MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

3 ABSTRACT SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO. Current users tend to like search engine based on semantic of word. This is caused by the existence of synonymy and polysemy problems in the selection of the use of the word. One technique to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant documents even if the word of the query are not written in the document. Currently, TF-IDF term weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document collection, the term with higher frequency and hypo-dispersion distribution usually contains less information. The purpose of this research is to implement LSI using Singular Value Decomposition (SVD) method with term distribution based global term weight. This research used 1000 Indonesian agricultural documents. The performance of search engine using LSI with term-distribution-based global term weight gave highest average precision around 40.47%. The test result also showed that LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF. Keyword: Latent Semantic Indexing, Singular Value Decomposition, Term Distribution based Global Term Weighting

4 Judul Skripsi Nama NRP : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic Indexing dengan Pembobotan Global : Susi Handayani : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: an. Ketua Departemen Ilmu Komputer Sekretaris Ahmad Ridha S.Kom, MS NIP Tanggal Lulus:

5 KATA PENGANTAR Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan karunia-nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada: Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga penulis dapat menyelesaikan tugas akhir ini. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini. Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji. Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik. Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita, Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat diselesaikan. Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi. Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini. Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat. Bogor, September 2012 Susi Handayani

6 RIWAYAT HIDUP Penulis dilahirkan di Bekasi pada tanggal 5 April Penulis merupakan anak kedua dari dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa Ilmu Komputer (Himalkom) sebagai sekretaris Komunitas PHP pada tahun Penulis juga aktif mengikuti beberapa kegiatan kepanitiaan, antara lain Dies Natalis KMB IPB 2008, FOTRANUSA 2008, MPD 2010, Pesta Sains Nasional 2010, dan IT TODAY Penulis juga melakukan Praktik Kerja Lapang di PPPTMGB LEMIGAS pada tahun 2011.

7 DAFTAR ISI Halaman DAFTAR TABEL... vi DAFTAR GAMBAR... vi DAFTAR LAMPIRAN... vi PENDAHULUAN... 1 Latar Belakang... 1 Tujuan Penelitian... 1 Ruang Lingkup Penelitian... 1 METODE PENELITIAN... 1 Praproses... 1 Matriks Term-Dokumen... 3 Singular Value Decomposition (SVD)... 3 Pengolahan Kueri... 3 Ukuran Kemiripan... 3 Evaluasi... 4 Lingkungan Implementasi... 4 HASIL DAN PEMBAHASAN... 4 Koleksi Korpus... 4 Praproses... 5 Pembobotan... 5 Matriks Term-Dokumen... 7 Singular Value Decomposition... 7 Pengolahan Kueri... 7 Pengukuran Kemiripan... 8 Pengujian Kinerja Sistem... 8 SIMPULAN DAN SARAN... 9 Simpulan... 9 Saran... 9 DAFTAR PUSTAKA... 9 LAMPIRAN v

8 DAFTAR TABEL Halaman 1 Confusion matrix Deskripsi dokumen uji Hasil perhitungan peluang (r) Hasil perhitungan n, chi, dan U pada 5 term contoh Hasil perhitungan p dan S pada 5 term contoh Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) Perbandingan hubungan distribusi term dengan bobot global Hasil perhitungan TF, global, dan bobot kata pada jurnal Matriks A sebelum didekomposisi Matriks A setelah didekomposisi dan direduksi dengan k = Hasil perhitungan average precision pada setiap nilai k Rata-rata waktu pencarian pada setiap nilai k... 9 DAFTAR GAMBAR Halaman 1 Metode penelitian Matriks term-dokumen Matriks A yang telah didekomposisi Matriks A yang telah didekomposisi dan direduksi Contoh dokumen pertanian Format dokumen setelah pembuangan tag Sebelas tingkat recall standar pada dokumen pertanian DAFTAR LAMPIRAN Halaman 1 Antarmuka sistem Daftar stopwords Gugus kueri dan jawaban untuk dokumen pertanian Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = Grafik perbandingan average precision LSI TF-IDF dengan LSI Global...24 vi

9 1 Latar Belakang PENDAHULUAN Mesin pencari (search engine) memegang peranan penting dalam pencarian informasi. Kebanyakan mesin pencari hanya membandingkan isi dari dokumen terhadap kueri berdasarkan kata kunci yang tersedia berupa statistik kemunculan kata. Masalah akan muncul pada saat sebuah kata yang secara statistik berbeda tetapi memiliki makna yang sama (sinonim). Hal ini mengakibatkan recall yang rendah karena mesin pencari akan mengembalikan dokumen yang sedikit. Masalah lain ialah apabila ada satu kata yang secara statistik sama tetapi memiliki banyak makna (polisemi) yang akan menghasilkan nilai precision yang rendah karena mesin pencari akan mengembalikan dokumen yang tidak sesuai dengan keinginan pengguna. Hal ini dapat mengakibatkan kinerja mesin pencari menjadi kurang baik karena tidak memperhatikan kata secara semantik (Deerwester et al. 1990). Deerwester et al. (1990) mengungkapkan bahwa upaya untuk mengatasi sinonim saat ini ialah dengan ekspansi kata secara otomatis atau pembentukan tesaurus. Kekurangan dari metode ini ialah kata yang ditambahkan mungkin akan memiliki makna yang berbeda dari yang dimaksudkan oleh pengguna yang akan menyebabkan efek polisemi. Pendekatan lainnya untuk mengatasi permasalahan ini ialah menggunakan Latent Semantic Indexing (LSI) dengan pendekatan ruang vektor. LSI adalah suatu teknik yang memetakan kueri dan dokumen ke dalam suatu ruang yang disebut Latent Semantic Space. Dalam Latent Semantic Space, suatu kueri dan suatu dokumen dapat memiliki nilai kesamaan yang tinggi walaupun kueri dan dokumen tersebut tidak memiliki term yang sama. Selama term tersebut mirip secara semantik, nilai kesamaan yang dihasilkan akan tinggi. Pada dasarnya, LSI menggunakan teknik Singular Value Decomposition (SVD) untuk mendekomposisikan matriks termdokumen. Dengan mengurangi ruang term dan dokumen menjadi dimensi yang lebih kecil, SVD menampakkan hubungan yang mendasari term dan dokumen dalam semua kombinasi yang memungkinkan dan membuang noise yang ada pada ruang vektor (Deerwester et al. 1990). Penelitian mengenai LSI yang sudah dilakukan antara lain Geiss (2006) yang menerapkan LSI pada mesin pencari BoSSE, dan Maulizar (2011) yang mengimplementasikan Singular Value Decomposition (SVD) dan Semi Discrete Decomposition (SDD) pada sistem temu kembali dokumen bahasa Indonesia. Umumnya penelitian tersebut menggunakan TF-IDF yang memberikan bobot yang sama pada sebuah term di mana pun posisi term di dalam dokumen. Untuk meningkatkan akurasi sistem, Xia dan Chai (2011) mengungkapkan bahwa pada suatu koleksi dokumen, term yang mempunyai frekuensi tinggi dan penyebarannya luas diberi bobot lebih rendah. Oleh karena itu, penelitian ini mengimplementasikan LSI menggunakan pembobotan global dengan memperhatikan sebaran kata. Tujuan Penelitian Tujuan penelitian ini ialah mengimplementasikan Latent Semantic Indexing dengan pembobotan global ke dalam mesin pencari dokumen bahasa Indonesia. Ruang Lingkup Penelitian Ruang lingkup dalam penelitian ini antara lain: Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. Kesalahan pengetikan di dalam korpus tidak diperhatikan. Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di Laboratorium Temu-Kembali Informasi (TKI). METODE PENELITIAN Tahapan penelitian ini dapat dilihat pada Gambar 1. Tahap offline hanya dilakukan satu kali, terdiri atas pengumpulan korpus, praproses, pembuatan matriks term-dokumen, dan pengolahan SVD. Praproses Praproses terdiri atas tokenisasi, pembuangan stopwords, dan pembobotan kata (Manning et al. 2008). Tokenisasi adalah suatu proses pemisahan (parsing) kalimat ke dalam unit-unit yang lebih kecil yang disebut token. Hal ini dilakukan dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada

10 2 dokumen dan mengubah kata menjadi lowercase. Stopwords merupakan kata-kata yang dianggap tidak memiliki makna dan akan dibuang serta tidak ikut diproses pada tahap selanjutnya. Pada umumnya, kata-kata dalam stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Offline Korpus Kueri sebuah dokumen d dan dinotasikan dengan tf t,d. Pembobotan tf memiliki kekurangan, yaitu semua kata dianggap penting ketika dihubungkan dengan relevansi kueri. Padahal, beberapa kata cenderung tidak relevan. Untuk mengurangi pembobotan suatu kata, digunakan document frequency (df) yang dinotasikan df t, yaitu jumlah dokumen dalam koleksi yang berisi kata t. Total seluruh dokumen dinotasikan dengan N, maka ditetapkan inverse document frequency (idf) dari sebuah kata t yang disebut juga sebagai pembobotan global yaitu: idf t = log (1) Pada akhirnya, nilai bobot TF-IDF dari suatu kata adalah perkalian antara kedua pembobotan tersebut. Pembobotan Praproses Matriks Term- Dokumen (A) SVD A = T S D T Ranked Document Praproses Vektor Kueri Mengukur kemiripan antara dokumen dan kueri Evaluasi Gambar 1 Metode penelitian. Menurut Manning et al. (2008), pembobotan lokal atau term frequency (tf) adalah jumlah kemunculan setiap term t dalam Pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu penyebaran kata dalam suatu dokumen individu (lokal) dan koleksi dokumen (global). Setiap term yang terdistribusi secara intensif di dalam beberapa dokumen harus diberikan bobot yang tinggi, karena term tersebut cenderung mewakili topik dokumen, sedangkan term yang terdistribusi seragam dan sering digunakan dalam setiap dokumen harus diberikan bobot yang rendah. Dari analisis ini, sebaran kata berdasarkan algoritme global term weight terdiri atas dua bagian yaitu U (Uniform Distribution Extent) dan (Spread Extension). Nilai U menunjukkan luas keseragaman penyebaran kata ke-j dan S adalah persebaran dari kata ke-j pada koleksi (Xia & Chai 2011). dengan p U = 1 + ( ) S = log 2 (1+ ) (2) : frekuensi kata ke-j di dokumen ke-i. : frekuensi kata ke-j di koleksi. : peluang kata ke-j ada di dokumen ke-i. : frekuensi kata ke-j di dokumen ke-i jika kata ke-j tersebar. : total dokumen yang mengandung kata ke-j : total dokumen di koleksi.

11 3 Nilai S menunjukkan penyebaran kata dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TF-IDF, nilai ini dapat disetarakan dengan persamaan (1). Oleh karena itu, nilai S dapat dipersamaankan sebagai S = log 2 (1+ ) (3) Berdasarkan nilai U dan S pada persamaan, persamaan untuk pembobotan global adalah: W g = log 2 (1 + U x S ) (4) sehingga nilai bobot dari suatu kata adalah perkalian antara pembobotan tf t,d dan pembobotan global berbasis sebaran kata. Matriks Term-Dokumen (5) Setelah proses indexing, akan didapatkan matriks term-dokumen. Matriks termdokumen berukuran M x N menyatakan matriks bobot term dalam suatu dokumen. Setiap baris M mewakili sebuah term dan setiap kolom N mewakili sebuah dokumen di dalam koleksi (Manning et al. 2008). Matriks term-dokumen dapat dilihat pada Gambar 2. dengan urutan menurun, dan D merupakan matriks yang kolomnya merupakan orthogonal eigenvectors dari A T A. Ukuran t adalah jumlah baris dari matriks A. Ukuran d adalah jumlah kolom dari matriks A. Nilai r adalah pangkat dari matriks A dengan r (min (t, d)). Setelah matriks A didekomposisi, hasilnya direduksi dengan nilai k sehingga menjadi reduced SVD. Nilai k adalah jumlah dimensi matriks yang tersisa. Tujuan dari reduksi ini adalah untuk membuang noise yang ada pada ruang vektor. Pada dasarnya, tidak ada cara khusus yang digunakan untuk menentukan nilai k, tetapi nilai k diperoleh dengan trial and error sampai ditemukan nilai k yang memungkinkan SVD membuang noise dan menemukan latent semantic dengan sangat baik. Nilai k yang digunakan dalam penelitian ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan Matriks A yang telah didekomposisi dan direduksi dapat dilihat pada Gambar 4. A = A k T T k S k D k T S k x k D T k x d [ ] t x d t x k A t x d Gambar 2 Matriks term-dokumen. Singular Value Decomposition (SVD) SVD adalah salah satu metode dari aljabar linear untuk mendekomposisi matriks A dengan dimensi t x d menjadi tiga matriks (Gambar 3). = A = TSD T T t x r S r x r D T r x d Gambar 3 Matriks A yang telah didekomposisi. Matriks A merupakan matriks termdokumen, T merupakan matriks yang kolomnya adalah orthogonal eigenvectors dari AA T, S adalah matriks diagonal singular value Gambar 4 Matriks A yang telah didekomposisi dan direduksi. Pengolahan Kueri Pengolahan kueri dilakukan secara online setiap kali kueri dimasukkan ke sistem. Kueri yang dimasukkan akan diubah menjadi vektor q yang merepresentasikan kemunculan katakata pada kueri dengan term yang telah didapat dari koleksi dokumen. Untuk mencari dokumen yang mirip dengan kueri yang dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri digunakan persamaan: Ukuran Kemiripan q = q T T k (6) Cosine similarity digunakan untuk mengukur kesamaan antara vektor kueri q

12 4 dengan matriks dokumen DD dengan persamaan: ( ) Matriks dokumen didapat dari persamaan: T = ( T ) T T = T T T = T = ( ) T DD = (7) Hasil dari cosine similarity adalah ranked document yang terurut secara menurun. Dokumen teratas merupakan dokumen hasil pencarian yang paling mendekati dengan kueri yang diinginkan. Evaluasi Manning (2008) menyatakan terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif yaitu recall dan precision (R-P). Perhitungan recall-precision didasarkan pada tabulasi silang seperti pada Tabel 1. Tabel 1 Confusion matrix Retrieved Not retrieved Relevant true positives (tp) false negatives (fn) Nonrelevant false positives (fp) true negatives (tn) Oleh karena itu, recall dan precision didefinisikan sebagai: Precision = ( ) (8) Recall = ( ) (9) Average precision adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Biasanya, digunakan sebelas tingkat recall standar yaitu, 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average precision dapat dipersamaankan sebagai berikut: (r) = ( ) (10) sedangkan (r) adalah average precision pada tingkat recall r i. N q adalah jumlah kueri yang digunakan dan P i (r) adalah nilai precision pada tingkat recall r untuk kueri ke-i (Baeza- Yates & Ribeiro-Neto 1999). Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan precision seperti pada persamaan (8) dan (9). Kemudian, dilakukan perhitungan average precision menggunakan sebelas tingkat recall standar seperti pada persamaan (10). Evaluasi juga dilakukan dengan membandingkan hasil penelitian dengan Maulizar (2011). Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat Lunak: Sistem operasi Windows 7 Profesional sebagai sistem operasi, MATLAB R2008b untuk melakukan dekomposisi matriks SVD, Xampp Server Apache version sebagai web server, Notepad++ untuk pembangunan sistem dengan bahasa pemrograman PHP, Microsoft Excel 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan recall dan precision. Perangkat keras: Prosesor Intel Core i5-2450m RAM 4.0 GB Harddisk 500GB HASIL DAN PEMBAHASAN Koleksi Korpus Penelitian ini menggunakan 1000 dokumen pertanian yang berasal dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Tabel 2 menunjukkan deskripsi dokumen uji yang digunakan dalam penelitian ini. Tabel 2 Deskripsi dokumen uji Dokumen Ukuran (bytes) Ukuran rata-rata dokumen 4139 Ukuran seluruh dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil 451 Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML, yaitu setiap file terdiri atas satu dokumen yang ditunjukkan dengan tag-tag sebagai berikut: <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik. <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

13 5 <TITLE></TITLE>, tag ini menunjukkan judul dari berita. <DATE></DATE>, tag ini menunjukkan tanggal dari berita. <AUTHOR></AUTHOR>, tag ini menunjukkan penulis dari berita tersebut. <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen. Gambar 5 menunjukkan contoh salah satu dokumen pertanian yang digunakan dalam penelitian ini. <DOC> <DOCNO>suaramerdeka </DOCNO> <TITLE>Ribuan Bibit untuk Lahan Kritis</TITLE> <AUTHOR></AUTHOR> <DATE>Minggu, 4 Januari 2004 </DATE> <TEXT> <P>NGALIYAN-Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati.</p> </TEXT> </DOC> Gambar 5 Contoh dokumen pertanian. Praproses Praproses dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Proses awal adalah pembuangan tag karena tag bukan merupakan penciri suatu dokumen. Tag yang diambil untuk proses indexing hanya <TITLE> dan <TEXT>. Format dokumen setelah dilakukan pembuangan tag dapat dilihat pada Gambar 6. Ribuan Bibit untuk Lahan Kritis NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. Gambar 6 Format dokumen setelah pembuangan tag. Tahap tokenisasi dilakukan pada fungsi get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi. Selain itu, dilakukan juga penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen. Pembuangan stopwords dilakukan setelah proses tokenisasi pada koleksi dokumen. Teknis yang dilakukan adalah perbandingan antara token hasil tokenisasi dan stopwords yang ada. Jika token adalah stopwords, token tersebut dihapus dalam daftar token. Daftar stopwords yang digunakan dalam penelitian ini diperoleh dari Herdi (2010) dan dilampirkan pada Lampiran 2. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan. Pembobotan Pembobotan yang dilakukan dalam penelitian ini adalah pembobotan term frequency (TF) dan pembobotan global dengan memperhatikan sebaran kata. Pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Pembobotan global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata (U) dan perluasan penyebaran kata (S) pada koleksi dokumen. Pembobotan global diawali dengan proses perhitungan peluang dari setiap dokumen dengan menghitung perbandingan jumlah kata yang terdapat dalam setiap dokumen dengan jumlah seluruh kata yang ada di koleksi dokumen. Tabel 3 merupakan contoh 5 dokumen hasil perhitungan peluang dengan jumlah seluruh kata di dalam koleksi dokumen adalah kata. Nilai r pada pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen jurnal memiliki jumlah kata terbanyak, sehingga nilai r jurnal memiliki nilai tertinggi. Sebaliknya untuk dokumen situshijau memiliki jumlah kata terkecil sehingga nilai r dokumen situshijau memiliki nilai terkecil. Tabel 3 Hasil perhitungan peluang (r) Dokumen Jumlah Kata r jurnal jurnal jurnal indosiar situshijau

14 6 Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen (v) dan frekuensi kata pada suatu koleksi (n). Nilai r, v, dan n digunakan untuk menghitung nilai chi-square dari koleksi dokumen. Hasil perhitungan v, n, dan chi-square pada 5 term contoh dapat dilihat pada Tabel 4. Tabel 4 Hasil perhitungan n, chi, dan U pada 5 term contoh Term n chi U pertanian petani ipb bambu anggrek Term petani memiliki nilai chi-square (chi) terendah. Nilai terendah menyatakan term petani mendekati distribusi seragam. Artinya untuk nilai chi-square (chi) yang rendah akan mendapat nilai distribusi seragam (U) yang rendah. Pada perhitungan perluasan penyebaran kata pada koleksi dokumen (S), harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total dokumen yang mengandung kata tersebut (p) dan total seluruh dokumen pada koleksi (N). Pada Tabel 5, term pertanian terdapat pada 877 dokumen dari total koleksi 1000 dokumen. Oleh karena itu, term pertanian memperoleh nilai S yang kecil artinya koleksi tersebut tersebar luas di koleksi dokumen. Tabel 5 Hasil perhitungan p dan S pada 5 term contoh Term p S pertanian petani ipb bambu anggrek Proses terakhir tahap ini adalah perhitungan bobot kata global pada setiap kata menggunakan persamaan (4). Hasil perhitungan bobot kata global dengan S menggunakan persamaan (3) dapat dilihat pada Tabel 6. Kata anggrek mendapat nilai global lebih tinggi, artinya term anggrek merupakan kata yang lebih penting dalam koleksi dibandingkan term pertanian, petani, ipb, dan bambu. Pada Tabel 6, term pertanian yang mempunyai frekuensi tinggi dan penyebarannya luas mendapatkan hasil perhitungan bobot yang rendah sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Tabel 6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) Term U S Global pertanian petani ipb bambu anggrek Tabel 7 merupakan hasil perhitungan pembobotan global dengan perhitungan S menggunakan persamaan (2). Nilai terbesar diperoleh term pertanian karena dengan persamaan (2), kata yang menyebar pada banyak dokumen di koleksi menghasilkan S yang tinggi sehingga term pertanian mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Oleh karena itu, pada tahap selanjutnya digunakan hasil pada Tabel 6, yaitu dengan perhitungan S menggunakan persamaan (3). Tabel 7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) Term U S Global pertanian petani ipb bambu anggrek Pada Xia dan Chai (2011), hubungan antara luas distribusi seragam dan bobot kata pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada term pertanian yang memiliki luas distribusi seragam yang tinggi dan bobot global yang dihasilkan rendah. Hasil perbandingan hubungan distribusi seragam dan bobot global dapat dilihat pada Tabel 8. Tabel 8 Perbandingan hubungan distribusi term dengan bobot global Term n p Global pertanian petani ipb bambu anggrek Tahap terakhir dalam pembobotan kata adalah perhitungan nilai keseluruhan.

15 7 Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan TF dan pembobotan global menggunakan persamaan (5). Hasil perhitungan pembobotan kata dapat diliihat pada Tabel 9. Tabel 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal Term TF Global Bobot pertanian petani ipb bambu anggrek Matriks Term-Dokumen Setelah hasil pembobotan didapatkan, matriks term-dokumen dibuat. Pembentukan matriks term-dokumen sangat diperlukan karena matriks term-dokumen selanjutnya akan didekomposisi. Matriks term-dokumen ini disimpan dalam format comma delimited (.CSV) dengan ukuran 47.5 MB. Jumlah baris dalam matriks term-dokumen berjumlah baris yang mewakili jumlah term yang ada di koleksi dokumen. Jumlah kolom dalam matriks term-dokumen berjumlah 1000 kolom yang mewakili jumlah dokumen di dalam koleksi dokumen. Singular Value Decomposition Matriks term-dokumen yang didapat selanjutnya didekomposisi menggunakan fungsi singular value decomposition pada Matlab dan akan dihasilkan tiga matriks baru yaitu matriks T, S, dan D. [T, S, D] = svd (matriksa, 0) Matriks hasil dekomposisi memiliki ukuran yang besar sehingga akan membutuhkan penyimpanan yang besar. Matriks T merupakan matriks yang merepresentasikan term. Ukuran matriks T dalam format.csv adalah 265 MB. Kemudian, S merupakan matriks yang elemen diagonalnya adalah nilai singular dengan urutan menurun memiliki ukuran 1.91 MB, dan D merupakan matriks yang kolomnya merepresentasikan dokumen memiliki ukuran 11.7 MB. Ukuran matriks tersebut akan mempengaruhi waktu eksekusi kueri pada saat user melakukan proses pencarian dokumen. Perkalian dari matriks T, S, dan D T akan mengembalikan matriks A. Apabila dilakukan perkalian matriks T, S, dan D T yang telah direduksi dengan nilai rank k, akan didapat matriks yang nilainya mendekati matriks A. Pada Tabel 10, dapat dilihat matriks termdokumen A yang belum didekomposisi. Tabel 11 adalah matriks term-dokumen A hasil perkalian dari matriks T, S, dan D T. Tabel 10 Matriks A sebelum didekomposisi Term jurnal jurnal pertanian petani ipb 0 0 bambu anggrek 0 0 Tabel 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 Term jurnal jurnal pertanian petani ipb bambu anggrek Dari kedua tabel, dapat dilihat bahwa setelah didekomposisi dan direduksi term yang sebelumnya memiliki bobot 0 menjadi bernilai minus atau bertambah bobotnya. Seperti pada term bambu dan anggrek pada dokumen jurnal sebelum matriks A didekomposisi dan direduksi, kedua term ini memiliki bobot 0. Setelah matriks A didekomposisi dan direduksi, kedua term ini bertambah bobotnya. Hal ini membuktikan bahwa dengan dekomposisi dan reduksi, struktur latent semantic terungkapkan dan menunjukkan bahwa term bambu dan anggrek memiliki keterkaitan walaupun term bambu dan anggrek tidak terdapat pada kedua dokumen tersebut. Sedangkan pada term ipb yang sebelumnya memiliki bobot 0 di kedua dokumen, setelah matriks A didekomposisi dan direduksi struktur latent semantic menunjukkan bahwa term ipb di kedua dokumen ini bernilai minus. Hal ini membuktikan bahwa term ipb tidak memiliki keterkaitan di dalam kedua dokumen ini. Pengolahan Kueri Tahap selanjutnya adalah membuat program untuk melakukan indexing pada kueri. Indexing pada kueri juga terdiri atas tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Untuk mencari dokumen yang mirip dengan kueri yang

16 8 dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri akan digunakan persamaan (6). Pengukuran Kemiripan Vektor kueri yang didapat dari tahap sebelumnya akan dibandingkan kemiripannya dengan matriks dokumen. Setelah itu, vektor kueri dapat dibandingkan dengan matriks dokumen menggunakan persamaan cosine similarity pada persamaan (7). Pengujian Kinerja Sistem Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji berikut dokumendokumen relevan yang telah ditentukan dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Daftar kueri uji beserta dokumen yang relevan dapat dilihat pada Lampiran 3. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai average precision dari sistem. Proses pencarian average precision dilakukan pada nilai k = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000}. Nilai sebelas tingkat recall standar pada dokumen pertanian dapat dilihat pada Gambar 7. Nilai average precision setiap nilai k dapat dilihat pada Tabel 12. Dari Tabel 12, nilai k dengan nilai akurasi paling tinggi adalah k = 1000 dengan nilai average precision sebesar yang artinya secara rata-rata pada tiap titik recall, 40.47% hasil temu-kembali relevan dengan kueri. Nilai precision pada pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 dapat dilihat pada Lampiran 4. Nilai k adalah nilai yang penting untuk menentukan performa mesin pencari yang menggunakan LSI. Jika terlalu banyak dimensi yang disimpan, struktur latent semantic tidak dapat diperlihatkan karena terlalu banyak noise. Jika nilai k terlalu kecil, akan terlalu banyak kata atau dokumen yang diproyeksikan ke dalam dimensi sehingga akan menghancurkan struktur latent semantic. Hasil penelitian Maulizar (2011) menunjukkan bahwa nilai k yang optimum adalah k = 70 dengan average precision sebesar Sedangkan hasil average precision dalam penelitian ini dengan k = 70 adalah sebesar Pada Gambar 8 juga dapat dilihat bahwa pada nilai k = 20, 30, 40, 50, 60, 70, 80, 90, dan 100 nilai akurasi LSI dengan pembobotan global berbasis sebaran Precision lebih besar dibandingkan dengan LSI menggunakan pembobotan TF-IDF. Grafik perbandingan nilai average precision LSI TF- IDF dengan LSI Global dapat dilihat pada Lampiran Recall K=10 K=20 K=30 K=40 K=50 K=60 K=70 K=80 K=90 K=100 K=200 K=300 K=400 K=500 K=600 K=700 K=800 K=900 K=1000 Gambar 7 Sebelas tingkat recall standar pada dokumen pertanian. Dari hasil tersebut, dapat disimpulkan bahwa Latent Semantic Indexing dengan pembobotan global berbasis sebaran menghasilkan nilai average precision yang lebih tinggi dibandingkan Latent Semantic Indexing hanya dengan TF-IDF tanpa memperhatikan sebaran kata. Pada Tabel 13 dapat dilihat rata-rata, maksimum, dan minimum waktu pencarian pada setiap nilai k. Untuk k = 10, rata-rata waktu yang diperlukan untuk mencari dokumen adalah detik, sedangkan untuk k = 1000 rata-rata waktu yang diperlukan adalah detik. Dari hasil tersebut dapat disimpulkan bahwa semakin besar nilai k maka semakin lama waktu pencarian dokumen karena semakin banyak pula dimensi matriks yang dihitung.

17 9 Tabel 12 Hasil perhitungan average precision pada setiap nilai k Nilai k Average Precision LSI TF-IDF LSI Global Tabel 13 Rata-rata waktu pencarian pada setiap nilai k Nilai k Rata-rata Waktu Pencarian (detik) Maksimum Waktu Pencarian (detik) Minimum Waktu Pencarian (detik) Simpulan SIMPULAN DAN SARAN Penelitian ini berhasil mengimplementasikan metode Latent Semantic Indexing dengan pembobotan global berbasis sebaran. Hasil penelitian ini menunjukkan bahwa nilai k yang memberikan hasil akurasi paling tinggi adalah k = 1000 dengan nilai average precision 40.47%. Akurasi hasil LSI dengan pembobotan global berbasis sebaran lebih besar dibandingkan dengan LSI dengan pembobotan TF-IDF. Saran Jika ingin menambahkan dokumen baru maka matriks T, S, dan D perlu dihitung ulang sehingga diperlukan teknik folding-in. Folding-in adalah metode untuk memproyeksikan dokumen baru ke dalam ruang SVD sehingga matriks T, S, dan D tidak perlu dihitung ulang. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Boston: Addison Wesley. Deerwester S, Dumais ST, Fumas GW, Landauer TK, Harshman R Indexing by latent semantic analysis. Journal of the American Society of Information Science 41(6): Geiss J Latent semantic indexing and information retrieval: A quest with BoSSE [tesis]. Heidelberg: Universitat Heidelberg. Herdi, H Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning CD, Raghavan P, Schutze H An Introduction to Information Retrieval. Cambridge: Cambridge University Press. Maulizar N Latent semantic indexing pada sistem temu kembali dokumen bahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

18 10 Xia T, Chai Y An improvement to TF- IDF: term distribution based term weight algorithm. Journal of Software 6:

19 LAMPIRAN 11

20 Lampiran 1 Antarmuka sistem 12

21 13 Lampiran 2 Daftar stopwords acapkali apanya begitupula berkesempatan contohkan diberinya ada apapun begitupun berkesimpulan contohnya dibiarkan adakah arti belakang berlalu cukup dibiasakan adakan artian belakangan berlalunya Cuma dibilang adalah artinya belum berlama daerah dicontoh adanya asalan belumlah berlangsung dahulu dicontohkan adapun asalkan benar bermula dalam dicontohkannya aduh asumsi benarkah bersama dan didapat agak asumsinya benarnya bersamaan dapat didapati agaknya atas berada bertepatan dapatkah didapatkan agar atasnya berakhir beruntun dapatkan didapatnya aja atau berakhirnya berupa dapatlah didasarkan akalan ataukah berakibat besarnya dari digolongkan akan ataupun berakibatkan beserta darinya digunakan akankah awal beralasan besok daripada diharapkan akhir bagai beralih besoknya dekat dijadikan akhirnya bagaikan beralihnya betapa dekatnya dijadikannya akibat bagaimana beranggapan biar demi dikarenakan akibatkan bagaimanakah berapa biarlah demikian dikasih akibatnya bagaimanapun berapanya biasa demikianlah dikata aku bagi berapapun biasanya dengan dikatakan ala baginya berarti bicarakan dengannya dikatakannya alangkah bagus berasumsi bicaranya depan dikategorikan alasan bagusnya berbagai bila depannya dikembangkan alasannya bahkan berbagi bilamana di diketahui alih bahwa berbanding bilang dia diketahuinya alihkan baik berbeda bisa dialah dilaksanakan amat baiknya berdampak bisakah dialami dilakukan amatlah balik berdasarkan bisanya dialihkan dimana ambil banding berhadapan boleh diambil dimulai anda bandingkan berharap boro diambilkan dimulailah andai banyak berhubung buat diambilnya dimulainya anggap banyaknya berhubungan buatnya dianggap dimungkinkan anggapan barangkali beri bukan diantara dipaparkan antar baru berikan bukankah diantaranya dipersilahkan antara bawah berikanlah bukanlah diapakan disaat antaranya bawahnya berikut bukannya dibagi disebabkan apa beberapa berikutnya buktikan dibagikan disejumlah apabila begini berjumlah cara dibeberapa diseluruh apakah beginilah berkat cerita diberbagai disertai apalagi begitu berkenaan ceritanya diberi disertakan apalah begitulah berkesan contoh diberikan disimpulkan

22 14 Lanjutan disitulah itupun kemana manalagi mengaku mulanya ditanggapi iya kemanakah manapun mengalami muncul ditanya jadi kembali masa mengalihkan mungkin ditanyakan jadikan kemudian masih mengambil mungkinkah dituturkan jadilah kemungkinan masihkah mengambilnya namun diucapkan jadinya kemungkinannya masing menganggap nanti dkk jangan kenapa masuk menganggapnya negara dll jarang kenapakah masyarakat mengapa nilai dsb jauh kepada mau mengatakan nyaris dua jelaskan kepadanya maupun mengembangkan nyiakan dulu jika kepala melainkan mengenai oleh dulunya jikalau ketika melakukan menggunakan orang empat juga ketimbang melalui mengungkapkan pada enggak jumlah khususnya melihat meningkat padahal engkau jumlahnya kini memang meningkatkan padanannya esok justru kita memaparkan menjadi paling gimana juta kondisi membagi menjadikan panjangnya habis kabupaten kurang membagikan menjadikannya papar habisan kadang lagi memberi menjelang paparan habiskan kalau lagian memberikan menjelaskan paparkan habisnya kalaupun lagipula memberinya menuju paparnya hal kali lain membiarkan menunjukkan para hampir kalian lainnya membolehkan menurut pasti hanya kami laksana membuat menurutnya pastilah hanyalah kamu lakukan memeperoleh menuturkan pastinya hari kan lalu memiliki menyatakan pelak harus kapan lalui meminta menyebabkan pelbagai haruskah karena lama memperbolehkannya menyebutkan pemaparan haruslah karenanya lanjut mempersilahkan menyia pembagian harusnya kata lantaran mempunyai mereka pembagiannnya hendak katakan lantas memungkinkan merupakan pendapat hendaklah katakanlah lebih menanggapi meski pengalihan hendaknya katanya lepas menanggapinya meskipun pengambil hingga kau lewat menanyakan mesti pengambilan how kayak lokasi mencapai mestinya pengandaian ialah kayaknya maka mencontohkan misal per ingin ke makin mendapat misalkan peralihan ini kebanyakan mampu mendapati misalnya percuma inilah kebetulan mampukah mendapatkan mudah peri inipun kebiasaan mampunya mendapatkannya mula perihal itu kecil mana menerus mulai perlahan itulah kecuali manakala mengada mulainya perlu

23 15 Lanjutan pernah sebenarnya semakin sesungguhnya tentunya umum persen seberapa semampunya setelah tepatnya umumnya pertamanya seberat semenjak setelahnya terbagi ungkap pinggir sebesar sementara seterusnya terbalik ungkapan pula sebetulnya semestinya setiap terbiasa ungkapkan pulalah sebuah semisal setidak terbilang ungkapnya pun secara semoga setidaknya terdapat untuk rata sedalam semua seusai terdapat usah relevankah sedang semuanya sewaktu tergolong usahlah rendah sedangkan semula seyogyanya terhadap usai saat sedapat seolah sia terjadi usianya saatnya sedemikian seorang sialnya terjadilah waktu saatnyalah sedikit seorangpun siap terjadinya waktulah saja sedikitnya sepadan siapa terkadang waktunya salah segera sepanjang siapakah terkait walau sama sehabis sepasang siapapun terkecuali walaupun sambil seharusnya sepele silahkan terlalu warga sambutannya seharusnyalah sependapat singkatnya terlebih yaitu sampai sehingga seperti sini termasuk yakni sana sehubungan sepertinya sinilah ternyata yang sang sejak seputar situ tersebut sangat sejauhmana seraya sosok tertentu sangatlah sejumlah serba sosoknya terus satunya sekalian serentak suatu tetap saya sekaligus sering sudah tetapi sayangnya sekalipun seringkali sulit tiap seakan sekarang seringkalinya sungguh tiba seandainya sekata seringlah sungguhpun tidak seantero sekedar seringnya supaya tidaklah sebab sekeliling serta tak tidaknya sebabkan seketika sertanya tambahnya tiga sebabnya sekian sesaat tanggapan tinggi sebagai sekitar sesama tanggapannya tutur sebagaimana selagi sesamamu tanggapnya tuturnya sebagainya selain sesedikit tanpa ucap sebagian selalu seseorang tapi ucapan sebaik selama sesuai tatkala ucapannya sebaiknya selanjutnya sesuatu telah ucapkan sebaliknya selesai sesuatunya tempat ucapnya sebanyak selesaikah sesudah tengah ujar sebelum seluruh sesudahnya tentang ujarnya sebelumnya seluruhnya sesukanya tentu umpamanya

24 16 Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian Kueri Bencana kekeringan Dukungan pemerintah pada pertanian Flu burung Gugus Jawaban gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar , indosiar310504, kompas210504, kompas250803, mediaindonesia , mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika , republika , republika , republika , republika , republika , republika , republika200603, republika , republika250604, republika270503, republika , situshijau , suarakarya , suarakarya , suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan indosiar070504, jurnal , kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika , republika , republika , situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka130902, wartapenelitian , wartapenelitian gatra220604, gatra , gatra , gatra300104, indosiar020304, indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka160204, suaramerdeka Gabah giling kering indosiar180603, indosiar240703, indosiar300304, kompas , kompas , kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika , republika , republika100804, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suaramerdeka Gagal panen/puso gatra070203, gatra190802, gatra , gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar , indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar , indosiar , kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia , mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika , republika , republika080703, republika , republika , republika , republika , republika200603, republika , republika , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan , suarapembaruan

25 17 Lanjutan Kueri Impor indonesia beras Gugus Jawaban gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar , kompas , kompas , kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas , kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika , republika , republika090902, republika100703, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130104, suaramerdeka , suaramerdeka270601, suarapembaruan100903, suarapembaruan Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia , pikiranrakyat , republika , republika020804, republika090902, republika100902, republika , republika , republika301002, situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan Institut pertanian bogor Kelangkaan pupuk Kelompok masyarakat tani/kelompok tani Laboratorium pertanian gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas , kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia , republika , republika061003, republika , republika , republika , republika , republika , republika , republika , republika180303, republika180604, republika , republika , republika211002, republika , republika , situshijau070503, situshijau , situshijau , suarakarya , suarakarya , suarapembaruan150903, suarapembaruan indosiar010704, indosiar060204, indosiar , indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas , pikiranrakyat , republika050604, republika , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka bitraindonesia , indosiar , jurnal , kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas , kompas , kompas , replubika110804, republika030304, republika , republika , republika140703, republika151202, republika180303, republika , republika280703, republika , situshijau070503, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka260902, suarapembaruan090202, suarapembaruan balaipenelitian , gatra100203, indobic , indosiar010704, jurnal , kompas220801, kompas241203, kompas , mediaindonesia , republika , republika , republika , republika , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka031101

26 18 Lanjutan Kueri Musim panen Pembangu nan untuk sektor pertanian Penerapan bioteknolo gi di indonesia/ penerapan bioteknolo gi/biotekn ologi di indonesia harga komoditas pertanian Gugus Jawaban gatra , gatra , gatra240203, indosiar010504, indosiar , indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas , kompas041103, kompas , kompas240103, kompas , mediaindonesia , mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika , republika , republika , republika151202, republika171102, republika , republika , republika , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka290901, suarapembaruan gatra180304, jurnal , kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas , kompas190802, kompas191099, kompas200799, kompas210502, kompas , kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia , mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika , republika , republika , republika150903, republika190803, republika , republika , republika , situshijau , situshijau280203, suarapembaruan jurnal , kompas121099, puslitbang , republika , republika , situshijau , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau160103, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau300403, situshijau310303, situshijau no, suarakarya , suarakarya , suarapembaruan020603, suarapembaruan no, suarapembaruan151102, wartapenelitian indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304,jur nal ,jurnal ,kompas ,kompas ,kompas ,kompas080702,kompas100399,kompas101004,kompas111099,kompas140802, kompas160304,kompas170104,kompas171002,kompas180502,kompas180504,kom pas230603,kompas250901,kompas ,kompas270401,kompas ,kompas280602,kompas311203,mediaindonesia060803,mediaindonesia310503, pikiranrakyat240404,pikiranrakyat300604,poskota ,poskota ,republika ,republika060503,republika ,republika ,republika061102,republika090902,republika ,situshijau ,situshijau070503,situshijau ,situshijau ,situshijau280203,situshijau ,situshijau ,situshijau ,suarakarya ,suarakarya ,suaramerdeka ,suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,suarapemb aruan220403,trubus000004,wartapenelitian

Menunjukkan lagi