PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

Ukuran: px
Mulai penontonan dengan halaman:

Download "PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA"

Transkripsi

1 PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

2 PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

3 ABSTRACT ELENUR DWI ANBIANA. Pseudo-Relevance Feedback on Retrieval Using Document Segmentation. Supervised by JULIO ADISANTOSO. Web is the largest information source in the world, but the storage and effective information retrieval on the web is still a problem in this day. Pseudo-relevance feedback is automatically local analysis technique (relevance feedback technique without explicit input user). This technique takes the top n-ranked documents as the relevant documents and takes the top x-ranked terms from relevant documents. Basically, a document consist of any topics, so in the research, relevant documents substituted by a segment which represents a topic in the relevant document. The segment is taken by XML document tag, are <TITLE>, <AUTHOR> and <P> tag, since the text from those tags are usually represent a document. The visual block extraction phase (first step in VIsion based Page Segmentation algorithm), used in segmented the document, so the title of the research is Pseudo- Relevance Feedback on Retrieval Using Document Segmentation. This research done in six phases, there are retrieval initialization, document segmentation, segments selection, terms selection, final retrieval and retrieval output evaluation. The result of system performance is good, that is The test results show that the performance of the PRF based segmentation of documents and without PRF retrieval was not found significant differences. It is because of the taken documents and segments for expansion terms selection are not relevant, expanded queries are not exact representing the segment, the member of documents that are used in retrieval is relatively small, that are 1000 documents. Keywords: pseudo-relevance feedback, relevance feedback, page segmentation, text processing.

4 Judul Nama NRP : Pseudo-Relevance Feedback pada Temu-kembali menggunakan Segmentasi Dokumen : Elenur Dwi Anbiana : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Dekan Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. drh. Hasim, DEA NIP Tanggal Lulus:

5 RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 24 Pebruari 1988 dari ayah Bambang Subekti, S. Sos. dan ibu Siti Rohaya. Penulis merupakan anak kedua dari tiga bersaudara. Pada tahun 2005 penulis lulus dari SMAN 55 Jakarta dan di tahun yang sama lulus seleksi masuk IPB melalui jalur Seleksi Penerimaan Mahasiswa Baru. Tahun 2006, penulis diterima di mayor Ilmu Komputer, Fakultas Matematika dan Pengetahuan Alam. Selama mengikuti perkuliahan, penulis menjadi asisten praktikum Algoritma dan Pemrograman pada tahun ajaran 2008/2009, serta asisten praktikum Bahasa Pemrograman pada tahun Penulis melakukan Praktik Kerja Lapangan di Pusat Pembiayaan dan Jaminan Kesehatan Departemen Kesehatan RI.

6 PRAKATA Alhamdulilahirobbil alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala karunia-nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian dan dilaksanakan sejak bulan Pebruari 2009 adalah Pseudo-Relevance Feedback pada Temu-kembali menggunakan segmentasi dokumen. Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso, M. Kom selaku dosen pembimbing, ibu Yeni Herdiyeni S. Si, M. Kom dan Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta staf Departemen Ilmu Komputer FMIPA IPB. Disamping itu, terima kasih penulis ucapkan kepada orangtua tercinta Bambang Subekti S.Sos dan Siti Rohaya, Agetya Wibriani S.Sos, Sri Nur Wulan Sari, Syarif Ubaidillah, Christina Eka Wardhani S. Kom, Mega Wirna Yulianti S.Kom, Noviana Pramitasari S. Kom, atas doa, perhatian dan dukungannya, Netty Laora Sitohang, Muthia Aziza, Dewa Ayu Tenara K.C., Utis Sutisna, teman-teman Program Studi Ilmu Komputer angkatan 42, pengurus Badan Eksekutif Mahasiswa FMIPA IPB, pengurus KAMMI Komisariat IPB dan seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat. Bogor, Agustus 2009 Elenur Dwi Anbiana

7 DAFTAR ISI Halaman DAFTAR GAMBAR... v DAFTAR LAMPIRAN... v PENDAHULUAN... 1 Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 TINJAUAN PUSTAKA... 1 Relevance Feedback... 1 Pseudo Relevance Feedback... 1 Vector Space Model... 2 Algoritme VIPS... 3 METODOLOGI PENELITIAN... 3 Inisialisasi Temu-kembali... 3 Segmentasi Dokumen... 3 Penyeleksian Segmen... 3 Penyeleksian Expansion Terms... 4 Temu-kembali Final... 4 Evaluasi Hasil Temu-kembali... 4 HASIL DAN PEMBAHASAN... 4 Temu-kembali Informasi Klasik... 4 Evaluasi Pseudo-Relevance Feedback Berdasarkan segmentasi Dokumen... 5 KESIMPULAN DAN SARAN... 7 Kesimpulan... 7 Saran... 7 DAFTAR PUSTAKA... 7 LAMPIRAN... 8 iv

8 DAFTAR GAMBAR Halaman 1 Ukuran kemiripan sebagai nilai kosinus dari sudut θ Algoritme ekstraksi blok visual Metodologi Penelitian Tahapan dalam praproses dokumen Perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas Perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat y teratas Perbandingan kinerja sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen... 6 DAFTAR LAMPIRAN Halaman 1 Antarmuka implementasi Contoh dokumen XML dalam koleksi pengujian Gugus Kueri dan Jawaban Tabel hasil analisis kinerja sistem tanpa PRF Tabel hasil analisis kinerja sistem PRF Tabel hasil analisis kinerja sistem PRF berdasarkan segmentasi dokumen v

9 Latar Belakang PENDAHULUAN Web merupakan sumber informasi terbesar di dunia, namun penyimpanan dan temukembali informasi yang efektif di dalam web masih menjadi permasalahan pada saat ini. Sejumlah besar informasi akurat dan dapat diakses secara cepat dan tepat belum dapat terwujud. Bentuk sederhana dari penemuan dokumen adalah komputer melakukan pengurutan dokumen yang ada. Proses pengurutan dokumen berarti memproses koleksi besar dokumen digital (korpus) dengan memberikan nilai bobot ke dalam tiap-tiap dokumen berdasarkan kueri pengguna. Namun, dokumen digital yang diproses ini selalu bertambah dan korpus tersebut dapat memiliki milyaran, bahkan trilyunan istilah. Dengan demikian, diperlukan operasi pencocokan yang fleksibel untuk kueri pengguna dengan semua istilah di korpus. Pseudo-relevance feedback merupakan teknik analisis lokal secara otomatis (teknik relevance-feedback tanpa input eksplisit pengguna). Teknik ini mengekstrak terms dari dokumen peringkat teratas (dalam pseudorelevance feedback, dokumen peringkat teratas dianggap relevan) untuk memformulasikan sebuah kueri baru pada temu-kembali selanjutnya. Pada dasarnya, sebuah dokumen terdiri atas berbagai topik, sehingga dokumen dapat digantikan oleh segmen yang mewakili sebuah topik dalam dokumen peringkat teratas. Pada penelitian, digunakan tahap ekstraksi blok visual (tahap pertama VIsion based Page Segmentation algorithm) untuk mensegmentasi dokumen peringkat teratas. Menurut Yu, Cai, Wen dan Ma (2003), teknik pseudo-relevance feedback berdasarkan segmentasi dokumen cukup baik diterapkan dalam pengambilan kueri perluasan baru. Kueri perluasan baru ini diambil dari segmen yang terkait dengan dokumen peringkat teratas. Dengan demikian, teknik pseudo-relevance feedback berdasarkan segmentasi dokumen dapat digunakan dalam meningkatkan kinerja temu-kembali informasi. Tujuan Penelitian ini bertujuan mengimplementasi dan menganalisis kinerja kueri perluasan dengan teknik pseudo-relevance feedback berdasarkan segmentasi dokumen. Ruang Lingkup Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. Dokumen ini merupakan berita-berita dari surat kabar online yang tersedia di Laboratorium Temu-kembali Informasi dan berjumlah 1000 dokumen. Relevance Feedback TINJAUAN PUSTAKA Menurut Baeza-Yates dan Ribeiro-Neto (1999), relevance feedback (RF) adalah teknik yang terkenal dalam merekonstruksi kueri. Pada siklus RF, pengguna diminta memberi tanda pada dokumen hasil temu-kembali yang dianggap relevan. Ide dasarnya, penyeleksian expansion terms diambil dari dokumen yang diidentifikasi relavan oleh pengguna, expansion terms peringkat x teratas ditambah kueri pengguna digunakan sebagai formulasi kueri baru. Formulasi kueri baru ini diharapkan menggeser dokumen relevan ke atas dan dokumen tidak relevan ke bawah. RF memiliki kelebihan dari teknik rekonstruksi kueri lain, yaitu: 1. Membantu pengguna untuk menghindari proses detil reformulasi kueri, karena pengguna telah memberikan keputusan untuk dokumen yang dianggap relevan. 2. Meringkas tahap pencarian yang dilakukan. 3. Menyediakan proses yang kontrol yang dibuat untuk mengambil expansion terms relevan (penciri dokumen) dan membuang selainnya. Berdasarkan buku Risjbergen (1979), permasalahan teknik relevance feedback adalah cara pengguna dalam menentukan dokumen yang relevan dan tidak relevan dalam hasil temu-kembali. Secara operasional, pengguna perlu menelusuri lebih lanjut isi dokumen hasil temu-kembali, agar diketahui kerelevanan sebuah dokumen, kemudian dirumuskan ulang kueri baru untuk temu-kembali selanjutnya. Pseudo Relevance Feedback Menurut Yu, Cai, Wen dan Ma (2003), pseudo relevance feedback (PRF), dikenal juga sebagai local feedback atau blind feedback, merupakan sebuah teknik yang biasanya digunakan untuk memperbaiki hasil temukembali. Ide dasar dari teknik ini, yaitu mengekstrak expansion terms dari top-n

10 documents (dianggap sebagai dokumen relevan) untuk merumuskan sebuah kueri baru yang akan digunakan dalam proses temu-kembali selanjutnya. Melalui ekspansi kueri, beberapa dokumen relevan yang hilang pada proses inisialisasi temu-kembali ditemukembalikan dalam proses selanjutnya, sehingga kinerja temu-kembali dapat ditingkatkan secara menyeluruh. Intinya, teknik ini sangat bergantung pada kualitas expansion terms yang dipilih. Pada pseudo-relevance feedback, kualitas expansion terms sangat dipengaruhi oleh dokumen-dokumen peringkat teratas. Berdasarkan buku Baeza-Yates dan Ribeiro- Neto (1999), teknik ini menganggap sistem yang mengambil top-n documents sebagai dokumen relevan lebih baik daripada pengguna memilih top-k relevant documents. Artinya, pengguna dapat memperbaiki hasil temukembali tanpa harus memperluas interaksi. Teknik ini akan efektif dalam beberapa pengaturan, kemungkinan besar saat kueri asli bersifat panjang dan tepat. Perluasan yang menarik untuk teknik ini ialah menggunakan output dari hasil temu-kembali clustering sebagai input mekanisme relevance feedback, melalui pengguna atau sistem yang memilih kluster yang digunakan, akan tetapi ide ini belum dievaluasi. Vector Space Model Vector space model dalam buku Baeza- Yates dan Ribeiro-Neto (1999) menyatakan kegunaan pembobotan dalam bilangan biner sangat membatasi, sehingga digunakan bobot tak biner untuk pembobotan indeks istilah didalam kueri dan dokumen. Bobot istilah ini digunakan untuk mengkomputasi kemiripan kosinus di antara setiap dokumen yang digunakan oleh sistem dan kueri dari pengguna. Jarak di antara tiap vektor dokumen diambil berdasarkan nilai kosinus dari sudut θ yang terdefinisi di antara dua buah vektor dokumen, diilustrasikan pada Gambar 1. Menurut Manning (2008), perhitungan kemiripan nilai kosinus diformulasikan sebagai berikut:, dengan Diasumsikan, sim(d j,d k ) adalah kemiripan nilai kosinus antara vektor dokumen j dengan k, adalah panjang vektor dokumen dan adalah vektor dokumen. Nilai vektor dari setiap dokumen merupakan pembobotan indeks istilah menggunakan pendekatan tf.idf. Perhitungan bobot indeks istilah tf.idf dengan pendekatan diformulasikan sebagai berikut: W t,d = tf t,d. idf t W t,d = tf t. log(n/df t) Diasumsikan, W t,d adalah bobot istilah t dalam dokumen d, tf t,d adalah frekuensi istilah t dalam dokumen d, idf t adalah frekuensi dokumen inverse istilah t (idf t = log(n/df t)), N adalah jumlah dokumen di dalam korpus dan df t adalah jumlah dokumen yang mengandung istilah t. Gambar 1 Ukuran kemiripan sebagai nilai kosinus dari sudut θ. Manning (2008) menyatakan penilaian kinerja metode vector space model, menggunakan pengukuran recall-precision (R- P). Perhitungan recall-precision diformulasikan sebagai berikut: Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritme temu-kembali dievaluasi dengan menggunakan beberapa kueri berbeda, pastinya nilai R-P masing-masing kueri akan berbeda pula. Average precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall. Umumnya digunakan sebelas tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1.0. Perhitungan AVP diformulasikan sebagai berikut: Asumsi, adalah AVP pada level recall r, N q adalah jumlah kueri yang digunakan, dan P i(r) adalah precision pada level recall r untuk kueri ke-i. 2

11 Algoritme VIPS Dalam penelitian Yu, Cai Wen dan Ma (2003), algoritme VIPS VIsion based Page Segmentation mensegmentasi dokumen (web) dalam tiga tahapan, yaitu: ekstraksi blok visual, pendeteksian pemisah visual dan konstruksi struktur isi. Pertama-tama, dokumen disegmentasi ke dalam beberapa blok besar. Untuk setiap blok besar, proses segmentasi yang sama dilakukan berulang-ulang sampai cukup mendapatkan blok kecil yang dapat mewakili sebuah topik dalam sebuah dokumen. Ekstraksi blok visual bertujuan untuk menemukan semua blok visual yang terdapat dalam dokumen. Algoritme ekstraksi blok visual direpresentasikan pada Gambar 2. Algoritme DivideDomtree(pNode, nlevel) { IF (Divideable(pNode, nlevel) == TRUE) FOR EACH child OF pnode DivideDomtree(child, nlevel); ELSE Put the sub-tree (pnode) into the pool as a block; } Gambar 2 Algoritme ekstraksi blok visual. METODOLOGI PENELITIAN Penelitian ini dilaksanakan dalam enam tahap, yaitu: (1) temu-kembali awal, (2) segmentasi dokumen, (3) penyeleksian segmen, (4) peyeleksian expansion terms, (5) temukembali akhir dan (6) evaluasi hasil temukembali. Tahap-tahap di atas diilustrasikan pada Gambar 3. Temu-kembali Awal Pada tahap ini diterapkan proses temukembali informasi klasik yang diimplementasikan teknik vector space model (VSM). Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan. Dengan demikian, sebelum mengimplementasikan proses temu-kembali informasi klasik, harus dilakukan pemrosesan teks atau yang biasa disebut praproses dokumen. Praproses dokumen diilustrasikan pada Gambar 4. Praproses yang dilakukan dalam penelitian dapat dibagi ke dalam tiga tahap pengoperasian teks: Lexical analysis of the text atau tokenisasi, bertujuan identifikasi kata di dalam teks. Tokenisasi adalah proses yang mengubah sekumpulan karakter (teks dari dokumen) ke dalam sekumpulan kata (kandidat kata yang digunakan sebagai indeks istilah). Eliminasi kata buangan, bertujuan meminimumkan kata yang digunakan sebagai istilah yang diindeks dalam proses temu-kembali. Koleksi Dokumen XML (1) Temu Kembali Awal Dokumen peringkat n teratas (2) Segmentasi Dokumen (3) Penyeleksian Segmen Segmen peringkat y teratas (6) Evaluasi Temu Kembali Hasil Temu Kembali (5) Temu Kembali Akhir Expansion Terms peringkat x teratas (4) Penyeleksian Expansion Terms idf Gambar 3 Metodologi Penelitian. Pengindeksan teks dalam dokumen, bertujuan mengomputasi frekuensi kata yang berada dalam sebuah dokumen, yang akan digunakan dalam pembobotan kata dalam dokumen. Segmentasi Dokumen Dalam proses segmentasi, tahap ekstraksi blok visual (tahap pertama algoritme VIPS) diimplementasikan ke dalam setiap dokumen peringkat k teratas. Dokumen XML yang digunakan memiliki tag <DOC>, <DOCNO>, <TITLE>, <AUTHOR>, <DATE>, <TEXT> dan <P>. Contoh dokumen XML yang digunakan digambarkan pada Lampiran 2. Dalam penelitian ini, teks dalam tag <TITLE>, <AUTHOR> dan <P> akan merepresentasikan potongan-potongan segmen dari setiap dokumen peringkat k teratas. Penyeleksian Segmen Proses ini bertujuan menyeleksi segmen paling relevan dari sekumpulan segmen yang didapat dari proses segmentasi dokumen. Dalam penelitian ini diterapkan metode seperti vector 3

12 space model untuk mengurutkan segmensegmen tersebut. Dengan demikian, didapatkanlah segmen peringkat x teratas yang digunakan untuk proses penyeleksian expansion terms. Penyeleksian Expansion Terms Dalam penelitian, teknik yang mirip pseudorelevance feedback diimplementasikan untuk menyeleksi expansion terms. Perbedaannya adalah expansion terms terseleksi dari segmen peringkat x teratas bukan dokumen peringkat k teratas. Semua expansion terms kecuali yang sama dengan kueri asli pada segmen peringkat x teratas diberikan bobot berdasarkan nilai TSVterm selection value (Yu, Cai, Wen & Ma 2003), dengan formula sebagai berikut: TSV = w (1 ) * r/r. Asumsi, w (1 ) adalah idf (inverse document frequency) yang dihasilkan dari proses temukembali awal, R adalah jumlah segmen terseleksi dan r adalah jumlah segmen terseleksi dan mengandung expansion terms t. Dengan demikian, didapatkan expansion terms peringkat y teratas. dokumen spasi, tanda baca dan lain-lain kata buangan kata benda Pengindeksan teks pengenalan struktur teks teks + struktur struktur teks Istilah indeks Gambar 4 Tahapan dalam praproses dokumen. Temu-kembali Final Menurut Yu, Wen & Ma. (2003), bobot istilah untuk kueri yang diperluas akan diatur menurut aturan sebagai berikut: Bobot baru kueri asli adalah (tf*2) * idf, tf adalah frekuensi istilah pada kueri. Bobot baru kueri perluasan adalah 1-(r- 1)/n* idf. Asumsi, jika kueri perluasan berada di peringkat ke-r dari n expansion terms yang terseleksi. Kueri yang diperluas digunakan untuk memproses korpus dokumen XML dengan proses yang sama dengan temu-kembali awal. Hasil dari proses ini akan menjadi hasil akhir proses temu-kembali informasi. Evaluasi Hasil Temu-kembali Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temukembali. Recall adalah rasio dokumen relevan yang ditemukembalikan. Precision adalah dokumen yang ditemukembalikan, dokumen tersebut relevan. Average precision (AVP) dilakukan karena digunakan beberapa kueri pada tahap evaluasi ini. AVP dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%. Pada saat level recall 0%, precision diperoleh dengan cara interpolasi (Baeza-Yates & Ribeiro-Neto 1999). Pengaruh pengunaan PRF berdasarkan segmentasi dokumen diukur dengan cara membandingkan kinerja temu-kembali tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Pengujian kinerja dilakukan menurut gugus kueri dan jawaban (lihat Lampiran 3). HASIL DAN PEMBAHASAN Penelitian dilakukan dengan menggunakan koleksi pengujian yang tersedia di Laboratorium Temu-kembali Informasi sejak bulan Pebruari 2009 dan dijalankan menggunakan bahasa pemrograman PHP. Dalam sistem temu-kembali informasi, penentuan koleksi pengujian sangat penting dilakukan, karena dengan adanya perbedaan dari koleksi pengujian maka hasil akhir temu-kembali akan berbeda juga. Koleksi pengujian ini terdiri atas koleksi dokumen, daftar karakter dan kata buangan yang telah dimodifikasi, gugus kueri dan jawaban. Temu-kembali Informasi Klasik Sebelum menerapkan teknik VSM, dilakukan praproses dokumen pada koleksi dokumen untuk mendapatkan indeks istilah. Praproses dokumen dibagi ke dalam tiga tahap 4

13 pengoperasian teks, yaitu: tokenisasi, eliminasi kata buangan dan pengindeksan teks dalam dokumen. Sebelum melakukan tokenisasi, dilakukan proses pembentukan id dan isi dokumen. Semua huruf pada koleksi dokumen diubah menjadi huruf kecil dengan menggunakan fungsi strtolower, kemudian tag XML dieliminasi dan dibentuk segmen berdasarkan tag <TITLE>, <AUTHOR> dan <P>. Potongan-potongan segmen yang didapat berikut asal dokumen dikumpulkan ke dalam file SegmentCollection.txt. Setiap segmen didalam file SegmentCollection.txt digabungkan menurut asal dokumennya. Gambar 5 menjelaskan pembentukan id dan isi dokumen dari koleksi dokumen. Isi dokumen diproses secara sekuensial per karakter dan menghasilkan indeks istilah beserta posisinya dalam dokumen. Tokenisasi diterapkan sebagai berikut: 1. Isi dokumen dibedakan menurut jenis karakter, yaitu: a. whitespace, yaitu karakter pemisah indeks istilah b. alpha, yaitu karakter huruf c. numeric, yaitu karakter angka d. other, yaitu karakter yang tidak termasuk tiga jenis karakter di atas. 2. Jika karakter yang ditemukan merupakan karakter alpha, maka karakter tersebut menjadi indeks istilah, selainnya dibuang. Proses pembuangan karakter yang tidak diperlukan dibantu oleh fungsi preg_split. Hasil dari fungsi preg_split ini juga menerapkan tahap pengindeksan teks dalam dokumen. 3. Hitung panjang dari hasil indeks istilah yang didapat. Jika panjang indeks istilah lebih besar sama dengan tiga, maka indeks istilah tersebut menjadi input untuk tahap eliminasi kata buangan. 4. Hasil dari proses tokenisasi berupa id dokumen berikut hasil indeks istilah yang didapat. Output dari tokenisasi dijadikan input pada tahap eliminasi kata buangan. Pada tahap ini, hasil indeks istilah dibandingkan dengan katakata buangan (biasanya kata hubung). Jika indeks istilah yang didapat tidak termasuk dalam kata buangan, maka indeks istilah tersebut dijadikan input untuk metode vector space model,selainnya dibuang. Indeks istilah tersebut diproses menggunakan metode vector space model, metode ini dapat diuraikan sebagai berikut: Menghitung bobot untuk setiap indeks istilah menggunakan pendekatan tf.idf. Menghitung kemiripan nilai kosinus. Dokumen akan diurutkan berdasarkan nilai kemiripan kosinus, pengurutan dilakukan dari nilai kemiripan kosinus terbesar sampai dengan terkecil. Dengan demikian, didapatkanlah dokumen peringkat k teratas. Implementasi antarmuka sistem digambarkan pada Lampiran 1. Evaluasi Pseudo-Relevance Feedback Berdasarkan segmentasi Dokumen Untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas, dilakukan evaluasi PRF dengan mengambil dokumen peringkat 5, 10 dan 20 teratas. Gambar 5 mengilustrasikan perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas (lihat Lampiran 5). Gambar 5 Perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas. 5

14 Pada Gambar 5 terlihat bahwa kinerja kueri perluasan optimal saat pengambilan dokumen peringkat 5 teratas. Pengambilan dokumen peringkat 20 teratas memiliki kinerja kueri paling kecil. Hal ini disebabkan banyaknya dokumen tidak relevan dalam dokumen peringkat 20 teratas, sehingga kueri perluasan yang diambil juga kebanyakan dari topik yang tidak relevan. Untuk mengetahui pengaruh pengambilan segmen peringkat y teratas, dilakukan evaluasi PRF berdasarkan segmentasi dokumen dengan mengambil segmen peringkat 5, 10 dan 20 teratas. Gambar 6 mengilustrasikan perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat y teratas (lihat Lampiran 6). Pada Gambar 6 terlihat bahwa kinerja kueri perluasan optimal saat pengambilan segmen peringkat 5 teratas. Pengambilan segmen peringkat 20 teratas memiliki kinerja kueri paling kecil. Hal ini disebabkan banyaknya segmen tidak relevan dalam segmen peringkat 20 teratas, sehingga kueri perluasan yang diambil kebanyakan dari topik tidak relevan. Perbandingan kinerja sistem dilakukan dengan membandingkan sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Gambar 7 mengilustrasikan perbandingan kinerja sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Perbandingan nilai average precision yang didapat untuk ketiga perlakuan sistem tersebut ditunjukkan pada Tabel 2(lihat Lampiran 4, 5 dan 6). Gambar 7 Perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat y teratas. Gambar 7 Perbandingan kinerja sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. 6

15 Tabel 2 Perbandingan nilai average precision Perlakuan Sistem AVP Tanpa PRF PRF PRF berdasarkan segmentasi dokumen Hasil uji menunjukkan bahwa kinerja sistem yang didapat cukup baik, yaitu senilai Kinerja hasil temu-kembali PRF berdasarkan segmentasi dokumen dan tanpa PRF tidak ditemukan perbedaan yang signifikan, meskipun hasil tanpa PRF menghasilkan kinerja sistem paling baik. Hal ini dikarenakan terambilnya dokumen, segmen tidak relevan, kueri perluasan bukan merupakan kata penciri segmen, dokumen yang digunakan relatif sedikit, yaitu 1000 dokumen. Kesimpulan KESIMPULAN DAN SARAN Hasil penelitian menunjukkan bahwa: 1. Kinerja sistem yang didapat cukup baik, yaitu lebih dari 50 %. 2. Kinerja hasil temu-kembali PRF berdasarkan segmentasi dokumen dan tanpa PRF tidak ditemukan perbedaan yang signifikan. Hal ini dikarenakan terambilnya dokumen dan segmen yang tidak relevan, kueri perluasan yang terambil bukan merupakan kata penciri segmen, jumlah dokumen yang digunakan relatif sedikit yaitu 1000 dokumen. Saran Hasil temu-kembali awal diperbaiki terlebih dahulu dengan cara menghilangkan kesalahan penulisan pada koleksi dokumen, daftar kata buangan yang belum tereliminasi perlu dihilangkan dan menambah tahap stemming pada praproses dokumen. Teknik RF dapat dilakukan untuk penelitian selanjutnya sehingga dokumen yang digunakan dalam perluasan kueri merupakan dokumen relevan. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. England: Addison Wesley. Rijsbergen C J V, Information Retrieval. Butterworths: University of Glasgow. Manning C D, Raghavan P, Schütze H Introduction to Information Retrieval. Cambridge: Cambridge University Press. Yu S, Cai D, Wen J-R, Ma W-Y Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation. In The Fifth Asia Pacific Web Conference. Yu S, Cai D, Wen J-R, Ma W-Y VIPS: a Vision-base Page Segmentation Algorithm. In The Fifth Asia Pacific Web Conference. 7

16 LAMPIRAN

17 Lampiran 1 Antarmuka implementasi 9

18 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian <DOC> <DOCNO>gatra180702</DOCNO> <TITLE>Kiemas dan Lima Menteri akan Bahas Agenda Pembangunan Pro Petani</TITLE> <AUTHOR>Tma dan Ant</AUTHOR> <DATE> 18 Juli 2002</DATE> <TEXT> <P> Suami Presiden Megawati Soekarnoputri, Taufik Kiemas disertai lima menteri kabinet gotong royong, Kamis, dijadwalkan datang ke Bogor untuk membahas agenda pembangunan yang pro-petani. Para menteri yang menyertai Taufik Kiemas itu adalah Mensritek Hatta Radjasa, Menperindag Rini Suwandi, Menhut Prakosa, Menteri Kelautan dan Perikanan Rokhmin Dahuri serta Menteri Pertanian Bungaran Saragih. </P> <P> Menurut informasi dari berbagai pihak di Bogor, agenda yang akan dibahas dalam kunjungan ke Kota Hujan itu terkait dengan soal-soal pembangunan yang pro-petani. Hal ini karena di kota Bogor terdapat sejumlah perguruan tinggi baik negeri maupun swasta punya fakultas, jurusan maupun program studi pada ilmu-ilmu pertanian. Di Bogor juga terdapat Institut Pertanian Bogor (IPB) yang disebut sebagai institusi pendidikan tinggi terbesar kedua di Asia untuk pertanian tropika. </P> </TEXT> </DOC> 10

19 Lampiran 3 Gugus Kueri dan Jawaban Kueri Bencana kekeringan Dukungan pemerintah pertanian Flu burung Gabah giling pada kering Gagal panen/puso Gugus Jawaban gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar , indosiar310504, kompas210504, kompas250803, mediaindonesia , mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika , republika , republika , republika , republika , republika , republika , republika200603, republika , republika250604, republika270503, republika , situshijau , suarakarya , suarakarya , suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan indosiar070504, jurnal , kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika , republika , republika , situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka130902, wartapenelitian , wartapenelitian gatra220604, gatra , gatra , gatra300104, indosiar020304, indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka160204, suaramerdeka indosiar180603, indosiar240703, indosiar300304, kompas , kompas , kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika , republika , republika100804, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suaramerdeka gatra070203, gatra190802, gatra , gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar , indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar , indosiar , kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia , mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika , republika , republika080703, republika , republika , republika , republika , republika200603, republika , republika , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan , suarapembaruan

20 Lanjutan Kueri Impor indonesia beras Gugus Jawaban gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar , kompas , kompas , kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas , kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika , republika , republika090902, republika100703, republika , republika , republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka130104, suaramerdeka , suaramerdeka270601, suarapembaruan100903, suarapembaruan Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia , pikiranrakyat , republika , republika020804, republika090902, republika100902, republika , republika , republika301002, situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan Institut pertanian bogor Kelangkaan pupuk Kelompok masyarakat tani/kelompok tani Laboratorium pertanian gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas , kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia , republika , republika061003, republika , republika , republika , republika , republika , republika , republika , republika180303, republika180604, republika , republika , republika211002, republika , republika , situshijau070503, situshijau , situshijau , suarakarya , suarakarya , suarapembaruan150903, suarapembaruan indosiar010704, indosiar060204, indosiar , indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas , pikiranrakyat , republika050604, republika , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka bitraindonesia , indosiar , jurnal , kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas , kompas , kompas , replubika110804, republika030304, republika , republika , republika140703, republika151202, republika180303, republika , republika280703, republika , situshijau070503, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suaramerdeka260902, suarapembaruan090202, suarapembaruan balaipenelitian , gatra100203, indobic , indosiar010704, jurnal , kompas220801, kompas241203, kompas , mediaindonesia , republika , republika , republika , republika , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suaramerdeka

21 Lanjutan Kueri Gugus Jawaban Musim panen gatra , gatra , gatra240203, indosiar010504, indosiar , indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas , kompas041103, kompas , kompas240103, kompas , mediaindonesia , mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika , republika , republika , republika151202, republika171102, republika , republika , republika , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suarakarya , suaramerdeka120104, suaramerdeka290901, suarapembaruan Pembangunan untuk sektor pertanian Penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia gatra180304, jurnal , kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas , kompas190802, kompas191099, kompas200799, kompas210502, kompas , kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia , mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika , republika , republika , republika150903, republika190803, republika , republika , republika , situshijau , situshijau280203, suarapembaruan jurnal , kompas121099, puslitbang , republika , republika , situshijau , situshijau , situshijau040603, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau160103, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau300403, situshijau310303, situshijau no, suarakarya , suarakarya , suarapembaruan020603, suarapembaruan no, suarapembaruan151102, wartapenelitian

22 Lanjutan Kueri Penerapan teknologi pertanian Penyakit hewan ternak/penyakit ternak Gugus Jawaban indosiar , jurnal , jurnal , jurnal , jurnal , jurnal , kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika , republika , republika , republika201102, republika , republika , republika260803, situshijau , situshijau080103, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , suarakarya , suarapembaruan No, suarapembaruan060602, suarapembaruan160702, wartapenelitian , wartapenelitian , wartapenelitian gatra , gatra , gatra300104, mediaindonesia090204, republika150103, republika , republika , republika , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka Penyuluhan pertanian bitraindonesia , gatra , indosiar310504, jurnal , jurnal , kompas050802, kompas130699, kompas170104, kompas , mediaindonesia160603, poskota110703, republika , republika , republika061003, republika171003, republika180303, republika200203, republika , republika , republika , republika , situshijau , situshijau , situshijau , suaramerdeka271102, wartapenelitian , wartapenelitian Perdagangan hasil pertanian Pertanian organik/sistem pertanian organik Petani tebu gatra011102, indosiar070204, indosiar201103, jurnal , jurnal , kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas , kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika , republika041102, republika281202, situshijau , situshijau191103, situshijau , suarakarya , suaramerdeka120104, suaramerdeka270601, suarapembaruan , suarapembaruan , wartapenelitian indosiar , jurnal , kompas010499, kompas , kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas , kompas , republika , republika150303, republika180303, situshijau070503, situshijau , situshijau , situshijau , suarakarya , suarapembaruan , suarapembaruan090202, suarapembaruan , suarapembaruan indosiar , indosiar290604, kompas031003, kompas250901, kompas310702, republika , republika020804, republika100902, republika , republika , republika , republika , republika , republika , situshijau280203, suarakarya , suarakarya , suaramerdeka130902, suarapembaruan100903, suarapembaruan

23 Lanjutan Kueri Peternak unggas/peternak ayam/peternak burung Produk usaha peternakan rakyat/produk peternakan Gugus Jawaban gatra , gatra , gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal , kompas051103, kompas120101, mediaindonesia090204, republika061003, republika , republika , republika , situshijau , suarakarya , suarakarya , suarakarya , suarakarya , suarapembaruan jurnal , kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika , republika150303, republika , republika , republika , republika , republika , republika , situshijau , suarakarya , suarakarya , suarakarya , suarakarya , suarapembaruan Pupuk organik balaipenelitian , kompas , kompas280502, kompas , republika , republika190104, republika201102, republika270604, situshijau , situshijau , suarakarya , suarakarya , suaramerdeka031101, suaramerdeka , suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian , wartapenelitian Riset pertanian balaipenelitian , gatra , indobic , jurnal , jurnal , jurnal , jurnal , jurnal , kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang , republika , republika , republika , republika140104, republika , republika , republika , republika , republika , republika , republika241203, republika260803, republika280703, republika , situshijau040603, situshijau070503, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau no, situshijau , situshijau , situshijau , situshijau250203, situshijau , situshijau , situshijau300403, situshijau310303, suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka270601, suarapembaruan , suarapembaruan020603, suarapembaruan060602, suarapembaruan110702, suarapembaruan , suarapembaruan151102, suarapembaruan160702, suarapembaruan241003, suarapembaruan , wartapenelitian , wartapenelitian

24 Lanjutan Kueri Swasembada pangan Gugus Jawaban indosiar , kompas060503, kompas100901, kompas110201, kompas , kompas170104, kompas230603, kompas230899, kompas , kompas270401, kompas , mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika , republika , republika , republika , republika , republika , republika , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka , suarapembaruan110903, suarapembaruan Tadah hujan gatra210704, gatra301002, indosiar , indosiar310504, jurnal , kompas , mediaindonesia160603, mediaindonesia310503, republika , republika , republika , republika , republika , suarakarya , suarakarya , suaramerdeka130602, suarapembaruan , wartapenelitian Tanaman obat balaipenelitian , balaipenelitian , indobic120504, indosiar010704, indosiar , republika , republika , republika270604, republika , situshijau , situshijau041203, situshijau060503, situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau , situshijau Tanaman pangan bitraindonesia , indosiar , indosiar030304, indosiar , indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika , republika150903, republika200603, republika , republika , republika241203, republika , republika271003, situshijau , situshijau , situshijau , situshijau , suarakarya , suarakarya , suarakarya , suarakarya , suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan Upaya peningkatan pendapatan petani/peningkatan pendapatan petani indosiar , jurnal , kompas , kompas031003, kompas100399, kompas170903, kompas200802, kompas210502, kompas260702, kompas , kompas300402, kompas , pembaruan110903, poskota110703, republika , republika , republika , republika , republika230404, republika , republika , republika , republika241203, republika281202, republika , situshijau , situshijau , situshijau , situshijau , situshijau280203, suaramerdeka120104, suaramerdeka , suarapembaruan060602, suarapembaruan , wartapenelitian

25 Lampiran 4 Tabel hasil analisis kinerja sistem tanpa PRF Topik Recall bencana kekeringan dukungan pemerintah pada pertanian flu burung gabah kering giling gagal panen/puso harga komoditas pertanian impor beras indonesia industri gula institut pertanian bogor kelangkaan pupuk kelompok masyarakat tani/kelompok tani laboratorium pertanian musim panen pembangunan untuk sektor pertanian penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia penerapan teknologi pertanian penyakit hewan ternak/penyakit ternak penyuluhan pertanian perdagangan hasil pertanian pertanian organik/sistem pertanian organik petani tebu peternak unggas/peternak ayam/peternak burung produk usaha peternakan rakyat/produk peternakan pupuk organik riset pertanian swasembada pangan tadah hujan tanaman obat tanaman pangan upaya peningkatan pendapatan petani/peningkatan pendapatan petani Maximum Minimum Average

26 Lampiran 5 Tabel hasil analisis kinerja sistem PRF Tabel kinerja sistem PRF dalam pengambilan dokumen peringkat 5 teratas Topik Recall bencana kekeringan dukungan pemerintah pada pertanian flu burung gabah kering giling gagal panen/puso harga komoditas pertanian impor beras indonesia industri gula institut pertanian bogor kelangkaan pupuk kelompok masyarakat tani/kelompok tani laboratorium pertanian musim panen pembangunan untuk sektor pertanian penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia penerapan teknologi pertanian penyakit hewan ternak/penyakit ternak penyuluhan pertanian perdagangan hasil pertanian pertanian organik/sistem pertanian organik petani tebu peternak unggas/peternak ayam/peternak burung produk usaha peternakan rakyat/produk peternakan pupuk organik riset pertanian swasembada pangan tadah hujan tanaman obat tanaman pangan upaya peningkatan pendapatan petani/peningkatan pendapatan petani Maximum Minimum Average

Lampiran 1 Antarmuka implementasi

Lampiran 1 Antarmuka implementasi LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH

STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH STUDI KOMPARATIF PEMBOBOTAN KATA UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA HAFIZHIA DHIKRUL ANUGRAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI

PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Oleh: Andika Wahyu Agusetyawan G64101007 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI INFORMASI BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA ANITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI

PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI PENCARIAN TEKS BAHASA INDONESIA PADA MESIN PENCARI BERBASIS SOUNDEX EDO APRIYADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI

PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi (TKI) Information Retrieval (IR) Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN KAMUS DWIBAHASA NETTY LAORA SITOHANG

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN KAMUS DWIBAHASA NETTY LAORA SITOHANG EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN KAMUS DWIBAHASA NETTY LAORA SITOHANG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUANN ALAM INSTITUT PERTANIAN

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH

PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS LOKAL FANIA RAHMANAWATI KARIMAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN 1 EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN MOHAMAD REZA PANCAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH

POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH POSITIONAL RELEVANCE MODEL UNTUK PSEUDO RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA SAPARIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE Sri Ulinar Romatua N B¹, Yanuar Firdaus A.w.², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Dengan semakin

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR Julio Adisantoso, Ahmad Ridha, Andika Wahyu Agusetyawan Staf Departemen Ilmu Komputer, Fakultas Matematika

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

Mengenal Information Retrieval

Mengenal Information Retrieval STBI-2011 Sistem Temu Balik Informasi 2011 Mengenal Information Retrieval Husni husni@if.trunojoyo.ac.id Husni.trunojoyo.ac.id Komputasi.wordpress.com 2 3 Amazon.com 4 Amazon.com 5 6 7 8 9 Wordpress.com

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI Pendahuluan JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 PENDAHULUAN Pendahuluan Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT MUHAMMAD AWET SAMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM. Oleh: WULAN ANGGRAENI G

PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM. Oleh: WULAN ANGGRAENI G PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM Oleh: WULAN ANGGRAENI G54101038 PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA Broto Poernomo T.P. 1 dan Ir. Gunawan 2 1 Teknik Informtika Sekolah Tinggi

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS Surya Agustian 1, Imelda Sukma Wulandari 2 1,2 Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

PENAMPILAN ANAK ITIK YANG DIPELIHARA BERDASARKAN KELOMPOK BOBOT TETAS KECIL, BESAR DAN CAMPURAN SKRIPSI KOMARUDIN

PENAMPILAN ANAK ITIK YANG DIPELIHARA BERDASARKAN KELOMPOK BOBOT TETAS KECIL, BESAR DAN CAMPURAN SKRIPSI KOMARUDIN PENAMPILAN ANAK ITIK YANG DIPELIHARA BERDASARKAN KELOMPOK BOBOT TETAS KECIL, BESAR DAN CAMPURAN SKRIPSI KOMARUDIN PROGRAM STUDI TEKNOLOGI PRODUKSI TERNAK FAKULTAS PETERNAKAN INSTITUT PERTANIAN BOGOR 2007

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #1 Kontrak Perkuliahan Pendahuluan Matakuliah Nama Matakuliah : Temu Kembali Informasi Kode Matakuliah : KOM431 Beban Kredit : 3(3-0) Semester : Gasal, 2009/2010 Koordinator

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

2. Ketepatan untuk setiap jawaban.

2. Ketepatan untuk setiap jawaban. dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek

Lebih terperinci