RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN

Ukuran: px
Mulai penontonan dengan halaman:

Download "RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN"

Transkripsi

1 RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2015 Reza Kemal Zaen NIM G

4 ABSTRAK REZA KEMAL ZAEN. RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks. Dibimbing oleh JULIO ADISANTOSO. Penelitian temu kembali informasi pada dokumen RDF sudah dilakukan. Akan tetapi, penelitian tersebut belum memperhatikan struktur dari dokumen RDF. Penelitian ini mengembangkan sistem temu kembali informasi pada dokumen RDF dengan memperhatikan struktur dokumen yaitu dengan membedakan bobot pada setiap konteks (tag) yang ada pada dokumen RDF. Pembobotan yang digunakan adalah tf-idf. Bobot yang dihasilkan pada setiap konteks dikalikan dengan suatu koefisien dengan nilai 0.2, 0.4, 0.6, 0.8, atau 1.0. Sistem temu kembali informasi yang dibangun dievaluasi dengan menggunakan 29 kueri. Penelitian ini menghasilkan nilai average precision (AVP) sebesar Nilai tersebut lebih tinggi 1.91% jika dibandingkan dengan sistem temu kembali informasi yang tidak membedakan bobot per konteks. Kata kunci: pembobotan konteks, RDF, temu kembali informasi. ABSTRACT REZA KEMAL ZAEN. RDF Retrieval of Document Bahasa Indonesia Using Context Weighting. Supervised by JULIO ADISANTOSO. Research on information retrieval using RDF document has been conducted, but the study did not consider the structure of RDF documents. This research develops an information retrieval system for RDF documents to distinguish weights of each context in an RDF document. The weighting used is tf-idf. Weights in each context are multiplied by a coefficient with a value of 0.2, 0.4, 0.6, 0.8, or 1.0. The information retrieval system is evaluated by using 29 queries. As the result of this experiment, an average precision value of was obtained. The value increased by 1.91% compared with the information retrieval system without context weighting. Keywords: context weighting, information retrieval, RDF.

5 RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji : 1 Ahmad Ridha, SKom MS 2 Dr. Irman Hermadi, SSi MS

7 Judul Skripsi : RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks Nama : Reza Kemal Zaen NIM : G Disetujui oleh Ir. Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga tugas akhir ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan September 2014 ini ialah temu kembali informasi, dengan judul RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks. Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso M.Kom selaku pembimbing yang telah membantu penulis dalam menyusun tugas akhir ini. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, kakak, adik, serta seluruh keluarga, atas segala doa dan dukungan yang selalu diberikan. Begitu pula rasa terima kasih penulis ungkapkan kepada Rizki dan Luthfi selaku teman seperjuangan dalam menyelesaikan tugas akhir ini serta teman-teman Ilmu Komputer angkatan 48 atas kebersamaan, dukungan semangat yang diberikan kepada penulis. Semoga tugas akhir ini dapat bermanfaat. Bogor, Desember 2015 Reza Kemal Zaen

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 1 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 2 Dokumen RDF 3 Penyimpanan Dokumen pada Sesame 3 Proses Indexing 4 Pencarian Dokumen 4 Evaluasi Sistem 5 HASIL DAN PEMBAHASAN 6 Dokumen RDF 6 Penyimpanan Dokumen pada Sesame 7 Proses Indexing 7 Pencarian Dokumen 8 Evaluasi Sistem 8 Temu Kembali Informasi Dokumen RDF Gen 12 SIMPULAN DAN SARAN 13 Simpulan 13 Saran 14 DAFTAR PUSTAKA 14 LAMPIRAN 15 RIWAYAT HIDUP 22

10 DAFTAR TABEL 1 Relevant dan retrieved dokumen 5 2 Hasil pencarian dokumen RDF 9 3 Hasil interpolasi antara precision dan recall untuk setiap kombinasi pada sistem temu kembali yang membedakan bobot per konteks 10 4 Predikat pada dokumen RDF gen 12 DAFTAR GAMBAR 1 Diagram alur penelitian 2 2 Grafik perbandingan sistem temu kembali yang tidak membedakan bobot per konteks ( ) dengan yang membedakan bobot per konteks( ) 11 3 Potongan dokumen RDF gen 12 4 Kueri SPARQL yang digunakan untuk parsing data RDF Tanaman Obat 12 5 Kueri SPARQL yang digunakan untuk parsing data RDF Gen 13 DAFTAR LAMPIRAN 1 Contoh dokumen RDF tanaman obat 15 2 Daftar kombinasi koefisien bobot yang digunakan dalam penelitian 16 3 Daftar kueri dan dokumen relevan 17 4 Nilai precision berdasarkan 11 standar recall tanpa pembobotan per konteks 18 5 Nilai precision berdasarkan 11 standar recall dengan pembobotan per konteks pada AVP tertinggi 20

11 PENDAHULUAN Latar Belakang Seiring dengan berkembangnya teknologi informasi mengakibatkan semakin bertambah banyaknya jumlah informasi. Bertambahnya jumlah informasi menimbulkan masalah bagaimana mendapatkan infomasi yang dibutuhkan secara cepat dan akurat. Temu kembali informasi (information retrieval) merupakan suatu bidang ilmu dalam ilmu komputer yang menjawab permasalahan tersebut. Tujuan dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza- Yates dan Ribeiro-Neto 1999). Dalam pengembangan temu kembali informasi pada dokumen, format dokumen yang biasa digunakan adalah extensible Markup Language (XML). XML memiliki kemampuan untuk menyimpan data secara terstruktur serta sebagai format dalam pertukaran data. Selain XML, terdapat format data lain terstruktur yaitu Resource Description Framework (RDF). RDF merupakan model metadata dari bahasa yang direkomendasikan oleh W3C untuk membangun infrastruktur web semantik (Gutierrez et al. 2007). Dalam web semantik, RDF dapat merepresentasikan data berbasis ontologi. Penggunaan ontologi dalam temu kembali informasi memungkinkan untuk mendapatkan konsep dan relasi yang merepresentasikan pengetahuan dari suatu dokumen dalam domain yang spesifik, sehingga dokumen bisa diinterpretasikan bukan hanya secara sintak, tetapi juga secara semantik. Penelitian di bidang temu kembali informasi pada dokumen RDF sudah banyak dilakukan, di antaranya adalah Minack (2008) yang melakukan penelitian dengan membuat full-text search pada dokumen RDF. Penelitian dokumen RDF lainnya dilakukan oleh Noviandi (2014) yaitu dengan membuat search engine dokumen RDF tanaman obat menggunakan Sesame dan Lucene. Pada penelitian tersebut, struktur konteks (tag) pada Dokumen RDF tanaman obat yang digunakan tidak diperhatikan sehingga bobot dari setiap konteks pada dokumen RDF tidak dibedakan. Setiap konteks pada dokumen RDF memiliki tingkat kepentingan yang berbeda. Membedakan tingkat kepentingan dari setiap konteks yang ada pada dokumen RDF dapat dilakukan dengan memberikan bobot yang berbeda pada setiap konteks. Oleh karna itu, penelitian ini mengembangkan sistem temu kembali informasi pada dokumen terstruktur RDF dengan memperhatikan struktur dokumen yaitu dengan memberikan bobot pada setiap konteks yang ada pada dokumen RDF. Hasil penelitian ini diharapkan dapat memperbaiki nilai average precision pada temu kembali informasi dokumen RDF bahasa Indonesia. Perumusan Masalah Perumusan masalah dari penelitian ini adalah: 1 Bagaimana mengimplementasikan sistem temu kembali informasi dokumen RDF pada dokumen bahasa Indonesia dengan memperhatikan struktur dokumen?

12 2 2 Bagaimana kinerja sistem yang dibangun dalam mengembalikan jawaban yang relevan dari kumpulan dokumen RDF? 3 Apakah pemberian bobot pada konteks dapat memperbaiki kinerja sistem? Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Mengimplementasikan sistem temu kembali informasi RDF pada dokuman bahasa Indonesia dengan memperhatikan struktur dokumen. 2 Menelaah kinerja sistem yang dibangun dalam mengembalikan jawaban yang relevan dari kumpulan dokumen RDF. Manfaat Penelitian Hasil penelitian ini diharapkan dapat menbantu pengguna dalam menemukan dokumen RDF yang sesuai dengan kueri yang dimasukkan. Ruang Lingkup Penelitian Ruang lingkup penelitian ini antara lain: 1 Dokumen yang digunakan dalam penelitian adalah dokumen RDF tanaman obat yang masing-masing dokumen memiliki struktur yang sama. 2 Dokumen RDF tidak sampai membentuk ontologi. METODE Secara garis besar penelitian dilakukan dalam beberapa tahap, yaitu perolehan dokumen RDF, menyimpan dokumen dalam aplikasi Sesame, proses indexing, pencarian dokumen, dan evaluasi sistem. Gambaran umum sistem yang dikembangkan dapat dilihat pada Gambar 1. Mulai Query Dokumen RDF Proses Indexing Similarity Penyimpanan Dokumen pada Sesame Evaluasi Selesai Gambar 1 Diagram alur penelitian

13 3 Dokumen RDF RDF merupakan bahasa yang digunakan untuk merepresentasikan metadata. RDF mendukung interoperabilitas antar-aplikasi yang mempertukarkan informasi yang bersifat machine undestandable pada web. Web semantik terdiri dari data yang ditulis dalam bahasa yang dapat dimengerti oleh mesin seperti RDF dan XML. RDF menggunakan graf untuk merepresentasikan kumpulan pernyataan. Simpul dalam graf mewakili suatu entitas, dan tanda panah mewakili relasi. Model konseptual pada RDF adalah graf dan untuk mempertukarkan metadata pada RDF digunakan sintaks dasar XML sehingga disebut juga RDF/XML (Manola dan Miller, 2004). RDF dan XML merupakan model metadata dari bahasa yang direkomendasikan oleh W3C untuk membangun infrastruktur web semantik. Tetapi keduanya memiliki fungsi yang berbeda dalam infrastruktur semantik. XML berkaitan dengan format pertukaran data, sedangkan RDF berkaitan dengan konten informasi. Pada RDF, sebuah deskripsi dari sumber direpresentasikan sebagai sejumlah triple, tiga bagian dari setiap triple disebut subjek, predikat, dan objek. Subjek dari triple adalah Uniform Resource Identifier (URI) yang mendefinisikan sumber. Objek dapat berupa nilai literal sederhana, seperti string, numerik, tanggal, atau URI dari sumberdaya lainnya yang berkaitan dengan subjek. Predikat mengindikasikan hubungan antara subjek dan objek. Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumen tanaman obat berbahasa Indonesia yang berjumlah 99 dokumen. Dokumendokumen tersebut berasal dari Laboratorium Temu Kembali Departemen Ilmu Komputer IPB. Koleksi dokumen tersebut memiliki struktur RDF yang seragam. Koleksi dokumen tersebut memiliki struktur sebagai berikut: <rdf:description rdf:about=" "> <tanaman:id>.. </tanaman:id> <tanaman:famili>..... </tanaman:famili> <tanaman:nama>.. </tanaman:nama> <tanaman:latin>. </tanaman:latin> <tanaman:bagian>... </tanaman:bagian> <tanaman:manfaat>.. </tanaman:manfaat> <tanaman:kandungan>... </tanaman:kandungan> <tanaman:deskripsi>.. </tanaman:deskripsi> <tanaman:penyakit>... </tanaman:penyakit> </rdf:description> Selain dokumen tanaman obat, digunakan juga dokumen RDF gen yang berasal dari ICS-FORTH (Institute of Computer Science - Foundation of Research Technology Hellas - Greece) dan dokumen tersebut diambil dari situs :9090/RDF/VRP/Examples/go.rdf. Penyimpanan Dokumen pada Sesame Sesame merupakan aplikasi yang dikembangkan oleh Aduna yang menyediakan fungsi untuk parsing, menyimpan, dan kueri pada data RDF. Sesame menyediakan dua bahasa kueri yaitu SeRQL dan SPARQL. SeRQL dan

14 4 SPARQL merupakan bahasa kueri yang dikembangkan oleh Aduna yang digunakan untuk memanipulasi data dan parsing data RDF. Koleksi dokumen RDF tanaman obat yang digunakan untuk penelitian disimpan di dalam aplikasi Sesame. Dokumen RDF tanaman obat disimpan pada aplikasi Sesame untuk di parsing menggunakan kueri SPARQL Proses Indexing Dalam sistem temu kembali informasi, dokumen yang ditemukembalikan akan melalui proses indexing sebelum dicocokkan dengan kueri. Beberapa tahapan dalam indexing pada di antaranya adalah tokenisasi, pembuangan stopwords, pemotongan imbuhan (stemming), pembobotan dan pembuatan indeks. Tokenisasi berfungsi untuk memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal dan pengubahan setiap kata menjadi huruf kecil. Stemming berfungsi untuk menghilangkan variasi morfologi kata dengan cara menghilangkan imbuhan pada setiap kata. Stopword merupakan proses penghilangan kata-kata umum yang tidak memiliki makna penting. Stopwords dibuang karena dianggap akan mengurangi akurasi dari informasi yang di temu-kembalikan (Manning et al. 2008). Pembobotan pada Lucene menggunakan pembobotan tf-idf. Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Document frequency (df) merupakan banyaknya dokumen dalam korpus yang mengandung kata tertentu. Pembobotan tf-idf memberikan bobot term t dalam dokumen d dengan nilai (Manning et al. 2008) wd,t = tft,d idft dengan tft,d merupakan frekuensi term t pada dokumen d, idf = 1+log(N/dft), N adalah jumlah dokumen dalam koleksi, dan dft adalah dokumen yang mengandung term t. Pada penelitian ini, pembobotan dari setiap konteks yang ada pada dokumen RDF akan dibedakan. Bobot pada setiap konteks akan dikalikan dengan suatu nilai koefisien, nilai koefisien tersebut adalah 0.2, 0.4, 0.6, 0.8, dan 1.0. Terdapat 8 konteks pada dokumen RDF yang akan dikalikan dengan nilai koefisien. 8 konteks tersebut adalah nama, famili, latin, bagian, manfaat, kandungan, deskripsi, dan penyakit. Pencarian Dokumen Proses pencarian dapat dilakukan jika dokumen sudah terindeks. Proses pencarian dilakukan dengan mencari kata-kata dalam sebuah indeks untuk menemukan dokumen dimana dokumen-dokumen itu muncul. Pencarian dilakukan dengan menghitung nilai kemiripan kueri dengan dokumen. Lucene menggunakan model matematika Vector Space Model (VSM) untuk menentukan bahwa sebuah dokumen itu relevan terhadap sebuah informasi. Model ini akan menghitung derajat kesamaan antara setiap dokumen yang disimpan di dalam sistem dengan kueri yang diberikan oleh pengguna. Dalam VSM terdapat beberapa ukuran kesamaan yang dapat digunakan di antaranya adalah inner, product, cosine, dice, jaccard, overlap dan asymmetric. Rahman (2006) membandingkan kinerja 4 ukuran kesamaan yaitu cosine, dice, (1)

15 jaccard, dan overlap, dan mendapatkan hasil bahwa cosine memiliki kinerja yang lebih baik dalam temu kembali informasi. Cosine menghitung nilai cosinus sudut antara 2 vektor. Jika terdapat dua vektor dokumen d dan kueri q, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara d dan q didefinisikan sebagai (Manning et al. 2008): 5 la (2) Lucene memodifikasi ukuran kesamaan cosine untuk mencari nilai scoring dan similarity menjadi: la ( ) (3) dengan tf adalah frekuensi e pada dokumen, tf adalah frekuensi e pada kueri, q adalah panjang vektor kueri, d adalah panjang vektor dokumen, dan adalah nilai e yang diberikan terhadap e pada kueri dengan nilai e aul 1.. Evaluasi Sistem Dua ukuran yang sering dipakai untuk mengukur efektifitas suatu sistem temu kembali informasi adalah recall dan precision. Recall adalah rasio antara dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen relevan yang ada di dalam sistem, sedangkan precision adalah rasio dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen yang berhasil ditemukembalikan (Manning et al. 2008). Tabel 1 Relevant dan retrieved dokumen Relevant Nonrelevant Retrieved True positives (tp) False positive (fp) Not retrieved False negatives (fn) True negatives (tn) Berdasarkan Tabel 1, nilai recall dan precision dapat ditulis sebagai: e (4) e all (5) dengan tp adalah dokumen relevan yang ditemukembalikan, fp adalah dokumen tidak relevan yang ditemukembalikan, fn merupakan dokumen relevan yang tidak ditemukembalikan, dan tn merupakan dokumen tidak relevan yang tidak

16 6 ditemukembalikan. tp+fp merupakan semua dokumen yang ditemukembalikan dan tp+fn merupakan semua dokumen yang relevan. Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan precision dalam menentukan tingkat keefektifan proses hasil temu-kembali. Jumlah kueri yang digunakan yaitu 29 kueri yang didapatkan dari penelitian Herawan (2011). Dalam perhitungan precision, digunakan 11 titik recall standar, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Hasil perhitungan recall dan precision untuk masing-masing koefisien bobot akan dibandingkan agar diketahui kombinasi koefisien bobot yang terbaik. Selain itu, nilai average precision juga dihitung. Selain pada dokumen RDF tanaman obat, pembangunan sistem temu kembali informasi juga dilakukan pada data dokumen RDF gen. Akan tetapi, dalam pengembangannya tidak dilakukan pembobotan per konteks dan tahap evaluasi. Pengembangan sistem temu kembali dokumen RDF gen dilakukan untuk diketahui apakah sistem temu kembali dokumen RDF dapat diterapkan pada dokumen RDF lainnya. HASIL DAN PEMBAHASAN Dokumen RDF Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumen tanaman obat berbahasa Indonesia yang berjumlah 99 dokumen. Dokumendokumen tersebut berasal dari Laboratorium Temu Kembali Departemen Ilmu Komputer IPB. Semua dokumen tanaman obat digabung dalam satu file dengan format RDF. Keloksi dokumen tersebut memiliki struktur tag yang seragam. Struktur tag yang digunakan dalam dokumen adalah: <rdf:rdf> </rdf:rdf>, mewakili namespace untuk dokumen RDF. <rdf:description> </rdf:description>, mewakili keseluruhan isi dari dokumen. Di dalamnya terdapat tag lain yang mewakili atribut dokumen. <rdf:about> </rdf:about>, mewakili id dokumen atau merupakan subjek pada RDF. <tanaman:id> </tanaman:id>, mewakili id dari tanaman obat. <tanaman:famili> </tanaman:famili>, mewakili famili tanaman obat. <tanaman:nama> </tanaman:nama>, mewakili nama tanaman obat. <tanaman:latin> </tanaman:latin>, mewakili nama latin tanaman obat. <tanaman:bagian> </tanaman:bagian>, mewakili bagian yang digunakan pada tanaman obat <tanaman:manfaat> </tanaman:manfaat>, mewakili manfaat dari tanaman obat. <tanaman:kandungan> </tanaman:kandungan>, mewakili kandungan dari tanaman obat. <tanaman:deskripsi> </tanaman:deskripsi>, mewakili deskripsi dari tanaman obat.

17 <tanaman:penyakit> </tanaman:penyakit>, mewakili penyakit yang dapat disembuhkan oleh tanaman obat. Pada field <tanaman:manfaat> dan <tanaman:kandungan> dibuat dalam bentuk rdf:bag karena dokumen tanaman obat memiliki manfaat dan kandungan yang banyak. Rdf:Bag merupakan tipe data dari RDF yang mendefinisikan bentuk list. Contoh dokumen RDF yang digunakan dapat dilihat pada Lampiran 1. Pada RDF, sebuah deskripsi dari sumber direpresentasikan sebagai sejumlah triple, tiga bagian dari setiap triple disebut subjek, predikat, dan objek. Contoh dokumen RDF tanaman obat (Lampiran 1) dapat didefinisikan menjadi: tanaman_1 memiliki famili Pancdanaceae tanaman_1 memiliki nama Pandan Wangi tanaman_1 memiliki latin Pandanaus amaryllifolius Roxb tanaman_1 memiliki bagian daun yang dapat dimanfaatkan tanaman_1 memiliki manfaat rambut rontok, menghitamkan rambut, menghilangkan ketombe, lemah saraf, tidak nafsu makan, rematik, pegal linu, dan sakit disertai gelisah. tanaman_1 memiliki kandungan alkaloida, saponin, flavonoida, tannin, polifenol dan zat warna. tanaman_1 memiliki deskripsi Tumbuh di tempat yang agak lembap, tumbuh subur dari daerah pantai, daerah dengan ketinggian 500m dpl. Batang bulat dengan bekas duduk daun, bercabang, menjalar, akar tunjang keluar di sekitar pangkal batang dan cabang. Penyimpanan Dokumen pada Sesame Koleksi dokumen RDF tanaman obat yang digunakan untuk penelitian disimpan didalam aplikasi Sesame. Dokumen RDF tanaman obat disimpan pada aplikasi Sesame untuk di parsing menggunakan kueri SPARQL. Dokumen RDF tanaman obat disimpan pada repositori Sesame dengan nama tanaman-obat. Proses Indexing Proses indexing dilakukan dengan menggunakan fungsi yang ada pada Lucene. Pembobotan pada Lucene menggunakan pembobotan tf-idf. Bobot pada masing-masing konteks pada dokumen RDF dibedakan dengan cara mengalikan hasil pembobotan tf-idf dengan suatu nilai koefisien bobot. Nilai koefisien yang digunakan adalah 0.2, 0.4, 0.6, 0.8, dan 1.0. Nilai koefisien bobot tersebut dikombinasikan dengan 8 konteks yang ada pada dokumen RDF tanaman obat. Koefisien bobot diberikan pada setiap konteks. Pemberian koefisien bobot diawali pada konteks deskripsi. Konteks deskripsi dikombinasikan dengan semua koefisien bobot yang digunakan. Koefisien bobot yang terbaik pada konteks deskripsi kemudian digunakan pada pengombinasian koefisien bobot konteks lainnya. Penentuan koefisien bobot terbaik di lihat berdasarkan nilai average precision. Daftar hasil kombinasi koefisien bobot yang dilakukan pada penelitian dapat dilihat pada Lampiran 2. 7

18 8 Pencarian Dokumen Pencarian Dokumen dapat dilakukan setelah proses indexing. Pencarian dokumen dilakukan dengan menggunakan 29 kueri yang terdiri dari 15 kata tunggal dan 14 frase. Kueri akan diproses oleh sistem kemudian sistem akan meretrieve dan mengurutkan dokumen berdasarkan nilai kesamaan antara dokumen dengan kueri. Hasil pencarian dokumen dapat dilihat pada Tabel 2. Nilai precision pada Tabel 2 didapat berdasarkan perhitungan Persamaan 4. Nilai precision didapat dengan membagi dokumen relevan yang ditemukembalikan dengan dokumen yang ditemukembalikan. Seperti contoh pada kueri Bergerigi terdapat 12 dokumen relevan yang ditemukembalikan dan 16 dokumen yang ditemukembalikan. Berdasarkan Persamaaan 4 maka nilai precision untuk kueri Bergerigi adalah 12 dibagi dengan 16 sehingga nilainya adalah Nilai recall pada Tabel 2 didapat berdasarkan perhitungan persamaan 5. Nilai recall didapat dengan membagi banyaknya dokumen relevan yang ditemukembalikan dengan banyaknya dokumen yang relevan. Seperti contoh pada kueri Bergerigi terdapat 12 dokumen relevan yang ditemukembalikan dan 12 dokumen yang relevan. Berdasarkan Persamaaan 5 maka nilai recall untuk kueri Bergerigi adalah 12 dibagi dengan 12 sehingga nilainya adalah 1. Evaluasi Sistem Pengujian sistem dilakukan dengan mengukur recall dan precision dalam proses hasil temu-kembali. Jumlah kueri yang digunakan yaitu 29 kueri yang terdiri dari 15 kata tunggal dan 14 frase (Lampiran 3). Dalam perhitungan precision, digunakan 11 titik recall standar, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Nilai precision dari masing-masing kueri diinterpolasi maksimum pada 11 titik recall standar untuk menghitung nilai average precision (AVP). Nilai AVP dari sistem temu kembali yang tidak membedakan bobot per konteks dibandingkan sistem temu kembali yang membedakan bobot per konteks. Sistem temu kembali yang tidak membedakan bobot per konteks memiliki nilai AVP sebesar Grafik hasil interpolasi antara precision dan recall pada sistem temu kembali yang tidak membedakan bobot per konteks dapat dilihat pada Gambar 2. Perhitungan nilai AVP berdasarkan hasil interpolasi antara precision dan recall untuk setiap kombinasi (Lampiran 2) pada sistem temu kembali yang membedakan bobot per konteks ditunjukkan pada Tabel 3 Penentuan koefisien bobot dilakukan secara satu per satu untuk setiap konteks. Berdasarkan Tabel 3, Penentuan koefisien bobot diawali pada konteks deskripsi. Koefisien bobot terbaik pada konteks deskripsi berdasarkan nilai average precision adalah 1. Koefisien bobot terbaik pada konteks deskripsi kemudian digunakan dalam penentuan koefisien bobot terbaik pada konteks yang lainnya. Penentuan koefisien bobot pada konteks lainnya dilakukan sama seperti penentuan koefisien bobot pada konteks deskripsi.

19 9 Tabel 2 Hasil pencarian dokumen RDF No. Kueri Dokumen di Retrieve Dokumen Relevan Dokemen Relevan yang di Retrieve Precision Recall 1 Kanker Flu Diabetes Pusing Merambat Menjari Bergerigi Menyirip Vitamin Antioksidan Protein Kalsium Diseduh Ditumbuk Diperas Batuk Pilek Kencing Batu Datang Bulan Gatal-gatal Sesak Nafas Tumbuhan Merambat Tanaman Hias Daun Elips Buah Buni Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk Buah Diperas

20 10 Tabel 3 Hasil interpolasi antara precision dan recall untuk setiap kombinasi pada sistem temu kembali yang membedakan bobot per konteks Koefisien Bobot Per Konteks Deskripsi bagian kandungan nama latin famili penyakit manfaat AVP Nilai koefisien bobot terbaik untuk masing-masing konteks berdasarkan Tabel 3 adalah 1.0 pada deskripsi, 0.2 pada bagian, 0.6 pada kandungan, 1.0

21 Precision pada nama, 1.0 pada latin, 1.0 pada famili, 1.0 pada penyakit dan 0.6 pada manfaat dengan nilai AVP sebesar Nilai tersebut lebih tinggi 1.91% jika dibandingkan dengan sistem temu kembali informasi yang tidak membedakan bobot per konteks. Pada konteks nama, latin, famili, dan penyakit, pemberian nilai koefisien bobot yang berbeda tidak mempengaruhi nilai AVP. Hal ini disebabkan kueri yang digunakan dalam pengujian tidak merepresentasikan isi dari ke empat konteks. Selain itu dapat juga disebabkan oleh isi dari konteks yang bersifat unik atau tidak ada pada konteks lain. Dalam penentuan koefisien bobot untuk kasus tersebut, koefisien bobot yang digunakan adalah 1.0. Pemberian koefisien bobot bernilai 1.0 dikarenakan nilai bobot jika dikalikan dengan koefisien 1.0 hasilnya akan tetap sama. Berdasarkan Lampiran 4 dan 5, peningkatan nilai precision terjadi pada kueri Daun Elips, Buah Buni dan Buah Diperas. Hal ini dikarenakan pemberian bobot yang berbeda pada konteks deskripsi, bagian, manfaat, dan kandungan. Seperti contoh pada kueri Daun Elips, pengguna menginginkan informasi daun yang memiliki bentuk elips, tetapi sistem akan menemukembalikan dokumen yang mengandung kata Daun dan Elips. Kata Daun terdapat pada konteks bagian dan deskripsi sedangkan kata Elips terdapat pada konteks deskripsi, sehingga pemberian bobot yang lebih tinggi pada konteks deskripsi dibandingkan dengan konteks bagian dapat meningkatkan nilai precision Recall Gambar 2 Grafik perbandingan sistem temu kembali yang tidak membedakan bobot per konteks ( ) dengan yang membedakan bobot per konteks( ) Gambar 2 menunjukan grafik perbandingan hasil interpolasi antara precision dan recall pada sistem temu kembali yang tidak membedakan bobot per konteks dengan sistem temu kembali pembobotan per konteks yang memiliki nilai AVP tertinggi. Nilai precision pada 11 standar recall untuk pembobotan per konteks yang memiliki nilai AVP tertinggi dapat dilihat pada Lampiran 5.

22 12 Temu Kembali Informasi Dokumen RDF Gen Selain pada dokumen RDF tanaman obat, pembangunan sistem temu kembali informasi juga dilakukan pada data dokumen RDF gen. akan tetapi, dalam pengembangannya tidak dilakukan pembobotan per konteks dan tahap evaluasi. Pengembangan sistem temu kembali dokumen RDF gen dilakukan untuk diketahui apakah sistem temu kembali dokumen RDF dapat diterapkan pada dokumen RDF lainnya. Untuk dapat membangun sistem temu kembali RDF gen diperlukan kueri SPARQL pada RDF gen agar dokumen RDF gen dapat di-parsing dengan menggunakan Sesame. Untuk mengetahui kueri SPARQL perlu diketahui terlebih dahulu predikat yang dimiliki dokumen RDF gen. Gambar 3 merupakan potongan dokumen RDF gen. Berdasarkan potongan dokumen tersebut, predikat yang digunakan pada RDF gen adalah sebagai berikut: Tabel 4 Predikat pada dokumen RDF gen PREFIX Predikat Keterangan accession Menjelaskan id dari gen go: name Menjelaskan nama gen definition Menjelaskan definisi gen Setiap predikat merupakan URI. Untuk mempermudah penulisan URI dalam kueri, PREFIX digunakan untuk mempersingkat penulisan URI. Contohnya URI menjadi go: accession. <go:term rdf:id="go " go:n_associations="0"> <go:accession>go </go:accession> <go:name>thioredoxin reductase (NADPH)</go:name> <go:definition>a flavoprotein catalyzing the reaction: NADPH + oxidised thoredoxin = NADP(+) + reduced thioredoxin.</go:definition> } </go:term> Gambar 3 Potongan dokumen RDF gen PREFIX tanaman:< SELECT * WHERE {?tanaman tanaman:nama?nama.?tanaman tanaman:habitus?habitus.?tanaman tanaman:penyakit?penyakit.?tanaman tanaman:famili?famili.?tanaman tanaman:bagian?bagian.?tanaman tanaman:latin?latin.?tanaman tanaman:deskripsi?deskripsi. } Gambar 4 Kueri SPARQL yang digunakan untuk parsing data RDF Tanaman Obat

23 Gambar 4 merupakan kueri SPARQL yang digunakan pada dokumen RDF gen untuk melakukan parsing. Untuk dapat digunakan pada dokumen RDF gen kueri SPARQL tersebut harus disesuaikan. PREFIX pada dokumen RDF gen adalah go:< Selain itu dilakukan juga penyesuaian pada predikat untuk mendapatkan hasil kueri yang diinginkan. Untuk mendapatkan hasil kueri dari accesion diperlukan URI predikat dari accession yaitu < Examples/schema_go.rdfaccession>. Penyesuaian Kueri SPARQL yang digunakan pada dokumen RDF gen dapat dilihat pada Gambar $sparql = "PREFIX go:< SELECT * WHERE {?go < < < }"; Gambar 5 Kueri SPARQL yang digunakan untuk parsing data RDF Gen Setelah kueri SPARQL didapat, proses parsing dapat dilakukan. Pencarian dokumen dilakukan dengan memasukkan kueri yang berkaitan dengan gen. Kueri akan diproses oleh sistem kemudian sistem akan me-retrieve dan mengurutkan dokumen berdasarkan nilai kesamaan antara dokumen dan kueri. SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang dilakukan, dapat disimpulkan bahwa pemberian nilai koefisien bobot yang berbeda pada masing-masing konteks dalam dokumen RDF tanaman obat dapat meningkatkan nilai average precision (AVP). AVP pada hasil pencarian dengan tidak membedakan bobot masing-masing konteks bernilai Nilai AVP tertinggi pada hasil pencarian dengan membedakan bobot pada masing-masing konteks bernilai dengan nilai koefisien bobotnya yaitu 1.0 pada deskripsi, 0.2 pada bagian, 0.6 pada kandungan, 1.0 pada nama, 1.0 pada latin, 1.0 pada famili, 1.0 pada penyakit dan 0.6 pada manfaat. Nilai AVP tersebut lebih tinggi 1.91% jika dibandingkan dengan sistem temu kembali informasi yang tidak membedakan bobot per konteks.

24 14 Saran Beberapa hal yang perlu dikembangkan dalam penelitian selanjutnya yang terkait dengan RDF Retrieval antara lain sebagai berikut: 1 Menggunakan jumlah koleksi dokumen yang lebih banyak. 2 Menggunakan ontologi pada dokumen RDF agar makna pada dokumen RDF dapat lebih spesifik. 3 Melakukan analisis perbandingan dengan metode pencarian koefisien bobot per konteks lainnya. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Harlow (UK): Addison Wesley. Gutierrez C, Hurtado C, Vaisman A Introducing time into RDF. IEEE Trans. Knowl. Data Eng.. 19(2): doi: /tkde Herawan Y, Ekstraksi ciri dokumen tumbuhan obat menggunakan chikuadrat dengan klasifikasi naive bayes [skripsi]. Bogor (ID): Institut Pertanian Bogor. Manning CD. Raghavan P, Schütze H Introduction to Information Retrieval. New York (US): Cambridge University Press. Manola F, Miller E RDF Primer. [17 November 2014]. Minack E, Sauermann L, Grimnes Gunnar, Fluit C, Broekstra J The Sesame LuceneSail: RDF Queries with Full-text Search. [4 April 2015] Noviandi L Search engine dokumen RDF tanaman obat menggunakan Sesame dan Lucene [skripsi]. Bogor (ID): Institut Pertanian Bogor. Rahman A Perbandingan kinerja beberapa ukuran kesamaan pada temu kembali informasi dokumen XML [skripsi]. Bogor (ID): Institut Pertanian Bogor.

25 15 LAMPIRAN Lampiran 1 Contoh dokumen RDF tanaman obat <rdf:description rdf:about="tanaman_1"> <tanaman:id>1</tanaman:id> <tanaman:famili>pancdanaceae</tanaman:famili> <tanaman:nama>pandan Wangi</tanaman:nama> <tanaman:latin>pandanaus amaryllifolius Roxb</tanaman:latin> <tanaman:bagian>daun</tanaman:bagian> <tanaman:manfaat> <rdf:bag> <rdf:li>rambut rontok</rdf:li> <rdf:li>menghitamkan rambut</rdf:li> <rdf:li>menghilangkan ketombe</rdf:li> <rdf:li>lemah saraf (neurastenia)</rdf:li> <rdf:li>tidak nafsu makan</rdf:li> <rdf:li>rematik</rdf:li> <rdf:li>pegal linu</rdf:li> <rdf:li>sakit disertai gelisah</rdf:li> </rdf:bag> </tanaman:manfaat> <tanaman:kandungan> <rdf:bag> <rdf:li>alkaloida</rdf:li> <rdf:li>saponin</rdf:li> <rdf:li>flavonoida</rdf:li> <rdf:li>tannin</rdf:li> <rdf:li>polifenol</rdf:li> <rdf:li>zat warna</rdf:li> </rdf:bag> </tanaman:kandungan> <tanaman:deskripsi>tumbuh di tempat yang agak lembap, tumbuh subur dari daerah pantai - daerah dengan ketinggian 500m dpl. Perdu tahunan, tinggi 1m-2m. Batang bulat dengan bekas duduk daun, bercabang, menjalar, akar tunjang keluar di sekitar pangkal batang dan cabang. Daun tunggal, duduk, dengan pangkal memeluk batang, tersusun berbaris tiga dalam garis spiral. Helai daun berbentuk pita, tipis, licin, ujung runcing, tepi rata, bertulang sejajar, panjang 40cm-80cm, lebar 3cm-5cm, berduri pada ibu tulang daun permukaan bawah bagian ujung-ujungnya, warna hijau. Bunga majemuk, bentuk bongkol, warnanya putih. Buahnya buah batu, menggantung, bentuk bola, diameter 4cm-7.5cm, dinding buah berambut, warnanya jingga</tanaman:deskripsi> <tanaman:penyakit>perawatan</tanaman:penyakit> </rdf:description>

26 16 Lampiran 2 Daftar kombinasi koefisien bobot yang digunakan dalam penelitian deskripsi bagian kandungan nama latin famili penyakit manfaat

27 17 Lampiran 3 Daftar kueri dan dokumen relevan No Kueri Dokumen Relevan 1 Kanker d15, d86, d88, d95 2 Flu d45, d65, d99 3 Diabetes 4 Pusing d38, d76, d84 5 Merambat d3, d94 6 Menjari d6, d2, d99 7 Bergerigi 8 Menyirip 9 Vitamin d2, d5, d14, d18, d33, d37, d39, d54, d55, d58, d59, d70, d78, d79, d81, d85, d86, d95, d97, d99 d8, d17, d36, d52, d62, d64, d68, d69, d73, d85, d93, d94 d8, d9, d19, d22, d25, d52, d57, d64, d69, d73, d80, d81, d87, d89, d94, d95, d96, d97, d98 d18, d20, d23, d28, d34, d39, d44, d55, d59, d60, d64, d73, d77, d79, d84, d94, d95, d97, d99 10 Antioksidan d79 11 Protein d60, d64, d73, d94, d95, d97, d99 12 Kalsium d50, d60, d64, d68, d73, d78, d84, d85, d94, d97, d99 13 Diseduh d41, d53, d56, d60, d70, d80, d82, d83, d84, d85, d90 14 Ditumbuk d39, d40, d51, d55, d59, d66, d67, d68, d70, d71, d77, d86 15 Diperas d34, d40, d60, d64, d68, d77, d84 16 Batuk Pilek d45, d50, d65 17 Kencing Batu d47, d62, d85, d36 18 Datang Bulan d60, d54, d58 19 Gatal-gatal d48, d51, d52, d69 20 Sesak Nafas d7, d28, d29, d30, d34, d60 21 Tumbuhan Merambat 22 Tanaman Hias d3, d94 23 Daun Elips d14, d29, d85, d86 d12, d21, d23, d24, d25, d32, d35, d37, d38, d50, d51, d52, d61, d63, d64, d65, d67, d69, d70, d71, d72, d73, d76, d77, d78, d86 24 Buah Buni d9, d13, d23, d26, d32, d53, d61, d64, d71, d73, d79, d80, d84, d89, d81 25 Kalsium Oksalat d20, d23, d50, d64, d73, d78, d94 26 Zat Warna d1, d31, d42, d66, d74 27 Obat Diseduh d80, d84, d60, d85 28 Obat Ditumbuk d39, d40, d51, d53, d55, d59, d68, d70 29 Buah Diperas d34, d60, d84

28 kueri Nilai precision pada 11 standar recall Kanker Flu Diabetes Pusing Merambat Menjari Bergerigi Menyirip Vitamin Antioksidan Protein Kalsium Diseduh Ditumbuk Diperas Batuk Pilek Kencing Batu Datang Bulan Gatal-gatal Lampiran 4 Nilai precision berdasarkan 11 standar recall tanpa pembobotan per konteks 18

29 kueri Nilai precision pada 11 standar recall Sesak Nafas Tumbuhan Merambat Tanaman Hias Daun Elips Buah Buni Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk Buah Diperas Lampiran 4 Lanjutan 19

30 kueri Nilai precision pada 11 standar recall Kanker Flu Diabetes Pusing Merambat Menjari Bergerigi Menyirip Vitamin Antioksidan Protein Kalsium Diseduh Ditumbuk Diperas Batuk Pilek Kencing Batu Datang Bulan Gatal-gatal Lampiran 5 Nilai precision berdasarkan 11 standar recall dengan pembobotan per konteks pada AVP tertinggi 20

31 kueri Nilai precision pada 11 standar recall Sesak Nafas Tumbuhan Merambat Tanaman Hias Daun Elips Buah Buni Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk Buah Diperas Lampiran 5 Lanjutan 21

32 22 RIWAYAT HIDUP Penulis dilahirkan di Bogor, Jawa Barat pada tanggal 6 Juni 1993 dari pasangan Zaenal Abidin dan Ane Rufaedah. Penulis merupakan anak ketiga dari empat bersaudara. Tahun 2011 penulis lulus dari Madrasah Aliyah Negeri 2 Bogor dan pada tahun yang sama penulis diterima di Institut Pernatian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN) Undangan pada Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) IPB.

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI

SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Pencarian Pencarian adalah proses untuk menemukan suatu informasi yang kita butuhkan. Misalnya, kita ingin mencari sebuah kata didalam dokumen digital yang kita miliki. Kita

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD

UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi 67 BAB 4 HASIL DAN BAHASAN 4.1 Hasil Penelitian dan Evaluasi 4.1.1 Hasil Penelitian Berikut disajikan beberapa data hasil query dari penelitian yang dilakukan dengan melampirkan tabel data precision dan

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL i SKRIPSI S U L H A N 041401025 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

PENCARIAN DOKUMEN BERDASARKAN KOMBINASI ANTARA MODEL RUANG VEKTOR DAN MODEL DOMAIN ONTOLOGI

PENCARIAN DOKUMEN BERDASARKAN KOMBINASI ANTARA MODEL RUANG VEKTOR DAN MODEL DOMAIN ONTOLOGI PENCARIAN DOKUMEN BERDASARKAN KOMBINASI ANTARA MODEL RUANG VEKTOR DAN MODEL DOMAIN ONTOLOGI Agung Hadhiatma Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata Dharma Yogyakarta

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Perpustakaan Digital Menurut Putu Laxman Pendit dalam bukunya Perpustakaan Digital dari a- z, fenomena perpustakaan digital memperlihatkan perluasan upaya manusia di bidang informasi

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi Proses Temu-Kembali KULIAH #5 Evaluasi IR query : sby query: flu burung Evaluasi IR Indikator yang dapat diukur: Seberapa cepat dia meng-indeks Banyaknya dokumen/jam Terkait

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci