UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD

Ukuran: px
Mulai penontonan dengan halaman:

Download "UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD"

Transkripsi

1 UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2016 Ammar Imron Muhammad NIM G

4 ABSTRAK AMMAR IMRON MUHAMMAD. Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop. Dibimbing oleh JULIO ADISANTOSO dan YENI HERDIYENI. Penelitian ini membangun mesin pencari berbasis Apache Solr menggunakan informasi hierarki dari ontologi untuk mengekspansi query yang diberikan oleh pengguna. Mesin pencari ini menggunakan BM25Similarity dengan memodifikasi tuning parameter (k 1 dan b) yang ada di dalamnya. Mesin pencari ini menggunakan data produk milik Blibli.com. Hasil evaluasi terhadap mesin pencari ini menunjukkan bahwa BM25Similarity yang telah dituning (k 1 = 2.0 dan b = 1.00) memberikan kinerja yang relatif lebih baik dibandingkan DefaultSimilarity (model Boolean dan ruang vektor) untuk evaluasi dengan menggunakan query uji pada pencarian produk online shop Blibli.com. BM25Similarity yang telah di-tuning pada penelitian ini dapat meningkatkan nilai MAP sebesar Kata kunci: Apache Solr, BM25, mesin pencari, online shop, ontologi, tuning parameter ABSTRACT AMMAR IMRON MUHAMMAD. BM25 Similarity on Ontology Model of Product Search Engine of Online Shop. Supervised by JULIO ADISANTOSO and YENI HERDIYENI. This research develops search engine based on Apache Solr using hierarchy information of ontology to expand the query provided by the user. This search engine uses BM25Similarity with modified tuning parameter (k 1 and b). This search engine uses of product data from Blibli.com. The evaluation results of this search engine show that tuned BM25Similarity (k 1 = 2.0 and b = 1.00) gives a relatively better performance than DefaultSimilarity (Boolean and Vector Space Model) for evaluation using query test on Blibli.com online shop product searching. The tuned BM25Similarity in this research could increase the value of MAP at Keywords: Apache Solr, BM25, online shop, ontology, search engine, tuning parameter

5 UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

6 Penguji: Dr Imas Sukaesih Sitanggang, SSi MKom

7 Judul Skripsi: Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop Nama : Ammar Imron Muhammad NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing I Dr Yeni Herdiyeni, SSi MKom Pembimbing II Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Februari 2016 ini ialah mesin pencari dan ontologi, dengan judul Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop. Penyusunan skripsi ini tidak terlepas dari peran berbagai pihak. Oleh karena itu, penulis ingin menyampaikan terima kasih kepada: 1 Ibunda Joheni, Ayahanda Suherman Sumadi, dan seluruh keluarga atas segala doa serta kasih sayangnya hingga saat ini. 2 Bapak Ir Julio Adisantoso, MKom dan Ibu Dr Yeni Herdiyeni, SSi MKom selaku dosen pembimbing skripsi yang telah membimbing dalam penyusunan skripsi ini. 3 Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku penguji skripsi yang telah memberikan saran dalam penyusunan skripsi ini. 4 Para dosen dan staf pegawai Departemen Ilmu Komputer IPB yang telah memberikan bantuan kepada penulis hingga saat ini. 5 Bapak Ifnu Bima Fatkhan dan Bapak Ronald Prasetya atas bimbingannya selama menjalani intership di PT Global Digital Niaga. 6 Rijen Juni P Sianturi, Rizki Adi Utomo, dan Muhammad Syarif atas kerjasamanya sebagai tim internship pada saat penelitian di PT Global Digital Niaga serta rekan-rekan mahasiswa Ilmu Komputer IPB angkatan 49 atas dukungan dan semangatnya. Semoga skripsi ini dapat memberikan manfaat bagi semua pihak yang membutuhkan. Bogor, Agustus 2016 Ammar Imron Muhammad

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 3 METODE 3 Pembuatan Ontologi 4 Pembuatan Indeks 5 Ekspansi Query 7 Scoring 9 Evaluasi 12 HASIL DAN PEMBAHASAN 14 Pembuatan Ontologi 14 Ekspansi Query 15 Scoring 16 Evaluasi 19 Perbandingan Kinerja BM25Similarity dengan DefaultSimilarity 20 SIMPULAN DAN SARAN 22 Simpulan 22 Saran 22 DAFTAR PUSTAKA 23 LAMPIRAN 24 RIWAYAT HIDUP 32

10 DAFTAR TABEL 1 Confusion matrix 10 2 Nilai MAP hasil evaluasi 15 DAFTAR GAMBAR 1 Metode penelitian 3 2 Visualisasi hubungan class, property, dan individual 4 3 Skema pengintegrasian Apache Solr dengan aplikasi lain 6 4 SPARQL yang digunakan pada penelitian 7 5 Struktur ontologi produk 15 6 Visualisasi pencarian query keyboard razer 16 7 Pengaruh parameter k 1 terhadap nilai TF 17 8 Pengaruh parameter b terhadap nilai TF 18 9 Pengaruh parameter panjang dokumen terhadap nilai TF Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang memperhatikan struktur ontologi Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang tidak memperhatikan struktur ontologi Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query keseluruhan 22 DAFTAR LAMPIRAN 1 Daftar stopwords 24 2 Daftar query uji beserta ekspansi query 25 3 Hasil pengujian beberapa tuning parameter BM25 menggunakan ontologi beserta nilai MAP 27 4 Hasil perhitungan precision yang diinterpolasikan ke 11 titik recall menggunakan query yang memperhatikan struktur ontologi 30 5 Hasil perhitungan precision yang diinterpolasikan ke 11 titik recall menggunakan query yang tidak memperhatikan struktur ontologi 30 6 Hasil perhitungan precision yang diinterpolasikan ke 11 titik recall menggunakan query keseluruhan 31

11 1 PENDAHULUAN Latar Belakang Relevansi dari pencarian informasi produk merupakan salah satu hal penting yang harus diperhatikan dalam membangun mesin pencari pada online shop. Seiring dengan bertambahnya informasi mengenai produk-produk yang ditawarkan oleh online shop, mesin pencari semakin tidak mudah untuk menghasilkan hasil pencarian dengan tingkat relevansi yang tinggi. Untuk mengatasi permasalahan tersebut, dibutuhkan struktur dokumen informasi produk yang tepat dan dapat dengan mudah diproses oleh mesin pencari. Pada saat ini dokumen yang mengandung informasi produk tersebut masih banyak menggunakan struktur yang mudah untuk dibaca oleh manusia tetapi informasi yang terkandung di dalamnya tidak mudah untuk diproses oleh mesin (Sinha et al. 2012). Oleh karena itu, digunakanlah konsep ontologi berbasis semantic web untuk menjawab permasalahan tersebut. Pencarian informasi yang dilakukan secara semantik dan menggunakan ontologi dapat memudahkan mesin pencari untuk lebih baik dalam mengartikan query yang dimasukkan oleh pengguna. Ontologi tersebut merupakan hubungan dan klasifikasi beberapa konsep dalam domain tertentu, sebagai cara untuk merepresentasikan pengetahuan atau pemetaan pengetahuan (Jepsen 2009). Penggunaan ontologi mendorong terciptanya hubungan antartoken pada query yang dimasukkan oleh pengguna. Dengan adanya hubungan tersebut, mesin pencari hanya membutuhkan lebih sedikit term untuk dapat menampilkan informasi relevan yang diinginkan oleh pengguna (Aghajani 2012). Untuk mencapai tingkat relevansi yang tinggi, mesin pencari juga harus dibangun dengan menggunakan pendekatan temu kembali informasi yang tepat. Salah satu pendekatan temu kembali informasi adalah model probabilistik. Model probabilistik memfokuskan pencarian pada hasil perhitungan statistik dan probabilitas dari masing-masing dokumen yang diproses. Pada model ini dilakukan perhitungan koefisien kesamaan antara query yang diberikan dengan suatu dokumen. Koefisien tersebut merupakan sebuah peluang yang menyatakan tingkat relevansi dokumen terhadap query. Tiap kata yang terdapat dalam query memiliki nilai peluang. Nilai peluang tersebut digunakan untuk menghitung peluang akhir yang menyatakan relevansi dokumen. Model probabilistik temu kembali informasi memiliki beberapa fungsi atau ukuran kemiripan yang digunakan. Salah satu contoh ukuran kemiripan adalah best matching (BM). Ukuran kemiripan BM yang memiliki kinerja yang sangat baik adalah BM25. BM25 dipengaruhi oleh tiga faktor utama, yaitu inverse document frequency (IDF), term frequency (TF), dan document length (Kumar 2015). Penelitian terkait dengan ukuran kemiripan BM25 sudah banyak dilakukan, diantaranya pengembangan mesin pencari teks Bahasa Indonesia menggunakan fungsi OKAPI BM25 (Saputra 2013). Penelitian terhadap mesin pencari teks Bahasa Indonesia tersebut terfokus pada modifikasi nilai variabel yang dapat diubah ( tuning parameter) pada fungsi OKAPI BM25. Modifikasi nilai dari tuning parameter bertujuan meningkatkan kinerja dari model probabilistik

12 2 tersebut. Dengan menggunakan nilai tuning parameter yang tepat, nilai rata-rata presisi dari sistem tersebut dapat meningkat dan lebih baik dibandingkan dengan sistem yang menggunakan model ruang vektor. Namun, penelitian tersebut belum menggunakan ontologi untuk meningkatkan relevansi hasil pencarian yang dilakukan oleh mesin pencari. Berdasarkan latar belakang tersebut, penelitian ini difokuskan pada ukuran kemiripan BM25 pada model ontologi mesin pencari produk online shop berbasis Apache Solr. Apache Solr merupakan open source enterprise search platform yang menggunakan Apache Lucene sebagai library untuk full-text search. Ontologi pada mesin pencari ini digunakan untuk mengekspansi query yang diberikan oleh pengguna. Ukuran kemiripan BM25 diimplementasikan sebagai BM25Similarity pada Apache Solr. Selain itu, pada BM25Similarity tersebut dilakukan modifikasi nilai tuning parameter. Setelah itu dilakukan evaluasi untuk mengetahui apakah penggunaan ontologi dan modifikasi nilai tuning parameter pada BM25Similarity dapat meningkatkan relevansi hasil pencarian yang diberikan. Pada evaluasi tersebut juga dilakukan perbandingan kinerja BM25Similarity dengan DefaultSimilarity yang merupakan ukuran kemiripan default pada Apache Solr. Perumusan Masalah Rumusan permasalahan pada penelitian ini adalah: 1 Apakah modifikasi tuning parameter pada BM25Similarity dapat meningkatkan relevansi hasil pencarian produk online shop? 2 Apakah BM25Similarity dapat memiliki kinerja yang lebih baik dibandingkan dengan DefaultSimilarity? Tujuan Penelitian Tujuan dari penelitian ini adalah menguji seberapa besar pengaruh modifikasi tuning parameter BM25Similarity terhadap evaluasi hasil pencarian produk online shop yang menggunakan ontologi untuk mengekspansi query. Selain itu, penelitian ini juga bertujuan menganalisis kinerja BM25Similarity dibandingkan dengan DefaultSimilarity dalam memberikan hasil pencarian produk online shop. Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah membantu proses pencarian produk online shop agar lebih relevan. Hasil pencarian dengan tingkat relevansi yang lebih tinggi diharapkan dapat meningkatkan tingkat kepuasan pengguna mesin pencari tersebut terhadap layanan yang diberikan oleh online shop.

13 3 Ruang Lingkup Penelitian Ruang lingkup dari penelitian ini adalah: 1 Pencarian produk online shop menggunakan mesin pencari berbasis Apache Solr. 2 Mesin pencari dibangun dengan menerapkan penggunaan ontologi untuk mengekspansi query dan penggunaan BM25Similarity dengan modifikasi tuning parameter. 3 Ontologi yang digunakan berdasarkan data produk yang dimiliki oleh PT Global Digital Niaga (Blibli.com). METODE Mesin pencari pada dasarnya terbagi menjadi dua komponen utama, yaitu komponen pengindeksan (indexing) dan komponen temu kembali (Sudirman dan Kodar 2012). Pada penelitian ini, kedua komponen tersebut ditangani oleh Apache Solr. Pada komponen temu kembali banyak dipengaruhi oleh hasil informasi hierarki dari ontologi. Metode yang dilakukan pada penelitian ini dapat dilihat pada Gambar 1. Query Pembuatan Ontologi Ekspansi Query Pembuatan Indeks Scoring Apache Solr Hasil Evaluasi Gambar 1 Tahapan penelitian Tahapan penelitian diawali dengan pembuatan ontologi berdasarkan data produk yang dimiliki oleh PT Global Digital Niaga. Data tersebut berada pada basis data relasional PT Global Digital Niaga yang diambil dan dijadikan individual pada ontologi yang telah mengandung class dan property. Selain itu, data tersebut juga digunakan pada proses indexing ke dalam Apache Solr. Ontologi yang digunakan pada sistem ini dibuat berdasarkan data yang tersimpan pada basis data relasional. Ketika pengguna memasukkan query yang berupa kata kunci pencarian produk, query kemudian diekspansi menggunakan

14 4 informasi hierarki dari ontologi. Query yang telah diekspansi dimasukkan ke dalam Apache Solr untuk dicari kesamaan dengan indeks yang telah terbentuk pada proses sebelumnya. Tahap selanjutnya adalah melihat kesamaan hasil yang didapatkan dari dokumen dengan query yang dimasukkan. Apache Solr melakukan scoring terhadap dokumen menggunakan ukuran kemiripan BM25. Dokumen hasil scoring ditampilkan ke pengguna dengan urutan dokumen dari yang memiliki score terbesar ke yang memiliki score terkecil. Hasil pencarian tersebut kemudian dievaluasi. Pembuatan Ontologi Ontologi merupakan suatu teknik merepresentasikan suatu pengetahuan yang dapat berupa fakta ataupun ide. Pengetahuan tersebut didefinisikann ke dalam hubungan dan klasifikasi dari suatu konsep pada domain yang spesifik (Jepsen 2009). Ontologi memiliki berbagai pengertian di beberapa konteks ilmu yang berbeda. Dalam konteks ilmu komputer, ontologi dapat diartikan sebagai model pengetahuan yang direpresentasikan ke dalam bentuk representasi formal (Liu dan Ozsu 2009). Representasi yang terdapat pada ontologi memungkinkan adanya suatu bentuk hubungan semantik antarkonsep yang terkandung dalam ontologi. Ontologi tersebut juga memiliki serangkaian aturan untuk menginferensi konsep yang ada di dalamnya. Ontologi memiliki tiga komponen dasar, yaitu class, property, dan individual (Liu dan Ozsu 2009). Class merepresentasikan konsep dari entitas dalam suatu domain. Class merupakan himpunan abstrak dari suatu objek. Di dalam suatu class dapat terkandung suatu individual atau class lain. Sebuah class dapat dijelaskan menggunakan property, misalnya class SmartPhone memiliki property yaitu HasColor. Selain itu, suatu class dapat mengandungg beberapa individual, misalnya classs Color memiliki beberapa individual yaitu gold dan silver. Visualisasi hubungan class, property, dan individual dapat dilihat pada Gambar 2. Gambar 2 Visualisasi hubungan class, property, dan individual Ontologi biasanya dibangun berdasarkan atas tujuan penggunaannya. Pada penelitian ini, ontologi digunakan untuk mengekspansi query yang diberikan oleh pengguna mesin pencari. Proses ekspansi query menggunakan setiap term pada query sebagai individual pada ontologi. Ketika ditemukan individual yang relevan dengan term yang ada pada query, nama dari class yang mengandung individual tersebut akan diekstraksi untuk digunakan sebagai acuan dalam ekspansi query.

15 Pada mesin pencari ini, ontologi dibangun berdasarkan data produk milik PT Global Digital Niaga. Ontologi dibangun melalui dua tahap yaitu tahap pembuatan ontologi yang berisi class, property, dan beberapa individual serta tahap penambahan individual melalui pengambilan data beberapa atribut dari basis data relasional yang dimiliki oleh PT Global Digital Niaga. Ontologi dibangun dengan menggunakan perangkat lunak open source Protege. Ontologi yang dihasilkan dari Protege memiliki format resource description framework (RDF) atau extensible markup language (XML). 5 Pembuatan Indeks Dokumen yang digunakan untuk membuat indeks berupa data produk yang berjumlah Data produk tersebut merupakan data milik PT Global Digital Niaga. Atribut yang digunakan pada setiap produk direpresentasikan dalam bentuk field tag sebagai berikut: <field name= id >91889</field>, menunjukkan ID produk. <field name= namesearch >Logitech Wireless Mini Mouse M187 Red</field>, menunjukkan nama produk. <field name= descriptionsearch >Logitech Wireless Mini Mouse M187 merupakan mouse berdesain kecil dan imut, yang bisa dimasukan ke saku, kantong, atau bahkan dompet.</field>, menunjukkan deskripsi produk. <field name= brandsearch >Logitech</field>, menunjukkan merek produk. <field name= categories >Keyboard & Mouse</field>, menunjukkan kategori-kategori dari suatu produk. Atribut-atribut tersebut memiliki tipe data berupa string dan bersifat single value kecuali pada atribut categories. Pembuatan indeks dilakukan secara otomatis oleh Apache Solr. Apache Solr merupakan open source enterprise search platform berbasis Apache Lucene (Kumar 2015). Apache Solr menggunakan Apache Lucene sebagai library untuk full-text search. Selain itu, Apache Solr juga melakukan proses indexing menggunakan Apache Lucene. Apache Solr memiliki beberapa fitur, yaitu fulltext search, hit highlighting, faceted search, real-time indexing, dinamic clustering, integrasi basis data, fitur NoSQL, dan dapat menangani rich document (misalnya Word, PDF). Apache Solr dibangun menggunakan bahasa pemrograman Java. Apache Solr dapat diintegrasikan ke dalam sebuah aplikasi seperti pada skema yang terdapat pada Gambar 3. Apache Solr berjalan bersebelahan dengan aplikasi-aplikasi server yang lainnya sehingga pencarian menggunakan Apache Solr akan lebih mudah dilakukan. Di dalam Apache Solr terdapat konfigurasi schema yang menggambarkan fields dari dokumen yang akan dijadikan indeks. Query yang digunakan oleh Apache Solr bersifat RESTful sehingga query yang digunakan merupakan sebuah simple HTTP request URL. Response dari query tersebut berupa dokumen yang terstruktur seperti XML. Selain XML, query response juga dapat berupa JSON, CSV, dan beberapa format lain.

16 6 Gambar 3 Skema pengintegrasian Apache Solr dengan aplikasi lain Pada proses pembuatan indeks yang terjadi di dalam Apache Solr, dokumen ataupun query akan ditransformasikan ke dalam inverted index. Dengan menggunakan inverted index, posisi kemunculan suatu term pada kumpulan dokumen dapat diketahui. Di dalam inverted index terkandung informasi dokumen apa saja yang mengandung suatu term. Apache Solr menyimpan indeks tersebut ke dalam struktur indeks multifile menggunakan UTF 16 Java character. Struktur indeks multifile terdiri dari segment files yang masing-masing segmen dapat mengandung lebih dari satu informasi produk. Konfigurasi proses indexing pada Apache Solr dilakukan dengan mengubah file schema.xml dan solrconfig.xml yang terdapat dalam folder conf. Konfigurasi yang dilakukan berupa penambahan beberapa tag field, copyfield, dan fieldtype pada schema.xml serta penambahan tag requesthandler pada solrconfig.xml. Melalui konfigurasi tersebut, proses indexing dapat dibagi menjadi tokenisasi, stemming, pembuangan stopwords, dan pembobotan token (term weighting). Tokenisasi pada proses indexing merupakan proses membagi teks ke dalam bentuk-bentuk kecil seperti nomor, tanda baca, dan kata-kata dari berbagai tipe. Tokenisasi yang dilakukan pada konteks ini adalah tokenisasi ke dalam bentuk kata-kata. Kata adalah sekumpulan karakter alfanumerik yang saling terhubung dan dipisahkan oleh whitespace, di antaranya adalah spasi dan newline. Stemming pada proses indexing merupakan proses perubahan kata-kata hasil tokenisasi ke dalam kata dasar atau dapat disebut juga pembuangan imbuhan dari suatu kata. Misalkan kata mengambil dan pengambilan akan diubah menjadi kata ambil. Pembuangan stopwords pada proses indexing merupakan proses pembuangan kata yang sering muncul di dalam dokumen (stopwords). Kata-kata yang sering muncul tersebut tidak cocok untuk dijadikan sebagai penciri, diantaranya adalah kata yang, di, ke, dan, pada, dan sebagainya. Pembuangan stopwords dilakukan untuk memisahkan penciri dengan bukan penciri dalam kumpulan dokumen. Pada mesin pencari ini, pembuangan stopword dilakukan pada saat proses pencarian suatu query. Stopword yang digunakan pada mesin pencari ini dapat dilihat pada Lampiran 1. Pembobotan adalah proses pemberian bobot atau nilai pada term yang ada pada dokumen. Proses pemberian bobot didasarkan pada fungsi pembobotan yang digunakan, misalnya term frequency (TF) dan document frequency (DF). TF t

17 menggambarkan frekuensi dari suatu term t, sedangkan DF t menggambarkan frekuensi dokumen yang mengandung suatu term t. Nilai bobot yang dihasilkan pada proses pembobotan disimpan ke dalam indeks agar dapat digunakan pada proses scoring. 7 Ekspansi Query Ekspansi query merupakan proses reformulasi terhadap query yang diberikan oleh pengguna. Proses reformulasi bertujuan untuk meningkatkan relevansi hasil pencarian terhadap query tersebut. Ekspansi query yang dilakukan berupa penambahan field pencarian pada setiap term yang diberikan oleh pengguna. Hal ini bertujuan agar Apache Solr dapat lebih mengenali domain dari setiap term yang diberikan oleh pengguna. Ketika Apache Solr telah mengenali domain dari suatu term, pencarian akan dilakukan lebih spesifik pada suatu field sehingga Apache Solr tidak perlu mencari term pada semua field. Akibatnya, proses pencarian yang dilakukan oleh Apache Solr akan lebih akurat. Ekspansi query dilakukan berdasarkan informasi hierarki yang ada pada ontologi. Informasi hierarki didapatkan dengan mengeksekusi SPARQL ke dalam ontologi. SPARQL merupakan bahasa query yang digunakan untuk memanipulasi resource description framework (RDF) melalui query. RDF tersebut merupakan salah satu bentuk tipe data yang digunakan oleh ontologi. Query pada SPARQL hampir sama dengan query pada SQL yang digunakan pada basis data relasional. Namun, SPARQL memiliki perbedaan pada bentuk struktur penyusunnya. Pada umumnya, query dalam SPARQL memiliki struktur triples yang didahului dengan mendefinisikan PREFIX (awalan). Struktur triples tersebut sama seperti struktur penyusun RDF. Triples terdiri dari tiga bagian penyusun, yaitu subjek, predikat, dan objek. PREFIX yang didefinisikan pada awal query SPARQL mengandung uniform resource identifier (URI). URI merupakan sebuah string dari karakter-karakter yang digunakan untuk mendefinisikan sebuah resource. Query yang diberikan oleh pengguna akan diekspansi dengan menggunakan informasi hierarki dari ontologi sebelum diproses oleh Apache Solr. Informasi hierarki tersebut didapatkan melalui hasil eksekusi SPARQL pada ontologi. SPARQL yang digunakan pada penelitian ini seperti tertera pada Gambar 4. 1 PREFIX rdfs: < 2 SELECT?subClassLabel 3 WHERE { 4?subClass rdfs:label?subclasslabel. 5?subClass rdfs:subclassof*?class. 6?class rdfs:label?classlabel. 7 FILTER ( ( 8 STRSTARTS(LCASE(?classLabel), "term") 9 && STRENDS(LCASE(?classLabel), "term") 10 ) STRSTARTS(LCASE(?classLabel), "term-") 11 CONTAINS(LCASE(?classLabel), "-term-") 12 STRENDS(LCASE(?classLabel), "-term") ) ) Gambar 4 SPARQL yang digunakan pada penelitian

18 8 Pada baris 1 dari SPARQL yang digunakan menyatakan pendefinisian PREFIX rdfs untuk URI Baris 2 menyatakan penggunaan fungsi SELECT untuk memilih isi dari variabel subclasslabel. Tanda? pada SPARQL tersebut menyatakan suatu variabel. Baris 3 menyatakan penggunaan fungsi WHERE untuk memberikan syarat pemilihan yang dilakukan fungsi SELECT. Baris 4 menyatakan triple yaitu variabel subclass (subjek) memiliki label dengan PREFIX rdfs (predikat) berupa variabel subclasslabel (objek). PREFIX yang diikuti oleh suatu kata pada SPARQL tersebut menyatakan predikat dari suatu subjek terhadap objek. Baris 5 menyatakan triple yaitu variabel subclass (subjek) memiliki subclassof dengan PREFIX rdfs (predikat) berupa variabel class (objek). Tanda * pada SPARQL tersebut menyatakan iterasi for each. Baris 6 menyatakan triple yaitu variabel class (subjek) memiliki label dengan PREFIX rdfs (predikat) berupa variabel classlabel (objek). Baris 7 dari SPARQL yang digunakan menyatakan penggunaan fungsi FILTER untuk menyaring hasil pemilihan bersyarat yang dilakukan fungsi SELECT dan WHERE. Baris 8 menyatakan kriteria FILTER yaitu string awal ( STRSTARTS) dari isi variabel classlabel yang diubah ke dalam huruf kecil ( LCASE) harus sama dengan term pada query. Baris 9 menyatakan kriteria FILTER yaitu string akhir (STRENDS) dari isi variabel classlabel yang diubah ke dalam huruf kecil (LCASE) harus sama dengan term pada query. Tanda && pada SPARQL tersebut menyatakan operator AND. Operator AND mengharuskan kedua pernyataan yang terhubung dengannya harus terpenuhi agar gabungan pernyataan tersebut bernilai benar. Baris 10 menyatakan kriteria FILTER yaitu string awal (STRSTARTS) dari isi variabel classlabel yang diubah ke dalam huruf kecil (LCASE) harus sama dengan term- pada query. Tanda pada SPARQL tersebut menyatakan operator OR. Operator OR mengharuskan kedua pernyataan yang terhubung dengannya minimal salah satu harus terpenuhi agar gabungan pernyataan tersebut bernilai benar. Tanda - yang menempel pada term tersebut menyatakan karakter spasi pada label yang digunakan dalam ontologi. Baris 11 menyatakan kriteria FILTER yaitu isi variabel classlabel yang diubah ke dalam huruf kecil ( LCASE) harus mengandung (CONTAINS) -term- pada query. Baris 12 menyatakan kriteria FILTER yaitu string akhir ( STRENDS) dari isi variabel classlabel yang diubah ke dalam huruf kecil ( LCASE) harus sama dengan - term pada query. Sebelum SPARQL dieksekusi ke dalam ontologi, terlebih dahulu disisipkan term dari query pencarian. Hal ini dilakukan agar didapatkan hasil berupa nama class beserta semua subclass-subclass yang berelasi sesuai dengan term yang dimasukkan. Jika ditelusuri dari awal, SPARQL tersebut mencari label dari subclass. Subclass tersebut merupakan child node dari suatu class. Di dalam class tersebut terkandung kata-kata yang sama dengan term. Hasil yang didapatkan dari SPARQL digunakan sebagai bahan ekspansi terhadap query. Tujuan dari ekspansi ini agar Apache Solr dapat mengetahui secara spesifik field pencarian dari setiap term yang terkandung dalam query yang diberikan oleh pengguna. Secara umum, Apache Solr akan mencari semua term pada beberapa field yang telah dikonfigurasikan untuk dijadikan tujuan pencarian pada requesthandler. Ekspansi yang dilakukan pada sistem ini lebih cenderung

19 pada pengarahan area pencarian query pada suatu kategori tertentu yang dianggap mengandung produk yang dicari. Oleh karena itu, Apache Solr dapat lebih akurat dalam memberikan hasil pencarian karena area pencarian telah diarahkan ke suatu kategori tertentu. 9 Scoring Scoring merupakan proses pemberian nilai relevansi pada dokumen berdasarkan similarity terhadap query yang digunakan. Nilai relevansi digunakan untuk mengurutkan dokumen hasil pencarian dari yang paling relevan ke yang paling tidak relevan. Proses scoring yang terdapat pada Apache Solr merupakan kombinasi dari fungsi pembobotan dan similarity. Nilai pembobotan dari proses indexing digunakan kembali pada fungsi pembobotan dan similarity yang ada di dalam proses scoring. Metode pembobotan yang digunakan pada penelitian ini adalah metode pembobotan berdasarkan BM25Similarity. BM25Similarity merupakan implementasi dari ukuran kemiripan BM25 pada Apache Solr. BM25Similarity berbasis pada model probabilistik temu kembali informasi yang menghitung kemungkinan sebuah term muncul dalam sebuah dokumen yang relevan. Peluang tersebut menggambarkan kemungkinan relevansi suatu dokumen terhadap suatu query. BM25Similarity dipengaruhi oleh tiga faktor utama, yaitu term frequency (TF), inverse document frequency (IDF), dan panjang dokumen. Term frequency (TF) adalah frekuensi kemunculan dari suatu term dalam suatu dokumen (Manning et al. 2008). Dokumen yang memiliki lebih banyak kemunculan suatu term akan mendapatkan nilai relevansi yang lebih tinggi pada saat pencarian term tersebut. Hal ini merupakan kelemahan dari TF karena term yang sering muncul belum tentu merupakan penciri dari suatu dokumen. Kelemahan TF tersebut dapat diatasi dalam BM25Similarity dengan menentukan batas pengaruh TF terhadap nilai relevansi suatu dokumen. Dengan adanya faktor pembatas tersebut, term dengan frekuensi yang sangat tinggi tidak akan memberikan banyak pengaruh terhadap nilai relevansi suatu dokumen. Faktor pembatas direpresentasikan dengan parameter yang digunakan untuk menormalisasikan frekuensi dari suatu term. Nilai default dari parameter adalah 1.2. Nilai ini dapat dimodifikasi untuk meningkatkan relevansi hasil pencarian. Secara tidak langsung, panjang dokumen juga dapat mempengaruhi nilai relevansi pencarian. Hal ini disebabkan dokumen yang lebih panjang cenderung memiliki frekuensi suatu term yang lebih tinggi sehingga mengakibatkan peningkatan nilai relevansi. Dokumen yang lebih panjang belum tentu merupakan dokumen yang lebih relevan dibandingkan dengan dokumen yang lebih pendek. Permasalahan ini dapat diatasi dalam BM25Similarity dengan menggunakan parameter untuk mengatur porsi dari panjang dokumen yang menormalisasi nilai frekuensi suatu term. TF pada BM25Similarity dapat dinyatakan dalam Persamaan 1 (Kumar 2015),

20 10 (, ) = ( + 1) (, ) (, ) (1) dengan menyatakan suatu term pada query, (, ) menyatakan normalisasi frekuensi suatu term dari query pada dokumen, (, ) menyatakan frekuensi suatu term pada query, menyatakan panjang dokumen, menyatakan panjang rata-rata dari seluruh dokumen yang ada, dan, menyatakan tuning parameter. Inverse document frequency (IDF) yang terdapat pada BM25Similarity menyatakan jumlah dokumen yang memiliki suatu term dibanding dengan jumlah dokumen yang ada secara keseluruhan. IDF pada BM25Similarity dapat dinyatakan dalam Persamaan 2 (Kumar 2015), ( ) = log 1 + ( ) ( ) (2) dengan menyatakan suatu term pada query, ( ) menyatakan nilai IDF suatu term yang terdapat pada query, menyatakan jumlah seluruh dokumen yang ada, dan ( ) menyatakan frekuensi dokumen yang memiliki suatu term. Untuk mengevaluasi bobot keseluruhan dari suatu term diperlukan perhitungan dengan mengalikan TF dan IDF. Jika bobot keseluruhan suatu term dipengaruhi oleh boost (faktor peningkat bobot) maka bobot keseluruhan dari suatu term pada BM25Similarity dapat dinyatakan dalam Persamaan 3 (Kumar 2015), (, ) = ( ) (, ) (3) dengan menyatakan suatu term pada query, (, ) menyatakan bobot keseluruhan suatu term dari query pada dokumen, ( ) menyatakan nilai IDF suatu term yang terdapat pada query, menyatakan faktor peningkat bobot, dan (, ) menyatakan normalisasi frekuensi suatu term dari query pada dokumen. Selain menggunakan BM25Similarity, pada tahap evaluasi juga digunakan DefaultSimilarity sebagai pembanding terhadap kinerja dari BM25Similarity. DefaultSimilarity merupakan ukuran kemiripan yang diimplementasikan oleh Apache Solr berdasarkan gabungan model boolean dan vector space model (VSM). DefaultSimilarity menggunakan model boolean untuk menemukan dokumen-dokumen yang sesuai dengan term-term pada query. DefaultSimilarity menggunakan pembobotan TF-IDF sebagai salah satu komponen pembobotan utamanya. Setelah mendapatkan nilai pembobotan, DefaultSimilarity menghitung nilai similarity antara dokumen dan query dengan merepresentasikannya sebagai jarak antara dua vektor. Formula scoring yang digunakan pada DefaultSimilarity dapat dinyatakan dalam Persamaan 4 (Kumar 2015),

21 11 (, ) = (, ) ( ) (, ) ( ). () (, ) (4) dengan menyatakan suatu term pada query, (, ) menyatakan score suatu term dari query pada dokumen d,. () yang menyatakan boost yang diberikan pada term yang ada di query, ( ) menyatakan nilai normalisasi score antara dua query atau lebih sehingga score antara dua query dapat dibandingkan, (, ) menyatakan frekuensi suatu term dari query pada dokumen d, ( ) menyatakan nilai IDF dari suatu term pada query, dan (, ) merupakan fungsi perkalian antara lengthnorm dan index-time boost (f.boost), (, ) menyatakan rasio antara jumlah term pada query yang terdapat pada dokumen (overlaps) dengan jumlah total term yang ada pada query (maxoverlaps). Fungsi (, ) dapat dinyatakan dalam Persamaan 5 (Shahi 2015), (, ) = (5) Fungsi ( ) dapat dinyatakan dalam Persamaan 6 (Shahi 2015). Pada Persamaan 6 terdapat. () yang menyatakan boost yang diberikan pada query. ( ) = 1. () ( ( ). ()) (6) Fungsi (, ) yang digunakan oleh DefaultSimilarity berbeda dengan yang digunakan BM25Similarity. Pada DefaultSimilarity, TF dinormalisasi dengan menggunakan akar pangkat dua. Fungsi (, ) pada DefaultSimilarity dapat dinyatakan dalam Persamaan 7 (Shahi 2015). (, ) = (7) Fungsi ( ) yang digunakan oleh DefaultSimilarity berbeda dengan yang digunakan BM25Similarity. Fungsi ( ) pada DefaultSimilarity dapat dinyatakan dalam Persamaan 8 (Shahi 2015). Pada Persamaan 8, konstanta 1 yang ditambahkan dengan dan ditambahkan dengan nilai log digunakan untuk menghindari nilai yang tidak dapat didefinisikan seperti dan log(0). ( ) = 1 + log + 1 (8) Fungsi (, ) pada DefaultSimilarity dapat dinyatakan dalam Persamaan 9 (Shahi 2015). LengthNorm pada fungsi (, ) menyatakan

22 12 nilai normalisasi panjang dokumen yang dilakukan untuk menentukan kepentingan suatu dokumen. Fungsi. () menyatakan boost yang dilakukan terhadap dokumen atau field saat proses indexing. (, ) = h. () (9) BM25Similarity dan DefaultSimilarity diimplementasikan ke dalam Apache Solr dengan mendefinisikan similarity class yang digunakan pada schema.xml. Parameter k 1 dan b yang terdapat pada BM25Similarity dapat dikonfigurasikan pada schema.xml. Konfigurasi BM25Similarity dilakukan dengan mendefinisikan class SchemaSimilarityFactory secara global pada schema.xml. Pendefinisian class tersebut dilakukan dengan meletakkan kalimat di dalam tag schema sebagai berikut: <similarity class="solr.schemasimilarityfactory"/> Kemudian dilakukan pendefinisian class BM25SimilarityFactory di dalam salah satu fieldtype. Selain itu, pada filedtype tersebut juga dilakukan pendefinisian nilai parameter k 1 dan b yang akan digunakan sebagai berikut: <similarity class="solr.bm25similarityfactory"> <float name="k1">1.2</float> <float name="b">0.75</float> </similarity> Hasil perhitungan kemiripan kemudian digunakan untuk menentukan peringkatan terhadap dokumen yang akan menjadi hasil pencarian. Dokumendokumen akan diurutkan dari tingkat kemiripan tertinggi ke terendah. Setelah proses peringkatan, hasil pencarian tersebut kemudian ditampilkan agar dapat dilihat oleh pengguna. Evaluasi Evaluasi dilakukan dengan memasukkan beberapa query ke sistem sehingga didapatkan hasil berupa produk-produk yang dianggap relevan dengan query yang dimasukkan. Query yang digunakan pada tahap evaluasi dapat dilihat pada Lampiran 2. Query-query tersebut juga disertai dengan daftar produk-produk yang relevan dalam bentuk ID produk. Hasil pencarian menggunakan query-query tersebut kemudian digunakan untuk menghitung precision (P) dan recall (R). Precision dan recall digunakan untuk melihat tingkat relevansi hasil pencarian produk online shop. Precision menyatakan rasio dokumen yang relevan dari seluruh dokumen yang ditampilkan. Recall menyatakan rasio dokumen yang ditampilkan dari seluruh dokumen yang relevan. Perhitungan terhadap kedua parameter tersebut dapat menggunakan komponen dari confusion matrix yang ditunjukkan pada Tabel 1.

23 Tabel 1 Confusion matrix Relevan Tidak Relevan Ditampilkan tp fp Tidak Ditampilkan fn tn Precision (P) dan recall (R) dapat dinyatakan dalam Persamaan 10 dan 11 (Manning 2008), dengan tp menyatakan jumlah dokumen relevan yang ditampilkan sebagai hasil pencarian, fp menyatakan jumlah dokumen tidak relevan yang ditampilkan sebagai hasil pencarian, dan fn menyatakan jumlah dokumen relevan yang tidak ditampilkan sebagai hasil pencarian. 13 = ( + ) (10) = ( + ) (11) Selain menghitung precision dan recall, diperlukan juga perhitungan precision yang diinterpolasikan ke 11 titik recall (dari 0 sampai 1 dengan selisih tiap tingkat sama dengan 0.1). Perhitungan ini dilakukan karena query yang digunakan pada tahap evaluasi berbeda-beda. Akibatnya, nilai recall dan precision yang dihasilkan akan berbeda-beda juga untuk masing-masing query. Nilai precision yang diinterpolasikan ( interpolated precision) dapat dinyatakan dalam Persamaan 12 (Manning 2008), ( ) = max ( ) (12) dengan ( ) menyatakan nilai precision pada tingkat recall r dan ( ) menyatakan nilai pada recall. Untuk memudahkan dalam melakukan perbandingan pada tahap evaluasi, diperlukan suatu nilai ukuran kualitas tunggal. Menurut Manning (2008), ukuran kualitas tunggal tersebut dapat diperoleh melalui evaluasi menggunakan nilai mean average precision (MAP). MAP dihitung dengan merata-ratakan nilai dari seluruh precision yang telah didapatkan sehingga didapatkan nilai tunggal. MAP dapat dinyatakan dalam Persamaan 13 (Manning 2008), MAP( ) = 1 1 ( ) (13) dengan MAP( ) menyatakan nilai MAP dari suatu kumpulan query uji, menyatakan jumlah query uji, menyatakan jumlah dokumen relevan yang seharusnya ditampilkan sebagai hasil pencarian, ( ) menyatakan nilai precision dari query. Pada mesin pencari ini, evaluasi dilakukan dengan membandingkan nilai Mean Average Precision (MAP) antara mesin pencari yang menggunakan ontologi dan BM25Similarity dengan mesin pencari yang menggunakan ontologi

24 14 dan DefaultSimilarity. Untuk sistem yang menggunakan BM25Similarity, proses evaluasi dilakukan dengan melakukan modifikasi terhadap nilai parameter k 1 dan b. Parameter k 1 dan b memiliki nilai default yaitu k 1 = 1.2 dan b = Parameter k 1 diubah dengan interval 0.2 dan selang 1.0 sampai 2.0. Parameter b diubah dengan interval 0.05 dan selang 0 sampai 1. Setiap perubahan pada nilai parameter k 1 dan b tersebut kemudian dievaluasikan menggunakan query uji. Pada setiap query tersebut dihitung nilai precision dan recall. Nilai-nilai precision pada setiap query tersebut kemudian diinterpolasikan ke 11 titik recall, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Nilai-nilai precision pada 11 titik recall tersebut disebut sebagai interpolated precision. Setiap nilai interpolated precision pada setiap query kemudian dirata-ratakan untuk setiap titik recall. Nilai pada 11 titik interpolated precision untuk query uji tersebut disebut sebagai interpolated average precision. Pada mesin pencari ini dilakukan evaluasi terhadap tiga model, yaitu DefaultSimilarity, BM25Similarity, dan BM25Similarity tuning. HASIL DAN PEMBAHASAN Pembuatan Ontologi Ontologi yang telah dibangun memiliki struktur yang dapat dilihat pada Gambar 5, dengan thing menyatakan root node dari ontologi tersebut. Ontologi ini terdiri dari tiga class utama, yaitu produk, aksesoris-produk, dan spesifikasi produk. Ketiga class tersebut memiliki beberapa subclass yang memiliki hubungan is-a terhadap superclass-nya. Pada class spesifikasi-produk terdapat subclass brand. Subclass brand memiliki beberapa individual yang didefinisikan secara otomatis menggunakan data dari basis data relasional. Class produk mengandung jenis-jenis produk yang merupakan kategorikategori produk Blibli.com. Namun terdapat beberapa class yang tidak termasuk ke dalam kategori produk Blibli.com. Class yang tidak termasuk kategori tersebut dibuat berdasarkan pengelompokan class-class kategori yang dianggap sejenis. Class aksesoris produk juga mengandung jenis-jenis produk yang merupakan kategori-kategori produk Blibli.com. Pada class ini juga terdapat beberapa class yang tidak termasuk ke dalam kategori produk Blibli.com. Kategori-kategori yang dimasukkan ke dalam class aksesoris produk merupakan kategori-kategori yang dianggap sebagai produk pelengkap atau aksesoris dari suatu produk. Class spesifikasi produk hanya berisi class brand dan colors. Di dalam class brand terdapat beberapa individu yang merupakan brand dari produk-produk pada semua kategori. Pada class colors, terdapat beberapa individu yang merupakan warna dari produk-produk pada semua kategori.

25 15 Gambar 5 Struktur ontologi produk Ekspansi Query Ekspansi query menggunakan ontologi yang dilakukan melalui SPARQL akan mengakibatkan pencarian term pada query dispesifikkan pada suatu field. Hal tersebut terlihat dari perubahan pada struktur penulisan query. Misalkan pengguna ingin mencari mouse dengan memasukkan query yaitu mouse logitech wireless. Jika query tersebut tidak diekspansi dan langsung dicari oleh Apache Solr, maka Apache Solr akan mencari term mouse, logitech, dan wireless pada semua field yang telah didefinisikan pada requesthandler yaitu namesearch, descriptionsearch, brandsearch, dan categories. Query tersebut dapat diekspansi dengan cara merepresentasikan setiap term pada query menjadi suatu kategori produk tersebut atau brand produk tersebut. Jika ekspansi query dilakukan, query tersebut akan berubah menjadi: categories:( mouse OR gaming mouse pad OR gaming mouse ) AND brandsearch: logitech AND logitech AND wireless

26 16 Term mouse dikenali oleh ontologi sebagai produk yang terdapat pada kategori mouse, gamingg mouse pad, dan gaming mouse. Term logitech dikenali oleh ontologi sebagai brand. Term wireless tidak dikenali oleh ontologi sehingga tidak didefinisikan field khusus untuk area pencariannya. Query yang telah diekspansi tersebut kemudian diproses ke dalam Apache Solr. Apache Solr akan melakukan pencarian secara spesifik pada field yang telah didefinisikan untuk setiap term. Apache Solr akan mencari term logitech dan wireless yang memiliki brand logitech pada kategori mouse, gaming mouse pad, dan gaming mouse. Scoring Proses scoring menghasilkan nilai yang digunakan untuk mengurutkan produk hasil pencarian dari suatu query. Urutan yang digunakan adalah dari dokumen yang memiliki nilai relevansi tertinggi ke dokumen yang memiliki nilai relevansi terendah. Pada saat scoring, Apache Solr mencari setiap term yang ada pada query ke setiap field yang telah didefinisikan pada schema.xml. Pada penelitian ini didefinisikan empat field pencarian ( namesearch, descriptionsearch, brandsearch, dan categories). Contoh pencarian yang dilakukan pada penelitian ini adalah pencarian query keyboard razer yang terdiri dari 2 term. Setiap term akan dicari ke dalam empat field yang telah didefinisikan. Misalkan term keyboard ditemukan pada field namesearch, descriptionsearch, dan categories yang dimiliki oleh dokumen dengan id Score setiap field dibandingkan dan dipilih yang memiliki nilai paling tinggi sebagai score yang mewakili term keyboard. Hal yang sama dilakukan untuk setiap term yang terdapat pada query sehingga didapatkan 2 nilai yang masing-masing mewakili score setiap term yang ada pada query. Kedua nilai tersebut selanjutnya dijumlahkan sehingga didapatkan score tunggal yang merupakan nilai relevansi untuk dokumen dengan id pada pencarian query keyboard razer. Visualisasi pencarian query keyboard razer dapat dilihat pada Gambar 6. Gambar 6 Visualisasi pencarian query keyboard razer

27 Score yang dihasilkan sangat dipengaruhi oleh formula similarity yang digunakan. Pada formula BM25Similarity, score tersebut dipengaruhi oleh tiga faktor yaitu parameter k 1, parameter b, dan panjang dokumen. Pada penelitian ini dilakukan analisis terhadap ketiga faktor tersebut untuk mengetahui bagaimana ketiga faktor tersebut mempengaruhi score BM25Similarity. Analisis ini dilakukan dengan memasukkan suatu deret nilai tertentu ke parameter yang ingin dilihat pengaruhnya saat nilai parameter lainnya konstan pada formula BM25Similarity. Pada BM25Similarity, parameter k 1 dapat menormalisasi nilai TF. Analisis pengaruh modifikasi nilai parameter k 1 terhadap nilai perubahan TF dilakukan dengan mengubah nilai parameter b = 0. Hal tersebut dilakukan karena b = 0 akan menonaktifkan pengaruh panjang dokumen terhadap normalisasi nilai TF. Pengaruh parameter k 1 terhadap nilai TF dapat dilihat pada Gambar ,5 k1=1 k1=1.2 k1=2 3 2,5 TF normalisasi 2 1,5 1 0, TF Gambar 7 Pengaruh parameter k 1 terhadap nilai TF Pada Gambar 7 dapat terlihat bahwa parameter k 1 menormalisasi nilai TF dengan memberikan batas nilai tertinggi sebesar k Jika k 1 = 1 maka nilai TF akan dinormalisasi ke dalam selang nilai 1 sampai hampir mendekati k = 2. Berdasarkan hal tersebut, dapat dikatakan bahwa semakin tinggi nilai k 1 maka semakin jauh perbedaan relevansi antara dokumen yang memiliki nilai TF yang tinggi dengan dokumen yang memiliki nilai TF yang rendah. Score pada BM25Similarity juga dipengaruhi oleh parameter b. Parameter b digunakan untuk mengatur porsi dari panjang dokumen yang mempengaruhi normalisasi nilai TF. Analisis pengaruh modifikasi nilai parameter b terhadap nilai perubahan TF dilakukan dengan mengubah nilai parameter k 1 ke nilai default yaitu k 1 = 1.2 dan TF = 1. Pengaruh parameter b terhadap nilai TF dapat dilihat pada Gambar 8.

28 18 1,6 1,4 dl/avgdl=0.5 dl/avgdl=1 dl/avgdl=2 1,2 TF normalisasi 1 0,8 0,6 0,4 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Paramater b Gambar 8 Pengaruh parameter b terhadap nilai TF Pada Gambar 8 dapat terlihat bahwa parameter b menormalisasi nilai TF = 1 dengan meningkatkan, menurunkan, atau sama sekali tidak mengubah nilai TF. Jika suatu dokumen memiliki panjang yang lebih kecil dari rata-rata panjang dokumen maka kenaikan parameter b akan meningkatkan nilai TF. Jika suatu dokumen memiliki panjang yang lebih besar dari rata-rata panjang dokumen maka kenaikan parameter b akan menurunkan nilai TF. Namun, jika suatu dokumen memiliki panjang yang sama dengan rata-rata panjang dokumen maka kenaikan parameter b tidak akan mengubah nilai TF. Berdasarkan hal tersebut, parameter b sangat berkaitan dengan panjang dokumen. Panjang dokumen cukup mempengaruhi score pada BM25Similarity melaui normalisasi nilai TF. Analisis pengaruh panjang dokumen terhadap nilai perubahan TF dilakukan dengan mengubah nilai parameter k 1 dan parameter b ke nilai default yaitu k 1 = 1.2 dan b = Pengaruh panjang dokumen terhadap nilai TF dapat dilihat pada Gambar 9. Pada Gambar 9 dapat terlihat bahwa dokumen yang memiliki panjang yang lebih kecil dari rata-rata panjang akan lebih cepat mendekati titik batas k = 2.2 jika dibandingkan dengan dokumen yang memiliki panjang yang lebih besar dari rata-rata panjang dokumen. Hal tersebut disebabkan pencarian term dengan nilai TF yang sama pada dokumen yang lebih pendek cenderung lebih relevan daripada dokumen yang lebih panjang. Semakin banyak term pada query yang ditemukan pada dokumen pendek tersebut maka dokumen pendek tersebut akan cenderung dianggap lebih relevan. Misalnya sebuah dokumen yang panjangnya seperti buku tebal akan membutuhkan sangat banyak sekali term pada query yang harus ditemukan agar dianggap lebih relevan. Sebaliknya, sebuah dokumen yang panjangnya seperti artikel koran hanya membutuhkan lebih sedikit term pada query yang harus ditemukan agar dianggap lebih relevan.

29 19 2,5 dl/avgdl = 0.5 dl/avgdl = 1 dl/avgdl = 2 2 TF normalisasi 1,5 1 0, TF Gambar 9 Pengaruh panjang dokumen terhadap nilai TF Evaluasi Hasil evaluasi yang dilakukan terhadap sistem ini dapat dilihat pada Tabel 2. Nilai MAP pada BM25Similarity tuning merupakan nilai MAP maksimum dari berbagai kombinasi nilai parameter k 1 dan b yang telah diujikan. Berdasarkan nilai MAP pada Lampiran 3, tuning yang terbaik berada pada nilai parameter k 1 = 2.0 dan b = 1.00 untuk mesin pencari yang menggunakan ontologi. Nilai tuning parameter terbaik yang berada pada saat k 1 = 2.0 memiliki arti bahwa score dari BM25Similarity dipengaruhi oleh nilai TF yang dinormalisasi ke dalam selang nilai 1 sampai hampir mendekati k = 3. Berdasarkan hal tersebut, dapat dikatakan bahwa nilai k 1 yang rendah bertujuan agar perbedaan relevansi antara dokumen yang memiliki nilai TF yang tinggi dengan dokumen yang memiliki nilai TF yang rendah tidak akan jauh berbeda. Hal tersebut disebabkan pencarian term pada beberapa field menggunakan query uji cenderung lebih sering menghasilkan nilai TF yang kecil yaitu TF = 1 walaupun pada field descriptionsearch didapatkan nilai TF antara 1 sampai 5. Oleh karena itu, dapat dikatakan bahwa selang nilai TF pada evaluasi menggunakan query uji sangatlah kecil sehingga parameter k 1 akan lebih sesuai jika nilainya kecil. Nilai tuning parameter terbaik yang berada pada saat b = 1.00 memiliki arti bahwa score dari BM25Similarity dipengaruhi oleh 1 bagian dari panjang suatu informasi produk. Nilai parameter b yang besar tersebut bertujuan agar nilai TF dapat berubah cukup jauh dari nilai awalnya ketika dinormalisasi. Hal tersebut disebabkan selang nilai TF yang relatif kecil dan cenderung lebih sering menghasilkan nilai TF yang kecil yaitu TF = 1.

30 20 Tabel 2 Nilai MAP hasil evaluasi Model MAP DefaultSimilarity BM25Similarity BM25Similarity tuning Berdasarkan Tabel 2, tuning yang dilakukan terhadap BM25Similarity meningkatkan nilai MAP sebesar pada mesin pencari yang menggunakan ontologi. BM25Similarity tuning juga memberikan kinerja yang relatif lebih baik jika dibandingkan dengan DefaultSimilarity untuk evaluasi dengan menggunakan query uji. Kenaikan nilai MAP yang tidak terlalu signifikan tersebut diakibatkan oleh panjang informasi dan nilai TF yang cenderung hampir sama pada setiap produk. Hal tersebut juga mengakibatkan nilai MAP DefaultSimilarity sama dengan nilai MAP BM25Similarity. BM25Similarity akan memberikan perbedaan hasil yang signifikan pada dokumen yang memiliki panjang dan selang nilai TF yang beragam. Dengan adanya keberagaman tersebut, BM25Similarity dapat lebih efektif menormalisasi nilai TF melalui parameter k 1 dan b. Perbandingan Kinerja BM25Similarity dengan DefaultSimilarity Setelah didapatkan hasil evaluasi dari penggunaan BM25Similarity dan ontologi, tahap selanjutnya adalah membandingkan kinerja antara BM25Similarity, BM25Similarity tuning, dan DefaultSimilarity. Perbandingan kinerja ini menggunakan query yang dibagi menjadi tiga kelompok, yaitu query yang memperhatikan struktur ontologi, query yang tidak memperhatikan struktur ontologi, dan query keseluruhan. Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang memperhatikan struktur ontologi dapat dilihat pada Gambar 10. Gambar 10 dan Lampiran 4 menunjukkan bahwa BM25Similarity tuning, BM25Similarity, dan DefaultSimilarity memberikan hasil yang sama untuk evaluasi dengan menggunakan query uji yang memperhatikan struktur ontologi. Hal ini disebabkan oleh panjang informasi dan nilai TF yang sama pada setiap produk untuk pencarian menggunakan query uji yang telah diekspansi. Untuk evaluasi menggunakan query uji yang tidak memperhatikan struktur ontologi, BM25Similarity tuning memberikan perbedaan hasil evaluasi yang sedikit lebih baik jika dibandingkan dengan BM25Similarity dan DefaultSimilarity. Hasil evaluasi tersebut dapat dilihat pada Lampiran 5. Jika dilihat secara keseluruhan, ketiga model tersebut tidak memberikan perbedaan yang signifikan seperti hasil evaluasi menggunakan query yang memperhatikan struktur ontologi. Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang tidak memperhatikan struktur ontologi dapat dilihat pada Gambar 11.

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL i SKRIPSI S U L H A N 041401025 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Pencarian Pencarian adalah proses untuk menemukan suatu informasi yang kita butuhkan. Misalnya, kita ingin mencari sebuah kata didalam dokumen digital yang kita miliki. Kita

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya perkembangan teknologi dewasa ini telah menyebabkan aliran informasi begitu lancar

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE OLGA CERIA SARI NRP 5106 100 618 DOSEN PEMBIMBING: Sarwosri,S.Kom,MT. Umi Laili Yuhana, S.Kom, M.Sc LATAR BELAKANG Kebutuhan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

1. BAB I PENDAHULUAN 1.1 Latar Belakang

1. BAB I PENDAHULUAN 1.1 Latar Belakang 1. BAB I PENDAHULUAN 1.1 Latar Belakang Perpustakaan digital merupakan aplikasi praktis yang mengelola koleksi berbagai macam dokumen dalam bentuk digital dan dapat diakses melalui komputer. Melalui aplikasi

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisa Masalah Dengan banyaknya jumlah dokumen yang ada di Teknik Informatika yang terus bertambah dari waktu ke waktu maka akan sulit juga untuk mencari informasi

Lebih terperinci

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap BAB I PENDAHULUAN 1. 1 Latar Belakang Sistem informasi merupakan serangkaian prosedur normal dimana data dikumpulkan, diproses menjadi sebuah informasi yang valid dan kemudian didistribusikan ke para pengguna

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR Persyaratan Guna Meraih Gelar Sarjana Strata I Teknik Informatika Universitas Muhammadiyah Malang Nama : Ayu

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Sistem Temu Kembali Informasi Sistem Temu Kembali Informasi atau Information Retrieval (IR) adalah kegiatan untuk menemukan suatu material (dokumen) dari data yang tidak terstruktur

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi 67 BAB 4 HASIL DAN BAHASAN 4.1 Hasil Penelitian dan Evaluasi 4.1.1 Hasil Penelitian Berikut disajikan beberapa data hasil query dari penelitian yang dilakukan dengan melampirkan tabel data precision dan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci