UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD

Transkripsi

1 UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2016 Ammar Imron Muhammad NIM G

4 ABSTRAK AMMAR IMRON MUHAMMAD. Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop. Dibimbing oleh JULIO ADISANTOSO dan YENI HERDIYENI. Penelitian ini membangun mesin pencari berbasis Apache Solr menggunakan informasi hierarki dari ontologi untuk mengekspansi query yang diberikan oleh pengguna. Mesin pencari ini menggunakan BM25Similarity dengan memodifikasi tuning parameter (k 1 dan b) yang ada di dalamnya. Mesin pencari ini menggunakan data produk milik Blibli.com. Hasil evaluasi terhadap mesin pencari ini menunjukkan bahwa BM25Similarity yang telah dituning (k 1 = 2.0 dan b = 1.00) memberikan kinerja yang relatif lebih baik dibandingkan DefaultSimilarity (model Boolean dan ruang vektor) untuk evaluasi dengan menggunakan query uji pada pencarian produk online shop Blibli.com. BM25Similarity yang telah di-tuning pada penelitian ini dapat meningkatkan nilai MAP sebesar Kata kunci: Apache Solr, BM25, mesin pencari, online shop, ontologi, tuning parameter ABSTRACT AMMAR IMRON MUHAMMAD. BM25 Similarity on Ontology Model of Product Search Engine of Online Shop. Supervised by JULIO ADISANTOSO and YENI HERDIYENI. This research develops search engine based on Apache Solr using hierarchy information of ontology to expand the query provided by the user. This search engine uses BM25Similarity with modified tuning parameter (k 1 and b). This search engine uses of product data from Blibli.com. The evaluation results of this search engine show that tuned BM25Similarity (k 1 = 2.0 and b = 1.00) gives a relatively better performance than DefaultSimilarity (Boolean and Vector Space Model) for evaluation using query test on Blibli.com online shop product searching. The tuned BM25Similarity in this research could increase the value of MAP at Keywords: Apache Solr, BM25, online shop, ontology, search engine, tuning parameter

5 UKURAN KEMIRIPAN BM25 PADA MODEL ONTOLOGI MESIN PENCARI PRODUK ONLINE SHOP AMMAR IMRON MUHAMMAD Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

6 Penguji: Dr Imas Sukaesih Sitanggang, SSi MKom

7 Judul Skripsi: Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop Nama : Ammar Imron Muhammad NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing I Dr Yeni Herdiyeni, SSi MKom Pembimbing II Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Februari 2016 ini ialah mesin pencari dan ontologi, dengan judul Ukuran Kemiripan BM25 pada Model Ontologi Mesin Pencari Produk Online Shop. Penyusunan skripsi ini tidak terlepas dari peran berbagai pihak. Oleh karena itu, penulis ingin menyampaikan terima kasih kepada: 1 Ibunda Joheni, Ayahanda Suherman Sumadi, dan seluruh keluarga atas segala doa serta kasih sayangnya hingga saat ini. 2 Bapak Ir Julio Adisantoso, MKom dan Ibu Dr Yeni Herdiyeni, SSi MKom selaku dosen pembimbing skripsi yang telah membimbing dalam penyusunan skripsi ini. 3 Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku penguji skripsi yang telah memberikan saran dalam penyusunan skripsi ini. 4 Para dosen dan staf pegawai Departemen Ilmu Komputer IPB yang telah memberikan bantuan kepada penulis hingga saat ini. 5 Bapak Ifnu Bima Fatkhan dan Bapak Ronald Prasetya atas bimbingannya selama menjalani intership di PT Global Digital Niaga. 6 Rijen Juni P Sianturi, Rizki Adi Utomo, dan Muhammad Syarif atas kerjasamanya sebagai tim internship pada saat penelitian di PT Global Digital Niaga serta rekan-rekan mahasiswa Ilmu Komputer IPB angkatan 49 atas dukungan dan semangatnya. Semoga skripsi ini dapat memberikan manfaat bagi semua pihak yang membutuhkan. Bogor, Agustus 2016 Ammar Imron Muhammad

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 3 METODE 3 Pembuatan Ontologi 4 Pembuatan Indeks 5 Ekspansi Query 7 Scoring 9 Evaluasi 12 HASIL DAN PEMBAHASAN 14 Pembuatan Ontologi 14 Ekspansi Query 15 Scoring 16 Evaluasi 19 Perbandingan Kinerja BM25Similarity dengan DefaultSimilarity 20 SIMPULAN DAN SARAN 22 Simpulan 22 Saran 22 DAFTAR PUSTAKA 23 LAMPIRAN 24 RIWAYAT HIDUP 32

10 DAFTAR TABEL 1 Confusion matrix 10 2 Nilai MAP hasil evaluasi 15 DAFTAR GAMBAR 1 Metode penelitian 3 2 Visualisasi hubungan class, property, dan individual 4 3 Skema pengintegrasian Apache Solr dengan aplikasi lain 6 4 SPARQL yang digunakan pada penelitian 7 5 Struktur ontologi produk 15 6 Visualisasi pencarian query keyboard razer 16 7 Pengaruh parameter k 1 terhadap nilai TF 17 8 Pengaruh parameter b terhadap nilai TF 18 9 Pengaruh parameter panjang dokumen terhadap nilai TF Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang memperhatikan struktur ontologi Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang tidak memperhatikan struktur ontologi Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query keseluruhan 22 DAFTAR LAMPIRAN 1 Daftar stopwords 24 2 Daftar query uji beserta ekspansi query 25 3 Hasil pengujian beberapa tuning parameter BM25 menggunakan ontologi beserta nilai MAP 27 4 Hasil perhitungan precision yang diinterpolasikan ke 11 titik recall menggunakan query yang memperhatikan struktur ontologi 30 5 Hasil perhitungan precision yang diinterpolasikan ke 11 titik recall menggunakan query yang tidak memperhatikan struktur ontologi 30 6 Hasil perhitungan precision yang diinterpolasikan ke 11 titik recall menggunakan query keseluruhan 31

11 1 PENDAHULUAN Latar Belakang Relevansi dari pencarian informasi produk merupakan salah satu hal penting yang harus diperhatikan dalam membangun mesin pencari pada online shop. Seiring dengan bertambahnya informasi mengenai produk-produk yang ditawarkan oleh online shop, mesin pencari semakin tidak mudah untuk menghasilkan hasil pencarian dengan tingkat relevansi yang tinggi. Untuk mengatasi permasalahan tersebut, dibutuhkan struktur dokumen informasi produk yang tepat dan dapat dengan mudah diproses oleh mesin pencari. Pada saat ini dokumen yang mengandung informasi produk tersebut masih banyak menggunakan struktur yang mudah untuk dibaca oleh manusia tetapi informasi yang terkandung di dalamnya tidak mudah untuk diproses oleh mesin (Sinha et al. 2012). Oleh karena itu, digunakanlah konsep ontologi berbasis semantic web untuk menjawab permasalahan tersebut. Pencarian informasi yang dilakukan secara semantik dan menggunakan ontologi dapat memudahkan mesin pencari untuk lebih baik dalam mengartikan query yang dimasukkan oleh pengguna. Ontologi tersebut merupakan hubungan dan klasifikasi beberapa konsep dalam domain tertentu, sebagai cara untuk merepresentasikan pengetahuan atau pemetaan pengetahuan (Jepsen 2009). Penggunaan ontologi mendorong terciptanya hubungan antartoken pada query yang dimasukkan oleh pengguna. Dengan adanya hubungan tersebut, mesin pencari hanya membutuhkan lebih sedikit term untuk dapat menampilkan informasi relevan yang diinginkan oleh pengguna (Aghajani 2012). Untuk mencapai tingkat relevansi yang tinggi, mesin pencari juga harus dibangun dengan menggunakan pendekatan temu kembali informasi yang tepat. Salah satu pendekatan temu kembali informasi adalah model probabilistik. Model probabilistik memfokuskan pencarian pada hasil perhitungan statistik dan probabilitas dari masing-masing dokumen yang diproses. Pada model ini dilakukan perhitungan koefisien kesamaan antara query yang diberikan dengan suatu dokumen. Koefisien tersebut merupakan sebuah peluang yang menyatakan tingkat relevansi dokumen terhadap query. Tiap kata yang terdapat dalam query memiliki nilai peluang. Nilai peluang tersebut digunakan untuk menghitung peluang akhir yang menyatakan relevansi dokumen. Model probabilistik temu kembali informasi memiliki beberapa fungsi atau ukuran kemiripan yang digunakan. Salah satu contoh ukuran kemiripan adalah best matching (BM). Ukuran kemiripan BM yang memiliki kinerja yang sangat baik adalah BM25. BM25 dipengaruhi oleh tiga faktor utama, yaitu inverse document frequency (IDF), term frequency (TF), dan document length (Kumar 2015). Penelitian terkait dengan ukuran kemiripan BM25 sudah banyak dilakukan, diantaranya pengembangan mesin pencari teks Bahasa Indonesia menggunakan fungsi OKAPI BM25 (Saputra 2013). Penelitian terhadap mesin pencari teks Bahasa Indonesia tersebut terfokus pada modifikasi nilai variabel yang dapat diubah ( tuning parameter) pada fungsi OKAPI BM25. Modifikasi nilai dari tuning parameter bertujuan meningkatkan kinerja dari model probabilistik

12 2 tersebut. Dengan menggunakan nilai tuning parameter yang tepat, nilai rata-rata presisi dari sistem tersebut dapat meningkat dan lebih baik dibandingkan dengan sistem yang menggunakan model ruang vektor. Namun, penelitian tersebut belum menggunakan ontologi untuk meningkatkan relevansi hasil pencarian yang dilakukan oleh mesin pencari. Berdasarkan latar belakang tersebut, penelitian ini difokuskan pada ukuran kemiripan BM25 pada model ontologi mesin pencari produk online shop berbasis Apache Solr. Apache Solr merupakan open source enterprise search platform yang menggunakan Apache Lucene sebagai library untuk full-text search. Ontologi pada mesin pencari ini digunakan untuk mengekspansi query yang diberikan oleh pengguna. Ukuran kemiripan BM25 diimplementasikan sebagai BM25Similarity pada Apache Solr. Selain itu, pada BM25Similarity tersebut dilakukan modifikasi nilai tuning parameter. Setelah itu dilakukan evaluasi untuk mengetahui apakah penggunaan ontologi dan modifikasi nilai tuning parameter pada BM25Similarity dapat meningkatkan relevansi hasil pencarian yang diberikan. Pada evaluasi tersebut juga dilakukan perbandingan kinerja BM25Similarity dengan DefaultSimilarity yang merupakan ukuran kemiripan default pada Apache Solr. Perumusan Masalah Rumusan permasalahan pada penelitian ini adalah: 1 Apakah modifikasi tuning parameter pada BM25Similarity dapat meningkatkan relevansi hasil pencarian produk online shop? 2 Apakah BM25Similarity dapat memiliki kinerja yang lebih baik dibandingkan dengan DefaultSimilarity? Tujuan Penelitian Tujuan dari penelitian ini adalah menguji seberapa besar pengaruh modifikasi tuning parameter BM25Similarity terhadap evaluasi hasil pencarian produk online shop yang menggunakan ontologi untuk mengekspansi query. Selain itu, penelitian ini juga bertujuan menganalisis kinerja BM25Similarity dibandingkan dengan DefaultSimilarity dalam memberikan hasil pencarian produk online shop. Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah membantu proses pencarian produk online shop agar lebih relevan. Hasil pencarian dengan tingkat relevansi yang lebih tinggi diharapkan dapat meningkatkan tingkat kepuasan pengguna mesin pencari tersebut terhadap layanan yang diberikan oleh online shop.

13 3 Ruang Lingkup Penelitian Ruang lingkup dari penelitian ini adalah: 1 Pencarian produk online shop menggunakan mesin pencari berbasis Apache Solr. 2 Mesin pencari dibangun dengan menerapkan penggunaan ontologi untuk mengekspansi query dan penggunaan BM25Similarity dengan modifikasi tuning parameter. 3 Ontologi yang digunakan berdasarkan data produk yang dimiliki oleh PT Global Digital Niaga (Blibli.com). METODE Mesin pencari pada dasarnya terbagi menjadi dua komponen utama, yaitu komponen pengindeksan (indexing) dan komponen temu kembali (Sudirman dan Kodar 2012). Pada penelitian ini, kedua komponen tersebut ditangani oleh Apache Solr. Pada komponen temu kembali banyak dipengaruhi oleh hasil informasi hierarki dari ontologi. Metode yang dilakukan pada penelitian ini dapat dilihat pada Gambar 1. Query Pembuatan Ontologi Ekspansi Query Pembuatan Indeks Scoring Apache Solr Hasil Evaluasi Gambar 1 Tahapan penelitian Tahapan penelitian diawali dengan pembuatan ontologi berdasarkan data produk yang dimiliki oleh PT Global Digital Niaga. Data tersebut berada pada basis data relasional PT Global Digital Niaga yang diambil dan dijadikan individual pada ontologi yang telah mengandung class dan property. Selain itu, data tersebut juga digunakan pada proses indexing ke dalam Apache Solr. Ontologi yang digunakan pada sistem ini dibuat berdasarkan data yang tersimpan pada basis data relasional. Ketika pengguna memasukkan query yang berupa kata kunci pencarian produk, query kemudian diekspansi menggunakan

14 4 informasi hierarki dari ontologi. Query yang telah diekspansi dimasukkan ke dalam Apache Solr untuk dicari kesamaan dengan indeks yang telah terbentuk pada proses sebelumnya. Tahap selanjutnya adalah melihat kesamaan hasil yang didapatkan dari dokumen dengan query yang dimasukkan. Apache Solr melakukan scoring terhadap dokumen menggunakan ukuran kemiripan BM25. Dokumen hasil scoring ditampilkan ke pengguna dengan urutan dokumen dari yang memiliki score terbesar ke yang memiliki score terkecil. Hasil pencarian tersebut kemudian dievaluasi. Pembuatan Ontologi Ontologi merupakan suatu teknik merepresentasikan suatu pengetahuan yang dapat berupa fakta ataupun ide. Pengetahuan tersebut didefinisikann ke dalam hubungan dan klasifikasi dari suatu konsep pada domain yang spesifik (Jepsen 2009). Ontologi memiliki berbagai pengertian di beberapa konteks ilmu yang berbeda. Dalam konteks ilmu komputer, ontologi dapat diartikan sebagai model pengetahuan yang direpresentasikan ke dalam bentuk representasi formal (Liu dan Ozsu 2009). Representasi yang terdapat pada ontologi memungkinkan adanya suatu bentuk hubungan semantik antarkonsep yang terkandung dalam ontologi. Ontologi tersebut juga memiliki serangkaian aturan untuk menginferensi konsep yang ada di dalamnya. Ontologi memiliki tiga komponen dasar, yaitu class, property, dan individual (Liu dan Ozsu 2009). Class merepresentasikan konsep dari entitas dalam suatu domain. Class merupakan himpunan abstrak dari suatu objek. Di dalam suatu class dapat terkandung suatu individual atau class lain. Sebuah class dapat dijelaskan menggunakan property, misalnya class SmartPhone memiliki property yaitu HasColor. Selain itu, suatu class dapat mengandungg beberapa individual, misalnya classs Color memiliki beberapa individual yaitu gold dan silver. Visualisasi hubungan class, property, dan individual dapat dilihat pada Gambar 2. Gambar 2 Visualisasi hubungan class, property, dan individual Ontologi biasanya dibangun berdasarkan atas tujuan penggunaannya. Pada penelitian ini, ontologi digunakan untuk mengekspansi query yang diberikan oleh pengguna mesin pencari. Proses ekspansi query menggunakan setiap term pada query sebagai individual pada ontologi. Ketika ditemukan individual yang relevan dengan term yang ada pada query, nama dari class yang mengandung individual tersebut akan diekstraksi untuk digunakan sebagai acuan dalam ekspansi query.

15 Pada mesin pencari ini, ontologi dibangun berdasarkan data produk milik PT Global Digital Niaga. Ontologi dibangun melalui dua tahap yaitu tahap pembuatan ontologi yang berisi class, property, dan beberapa individual serta tahap penambahan individual melalui pengambilan data beberapa atribut dari basis data relasional yang dimiliki oleh PT Global Digital Niaga. Ontologi dibangun dengan menggunakan perangkat lunak open source Protege. Ontologi yang dihasilkan dari Protege memiliki format resource description framework (RDF) atau extensible markup language (XML). 5 Pembuatan Indeks Dokumen yang digunakan untuk membuat indeks berupa data produk yang berjumlah Data produk tersebut merupakan data milik PT Global Digital Niaga. Atribut yang digunakan pada setiap produk direpresentasikan dalam bentuk field tag sebagai berikut: <field name= id >91889</field>, menunjukkan ID produk. <field name= namesearch >Logitech Wireless Mini Mouse M187 Red</field>, menunjukkan nama produk. <field name= descriptionsearch >Logitech Wireless Mini Mouse M187 merupakan mouse berdesain kecil dan imut, yang bisa dimasukan ke saku, kantong, atau bahkan dompet.</field>, menunjukkan deskripsi produk. <field name= brandsearch >Logitech</field>, menunjukkan merek produk. <field name= categories >Keyboard & Mouse</field>, menunjukkan kategori-kategori dari suatu produk. Atribut-atribut tersebut memiliki tipe data berupa string dan bersifat single value kecuali pada atribut categories. Pembuatan indeks dilakukan secara otomatis oleh Apache Solr. Apache Solr merupakan open source enterprise search platform berbasis Apache Lucene (Kumar 2015). Apache Solr menggunakan Apache Lucene sebagai library untuk full-text search. Selain itu, Apache Solr juga melakukan proses indexing menggunakan Apache Lucene. Apache Solr memiliki beberapa fitur, yaitu fulltext search, hit highlighting, faceted search, real-time indexing, dinamic clustering, integrasi basis data, fitur NoSQL, dan dapat menangani rich document (misalnya Word, PDF). Apache Solr dibangun menggunakan bahasa pemrograman Java. Apache Solr dapat diintegrasikan ke dalam sebuah aplikasi seperti pada skema yang terdapat pada Gambar 3. Apache Solr berjalan bersebelahan dengan aplikasi-aplikasi server yang lainnya sehingga pencarian menggunakan Apache Solr akan lebih mudah dilakukan. Di dalam Apache Solr terdapat konfigurasi schema yang menggambarkan fields dari dokumen yang akan dijadikan indeks. Query yang digunakan oleh Apache Solr bersifat RESTful sehingga query yang digunakan merupakan sebuah simple HTTP request URL. Response dari query tersebut berupa dokumen yang terstruktur seperti XML. Selain XML, query response juga dapat berupa JSON, CSV, dan beberapa format lain.

16 6 Gambar 3 Skema pengintegrasian Apache Solr dengan aplikasi lain Pada proses pembuatan indeks yang terjadi di dalam Apache Solr, dokumen ataupun query akan ditransformasikan ke dalam inverted index. Dengan menggunakan inverted index, posisi kemunculan suatu term pada kumpulan dokumen dapat diketahui. Di dalam inverted index terkandung informasi dokumen apa saja yang mengandung suatu term. Apache Solr menyimpan indeks tersebut ke dalam struktur indeks multifile menggunakan UTF 16 Java character. Struktur indeks multifile terdiri dari segment files yang masing-masing segmen dapat mengandung lebih dari satu informasi produk. Konfigurasi proses indexing pada Apache Solr dilakukan dengan mengubah file schema.xml dan solrconfig.xml yang terdapat dalam folder conf. Konfigurasi yang dilakukan berupa penambahan beberapa tag field, copyfield, dan fieldtype pada schema.xml serta penambahan tag requesthandler pada solrconfig.xml. Melalui konfigurasi tersebut, proses indexing dapat dibagi menjadi tokenisasi, stemming, pembuangan stopwords, dan pembobotan token (term weighting). Tokenisasi pada proses indexing merupakan proses membagi teks ke dalam bentuk-bentuk kecil seperti nomor, tanda baca, dan kata-kata dari berbagai tipe. Tokenisasi yang dilakukan pada konteks ini adalah tokenisasi ke dalam bentuk kata-kata. Kata adalah sekumpulan karakter alfanumerik yang saling terhubung dan dipisahkan oleh whitespace, di antaranya adalah spasi dan newline. Stemming pada proses indexing merupakan proses perubahan kata-kata hasil tokenisasi ke dalam kata dasar atau dapat disebut juga pembuangan imbuhan dari suatu kata. Misalkan kata mengambil dan pengambilan akan diubah menjadi kata ambil. Pembuangan stopwords pada proses indexing merupakan proses pembuangan kata yang sering muncul di dalam dokumen (stopwords). Kata-kata yang sering muncul tersebut tidak cocok untuk dijadikan sebagai penciri, diantaranya adalah kata yang, di, ke, dan, pada, dan sebagainya. Pembuangan stopwords dilakukan untuk memisahkan penciri dengan bukan penciri dalam kumpulan dokumen. Pada mesin pencari ini, pembuangan stopword dilakukan pada saat proses pencarian suatu query. Stopword yang digunakan pada mesin pencari ini dapat dilihat pada Lampiran 1. Pembobotan adalah proses pemberian bobot atau nilai pada term yang ada pada dokumen. Proses pemberian bobot didasarkan pada fungsi pembobotan yang digunakan, misalnya term frequency (TF) dan document frequency (DF). TF t

17 menggambarkan frekuensi dari suatu term t, sedangkan DF t menggambarkan frekuensi dokumen yang mengandung suatu term t. Nilai bobot yang dihasilkan pada proses pembobotan disimpan ke dalam indeks agar dapat digunakan pada proses scoring. 7 Ekspansi Query Ekspansi query merupakan proses reformulasi terhadap query yang diberikan oleh pengguna. Proses reformulasi bertujuan untuk meningkatkan relevansi hasil pencarian terhadap query tersebut. Ekspansi query yang dilakukan berupa penambahan field pencarian pada setiap term yang diberikan oleh pengguna. Hal ini bertujuan agar Apache Solr dapat lebih mengenali domain dari setiap term yang diberikan oleh pengguna. Ketika Apache Solr telah mengenali domain dari suatu term, pencarian akan dilakukan lebih spesifik pada suatu field sehingga Apache Solr tidak perlu mencari term pada semua field. Akibatnya, proses pencarian yang dilakukan oleh Apache Solr akan lebih akurat. Ekspansi query dilakukan berdasarkan informasi hierarki yang ada pada ontologi. Informasi hierarki didapatkan dengan mengeksekusi SPARQL ke dalam ontologi. SPARQL merupakan bahasa query yang digunakan untuk memanipulasi resource description framework (RDF) melalui query. RDF tersebut merupakan salah satu bentuk tipe data yang digunakan oleh ontologi. Query pada SPARQL hampir sama dengan query pada SQL yang digunakan pada basis data relasional. Namun, SPARQL memiliki perbedaan pada bentuk struktur penyusunnya. Pada umumnya, query dalam SPARQL memiliki struktur triples yang didahului dengan mendefinisikan PREFIX (awalan). Struktur triples tersebut sama seperti struktur penyusun RDF. Triples terdiri dari tiga bagian penyusun, yaitu subjek, predikat, dan objek. PREFIX yang didefinisikan pada awal query SPARQL mengandung uniform resource identifier (URI). URI merupakan sebuah string dari karakter-karakter yang digunakan untuk mendefinisikan sebuah resource. Query yang diberikan oleh pengguna akan diekspansi dengan menggunakan informasi hierarki dari ontologi sebelum diproses oleh Apache Solr. Informasi hierarki tersebut didapatkan melalui hasil eksekusi SPARQL pada ontologi. SPARQL yang digunakan pada penelitian ini seperti tertera pada Gambar 4. 1 PREFIX rdfs: < 2 SELECT?subClassLabel 3 WHERE { 4?subClass rdfs:label?subclasslabel. 5?subClass rdfs:subclassof*?class. 6?class rdfs:label?classlabel. 7 FILTER ( ( 8 STRSTARTS(LCASE(?classLabel), "term") 9 && STRENDS(LCASE(?classLabel), "term") 10 ) STRSTARTS(LCASE(?classLabel), "term-") 11 CONTAINS(LCASE(?classLabel), "-term-") 12 STRENDS(LCASE(?classLabel), "-term") ) ) Gambar 4 SPARQL yang digunakan pada penelitian

18 8 Pada baris 1 dari SPARQL yang digunakan menyatakan pendefinisian PREFIX rdfs untuk URI Baris 2 menyatakan penggunaan fungsi SELECT untuk memilih isi dari variabel subclasslabel. Tanda? pada SPARQL tersebut menyatakan suatu variabel. Baris 3 menyatakan penggunaan fungsi WHERE untuk memberikan syarat pemilihan yang dilakukan fungsi SELECT. Baris 4 menyatakan triple yaitu variabel subclass (subjek) memiliki label dengan PREFIX rdfs (predikat) berupa variabel subclasslabel (objek). PREFIX yang diikuti oleh suatu kata pada SPARQL tersebut menyatakan predikat dari suatu subjek terhadap objek. Baris 5 menyatakan triple yaitu variabel subclass (subjek) memiliki subclassof dengan PREFIX rdfs (predikat) berupa variabel class (objek). Tanda * pada SPARQL tersebut menyatakan iterasi for each. Baris 6 menyatakan triple yaitu variabel class (subjek) memiliki label dengan PREFIX rdfs (predikat) berupa variabel classlabel (objek). Baris 7 dari SPARQL yang digunakan menyatakan penggunaan fungsi FILTER untuk menyaring hasil pemilihan bersyarat yang dilakukan fungsi SELECT dan WHERE. Baris 8 menyatakan kriteria FILTER yaitu string awal ( STRSTARTS) dari isi variabel classlabel yang diubah ke dalam huruf kecil ( LCASE) harus sama dengan term pada query. Baris 9 menyatakan kriteria FILTER yaitu string akhir (STRENDS) dari isi variabel classlabel yang diubah ke dalam huruf kecil (LCASE) harus sama dengan term pada query. Tanda && pada SPARQL tersebut menyatakan operator AND. Operator AND mengharuskan kedua pernyataan yang terhubung dengannya harus terpenuhi agar gabungan pernyataan tersebut bernilai benar. Baris 10 menyatakan kriteria FILTER yaitu string awal (STRSTARTS) dari isi variabel classlabel yang diubah ke dalam huruf kecil (LCASE) harus sama dengan term- pada query. Tanda pada SPARQL tersebut menyatakan operator OR. Operator OR mengharuskan kedua pernyataan yang terhubung dengannya minimal salah satu harus terpenuhi agar gabungan pernyataan tersebut bernilai benar. Tanda - yang menempel pada term tersebut menyatakan karakter spasi pada label yang digunakan dalam ontologi. Baris 11 menyatakan kriteria FILTER yaitu isi variabel classlabel yang diubah ke dalam huruf kecil ( LCASE) harus mengandung (CONTAINS) -term- pada query. Baris 12 menyatakan kriteria FILTER yaitu string akhir ( STRENDS) dari isi variabel classlabel yang diubah ke dalam huruf kecil ( LCASE) harus sama dengan - term pada query. Sebelum SPARQL dieksekusi ke dalam ontologi, terlebih dahulu disisipkan term dari query pencarian. Hal ini dilakukan agar didapatkan hasil berupa nama class beserta semua subclass-subclass yang berelasi sesuai dengan term yang dimasukkan. Jika ditelusuri dari awal, SPARQL tersebut mencari label dari subclass. Subclass tersebut merupakan child node dari suatu class. Di dalam class tersebut terkandung kata-kata yang sama dengan term. Hasil yang didapatkan dari SPARQL digunakan sebagai bahan ekspansi terhadap query. Tujuan dari ekspansi ini agar Apache Solr dapat mengetahui secara spesifik field pencarian dari setiap term yang terkandung dalam query yang diberikan oleh pengguna. Secara umum, Apache Solr akan mencari semua term pada beberapa field yang telah dikonfigurasikan untuk dijadikan tujuan pencarian pada requesthandler. Ekspansi yang dilakukan pada sistem ini lebih cenderung

19 pada pengarahan area pencarian query pada suatu kategori tertentu yang dianggap mengandung produk yang dicari. Oleh karena itu, Apache Solr dapat lebih akurat dalam memberikan hasil pencarian karena area pencarian telah diarahkan ke suatu kategori tertentu. 9 Scoring Scoring merupakan proses pemberian nilai relevansi pada dokumen berdasarkan similarity terhadap query yang digunakan. Nilai relevansi digunakan untuk mengurutkan dokumen hasil pencarian dari yang paling relevan ke yang paling tidak relevan. Proses scoring yang terdapat pada Apache Solr merupakan kombinasi dari fungsi pembobotan dan similarity. Nilai pembobotan dari proses indexing digunakan kembali pada fungsi pembobotan dan similarity yang ada di dalam proses scoring. Metode pembobotan yang digunakan pada penelitian ini adalah metode pembobotan berdasarkan BM25Similarity. BM25Similarity merupakan implementasi dari ukuran kemiripan BM25 pada Apache Solr. BM25Similarity berbasis pada model probabilistik temu kembali informasi yang menghitung kemungkinan sebuah term muncul dalam sebuah dokumen yang relevan. Peluang tersebut menggambarkan kemungkinan relevansi suatu dokumen terhadap suatu query. BM25Similarity dipengaruhi oleh tiga faktor utama, yaitu term frequency (TF), inverse document frequency (IDF), dan panjang dokumen. Term frequency (TF) adalah frekuensi kemunculan dari suatu term dalam suatu dokumen (Manning et al. 2008). Dokumen yang memiliki lebih banyak kemunculan suatu term akan mendapatkan nilai relevansi yang lebih tinggi pada saat pencarian term tersebut. Hal ini merupakan kelemahan dari TF karena term yang sering muncul belum tentu merupakan penciri dari suatu dokumen. Kelemahan TF tersebut dapat diatasi dalam BM25Similarity dengan menentukan batas pengaruh TF terhadap nilai relevansi suatu dokumen. Dengan adanya faktor pembatas tersebut, term dengan frekuensi yang sangat tinggi tidak akan memberikan banyak pengaruh terhadap nilai relevansi suatu dokumen. Faktor pembatas direpresentasikan dengan parameter yang digunakan untuk menormalisasikan frekuensi dari suatu term. Nilai default dari parameter adalah 1.2. Nilai ini dapat dimodifikasi untuk meningkatkan relevansi hasil pencarian. Secara tidak langsung, panjang dokumen juga dapat mempengaruhi nilai relevansi pencarian. Hal ini disebabkan dokumen yang lebih panjang cenderung memiliki frekuensi suatu term yang lebih tinggi sehingga mengakibatkan peningkatan nilai relevansi. Dokumen yang lebih panjang belum tentu merupakan dokumen yang lebih relevan dibandingkan dengan dokumen yang lebih pendek. Permasalahan ini dapat diatasi dalam BM25Similarity dengan menggunakan parameter untuk mengatur porsi dari panjang dokumen yang menormalisasi nilai frekuensi suatu term. TF pada BM25Similarity dapat dinyatakan dalam Persamaan 1 (Kumar 2015),

20 10 (, ) = ( + 1) (, ) (, ) (1) dengan menyatakan suatu term pada query, (, ) menyatakan normalisasi frekuensi suatu term dari query pada dokumen, (, ) menyatakan frekuensi suatu term pada query, menyatakan panjang dokumen, menyatakan panjang rata-rata dari seluruh dokumen yang ada, dan, menyatakan tuning parameter. Inverse document frequency (IDF) yang terdapat pada BM25Similarity menyatakan jumlah dokumen yang memiliki suatu term dibanding dengan jumlah dokumen yang ada secara keseluruhan. IDF pada BM25Similarity dapat dinyatakan dalam Persamaan 2 (Kumar 2015), ( ) = log 1 + ( ) ( ) (2) dengan menyatakan suatu term pada query, ( ) menyatakan nilai IDF suatu term yang terdapat pada query, menyatakan jumlah seluruh dokumen yang ada, dan ( ) menyatakan frekuensi dokumen yang memiliki suatu term. Untuk mengevaluasi bobot keseluruhan dari suatu term diperlukan perhitungan dengan mengalikan TF dan IDF. Jika bobot keseluruhan suatu term dipengaruhi oleh boost (faktor peningkat bobot) maka bobot keseluruhan dari suatu term pada BM25Similarity dapat dinyatakan dalam Persamaan 3 (Kumar 2015), (, ) = ( ) (, ) (3) dengan menyatakan suatu term pada query, (, ) menyatakan bobot keseluruhan suatu term dari query pada dokumen, ( ) menyatakan nilai IDF suatu term yang terdapat pada query, menyatakan faktor peningkat bobot, dan (, ) menyatakan normalisasi frekuensi suatu term dari query pada dokumen. Selain menggunakan BM25Similarity, pada tahap evaluasi juga digunakan DefaultSimilarity sebagai pembanding terhadap kinerja dari BM25Similarity. DefaultSimilarity merupakan ukuran kemiripan yang diimplementasikan oleh Apache Solr berdasarkan gabungan model boolean dan vector space model (VSM). DefaultSimilarity menggunakan model boolean untuk menemukan dokumen-dokumen yang sesuai dengan term-term pada query. DefaultSimilarity menggunakan pembobotan TF-IDF sebagai salah satu komponen pembobotan utamanya. Setelah mendapatkan nilai pembobotan, DefaultSimilarity menghitung nilai similarity antara dokumen dan query dengan merepresentasikannya sebagai jarak antara dua vektor. Formula scoring yang digunakan pada DefaultSimilarity dapat dinyatakan dalam Persamaan 4 (Kumar 2015),

21 11 (, ) = (, ) ( ) (, ) ( ). () (, ) (4) dengan menyatakan suatu term pada query, (, ) menyatakan score suatu term dari query pada dokumen d,. () yang menyatakan boost yang diberikan pada term yang ada di query, ( ) menyatakan nilai normalisasi score antara dua query atau lebih sehingga score antara dua query dapat dibandingkan, (, ) menyatakan frekuensi suatu term dari query pada dokumen d, ( ) menyatakan nilai IDF dari suatu term pada query, dan (, ) merupakan fungsi perkalian antara lengthnorm dan index-time boost (f.boost), (, ) menyatakan rasio antara jumlah term pada query yang terdapat pada dokumen (overlaps) dengan jumlah total term yang ada pada query (maxoverlaps). Fungsi (, ) dapat dinyatakan dalam Persamaan 5 (Shahi 2015), (, ) = (5) Fungsi ( ) dapat dinyatakan dalam Persamaan 6 (Shahi 2015). Pada Persamaan 6 terdapat. () yang menyatakan boost yang diberikan pada query. ( ) = 1. () ( ( ). ()) (6) Fungsi (, ) yang digunakan oleh DefaultSimilarity berbeda dengan yang digunakan BM25Similarity. Pada DefaultSimilarity, TF dinormalisasi dengan menggunakan akar pangkat dua. Fungsi (, ) pada DefaultSimilarity dapat dinyatakan dalam Persamaan 7 (Shahi 2015). (, ) = (7) Fungsi ( ) yang digunakan oleh DefaultSimilarity berbeda dengan yang digunakan BM25Similarity. Fungsi ( ) pada DefaultSimilarity dapat dinyatakan dalam Persamaan 8 (Shahi 2015). Pada Persamaan 8, konstanta 1 yang ditambahkan dengan dan ditambahkan dengan nilai log digunakan untuk menghindari nilai yang tidak dapat didefinisikan seperti dan log(0). ( ) = 1 + log + 1 (8) Fungsi (, ) pada DefaultSimilarity dapat dinyatakan dalam Persamaan 9 (Shahi 2015). LengthNorm pada fungsi (, ) menyatakan

22 12 nilai normalisasi panjang dokumen yang dilakukan untuk menentukan kepentingan suatu dokumen. Fungsi. () menyatakan boost yang dilakukan terhadap dokumen atau field saat proses indexing. (, ) = h. () (9) BM25Similarity dan DefaultSimilarity diimplementasikan ke dalam Apache Solr dengan mendefinisikan similarity class yang digunakan pada schema.xml. Parameter k 1 dan b yang terdapat pada BM25Similarity dapat dikonfigurasikan pada schema.xml. Konfigurasi BM25Similarity dilakukan dengan mendefinisikan class SchemaSimilarityFactory secara global pada schema.xml. Pendefinisian class tersebut dilakukan dengan meletakkan kalimat di dalam tag schema sebagai berikut: <similarity class="solr.schemasimilarityfactory"/> Kemudian dilakukan pendefinisian class BM25SimilarityFactory di dalam salah satu fieldtype. Selain itu, pada filedtype tersebut juga dilakukan pendefinisian nilai parameter k 1 dan b yang akan digunakan sebagai berikut: <similarity class="solr.bm25similarityfactory"> <float name="k1">1.2</float> <float name="b">0.75</float> </similarity> Hasil perhitungan kemiripan kemudian digunakan untuk menentukan peringkatan terhadap dokumen yang akan menjadi hasil pencarian. Dokumendokumen akan diurutkan dari tingkat kemiripan tertinggi ke terendah. Setelah proses peringkatan, hasil pencarian tersebut kemudian ditampilkan agar dapat dilihat oleh pengguna. Evaluasi Evaluasi dilakukan dengan memasukkan beberapa query ke sistem sehingga didapatkan hasil berupa produk-produk yang dianggap relevan dengan query yang dimasukkan. Query yang digunakan pada tahap evaluasi dapat dilihat pada Lampiran 2. Query-query tersebut juga disertai dengan daftar produk-produk yang relevan dalam bentuk ID produk. Hasil pencarian menggunakan query-query tersebut kemudian digunakan untuk menghitung precision (P) dan recall (R). Precision dan recall digunakan untuk melihat tingkat relevansi hasil pencarian produk online shop. Precision menyatakan rasio dokumen yang relevan dari seluruh dokumen yang ditampilkan. Recall menyatakan rasio dokumen yang ditampilkan dari seluruh dokumen yang relevan. Perhitungan terhadap kedua parameter tersebut dapat menggunakan komponen dari confusion matrix yang ditunjukkan pada Tabel 1.

23 Tabel 1 Confusion matrix Relevan Tidak Relevan Ditampilkan tp fp Tidak Ditampilkan fn tn Precision (P) dan recall (R) dapat dinyatakan dalam Persamaan 10 dan 11 (Manning 2008), dengan tp menyatakan jumlah dokumen relevan yang ditampilkan sebagai hasil pencarian, fp menyatakan jumlah dokumen tidak relevan yang ditampilkan sebagai hasil pencarian, dan fn menyatakan jumlah dokumen relevan yang tidak ditampilkan sebagai hasil pencarian. 13 = ( + ) (10) = ( + ) (11) Selain menghitung precision dan recall, diperlukan juga perhitungan precision yang diinterpolasikan ke 11 titik recall (dari 0 sampai 1 dengan selisih tiap tingkat sama dengan 0.1). Perhitungan ini dilakukan karena query yang digunakan pada tahap evaluasi berbeda-beda. Akibatnya, nilai recall dan precision yang dihasilkan akan berbeda-beda juga untuk masing-masing query. Nilai precision yang diinterpolasikan ( interpolated precision) dapat dinyatakan dalam Persamaan 12 (Manning 2008), ( ) = max ( ) (12) dengan ( ) menyatakan nilai precision pada tingkat recall r dan ( ) menyatakan nilai pada recall. Untuk memudahkan dalam melakukan perbandingan pada tahap evaluasi, diperlukan suatu nilai ukuran kualitas tunggal. Menurut Manning (2008), ukuran kualitas tunggal tersebut dapat diperoleh melalui evaluasi menggunakan nilai mean average precision (MAP). MAP dihitung dengan merata-ratakan nilai dari seluruh precision yang telah didapatkan sehingga didapatkan nilai tunggal. MAP dapat dinyatakan dalam Persamaan 13 (Manning 2008), MAP( ) = 1 1 ( ) (13) dengan MAP( ) menyatakan nilai MAP dari suatu kumpulan query uji, menyatakan jumlah query uji, menyatakan jumlah dokumen relevan yang seharusnya ditampilkan sebagai hasil pencarian, ( ) menyatakan nilai precision dari query. Pada mesin pencari ini, evaluasi dilakukan dengan membandingkan nilai Mean Average Precision (MAP) antara mesin pencari yang menggunakan ontologi dan BM25Similarity dengan mesin pencari yang menggunakan ontologi

24 14 dan DefaultSimilarity. Untuk sistem yang menggunakan BM25Similarity, proses evaluasi dilakukan dengan melakukan modifikasi terhadap nilai parameter k 1 dan b. Parameter k 1 dan b memiliki nilai default yaitu k 1 = 1.2 dan b = Parameter k 1 diubah dengan interval 0.2 dan selang 1.0 sampai 2.0. Parameter b diubah dengan interval 0.05 dan selang 0 sampai 1. Setiap perubahan pada nilai parameter k 1 dan b tersebut kemudian dievaluasikan menggunakan query uji. Pada setiap query tersebut dihitung nilai precision dan recall. Nilai-nilai precision pada setiap query tersebut kemudian diinterpolasikan ke 11 titik recall, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Nilai-nilai precision pada 11 titik recall tersebut disebut sebagai interpolated precision. Setiap nilai interpolated precision pada setiap query kemudian dirata-ratakan untuk setiap titik recall. Nilai pada 11 titik interpolated precision untuk query uji tersebut disebut sebagai interpolated average precision. Pada mesin pencari ini dilakukan evaluasi terhadap tiga model, yaitu DefaultSimilarity, BM25Similarity, dan BM25Similarity tuning. HASIL DAN PEMBAHASAN Pembuatan Ontologi Ontologi yang telah dibangun memiliki struktur yang dapat dilihat pada Gambar 5, dengan thing menyatakan root node dari ontologi tersebut. Ontologi ini terdiri dari tiga class utama, yaitu produk, aksesoris-produk, dan spesifikasi produk. Ketiga class tersebut memiliki beberapa subclass yang memiliki hubungan is-a terhadap superclass-nya. Pada class spesifikasi-produk terdapat subclass brand. Subclass brand memiliki beberapa individual yang didefinisikan secara otomatis menggunakan data dari basis data relasional. Class produk mengandung jenis-jenis produk yang merupakan kategorikategori produk Blibli.com. Namun terdapat beberapa class yang tidak termasuk ke dalam kategori produk Blibli.com. Class yang tidak termasuk kategori tersebut dibuat berdasarkan pengelompokan class-class kategori yang dianggap sejenis. Class aksesoris produk juga mengandung jenis-jenis produk yang merupakan kategori-kategori produk Blibli.com. Pada class ini juga terdapat beberapa class yang tidak termasuk ke dalam kategori produk Blibli.com. Kategori-kategori yang dimasukkan ke dalam class aksesoris produk merupakan kategori-kategori yang dianggap sebagai produk pelengkap atau aksesoris dari suatu produk. Class spesifikasi produk hanya berisi class brand dan colors. Di dalam class brand terdapat beberapa individu yang merupakan brand dari produk-produk pada semua kategori. Pada class colors, terdapat beberapa individu yang merupakan warna dari produk-produk pada semua kategori.

25 15 Gambar 5 Struktur ontologi produk Ekspansi Query Ekspansi query menggunakan ontologi yang dilakukan melalui SPARQL akan mengakibatkan pencarian term pada query dispesifikkan pada suatu field. Hal tersebut terlihat dari perubahan pada struktur penulisan query. Misalkan pengguna ingin mencari mouse dengan memasukkan query yaitu mouse logitech wireless. Jika query tersebut tidak diekspansi dan langsung dicari oleh Apache Solr, maka Apache Solr akan mencari term mouse, logitech, dan wireless pada semua field yang telah didefinisikan pada requesthandler yaitu namesearch, descriptionsearch, brandsearch, dan categories. Query tersebut dapat diekspansi dengan cara merepresentasikan setiap term pada query menjadi suatu kategori produk tersebut atau brand produk tersebut. Jika ekspansi query dilakukan, query tersebut akan berubah menjadi: categories:( mouse OR gaming mouse pad OR gaming mouse ) AND brandsearch: logitech AND logitech AND wireless

26 16 Term mouse dikenali oleh ontologi sebagai produk yang terdapat pada kategori mouse, gamingg mouse pad, dan gaming mouse. Term logitech dikenali oleh ontologi sebagai brand. Term wireless tidak dikenali oleh ontologi sehingga tidak didefinisikan field khusus untuk area pencariannya. Query yang telah diekspansi tersebut kemudian diproses ke dalam Apache Solr. Apache Solr akan melakukan pencarian secara spesifik pada field yang telah didefinisikan untuk setiap term. Apache Solr akan mencari term logitech dan wireless yang memiliki brand logitech pada kategori mouse, gaming mouse pad, dan gaming mouse. Scoring Proses scoring menghasilkan nilai yang digunakan untuk mengurutkan produk hasil pencarian dari suatu query. Urutan yang digunakan adalah dari dokumen yang memiliki nilai relevansi tertinggi ke dokumen yang memiliki nilai relevansi terendah. Pada saat scoring, Apache Solr mencari setiap term yang ada pada query ke setiap field yang telah didefinisikan pada schema.xml. Pada penelitian ini didefinisikan empat field pencarian ( namesearch, descriptionsearch, brandsearch, dan categories). Contoh pencarian yang dilakukan pada penelitian ini adalah pencarian query keyboard razer yang terdiri dari 2 term. Setiap term akan dicari ke dalam empat field yang telah didefinisikan. Misalkan term keyboard ditemukan pada field namesearch, descriptionsearch, dan categories yang dimiliki oleh dokumen dengan id Score setiap field dibandingkan dan dipilih yang memiliki nilai paling tinggi sebagai score yang mewakili term keyboard. Hal yang sama dilakukan untuk setiap term yang terdapat pada query sehingga didapatkan 2 nilai yang masing-masing mewakili score setiap term yang ada pada query. Kedua nilai tersebut selanjutnya dijumlahkan sehingga didapatkan score tunggal yang merupakan nilai relevansi untuk dokumen dengan id pada pencarian query keyboard razer. Visualisasi pencarian query keyboard razer dapat dilihat pada Gambar 6. Gambar 6 Visualisasi pencarian query keyboard razer

27 Score yang dihasilkan sangat dipengaruhi oleh formula similarity yang digunakan. Pada formula BM25Similarity, score tersebut dipengaruhi oleh tiga faktor yaitu parameter k 1, parameter b, dan panjang dokumen. Pada penelitian ini dilakukan analisis terhadap ketiga faktor tersebut untuk mengetahui bagaimana ketiga faktor tersebut mempengaruhi score BM25Similarity. Analisis ini dilakukan dengan memasukkan suatu deret nilai tertentu ke parameter yang ingin dilihat pengaruhnya saat nilai parameter lainnya konstan pada formula BM25Similarity. Pada BM25Similarity, parameter k 1 dapat menormalisasi nilai TF. Analisis pengaruh modifikasi nilai parameter k 1 terhadap nilai perubahan TF dilakukan dengan mengubah nilai parameter b = 0. Hal tersebut dilakukan karena b = 0 akan menonaktifkan pengaruh panjang dokumen terhadap normalisasi nilai TF. Pengaruh parameter k 1 terhadap nilai TF dapat dilihat pada Gambar ,5 k1=1 k1=1.2 k1=2 3 2,5 TF normalisasi 2 1,5 1 0, TF Gambar 7 Pengaruh parameter k 1 terhadap nilai TF Pada Gambar 7 dapat terlihat bahwa parameter k 1 menormalisasi nilai TF dengan memberikan batas nilai tertinggi sebesar k Jika k 1 = 1 maka nilai TF akan dinormalisasi ke dalam selang nilai 1 sampai hampir mendekati k = 2. Berdasarkan hal tersebut, dapat dikatakan bahwa semakin tinggi nilai k 1 maka semakin jauh perbedaan relevansi antara dokumen yang memiliki nilai TF yang tinggi dengan dokumen yang memiliki nilai TF yang rendah. Score pada BM25Similarity juga dipengaruhi oleh parameter b. Parameter b digunakan untuk mengatur porsi dari panjang dokumen yang mempengaruhi normalisasi nilai TF. Analisis pengaruh modifikasi nilai parameter b terhadap nilai perubahan TF dilakukan dengan mengubah nilai parameter k 1 ke nilai default yaitu k 1 = 1.2 dan TF = 1. Pengaruh parameter b terhadap nilai TF dapat dilihat pada Gambar 8.

28 18 1,6 1,4 dl/avgdl=0.5 dl/avgdl=1 dl/avgdl=2 1,2 TF normalisasi 1 0,8 0,6 0,4 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Paramater b Gambar 8 Pengaruh parameter b terhadap nilai TF Pada Gambar 8 dapat terlihat bahwa parameter b menormalisasi nilai TF = 1 dengan meningkatkan, menurunkan, atau sama sekali tidak mengubah nilai TF. Jika suatu dokumen memiliki panjang yang lebih kecil dari rata-rata panjang dokumen maka kenaikan parameter b akan meningkatkan nilai TF. Jika suatu dokumen memiliki panjang yang lebih besar dari rata-rata panjang dokumen maka kenaikan parameter b akan menurunkan nilai TF. Namun, jika suatu dokumen memiliki panjang yang sama dengan rata-rata panjang dokumen maka kenaikan parameter b tidak akan mengubah nilai TF. Berdasarkan hal tersebut, parameter b sangat berkaitan dengan panjang dokumen. Panjang dokumen cukup mempengaruhi score pada BM25Similarity melaui normalisasi nilai TF. Analisis pengaruh panjang dokumen terhadap nilai perubahan TF dilakukan dengan mengubah nilai parameter k 1 dan parameter b ke nilai default yaitu k 1 = 1.2 dan b = Pengaruh panjang dokumen terhadap nilai TF dapat dilihat pada Gambar 9. Pada Gambar 9 dapat terlihat bahwa dokumen yang memiliki panjang yang lebih kecil dari rata-rata panjang akan lebih cepat mendekati titik batas k = 2.2 jika dibandingkan dengan dokumen yang memiliki panjang yang lebih besar dari rata-rata panjang dokumen. Hal tersebut disebabkan pencarian term dengan nilai TF yang sama pada dokumen yang lebih pendek cenderung lebih relevan daripada dokumen yang lebih panjang. Semakin banyak term pada query yang ditemukan pada dokumen pendek tersebut maka dokumen pendek tersebut akan cenderung dianggap lebih relevan. Misalnya sebuah dokumen yang panjangnya seperti buku tebal akan membutuhkan sangat banyak sekali term pada query yang harus ditemukan agar dianggap lebih relevan. Sebaliknya, sebuah dokumen yang panjangnya seperti artikel koran hanya membutuhkan lebih sedikit term pada query yang harus ditemukan agar dianggap lebih relevan.

29 19 2,5 dl/avgdl = 0.5 dl/avgdl = 1 dl/avgdl = 2 2 TF normalisasi 1,5 1 0, TF Gambar 9 Pengaruh panjang dokumen terhadap nilai TF Evaluasi Hasil evaluasi yang dilakukan terhadap sistem ini dapat dilihat pada Tabel 2. Nilai MAP pada BM25Similarity tuning merupakan nilai MAP maksimum dari berbagai kombinasi nilai parameter k 1 dan b yang telah diujikan. Berdasarkan nilai MAP pada Lampiran 3, tuning yang terbaik berada pada nilai parameter k 1 = 2.0 dan b = 1.00 untuk mesin pencari yang menggunakan ontologi. Nilai tuning parameter terbaik yang berada pada saat k 1 = 2.0 memiliki arti bahwa score dari BM25Similarity dipengaruhi oleh nilai TF yang dinormalisasi ke dalam selang nilai 1 sampai hampir mendekati k = 3. Berdasarkan hal tersebut, dapat dikatakan bahwa nilai k 1 yang rendah bertujuan agar perbedaan relevansi antara dokumen yang memiliki nilai TF yang tinggi dengan dokumen yang memiliki nilai TF yang rendah tidak akan jauh berbeda. Hal tersebut disebabkan pencarian term pada beberapa field menggunakan query uji cenderung lebih sering menghasilkan nilai TF yang kecil yaitu TF = 1 walaupun pada field descriptionsearch didapatkan nilai TF antara 1 sampai 5. Oleh karena itu, dapat dikatakan bahwa selang nilai TF pada evaluasi menggunakan query uji sangatlah kecil sehingga parameter k 1 akan lebih sesuai jika nilainya kecil. Nilai tuning parameter terbaik yang berada pada saat b = 1.00 memiliki arti bahwa score dari BM25Similarity dipengaruhi oleh 1 bagian dari panjang suatu informasi produk. Nilai parameter b yang besar tersebut bertujuan agar nilai TF dapat berubah cukup jauh dari nilai awalnya ketika dinormalisasi. Hal tersebut disebabkan selang nilai TF yang relatif kecil dan cenderung lebih sering menghasilkan nilai TF yang kecil yaitu TF = 1.

30 20 Tabel 2 Nilai MAP hasil evaluasi Model MAP DefaultSimilarity BM25Similarity BM25Similarity tuning Berdasarkan Tabel 2, tuning yang dilakukan terhadap BM25Similarity meningkatkan nilai MAP sebesar pada mesin pencari yang menggunakan ontologi. BM25Similarity tuning juga memberikan kinerja yang relatif lebih baik jika dibandingkan dengan DefaultSimilarity untuk evaluasi dengan menggunakan query uji. Kenaikan nilai MAP yang tidak terlalu signifikan tersebut diakibatkan oleh panjang informasi dan nilai TF yang cenderung hampir sama pada setiap produk. Hal tersebut juga mengakibatkan nilai MAP DefaultSimilarity sama dengan nilai MAP BM25Similarity. BM25Similarity akan memberikan perbedaan hasil yang signifikan pada dokumen yang memiliki panjang dan selang nilai TF yang beragam. Dengan adanya keberagaman tersebut, BM25Similarity dapat lebih efektif menormalisasi nilai TF melalui parameter k 1 dan b. Perbandingan Kinerja BM25Similarity dengan DefaultSimilarity Setelah didapatkan hasil evaluasi dari penggunaan BM25Similarity dan ontologi, tahap selanjutnya adalah membandingkan kinerja antara BM25Similarity, BM25Similarity tuning, dan DefaultSimilarity. Perbandingan kinerja ini menggunakan query yang dibagi menjadi tiga kelompok, yaitu query yang memperhatikan struktur ontologi, query yang tidak memperhatikan struktur ontologi, dan query keseluruhan. Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang memperhatikan struktur ontologi dapat dilihat pada Gambar 10. Gambar 10 dan Lampiran 4 menunjukkan bahwa BM25Similarity tuning, BM25Similarity, dan DefaultSimilarity memberikan hasil yang sama untuk evaluasi dengan menggunakan query uji yang memperhatikan struktur ontologi. Hal ini disebabkan oleh panjang informasi dan nilai TF yang sama pada setiap produk untuk pencarian menggunakan query uji yang telah diekspansi. Untuk evaluasi menggunakan query uji yang tidak memperhatikan struktur ontologi, BM25Similarity tuning memberikan perbedaan hasil evaluasi yang sedikit lebih baik jika dibandingkan dengan BM25Similarity dan DefaultSimilarity. Hasil evaluasi tersebut dapat dilihat pada Lampiran 5. Jika dilihat secara keseluruhan, ketiga model tersebut tidak memberikan perbedaan yang signifikan seperti hasil evaluasi menggunakan query yang memperhatikan struktur ontologi. Visualisasi 11 titik interpolated average precision untuk ketiga model menggunakan query yang tidak memperhatikan struktur ontologi dapat dilihat pada Gambar 11.

Menunjukkan lagi