QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

dokumen-dokumen yang mirip
BAB I PENDAHULUAN Latar Belakang Masalah

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB I PENDAHULUAN Latar Belakang

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

Implementasi Generalized Vector Space Model Menggunakan WordNet

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB I PERSYARATAN PRODUK

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

APLIKASI WORDNET INDONESIA BERDASARKAN KAMUS THESAURUS BAHASA INDONESIA MENGGUNAKAN ALGORITMA RULE BASED TEXT PARSING

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

beberapa tag-tag lain yang lebih spesifik di dalamnya.

Mengenal Information Retrieval

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Pendeteksian Relasi Antar Makna Pada Wordnet Bahasa Indonesia

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI SEARCH ENGINE PAPER/KARYA ILMIAH BERBASIS WEB DENGAN METODE FUZZY RELATION ABSTRAK: Banyaknya jumlah paper yang dikoleksi sebuah lembaga

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

Universitas Gadjah Mada, Jalan Grafika No. 2 Yogyakarta 1), 2),

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

PROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

Sistem Temu-Kembali Informasi Pengantar Perkuliahan

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

KULIAH 12. Multimedia IR. Image Retrieval. BAB 11: Baeza-Yates & Ribeiro-Neto. Fakultas Ilmu Komputer Universitas Indonesia

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

JULIO ADISANTOSO - ILKOM IPB 1

BAB 1 PENDAHULUAN UKDW

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Information Retrieval

BAB 2 TINJAUAN PUSTAKA

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

PENDAHULUAN. Latar belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

ANALISIS PERBANDINGAN KINERJA SEARCH ENGINE MENGGUNAKAN PENELUSURAN PRECISION DAN RECALL UNTUK INFORMASI ILMIAH BIDANG ILMU KEDOKTERAN

SISTEM PENGKOREKSIAN KATA KUNCI DENGAN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Studi Kasus Pada Website Universitas Halmahera.

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

BAB III METODOLOGI PENELITIAN

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

BAB 1 PENDAHULUAN UKDW

ANALISIS CITRA WAJAH DENGAN HIMPUNAN FUZZY EIGEN TERBESAR

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

Analisis Kinerja Struktur Data Kd-Tree Pada Metode K-Nearest Neighbors

PEMBUATAN APLIKASI PENCARIAN DOKUMEN BERBASIS GENERALIZED VECTOR SPACE MODEL DAN SEMANTIC RELATEDNESS

1. BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN! 1.1 Latar Belakang

ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE

BAB 3 ANALISA DAN PERANCANGAN

APLIKASI CONTENT BASED IMAGE RETRIEVAL DENGAN FITUR WARNA DAN BENTUK

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

PEMBANGUNAN BASIS DATA LEKSIKAL WORDNET BAHASA SUNDA BUILDING LEXICAL DATABASE SUNDA WORDNET

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

KATA PENGANTAR Sistem Pencarian Informasi Data-Teks Menggunakan Model Ruang Vektor

SISTEM PENILAIAN OTOMATIS JAWABAN ESSAY MENGGUNAKAN METODE COSINE MEASURE PADA SISTEM E-LEARNING ABSTRAK

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

1. Pendahuluan. 1.1 Latar belakang

Transkripsi:

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen pada sistem information retrieval adalah vector space model. Dalam pengembangan metode ini, salah satunya dapat dilakukan dengan cara melakukan perluasan terhadap vektor querynya. Perluasan dilakukan dengan menggunakan wordnet pada term-term penyusun query dengan harapan agar hasil dari sistem dapat ditingkatkan. Kata Kunci : information retrieval, vector space model, wordnet.. Pendahuluan Seiring dengan perkembangan informasi, disadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun menjadi bagaimana memilih informasi yang berguna secara selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar. Melalui penelitian dibangun sistem-sistem otomatis yang dapat membantu user dalam proses pencarian. Penelitian ini dilakukan dengan harapan mendapatkan sebuah sistem baru yang dapat menjawab kebutuhan user, proses penelitian dilakukan dengan menggunakan vector space model. Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara yang dapat dilakukan untuk mengatasi hal tersebut adalah dengan menambahkan fungsi perluasan terhadap query, dimana query akan diperluas dengan menggunakan sinonim dari WordNet. Perluasan ini diharapakan dapat meningkatkan performa dari sistem, sehingga memberikan hasil yang lebih baik. 2. Wordnet WordNet adalah suatu sistem referensi leksikal bahasa inggris yang bersifat online. WordNet dikembangkan oleh Cognitive Science Laboratory di Universitas Princeton yang dikepalai oleh George Miller. Arti dari suatu kata pada WordNet direpresentasikan dengan synonym sets (synsets). Synsets adalah daftar term atau collocation yang artinya sama dan dalam konteks tertentu penggunaannya dapat saling dipertukarkan. Dalam synset juga dicatat pointer-pointer ke synset lain yang digunakan untuk mendeskripsikan relasi antar synset. WordNet dibagi dalam empat taksonomi berdasarkan type kata yaitu kata benda, kata kerja, kata keterangan, dan kata sifat (Miller, 99). 3. Expansion Expansion atau perluasan query adalah proses me-reformulasikan kembali query awal dengan melakukan penambahan beberapa term atau kata pada query untuk meningkatkan perfoma dalam proses information retrieval. Dalam konteks web search engine, hal ini termasuk evaluasi input user dan memperluas query pencarian untuk mendapatkan dokumen yang cocok dengan query (Qiu, 993). Proses perluasan dalam sistem ini dilakukan dengan menggunakan sinonim dari wordnet. Metode yang dilakukan dalam perluasan adalah dengan mencari sinonim dalam bentuk unstemmed-term dari query. Pencarian sinonim tidak memperhatikan tiap relasi ( ) Susetyo Adi Nugroho, Mahasiswa Program Studi Teknik Informatika Fakiltas Teknik Universitas Kristen Duta Wacana.

2 JURNAL INFORMATIKA, VOLUME 5 NOMOR, APRIL 29 dari synset yang ditemukan dalam wordnet, dan hanya akan diambil maksimal 5 sense dari tiap term yang sinonimnya ditemukan. 4. Pengujian Proses uji coba dilakukan dengan menggunakan koleksi data test yang sering digunakan dalam proses uji coba sistem IR, yaitu ADI (American Documentation Institute) test collection. Seluruh koleksi dari dokumen dan query dalam bahasa inggris. Proses indexing 82 koleksi dokumen memakan waktu kurang lebih 4-5 menit. Pengujiannya dilakukan dengan 6 buah query dengan panjang query yang berbeda. 4. Pengujian untuk pengujian adalah the use of abstract mathematics in information retrieval, e.g. group theory. Hasil yang relevan dari query ini berjumlah 5 dokumen. Proses perluasan query merubah hasil karena adanya perubahan rangking akibat recall naik. Nilai precission relatif turun pada query..2.8.6.4 query query expansion.4.6.9 Gambar Grafik precision dokumen terhadap query 4.2 Pengujian 2 Pengujian kedua di lakukan dengan query information dissemination by journals and periodicals. ini akan mengembalikan 6 dari 9 dokumen relevan. Perluasan terhadap query ini justru memperburuk nilai precission terhadap dokumen yang terjadi karena adanya perubahan ranking..2.8.6.4 Expansion. 22.333.444.556.667 Gambar 2 Grafik precision dokumen terhadap query 2 4.3 Pengujian 3 untuk pengujian 3 adalah Information systems in the physical sciences. Hasil yang relevan dari query ini berjumlah dokumen. Proses perluasan pada query 3 memberikan pengaruh positif, disebabkan rangking dokumen relevan naik.

Nugroho, Expansion Dengan Menggabungkan Metode Ruang Vektor Dan Wordnet Pada Sistem Information Retrieval 3 5.5. Expansion.5.9.8 7.36.45.55.64.73.82.9 Gambar 3 Grafik precision dokumen terhadap query 3 4.4 Pengujian 4 Pengujian keempat di lakukan dengan query Methods of coding used in computerized index systems. Proses pencarian akan menghasilkan 5 buah dokumen relevan. expansion pada query 4 tidak memberikan hasil yang lebih baik, ini terjadi karena hampir seluruh term perluasan tidak ada dalam index..2.8.6.4 Expansion.4.6.8 Gambar 4. Grafik precision dokumen terhadap query 4 4.5 Pengujian 5 Pengujian kelima di lakukan dengan query Government supported agencies and projects dealing with information dissemination. Proses pencarian dengan query ini akan mengembalikan 7 dari 8 buah dokumen relevan. Adanya kenaikan recall pada perluasan query 5 membuat ranking dokumen relevan turun, akibatnya precission dokumen hasil perluasan query lebih kecil dari query awal..6.5.4.3 Expansion..25 5.375.5.625.75.875 Gambar 5. Grafik precision dokumen terhadap query 5

4 JURNAL INFORMATIKA, VOLUME 5 NOMOR, APRIL 29 4.6 Pengujian 6 untuk pengujian 6 adalah computerized information retrieval systems. computerized indexing systems. Hasil yang relevan dari query ini berjumlah 34 dokumen. Hasil perluasan meningkat hanya pada level 7 dan.8, ini dikarenakan pada level recall tersebut, rangking dokumen naik dari sebelumnya..2.8.6.4 Expansion.3.9.5 6.32.38.44.5.56.62.68.74.79.85 Gambar 6 Grafik precision dokumen terhadap query 6 Gambar 7 menunjukkan grafik rata-rata interpolasi antara 2 proses query untuk semua query. Pada beberapa level recall, nilai precission lebih tinggi karena pada level tersebut jumlah dokumen relevan lebih banyak terambil oleh sistem..8.6.4 Interpolasi tanpa expansion Interpolasi dengan Expansion..3.4.5.6.7.8.9 Gambar 7 Grafik Interpolasi /precision terhadap seluruh query 5. Kesimpulan Dari data dan hasil pengujian query terhadap sistem, baik tanpa maupun dengan query expansion, dapat disimpulkan hasil penelitian yang dilakukan dengan melakukan query expansion menggunakan sinonim dari wordnet pada metode ruang vektor adalah sebagai berikut: Penggunaan query expansion berhasil meningkatkan jumlah dokumen yang diterima oleh sistem. Sistem dengan perluasan query tidak menaikkan nilai precision karena rangking dokumen relevan yang dikembalikan turun. Rangking turun karena semakin banyak dokumen non-relevan yang diterima oleh sistem. Penggunaan sinonim dari WordNet untuk memperluas query dengan mengambil part of speech noun bagian sinonim tidak membantu dalam meningkatkan nilai precision. Hal ini terjadi karena metode pengambilan sinonim tiap query tanpa memperhitungkan keterkaitan relasi dan derajat kesamaan dengan term query yang dimaksud.

Nugroho, Expansion Dengan Menggabungkan Metode Ruang Vektor Dan Wordnet Pada Sistem Information Retrieval 5 6. Saran Menambahkan kemampuan untuk mengenali dan menggunakan keterkaitan relasi dan derajat kesamaan antar sysnset dari wordnet dalam proses perluasan query. Menggunakan file wordnet selain bagian sinonim kategori noun. Hal ini disebabkan banyak sinonim kata yang sering muncul pada kategori lain seperti hypernim atau hiponim, yang mungkin lebih cocok dengan term yang dimaksud. Menambahkan kemampuan melakukan pembetulan penulisan terhadap query jika terjadi kesalahan penulisan (spelling errors). 7. Daftar Pustaka Buscaldi, Davide dan Paolo Rosso dan Emilio Sanchis Arnal. 25. A WordNet-based Expansion method for Geographical Information Retrieval. Universidad Polit ecnica de Valencia, Spain. Grosman, David A dan Frieder O.24. Information Retrieval: Algorithm and heuristics, 2nd Edition. Springer. Haryono, M.E.H. 25. expansion menggunakan model perpaduan genetika dan handcrafted thesaurus. SNIKTI VI 25.E7-E. Mandala dan Setiawan. 24. Improving Information Retrieval System Performance by Automatic Expansion. Jurnal ITB, Bandung. Mandala, Rila, dan Tokunanga Takenobu, dan Tanaka Hozumi. 998. The Use of WordNet in Information Retrieval. Department of Computer Science Tokyo Institute of Technology. Miller, G.A. 99. Introduction to WordNet: An On-line Lexical Database. International Journal of Lexicography, Vol. 3, pp. 235-32. Ribero-Neto, Berthier dan Ricardo Baeza-Yates. 999. Modern Information Retrieval. ACM Press: New York. Qiu, Y. And Rfe, HP.993. Concept-based query expansion. SIGIR 93, hal 6-69. Voorhees, Ellen M. 993. Using wordnet to disambiguate word sense for text retrieval. Procedings of the 6th ACM-SIGIR Conference, hal. 7-8. Voorhees, Ellen M dan Yuan-Wang Hou. Vector Expansion in a Large Collection. Siemens Corporate Research, Inc. http://trec.nist.gov/pubs/trec/papers/27.txt, tanggal akses 7 Juli 28.