Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

dokumen-dokumen yang mirip
LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

Mesin Pencari Dokumen Karya Ilmiah pada Lingkungan Akademik (Scientific Documents Search Engine in Academic Environment)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB I PENDAHULUAN Latar Belakang

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

Penerapan Model Information Retrieval Untuk Pencarian Konten Pada Perpustakaan Digital

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang Masalah

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

Search Engines. Information Retrieval in Practice

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

2.2. Fitur Produk Perangkat Lunak Fitur Pengolahan Data Fakultas Fitur Pengolahan Data Jurusan

APLIKASI PEMBELAJARAN SKATEBOARD MENGGUNAKAN FRAMEWORK CODEIGNITER BERBASIS WEB. Disusun Oleh : GIANMAR SAPUTRA

DAFTAR ISI. SKRIPSI... ii

Mengenal Information Retrieval

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

BAB I PENDAHULUAN. Diantara banyak fungsi komputer yang digunakan oleh manusia adalah. pencarian data serta pengurutan data (Handoyo, 2004).

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

PENGINDEKAN DAN PENCARIAN DOKUMEN TEXT. Kusrini, S.Kom STMIK AMIKOM Yogyakarta. Abstract. Keywords : Index, Searching, Document, Text, Key

ABSTRACT. Keywords: Documenting the population, village clerks

STUDI PERBANDINGAN FASILITAS DAN KINERJA SEARCH ENGINES DALAM PENCARIAN DOKUMEN BERBASIS WEB HERY WIDHIARTO

1. Pendahuluan. 1.1 Latar belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM PEMETAAN AREA PERSAWAHAN DESA GANTUNG KABUAT EN BELITUNG TIMUR BERBASIS GEORAPHICAL INFORMATION SYSTEM

BAB 3 ANALISA DAN PERANCANGAN

ANALISIS DAN PERANCANGAN SISTEM INFORMASI AKUNTANSI JASA REPARASI KAPAL PADA PT. DOK & PERKAPALAN KODJA BAHARI (PERSERO) GALANGAN II

Sistem Informasi Pembelian dan Penjualan Barang-Barang Salon

BAB I PENDAHULUAN I-1

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KATA PENGANTAR Sistem Pencarian Informasi Data-Teks Menggunakan Model Ruang Vektor

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

ABSTRAK. Kata Kunci: dokumen digitalisasi, manajemen dokumen, sistem informasi. Universitas Kristen Maranatha

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

Penerapan Algoritma K-Means untuk Clustering

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

BAB I PENDAHULUAN 1.1 Latar Belakang

KOMPRESI DAN DEKOMPRESI DATA TEKSTUAL MENGGUNAKAN ALGORITMA DYNAMIC MARKOV

BAB III METODOLOGI PENELITIAN

TEMU KEMBALI INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

Perancangan dan Implementasi Metode Brute Force untuk Pencarian String pada Website PCR

ANALISIS DAN IMPLEMENTASI METODE LATENT SEMANTIC INDEXING PADA SISTEM PENCARIAN DOKUMEN SKRIPSI ARIANI

PERTEMUAN 6 PROMOSI DAN PEMELIHARAAN WEB

STMIK GI MDP. Program Studi Sistem Informasi Skripsi Sarjana Komputer Semester Ganjil tahun 2011 / 2012

RESERVASI MOBILE RAWAT JALAN RUMAH SAKIT TELOGOREJO SEMARANG DI RUMAH SAKIT TELOGOREJO SEMARANG

BAB 1 PENDAHULUAN. menjual berbagai jenis pakaian. Seiring dengan perkembangan fashion pakaian ini

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

BAB III METODOLOGI PENELITIAN

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

ANALISIS DAN PERANCANGAN SISTEM APLIKASI PENJUALAN DAN STOK BARANG SKRIPSI ARWIN WIJAYA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM MANAJEMEN BASISDATA UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PEMBANGUNAN SISTEM CONTENT-BASED IMAGE RETRIEVAL MENGGUNAKAN KODE FRAKTAL DARI DOKUMEN CITRA TESIS ARIF RAHMAN NIM :

beberapa tag-tag lain yang lebih spesifik di dalamnya.

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Gambar 2. Halaman web dari Google. Search Bar

1. BAB I PENDAHULUAN 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

Pengembangan Sistem Temu Kembali Informasi Untuk Pencarian Sarana Kesehatan Diwilayah Solo

Pengembangan Sistem Pencarian File PDF Berbasis WEB

IMPLEMENTASI METODE MARKET BASKET ANALYSIS (MBA) PADA APLIKASI E-COMMERCE STUDI KASUS ANANDA SHOP

BAB 1 PENDAHULUAN UKDW

ISSN Pengembangan Perpustakaan Digital Berbasis Web di Perpustakaan Jurusan Pendidikan Dasar Universitas Pendidikan Ganesha

TES. Pustakawan Dalam Pengelolaan Database. Atas bantuan Bapak/Ibu/Sdr saya. 2. Nama BapakIbu/Sdr tidak perlu dicantumkan.

APLIKASI E-DOCUMENT PADA BURSA PENGETAHUAN KAWASAN TIMUR INDONESIA

ABSTRAK. viii Universitas Kristen Maranatha

Pengembangan Sistem Simulasi Ujian Nasional Sekolah Menengah Atas (SMA) Online Berbasis Web

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PERSYARATAN PRODUK

Transkripsi:

IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang Abstract Storage of digital documents is growing rapidly with increasing use of computers. These conditions raise issues to access the desired information quickly and accurately and also the difficulty in finding a document relating to a particular keyword with the precise and accurate results. The purpose of this paper is to compile a collection of documents as part of the testing device information retrieval systems for text documents in Indonesian language and compiled a collection of indexes from the collection of documents and build a search engine to help to search documents using information retrieval methods / Information Retrieval System (IRS ). The method used was to build a system with two main parts, namely subsystem Indexing and Searching Subsystem (matching system). The results show that the method the IRS can assist in conducting a search for documents in a collection by the number of one or more keywords or a combined using Boolean functions. Keyword : Information Retrieval System, Search Engine 1. PENDAHULUAN Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu, walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai algoritma yang efisien untuk pencarian teks telah dikembangkan, kesulitan menemukan suatu dokumen yang berhubungan dengan suatu kata kunci tertentu dengan hasil yang tepat dan akurat masih terjadi. Pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya.temu kembali informasi bertujuan untuk membantu pengguna dalam menemukan informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Akan tetapi banyak teknikteknik tersebut yang tergantung pada bahasa yang digunakan dalam dokumen. Untuk mengembangkan teknik-teknik temu kembali informasi bagi dokumen teks berbahasa Indonesia, dibutuhkan perangkat pengujian untuk Bahasa Indonesia. Salah satunya adalah suatu koleksi dokumen dalam Bahasa Indonesia sebagai pendekatan seragam dalam evaluasi sistem temu kembali informasi. Sistem temu kembali informasi atau Information Retrieval System (IRS) mempunyai tujuan memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaan dari pengguna bukan memberitahu mengenai masalah yang ditanyakan. Alasan utamanya adalah karena IRS menangani teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu. IRS bekerja berdasarkan kueri yang diberikan pengguna yang kemudian menghasilkan daftar dokumen yang dianggap relevan dengan 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Tujuan dari tulisan ini adalah untuk menyusun koleksi dokumen sebagai bagian JURNAL TRANSFORMATIKA, Volume 10, No.1, Juli 2012 : 1 10 1

perangkat pengujian sistem temu kembali informasi untuk dokumen teks berbahasa Indonesia dan menyusun kumpulan indeks dari koleksi dokumen dan membangun mesin pencari untuk membantu melakukan pencarian dokumen menggunakan metode Sistem Temu Kembali Informasi. 2. METODE PENELITIAN Dalam menerapkan metode sistem temu kembali informasi untuk koleksi dokumen berbahasa indonesia dengan membangun 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system)dilakukan beberapa tahapan penelitian berikut ini. 2.1. Kata buangan / stop list Pada tahapan ini, sebelum melakukan upload dokumen dan parsing dokumen, terlebih dahulu menentukan daftar kata-kata buangan yang akan digunakan sebagai penyaring indeks. Setelah kata-kata buangan didefinisikan, parsing dokumen dapat dilakukan dengan melakukan upload dokumen menggunakan upload engine. 2.2. Koleksi Dokumen Untuk melakukan implementasi system temu kembali diperlukan sebuah koleksi dokumen yang terdiri dari kumpulan-kumpulan jurnal atau paper yang mempunyai topic yang sama. Oleh karena itu, dalam tahap ini, pengumpulan dokumen dilakukan sebanyak 10 (sepuluh) dokumen dengan topic E- Learning, E-Government, Teknologi Informasi dengan format dokumen berekstensi.doc (Microsoft Word ). File-file dokumen yang telah dikumpulkan akan diindeks berdasarkan judul dan abstrak dengan cara mengupload dokumen ke server database menggunakan upload engine menggunakan bahasa pemrograman PHP dan database MySQL. 2.3. Parsing Dokumen Dalam proses upload dokumen ke server menggunakan upload engine, judul dan abstrak akan diparsing dengan membuang kata-kata buangan (stop list) yang tidak perlu untuk dijadikan sebagai indeks, sehingga setiap kata dari judul dan abstrak yang menjadi indeks akan tersimpan dalam database di MySQL. 2.4. Data / Indeks Hasil dari tahap parsing dokumen adalah daftar indeks dari setiap dokumen yang terdapat dalam koleksi dokumen. Daftar indeks sudah terbebas dari kata-kata buangan (stop list), daftar indeks inilah yang akan menjadi acuan dalam melakukan pencarian informasi dengan menggunakan kata kunci pencarian yang akan dicocokkan dengan daftar indeks yang ada. 2.5. Matriks Dokumen Indeks Matriks dokumen indeks diperoleh dari hasil indeks dan dokumen dengan mengukur frekuensi kemunculan suatu indeks dalam setiap dokumen. 2.6. Query Dokumen Query terhadap dokumen dilakukan dengan menggunakan kata kunci pencarian untuk melakukan pengujian dari koleksi indeks yang telah terbentuk pada proses parsing dokumen. Untuk melakukan query dibangun sebuah mesin pencari dengan menerima input berupa kata kunci tunggal maupun ganda ( gabungan dengan fungsi Boolean AND dan OR). 3. HASIL DAN PEMBAHASAN 3.1. Kata buangan / stop list Kata-kata buangan yang telah ditentukan diupload ke database server MySQL untuk disimpan ke dalam table Common menggunakan modul Upload Kata Buangan. Table common mempunyai struktur sebagai berikut : Tabel 1.Tabel Common 2 Implementasi Sistem Temu Kembali Informasi (B. Very C)

Tampilan dari modul Upload Kata Buangan seperti gambar di bawah ini : Gambar 3. Upload Kata Buangan Setelah kata-kata buangan terupload, dapat dilihat melalui modul List Kata Buangan, seperti gambar berikut : Gambar 4. List Kata Buangan 3.2. Koleksi Dokumen Sepuluh dokumen yang telah disiapkan kemudian diupload ke server menggunakan modul Upload Dokumen, berupa form isian judul dan abstrak dari setiap dokumen yang ada. Dokumen secara otomatis akan tersaring dari kata-kata buangan yang sudah ditentukan sebelumnya dan disimpan ke dalam table content, keytable, dan link. Struktur dari ketiga table sebagai berikut: JURNAL TRANSFORMATIKA, Volume 10, No.1, Juli 2012 : 1 10 3

Tabel 2. Tabel Content Tabel 3. Tabel Keytable Tabel 4. Table Link Tampilan dari modul Upload Dokumen seperti gambar di bawah ini : Gambar 5. Upload Dokumen Setelah dokumen terupload, dapat dilihat melalui modul List dokumen, seperti gambar berikut : 4 Implementasi Sistem Temu Kembali Informasi (B. Very C)

Gambar 6. List Dokumen 3.3. Hasil Indexing Setelah seluruh koleksi dokumen terupload, indeks dokumen sudah terbentuk. Indeks dapat dilihat pada modul indeks-dokumen, seperti gambar di bawah ini : Gambar 7. indeks Dokumen 1 JURNAL TRANSFORMATIKA, Volume 10, No.1, Juli 2012 : 1 10 5

Gambar 8. indeks Dokumen 2 3.4. Matriks Dokumen Indeks Matriks dokumen antara dokumen dan indeks dapat dilihat pada modul matriks. Frekuensi kemunculan suatuu indeks dalam koleksi dokumen ditunjukkan dengan banyaknya jumlah indeks dalam suatu dokumen tertentu, seperti gambar di bawah ini : 6 Gambar 9. Matriks Dokumen Indeks Implementasi Sistem Temu Kembali Informasi (B. Very C)

3.5. Hasil Query Untuk melakukan uji query dibangun sebuah mesin pencari yaitu modul query boolean, seperti gambar di bawah inii : Gambar 10. Mesin Pencari Pengujian 1: Pengujian pertama, dilakukan pencariann dokumen dengan kata kunci sistem. Dari pencarian dengann kata kunci sistem dihasilkan 6 dokumen yang relevan dengan kata kunci sistem. Gambar seperti di bawah ini : Gambar 11. Hasil Pencarian Pengujian 1 JURNAL TRANSFORMATIKA, Volume 10, No.1, Juli 2012 : 1 10 7

Pengujian 2: Pengujian kedua, dilakukan pencariann dokumen dengan kata kunci informasi.dari pencarian dengan kata kunci informasi dihasilkan 7 dokumen yang relevan dengan kata kunci informasi. Gambar seperti di bawah ini: Gambar 12. Hasil Pencarian Pengujian 2 Pengujian 3: Pengujian ketiga, dilakukan pencariann dokumen dengann menggunakan fungsi Boolean AND sistem AND informasi.dari pencarian dengan kata kunci sistem AND informasi dihasilkan 6 dokumen yang relevan dengan kata kunci, dimana kedua kata kunci baik system dan informasi terkandung di setiap dokumen yang ditemukan. Gambar seperti di bawah ini : 8 Implementasi Sistem Temu Kembali Informasi (B. Very C)

Gambar 13. Hasil Pencarian Pengujian 3 Pengujian 4: Pengujian keempat, dilakukan pencariann dokumen dengann menggunakan fungsi Boolean OR sistem OR informasi.dari pencarian dengan kata kunci sistem OR informasi dihasilkan 7 dokumen yang relevan dengan kata kunci, dimana kedua kata kunci baik system atau informasi terkandung di setiap dokumen yang ditemukan. Gambar seperti di bawah ini : JURNAL TRANSFORMATIKA, Volume 10, No.1, Juli 2012 : 1 10 9

Gambar 14. Hasil Pencarian Pengujian 4 4. KESIMPULAN Dari hasil pengujian dapat dilihat bahwaa dengann menerapkan konsep-konsep dalam sistem temu kembali informasi dan membangun suatuu mesin pencari dapat membantu dalam melakukan pencariann dokumen dalam suatu koleksi dokumen dimanaa pencarian dapat dilakukan dengann memberikan kata kunci dengan jumlah kunci satu atau lebih atau dapat juga menggabungkan lebih dari satu kata kunci menggunakan fungsi Booleanyaitu fungsi AND dan OR. 5. DAFTAR PUSTAKA Keraf, Goris. 1984, Tata Bahasa Indonesia, Nusa Indah. Wibisono, Yudi. 2008. Stop Bahasa Indonesia. words untuk (Online). (http://yudiwbs.wordpress.com/2008/07/2 3/stop-words-untuk-bahasa-indonesia/, diakses tanggal 9 Agustus 2011) Dharan, M.Murali. 2003. Dynamic Document Search Engine. (Online).(http://www.phpbuilder.com, diakses tanggal 9 Agustus 2011) Baeza-Yates, R. & Ribeiro-Neto, B. 1999. Modern Information Retrieval. Addison- Wesley. Lancaster, F. & Warner, A. 1993. Information Retrieval Today.. Information Resources Press, Arlington. Liddy, E. 2001. How a Search Engine Works. Searcher 9(5). Information Today, Inc. Adisantoso, Julio.2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektivitas Temu Kembali Informasi. Institut Pertanian Bogor. 10 Implementasi Sistem Temu Kembali Informasi (B. Very C)