BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

dokumen-dokumen yang mirip
BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB I PENDAHULUAN Latar Belakang Masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB III METODOLOGI PENELITIAN

BAB 2 LANDASAN TEORI. membuat sebuah komputer dapat melakukan hal yang membutuhkan intelegensi

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

Gambar 1.1 Tahapan Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB I PERSYARATAN PRODUK

BAB 1 PENDAHULUAN UKDW

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

1. Pendahuluan. 1.1 Latar belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB 1 PENDAHULUAN Latar Belakang

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

DAFTAR ISI. SKRIPSI... ii

Information Retrieval

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Penerapan Model Gravitasi Newton Versi Continuous dan Diskrit pada Sistem Temu Balik Informasi

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

Implementasi Generalized Vector Space Model Menggunakan WordNet

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

Search Engines. Information Retrieval in Practice

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Video Retrieval Berdasarkan Teks dan Gambar

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

INFORMATION RETRIEVAL TUGAS AKHIR DAN PERHITUNGAN KEMIRIPAN DOKUMEN MENGACU PADA ABSTRAK MENGGUNAKAN VECTOR SPACE MODEL

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB II LANDASAN TEORI

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

SISTEM PENCARIAN SKRIPSI BERBASIS INFORMATION RETRIEVAL DI FASTIKOM UNSIQ

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB 1 PENDAHULUAN. Pada tahun 1970an penelitian awal image retrieval dilakukan dengan

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

Pengujian Kerelevanan Sistem Temu Kembali Informasi

@UKDW BAB 1 PENDAHULUAN Latar Belakang

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN I-1

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

BAB I PENDAHULUAN Latar Belakang

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

commit to user BAB II TINJAUAN PUSTAKA

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

Transkripsi:

58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang diinginkan dari data tersebut. Sebagian besar dari data yang tersedia adalah berbentuk teks dan tidak memiliki struktur secara jelas. Misalkan pada email, cara penulisan masing-masing orang berbeda baik secara struktur atau urutan penulisan maupun gaya bahasanya, sehingga sulit untuk menemukan kembali email yang kita inginkan tanpa membaca keseluruhan isi email. Information retrieval digunakan untuk menyelesaikan permasalahan diatas, dimana information retrieval akan berhubungan dengan bagaimana cara untuk merepresentasikan, menyimpan, mengorganisasikan, dan mengakses sebuah kebutuhan informasi. Kebanyakan cara yang digunakan untuk melakukan information retrieval yaitu dengan menggunakan keyword yang ingin dicari, lalu keyword tersebut dibandingkan dengan isi dokumen, kemudian dari sistem retrieval yang dipakai akan dihasilkan dokumen dokumen yang relevan dan yang tidak relevan. Hal

59 diatas akan sangat memakan waktu jika dilakukan pada document collection yang besar. Seperti yang diketahui, pada sistem information retrieval, terdapat banyak model yang dapat digunakan. Dengan banyaknya model-model yang telah dibuat untuk melakukan retrieval informasi, semakin banyak pula pertimbangan untuk melakukan pemilihan terhadap dokumen yang tepat dan sesuai dengan implementasi information retrieval yang diinginkan. Hal ini sering menjadi permasalahan untuk para peneliti dan pengembang aplikasi karena kurangnya informasi tentang masingmasing model yang ada. Tantangan utama dalam penanganan informasi ini adalah besarnya ukuran dokumen yang besar dimana semakin besar ukuran sebuah dokumen, proses indeksing pun akan semakin lama. Dengan demikian dibutuhkan sebuah teknik yang dapat melakukan reduksi ukuran dokumen tanpa menghilangkan informasi informasi penting yang ada di dalam dokumen tersebut. Cara yang paling mudah untuk mendapatkan hasil retrieval yang bagus yaitu dengan menggabungkan semua fitur fitur yang ada. Namun jika hal tersebut dilakukan, sudah pasti akan memakan waktu yang lebih lama dalam proses indeksing dan retrieval-nya. Secara garis besar permasalahan yang terjadi pada saat ini dalam masalah data adalah sebagai berikut: 1. Jumlah dokumen digital semakin bertambah dari segi kuantitas.

60 2. Isi dokumen digital yang semakin banyak, sehingga diperlukan metode paling efektif untuk mengatur dan me-retrieve kembali dari data yang telah disimpan. 3. Kesalahan dalam pencarian karena penggunaan metode yang digunakan tidak sesuai. Untuk menyelesaikan masalah di atas, maka diperlukan sebuah proses information retrieval yang sesuai agar pengguna dapat mendapatkan kembali dokumen relevan yang sesuai dengan keinginannya. Information retrieval akan sangat membantu dalam pencarian dokumen dengan kuantitas besar karena akan menghemat waktu dan mengurangi tingkat kesalahan dalam pengembalian informasi. 3.2 Solusi Pemecahan Masalah Setelah melakukan berbagai proses pengumpulan informasi mengenai beberapa model, penulis memutuskan membandingkan tiga model yaitu Boolean Model, Vector Space Model dan Latent Semantic Indexing (LSI). Pemilihan Boolean Model didasarkan pada algoritma model yang cukup mudah karena hanya menggunakan logika And dan OR, sementara Vector Space Model dipilih karena merupakan model information retrieval aljabar yang paling sederhana dan mudah dipahami. Adapun Latent Semantic Indexing yang juga merupakan model information retrieval berbasis aljabar adalah pengembangan lebih lanjut dari Vector Space Model, sehingga ada keterkaitannya.

61 Berdasarkan latar belakang permasalahan diatas penelitian ini dibuat, dengan memberikan sebuah gambaran tentang model, hasil kesimpulan perbandingan model serta penggunaan untuk masing-masing model. Beberapa model yang akan dikaji dan dibandingkan yaitu Boolean Model, Vector Space Model dan Latent Semantic Indexing (LSI).Untuk masing-masing model tersebut tentunya memiliki keunggulan dan kekurangan masing-masing, maka diharapkan dari hasil penelitian ini adalah mampu membandingkan ketiga model ini sehingga mendapatkan kesimpulan tentang masing-masing model. 3.3 Keunggulan Pengujian Beberapa keunggulan dari pengujian ini dibandingkan dengan pengujian lainnya adalah sebagai berikut : 1. Penelitian ini menggunakan dokumen-dokumen yang bervariasi dalam pengujiannya, hal ini dapat dibuktikan dari banyaknya jumlah lemma yang dihasilkan, 2. Pengujian dilakukan untuk 3 kategori dokumen yang spesifik yaitu business, automobile, dan computer. Kebanyakan pengujian lain menggunakan document collection yang sudah disiapkan oleh ahli seperti TREC, 3. Selain itu parameter yang diujikan juga bervariasi, penulis tidak hanya membandingkan model terbaik berdasarkan kinerja secara keseluruhan saja (Mean Average Precision) melainkan diberikan juga statistik untuk model

62 yang memberikan ranking terbaik (Precision @K), dan hubungan antara performance model dengan jumlah document yang di-retrieve (Precision Recall Interpolation), dengan demikian untuk developer dapat mengimplementasikan model terbaik untuk kategori dokumen yang diujikan. 3.4 Proses Retrieval 3.4.1 Prosedur Pengujian Pengujian yang dilakukan pada penelitian ini mengacu kepada 3 model information tetrieval, yaitu : boolean model, vector space model dan latent semantic indexing model dengan cara melakukan perhitungan precision, recall dari masingmasing model. Tools yang digunakan pada penelitian ini menggunakan IrTester. Langkah Langkah yang dilakukan sehingga mendapatkan kesimpulan tentang ketiga model tersebut adalah sebagai berikut: 1. Proses Upload Dokumen Pada proses upload dokumen ini, bisa disebut juga sebagai proses inisialisasi. User akan melakukan upload dokumen ke dalam sistem information retrieval, yang kemudian dokumen yang di-upload tersebut akan dibaca oleh sistem, selain dibaca, dokumen tersebut juga akan dipotong menjadi sebuah kumpulan kata-kata, katakata yang berhasil dipotong akan di-stemming, kemudian kata-kata tersebut akan dimasukkan ke dalam database, apabila di dalam kumpulan kata-kata tersebut mengandung stop-word maka tidak akan dimasukkan ke dalam database. 2. Proses searching

63 Setelah melakukan proses upload dokumen, user dapat melakukan proses pencarian menggunakan query yang diinginkan terhadap masing-masing model untuk melakukan retrieval dokumen terhadap query yang diinput. Query yang diinput oleh user akan dibaca oleh sistem, yang kemudian akan dilakukan proses tokenizing, stemming, penghilangan stop-word seperti pada umumnya hingga mendapatkan sekumpulan kata-kata yang dianggap sebagai query. Sekumpulan query tersebut kemudian akan me-retrieve dokumen-dokumen yang sesuai dari database berdasarkan dokumen yang di-upload sebelumnya. Setelah mendapatkan hasil retrieval dokumen, kemudian sistem akan melakukan kalkulasi tergantung kepada model searching yang dipilih. 3. Proses Compare Selain melakukan proses searching, juga disediakan proses compare antar model untuk mendapatkan nilai precision, recall dan F-measure dari masingmasing model sehingga mendapatkan model mana yang paling bagus dan baik untuk digunakan. Sama halnya dengan searching, pada proses compare user harus melakukan input query yang kemudian query tersebut menghasilkan dokumen yang di-retrieve. Yang membedakan proses searching terhadap compare adalah searching melakukan searching dan perhitungan per masing-masing model, sedangkan untuk compare proses searching dan perhitungan dilakukan menggunakan 3 model sekaligus. Setelah menghasilkan dokumen yang di-retrieve, hasil tersebut akan ditampilkan kepada user untuk dipilih mana dokumen yang sesuai/relevan terhadap query yang di-input. Setelah memilih dokumen- dokumen

64 yang relevan, maka sistem akan melakukan perhitungan recall, precision dan F- measure untuk masing-masing dokumen berdasarkan dokumen yang di-retrieve dan dokumen yang relevan. Setelah itu akan ditampilkan chart untuk masing-masing model sehingga didapatkan kesimpulan tentang model mana yang terbaik. Pengujian untuk membandingkan ketiga teori menggunakan Precision, Recall, Mean Average Precision dan Precision@k. Pada precision@k menggunakan nilai k dari 5, 10 dan 15. Hasil pengujian akan ditampilkan dalam bentuk tabel dan diagram-diagram dan yang kemudian akan diambil kesimpulan berdasarkan nilai dari tabel dan bentuk dari diagram yang dihasilkan.pengujian menggunakan Precision, Recall, Mean Average Precision dan Precision@k hanya berlaku pada perbandingan VSM dan LSI, tetapi tidak untuk Boolean Model. Pengecualian ini dilakukan karena tidak dapat dibandingkan antara Boolean Model dengan 2 model lainnya, karena beberapa faktor, yaitu : - Hasil dari boolean merupakan exact match atau hasil yang sudah pasti, - Hasil dari boolean model tidak berupa ranking seperti 2 model lainnya. 3.4.2 Data Pengujian Data yang digunakan untuk melakukan pengujian terhadap 3 model tersebut menggunakan data dokumen yang sama, data yang digunakan berbentuk dokumen yang hanya berisi text sebanyak 150 dokumen. Data dokumen yang digunakan untuk pengujian tidak memiliki kategorisasi. Setiap dokumen berisi minimal 150

65 kata hingga maksimal 1000 kata per dokumen. Bentuk dokumen yang diperbolehkan untuk di-upload harus memenuhi kriteria di bawah ini : 1. Dokumen yang hanya berekstensi.txt. 2. Dokumen tidak diperbolehkan mengandung media lainnya selain media teks. 3. Isi dokumen harus berbahasa Inggris. 4. Pembatasan pencarian hanya tentang automobile, computer dan business. Pengujian dilakukan dengan menggunakan 9 contoh query, yaitu : 1. Computer Antivirus 2. Windows Operating System 3. Raspberry Pi 4. Turbo Tuning Automotive 5. Fuel Effective 6. Automotive Brake Upgrade 7. U.S. Economy 8. Solve financial Problem 9. Stock Market Invesment 3.4.3 Kriteria Pengujian Beberapa kriteria yang perlu diperhatikan dalam pengujian ini adalah 1. Dokumen yang diuji a. Jumlah dokumen yang diuji 300 dokumen,

66 b. Dokumen yang diuji merupakan dokumen berbentuk artikel berita yang diambil secara acak dari 3 website berikut yaitu http://www.naturalhealthmag.com, http://www.time.com, dan http://www.computeractive.co.uk, c. Rata-rata jumlah kata pada setiap dokumen yang diuji, termasuk stopword adalah 303 kata, d. Jumlah lemma dari keseluruhan dokumen yang diuji, setelah dilakukan penghilangan stopword dan lemmatisasi adalah 140000, e. Model LSI menggunakan dimensi 15, didasari oleh perbandingan Mean Average Precision yang dilakukan oleh penguji yaitu 5,10,dan 15 dengan dimensi 15 memberikan nilai Mean Average Precision tertinggi. 2. Parameter Pengujian a. Precision Recall Interpolasi, b. Mean Average Precision, Sebuah nilai tunggal yang digunakan untuk membandingkan model yang terbaik, c. Precision@K, Mengukur Performance dalam ranking tertentu untuk setiap model