1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

dokumen-dokumen yang mirip
BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN Latar Belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB I PERSYARATAN PRODUK

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB III METODOLOGI PENELITIAN

1. Pendahuluan. 1.1 Latar belakang

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB 1 PENDAHULUAN UKDW

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

DAFTAR ISI. SKRIPSI... ii

BAB I PENDAHULUAN Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

Information Retrieval

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN 1.1 Latar Belakang

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB II TINJAUAN PUSTAKA

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Penerapan Model Gravitasi Newton Versi Continuous dan Diskrit pada Sistem Temu Balik Informasi

1.1 Latar Belakang BAB 1 PENDAHULUAN

PENDAHULUAN. Latar belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. Latar belakang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

UKDW. Bab 1 PENDAHULUAN

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

Search Engines. Information Retrieval in Practice

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Gambar 1.1 Tahapan Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

1. Pendahuluan 1.1 Latar Belakang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1 Bab 1

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

BAB I PENDAHULUAN. 1.1 Latar Belakang

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

Transkripsi:

1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari informasi. Salah satu cara untuk mendapatkan informasi yang akurat dan relevan adalah dengan menggunakan sistem temu balik informasi. Sistem temu balik informasi adalah ilmu yang mempelajari tentang pecarian informasi pada kumpulan dokumen, pencarian dokumen itu sendiri, pencarian metadata untuk dokumen tersebut. Sistem temu balik informasi digunakan untuk mengurangi informasi yang terlalu banyak sehingga sulit untuk dikelola. Dengan adanya sistem temu balik informasi diharapkan pencarian informasi dapat dilakukan dengan efektif dan memberikan hasil yang tepat yaitu dapat menemukan data yang relevan. Ada dua buah jenis pembobotan dokumen yang sering digunakan, yaitu vector space model dan model probabilistic (binary independence retrival dan okapi BM25). Metode vector space model mengibaratkan query dan dokumen sebagai sebuah vektor n- dimensi yang tiap dimensinya diwakili oleh satu kata pada query. Relevansi tertinggi ditentukan menurut vektor yang paling mendekati dengan vektor query. Model ini mudah diimplementasikan, dan pembobotan diperngaruhi oleh term frequency. Kekurangan dari model ini adalah sangat panjang dokumen akan mempersulit perhitungan similarity dan semakin panjang dokumen dapat mempengaruhi ranking dari suatu dokumen. Binary Independence Retrieval adalah gabungan model biner dengan probabilistic. Jika model lain jumlah kemunculan sebuah term diperhitungkan, maka pada model BIR ini nilainya berupa biner, yaitu ada atau tidak. Bagian probabilistic pada model ini terdapat pada perhitungan similaritas sebuah dokumen dengan query. Model ini menganggap kata yang muncul pada sebuah dokumen tidak saling berkaitan. Model ini berdasarkan teori perhitungan yang terlah teruji dan meranking berdasarkan probabilitas sehingga stabil untuk dokumen yang panjang maupun pendek. Model okapi BM25 ini dikembangkan oleh City University London dan berdasarkan pada model probabilistik dasar yang mengurutkan dokumen dalam urutan menurun terhadap nilai relevansi sebuah dokumen terhadap informasi yang dibutuhkan. Okapi BM25 meranking dokumen berdasarkan probabilitas dan menggunakan term frequency untuk meranking similarity. Dari gabungan Binary independence retrieval dan okapi BM25 diharapkan bisa menangani kekurangan dari metode vector space model, Binary independence retrieval, okapi BM25 dan dapat menghasilkan dokumen terangking yang lebih relevan terhadap query. 1.2 Perumusan masalah Dalam tugas akhir ini terdapat beberapa rumusan masalah sebagai berikut : a. Bagaimana menggabungkan metode binary independence retrieval dan Okapi BM25 dalam sistem temu balik informasi? 1

b. Bagaimana gabungan metode binary independence retrieval dan Okapi BM25 bisa menangani kekurangan-kekurangan metode yang lain. c. Bagaimana menganalisis performansi sistem temu balik informasi yang menerapkan binary independence retrieval dan Okapi BM25 serta gabungan keduanya? d. Bagaimana perbandingan performansi pembobotan dokumen dengan penggabungan binary independence retrieval dan Okapi BM25 dibanding dengan metode vector space model. Adapun batasan masalah yang ada dalam Tugas Akhir ini adalah: a. Hanya membandingkan antara binary independence retrieval dengan okapi BM25 dan penggabungan Binary Independence Retrieval dengan Okapi BM25 b. Koleksi dokumen yang digunakan untuk Tugas Akhir ini merupakan berkas teks dengan query yang telah ditentukan sebelumnya yaitu dengan menggunakan dataset cornell. c. Bahasa yang digunakan adalah bahasa inggris. d. Aplikasi ini dijalankan secara offline pada komputer yang sekaligus menjadi web server dan web client yang berbasis web. 1.3 Tujuan Tujuan dari penelitian ini adalah: a. Merancang dan membangun suatu sistem temu balik informasi berupa search engine yang mengimplementasikan binary independence retrieval dan okapi BM25 serta penggabungan metode binary independence retrieval dan Okapi BM25. b. Menganalisis performansi metode binary independence retrieval, Okapi BM25 dan penggabungan metode binary independence retrieval dengan Okapi BM25 berdasarkan parameter recall, precision dan Non-interpolasi average precision untuk menghitung relevansi. c. Dengan gabungan dua metode yaitu binary independence retrieval dan Okapi BM25 dapat menghasilkan performansi yang lebih baik di banding dengan metode vector space model, binary independence retrieval dan Okapi BM25. Dan dengan penambahan penggunaan banyaknya frekwensi term yang muncul pada metode Binary Independence Retrieval dapat meningkatkan performansi dari Binary Independence Retrieval itu sendiri. 1.4 Metodologi a. Studi Literatur Tahap ini dilakukan dengan cara mempelajari literatur-literatur baik yang berupa buku (textbook), jurnal dan artikel ilmiah, maupun website yang berhubungan dengan sistem temu balik informasi dan metode-metode yang dipakai dalam pembobotan dokumen. b. Pengumpulan Data Mencari data/dokumen yang sesuai yang akan digunakan sebagai pengujian, dalam tugas akhir ini adalah data dokumen yang yang telah disediankan pada web site. c. Analisis dan Perancangan Menganalisis kebutuhan sistem terhadap perangkat lunak yang dibuat dalam hal ini aplikasi sistem temu balik informasi. Komponen-komponen sistem temu balik informasi dapat dilihat di gambar 1.1. 2

Query Input Processor Output Documents Gambar 1.1 Komponen-Komponen Sistem Temu Balik Informasi[12]. Penjelasan dari gambar 1.1 : a. Input adalah masukan yang diberikan oleh pengguna. Pengguna adalah pemilik kebutuhan akan informasi, yang kemudian menerjemahkan kebutuhannya menjadi sebuah query. Input harus berupa representasi yang tepat dari setiap document dan query agar dapat diolah pemroses. b. Pemroses/Processor adalah bagian yang paling krusial dalam sistem sistem temu balik informasi. Tugas yang dilakukan pemroses antara lain adalah: c. Menstrukturkan informasi dalam bentuk yang tepat, misalnya dengan pengindeksan. d. Melakukan proses seaching (pencarian), yaitu dengan menjalankan suatu strategi pencarian sebagai respon dari query. e. Output adalah keluaran yang diberikan oleh pemroses. Output biasanya berbentuk informasi tentang suatu dokumen, dokumen itu sendiri, dan acuan ke dokumen lain. Arsitektur penggabungan BIR dan Okapi BM2. Binary Independence Retrieval If algoritma = Okapi Binary Independence Retrieval Proses Dokumen relevan system Pilih algoritma: BIR dan Okapi Dokumen relevan system Okapi BM25 If algoritma = BIR Okapi BM25 Gambar 1.2 Arsitektur Penggabungan BIR Dan Okapi BM25. Penjelasan dari gambar 1.2 : Metode binary independence retrieval dan Okapi BM25 digabungkan dengan operasi Bir kemudian Okapi atau sebaliknya serta penggunaan konstanta jika diperlukan. d. Implementasi. Melakukan coding dengan membangun perangkat lunak untuk implementasi pembobotan dokumen pada sistem temu balik informasi. e. Pengujian dan analisis hasil Pengujian metode akan dilakukan dengan menggunakan input berupa koleksi dokumen dengan query sebagai keyword Pada aplikasi ini menggunakan tiga test collection yang 3

masing-masing terdiri dari koleksi dokumen, query dan relevance judgement. Berikut rinciannya : 1. MED: 1033 dokumen, 15 query 2. TIME: 423 dokumen, 10 query 3. ADI: 82 dokumen, 15 query. Skenario pengujian sangat diperlukan agar proses pengujian yang dilakukan dapat mencapai tujuan yang diinginkan. Adapun deskripsi mengenai skenario pengujian yang dilakukan adalah sebagai berikut : 1. Skenario 1 Menguji algorima BIR dan Okapi BM25 dalam sistem information retrieval. Hal yang dianalisis pada skenario 1 ini adalah pengaruh penerapan kedua metode terhadap performansi sistem information retrieval. Berikut skenario yang dilakukan a. Menggunakan query-query uji sesuai dengan koleksi dokumen yang digunakan, Selain akan dihitung rata-rata keseluruhan parameter nilai performansi untuk tiap dokumen uji, total jumlah keunggulan tiap parameterparemeter uji dari semua query yang diujikan serta akan diambil bebarapa sampling query saja. b. Menganalisis parameter nilai performansi yang dihasilkan antara lain recall, precision dan non interpolasi average precision. 2. Skenario 2 Menguji Gabungan antara metode BIR dan Okapi BM25. Berikut skenario yang dilakukan : a. Menggunakan query-query uji sesuai dengan koleksi dokumen yang digunakan, Selain akan dihitung rata-rata keseluruhan parameter nilai performansi untuk tiap dokumen uji, total jumlah keunggulan tiap parameterparemeter uji dari semua query yang diujikan serta akan diambil bebarapa sampling query saja. b. Menganalisis parameter nilai performansi yang dihasilkan antara lain recall, precision dan non interpolasi average precision. 3. Skenario 3 Membandingkan antar metode Binary Independence Retrieval, Okapi BM25 dan gabungan BIR dan Okapi BM25. a. Menganalisis parameter nilai performansi yang dihasilkan berdasarkan nilai non interpolasi average precisionpenyususnan f. Laporan Tugas Akhir dan Kesimpulan Akhir. 1. 5 Sistematika Penulisan Sistematika dari Penulisan Tugas Akhir ini adalah sebagai berikut : BAB I PENDAHULUAN Bab ini membahas mengenai latar belakang pembuatan tugas akhir ini, rumusan masalah yang akan di analisis, ruang lingkup masalah yang ada pada tugas akhir ini, tujuan dari pembuatan tugas akhir ini, metodologi pemecahan masalah serta sistematika penulisan dokumentasi. 4

BAB II LANDASAN TEORI Bab ini terdiri dari teori-teori yang digunakan dalam mendukung dalam penyelesaian tugas akhir ini, dalam hal ini adalah pengertian sistem temu balik informasi dan metode yang digunakan pada pembuatan sistem. BAB III ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi kebutuhan sistem dan perancangan perangkat lunak. Analisis kebutuhan dilakukan dengan pembuatan sistem kebutuhan perangkat lunak dan perancangan meliputi gambaran sistem dan perancangan antarmuka sistem. BAB IV IMPLEMENTASI DAN PENGUJIAN Berisi tentang pengujian dan analisis terhadap sistem. Pengujian dilakukan dengan menggunakan metode Binary Independence Retrieval dan Okapi BM25 serta hasil gabungannya. BAB V KESIMPULAN DAN SARAN Berisi mengenai kesimpulan dan saran-saran yang dapat diambil oleh penulis dari keseluruhan sistem yang telah dibuat untuk pengembangan tugas akhir ini. 5