Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

dokumen-dokumen yang mirip
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN Latar Belakang

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang Masalah

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

1. Pendahuluan. 1.1 Latar belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB II TINJAUAN PUSTAKA

PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN UKDW

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Information Retrieval

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN UKDW

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

DAFTAR ISI. SKRIPSI... ii

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

BAB V EKSPERIMEN TEXT CLASSIFICATION

Document Indexing dan Term Weighting. M. Ali Fauzi

SISTEM TEMU KEMBALI INFORMASI

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB I PENDAHULUAN 1.1 Latar Belakang

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

ROCCHIO CLASSIFICATION

PENDAHULUAN. Latar belakang

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

Implementasi Generalized Vector Space Model Menggunakan WordNet

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB 3 LANDASAN TEORI

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB I PERSYARATAN PRODUK

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB 1 PENDAHULUAN Latar Belakang

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

BAB 3 ANALISA DAN PERANCANGAN

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

V HASIL DAN PEMBAHASAN

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

Penerapan Model Gravitasi Newton Versi Continuous dan Diskrit pada Sistem Temu Balik Informasi

BAB II TINJAUAN PUSTAKA

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB IV ANALISA DAN PERANCANGAN

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

Transkripsi:

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak - Sistem emu Balik Informasi adalah ilmu mencari informasi dalam suatu dokumen. Proses pencocokan dilakukan secara parsial dan hanya mencari hasil temu balik yang terbaik. Query diberikan dalam bahasa alami dan dalam bentuk yang tidak lengkap. Sistem emu Balik Informasi terdiri dari tiga komponen utama, yaitu masukan, pemroses dan keluaran. Penghitungan similaritas akan menghasilkan bobot pada tiap dokumen yang menentukan seberapa relevan dokumen tersebut terhadap query. Metode pembobotan yang digunakan dalam implementasi dapat berupa kombinasi dari F (erm Frequency), IDF (Inverse Document Frequency), dan normalisasi sesuai input dari user. Pada pengujian terdapat tiga besaran performansi yang dihitung, yaitu Recall, Precision, dan NIAP. Kata Kunci : Sistem emu Balik Informasi, query, performansi, term 1 PENDAHULUAN Segala jenis informasi terdapat di internet, di samping lengkap, informasi di internet sangat banyak sekali jumlahnya. Hal ini tentunya menimbulkan permasalahan baru, yaitu bagaimana menemukan informasi yang kita inginkan dari sekian banyak informasi yang terdapat di internet. Untuk itu, diperlukan suatu mekanisme pencarian, Information Retrieval System (Sistem emu Balik Informasi) sebagai sebuah sistem yang mampu mencari informasi yang relevan. Pemahaman akan suatu ilmu tentunya tidak akan cukup jika ilmu itu tidak diterapkan dalam lingkungan sebenarnya. Untuk tujuan itulah, perangkat lunak untuk pengujian ini dikembangkan. Selain menerapkan ilmu yang didapat, dengan mengembangkan aplikasi ini juga bisa berlatih membangun aplikasi perangkat lunak dengan baik. MEODE PENELIIAN.1 Sistem emu Balik Informasi Sistem emu Balik Informasi (SBI) adalah ilmu mencari informasi dalam suatu dokumen, mencari dokumen itu sendiri dan mencari metadata yang menggambarkan suatu dokumen. Sistem emu Balik Informasi merupakan cabang dari ilmu komputer terapan (applied computer science) yang berkonsentrasi pada representasi, penyimpanan, pengorganisasian, akses dan distribusi informasi. Dalam sudut pandang pengguna, Sistem emu Balik Informasi membantu pencarian informasi dengan memberikan koleksi informasi yang sesuai dengan kebutuhan pengguna. Dalam berbagai hal, Sistem emu Balik Informasi seringkali disalah artikan menjadi Sistem Basis Data. Kenyataannya, Sistem emu Balik Informasi memiliki perbedaan mendasar dengan Sistem Basis Data dalam berbagai hal. Karakteristik Sistem emu Balik Informasi antara lain: 1. Proses pencocokan dilakukan secara parsial (Partial Match) dan hanya mencari hasil temu balik yang terbaik (Best Match).. Proses inferensi dilakukan menurut metode induksi. 3. Model yang diambil adalah model yang bersifat probabilistik. 4. Query diberikan dalam bahasa alami (natural language) dan dalam bentuk yang tidak lengkap (incomplete query) 5. Hasil temu balik yang diinginkan adalah hasil yang relevan (relevant matching) Sistem emu Balik Informasi terdiri dari tiga komponen utama, yaitu masukan (input), pemroses (processor) dan keluaran (output).

Komponen-komponen ini digambarkan pada Gambar 1. jumlah dokumen relevan ditemukan jumlah dokumen ditemukan NIAP Nilai precision tertinggi adalah 1, yang berarti seluruh dokumen yang ditemukan adalah relevan : (Non Interpolated Average Precision) adalah penggabungan dari recall dan precision, yang dapat dihitung dengan rumus: Gambar 1 - Skema Umum Sistem n precision pada dokumen ke i jumlah dokumen relevan dalam koleksi Inti dari sistem temu balik informasi adalah mencari dokumen-dokumen yang relevan sesuai dengan masukan (query) dari pengguna. Oleh karena itu, perlu dihitung similaritas dari tiap dokumen terhadap query yang diberikan. Penghitungan similaritas akan menghasilkan bobot pada tiap dokumen yang menentukan seberapa relevan dokumen tersebut terhadap query, sehingga dapat ditampilkan dokumendokumen yang relevan saja, secara terurut mulai dari yang paling relevan (bobot tertinggi). Dokumen-dokumen yang ditampilkan oleh sistem temu balik informasi harus memenuhi persyaratan berikut: Recall : menemukan seluruh dokumen yang relevan dalam koleksi. Recall dapat dihitung dengan rumus: jumlah dokumen relevan ditemukan jumlah dokumen relevan dalam koleksi Nilai recall tertinggi adalah 1, yang berarti seluruh dokumen dalam koleksi berhasil ditemukan Precision : menemukan hanya dokumen yang relevan saja dalam koleksi. Precision dapat dihitung dengan rumus: Di mana n menunjukkan jumlah dokumen yang dicari hingga seluruh dokumen relevan ditemukan. Nilai NIAP tertinggi adalah 1, yang berarti seluruh dokumen relevan berhasil ditemukan dengan seluruh dokumen relevan tersebut ditempatkan pada urutan teratas dalam hasil pencarian Nilai NIAP akan digunakan untuk mengecek kebenaran hasil pencarian dari perangkat lunak yang dibangun.. Metode Pembobotan Metode pembobotan yang digunakan dalam implementasi Giggle dapat berupa kombinasi dari F (erm Frequency), IDF (Inverse Document Frequency), dan Normalisasi sesuai input dari user...1 erm Frequency erm Frequency (F) adalah algoritma pembobotan heuristik yang menentukan bobot dokumen berdasarkan kemunculan term (istilah). Semakin sering sebuah istilah muncul, semakin tinggi bobot dokumen untuk istilah tersebut, dan sebaliknya. Hasil pembobotan ini selanjutnya akan diginakan oleh fungsi perbandingan untuk menentukan dokumendokumen yang relevan. erdapat empat buah algoritma F yang digunakan: Raw F Raw F menentukan bobot suatu

menghitung frekuensi kemunculan suatu istilah tersebut pada dokumen. Raw F selanjutnya akan dituliskan sebagak tf Logarithmic F Logarithmic F mengurangi tingkat kepentingan kemunculan kata dalam menghitung bobot dokumen terhadap suatu istilah dengan melakukan log terhadap F. Log F dapat dihitung dengan rumus: ltf = 1 + log(tf) Binary F Binary F menyeragamkan bobot memberi nilai 0 dan 1. Nilai 1 menyatakan suatu istilah muncul minimal satu kali dalam suatu dokumen, sementara 0 menyatakan sebaliknya. jumlah seluruh dokumen dalam koleksi idf = log ( jumlah dokumen yang mengandung istilah )..3 Normalisasi Pembobotan term dengan menggunakan tf dan idf masih belum cukup dan memadai, ini dikarenakan ada faktor penting yang dilupakan yaitu panjang suatu dokumen dalam koleksi. Setiap dokumen yang terdapat dalam koleksi memiliki panjang yang berbeda-beda. Variasi panjang dokumen dalam koleksi akan menyebabkan : 1. Besarnya frekuensi term Pada dokumen yang panjang, term yang sama cendrung muncul berulang kali sehingga menyebabkan term frequency cendrung besar. Besarnya term frequency mengakibatkan ratarata bobot term menjadi tinggi dan meningkatkan nilai relevansi dokumen terhadap query pula.. Banyaknya term btf 1, istilah muncul dalam dokumen = { 0, istilah tidak muncul dalam dokumen Augmented F Augmented F menyeragamkan bobot memberikan range antara 0.5 hingga 1 sebagai bobot dokumen. Augmented F dapat dihitung dengan rumus: atf = 0.5 + 0.5 tf ( max tf dari seluruh dokumen ).. Inverted erm Frequency Inverse erm Frequency (IDF) meningkatkan nilai bobot dokumen terhadap suatu istiilah dengan rumus heuristik : semakin banyak dokumen yang mengandung sebuah istilah, maka semakin kecil bobot istilah tersebut (karena tidak dapat digunakan untuk membedakan relevansi dokumen satu dengan yang lain) IDF menentukan bobot suatu dokumen terhadap istilah dengan rumus: Dalam dokumen yang panjang, sering ditemukan sejumlah term yang berbeda. Hal ini mengakibatkan meningkatnya sejumlah relevansi antara dokumen dan query. Normalisasi panjang dokumen dimaksudkan untuk mengurangi hal tersebut diatas. Dengan adanya normalisasi panjang dokumen memungkinkan dokumen yang pendek ikut diperhitungkan dalam pencocokan dokumen (document similarity). Korelasi Cosine antara vektor query dan vektor dokumen adalah : Cos (Q, D ) = W q1 + W q + + W qr dimana : W qi X W di X W d1 + W d + + W dr wq = bobot tf x idf dari term i dalam query wd = bobot tf x idf dalam dokumen Korelasi dibatasi antara 0 dan 1 dengan menggunakan panjang euclidean dari vektor individu dalam suatu persamaan. Korelasi 3

cosine dapat juga ditulis dalam bentuk persamaan : menjadi masukan yang dapat diterima oleh aplikasi. Cos (Q, D ) W qi = W ( q1 + W q + + W qr x W d1 W di + W d + + W dr ).3 Metode Perbandingan Metode perbandingan yang digunakan untuk membandingkan tingkat relevansi sebuah dokumen terhadap dokumen yang lain untuk query tertentu adalah metode ruang vektor. Metode ruang vektor secara sederhana melakukan penghitungan similaritas dari dokumen terhadap query, dengan cara mengalikan semua istilah yang muncul pada query dan istilah pada dokumen dengan menggunakan fungsi similaritas. Fungsi similaritas berfungsi untuk menghitung similaritas dari dokumen dan query. Fungsi ini memanfaatkan hasil dari fungsi pembobotan untuk menentukan similaritas antara dokumen dan query. Perhitungan dilakukan dengan rumus: sim = Wqi Wdi Dimana mewakili jumlah kata dalam suatu bahasa, Wqi mewakili bobot istilah-i dalam query dan Wdi mewakili bobot istilah-i dalam dokumen. Melakukan indexing atau pembentukan inverted table dengan berbagai kombinasi mode pemobobotan. Untuk setiap percobaan terhadap mode pembototan tertentu, proses indexing disertai dengan proses penghilangan stop words berbahasa Inggris, namun tidak melakukan proses stemming. Adapun kombinasi mode pembobotan yang digunakan dalam pengujian ini meliputi : o Raw erm Frequency o Binary erm Frequency o Logarithmic erm Frequency o Augmented erm Frequency o Inverted erm Frequency o Normalisasi Menghitung nilai Recall, Precision, dan NIAP untuk setiap percobaan retrieval terhadap tiap query. Dalam pengujian dengan dataset ADI dan CISI, terdapat sebuah file yang terdiri dari query-query dan juga file yang mengambarkan keterhubungan antara query dengan dokumen yang relevan dengannya. 3. Hasil Pengujian Berikut ini didapatkan hasil pengujian yang dilakukan dengan menggunakan data ADI dan CISI. abel 1 Hasil Pengujian Dataset ADI 3 HASIL DAN PEMBAHASAN 3.1 Langkah Pengujian Pada pengujian kali ini, skenario pengujian yang dilakukan terhadap sistem temu-balik informasinadalah sebagai berikut. Melakukan parsing terhadap dataset ADI dan CISI serta memilah-milah dataset tersebut menjadi beberapa dokumen yang terkompresi ke dalam format zip. ujuan mekanisme ini adalah agar dataset ADI dan CISI Metode Precisi on Recall NIAP Raw erm Frequency 0,053 0,800 0,035 Binary erm Frequency 0,048 0,750 0,130 Logarithmic erm Frequency 0,03 0,670 0,70 Augmented erm Frequency 0,038 0,810 0,30 Inverted erm Frequency 0,075 0,761 0,361 Normalisasi 0,089 0,846 0,38 4

abel Hasil Pengujian Dataset CISI Metode Precision Recall NIAP Raw erm Frequency 0,137 0,930 0,479 Binary erm Frequency 0,031 0,930 0,064 Logarithmic erm Frequency 0,00 0,330 0,033 Augmented erm Frequency 0,075 0,800 0,140 Inverted erm Frequency 0,065 0,831 0,8 Normalisasi 0,081 0,867 0,411 3.3 Analisis Hasil Pada pengujian kali ini, terdapat 3 besaran performansi yang dihitung, yaitu Recall, Precision, dan NIAP. Mekanisme perhitungan NIAP secara semantik sudah mencakup Recall dan Precision serta mempertimbangkan peringkat / ranking dari kumpulan dokumen yang terambil oleh sistem, maka baik atau tidaknya sistem temu-balik informasi ini cukup hanya melihat nilai rata-rata NIAP. Dari data pengujian yang ada di atas dapat dilihat bahwa untuk koleksi dokumen ADI opsi indexing dengan menggunakan Normalisasi memiliki nilai performansi NIAP yang paling tinggi. Hal ini disebabkan karena pada koleksi dokumen ADI yang jumlah dokumennya sedikit, akan didapat jumlah dokumen relevan dan total keseluruhan dokumen yang berbanding lurus. Dengan begitu performansi yang diciptakakn oleh mode ini menjadi paling tinggi. Sedangkan untuk koleksi dokumen CISI, nilai performansi NIAP tertinggi ditunjukan oleh metode indexing dengan menggunakan Raw erm Frequency. Hasil tersebut muncul karena pada mode Raw erm Frequency pembobotan dihitung hanya berdasar pada jumlah kemunculan term pada dokumen. Dengan begitu dataset dengan jumlah koleksi dokumen yang banyak seperti pada CISI akan memiliki performansi yang lebih besar. 4 KESIMPULAN a. Sistem temu balik informasi melakukan penentuan kerelevanan dokumen berdasarkan term yang terdapat di dalam query dan dokumen. b. Untuk koleksi dokumen yang besar mode yang memiliki performansi paling tinggi adalah Raw erm Frequency. c. Untuk koleksi dokumen yang kecil, metode Normalisasi menghasilkan nilai performansi paling tinggi 5 SARAN a. esting dapat dilakukan pada koleksi dokumen yang lebih banyak. b. Koleksi dokumen tidak hanya dokumen teks. 6 DAFAR PUSAKA 1. Kaniawati, Nia, 005. Phrase Indexing Dalam Sistem emu Balik Informasi. Program Studi Informatika, Fakultas eknologi Industri, Institut eknologi Bandung. Lavrenko, Victor., and Bruce Croft, W., 001. Relevance-Based Language Models. Center for Intelligent Information Retrieval, Department of Computer Science, University of Massachusetts, United States 3. Robertson, S.E., van Rijsbergen, C.J., and Porter, M.F., 1981. Probabilistic Model of Indexing And Searching. Oddy Etal(eds), Information Retrieval Research, Butterworths 4. Singhal, Amit., 000. Modern Information Retrieval: A Brief Overview. Google, Inc., Sillicon Valley, California 5