ALGORITMA UMUM PENCARIAN INFORMASI DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN



dokumen-dokumen yang mirip
BAB VB PERSEPTRON & CONTOH

BAB III METODOLOGI PENELITIAN

Preferensi untuk alternatif A i diberikan

MEREDUKSI SISTEM PERSAMAAN LINEAR FUZZY PENUH DENGAN BILANGAN FUZZY TRAPESIUM

BAB X RUANG HASIL KALI DALAM

Didownload dari ririez.blog.uns.ac.id BAB I PENDAHULUAN

BAB 2 TINJAUAN PUSTAKA

PENENTUAN LOKASI PEMANCAR TELEVISI MENGGUNAKAN FUZZY MULTI CRITERIA DECISION MAKING

SISTEM PENDUKUNG KEPUTUSAN PENILAIAN KINERJA DAN PEMILIHAN MITRA BADAN PUSAT STATISTIK (BPS) KABUPATEN GUNUNGKIDUL MENGGUNAKAN METODE SAW BERBASIS WEB

BAB II TINJAUAN PUSTAKA. George Boole dalam An Investigation of the Laws of Thought pada tahun

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

ANALISIS SENTIMEN PENGGUNA JEJARING SOSIAL MENGGUNAKAN METODE SUPPORT VECTOR MACHINE

Bab III Analisis Rantai Markov

PENGURUTAN DATA. A. Tujuan

PENDAHULUAN TINJAUAN PUSTAKA

BAB I PENDAHULUAN. suatu komputer digital [12]. Citra digital tersusun atas sejumlah elemen.

Dekomposisi Nilai Singular dan Aplikasinya

IV. PERANCANGAN DAN IMPLEMENTASI SISTEM

BAB III METODE KOMPRESI DAN DEKOMPRESI. untuk setiap B X. fraktal. Penjelasan dimulai dengan pengenalan Multiple Reduction Copy

Tinjauan Algoritma Genetika Pada Permasalahan Himpunan Hitting Minimal

PERTEMUAN I PENGENALAN STATISTIKA TUJUAN PRAKTIKUM

PEMBUATAN GRAFIK PENGENDALI BERDASARKAN ANALISIS KOMPONEN UTAMA (PRINCIPAL COMPONENT ANALYSIS)

ε adalah error random yang diasumsikan independen, m X ) adalah fungsi

PENINGKATAN PERFORMANSI SISTEM TEMU BALIK INFORMASI DENGAN METODE PHRASAL TRANSLATION DAN QUERY EXPANSION

Dalam sistem pengendalian berhirarki 2 level, maka optimasi dapat. dilakukan pada level pertama yaitu pengambil keputusan level pertama yang

III PEMBAHASAN. merupakan cash flow pada periode i, dan C. berturut-turut menyatakan nilai rata-rata dari V. dan

BAB 4 METODOLOGI PENELITIAN DAN ANALISIS

BAB IV PENGUJIAN DAN ANALISA

BAB II TEORI ALIRAN DAYA

BAB 2 LANDASAN TEORI

Bab 1 PENDAHULUAN Latar Belakang

Fisika Dasar I (FI-321)

I PENDAHULUAN II LANDASAN TEORI

Kata kunci : daya, bahan bakar, optimasi, ekonomis. pembangkitan yang maksimal dengan biaya pengoperasian unit pembangkit yang minimal.

BAB III METODE PENELITIAN. yang digunakan meliputi: (1) PDRB Kota Dumai (tahun ) dan PDRB

Fisika Dasar I (FI-321) Usaha dan Energi

BAB 1 PENDAHULUAN. Pertumbuhan dan kestabilan ekonomi, adalah dua syarat penting bagi kemakmuran

BAB II TINJAUAN PUSTAKA

PEMILIHAN VARIABEL YANG RELEVAN PADA ATURAN FUZZY MENGGUNAKAN JARINGAN SYARAF

Nama : Crishadi Juliantoro NPM :

BAB 1 PENDAHULUAN. dependen (y) untuk n pengamatan berpasangan i i i. x : variabel prediktor; f x ) ). Bentuk kurva regresi f( x i

BAB 2 TINJAUAN PUSTAKA

APLIKASI METODE SINGULAR VALUE DECOMPOSITION(SVD) PADA SISTEM PERSAMAAN LINIER KOMPLEKS

BAB II LANDASAN TEORI

BAB IV PEMBAHASAN MODEL

Bab III Analisis dan Rancangan Sistem Kompresi Kalimat

BAB III METODE PENELITIAN. sebuah fenomena atau suatu kejadian yang diteliti. Ciri-ciri metode deskriptif menurut Surakhmad W (1998:140) adalah

II. TEORI DASAR. Definisi 1. Transformasi Laplace didefinisikan sebagai

ANALISIS ALGORITMA BAYESIAN TERHADAP BASIS KASUS UNTUK KERUSAKAN PERSONAL COMPUTER (PC)

SISTEM LINEAR MAX-PLUS KABUR WAKTU INVARIANT AUTONOMOUS

Algoritma Umum Pencarian Informasi Dalam Sistem Temu Kembali Informasi Berbasis Metode Vektorisasi Kata dan Dokumen

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI

PROTOTYPE APLIKASI UNTUK MENGUKUR KEMATANGAN BUAH APEL BERDASAR KEMIRIPAN WARNA

ANALISIS DATA KATEGORIK (STK351)

P n e j n a j d a u d a u l a a l n a n O pt p im i a m l a l P e P m e b m a b n a g n k g i k t Oleh Z r u iman

BAB I PENDAHULUAN. 1.1 Latar Belakang. Di dalam matematika mulai dari SD, SMP, SMA, dan Perguruan Tinggi

BAB III METODOLOGI PENELITIAN

BAB II DASAR TEORI. 2.1 Definisi Game Theory

Matematika Eigenface Menggunakan Metrik Euclidean

RANGKAIAN SERI. 1. Pendahuluan

III PEMODELAN MATEMATIS SISTEM FISIK

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

Teori Himpunan. Modul 1 PENDAHULUAN. impunan sebagai koleksi (pengelompokan) dari objek-objek yang

BAB III METODE PENELITIAN. penelitian dilakukan secara purposive atau sengaja. Pemilihan lokasi penelitian

BAB III SKEMA NUMERIK

BAB II ESSAY GRADING METODE LSA DAN LATENT SEMANTIC ANALYSIS (LSA)

UJI SENSITIVITAS METODE WP, SAW DAN TOPSIS DALAM MENENTUKAN TITIK LOKASI REPEATER INTERNET WIRELESS

BAB III METODE PENELITIAN. Metode penelitian yang digunakan dalam penelitian ini adalah metode

PERBANDINGAN METODE SAW DAN TOPSIS PADA KASUS UMKM

BAB 4 PERHITUNGAN NUMERIK

PEMILIHAN LAHAN TERBAIK UNTUK TANAMAN KELAPA SAWIT MENGGUNAKAN METODE SIMPLE ADDITIVE WEIGHTING

BAB I PENDAHULUAN. 1.1 Latar Belakang

IV HASIL DAN PEMBAHASAN

METODE OPTIMASI 11/13/2015. Capaian Pembelajaran

Pendeteksian Data Pencilan dan Pengamatan Berpengaruh pada Beberapa Kasus Data Menggunakan Metode Diagnostik

BAB 2 KAJIAN PUSTAKA

BAB III METODE PENELITIAN. Pada penelitian ini, penulis memilih lokasi di SMA Negeri 1 Boliyohuto khususnya

MODEL OPTIMAL SISTEM TRANSPORTASI ANGKUTAN KOTA

BAB III METODE PENELITIAN. Sebelum dilakukan penelitian, langkah pertama yang harus dilakukan oleh

PENERAPAN METODE LINIEAR DISCRIMINANT ANALYSIS PADA PENGENALAN WAJAH BERBASIS KAMERA

BAB V ANALISA PEMECAHAN MASALAH

3 METODE HEURISTIK UNTUK VRPTW

Model SPK. Model optimasi (2) Model optimasi (1) Metode-metode Optimasi dengan Alternatif Terbatas 4/30/2017. Tujuan.

BAB 1 PENDAHULUAN. 1.1 Latar belakang

BAB V PENGEMBANGAN MODEL FUZZY PROGRAM LINIER

Pendahuluan. 0 Dengan kata lain jika fungsi tersebut diplotkan, grafik yang dihasilkan akan mendekati pasanganpasangan

TINJAUAN PUSTAKA. Node. Edge. Gambar 1 Directed Acyclic Graph

BAB II DASAR TEORI DAN METODE

BAB II METODOLOGI PENELITIAN. Jenis penelitian yang digunakan dalam penelitian ini adalah penelitian. variable independen dengan variabel dependen.

PENGEMBANGAN MODEL PERSEDIAAN DENGAN MEMPERTIMBANGKAN WAKTU KADALUARSA BAHAN DAN FAKTOR INCREMENTAL DISCOUNT

BAB I PENDAHULUAN. Semakin tinggi penerimaan Pajak di Indonesia, semakin tinggi pula kualitas

PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 5 HASIL DAN PEMBAHASAN. Sampel yang digunakan dalam penelitian ini adalah data pengujian pada

APLIKASI SEARCH ENGINE PAPER/KARYA ILMIAH BERBASIS WEB DENGAN METODE FUZZY RELATION

Histogram Citra. Bab Membuat Histogram

PENERAPAN METODE MAMDANI DALAM MENGHITUNG TINGKAT INFLASI BERDASARKAN KELOMPOK KOMODITI (Studi Kasus pada Data Inflasi Indonesia)

Peramalan Produksi Sayuran Di Kota Pekanbaru Menggunakan Metode Forcasting

Model Potensial Gravitasi Hansen untuk Menentukan Pertumbuhan Populasi Daerah

BAB III METODE PENELITIAN. menghasilkan Lembar Kegiatan Siswa (LKS) pada materi Geometri dengan

Transkripsi:

ALGORITMA UMUM PENCARIAN INFORMASI DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN Hendra Bunyamn Jurusan Teknk Informatka Fakultas Teknolog Informas Unverstas Krsten Maranatha Jl. Prof. drg. Sura Sumantr No. 65, Bandung 4064 E-mal: hendra.bunyamn@eng.maranatha.edu Abstract Informaton retreval (IR) system s a system, whch s used to search and retreve nformaton relevant to the users needs. IR system retreves and dsplays documents that are relevant to the users nput (query). The nformaton retreval system has several steps and must execute the steps n order to obtan query results. The steps consst of two processes. The frst one s processng query and the second one s processng the document collecton. Processng query ncludes: conduct text operaton, query formulaton, and make terms ndex for query. Processng the document collecton ncludes: conduct text operaton, ndexng, and make collecton ndex for document collecton. Obtanng terms ndex and collecton ndex, we are able to process terms ndex and collecton ndex to obtan rankng results. To obtan rankng results requres knowledge from basc lnear algebra. Ths paper also explores how to make rankng from the most relevant documents to the most rrelevant documents Keywords: nformaton retreval system, non-nterpolated average precson

. Pendahuluan Informaton retreval (IR) system dgunakan untuk menemukan kembal (retreve) nformas-nformas yang relevan terhadap kebutuhan pengguna dar suatu kumpulan nformas secara otomats. Query Informaton Retreval System Koleks Dokumen. Dokumen. Dokumen. Dokumen Hasl Pencaran Gambar Ilustras nformaton retreval system Salah satu aplkas umum dar IR system adalah search engne atau mesn pencaran yang terdapat pada jarngan nternet. Pengguna dapat mencar halaman-halaman web yang dbutuhkannya melalu search engne. Contoh lan dar IR system adalah sstem nformas perpustakaan. IR system terutama berhubungan dengan pencaran nformas yang snya tdak memlk struktur. Ekspres kebutuhan pengguna yang dsebut query, juga tdak memlk struktur. Hal n yang membedakan IR system dengan sstem bass data. Dokumen adalah contoh nformas yang tdak terstruktur. Is dar suatu dokumen sangat tergantung pada pembuat dokumen tersebut. Sebaga suatu sstem, IR system memlk beberapa bagan yang membangun sstem secara keseluruhan. Bagan-bagan yang terdapat pada suatu IR system dgambarkan pada Gambar

Document Collecton Query Text Operatons Query formulaton. Dokumen. Dokumen. Dokumen.. Text Operatons Indexng Terms Index Rankng Collecton Index Gambar Bagan-bagan nformaton retreval system Gambar memperlhatkan bahwa terdapat dua buah alur operas pada IR system. Alur pertama dmula dar koleks dokumen dan alur kedua dmula dar query pengguna. Alur pertama yatu pemrosesan terhadap koleks dokumen menjad bass data ndeks tdak tergantung pada alur kedua. Sedangkan alur kedua tergantung dar keberadaan bass data ndeks yang dhaslkan pada alur pertama. Bagan-bagan dar IR system menurut gambar melput:. Text Operatons (operas terhadap teks) yang melput pemlhan katakata dalam query maupun dokumen (term selecton) dalam pentransformasan dokumen atau query menjad term ndex (ndeks dar kata-kata).. Query formulaton (formulas terhadap query) yatu member bobot pada ndeks kata-kata query.. Rankng (perangkngan), mencar dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaannya dengan query. 4. Indexng (pengndeksan), membangun bass data ndeks dar koleks dokumen. Dlakukan terlebh dahulu sebelum pencaran dokumen dlakukan.

IR system menerma query dar pengguna, kemudan melakukan perangkngan terhadap dokumen pada koleks berdasarkan kesesuaannya dengan query. Hasl perangkngan yang dberkan kepada pengguna merupakan dokumen yang menurut sstem relevan dengan query. Namun relevans dokumen terhadap suatu query merupakan penlaan pengguna yang subjektf dan dpengaruh banyak faktor sepert topk, pewaktuan, sumber nformas maupun tujuan pengguna. Model IR system menentukan detl IR system yatu melput representas dokumen maupun query, fungs pencaran (retreval functon) dan notas kesesuaan (relevance notaton) dokumen terhadap query. Terdapat beberapa model IR system sepert model boolean dan model ruang vektor. Dalam tulsan n, model ruang vektor dplh karena model ruang vektor mampu menghaslkan dokumen-dokumen terurut berdasarkan kesesuaan dengan query. Dan juga query d dalam model ruang vektor dapat berupa sekumpulan kata-kata dar pengguna dalam ekspres bebas.. Model Ruang Vektor Msalkan terdapat sejumlah n kata yang berbeda sebaga kamus kata (vocabulary) atau ndeks kata (terms ndex). Kata-kata n akan membentuk ruang vektor yang memlk dmens sebesar n. Setap kata dalam dokumen atau query dberkan bobot sebesar w. Bak dokumen maupun query drepresentaskan sebaga vektor berdmens n. Sebaga contoh terdapat buah kata ( T, T dan T ), buah dokumen ( D dan D ) serta sebuah query Q. Masng-masng bernla: D = T + T + 5T ; D = T + 7T + 0T ; Q = 0T + 0T + T Maka representas grafs dar ketga vektor n adalah sepert pada gambar Koleks dokumen drepresentas pula dalam ruang vektor sebaga matrks kata-dokumen (terms-documents matrx). Nla dar elemen matrks w adalah bobot kata dalam dokumen j. j 4

T 5 D + T = T + T 5 Q = 0T + T + 0T T D T + T = T + 7 T 7 Gambar Contoh vektor-vektor D, D, D dan Q Msalkan terdapat sekumpulan kata T sejumlah m, yatu T = T, T,, T ) dan sekumpulan dokumen D sejumlah n, yatu ( m ( D, D,, Dn D = ) serta w j adalah bobot kata pada dokumen j. Maka gambar 4 adalah representas matrks kata-dokumen T T Tm D w w wm D w w wm Dn wn w n wmn Gambar 4 Representas matrks kata-dokumen Penentuan relevans dokumen dengan query dpandang sebaga pengukuran kesamaan (smlarty measure) antara vektor dokumen dengan vektor query. Semakn sama suatu vektor dokumen dengan vektor query maka dokumen dapat dpandang semakn relevan dengan query. Salah satu pengukuran 5

kesesuaan yang bak adalah dengan memperhatkan perbedaan arah (drecton dfference) dar kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometr dapat danggap sebaga sudut yang terbentuk oleh kedua vektor. Gambar 5 menglustraskan kesamaan antara dokumen D dan D dengan query Q. Sudut θ menggambarkan kesamaan dokumen D dengan query sedangkan sudut θ menggambarkan kesamaan dokumen D dengan query. T D θ Q θ T D T Gambar 5 Representas grafs sudut vektor dokumen dan query Jka Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua buah vektor dalam ruang berdmens- n, dan θ adalah sudut yang dbentuk oleh kedua vektor tersebut. Maka Q D = Q D cosθ...() dengan Q D adalah hasl perkalan ttk (dot product) kedua vektor, sedangkan D = n D = n Q = dan Q =...() merupakan norm atau panjang vektor d dalam ruang berdmens- n. Perhtungan kesamaan (Smlarty) kedua vektor adalah sebaga berkut 6

n Q D Sm( Q, D) = cos( Q, D) = = Q D...() Q D Q D = dengan Q D adalah perkalan antara Q dan D. Metode pengukuran kesesuaan n memlk beberapa keuntungan, yatu adanya normalsas terhadap panjang dokumen. Hal n memperkecl pengaruh panjang dokumen. Panjang kedua vektor dgunakan sebaga faktor normalsas. Hal n dperlukan karena dokumen yang panjang cenderung mendapatkan nla yang besar dbandngkan dengan dokumen yang lebh pendek. Proses perangkngan dar dokumen dapat danggap sebaga proses pemlhan (vektor) dokumen yang dekat dengan (vektor) query, kedekatan n dndkaskan dengan sudut yang dbentuk. Nla cosnus yang cenderung besar mengndkaskan bahwa dokumen cenderung sesua query. Nla cosnus sama dengan mengndkaskan bahwa dokumen sesua dengan query.. Pembobotan Kata Bagan sebelumnya membahas mengena metode pengukuran kesesuaan antara dokumen dan query dalam model ruang vektor. Dokumen maupun query drepresentaskan sebaga vektor berdmens- n. Bagan n akan membahas mengena nla dar vektor atau bobot kata dalam dokumen. Salah satu cara untuk member bobot terhadap suatu kata adalah memberkan nla jumlah kemunculan suatu kata (term frequency) sebaga bobot. Semakn besar kemunculan suatu kata dalam dokumen akan memberkan nla kesesuaan yang semakn besar. Faktor lan yang dperhatkan dalam pemberan bobot adalah kejarangmunculan kata (term scarcty) dalam koleks. Kata yang muncul pada sedkt dokumen harus dpandang sebaga kata yang lebh pentng (uncommon terms) darpada kata yang muncul pada banyak dokumen. Pembobotan akan memperhtungkan faktor kebalkan frekuens dokumen yang mengandung suatu kata (nverse document frequency). Hal n merupakan usulan dar George Zpf. Zpf mengamat bahwa frekuens dar sesuatu cenderung kebalkan secara proporsonal dengan urutannya. Faktor terakhrnya adalah faktor normalsas terhadap panjang dokumen. Dokumen dalam koleks dokumen memlk karakterstk panjang yang beragam. Ketmpangan terjad karena dokumen yang panjang akan cenderung mempunya frekuens kemunculan kata yang besar. Sehngga untuk mengurang ketmpangan tersebut dperlukan faktor normalsas dalam pembobotan. 7

Perbedaan antara normalsas pada pembobotan dan perangkngan adalah normalsas pada pembobotan dlakukan terhadap suatu kata dalam suatu dokumen sedangkan pada perangkngan dlakukan terhadap suatu dokumen dalam koleks dokumen. Pembobotan yang danggap palng bak adalah menggunakan persamaan log( tf + = ).0 w...(4) t [log( tf j ) +.0] j= untuk pembobotan kata ( w ) pada dokumen dan menggunakan persamaan (log( tf ) +.0) + log( N ) n q =...(5) t tf j + N [(log( ).0) (log( ))] n j j= untuk pembobotan kata ( q ) pada query. Dengan tf adalah frekuens kemunculan kata, n banyak dokumen yang mengandung kata dan N jumlah dokumen dalam koleks. 4. Kesmpulan Pengguna menggunakan IR system sebaga alat bantu untuk dapat mencar dokumen yang sesua dengan query pengguna. D dalam IR system, terdapat beberapa proses yang harus dlakukan sehngga IR system dapat menamplkan daftar rankng dokumen dar dokumen yang palng relevan dengan query sampa dengan dokumen yang tdak relevan dengan query. Model IR system yang dgunakan dalam tulsan n adalah model ruang vektor. D dalam model ruang vektor, query dan dokumen drepresentaskan sebaga vektor-vektor. Kesesuaan vektor query dengan vektor-vektor dokumen dhtung dengan menggunakan aljabar lner sederhana. 5. Daftar Pustaka Jacob, Bll (990), Lnear Algebra, W.H. Freeman and Company. Karlgren, Juss (998), The Bascs of Informaton Retreval. URL: http://cteseer.nj.nec.com/4685.html Lddy, Elzabeth (00), How a search engne works URL: http://www.nfotoday.com/searcher/may0/lddy.htm Rjsbergen, C.J. van (979), Informaton Retreval, Butterworths, London. Setawan, Hendra (00), Umpan Balk Relevans pada Sstem Temu Kembal Informas, Tugas Akhr Departemen Teknk Informatka ITB. 8