Algoritma Umum Pencarian Informasi Dalam Sistem Temu Kembali Informasi Berbasis Metode Vektorisasi Kata dan Dokumen

dokumen-dokumen yang mirip
ALGORITMA UMUM PENCARIAN INFORMASI DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN

PERTEMUAN III PERSAMAAN REGRESI TUJUAN PRAKTIKUM

BAB IV BATAS ATAS BAGI JARAK MINIMUM KODE SWA- DUAL GENAP

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI. Regresi linier sederhana yang variabel bebasnya ( X ) berpangkat paling tinggi satu.

FMDAM (2) TOPSIS TOPSIS TOPSIS. Charitas Fibriani

UKURAN GEJALA PUSAT DAN UKURAN LETAK

PENDAHULUAN Metode numerik merupakan suatu teknik atau cara untuk menganalisa dan menyelesaikan masalah masalah di dalam bidang rekayasa teknik dan

BAB 2 LANDASAN TEORI. Regresi linier sederhana merupakan bagian regresi yang mencakup hubungan linier

NORM VEKTOR DAN NORM MATRIKS

ANALISIS ALGORITMA REKURSIF DAN NONREKURSIF

4/1/2013. Bila X 1, X 2, X 3,,X n adalah pengamatan dari sampel, maka rata-rata hitung dirumuskan sebagai berikut. Dengan: n = banyak data

Penarikan Contoh Gerombol (Cluster Sampling) Departemen Statistika FMIPA IPB

BAB III PERSAMAAN PANAS DIMENSI SATU

POLIGON TERBUKA TERIKAT SEMPURNA

BAB 2. Tinjauan Teoritis

Mean untuk Data Tunggal. Definisi. Jika suatu sampel berukuran n dengan anggota x1, x2, x3,, xn, maka mean sampel didefinisiskan : n Xi.

BAB III METODE PENELITIAN. Tempat penelitian ini dilaksanakan di SMP Negeri 4 Tilamuta Kabupaten

3/19/2012. Bila X 1, X 2, X 3,,X n adalah pengamatan dari sampel, maka rata-rata hitung dirumuskan sebagai berikut

Penyelesaian Sistem Persamaan Linier Kompleks Dengan Invers Matriks Menggunakan Metode Faddev (Contoh Kasus: SPL Kompleks dan Hermit)

BAB 2 LANDASAN TEORI. perkiraan (prediction). Dengan demikian, analisis regresi sering disebut sebagai

S2 MP Oleh ; N. Setyaningsih

Di dunia ini kita tidak dapat hidup sendiri, tetapi memerlukan hubungan dengan orang lain. Hubungan itu pada umumnya dilakukan dengan maksud tertentu

ALGORITMA MENENTUKAN HIMPUNAN TERBESAR DARI SUATU MATRIKS INTERVAL DALAM ALJABAR MAX-PLUS

I adalah himpunan kotak terbatas dan tertutup yang berisi lebih dari satu

TEKNIK SAMPLING. Hazmira Yozza Izzati Rahmi HG Jurusan Matematika FMIPA Universitas Andalas

BAB 6 PRINSIP INKLUSI DAN EKSKLUSI

b) Untuk data berfrekuensi fixi Data (Xi)

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Statistika Deskriptif dan Statistika Inferensial. 1.2 Populasi dan Sampel

BAB 2 LANDASAN TEORI. Analisis regresi adalah suatu proses memperkirakan secara sistematis tentang apa yang paling

TUGAS MATA KULIAH TEORI RING LANJUT MODUL NOETHER

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PRAKTIKUM 20 Interpolasi Polinomial dan Lagrange

STATISTIKA: UKURAN PEMUSATAN. Tujuan Pembelajaran

II. LANDASAN TEORI. Pada bab II ini, akan dibahas pengertian-pengertian (definisi) dan teoremateorema

( ) ( ) ( ) ( ) ( ) III MODEL. , θ Ω. 1 Pendugaan parameter dengan metode maximum lkelihood estimation dapat diperoleh dari:

ANALISIS REGRESI. Model regresi linier sederhana merupakan sebuah model yang hanya terdiri dari satu peubah terikat dan satu peubah penjelas:

BAB II LANDASAN TEORI. Dalam pengambilan sampel dari suatu populasi, diperlukan suatu

PENDAHULUAN. Di dalam modul ini Anda akan mempelajari teori gangguan bebas waktu yang mencakup:

BAB 1 ERROR PERHITUNGAN NUMERIK

SUM BER BELA JAR Menerap kan aturan konsep statistika dalam pemecah an masalah INDIKATOR MATERI TUGAS

8. MENGANALISIS HASIL EVALUASI

IMPLEMENTASI DAN KOMPARASI ATURAN SEGIEMPAT UNTUK PENYELESAIAN INTEGRAL DENGAN BATAS MENGGUNAKAN MATLAB

3.1 Biaya Investasi Pipa

II. TINJAUAN PUSTAKA. Dalam proses penelitian untuk menganalisis aproksimasi fungsi dengan metode

MATEMATIKA INTEGRAL RIEMANN

WAKTU PERGANTIAN ALAT BERAT JENIS WHEEL LOADER DENGAN METODE LEAST COST

BAB 5. ANALISIS REGRESI DAN KORELASI

Bab II Teori Pendukung

STATISTIK. Ukuran Gejala Pusat Ukuran Letak Ukuran Simpangan, Dispersi dan Variasi Momen, Kemiringan, dan Kurtosis

PRAKTIKUM 7 Penyelesaian Persamaan Non Linier Metode Secant Dengan Modifikasi Tabel

PRAKTIKUM 5 Penyelesaian Persamaan Non Linier Metode Secant Dengan Modifikasi Tabel

Ruang Banach. Sumanang Muhtar Gozali UNIVERSITAS PENDIDIKAN INDONESIA

STATISTIKA A. Definisi Umum B. Tabel Distribusi Frekuensi

Regresi & Korelasi Linier Sederhana. Gagasan perhitungan ditetapkan oleh Sir Francis Galton ( )

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

* MEMBUAT DAFTAR DISTRIBUSI FREKUENSI MENGGUNAKAN ATURAN STURGES

SIFAT-SIFAT LANJUT FUNGSI TERBATAS

BAB III UKURAN PEMUSATAN DATA

Pada saat upacara bendera, kita sering memperhatikan teman-teman kita.

MASALAH NORM MINIMUM PADA RUANG HILBERT DAN APLIKASINYA

BAB II LANDASAN TEORI

Notasi Sigma. Fadjar Shadiq, M.App.Sc &

11/10/2010 REGRESI LINEAR SEDERHANA DAN KORELASI TUJUAN

BAB III INTEGRAL RIEMANN-STIELTJES. satu pendekatan untuk membentuk proses titik. Berkaitan dengan masalah

TAKSIRAN UMUR SISTEM DENGAN UMUR KOMPONEN BERDISTRIBUSI SERAGAM. Sudarno Jurusan Matematika FMIPA UNDIP

I PENDAHULUAN II LANDASAN TEORI

XI. ANALISIS REGRESI KORELASI

Ukuran Pemusatan Data. Arum Handini P., M.Sc Ayundyah K., M.Si.

Integrasi 1. Metode Integral Reimann Metode Integral Trapezoida Metode Integral Simpson. Integrasi 1

PENAKSIR RASIO YANG EFISIEN UNTUK RATA-RATA POPULASI DENGAN MENGGUNAKAN DUA VARIABEL TAMBAHAN

II. TINJAUAN PUSTAKA. variabel. Dalam regresi sederhana dikaji dua variabel, sedangkan dalam regresi

UKURAN GEJALA PUSAT (UGP)

BAB III ISI. x 2. 2πσ

; θ ) dengan parameter θ,

Penelitian Operasional II Teori Permainan TEORI PERMAINAN

III PEMBAHASAN. Karena vektor-vektor kolom X adalah bebas linear, maka L(ε) mempunyai n vektor eigen yang bebas linear. (Terbukti)

3 Departemen Statistika FMIPA IPB

BAB 2 LANDASAN TEORI. yang akan terjadi pada masa yang akan datang dengan waktu yang relative lama.

Uji Statistika yangb digunakan dikaitan dengan jenis data

Regresi & Korelasi Linier Sederhana

SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN MAKALAH SEMINAR TERBAIK

Penarikan Contoh Acak Sederhana (Simple Random Sampling)

TATAP MUKA III UKURAN PEMUSATAN DATA (MEAN, MEDIAN DAN MODUS) Fitri Yulianti, SP. Msi.

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. melakukan smash sebelum dan sesudah latihan power otot lengan adalah sebagai

TAKSIRAN PARAMETER DISTRIBUSI WEIBULL DENGAN MENGGUNAKAN METODE MOMEN DAN METODE KUADRAT TERKECIL

BAB II LANDASAN TEORI. merepresentasikan dan menjelaskan permasalahan pada dunia nyata ke dalam. pernyataan matematis (Widowati & Sutimin, 2007 : 1).

III BAHAN/OBJEK DAN METODE PENELITIAN. Objek yang digunakan dalam penelitian ini adalah 50 ekor sapi Pasundan

PEDOMAN STATISTIK UJI PROFISIENSI

BAB III MENYELESAIKAN MASALAH REGRESI INVERS DENGAN METODE GRAYBILL. Masalah regresi invers dengan bentuk linear dapat dijumpai dalam

Pendahuluan. Relasi Antar Variabel. Relasi Antar Variabel. Relasi Antar Variabel 4/6/2015. Oleh : Fauzan Amin

REGRESI LINIER SEDERHANA

Estimasi Densitas Mulus dengan Metode Wavelet. (Wavelet Method in Smooth Density Estimation)

LANGKAH-LANGKAH UJI HIPOTESIS DENGAN 2 (Untuk Data Nominal)

KODE SIKLIK (CYCLIC CODES)

Implementasi Sistem Temu Kembali Citra Berdasarkan Histogram Parameter Fraktal

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 2, Tahun 2015, Halaman Online di:

REGRESI & KORELASI LINIER SEDERHANA

PEMANFAATAN LAYANAN REFERENSI DI UPT PERPUSTAKAAN UNIVERSITAS UDAYANA

Transkripsi:

Algortma Umum Pecara Iformas Dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume Hedra Buyam Jurusa Tekk Iformatka Fakultas Tekolog Iformas Uverstas Krste Maraatha Jl. Prof. drg. Sura Sumatr No. 65, Badug 4064 E-mal: hedra.buyam@eg.maraatha.edu Abstract Iformato retreval (IR) system s a system, whch s used to search ad retreve formato relevat to the users eeds. IR system retreves ad dsplays documets that are relevat to the users put (query). The formato retreval system has several steps ad must execute the steps order to obta query results. The steps cosst of two processes. The frst oe s processg query ad the secod oe s processg the documet collecto. Processg query cludes: coduct text operato, query formulato, ad make terms dex for query. Processg the documet collecto cludes: coduct text operato, dexg, ad make collecto dex for documet collecto. Obtag terms dex ad collecto dex, we are able to process terms dex ad collecto dex to obta rakg results. To obta rakg results requres kowledge from basc lear algebra. Ths paper also explores how to make rakg from the most relevat documets to the most rrelevat documets Keywords: formato retreval system, o-terpolated average precso. Pedahulua Iformato retreval (IR) system dguaka utuk meemuka kembal (retreve) formas-formas yag releva terhadap kebutuha peggua dar suatu kumpula formas secara otomats. Query Iformato Retreval System Koleks Dokume. Dokume. Dokume. Dokume Hasl Pecara Gambar 0 Ilustras formato retreval system 85

Jural Iformatka UKM, Vol. I, No., Desember 005: 85-9 Salah satu aplkas umum dar IR system adalah search ege atau mes pecara yag terdapat pada jarga teret. Peggua dapat mecar halama-halama web yag dbutuhkaya melalu search ege. Cotoh la dar IR system adalah sstem formas perpustakaa. IR system terutama berhubuga dega pecara formas yag sya tdak memlk struktur. Ekspres kebutuha peggua yag dsebut query, juga tdak memlk struktur. Hal yag membedaka IR system dega sstem bass data. Dokume adalah cotoh formas yag tdak terstruktur. Is dar suatu dokume sagat tergatug pada pembuat dokume tersebut. Sebaga suatu sstem, IR system memlk beberapa baga yag membagu sstem secara keseluruha. Baga-baga yag terdapat pada IR system dgambarka pada Gambar Documet Collecto Query Text Operatos Query formulato. Dokume. Dokume. Dokume.. Text Operatos Idexg Terms Idex Rakg Collecto Idex Gambar Baga-baga formato retreval system Gambar memperlhatka bahwa terdapat dua buah alur operas pada IR system. Alur pertama dmula dar koleks dokume da alur kedua dmula dar query peggua. Alur pertama yatu pemrosesa terhadap koleks dokume mejad bass data deks tdak tergatug pada alur kedua. Sedagka alur kedua tergatug dar keberadaa bass data deks yag dhaslka pada alur pertama. 86

Algortma Umum Pecara Iformas dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume (Hedra Buyam) Baga-baga dar IR system meurut gambar melput:. Text Operatos (operas terhadap teks) yag melput pemlha kata-kata dalam query maupu dokume (term selecto) dalam petrasformasa dokume atau query mejad term dex (deks dar kata-kata).. Query formulato (formulas terhadap query) yatu member bobot pada deks katakata query.. Rakg (peragkga), mecar dokume-dokume yag releva terhadap query da megurutka dokume tersebut berdasarka kesesuaaya dega query. 4. Idexg (pegdeksa), membagu bass data deks dar koleks dokume. Dlakuka terlebh dahulu sebelum pecara dokume dlakuka. IR system meerma query dar peggua, kemuda melakuka peragkga terhadap dokume pada koleks berdasarka kesesuaaya dega query. Hasl peragkga yag dberka kepada peggua merupaka dokume yag meurut sstem releva dega query. Namu relevas dokume terhadap suatu query merupaka pelaa peggua yag subjektf da dpegaruh bayak faktor sepert topk, pewaktua, sumber formas maupu tujua peggua. Model IR system meetuka detl IR system yatu melput represetas dokume maupu query, fugs pecara (retreval fucto) da otas kesesuaa (relevace otato) dokume terhadap query. Terdapat beberapa model IR system sepert model boolea da model ruag vektor. Dalam tulsa, model ruag vektor dplh karea model ruag vektor mampu meghaslka dokume-dokume terurut berdasarka kesesuaa dega query. Da juga query d dalam model ruag vektor dapat berupa sekumpula kata-kata dar peggua dalam ekspres bebas.. Model Ruag Vektor Msalka terdapat sejumlah kata yag berbeda sebaga kamus kata (vocabulary) atau deks kata (terms dex). Kata-kata aka membetuk ruag vektor yag memlk dmes sebesar. Setap kata dalam dokume atau query dberka bobot sebesar w. Bak dokume maupu query drepresetaska sebaga vektor berdmes. Sebaga cotoh terdapat buah kata ( T, da T ), buah dokume ( da ) serta T D D sebuah query Q. Masg-masg berla: D = T + T + 5T ; D = T + 7T + 0T ; Q = 0T + 0T + T Maka represetas grafs dar ketga vektor adalah sepert pada gambar Koleks dokume drepresetas pula dalam ruag vektor sebaga matrks kata-dokume (terms-documets matrx). Nla dar eleme matrks adalah bobot kata dalam dokume j. w j 87

Jural Iformatka UKM, Vol. I, No., Desember 005: 85-9 T 5 D + T = T + T 5 Q = 0T + T + 0T T D T + T = T + 7 T 7 Gambar Cotoh vektor-vektor D, D, D da Q Msalka terdapat sekumpula kata T sejumlah m, yatu T = T, T, Κ, T ) da ( m D w j sekumpula dokume D sejumlah, yatu D = ( D, D, Κ, ) serta adalah bobot kata pada dokume j. Maka gambar 4 adalah represetas matrks kata-dokume T T Μ Tm D w w Μ wm D w w Μ wm Μ D w w Μ wm Gambar Represetas matrks kata-dokume Peetua relevas dokume dega query dpadag sebaga pegukura kesamaa (smlarty measure) atara vektor dokume dega vektor query. Semak sama suatu 88

Algortma Umum Pecara Iformas dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume (Hedra Buyam) vektor dokume dega vektor query maka dokume dapat dpadag semak releva dega query. Salah satu pegukura kesesuaa yag bak adalah dega memperhatka perbedaa arah (drecto dfferece) dar kedua vektor tersebut. Perbedaa arah kedua vektor dalam geometr dapat daggap sebaga sudut yag terbetuk oleh kedua vektor. Gambar 5 meglustraska kesamaa atara dokume D da D dega query Q. Sudut θ meggambarka kesamaa dokume D dega query sedagka sudut θ meggambarka kesamaa dokume dega query. D T D θ Q θ T D T Gambar 5 Represetas grafs sudut vektor dokume da query Jka Q adalah vektor query da D adalah vektor dokume, yag merupaka dua buah vektor dalam ruag berdmes-, da θ adalah sudut yag dbetuk oleh kedua vektor tersebut. Maka Q D = Q D cosθ...() dega Q D adalah hasl perkala ttk (dot product) kedua vektor, sedagka D = Q = D = da Q =...() merupaka orm atau pajag vektor d dalam ruag berdmes-. Perhtuga kesamaa (Smlarty) kedua vektor adalah sebaga berkut 89

Jural Iformatka UKM, Vol. I, No., Desember 005: 85-9 Q D Sm( Q, D) = cos( Q, D) = = Q D...() Q D Q D D D dega Q adalah perkala atara Q da. Metode pegukura kesesuaa memlk beberapa keutuga, yatu adaya ormalsas terhadap pajag dokume. Hal memperkecl pegaruh pajag dokume. Pajag kedua vektor dguaka sebaga faktor ormalsas. Hal dperluka karea dokume yag pajag cederug medapatka la yag besar dbadgka dega dokume yag lebh pedek. Proses peragkga dar dokume dapat daggap sebaga proses pemlha (vektor) dokume yag dekat dega (vektor) query, kedekata ddkaska dega sudut yag dbetuk. Nla cosus yag cederug besar megdkaska bahwa dokume cederug sesua query. Nla cosus sama dega megdkaska bahwa dokume sesua dega query. =. Pembobota Kata Baga sebelumya membahas megea metode pegukura kesesuaa atara dokume da query dalam model ruag vektor. Dokume maupu query drepresetaska sebaga vektor berdmes-. Baga aka membahas megea la dar vektor atau bobot kata dalam dokume. Salah satu cara utuk member bobot terhadap suatu kata adalah memberka la jumlah kemucula suatu kata (term frequecy) sebaga bobot. Semak besar kemucula suatu kata dalam dokume aka memberka la kesesuaa yag semak besar. Faktor la yag dperhatka dalam pembera bobot adalah kejaragmucula kata (term scarcty) dalam koleks. Kata yag mucul pada sedkt dokume harus dpadag sebaga kata yag lebh petg (ucommo terms) darpada kata yag mucul pada bayak dokume. Pembobota aka memperhtugka faktor kebalka frekues dokume yag megadug suatu kata (verse documet frequecy). Hal merupaka usula dar George Zpf. Zpf megamat bahwa frekues dar sesuatu cederug kebalka secara proporsoal dega urutaya. Faktor terakhrya adalah faktor ormalsas terhadap pajag dokume. Dokume dalam koleks dokume memlk karakterstk pajag yag beragam. Ketmpaga terjad karea dokume yag pajag aka cederug mempuya frekues kemucula kata yag besar. Sehgga utuk megurag ketmpaga tersebut dperluka faktor ormalsas dalam pembobota. Perbedaa atara ormalsas pada pembobota da peragkga adalah ormalsas pada pembobota dlakuka terhadap suatu kata dalam suatu dokume sedagka pada peragkga dlakuka terhadap suatu dokume dalam koleks dokume. Pembobota yag daggap palg bak adalah megguaka persamaa log( tf = ) +.0 w...(4) t [log( tf j ) +.0] j= 90

Algortma Umum Pecara Iformas dalam Sstem Temu Kembal Iformas Berbass Metode Vektorsas Kata da Dokume (Hedra Buyam) utuk pembobota kata ( w ) pada dokume da megguaka persamaa (log( tf ) +.0) + log( N ) q =...(5) t [(log( tf j ) +.0) (log( N ))] j j= q utuk pembobota kata ( ) pada query. Dega tf adalah frekues kemucula kata, bayak dokume yag megadug kata da N jumlah dokume dalam koleks. 4. Kesmpula Peggua megguaka IR system sebaga alat batu utuk dapat mecar dokume yag sesua dega query peggua. D dalam IR system, terdapat beberapa proses yag harus dlakuka sehgga IR system dapat meamplka daftar rakg dokume dar dokume yag palg releva dega query sampa dega dokume yag tdak releva dega query. Model IR system yag dguaka dalam tulsa adalah model ruag vektor. D dalam model ruag vektor, query da dokume drepresetaska sebaga vektor-vektor. Kesesuaa vektor query dega vektor-vektor dokume dhtug dega megguaka aljabar ler sederhaa. Daftar Pustaka [Jac90] Jacob, Bll (990), Lear Algebra, W.H. Freema ad Compay. [Kar98] [Ld0] [Rj79] [Set0] Karlgre, Juss (998), The Bascs of Iformato Retreval. URL: http://cteseer.j.ec.com/4685.html Lddy, Elzabeth (00), How a search ege works URL: http://www.fotoday.com/searcher/may0/lddy.htm Rjsberge, C.J. va (979), Iformato Retreval, Butterworths, Lodo. Setawa, Hedra (00), Umpa Balk Relevas pada Sstem Temu Kembal Iformas, Tugas Akhr Departeme Tekk Iformatka ITB. 9