RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto
|
|
|
- Suharto Tedja
- 8 tahun lalu
- Tontonan:
Transkripsi
1 Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights. Memahami model Extended Boolean untuk IR. Memahami language model dengan metode query likelihood untuk IR. 1
2 Text & Web Mining - Budi Susanto - TI UKDW 3 Diskusi Latihan Terdapat 3 dokumen D1 = Manajemen Sistem Informasi D2 = Sistem Sumber Daya Manusia D3 = Manajemen Informasi Penggajian Q = informasi daya manusia Hitunglah rangking dari semua dokumen terhadap query dengan pendekatan vector space model! Text & Web Mining - Budi Susanto - TI UKDW 4 Contoh VSM Matrik Term Frekuensi Manajemen Sistem Informasi Sumber Daya Manusia Penggajian d d d Q Manajemen Sistem Informasi Sumber Daya Manusia Penggajian d d d Q =1/1*idf =1/1*idf =1/1*idf 2
3 Text & Web Mining - Budi Susanto - TI UKDW 5 Contoh VSM Length of Document + Query D1 = sqrt(3*(0.18^2)) = D2 = sqrt(0.18^2 + 3*(0.48^2)) = D3 = sqrt(2*(0.18^2) ^2) = Q = qrt(0.18^2 + 2*(0.48^2)) = Kemiripan D dengan Q cossim(d1, Q) = ( * )/( * ) cossim(d2, Q) = ( * * )/ ( * ) cossim(d3, Q) = ( * )/(0.5382* ) Sehingga urutan ranking: D2, D1, D3 Text & Web Mining - Budi Susanto - TI UKDW 6 1. Probabilistic Retrieval Model probabilitas menghitung koefisien kemiripan antara sebuah query dan dokumen sebagai sebuah probabilitas bahwa dokumen tersebut akan relevan dengan query. Semua penelitian terhadap probabilitic retrieval berakar pada konsep perkiraan bobot term berdasar seberapa sering term muncul atau tidak dalam dokumen relevan dan non-relevan. 3
4 Text & Web Mining - Budi Susanto - TI UKDW 7 Simple Term Weights Term dalam query dapat dilihat sebagai indikator bahwa dokumen relevan. Sehingga ada atau tidaknya term query dapat digunakan untuk memprediksi apakah dokumen relevan atau tidak. Operasi dot product semua bobot dapat digunakan untuk menghitung probabilitas relevansi. Sebagian besar model probabilitic mengasumsikan independensi tiap term. Karena untuk memperhatikan dependensi tiap term membutuhkan komputasi lebih mahal dan membutuhkan adanya pelatihan ke sistem. Text & Web Mining - Budi Susanto - TI UKDW 8 Simple Term Weights q = { t 1, t 2 } Dokumen Terambil t 1 t 1 t 2 t 1 t 2 t 2 P(t 1 Di relevan) = ½ P(t 1 Di non relevan) = 2/3 P(t 2 Di relevan) = 1 P(t 2 Di non relevan ) = 1/3 4
5 Text & Web Mining - Budi Susanto - TI UKDW 9 Simple Term Weights Metode Robertson dan Sparck Jones (1976) menyediakan mekanisme perhitungan probabilitas relevan dan tidak relevan untuk sebuah term. Definisi asumsi mutually exclusive independence: I1 = distribusi term dalam dokumen relevan adalah independen dan distribusi term dalam seluruh dokumen juga independen I2 = distribusi term dalam dokumen relevan adalah independen dan distribusi term dalam dokumen non-relevan juga independen. Definisi dua metode untuk presentasi hasil: O1 = kemungkinan relevan didasarkan hanya pada kemunculan term yang dicari dalam dokumen O2 = kemungkinan relevan didasarkan baik pada kemunculan atau ketidakmunculan term yang dicari dalam dokumen Text & Web Mining - Budi Susanto - TI UKDW 10 Simple Term Weights Empat bobot diturunkan dari kombinasi prinsip rankings dan asumsi independensi 5
6 Text & Web Mining - Budi Susanto - TI UKDW 11 Simple Term Weights N = jumlah dokumen dalam koleksi R = jumlah dokumen relevan untuk query q n = jumlah dokumen yang mengandung term t r = jumlah dokumen relevan yang memiliki term t Text & Web Mining - Budi Susanto - TI UKDW 12 Simple Term Weights O1 O2 I1 w 1 w 3 I2 w 2 w 4 W 4 merupakan hasil terbaik W 3 dan w 4 adalah hasil lebih baik dari pada w 1 dan w 2. 6
7 Text & Web Mining - Budi Susanto - TI UKDW 13 Simple Term Weights Jika dalam suatu perhitungan bobot diketahui adanya inifiniti, maka perhitungan keempat bobot dapat diubah menjadi:! # w 1 = log# # "#! # w 2 = log# # "# (r + 0.5) (R +1) (n +1) (N + 2) $ & & & %& (r + 0.5) (R +1) (n r + 0.5) (N R +1) $ & & & %& " (r + 0.5) % $ (R r + 0.5) ' w 3 = log$ ' $ (n +1) ' # $ (N n +1) &' " (r + 0.5) % $ (R r + 0.5) ' w 4 = log$ ' $ (n r + 0.5) ' # $ (N n (R r)+ 0.5) &' Text & Web Mining - Budi Susanto - TI UKDW 14 Contoh Q: gold silver truck D 1 = Shipment of gold damaged in a fire D 2 = Delivery of silver arrived in a silver truck D 3 = Shipment of gold arrived in a truck Oleh karena dalam model probabilistik diperlukan dokumen pelatihan, maka ketiga dokumen diasumsikan adalah dokumen pelatihan. D 1 dan D 2 adalah relevan terhadap query. 7
8 Text & Web Mining - Budi Susanto - TI UKDW 15 Simple Term Weights gold silver truck N n R r Text & Web Mining - Budi Susanto - TI UKDW 16 Simple Term Weights Hitunglah bobot tiap term dalam query untuk w 1, w 2, w 3, dan w 4. Secara ringkas dapat ditunjukkan pada tabel berikut: w 1 w 2 w 3 w 4 gold silver truck
9 Text & Web Mining - Budi Susanto - TI UKDW 17 Simple Term Weights Selanjutnya, hitung koefisien kemiripan dengan cara menjumlahkan bobot term query yang dimiliki masingmasing dokumen. w 1 w 2 w 3 w 4 D D D Rangking dokumen: D 2, D 3, D 1. Text & Web Mining - Budi Susanto - TI UKDW 18 Latihan Simple Term Weight Terdapat 3 dokumen D1 = Manajemen Sistem Informasi D2 = Sistem Sumber Daya Manusia D3 = Manajemen Informasi Penggajian Q = informasi daya manusia Tampilkan urutan dokumen yang ditampilkan dengan menggunakan strategi Simple Term Weight. 9
10 Text & Web Mining - Budi Susanto - TI UKDW Extended Boolean Ide dasar adalah memberikan bobot term untuk setiap term dalam query dan untuk tiap term dalam dokumen. Bobot-bobot term dikaitkan dengan perangkingan dokumen. Misal diberikan query (t 1 OR t 2 ) yang akan mengembalikan dokumen yang berisi t 1 dengan bobot w 1 dan t 2 dengan bobot w 2. Jika baik w 1 dan w 2 adalah 1, sebuah dokumen yang berisi kedua term tersebut diberikan kemungkinan ranking paling tinggi. Dengan menggunakan Eucledian distance, dari titik (w 1, w 2 ) dari titik asal, kita dapat mendapatkan koefisien kemiripan. Text & Web Mining - Budi Susanto - TI UKDW 20 Extended Boolean 2 dimensi Untuk sebuah dokumen berisi term t 1 dan t 2 dengan bobot w 1 dan w 2, maka koefisien kemiripan dapat dihitung sebagai: sc(q, d i ) = (w 1 ) 2 + (w 2 ) 2 Nilai SC tertinggi adalah
11 Text & Web Mining - Budi Susanto - TI UKDW 21 Extended Boolean 2 dimensi Jika t1 t2 dinormalisasikan: sc(q t1 t 2, d i ) = (w 1 )2 + (w 2 ) 2 2 Jika t1 t2 dinormalisasikan : sc(q t1 t 2, d i ) =1 (1 w 1) 2 + (1 w 2 ) 2 2 Text & Web Mining - Budi Susanto - TI UKDW 22 Extended Boolean p-norm Untuk sembarang term, m, kita mendapatkan ekspresi yang tergantung pada parameter-p. 11
12 Text & Web Mining - Budi Susanto - TI UKDW 23 Extended Boolean normalisasi TF-IDF Oleh karena nilai bobot term harus bernilai [0, 1], maka nilai bobot TF-IDF tiap term dalam dokumen harus dinormalisasikan. Dimana: tf max i,j = maksimum frekuensi term I dalam dokumen j idf max g = maksimum idf dari sebuah term dalam koleksi c Text & Web Mining - Budi Susanto - TI UKDW 24 Latihan #2 D 1 = Shipment of gold damaged in a fire D 2 = Delivery of silver arrived in a silver truck D 3 = Shipment of gold arrived in a truck Q 1 : gold OR silver OR truck Q 2 : gold AND silver AND truck Q 3 : gold OR silver AND truck 12
13 Text & Web Mining - Budi Susanto - TI UKDW Query Likelihood Language Model Statistical language model adalah sebuah mekanisme probabilistik untuk menghasilkan sebuah deretan teks. Language model untuk IR dimulai tahun 1998 oleh Ponte dan Croft. Idenya adalah dokumen dapat dirangking terhadap kemungkinan (likelihood) dari generating query. Koefisien kemiripan Q dan D i adalah: SC(Q, D i ) = P(Q M Di ) Dimana M Di adalah language model dalam dokumen D i. Text & Web Mining - Budi Susanto - TI UKDW 26 Language Model Generating sebuah query memerlukan sebuah model probabilistik untuk query. Ponte dan Croft menghitung probabilitas query sebagai product probabilitas baik terhadap adanya term dalam query atau tidak. SC(Q, D i ) = P(t j M Di ) (1 P(t j M Di )) t j Q t Q 13
14 Text & Web Mining - Budi Susanto - TI UKDW 27 Language Model Model p(t j M Di ) dapat diperkirakan dengan model: p(t j M Dj ) = p ml (t j M Di ) Dimana p ml (t j M Di ) adalah perkiraan maximum likelihood dari distribusi term, yang diberikan dengan: p ml (t j M Di ) = tf (t, D ) j i dl Di Dimana dl Di adalah panjang dokumen D i. Text & Web Mining - Budi Susanto - TI UKDW 28 Language Model Koleksi Dokumen D 1 M D1 P(Q M D1 ) D 2 M D2 P(Q M D2 ) Query (Q) D 3 M D3 P(Q M D3 ) Model Dokumen 14
15 Text & Web Mining - Budi Susanto - TI UKDW 29 Contoh Perkiraan Maximum Likelihood D 1 = Shipment of gold damaged in a fire D 2 = Delivery of silver arrived in a silver truck D 3 = Shipment of gold arrived in a truck Q 1 : gold silver truck P ml (silver M Di ) = tf (silver, D i ) dl Di = 0 Text & Web Mining - Budi Susanto - TI UKDW 30 Smoothing untuk ML Untuk menghindari masalah karena term query tidak ada dalam dokumen, perlu diterapkan smoothing. # % p(t M Di ) = $ % & dimana p avg (t) = d(t d ) p ml (t, d) (1 R(t,d )) p avg (t) R(t,d ) cft cs Jika tf(t,d)>0 Selain itu p ml (t M D )! 1.0 $! f $ R (t,d ) = # & # t & df t " f t % " f t % f t = p avg (t) dl d tf t,d 15
16 Text & Web Mining - Budi Susanto - TI UKDW 31 Contoh cs = 22 token Total jumlah token dalam tiap dokumen (dl d ) D1 = 7, D2 = 8, D3 = 7 Jumlah dokumen dari tiap term t, df t, adalah a arrived damaged delivery fire gold in of shipment silver truck df t Jumlah kemunculan token dalam koleksi, cf t : a arrived damaged delivery fire gold in of shipment silver truck cf t Text & Web Mining - Budi Susanto - TI UKDW 32 Contoh Jumlah kemunculan tiap term di tiap dokumen, tf t,d : a arrived damaged delivery fire gold in of shipment silver truck D D D
17 Text & Web Mining - Budi Susanto - TI UKDW 33 Contoh Pertama, kita hitung perkiraan maximum likelihood dari kemungkinan term t untuk dokumen d. P ml (t M d ) D1 D2 D3 a arrived damaged delivery fire gold in of shipment silver truck Text & Web Mining - Budi Susanto - TI UKDW 34 Contoh Kedua, kita hitung rata-rata kemungkinan term t dalam dokumen yang berisi term tersebut. a arrived damaged delivery fire gold P avg (t) in of shipment silver truck P avg (t)
18 Text & Web Mining - Budi Susanto - TI UKDW 35 Contoh Ketiga, kita hitung resiko sebuah term t dalam sebuah dokumen d. Sebelumnya kita hitung rata-rata kemunculan term dalam dokumen ( f ). f t a arrived Damaged delivery fire gold D D D f t In Of Shipment Silver truck D D D Text & Web Mining - Budi Susanto - TI UKDW 36 Contoh Nilai resiko tiap term di tiap dokumen ( R (t,d) ) R t,d D1 D2 D3 a arrived damaged delivery fire gold in of shipment silver truck
19 Text & Web Mining - Budi Susanto - TI UKDW 37 Contoh Keempat, kita hitung probabilitas bentuk query untuk sebuah model dokumen. p(t M d ) D1 D2 D3 A arrived damaged delivery fire gold in of shipment silver truck Text & Web Mining - Budi Susanto - TI UKDW 38 Contoh Kelima, kita hitung kemiripan Query dengan model dokumen. D 1 D 2 D 3 P(Q M d )
20 Text & Web Mining - Budi Susanto - TI UKDW 39 Latihan Query Likelihood Terdapat 3 dokumen D1 = Manajemen Sistem Informasi D2 = Sistem Sumber Daya Manusia D3 = Manajemen Informasi Penggajian Q = informasi daya manusia Tampilkan urutan dokumen yang ditampilkan dengan menggunakan strategi Query Likelihood. Text & Web Mining - Budi Susanto - TI UKDW 40 TERIMA KASIH Budi Susanto 20
Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.
Information Retrieval
Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?
VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga
KOM341 Temu Kembali Informasi
KOM341 Temu Kembali Informasi KULIAH #4 Pemodelan IR Boolean model Vector space model Proses Temu-Kembali 1 Konsep IR Pemodelan IR o Model IR didefinisikan sebagai empat komponen [D, F, Q, R(q, d j )]
TEMU KEMBALI INFORMASI
JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:
BAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
BAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK
F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah
1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari
KLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
KLASIFIKASI PADA TEXT MINING
Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision
PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor
Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
JULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi Proses Temu-Kembali KULIAH #4 Pemoelan IR Boolean moel Vector space moel Konsep IR Pemoelan IR Moel IR iefinisikan sebagai empat komponen [D, F, Q, R(q, )] Keterangan: D aalah
Sistem Temu-Kembali Informasi Perhitungan Kemiripan
Sistem Temu-Kembali Informasi Perhitungan Kemiripan (Pembobotan Term dan Penskoran dalam Model Ruang Vektor, Penskoran dalam Sistem Pencarian Lengkap) Husni Program Studi Teknik Informatika Universitas
MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA
MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email
Pemanfaatan Aljabar Vektor Pada Mesin Pencari
Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Sistem Temu Kembali Informasi/ Information Retrieval
Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector
APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA
APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas
PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
PENDAHULUAN. Latar belakang
Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.
Information Retrieval
Information Retrieval Selayang Pandang Husni.Trunojoyo.ac.id Bagian I Internet (Web) Mutakhir Apa itu Information Retrieval Representasi Teks dalam IR Model Temu-Kembali Boolean Model Ruang Vektor Retrieval
Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi
Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:
BAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : [email protected] Abstrak
BAB I PENDAHULUAN I.1. Latar Belakang Masalah
BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan
IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN
Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
SISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI
UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester
BAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Pengujian Kerelevanan Sistem Temu Kembali Informasi
Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam [email protected] Abstrak Sistem
BAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Sistem Temu Kembali Informasi Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
PENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
BAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Aplikasi Indonesian News Aggregator Berbasis Android yang Didukung oleh Sistem Perekomendasi
Aplikasi Indonesian News Aggregator Berbasis Android yang Didukung oleh Sistem Perekomendasi Nydia Valentina Wahono, Adi Wibowo, Rolly Intan Program Studi Teknik Informatika Fakultas Teknologi Industri
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Sumber informasi atau referensi sudah merupakan hal yang tidak asing lagi bagi seorang peneliti, terutamanya bagi para mahasiswa yang sedang melakukan penelitian untuk
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks
ROCCHIO CLASSIFICATION
DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi
SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL
Sistem Informasi Pengelolaan Arsip Statis... SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Silmi Kafatan, Djalal Er Riyanto,
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user
Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Information Retrieval Stefan Buttcher, (MIT 2010) Information Retrieval System atau Sistem Temu Balik Informasi merupakan bagian dari computer science tentang pengambilan informasi
Document Indexing dan Term Weighting. M. Ali Fauzi
Document Indexing dan Term Weighting M. Ali Fauzi Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan
BAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
commit to user BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek
PENDAHULUAN. Latar belakang
Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium
Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
BAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Data Mining Data mining adalah istilah yang digunakan untuk menemukan pengetahuan baru yang tersembunyi di dalam penyimpanan data yang berukuran besar. Data mining merupakan
ANALISIS CLUSTER PADA DOKUMEN TEKS
Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma
Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing
Wahib, Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing 83 Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Aminul Wahib 1, Pasnur 2, Putu Praba Santika
BAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem
BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,
5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: [email protected]
Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :
Analisis Perbandingan Metode Vector Space Model dan Weighted Tree Similarity dengan Cosine Similarity pada kasus Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas Viko Basmalah Wicaksono Jurusan
TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL
TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono 1, Fandy Setyo Utomo 2 1 Program Studi Teknik Informatika, STMIK AMIKOM Purwokerto E-mail
BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi
BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,
UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA
TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan
TEMU KEMBALI INFORMASI
JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 4 TOLERANCE RETRIEVAL Tugas Extended Boolean Pelajari Extended Boolean Mengapa dikembangkan model ini? Bagaimana prinsip dasar model ini? Bagaimana
PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Temu-Kembali Informasi 2017
Temu-Kembali Informasi 2017 07: Penskoran, Pembobotan Term & Model Ruang Vektor Husni [email protected] Modifikasi dari slide kuliah Stanford CS276 Rekap Kuliah Sebelumnya Statistika koleksi dan kosa
DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM
DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, [email protected]
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia [email protected] Suhatati Tjandra Sekolah Tinggi
BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca
BAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi
beberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
BAB III Landasan Teori
BAB III Landasan Teori 3.1 Sistem Rekomendasi Sistem rekomendasi merupakan suatu aplikasi untuk menyediakan dan merekomendasikan suatu item dalam membuat suatu keputusan yang diinginkan oleh pengguna (Ungkawa,
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad
1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan komputer di dalam lingkungan kehidupan masyarakat di seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad terakhir ini. Hal
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
JULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
