Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

dokumen-dokumen yang mirip
PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB III METODE PENELITIAN

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

ANALISIS KOMBINASI ALGORITMA WEIGHTED TREE SIMILARITY DENGAN TANIMOTO COSINE (TC) UNTUK PENCARIAN SEMANTIK PADA PORTAL JURNAL

SISTEM PEMBANGKIT ANOTASI PADA ARTIKEL BERGAMBAR DENGAN PENDEKATAN KONTEKSTUAL

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-quran

BAB 1 PENDAHULUAN UKDW

DAFTAR ISI. SKRIPSI... ii

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN 1.1 Latar Belakang

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Deteksi Kemiripan Identitas...

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II TINJAUAN PUSTAKA

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

PENERAPAN ALGORITMA WEIGHTED TREE SIMILARITY UNTUK PENCARIAN SEMANTIK

PENERAPAN ALGORITMA WEIGHTED TREE SIMILARITY UNTUK PENCARIAN SEMANTIK

Pemodelan Pengukuran Tingkat Kematangan Kerangka Kerja COBIT Menggunakan Ontology

BAB II LANDASAN TEORI

PEMBOBOTAN DINAMIS BERBASIS INFORMATION GAIN PADA TEMU KEMBALI INFORMASI

BAB 1 PENDAHULUAN UKDW

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Information Retrieval

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Pembimbing 1 : Diana Purwitasari, S.Kom, M.Sc. Pembimbing 2 : Umi Laily Yuhana, S.Kom, M.Sc.

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

1. Introduction. tertentu memegang peran penting dalam. Abstract

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB IV EKSPERIMEN. 4.1 Tujuan

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

Jl. Prof. Dr. Soemantri Brodjonegoro No. 1 Bandar Lampung Surel: ABSTRACT

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

PENDAHULUAN. Latar belakang

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB III METODOLOGI PENELITIAN. Dataset

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB III METODOLOGI PENELITIAN

Implementasi Generalized Vector Space Model Menggunakan WordNet

BAB 2 TINJAUAN PUSTAKA

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB II TINJAUAN PUSTAKA

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

BAB III METODELOGI PENELITIAN

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB I PENDAHULUAN Latar Belakang Masalah

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN I-1

TEMU KEMBALI INFORMASI

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB III METODOLOGI PENELITIAN

Search Engines. Information Retrieval in Practice

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

Gambar 1.1 Tahapan Penelitian

TEMU KEMBALI CITRA DAN TEKS DENGAN PENCARIAN TEKSTUAL BERBASIS INFORMATION GAIN, LATENT SEMANTIC ANALYSIS DAN WEIGHTED TREE SIMILARITY

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 1 PENDAHULUAN. Universitas Indonesia. Perbandingan metode..., Heninggar Septiantri, FASILKOM UI, 2009

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Temu Kembali Citra Makanan Menggunakan Representasi Multi Texton Histogram

PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

Transkripsi:

Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili Yuhana, S.Kom, M.Sc

Latar Belakang Butuh sistem pencarian dengan hasil yang cepat dan relevan Perpustakaan digital tumbuh pesat baik dari sisi jumlah maupun kekayaan kontennya Kebanyakan sistem pencarian yang ada kurang memadai dari sisi relevansi hasil pencarian 2/3/2012 2

Full Text Search Cara: mencari kata kunci pengguna (query) di keseluruhan isi dokumen + Umum digunakan + Antarmuka sederhana - Hasil pencarian sangat banyak - Seringkali tidak relevan dengan yang diinginkan pengguna - Kelemahan linguistik: tidak bisa membedakan relasi antar kata (misalnya sinonim, hipernim, hiponim) 2/3/2012 3

Metadata-Enabled Search Cara: Menelusuri query pada metadata dokumen + dapat berfungsi sebagai katalog dokumen - Semua metadata diberi tingkat prioritas/bobot yang sama - Kelemahan linguistik - Antarmuka kompleks 2/3/2012 4

Solusi Metadata Metadata Metadata Metadata Weighted Tree Similarity LSA (Latent Semantic Analysis) Cosine Measure Similarity 2/3/2012

R e l a t e d W o r k s Setyawan, S. H. (2004) Algoritma Weighted-Tree Similarity ditambah algoritma Fuzzy Logic untuk meningkatkan relevansi pencarian Yuniar E. (2010) Menggabungkan LSA dan Wordnet untuk mendapatkan topik yang dibahas pada suatu artikel dalam e-learning yang dipakai sebagai rekomendasi anotasi Rakhmawati V. (2009) Menggabungkan algoritma weighted tree similarity dengan Wordnet. Dibatasi pada koleksi yang berbahasa Inggris Weighted Menggabungkan tree similarity + weighted Fuzzy Logic tree similarity dengan LSA untuk pencarian berbasis semantik yang independen terhadap bahasa landscape reading, interpreting, LSA + Wordnet and representing Weighted tree similarity + Wordnet

Permasalahan 1. Bagaimana mengolah daftar isi dalam database buku melalui pra pemrosesan teks dan proses LSA agar menghasilkan nilai document scores yang menjadi nilai kemiripan lokal dari cabang keyword dalam weighted tree? 2. Bagaimana menerapkan cosine measure similarity sebagai dasar penentuan kemiripan lokal pada cabang judul, penerbit dan pengarang dalam weighted tree? 3. Bagaimana menghitung nilai kemiripan antara weighted tree yang dibangun dari query user terhadap weighted tree buku dalam database? 2/3/2012 7

Batasan Masalah 1. Dataset yang digunakan untuk ujicoba adalah data buku di perpustakaan PENS 2. Data buku yang digunakan adalah data buku yang berbahasa Indonesia 3. Hubungan semantik yang dijadikan dasar penentuan kesamaan konteks adalah sinonim 4. Fase persiapan dilakukan sebelum fase matching, dan diulang setiap kali ada update database. 5. Tidak membahas data query yang bersifat numerik 6. Tidak memperhatikan pengetahuan yang terkandung dalam struktur daftar isi 2/3/2012 8

Hipotesa W-Tree + LSA memberikan keluaran yang lebih relevan dibandingkan W-Tree

Manfaat dan Kontribusi Membuat sistem pencarian buku yang memiliki relevansi secara semantik dan independen terhadap bahasa. Berkontribusi dalam pembentukan model pencarian menggunakan algoritma weighted tree similarity yang dikombinasikan dengan metode LSA. 2/3/2012 10

Dasar Teori

What is LSA Latent Semantic Analysis? LSA adalah teknik matematika/teknik statistik untuk mengekstraksi dan menyimpulkan hubungan penggunaan kontekstual yang diharapkan dari kata-kata k t yang menjadi bagian dari wacana (Landauer, Foltz & Laham, 1998). Digunakan dalam author recognition, search engines, detecting plagiarism, dan membandingkan kemiripan teks (Sudarsun,2008) Sebuah konteks di mana suatu kata eksis atau tid k k t k k i i d k tidak akan menentukan kemiripan dokumen Independen terhadap bahasa

Weighted Tree (Solihin, 2006) Tree merupakan struktur data yang umum digunakan sebagai representasi informasi. Struktur Weighted Tree memperkenalkan konsep node berlabel, arc berlabel, dan arc berbobot yang merepresentasikan relasi parent-child dari suatu atribut produk/jasa. Informasi semantik dikandungd tidak hanya pada label node tetapi juga pada label arc. Sedangkan bobot arc merepresentasikan tingkat kepentingan (importance) dari suatu arc (atribut produk/jasa). 2/3/2012 13

Evaluasi Performa Recall dan Precision Precision = tp/(tp+fp) p(p p) --> rasio dari pattern yang di-klasifikasikan sebagai positive dengan benar dari semua pattern yang diklasifikasikan sebagai positive. Recall = tp/(tp+fn) --> rasio dari pattern yang diklasifikasikan sebagai positive dengan benar dari semua pattern yang seharusnya diklasifikasikan sebagai positive

Evaluasi Performa Receiver Operating Characteristic ti (ROC) merupakan kurva yang memetakan laju True Positive (tp) / diterima relevan terhadap laju False Positive (fp) / diterima tidak relevan. Kurva ROC mem-plot true positive rate vs false positive rate. true positive rate = recall false positive rate = fp/(fp+tn) --> rasio dari pattern yang diklasifikasikan sebagai positive dengan salah dari semua pattern yang seharusnya diklasifikasikan secara negative.

Metodologi

Gambaran Umum Sistem Metadata Metadata keyword Daftar Isi SISTEM Urutan judul buku beserta nilai similarity 2/3/2012

Terdapat 2 fase: Fase Persiapan Fase Matching Metodologi Gambar Diagram Konteks Sistem 2/3/2012 18

Fase Persiapan Gambar Diagram alir fase Persiapan GambarFase Persiapan 2/3/2012 19

Fase Matching 20

Keluaran Sistem Keluaran berupa nilai similarity judul buku Nilai/score tertinggi memiliki relevansi terbesar terhadap query user. 2/3/2012

Implementasi

Dataset Sumber Digilib EEPIS : www.mis.eepis its.edu Kategori Buku Tk Teks D4 Subyek Bahasa Jumlah Komputer Bahasa Indonesia 164 judul

Uji Coba

Klik 2x

Tree buku vs Tree Query 1 Tree Buku 0.01 0.35 Buku Pintar Linux Database Server PostgreSQL 0.01 0.02 0.6 0.01 Richardus Eko Indrajit daftar isi Elex Media Komputindo 2002 Tabel Nilai bobot Cabang Tree Cabang Nilai Bobot Judul 0.35 Pengarang g 0.02 Penerbit 0.01 Tahun 0.01 Edisi 0.01 Keyword 0.6 vs Tree Query User 0.1 0.1 0.1 0.1 0.1 0.5 2/3/2012 27 PostgreSQL

Kemiripan Lokal : Kemiripan Lokal : cosine measure similarity string matching JUDUL TAHUN PENGARANG EDISI PENERBIT

Kemiripan lokal : LSA KEYWORD

W-Tree vs W-Tree+LSA W-Tree +LSA W-Tree

Analisis Dengan W-Tree +LSA: Keluaran yang direkomendasikan adalah buku-buku yang memiliki kemiripan/relevansi i i dengan keyword yang dijadikan query, yaitu : PostgreSQL Metadata yang lain, seperti judul, pengarang, dll juga memberikan kontribusi pada judul-judul buku yang direkomendasikan Dengan W-Tree tanpa LSA: Keluaran yang direkomendasikan adalah buku-buku sesuai dengan query pada seluruh metadata : judul, penerbit, pengarang, dll. Sebagian besar hasil pencarian, tidak relevan dengan query keyword yang dimasukkan

Pembuktian Hipotesa

Pembuktian Hipotesa Gambar Diagram alir pembuktian hipotesa

1. Penentuan Keyword

2. Proses Training Tabel Score similarity W-Tree W W-Tree + LSA

Kurva ROC threshold/cut off W-Tree tanpa LSA : threshold = 0.11 W-Tree + LSA : threshold = 0.12

3. Proses Testing Didasarkan pada nilai threshold dari masing-masing g query Dilakukan pada kedua sistem yang dibandingkan. Keluaran dari proses ini sama dengan proses training, namun keluaran hanya koleksi yang memiliki score > = threshold

4. Performa Query Koleksi relevan R Total A Hasil Pencarian Performa W-Tree Rl Relevan tak Precision i Recall F-score Ra relevan Ra / A Ra / R 2/(1/R + 1/P) Q1 7 49 3 46 0.061224 0.4286 0.10714286 Q2 7 49 3 46 0.061224 0.4286 0.10714286 Q3 8 14 1 13 0.071429 0.125 0.09090909 Q4 3 50 2 48 0.04 0.6667 0.0754717 7 7 Q5 7 50 2 48 0.04 0.2857 0.07017544 W-Tree + LSA Query Rata-rata 0.054776 0.3869 0.09016839 Koleksi Hasil Pencarian Performa relevan R Total A Relevan Ra tak relevan Precision Ra / A Recall Ra / R W-Tree F-score 2/(1/R + 1/P) Q1 7 61 6 55 0.098361 0.8571 0.17647 Q2 7 57 7 50 0.122807 1 0.21875 Q3 8 40 2 38 0.05 0.25 0.08333 Q4 3 27 2 25 0.074074074074 0.6667 0.13333 Q5 7 78 3 75 0.038462 0.4286 0.07059 Rata-rata 0.076741 0.6405 0.1365

Rangkumannya Pencarian Precision Recall F-score W-Tree 0.05477551 0.38690476 0.09016839 Nilai tertinggi W-Tree + LSA 0.076740657076740657 0.64047619 0.1364951

Kesimpulan dan Saran

Kesimpulan Nilai doc scores hasil proses LSA, tidak hanya dipengaruhi oleh nilai query vectors, namun juga oleh term vector yang nilainya tertinggi. Hal ini mengakibatkan tingkat relevansi dengan query menurun. Sistem pencarian dengan penggabungan W-Tree + LSA memberikan hasil dengan relevansi terhadap query LEBIH TINGGI dibandingkan sistem pencarian dengan algoritma W-Tree+Wordnet dalam menangani dokumen bahasa Indonesia W-Tree + LSA mengakomodasi kelebihan LSA dalam memproses keyword ditambah dengan kelebihan algoritma W-Tree dalam mengakomodasi metadata beserta bobot yang dijadikan sebagai query user.

Saran Untuk mendapatkan keluaran yang lebih valid dan akurasi lebih tinggi : 1. Perlu dibuat standarisasi dalam penulisan daftar isi buku. 2. Model yang direkomendasikan bisa menggunakan LSA dengan masukan berupa daftar indeks buku atau berupa buku secara keseluruhan (e-books).dengan g demikian nilai term document matrix benar-benar mewakili term yang muncul dalam buku tersebut.

Alhamdulillahi robbil alamin