Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili Yuhana, S.Kom, M.Sc

Latar Belakang Butuh sistem pencarian dengan hasil yang cepat dan relevan Perpustakaan digital tumbuh pesat baik dari sisi jumlah maupun kekayaan kontennya Kebanyakan sistem pencarian yang ada kurang memadai dari sisi relevansi hasil pencarian 2/3/2012 2

Full Text Search Cara: mencari kata kunci pengguna (query) di keseluruhan isi dokumen + Umum digunakan + Antarmuka sederhana - Hasil pencarian sangat banyak - Seringkali tidak relevan dengan yang diinginkan pengguna - Kelemahan linguistik: tidak bisa membedakan relasi antar kata (misalnya sinonim, hipernim, hiponim) 2/3/2012 3

Metadata-Enabled Search Cara: Menelusuri query pada metadata dokumen + dapat berfungsi sebagai katalog dokumen - Semua metadata diberi tingkat prioritas/bobot yang sama - Kelemahan linguistik - Antarmuka kompleks 2/3/2012 4

Solusi Metadata Metadata Metadata Metadata Weighted Tree Similarity LSA (Latent Semantic Analysis) Cosine Measure Similarity 2/3/2012

R e l a t e d W o r k s Setyawan, S. H. (2004) Algoritma Weighted-Tree Similarity ditambah algoritma Fuzzy Logic untuk meningkatkan relevansi pencarian Yuniar E. (2010) Menggabungkan LSA dan Wordnet untuk mendapatkan topik yang dibahas pada suatu artikel dalam e-learning yang dipakai sebagai rekomendasi anotasi Rakhmawati V. (2009) Menggabungkan algoritma weighted tree similarity dengan Wordnet. Dibatasi pada koleksi yang berbahasa Inggris Weighted Menggabungkan tree similarity + weighted Fuzzy Logic tree similarity dengan LSA untuk pencarian berbasis semantik yang independen terhadap bahasa landscape reading, interpreting, LSA + Wordnet and representing Weighted tree similarity + Wordnet

Permasalahan 1. Bagaimana mengolah daftar isi dalam database buku melalui pra pemrosesan teks dan proses LSA agar menghasilkan nilai document scores yang menjadi nilai kemiripan lokal dari cabang keyword dalam weighted tree? 2. Bagaimana menerapkan cosine measure similarity sebagai dasar penentuan kemiripan lokal pada cabang judul, penerbit dan pengarang dalam weighted tree? 3. Bagaimana menghitung nilai kemiripan antara weighted tree yang dibangun dari query user terhadap weighted tree buku dalam database? 2/3/2012 7

Batasan Masalah 1. Dataset yang digunakan untuk ujicoba adalah data buku di perpustakaan PENS 2. Data buku yang digunakan adalah data buku yang berbahasa Indonesia 3. Hubungan semantik yang dijadikan dasar penentuan kesamaan konteks adalah sinonim 4. Fase persiapan dilakukan sebelum fase matching, dan diulang setiap kali ada update database. 5. Tidak membahas data query yang bersifat numerik 6. Tidak memperhatikan pengetahuan yang terkandung dalam struktur daftar isi 2/3/2012 8

Hipotesa W-Tree + LSA memberikan keluaran yang lebih relevan dibandingkan W-Tree

Manfaat dan Kontribusi Membuat sistem pencarian buku yang memiliki relevansi secara semantik dan independen terhadap bahasa. Berkontribusi dalam pembentukan model pencarian menggunakan algoritma weighted tree similarity yang dikombinasikan dengan metode LSA. 2/3/2012 10

Dasar Teori

What is LSA Latent Semantic Analysis? LSA adalah teknik matematika/teknik statistik untuk mengekstraksi dan menyimpulkan hubungan penggunaan kontekstual yang diharapkan dari kata-kata k t yang menjadi bagian dari wacana (Landauer, Foltz & Laham, 1998). Digunakan dalam author recognition, search engines, detecting plagiarism, dan membandingkan kemiripan teks (Sudarsun,2008) Sebuah konteks di mana suatu kata eksis atau tid k k t k k i i d k tidak akan menentukan kemiripan dokumen Independen terhadap bahasa

Weighted Tree (Solihin, 2006) Tree merupakan struktur data yang umum digunakan sebagai representasi informasi. Struktur Weighted Tree memperkenalkan konsep node berlabel, arc berlabel, dan arc berbobot yang merepresentasikan relasi parent-child dari suatu atribut produk/jasa. Informasi semantik dikandungd tidak hanya pada label node tetapi juga pada label arc. Sedangkan bobot arc merepresentasikan tingkat kepentingan (importance) dari suatu arc (atribut produk/jasa). 2/3/2012 13

Evaluasi Performa Recall dan Precision Precision = tp/(tp+fp) p(p p) --> rasio dari pattern yang di-klasifikasikan sebagai positive dengan benar dari semua pattern yang diklasifikasikan sebagai positive. Recall = tp/(tp+fn) --> rasio dari pattern yang diklasifikasikan sebagai positive dengan benar dari semua pattern yang seharusnya diklasifikasikan sebagai positive

Evaluasi Performa Receiver Operating Characteristic ti (ROC) merupakan kurva yang memetakan laju True Positive (tp) / diterima relevan terhadap laju False Positive (fp) / diterima tidak relevan. Kurva ROC mem-plot true positive rate vs false positive rate. true positive rate = recall false positive rate = fp/(fp+tn) --> rasio dari pattern yang diklasifikasikan sebagai positive dengan salah dari semua pattern yang seharusnya diklasifikasikan secara negative.

Metodologi

Gambaran Umum Sistem Metadata Metadata keyword Daftar Isi SISTEM Urutan judul buku beserta nilai similarity 2/3/2012

Terdapat 2 fase: Fase Persiapan Fase Matching Metodologi Gambar Diagram Konteks Sistem 2/3/2012 18

Fase Persiapan Gambar Diagram alir fase Persiapan GambarFase Persiapan 2/3/2012 19

Fase Matching 20

Keluaran Sistem Keluaran berupa nilai similarity judul buku Nilai/score tertinggi memiliki relevansi terbesar terhadap query user. 2/3/2012

Implementasi

Dataset Sumber Digilib EEPIS : www.mis.eepis its.edu Kategori Buku Tk Teks D4 Subyek Bahasa Jumlah Komputer Bahasa Indonesia 164 judul

Uji Coba

Klik 2x

Tree buku vs Tree Query 1 Tree Buku 0.01 0.35 Buku Pintar Linux Database Server PostgreSQL 0.01 0.02 0.6 0.01 Richardus Eko Indrajit daftar isi Elex Media Komputindo 2002 Tabel Nilai bobot Cabang Tree Cabang Nilai Bobot Judul 0.35 Pengarang g 0.02 Penerbit 0.01 Tahun 0.01 Edisi 0.01 Keyword 0.6 vs Tree Query User 0.1 0.1 0.1 0.1 0.1 0.5 2/3/2012 27 PostgreSQL

Kemiripan Lokal : Kemiripan Lokal : cosine measure similarity string matching JUDUL TAHUN PENGARANG EDISI PENERBIT

Kemiripan lokal : LSA KEYWORD

W-Tree vs W-Tree+LSA W-Tree +LSA W-Tree

Analisis Dengan W-Tree +LSA: Keluaran yang direkomendasikan adalah buku-buku yang memiliki kemiripan/relevansi i i dengan keyword yang dijadikan query, yaitu : PostgreSQL Metadata yang lain, seperti judul, pengarang, dll juga memberikan kontribusi pada judul-judul buku yang direkomendasikan Dengan W-Tree tanpa LSA: Keluaran yang direkomendasikan adalah buku-buku sesuai dengan query pada seluruh metadata : judul, penerbit, pengarang, dll. Sebagian besar hasil pencarian, tidak relevan dengan query keyword yang dimasukkan

Pembuktian Hipotesa

Pembuktian Hipotesa Gambar Diagram alir pembuktian hipotesa

1. Penentuan Keyword

2. Proses Training Tabel Score similarity W-Tree W W-Tree + LSA

Kurva ROC threshold/cut off W-Tree tanpa LSA : threshold = 0.11 W-Tree + LSA : threshold = 0.12

3. Proses Testing Didasarkan pada nilai threshold dari masing-masing g query Dilakukan pada kedua sistem yang dibandingkan. Keluaran dari proses ini sama dengan proses training, namun keluaran hanya koleksi yang memiliki score > = threshold

4. Performa Query Koleksi relevan R Total A Hasil Pencarian Performa W-Tree Rl Relevan tak Precision i Recall F-score Ra relevan Ra / A Ra / R 2/(1/R + 1/P) Q1 7 49 3 46 0.061224 0.4286 0.10714286 Q2 7 49 3 46 0.061224 0.4286 0.10714286 Q3 8 14 1 13 0.071429 0.125 0.09090909 Q4 3 50 2 48 0.04 0.6667 0.0754717 7 7 Q5 7 50 2 48 0.04 0.2857 0.07017544 W-Tree + LSA Query Rata-rata 0.054776 0.3869 0.09016839 Koleksi Hasil Pencarian Performa relevan R Total A Relevan Ra tak relevan Precision Ra / A Recall Ra / R W-Tree F-score 2/(1/R + 1/P) Q1 7 61 6 55 0.098361 0.8571 0.17647 Q2 7 57 7 50 0.122807 1 0.21875 Q3 8 40 2 38 0.05 0.25 0.08333 Q4 3 27 2 25 0.074074074074 0.6667 0.13333 Q5 7 78 3 75 0.038462 0.4286 0.07059 Rata-rata 0.076741 0.6405 0.1365

Rangkumannya Pencarian Precision Recall F-score W-Tree 0.05477551 0.38690476 0.09016839 Nilai tertinggi W-Tree + LSA 0.076740657076740657 0.64047619 0.1364951

Kesimpulan dan Saran

Kesimpulan Nilai doc scores hasil proses LSA, tidak hanya dipengaruhi oleh nilai query vectors, namun juga oleh term vector yang nilainya tertinggi. Hal ini mengakibatkan tingkat relevansi dengan query menurun. Sistem pencarian dengan penggabungan W-Tree + LSA memberikan hasil dengan relevansi terhadap query LEBIH TINGGI dibandingkan sistem pencarian dengan algoritma W-Tree+Wordnet dalam menangani dokumen bahasa Indonesia W-Tree + LSA mengakomodasi kelebihan LSA dalam memproses keyword ditambah dengan kelebihan algoritma W-Tree dalam mengakomodasi metadata beserta bobot yang dijadikan sebagai query user.

Saran Untuk mendapatkan keluaran yang lebih valid dan akurasi lebih tinggi : 1. Perlu dibuat standarisasi dalam penulisan daftar isi buku. 2. Model yang direkomendasikan bisa menggunakan LSA dengan masukan berupa daftar indeks buku atau berupa buku secara keseluruhan (e-books).dengan g demikian nilai term document matrix benar-benar mewakili term yang muncul dalam buku tersebut.

Alhamdulillahi robbil alamin