Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

dokumen-dokumen yang mirip
TEMU KEMBALI INFORMASI

Cosine Similarity (Tf-idf) Denny Setyo R ( ) STBI Kelas C

BAB 1 PENDAHULUAN UKDW

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Klasifikasi Teks Menggunakan k-nn sebuah contoh

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

commit to user BAB II TINJAUAN PUSTAKA

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

JULIO ADISANTOSO - ILKOM IPB 1

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi

Klasifikasi Teks Menggunakan k-nn Contoh Soal

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB I PENDAHULUAN 1.1 Latar Belakang

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB II TINJAUAN PUSTAKA

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

SISTEM TEMU KEMBALI INFORMASI

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

Document Indexing dan Term Weighting. M. Ali Fauzi

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

Temu-Kembali Informasi 2017

BAB 3 LANDASAN TEORI

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

ROCCHIO CLASSIFICATION

BAB I PENDAHULUAN Latar Belakang

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB III METODOLOGI PENELITIAN

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB II TINJAUAN PUSTAKA

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB III METODOLOGI PENELITIAN

beberapa tag-tag lain yang lebih spesifik di dalamnya.

KOM341 Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Temu-Kembali Informasi 2017

Latihan STKI Perhitungan Kemiripan (Similarity) antara Query dan Dokumen. Husni

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab

IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI

Sistem Temu-Kembali Informasi Pengantar Perkuliahan

Sistem Temu Kembali Informasi/ Information Retrieval

BAB III ANALISA DAN PERANCANGAN

BAB 2 TINJAUAN PUSTAKA

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB II LANDASAN TEORI

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB III METODELOGI PENELITIAN

DAFTAR ISI. SKRIPSI... ii

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB III Landasan Teori

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Pencarian Materi Kuliah Pada Aplikasi Blended Learning Menggunakan Metode Vector Space Model

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

1. Pendahuluan. 1.1 Latar belakang

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Transkripsi:

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak terpengaruh dolar D4: harga laptop naik Dan ada Query (Q): kenaikan harga Tugas: hitung ranking kemiripan Q dengan semua dokumen dan urutkan! Gunakan cosine similarity (cosim) dalam model ruang vektor (VSM). Jawaban: Ada beberapa langkah yang harus dilakukan untuk mendapatkan dokumen yang paling mirip dengan Query (teranking), yaitu: 1. Lakukan tokenisasi untuk mengambil setiap kata yang ada di dalam dokumen. Kata yang diambil tersebut kemudian dinamakan sebagai token. 2. Setelah tokenisasi, ada banyak perlakukan yang harus diterapkan terhadap token. Ini mencakup penyesuaian singkatan (misal: MU menjadi Manchester United), perubahan token ke huruf kecil, lematisasi dan stemming (biasanya cukup dinamakan stemming), dan stop word removal. Token berubah menjadi Term. 3. Membuat Inverted Index, yaitu suatu daftar (Indeks) yang dengan jelas menunjukkan dimana keberadaan dari suatu term. 4. Dikarenakan beberapa hal (lihat di slide dan di buku IIR), setiap term perlu diberikan bobot tertentu. Skema pembobotan paling umum adalah tf.idf. tf adalah jumlah kemunculan suatu term dalam suatu dokumen (jadi tf dari suatu term t di dalam suatu dokumen dapat berbeda dengan tf term t pada dokumen lain). df adalah jumlah dokumen yang di dalamnya terdapat suatu term t. Artinya, df adalah tergantung pada jumlah dokumen yang dikoleksi. Idf adalah inverse dari df. Nilai idf dari suatu term t didefinisikan oleh ruus berikut: idf t = log 2 (N/df t ) Dimana N adalah jumlah total dokumen dalam koleksi (tidak termasuk Query Q). 5. Menghitung panjang vektor dari setiap dokumen. Panjang vektor dari dokumen D1, ditulis D1 adalah akar dari penjumlahan bobot kuadrat dari setiap term yang hadir di dalam dokumen D1. 1

6. Menghitung kemiripan Query antara Q dengan setiap dokumen (D1 s.d D4) menggunakan cosine similarity. Rumusan sederhananya adalah CoSim (Q, D) = penjumlahan hasil perkalian bobot dari term yang berisan antara Q dan D dibagi perkalian panjang vektor dari Q dan D. Rumus dalam bentuk notasi matematis formalnya dapat dilihat pada slide kuliah dan buku IIR (bab 6). 7. Mengurutkan hail perhitungan di atas secara descending. Cosim terbesar harus mendapatkan ranking tertinggi. Kita mulai langkah penyelesaian persoalan di atas secara detail: 1. Tokenisasi 2. Stemming dkk. 3. Indexing Ketiga langkah di atas harus dilakukan secara urut terhadap dokumen, satu demi satu dokumen. Terhadap D1, diperoleh token dolar naik harga naik penghasilan turun Setelah dilakukan Stemming (dkk.) diperoleh 5 Term dolar naik harga hasil turun Kelima term tersebut harus dimasukkan ke dalam Indeks. Bentuk inverted index yang banyak dipakai pada tugas akhir terdiri dari Field Id, Term, DokID, tf dan tf-idf: 1 Dolar 1 1 2 Naik 1 2 3 Harga 1 1 4 Hasil 1 1 5 turun 1 1 Ulangi ketiga langkah di atas terhadap dokumen D2, D3 dan D4. Akhir dari tiga proses di atas terhadap 4 dokumen adalah suatu inverted index berikut: 2

4. Pembobotan (weighting) 1 dolar 1 1 2 naik 1 2 3 harga 1 1 4 hasil 1 1 5 turun 1 1 6 harga 2 1 7 naik 2 2 8 gaji 2 1 9 premium 3 1 10 pengaruh 3 1 11 dolar 3 1 12 harga 4 1 13 laptop 4 1 14 naik 4 1 Pertama, hitung idf untuk setiap term yang ada di dalam indeks (N=4), yaitu dolar, naik, harga, hasil, turun, gaji, premium, pengaruh, laptop. Idf (dolar) = log 2 (N/df dolar ) = log 2 (4/2) = log 2 (2) = 1 Term dolar hadir dalam 2 dokumen, yaitu D1 dan D3 Idf (naik) = log 2 (N/df naik ) = log 2 (4/3) = 0,41 Term naik hadir dalam 3 dokumen, yaitu D1, D2 dan D4. Idf (harga) = log 2 (N/df harga ) = log 2 (4/3) = 0,41 Idf (hasil) = log 2 (N/df hasil ) = log 2 (4/1) = log 2 (4) = 2 Term hasil muncul di dalam 1 dokumen saja, yaitu D1 Idf (turun) = log 2 (N/df turun ) = log 2 (4/1) = log 2 (4) = 2 Idf (gaji) = log 2 (N/df gaji ) = log 2 (4/1) = log 2 (4) = 2 Idf (premium) = log 2 (N/df premium ) = log 2 (4/1) = log 2 (4) = 2 Idf (pengaruh) = log 2 (N/df pengaruh ) = log 2 (4/1) = log 2 (4) = 2 Idf (laptop) = log 2 (N/df laptop ) = log 2 (4/1) = log 2 (4) = 2 Kemudian melakukan perhitungan bobot (tf-idf) terhadap setiap term untuk setiap dokumen yang hadir di dalam indeks: tf.idf (dolar dalam D1) = tf dolar (dalam D1) * idf dolar (dalam koleksi) = 1 * 1 = 1 tf.idf (naik dalam D1) = tf naik (dalam D1) * idf naik (dalam koleksi) = 2 * 0,41 = 0,82 tf.idf (harga dalam D1) = tf harga (dalam D1) * idf harga (dalam koleksi) = 1 * 0,41 = 0,41 tf.idf (hasil dalam D1) = tf hasil (dalam D1) * idf hasil (dalam koleksi) = 1 * 2 = 2 tf.idf (turun dalam D1) = tf turun (dalam D1) * idf turun (dalam koleksi) = 1 * 2 = 2 3

Silakan hitung tf.idf untuk term-term lain dalam indeks. Hasilnya, digunakan untuk mengupdate filed tf-idf pada tabel indeks di atas. Sehingga indeks sekarang menjadi: 1 dolar 1 1 1 2 naik 1 2 0,82 3 harga 1 1 0,41 4 hasil 1 1 2 5 turun 1 1 2 6 harga 2 1 0,41 7 naik 2 2 0,82 8 gaji 2 1 2 9 premium 3 1 2 10 pengaruh 3 1 2 11 dolar 3 1 1 12 harga 4 1 0,41 13 laptop 4 1 2 14 naik 4 1 0,41 Terlihat jelas, bahwa semakin jarang dokumen mengandung term t maka akan semakin tinggi nilai bobotnya. Semakin sering term t hadir di dalam suatu dokumen, maka semakin tinggi pula bobotnya di dalam dokumen tersebut. 5. Hitung pajang vektor Panjang vektor dari dokumen D1 adalah akar dari penjumlahan kuadrat dari bobot setiap term di dalam D1 tersebut. D1 = akar (1 2 + 0,82 2 + 0,41 2 + 2 2 + 2 2 ) = 3,14 D2 = akar (0,41 2 + 0,82 2 + 2 2 ) = 2,2 D3 = akar (2 2 + 2 2 + 1 2 ) = 2,23 D4 = akar (0,41 2 + 2 2 + 0,41 2 ) = 2,1 6. Hitung cosim Sebelum dapat menghitung kemiripan cosinus Query dengan setiap dokumen, maka perlu dihitung tf.idf untuk setiap term dalam Query Q. Setelah melewati fase tokenisasi, stemming dan kawan-kawan, diperoleh 2 term dari Query, yaitu naik dan harga. tf.idf (naik dalam Q) = tf naik (dalam Query) * idf naik (dalam koleksi) = 1 * 0,41 = 0,41 tf.idf (harga dalam Q) = tf harga (dalam Query) * idf harga (dalam koleksi) = 1 * 0,41 = 0,41 4

Sehingga panjang vektor dari Query Q adalah Q = akar(0,41 2 + 0,41 2 ) = 0,58 Sekarang hitung cosim Q dengan keempat dokumen yang ada dalam koleksi. Ingat, hanya lihat term yang beririsan. Cosim (Q, D1) = penjumlahan hasil perkalian bobot term naik dan harga dibagi perkalian panjang vektor Cosim(Q, D1) = (tf.idf naik dalam Q * tf.idf naik dalam D1 ) + (tf.idf harga dalam Q * tf.idf harga dalam D1)/( Q * D1 ) Cosim(Q, D1) = (0,41 * 0,82 + 0,41 * 0,41) / (0,58 * 3,14) = 0,28 Lakukan perhitungan cosim antara Q dengan D2, D3 dan D4. Cosim(Q, D2) = (tf.idf naik dalam Q * tf.idf naik dalam D2 ) + (tf.idf harga dalam Q * tf.idf harga dalam D2)/( Q * D2 ) Cosim(Q, D2) = (0,41 * 0,82 + 0,41 * 0,41) / (0,58 * 2,2) = 0,4 Cosim(Q, D4) = (tf.idf naik dalam Q * tf.idf naik dalam D4 ) + (tf.idf harga dalam Q * tf.idf harga dalam D4)/( Q * D4 ) Cosim(Q, D4) = (0,41 * 0,41 + 0,41 * 0,41) / (0,58 * 2,23) = 0,26 Cosim(Q, D3)? Tidak ada term yang beririsan, sehingga tidak ada kemiripan, alias kemiripan antara Q dena D3 bernilai 0. 7. Ranking Urutkan secara descending, dari tinggi ke rendah, diperoleh ranking: D2 - D1 - D4. Bagaimana dengan D3, apakah dimasukkan ke dalam ranking (ranking 4) dan dikembalikan kepada pengguna (pada sistem IR sungguhan)? TIDAK. Karena kemiripan antara Q dan D3 bernilai 0 maka tidak boleh dikembalikan kepada pengguna, tidak masuk daftar ranking. MOHON PERIKSA KEMBALI PERHITUNGAN DI ATAS, KESALAHAN HITUNG DAPAT TERJADI. CERMAT DAN RE-CHECK HASIL PERHITUNGAN ANDA. 5

Persoalan 2: Suatu koleksi C berisi 3 dokumen berikut: d1: berita jawa yang terbaru d2: baru se-jawa di surabaya d3: beritanya tentang kuliah di kampusku Ada Query (Q): baru berita terbaru Berikan daftar dokumen yang paling mirip dengan Query Gunakan cosine similarity (cosim) dalam model ruang vektor (VSM) Jawaban Ringkas (detailnya lihat catatan perkuliahan): Tahap Tokenisasi, Stemming dan Indexing, diperoleh inverted index berikut: 1 berita 1 1 2 jawa 1 1 3 baru 1 1 4 baru 2 1 5 jawa 2 1 6 surabaya 2 1 7 berita 3 1 8 kuliah 3 1 9 kampus 3 1 Hitung idf untuk setiap term yang hadir dalam Indeks, yaitu (N=3): Idf (berita) = log 2 (3/2) = 0,6 Idf (jawa) = log 2 (3/2) = 0,6 Idf (baru) = log 2 (3/2) = 0,6 Idf (surabaya) = log 2 (3/1) = 1,6 Idf (kuliah) = log 2 (3/1) = 1,6 Idf (kampus) = log 2 (3/1) = 1,6 Hitung tf.idf untuk setiap term yang hadir dalam inverted index: tf.idf (berita dalam D1) = 1 * 0,6 = 0,6 Silakan hitung tf.idf untuk term yang lain! 6

Diperoleh indeks berikut: 1 berita 1 1 0,6 2 jawa 1 1 0,6 3 baru 1 1 0,6 4 baru 2 1 0,6 5 jawa 2 1 0,6 6 surabaya 2 1 1,6 7 berita 3 1 0,6 8 kuliah 3 1 1,6 9 kampus 3 1 1,6 Hitung panjang vektor dari setiap dokumen: D1 = akar (0,6 2 + 0,6 2 + 0,6 2 ) = 1,04 D2 = akar (0,6 2 + 0,6 2 + 1,6 2 ) = 1,81 D3 = akar (0,6 2 + 1,6 2 + 1,6 2 ) = 2,34 Sebelum menghitung kemiripan Q dengan D1 s.d D3, harus dihitung terlebih dahulu tf.idf setiap term dalam Q (2 term baru dan 1 term berita) serta panjang vektornya. Tf.idf (baru dalam Q) = 2 * 0,6 = 1,2 Tf.idf (berita dalam Q) = 1 * 0,6 = 0,6 Sehingga panjang vektor dari Q: Q = akar (1,2 2 + 0,6 2 ) = 1,34 Kemiripan antara Q dan (D1, D2 dan D3): Cosim(Q, D1) = (tf.idf baru dalam Q * tf.idf baru dalam D1 + tf.idf berita dalam Q * tf.idf berita dalam D1)/( Q * D1 ) Cosim(Q, D1) = (1,2*0,6 + 0,6 * 0,6) / (1,34 * 1,04) = 0,77 Cosim(Q, D2) = (1,2*0,6) / (1,34 * 1,81) = 0,30 hanya term baru Cosim(Q, D3) = (0,6 * 0,6) / (1,34 * 2,34) = 0,11 hanya term berita Ranking: D1 D2 D3 MOHON PERIKSA KEMBALI PERHITUNGAN DI ATAS, KESALAHAN HITUNG DAPAT TERJADI. CERMAT DAN RE-CHECK HASIL PERHITUNGAN ANDA. 7