ROCCHIO CLASSIFICATION

dokumen-dokumen yang mirip
SISTEM TEMU KEMBALI INFORMASI

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN Latar Belakang

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN UKDW

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB II TINJAUAN PUSTAKA

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

BAB II LANDASAN TEORI

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Gambar 1.1 Proses Text Mining [7]

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Sistem Temu Kembali Informasi/ Information Retrieval

PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB III Landasan Teori

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB V EKSPERIMEN TEXT CLASSIFICATION

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

JURNAL ITSMART Vol 4. No 1. Juni 2015 ISSN :

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB II LANDASAN TEORI

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB III METODELOGI PENELITIAN

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering

BAB 3 LANDASAN TEORI

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA

commit to user BAB II TINJAUAN PUSTAKA

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

STIKOM SURABAYA ... (8) (Wibisono, 2005)

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB II LANDASAN TEORI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

Temu-Kembali Informasi 2017

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Information Retrieval

KLASIFIKASI PADA TEXT MINING

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

JULIO ADISANTOSO - ILKOM IPB 1

Otomatisasi Klasifikasi Buku Perpustakaan dengan Metode K-NN

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

HASIL DAN PEMBAHASAN. Praproses

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB II LANDASAN TEORI

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB I PENDAHULUAN 1.1. Latar Belakang

IMPLEMENTASI METODE K-NEAREST NEIGHBOUR DENGAN PEMBOBOTAN TF.IDF.ICF UNTUK KATEGORISASI IDE KREATIF PADA PERUSAHAAN

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB III METODOLOGI PENELITIAN

Document Indexing dan Term Weighting. M. Ali Fauzi

BAB II TINJAUAN PUSTAKA

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

TEMU KEMBALI INFORMASI

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

BAB II LANDASAN TEORI

Sistem Pencarian Data Teks dengan Menggunakan Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB II LANDASAN TEORI

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Text Mining Classification Sebagai Rekomendasi Dosen Pembimbing Tugas Akhir Program Studi Sistem Informasi

Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query

II TINJAUAN PUSTAKA. 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM.

Transkripsi:

DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA

1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi yang ada dalam sebuah dokumen. Untuk proses pencarian tersebut digunakan sebuah query sehingga user bisa menemukan dokumen yang relevan sesuai dengan kebutuhannya. Beberapa metode yang dapat digunakan antara lain Naive Bayes, Rocchio algorithm, k-nearest Neighbor, Descision Tree, Support Vector Machines. Berikut adalah perbandingan dari metode tersebut : Claasifier Metode Kinerja Naive Bayes Menghitung probabilitas dari suatu dokumen untuk ikut ke suatu kategori berdasarkan pada kehadiran dari kata yang sama di dalam dokumen lain yang telah ada di dalam kategori tersebut. Metode Rocchio k-nearest Neighbor Decision Tree Support Vector Machines Membandingkan dokumen terhadap suatu daftar term positif dan negatif bagi setiap katagori dan mengklasifi sesuai dengan kehadiran atau bobot dari term-term tersebut. Mencari sebanyak k dokumen paling mirip dan menempatkan dokumen ke kategori di mana k dokumen tersebut ditempatkan sebelumnya Memisahkan dokumendokumen secara hirarki di dalam struktur pohon, di mana setiap node merupakan term yang relevan dan ujung setiap cabang adalah kategori. Menggambar antara term yang berkontribusi dan tidak terhadap suatu dokumen yang akan ditempatkan ke suatu kategori tertentu. Kategori didasarkan pada kehadiran dari term yang berkontribusi. Lebih rendah daripada model lain Rendah, terutama saat mengkasifikasi ke dalam kategori dengan banyak term representatif Baik, terutama dengan penempatan banyak kategori, tetapi lambat karena setiap dokumen harus dibandingkan ke semua dokumen lain Baik tetapi memerlukan optimisasi untuk menyelesaikan overfitting. Terbaik meskipun sangat mudah terjadi error dalam data training.

2 1. Term frequency and weighting Berdasarkan frekuensi munculnya term yang sesuai dengan query Term yang sama akan dijumlah semua frekuensinya Akan tetapi metode ingin masih kurang bagus karena : Jika dokumen yang digunakan adalah dokumen yang lebih besar, maka dokumen tersebut memiliki term yang lebih banyak sehingga score-nya pun lebih besar. Langkah-langkah dalam menggunakan metode ini adalah : a. Tiap-tiap dokumen dipecah menjadi term-term b. Kemudian term yang sudah ada diurutkan menjadi sebuah kamus di dalam sebuah kolom (catatan : jika ada beberapa term yang sama, maka hanya ditulis sekali) c. Di sebelah kanan kolom term, tambahkan 2 kolom lagi. Kolom yang pertama untuk frekuensi term (tf). Hitung jumlah term sama. d. Untuk kolom yang kedua untuk kolom idft. Rumus : idft = log N dft N : banyaknya dokumen dft : frekuensi dari sebuah term e. Tambahkan kolom lagi untuk bobot dari term Rumus : β = tf * idft 2. The Rocchio algorithm for relevance feedback Rocchio classifiers merupakan salah satu metode pembelajara supervised document classification. Metode klsifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentsaikan semua data ke dalam sebuah vector. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan sodinus. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan tfidf (Term Frequency / Invers Document Frequency) karena komponen heuristic utama adalah klasifikasi rocchio yaitu skema pembobtan tfidf, metode pembelajaran rocchio disebut juga dengan tfidf Classifiers (Joachihms,1997) Didalam membandngkan kesamaan isi antara data training dan data test, tfidf classifiers menggunakan prototype vector untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototype vector merupakan vector yang mewakili seluruh vector data training dalam setiap kategori. Tiga hal utama yang dapat dipakai pada klasifikasi tfidf adalah menggunakan skema pembobotan tfidf yang berguna untuk merepresentsikan dokumen ke dalam sebuah vector, merepresentasikan prototype setiap kategori dengan menjumlahkan vector vector dalam satu kategori dari data training, membandingkan kedekatan sudut antara vector data test dengan semua prototype vector (Tomassen, 2007)

3 Algoritma rocchio diasumsikan bahwa sebagian pengguna memiliki konsep umum pada dokumen yang relevan dan non-relevan sebagai saranan meningkatkan pencarian yang singkat dan presisi. Langkah-langkah pengolahan query a. Text Mining dan Klasifikasi Teks : mencari dan mengelompokkan dokumen ke dalam kategori tertentu b. Parsering : memilah isi dokumen menjadi unit-unit kecil (token), yang berupa kata, frase, atau kalimat. c. Stemming : proses penghilangan prefiks (awalan) dan sufiks (akhiran) d. Inverted Index : struktur yang dioptimasi untuk menemukan kembali dokumen Keterbatasan Teknik Rocchio Teknik Rocchio ini memiliki keterbatasan dimana sering gagal untuk mengklasifikasikan kelas multimodal dan hubungan. Misalnya, negara Burma berganti nama menjadi Myanmar pada tahun 1989. Oleh karena itu dua pertanyaan dari "Burma" dan "Myanmar" akan muncul lebih jauh terpisah dalam vector space model, meskipun mereka sama-sama mengandung asal yang sama. Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai. Teknik Rocchio menggunakan centroid untuk batas-batas tersebut. Dc : himpunan dokumen pada suatu kelas (kelas c) Untuk menentukan kemiripan 2 vector space model data dapat dilakukan dengan 2 cara, yaitu : a. Menentukan jarak antara 2 vector space model dengan cara menggunakan jarak euclidean. b. Menghitung kemiripan antara 2 vector dokumen Contoh penggunaan Rocchio Algorithm Query = Sistem Dokumen 1 : Sistem adalah kumpulan elemen Dokumen 2 : Adalah kumpulan elemen yang saling berinteraksi Dokumen 3 : Sistem berinteraksi untuk mencapai tujuan

4 Proses parsering Doc 1 : sistem, adalah, kumpulan, elemen Doc 2 : adalah, kumpulan, elemen, yang, saling, berinteraksi Doc 3 : sistem, berinteraksi, untuk, mencapai, tujuan Proses filtering Doc 1 : sistem, kumpulan, elemen Doc 2 : kumpulan, elemen, saling, berinteraksi Doc 3 : sistem, berinteraksi, mencapai, tujuan Proses Stemming Doc 1 : sistem, kumpul, elemen Doc 2 : kumpul, elemen, saling, interaksi Doc 3 : sistem, interaksi, capai, tujuan Menghitung tf-idf term tf df D/df Log W Q D1 D2 D3 (D/df) Q D1 D2 D3 Capai 0 0 0 1 1 3 0,477 0 0 0 0,477 Elemen 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Interaksi 0 0 1 1 2 1,5 0,176 0 0 0,176 0,176 Kumpul 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Saling 0 0 1 0 1 3 0,477 0 0 0,477 0 Sistem 1 1 0 1 2 1,5 0,176 0.176 0,176 0 0,176 tujuan 0 0 0 1 1 3 0,477 0 0 0 0,477 Menghitung jarak dokumen dan query Term W(Q)*W(Di) Panjang Vektor D1 D2 D3 Q^2 D1^2 D2^2 D3^2 Capai 0 0 0 0 0 0 0,227 Elemen 0 0 0 0 0,031 0,031 0 Interaksi 0 0 0 0 0 0,031 0,031 Kumpul 0 0 0 0 0,031 0,031 0 Saling 0 0 0 0 0 0,227 0 Sistem 0,031 0 0,031 0,031 0,031 0 0,031 Tujuan 0 0 0 0 0 0 0,227 0,031 0 0,031 0,031 0,093 0,321 0,517 SUM 0,176 0,305 0,566 0,719 SQRT Cosine similarity D1 D2 D3 0,053 0 0,12

5 Daftar pustaka : http://jurnaleeccis.ub.ac.id/index.php/eeccis/article/viewfile/201/174 http://komputasi.files.wordpress.com/2010/01/umsirclassification.pdf http://jurnal.fmipa.unila.ac.id/index.php/semirata/article/download/881/700 Manning, Christopher D, Ragnavan Prabhakar, Schutze, Hinrich (2008) Introduction to Information Retrieval, Cambridge University Press