ROCCHIO CLASSIFICATION

DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA

1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi yang ada dalam sebuah dokumen. Untuk proses pencarian tersebut digunakan sebuah query sehingga user bisa menemukan dokumen yang relevan sesuai dengan kebutuhannya. Beberapa metode yang dapat digunakan antara lain Naive Bayes, Rocchio algorithm, k-nearest Neighbor, Descision Tree, Support Vector Machines. Berikut adalah perbandingan dari metode tersebut : Claasifier Metode Kinerja Naive Bayes Menghitung probabilitas dari suatu dokumen untuk ikut ke suatu kategori berdasarkan pada kehadiran dari kata yang sama di dalam dokumen lain yang telah ada di dalam kategori tersebut. Metode Rocchio k-nearest Neighbor Decision Tree Support Vector Machines Membandingkan dokumen terhadap suatu daftar term positif dan negatif bagi setiap katagori dan mengklasifi sesuai dengan kehadiran atau bobot dari term-term tersebut. Mencari sebanyak k dokumen paling mirip dan menempatkan dokumen ke kategori di mana k dokumen tersebut ditempatkan sebelumnya Memisahkan dokumendokumen secara hirarki di dalam struktur pohon, di mana setiap node merupakan term yang relevan dan ujung setiap cabang adalah kategori. Menggambar antara term yang berkontribusi dan tidak terhadap suatu dokumen yang akan ditempatkan ke suatu kategori tertentu. Kategori didasarkan pada kehadiran dari term yang berkontribusi. Lebih rendah daripada model lain Rendah, terutama saat mengkasifikasi ke dalam kategori dengan banyak term representatif Baik, terutama dengan penempatan banyak kategori, tetapi lambat karena setiap dokumen harus dibandingkan ke semua dokumen lain Baik tetapi memerlukan optimisasi untuk menyelesaikan overfitting. Terbaik meskipun sangat mudah terjadi error dalam data training.

2 1. Term frequency and weighting Berdasarkan frekuensi munculnya term yang sesuai dengan query Term yang sama akan dijumlah semua frekuensinya Akan tetapi metode ingin masih kurang bagus karena : Jika dokumen yang digunakan adalah dokumen yang lebih besar, maka dokumen tersebut memiliki term yang lebih banyak sehingga score-nya pun lebih besar. Langkah-langkah dalam menggunakan metode ini adalah : a. Tiap-tiap dokumen dipecah menjadi term-term b. Kemudian term yang sudah ada diurutkan menjadi sebuah kamus di dalam sebuah kolom (catatan : jika ada beberapa term yang sama, maka hanya ditulis sekali) c. Di sebelah kanan kolom term, tambahkan 2 kolom lagi. Kolom yang pertama untuk frekuensi term (tf). Hitung jumlah term sama. d. Untuk kolom yang kedua untuk kolom idft. Rumus : idft = log N dft N : banyaknya dokumen dft : frekuensi dari sebuah term e. Tambahkan kolom lagi untuk bobot dari term Rumus : β = tf * idft 2. The Rocchio algorithm for relevance feedback Rocchio classifiers merupakan salah satu metode pembelajara supervised document classification. Metode klsifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentsaikan semua data ke dalam sebuah vector. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan sodinus. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan tfidf (Term Frequency / Invers Document Frequency) karena komponen heuristic utama adalah klasifikasi rocchio yaitu skema pembobtan tfidf, metode pembelajaran rocchio disebut juga dengan tfidf Classifiers (Joachihms,1997) Didalam membandngkan kesamaan isi antara data training dan data test, tfidf classifiers menggunakan prototype vector untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototype vector merupakan vector yang mewakili seluruh vector data training dalam setiap kategori. Tiga hal utama yang dapat dipakai pada klasifikasi tfidf adalah menggunakan skema pembobotan tfidf yang berguna untuk merepresentsikan dokumen ke dalam sebuah vector, merepresentasikan prototype setiap kategori dengan menjumlahkan vector vector dalam satu kategori dari data training, membandingkan kedekatan sudut antara vector data test dengan semua prototype vector (Tomassen, 2007)

3 Algoritma rocchio diasumsikan bahwa sebagian pengguna memiliki konsep umum pada dokumen yang relevan dan non-relevan sebagai saranan meningkatkan pencarian yang singkat dan presisi. Langkah-langkah pengolahan query a. Text Mining dan Klasifikasi Teks : mencari dan mengelompokkan dokumen ke dalam kategori tertentu b. Parsering : memilah isi dokumen menjadi unit-unit kecil (token), yang berupa kata, frase, atau kalimat. c. Stemming : proses penghilangan prefiks (awalan) dan sufiks (akhiran) d. Inverted Index : struktur yang dioptimasi untuk menemukan kembali dokumen Keterbatasan Teknik Rocchio Teknik Rocchio ini memiliki keterbatasan dimana sering gagal untuk mengklasifikasikan kelas multimodal dan hubungan. Misalnya, negara Burma berganti nama menjadi Myanmar pada tahun 1989. Oleh karena itu dua pertanyaan dari "Burma" dan "Myanmar" akan muncul lebih jauh terpisah dalam vector space model, meskipun mereka sama-sama mengandung asal yang sama. Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai. Teknik Rocchio menggunakan centroid untuk batas-batas tersebut. Dc : himpunan dokumen pada suatu kelas (kelas c) Untuk menentukan kemiripan 2 vector space model data dapat dilakukan dengan 2 cara, yaitu : a. Menentukan jarak antara 2 vector space model dengan cara menggunakan jarak euclidean. b. Menghitung kemiripan antara 2 vector dokumen Contoh penggunaan Rocchio Algorithm Query = Sistem Dokumen 1 : Sistem adalah kumpulan elemen Dokumen 2 : Adalah kumpulan elemen yang saling berinteraksi Dokumen 3 : Sistem berinteraksi untuk mencapai tujuan

4 Proses parsering Doc 1 : sistem, adalah, kumpulan, elemen Doc 2 : adalah, kumpulan, elemen, yang, saling, berinteraksi Doc 3 : sistem, berinteraksi, untuk, mencapai, tujuan Proses filtering Doc 1 : sistem, kumpulan, elemen Doc 2 : kumpulan, elemen, saling, berinteraksi Doc 3 : sistem, berinteraksi, mencapai, tujuan Proses Stemming Doc 1 : sistem, kumpul, elemen Doc 2 : kumpul, elemen, saling, interaksi Doc 3 : sistem, interaksi, capai, tujuan Menghitung tf-idf term tf df D/df Log W Q D1 D2 D3 (D/df) Q D1 D2 D3 Capai 0 0 0 1 1 3 0,477 0 0 0 0,477 Elemen 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Interaksi 0 0 1 1 2 1,5 0,176 0 0 0,176 0,176 Kumpul 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Saling 0 0 1 0 1 3 0,477 0 0 0,477 0 Sistem 1 1 0 1 2 1,5 0,176 0.176 0,176 0 0,176 tujuan 0 0 0 1 1 3 0,477 0 0 0 0,477 Menghitung jarak dokumen dan query Term W(Q)*W(Di) Panjang Vektor D1 D2 D3 Q^2 D1^2 D2^2 D3^2 Capai 0 0 0 0 0 0 0,227 Elemen 0 0 0 0 0,031 0,031 0 Interaksi 0 0 0 0 0 0,031 0,031 Kumpul 0 0 0 0 0,031 0,031 0 Saling 0 0 0 0 0 0,227 0 Sistem 0,031 0 0,031 0,031 0,031 0 0,031 Tujuan 0 0 0 0 0 0 0,227 0,031 0 0,031 0,031 0,093 0,321 0,517 SUM 0,176 0,305 0,566 0,719 SQRT Cosine similarity D1 D2 D3 0,053 0 0,12

5 Daftar pustaka : http://jurnaleeccis.ub.ac.id/index.php/eeccis/article/viewfile/201/174 http://komputasi.files.wordpress.com/2010/01/umsirclassification.pdf http://jurnal.fmipa.unila.ac.id/index.php/semirata/article/download/881/700 Manning, Christopher D, Ragnavan Prabhakar, Schutze, Hinrich (2008) Introduction to Information Retrieval, Cambridge University Press