JULIO ADISANTOSO - ILKOM IPB 1

Ukuran: px

Mulai penontonan dengan halaman:

Download "JULIO ADISANTOSO - ILKOM IPB 1"

Teguh Lesmono
7 tahun lalu
Tontonan:

1 KOM34 Temu Kembali Informasi KULIAH #7 Text Classifiation Ad Ho Retrieval User menari informasi dengan memberikan satu atau lebih query terhadap koleksi terkini. : menari multiore omputer hips terbaru. Query : multiore AND omputer AND hip Akan dieksekusi setiap ada penambahan dokumen baru standing query Mungkin tidak menemukan artikel baru lain yang relevan, misalnya multiore proessors. Gunakan Boolean: (multiore OR multi-ore) AND (hip OR proessor OR miroproessor) JAS - DET. ILMU KOMUTER IB 2 Classifiation Lebih mudah kalau dokumen dikelompokkan menjadi misalnya dua kelas, yaitu dokumen tentang multiore omputer hips dan dokumen BUKAN tentangt multiore omputer hips. Kelas biasanya merujuk ke topik dokumen. rosesnya sering disebut sebagai text lassifiation, text ategorization, topi lassifiation, topi spotting. Categorization/Classifiation Given: Deskripsi dokumen d X, dimana X adalah kumpulan dokumen. Himpunan kelas atau kategori: C {, 2,, n } Tujuan: Menentukan kategori dari d: (d) C, dimana (d) adalah fungsi kategorisasi (lassifier). JAS - DET. ILMU KOMUTER IB 3 JAS - DET. ILMU KOMUTER IB 4 Doument Classifiation Learning Method Test Data: Classes: Training Data: ML learning intelligene algorithm reinforement network... planning language proof intelligene (AI) (rogramming) (HCI) lanning planning temporal reasoning plan language... Semantis programming semantis language proof... Garb.Coll. garbage olletion memory optimization region... Multimedia GUI Kita mempelajari fungsi klasifikasi yang memetakan dokumen ke kategori tertentu: γ : Χ C Disebut juga supervised learning, karena supervisor (orang yang menentukan kategori dokumen) berperan langsung di dalam proses pembelajaran. JAS - DET. ILMU KOMUTER IB 5 JAS - DET. ILMU KOMUTER IB 6 JULIO ADISANTOSO - ILKOM IB

2 Metode Manual Digunakan oleh Yahoo!, Looksmart, about.om, OD, Medline Sangat akurat karena dilakukan oleh ahli. Konsisten pada saat ukurannya keil/sedikit. Sulit dan mahal Metode Automati doument lassifiation Hand-oded rule-based systems Digunakan oleh CS dept s spam filter, Reuters, CIA, Verity, Masukkan ke kategori jika dokumen mengandung g kombinasi kata tertentu. Akurasi tinggi jika rule dibuat dengan sangat baik oleh ahli dan kompleks. JAS - DET. ILMU KOMUTER IB 7 JAS - DET. ILMU KOMUTER IB 8 Metode Automati doument lassifiation Supervised learning Beberapa menggunakan mahine learning (Autonomy, MSN, Verity, Enkata, Yahoo!, ) k-nearest Neighbors (simple, powerful) Naive Bayes (simple, ommon method) Support-vetor mahines (new, more powerful) dsb Membutuhkan hand-lassified training data Data dapat dibangun oleh amatir Banyak sistem komersial menggunakan metode ampuran Metode Bayes Berbasis teori peluang Utamanya teorema Bayes Untuk kejadian a dan b, Bayes Rules: a, a a b a b b a osterior b b x) x) x a, a rior JAS - DET. ILMU KOMUTER IB 9 JAS - DET. ILMU KOMUTER IB 0 Naïve Bayes Model Supervised learning method Multinomial Naïve Bayes Model eluang dokumen d dalam kelas : ( d ) ( ) ( t k ) k n d dimana t k ) adalah peluang term t k munul pada dokumen kelas, ) peluang dokumen ada pada kelas. endugaan arameter endugaan parameter N ), N t ) Tt T t' t ' V dimana N adalah banyaknya dokumen dalam kelas, N adalah total dokumen, T t adalah banyaknya t dalam dokumen training dari kelas. JAS - DET. ILMU KOMUTER IB JAS - DET. ILMU KOMUTER IB 2 JULIO ADISANTOSO - ILKOM IB 2

3 Laplae smoothing Atau Add-One Smoothing. Untuk menghilangkan dugaan parameter yang bernilai nol. ˆ Tt + Tt + ( t ) ( Tt' + ) T ' B' t ' V t + t ' V dimana B V banyaknya term dalam voabulary. JAS - DET. ILMU KOMUTER IB 3 doid words in doument in China? TRAINING SET Chinese Beijing Chinese yes 2 Chinese Chinese Shanghai yes 3 Chinese Maao yes 4 Tokyo Japan Chinese no TEST SET 5 Chinese Chinese Chinese Tokyo Japan? ) ¾ dan ) ¼ Chinese ) (5+)/(8+6) 6/4 3/7 Tokyo ) Japan ) (0+)/(8+6) /4 Chinese ) (+)/(3+6) 2/9 Tokyo ) Japan ) (+)/(3+6) 2/9 3 d5) 3/ 4 (3/ 7) /4 / d ) / 4 (2 / 9) 2 / 9 2 / JAS - DET. ILMU KOMUTER IB 4 Bernoulli Model Kejadian Bernoulli Multivariate Bernoulli Model ˆ ( t ) : rasio dokumen dari kelas yang mengandung term t. Dalam multinomial didefinisikan sebagai rasio token dalam dokumen kelas yang mengandung term t. JAS - DET. ILMU KOMUTER IB 5 doid words in doument in China? TRAINING SET Chinese Beijing Chinese yes 2 Chinese Chinese Shanghai yes 3 Chinese Maao yes 4 Tokyo Japan Chinese no TEST SET 5 Chinese Chinese Chinese Tokyo Japan? ) ¾ dan ) ¼ Chinese ) (3+)/(3+2) 4/5 Tokyo ) Japan ) (0+)/(3+2) /5 Beijing ) Shanghai ) Maao ) (+)/(3+2) 2/5 Chinese ) (+)/(+2) 2/3 Tokyo ) Japan ) (+)/(+2) 2/3 Beijing ) Shanghai ) Maao ) (0+)/(+2) /3 JAS - DET. ILMU KOMUTER IB 6 d5) ). Chinese ). Japan ). Tokyo ).( Beijing )).( Shanghai )).( Maao )) 3/ 4 4 / 5 / 5 ( 2 / 5).( 2 / 5).( 2 / 5) d ) / 4 2 / 3 2 / 3 2 / 3.( / 3).( / 3).( / 3) 5 Jadi, dokumen d 5 diklasifikasikan ke (bukan Chin Maximum a osteriori Tujuan klasifikasi: mendapatkan kelas terbaik untuk suatu dokumen. Kelas terbaik : sangat mirip atau maximum a posteriori (MA) kelas map : map arg max d) arg max ) C C k n d t ) k diduga dari training set JAS - DET. ILMU KOMUTER IB 7 JAS - DET. ILMU KOMUTER IB 8 JULIO ADISANTOSO - ILKOM IB 3

4 Maximum a osteriori map d ) ) arg max d) arg max C C d) arg max d ) ) C Multinomial d )<t,, t k,, t > ) n d Bernoulli d )<e,, e k,, e M > ) Asumsi Saling Bebas Kejadian A dan B saling bebas A B) A,B) A).B) Maka: Multinomial Bernoulli d ) t,..., t nd d ) e,..., e M ) ) k nd i M X t k U e ) i k i ) JAS - DET. ILMU KOMUTER IB 9 JAS - DET. ILMU KOMUTER IB 20 Multinomial vs Bernoulli Vetor Spae Classifiation JAS - DET. ILMU KOMUTER IB 2 Klasifikasi Menggunakan Ruang Vektor Test Doument Government? Setiap dokumen training direpresentasikan sebagai vektor. Setiap titik (vektor) dokumen training diberi label sesuai dengan kelasnya. Similarity hypothesis true in general? Government Siene Arts Government Siene Arts JAS - DET. ILMU KOMUTER IB 23 JAS - DET. ILMU KOMUTER IB 24 JULIO ADISANTOSO - ILKOM IB 4

5 Rohio Classifiation Centroid dari kelas : r r µ ( ) v( d) D D d D Rohio Classifiation Batas antara dua kelas adalah titik yang memiliki jarak sama ke kedua entroid-nya a a 2, b b 2, 2 JAS - DET. ILMU KOMUTER IB 25 JAS - DET. ILMU KOMUTER IB 26 Rohio Classifiation Dokumen d dikelompokkan ke dalam kelas Dari ontoh sebelumnya, diperoleh: Menggunakan jarak arg min r µ v r ( d ) Menggunakan ukuran kesamaan Cosine r r arg max os( µ ( ), v( d)) Jarak d 5 terhadap entroid: µ -d 5.5 dan µ -d maka Rohio mengklasifikasikan d 5 ke kelas (bukan Chin. JAS - DET. ILMU KOMUTER IB 27 JAS - DET. ILMU KOMUTER IB 28 k Nearest Neighbor Classifiation Mengklasifikasikan dokumen d ke dalam kelas Tentukan k-neighborhood N atau knn sebagai k terdekat dari d Hitung banyaknya dokumen i dalam N pada kelas Duga nilai d) i/k ilih map arg max d) C : k6 (6NN) siene )? Government Siene Arts JAS - DET. ILMU KOMUTER IB 29 JAS - DET. ILMU KOMUTER IB 30 JULIO ADISANTOSO - ILKOM IB 5

6 Ukuran Kemiripan : NN Metode knn tergantung pada ukuran kemiripan (bisa juga jarak) yang digunakan. aling sederhana adalah jarak Eulidean. Untuk teks, yang paling efektif adalah ukuran kemiripan osine dengan bobot vektor tf.idf. Skor dokumen di suatu kelas: dimana I (d ) jjk d ada dalam kelas, dan sebaliknya 0. Dengan menggunakan jarak Eulidean, maka: d -d 5 d 2 -d 5 d 3 -d 5.47 d 4 -d Maka d 5 lebih dekat ke kelas d 4. JAS - DET. ILMU KOMUTER IB 3 JAS - DET. ILMU KOMUTER IB 32 Kombinasi Metode Klasifikasi Beberapa peneliti menunjukkan bahwa kombinasi beberapa lassifier yang berbeda dapat meningkatkan akurasi. Classifier : X lass Classifier 2: X lass2 Jadi, X dimasukkan kemana? Kombinasi Metode Klasifikasi Simple voting Untuk tiap dokumen test, kita klasifikasikan ke kelas i jika mayoritas lassifier memasukkan dokumen test ke kelas i. Dynami lassifier seletion (DCS) endekatan knn dengan ukuran kesamaan Cosine, dilakukan iterasi. Adaptive lassifier ombination (ACC) Kombinasi NB dan knn JAS - DET. ILMU KOMUTER IB 33 JAS - DET. ILMU KOMUTER IB 34 JULIO ADISANTOSO - ILKOM IB 6

dokumen-dokumen yang mirip

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #8 Text Classification (Manning, Ch.13, p.288/253) Ad Hoc Retrieval vs Standing Query User mencari informasi dengan memberikan satu atau lebih query terhadap koleksi