KLASIFIKASI PADA TEXT MINING

dokumen-dokumen yang mirip
KLASIFIKASI PADA TEXT MINING

BAB II LANDASAN TEORI

JULIO ADISANTOSO - ILKOM IPB 1

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS CLUSTER PADA DOKUMEN TEKS

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB II TINJAUAN PUSTAKA

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB IV PREPROCESSING DATA MINING

BAB III METODE PENELITIAN

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

ANALISIS CLUSTER PADA DOKUMEN TEKS

Klasifikasi. Diadaptasi dari slide Jiawei Han

PENDAHULUAN. Latar belakang

BAB I PENDAHULUAN Latar Belakang

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi. Diadaptasi dari slide Jiawei Han

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

TINJAUAN PUSTAKA. Definisi Data Mining

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB II TINJAUAN PUSTAKA

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB III METODOLOGI PENELITIAN. Dataset

Gambar 1.1 Proses Text Mining [7]

Prosiding Statistika ISSN:

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB II LANDASAN TEORI

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 3 METODE PENELITIAN

Bandung, Indonesia Bandung, Indonesia

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 2. Landasan Teori

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM KLASIFIKASI PENYEBARAN PENYAKIT MATA DI JAWA BARAT DENGAN ALGORITMA ITERATIVE DICHOTOMISER 3 DAN NAÏVE BAYES CLASSIFIER

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Online News Classification Using Naive Bayes Classifier with Mutual Information for Feature Selection

BAB IV HASIL DAN PEMBAHASAN

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

BAB 3 LANDASAN TEORI

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R)

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

KLASIFIKASI TEKS BAHASA BALI DENGAN METODE SUPERVISED LEARNING NAIVE BAYES CLASSIFIER

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN I - 1

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

HASIL DAN PEMBAHASAN. Praproses

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

LEARNING ARTIFICIAL INTELLIGENT

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

APLIKASI PENENTUAN ANGGOTA KELAS UNGGULAN DENGAN METODE NAÏVE BAYES

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

ROCCHIO CLASSIFICATION

BAB 2 LANDASAN TEORI

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB I PENDAHULUAN 1.1 Latar Belakang

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB I PENDAHULUAN 1.1. Latar Belakang

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENDAHULUAN TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Jurnal Politeknik Caltex Riau

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

Transkripsi:

Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1

Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision Tree Menjelaskan implementasi algoritma klasifikasi pada text corpus. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2

Pendahuluan Masalah klasifikasi adalah bagaimana menentukan suatu objek masuk ke suatu class yang sebenarnya. Dalam text mining, suatu class lebih bersifat area subjek umum. (disebut juga Topik). Pekerjaan klasifikasi disebut sebagai text classification, text categorization, topic classification, atau topic spotting. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3

Contoh Implementasi Identifikasi bahasa suatu dokumen Mendeteksi encoding dokumen Mendeteksi otomatis halaman/email spam Sentiment detection Personal email sorting Topic-specific (vertical search) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4

Machine Learning Klasifikasi dilakukan berdasar pembelajaran dari kumpulan dokumen untuk mendapatkan suatu pola tiap class. Pola dapat berupa suatu rule Pembelajaran untuk mendapatkan pola atau kriteria keputusan suatu class oleh komputer dilakukan dengan cara mempelajari secara otomatis dari data pelatihan (training data). Jika menggunakan metode statisik, disebut statistical text classification. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5

Machine Learning Diperlukan sejumlah dokumen (training document) yang sangat baik untuk tiap class. Harus dilakukan dengan cara manual terkait pemberian label class tiap training document. Aktifitas ini disebut labeling Semua algoritma klasifikasi dalam text mining mewakili dokumen dalam suatu ruang dimensi yang tinggi. Untuk mengifisiensikan, diperlukan pengurangan dimensi Disebut dengan feature selection. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6

Konsep Dasar Supervised learning γ : Χ C γ Setelah mempelajari, kita dapat menerapkannya untuk himpunan dokumen test. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7

Proses Klasifikasi Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8

Naïve Bayes Text Classification Menurut metode multinomial Naïve Bayes, probabilitas suatu dokumen, d, sebagai bagian dari anggota class c dihitung sebagai: P(t k c) adalah probabilitas kondisi kemunculan term t k dalam sebuah dokumen class c. Seberapa yakin t k berkontribusi bahwa c adalah kelas yang benar P(c) adalah probabilitas kemunculan sebuah dokumen dalam kelas c. <t 1, t 2,, t nd > adalah token-token dalam d. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9

Naïve Bayes Text Classification Sebuah dokumen test terpilih masuk sebagai anggota suatu class terbaik jika memiliki maximum a posteriori (MAP) kelas c map : Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10

Naïve Bayes Text Classification Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11

Contoh Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12

Feature Selection Feature Selection adalah proses pemilihan sebuah subset term yang muncul dalam himpunan training. Klasifikasi teks hanya akan menggunakan hasil feature selection. Alasan: Agar metode pengklasifikasian lebih efisien dengan mengurangi ukuran vocabulary. Meningkatkan akurasi klasifikasi dengan membuang feature noise. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13

Feature Selection Algoritma dasar: Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14

Feature Selection: Mutual Information A(t,c) nilai mutual information dari term t dan class c. MI mengukur seberapa besar kontribusi ada/ tidaknya suatu term, t, dalam pembuatan keputusan klasifikasi yang benar, c. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15

Contoh MI Class poultry dan term export: Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16

Feature Selection: χ 2 Pada statistik, test digunakan untuk menguji independensi antar dua kejadian. Dua kejadian, A dan B, dikatakan independen jika P(AB)=P(A)P(B). χ 2 A adalah kemunculan term B adalah kemunculan class Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17

Contoh χ 2 Berdasar contoh data slide 16 Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18

Feature Selection: Frequency-based Memilih term-term yang paling umum dalam kelas. Frekuensi dapat didefinisikan sebagai frekuensi dokumen Jumlah dokumen dalam kelas, c, yang mengandung term, t. Frekuensi dapat didefinisikan sebagai frekuensi koleksi Jumlah token-token, t, yang muncul di dokumendokumen dalam kelas, c. Lebih cocok untuk Naïve Bayes classifier. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19

Decision Tree Decision Tree dibangun dengan cara membagi data pelatihan sehingga hasil subset adalah pure. pure subset adalah salah satu yang berisi contoh pelatihan dari suatu kelas tunggal. Sebuah decision tree dapat diubah menjadi himpunan aturan if-then. Setiap aturan yang dihasilkan bersifat mutually exclusive dan lengkap. Setiap instan data dicakup oleh sebuah aturan tunggal. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20

Algoritma Decission Tree Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21

Decision Tree Salah satu hal terpenting dalam pembentukan decission tree adalah pemilihan impurity function. Fungsi yang meminimalkan impurity setelah pembagian. Impurity function yang terkenal: Information gain dan information gain ratio. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22

Information Gain (IG) Diberikan himpunan data, D, hidtung impurity D dengan entropy(d): Evaluasi tiap atribut untuk menemukan atribut mana yang terpilih mengurangi impurity. Hitung IG atribut A Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23

Contoh Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24

Contoh Entropy(D) = entropy([9,5]) = 0.940 bit Entropy(A outlook, D) = (5/14) 0.971 + (4/14) 0 + (5/14) 0.971 = 0.693 bit Gain(outlook) = Entropy(D) - Entropy(A outlook, D) = 0.247 bit Hitunglah IG untuk atribut yang lain: Gain(temperature) =? Gain(humidity) =? Gain(windy) =? Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25

k-nn Pada knn, setiap dokumen dimasukkan dalam satu kelas yang muncul terbanyak di antara k tetangga terdekatnya. Sebuah dokumen uji, d, diharapkan memiliki label kelas yang sama dengan dokumen latih yang berada pada satu area lokal disekitar d. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26

k-nn Terdapat alternatif probabilistik untuk memperkirakan keanggotaan kelas sebuah dokumen uji. P(lingkaran bintang) = 1/3 P(X bintang) = 2/3 P(diamond bintang) = 0 Pemilihan nilai k disarakan bernilai ganjil, k=3 dan k=5 umum digunakan. Namun nilai k besar juga digunakan, antara 50-100. Penghitungan dokumen latih yang dekat dengan dokumen uji dapat digunakan Euclidean, Minkowski Distance. Untuk mengukur bobot vote untuk k-nn, dapat digunakan cosine. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27

Algoritma k-nn Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28

Contoh!nggi berat label 160 80 O 150 45 N 145 44 N 148 75 O 158 56 N 175 80 O 165 70??? Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29

Evaluasi Accuracy (Jumlah terklasifikasi benar/total dokumen)*100 Metode evaluasi: Holdout set (test set) D=D train D test, dan D tran D test =. Biasanya 50-50, atau 2/3 train dan 1/3 test. n-fold Cross-validation Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30

Evaluasi Jika pengklasifikasian dilakukan terhadap topik tertentu, misalnya positif jika benar masuk ke topik, dan negatif jika tidak. Pengukuran akurasi dipandang tidak optimal, jika ternyata terdapat dokumen uji yang mengganggu Pengukuran Recall dan Precision lebih optimal. Menghitung seberapa tepat dan lengkap klasifikasi terhadap kelas positif. Menggunakan confusion matrix Berisi informasi hasil aktual dan prediksi yang dihasilkan oleh pengklasifikasi. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31

Evaluasi Confusion Matrix Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32

Akhir pertemuan #5 TERIMA KASIH. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33