PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

Transkripsi

1 J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu Komputer, Fakultas Sains dan Teknik, Universitas Nusa Cendana ABSTRAK Spam adalah yang tidak diinginkan yang dikirim secara otomatis kepada ribuan penerima oleh pihak-pihak tertentu yang dapat berisi promosi produk atau jasa, pornografi, virus, dan kontenkonten yang tidak penting. Dalam penelitian ini diusulkan penggunaan multinomial naïve bayes untuk pengklasifikasian . Fokus penelitian ini terdapat pada penggunaan mutual information untuk mengurangi dimensi fitur dari . Hasil pengujian menunjukkan bahwa penggunaan mutual information mampu memperbaiki performansi dari multinomial naïve bayes dari fitur dengan akurasi % menjadi fitur dengan akurasi %. Kata Kunci : Klasifikasi, Spam , Naïve Bayes, Mutual Information ABSTRACT Spam s are unsolicited s that are sent to recipients automatically by certain parties that include the promotion of products or services, pornography items, viruses and various unimportant contents. In this study we proposed the use of multinomial naïve bayes for spam classification. This study focuses on the use of mutual information to reduce feature dimension of the . The experiment results showed that mutual information able to improve the performance of multinomial naïve bayes classifier with (number of features) and % (accuracy) to 6000 (number of features) and % (accuracy). Keyword: Classification, Spam , Naïve Bayes, Mutual Information. I. PENDAHULUAN Spam merupakan yang tidak diinginkan yang dikirim secara otomatis. Spam e- mail biasanya dikirimkan kepada ribuan penerima (recipient) oleh pihak-pihak tertentu yang dapat berisi promosi produk atau jasa, hal-hal yang berbau pornografi, virus, dan konten-konten yang tidak penting. Hal ini menyebabkan semakin padatnya queue atau antrian dari mail server yang digunakan, banyak waktu yang diperlukan untuk menghapus spam dari inbox, terbuangnya bandwith serta dapat menyebabkan penerima dibawah umur mengakses situs-situs yang tidak seharusnya. Oleh karena fasilitas yang murah dan kemudahan untuk mengirimkan pesan kepada sejumlah penerima, maka penyebaran spam menjadi tidak terkontrol. Untuk mengatasi masalah ini diperlukan suatu filter, salah satunya adalah klasifikasi, yang dapat memisahkan spam dan bukan spam . Naive bayes merupakan metode statistik yang sederhana dan memiliki akurasi yang baik dalam proses pengklasifikasian. Naïve bayes disebut juga multinomial naïve bayes merupakan model penyederhanaan dari algoritma bayes yang cocok dalam pengklasifikasian teks atau dokumen. Dalam klasifikasi menggunakan naïve bayes, nilai kategori dari suatu dokumen akan ditentukan berdasarkan fitur yang muncul dalam dokumen yang akan diklasifikasikan. Sebelum masuk dalam tahap pengklasifikasian akan dilakukan tahap pre-processing terhadap dokumen yang terdapat dalam dataset. Tahap pre-processing dilakukan untuk mengidentifikasi kata unik dalam seluruh dokumen yang dipilih seperti lemmatisasi, eliminasi stopword dan punctuation untuk memilih fitur atau kata kunci sebagai vocabulary. Proses ini dinamakan feature selection yang dilakukan untuk membantu mengeliminasi kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen berdasarkan frekuensi kemunculan kata tersebut, mengurangi ISSN

2 107 ISSN noise dan untuk mengurangi dimensi dari suatu kumpulan teks (reduksi dimensionalitas). Reduksi dimensionalitas dapat memberikan model yang lebih mudah dimengerti karena melibatkan lebih sedikit atribut, waktu dan memory sehingga dapat mengurangi dimensi dari dataset. Di dalam feature selection terdapat metode mutual information yang akan digunakan dalam penelitian ini. Dalam beberapa penelitian menunjukkan bahwa mutual information digunakan untuk mengukur berapa banyak informasi (presence/absence) sebuah fitur berkontribusi dalam sebuah pengklasifikasian. Oleh karena itu dilakukan penelitian tentang klasifikasi spam menggunakan metode multinomial naïve bayes yang diharapkan dapat menjadi alat bantu (filter) dalam mengklasifikasikan spam sehingga dapat membantu user dalam mengatasi masalah yang berkaitan dengan spam . II. MATERI DAN METODE 2.1 Definisi Klasifikasi Teks Klasifikasi atau kategorisasi teks adalah proses penempatan suatu dokumen ke suatu kategori atau class sesuai dengan karakteristik dari dokumen tersebut. Dalam text mining, klasifikasi mengacu kepada aktifitas menganalisis atau mempelajari himpunan dokumen teks pre-classified untuk memperoleh suatu model atau fungsi yang dapat digunakan untuk mengelompokkan dokumen teks lain yang belum diketahui class-nya ke dalam satu atau lebih class pre-defined tersebut. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu fase information retrieval (IR) yakni untuk mendapatkan data numerik dari dokumen teks dan fase klasifikasi utama yakni dimana suatu algoritma memroses data numerik di atas untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan [1]. Gambaran umum klasifikasi teks dapat dilihat pada Gambar Corpus Gambar 1. Gambaran umum klasifikasi teks (Mahinovs, Tiwari 2007) Corpus didefinisikan sebagai kumpulan sistematis teks alami termasuk bahasa lisan maupun tertulis dimana struktur dan isi dari corpus mengikuti prinsip-prinsip linguistik tertentu [3]. Corpus yang digunakan dalam penelitian ini adalah corpus Lingspam yang terdiri dari 2893 pesan yang terdiri dari 2412 Ham (bukan spam) messages dan 481 spam messages. 2.3 Klasifikasi menggunakan Naïve Bayes Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Dalam naïve bayes, kemungkinan dokumen d berada di class c dihitung sebagai berikut [2] : P c d P c P(t k c) 1 k n d Keterangan: P c d = prior probability J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112

3 J-ICON ISSN P(t k c =conditional probability Tujuan utama dalam klasifikasi teks adalah menemukan best class untuk sebuah dokumen. Best class dalam naïve bayes adalah yang paling mungkin atau maximum a posteriori (MAP) class c map : c map = argmax c C P c d = argmax c C P(c) P(t k c) 1 k n d Pada Persamaan diatas, banyak conditional probability yang dikalikan, satu untuk masing-masing posisi 1 k n d. Hal ini dapat mengakibatkan masalah underflow atau masalah yang muncul pada dokumen yang memiliki jumlah kata yang sangat besar. Hasil perkalian dari nilai-nilai conditional probability dari seluruh kata yang berjumlah sangat besar akan membuat variabel score bernilai sangat kecil. Nilai score yang sangat kecil dapat menimbulkan kesalahan saat dilakukan proses perbandingan. Oleh karena itu, lebih baik untuk melakukan perhitungan dengan menambahkan logaritma probabilitas daripada mengalikan probabilitas. Class dengan nilai probabilitas tertinggi masih yang paling mungkin. Oleh karena itu maksimalisasi yang sebenarnya dilakukan dalam kebanyakan implementasi dari naïve bayes adalah: c map = arg max c C [log P(c) + log P(t k c)] Keterangan: 1 k n d P = N c N N c = dokumen yang berada di class c N = jumlah dokumen Diperkirakan conditional probability P(t c) sebagai frekuensi relatif dari fitur t dalam dokumendokumen di class c dapat dihitung dengan persamaan: P(t c) = T ct + 1 T ct + 1 t V = T ct + 1 ( T ct ) + B t V Keterangan: B = V adalah jumlah fitur dalam vocabulary 2.4 Feature Selection menggunakan Mutual Information Di dalam proses klasifikasi menggunakan multinomial naïve bayes, akan dilakukan terlebih dahulu pre-processing (tokenisasi) dan feature selection menggunakan mutual information. Feature selection adalah suatu kegiatan yang umumnya dilakukan dalam preprocessing dan bertujuan untuk memilih fitur yang berpengaruh dan mengesampingkan fitur yang tidak berpengaruh dalam suatu kegiatan pemodelan atau analisa data [2]. Mutual information mengukur seberapa banyak informasi presence/absence dari sebuah fitur yang memberikan kontribusi untuk membuat keputusan klasifikasi yang benar di class tertentu. Secara umum persamaan mutual information dapat dinyatakan sebagai berikut [2] : NN 11 NN 01 NN 10 NN 00 I U; C = N 11 N log 2 + N 01 N 1. N.1 N log 2 + N 10 N 0. N.1 N log 2 + N 00 N 1. N.0 N log 2 N 0. N.0 dimana Ns adalah jumlah dokumen yang mempunyai nilai e t dan e c yang ditunjukkan oleh dua subscript. Sebagai contoh, N 10 adalah jumlah dokumen yang mengandung t (e t = 1) dan tidak termasuk dalam c (e c = 0). N 1. = N 10 + N 11 adalah jumlah dokumen yang Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam (Tince E. Tallo)

4 AKTUAL 109 ISSN mengandung t (e t = 1) dan kita menghitung dokumen independen dari keanggotaan class (e c {0, 1}). Jumlah total dokumen adalah N = N 00 + N 01 + N 10 + N Kriteria Evaluasi Untuk permasalahan dalam binary classification, kriteria evaluasi yang biasa digunakan adalah precision, recall dan accuracy [4] dan juga menggunakan F1-Measure. CLASSIFIER bukan spam spam bukan spam a b spam c d Rumus precision adalah: Precision = d b+d 100% Rumus recall adalah: Recall = d c+d 100% Rumus Accuracy adalah: Accuracy = a+d total 100% Rumus menghitung F1-measure adalah: F 1 = 2 Precision Recall Precision +Recall III. HASIL DAN PEMBAHASAN 3.1 Pengujian Pengujian dilakukan untuk mengevaluasi hasil klasifikasi spam menggunakan naïve bayes dan membandingkan model yang dibangun hanya menggunakan metode naïve bayes dengan model yang menggunakan mutual information sebagai metode feature selection. Pengujian ini dilakukan untuk mengetahui pengaruh dari penggunaan mutual information yang dapat mereduksi fitur sehingga lebih efisien dalam hal penggunaan memory dan waktu klasifikasi. 3.2 Hasil Pengujian 1 Gambar 2 merupakan hasil pengujian terhadap model klasifikasi yang dibangun menggunakan metode naïve bayes (tanpa mutual information). Dari Gambar 5.1 dapat dilihat jumlah true positive sebanyak 47, true negative sebanyak 240, sedangkan false positive dan false negative berjumlah 1. Untuk parameter seperti F1 measure bernilai 0.979, accuracy %, precision 0.979%, dan recall 0.979%. J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112

5 J-ICON ISSN Hasil Pengujian 2 Gambar 2. Hasil pengujian dengan naïve bayes Tabel 1 merupakan hasil pengujian 2 (eksperimen 1), yang dilakukan dengan jumlah fitur yang berbeda-beda serta parameter yang digunakan seperti pada hasil pengujian. Hasil pengujian menunjukkan bahwa nilai dari parameter precision, recall dan accuracy serta nilai true positive, true negative, false positive dan false negative cenderung identik untuk jumlah fitur , namun parameter-parameter tersebut memiliki nilai yang berbeda untuk jumlah fitur yang lebih kecil dari Untuk mengetahui jumlah fitur yang paling baik maka dilakukan pengujian kembali namun difokuskan pada jumlah fitur yang lebih kecil dari misalnya 5000, 6000, 7000, 8000, Hasil pengujian tersebut tampak pada Tabel 2 (eksperimen 2). Tabel 1. Hasil pengujian 2 eksperimen 1 No Jumlah Fitur Precision Recall F1 Measure Accuracy (%) (TP) (TN) (FP) (FN) Tabel 1. Hasil pengujian 2 eksperimen 2 No Jumlah Fitur Precision Recall F1 Measure Accuracy (%) (TP) (TN) (FP) (FN) Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam (Tince E. Tallo)

6 111 ISSN Analisis Hasil Pengujian Berdasarkan hasil pengujian (Gambar 3) yang dilakukan maka dapat diketahui jumlah fitur yang paling baik dalam pengklasifikasian ini adalah fitur karena jumlah fitur yg lebih kecil (5.000 fitur) memiliki hasil yang kurang baik sedangkan jumlah fitur yang lebih besar ( ) memiliki hasil klasifikasi yang hampir sama dengan fitur Gambar 3. Grafik hasil pengujian F1 Measure Accuracy Di dalam hasil pengujian menggunakan fitur ini temukan kasus dua file false positive (5-1218msg1.txt dan 3-442msg1.txt) dan satu file false negative (spmsg125.txt). Untuk kasus false positive (5-1218msg1.txt), fitur-fitur di dalam dokumen tersebut cenderung lebih banyak berada dalam class spam. Hal ini mengakibatkan nilai conditional probability mendominasi nilai keputusan classifier walaupun nilai prior probability-nya lebih rendah dari class bukan spam. Sebaliknya untuk kasus false negative (spmsga125.txt), fitur-fitur di dalam dokumen tersebut cenderung lebih banyak berada dalam class bukan spam. Hal ini mengakibatkan nilai prior probability mendominasi nilai keputusan classifier. IV. KESIMPULAN DAN SARAN 4.1 Kesimpulan Berdasarkan hasil pengujian maka dapat disimpulkan: 1. Multinomial naïve bayes mampu mengklasifikasikan spam dengan akurasi % (tanpa mutual information). 2. Penggunaan mutual information untuk mengurangi dimensi fitur mampu memperbaiki kinerja dari naïve bayes classifier dengan akurasi % dan jumlah fitur terbaik dalam pengklasifikasian adalah jika dibandingkan dengan pemakaian seluruh fitur ( fitur) yang memiliki akurasi yang hampir sama yaitu %. 3. Penggunaan jumlah fitur yang jauh lebih kecil daripada penggunaan seluruh fitur menghasilkan akurasi yang hampir sama dengan menggunakan waktu dan memory yang lebih sedikit. 4.2 Saran Diperlukan adanya penelitian lanjutan pada naïve bayes classifier khususnya dalam hal menangani dataset yang memiliki jumlah data yang tidak seimbang di dalam class (unbalanced data) serta penggunaan dataset berbahasa indonesia agar lebih mudah digunakan oleh pembaca. J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112

7 J-ICON ISSN DAFTAR PUSTAKA [1] Mahinovs, Aigars., Tiwari, Ashutosh., Text classification method review, diakses tanggal 15 september 2013Giarratano J, Riley G., 2005, Expert Sistem: Principle and Programming 4 th Edition, PWS Publishing Company, USA. [2] Manning, Christopher., Raghavan, Prabhakar., dan Schutze, Hinrich., An introduction to information retrieval, diakses tanggal 25 Agustus 2013 [3] Nesselhauf, Nadja., Corpus Linguistics : A Practical Introduction, tical%20introduction.pdf, diakses tanggal 30 November 2013 [4] Sheu, Jyh-jian., An Efficient Two-Phase Spam Filtering Method Based On s Categorization, diakses tanggal 7 Oktober 2013 Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam (Tince E. Tallo)