J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu Komputer, Fakultas Sains dan Teknik, Universitas Nusa Cendana ABSTRAK Spam e-mail adalah e-mail yang tidak diinginkan yang dikirim secara otomatis kepada ribuan penerima oleh pihak-pihak tertentu yang dapat berisi promosi produk atau jasa, pornografi, virus, dan kontenkonten yang tidak penting. Dalam penelitian ini diusulkan penggunaan multinomial naïve bayes untuk pengklasifikasian e-mail. Fokus penelitian ini terdapat pada penggunaan mutual information untuk mengurangi dimensi fitur dari e-mail. Hasil pengujian menunjukkan bahwa penggunaan mutual information mampu memperbaiki performansi dari multinomial naïve bayes dari 49.894 fitur dengan akurasi 99.308% menjadi 6.000 fitur dengan akurasi 98.962%. Kata Kunci : Klasifikasi, Spam E-mail, Naïve Bayes, Mutual Information ABSTRACT Spam e-mails are unsolicited e-mails that are sent to recipients automatically by certain parties that include the promotion of products or services, pornography items, viruses and various unimportant contents. In this study we proposed the use of multinomial naïve bayes for spam e-mail classification. This study focuses on the use of mutual information to reduce feature dimension of the e-mail. The experiment results showed that mutual information able to improve the performance of multinomial naïve bayes classifier with 49.894 (number of features) and 99.308% (accuracy) to 6000 (number of features) and 98.962% (accuracy). Keyword: Classification, Spam E-mail, Naïve Bayes, Mutual Information. I. PENDAHULUAN Spam e-mail merupakan e-mail yang tidak diinginkan yang dikirim secara otomatis. Spam e- mail biasanya dikirimkan kepada ribuan penerima (recipient) oleh pihak-pihak tertentu yang dapat berisi promosi produk atau jasa, hal-hal yang berbau pornografi, virus, dan konten-konten yang tidak penting. Hal ini menyebabkan semakin padatnya queue atau antrian dari mail server yang digunakan, banyak waktu yang diperlukan untuk menghapus spam e-mail dari inbox, terbuangnya bandwith serta dapat menyebabkan penerima dibawah umur mengakses situs-situs yang tidak seharusnya. Oleh karena fasilitas e-mail yang murah dan kemudahan untuk mengirimkan pesan kepada sejumlah penerima, maka penyebaran spam e-mail menjadi tidak terkontrol. Untuk mengatasi masalah ini diperlukan suatu filter, salah satunya adalah klasifikasi, yang dapat memisahkan spam e-mail dan bukan spam e-mail. Naive bayes merupakan metode statistik yang sederhana dan memiliki akurasi yang baik dalam proses pengklasifikasian. Naïve bayes disebut juga multinomial naïve bayes merupakan model penyederhanaan dari algoritma bayes yang cocok dalam pengklasifikasian teks atau dokumen. Dalam klasifikasi menggunakan naïve bayes, nilai kategori dari suatu dokumen akan ditentukan berdasarkan fitur yang muncul dalam dokumen yang akan diklasifikasikan. Sebelum masuk dalam tahap pengklasifikasian akan dilakukan tahap pre-processing terhadap dokumen e-mail yang terdapat dalam dataset. Tahap pre-processing dilakukan untuk mengidentifikasi kata unik dalam seluruh dokumen yang dipilih seperti lemmatisasi, eliminasi stopword dan punctuation untuk memilih fitur atau kata kunci sebagai vocabulary. Proses ini dinamakan feature selection yang dilakukan untuk membantu mengeliminasi kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen berdasarkan frekuensi kemunculan kata tersebut, mengurangi ISSN 2337-7631
107 ISSN 2337-7631 noise dan untuk mengurangi dimensi dari suatu kumpulan teks (reduksi dimensionalitas). Reduksi dimensionalitas dapat memberikan model yang lebih mudah dimengerti karena melibatkan lebih sedikit atribut, waktu dan memory sehingga dapat mengurangi dimensi dari dataset. Di dalam feature selection terdapat metode mutual information yang akan digunakan dalam penelitian ini. Dalam beberapa penelitian menunjukkan bahwa mutual information digunakan untuk mengukur berapa banyak informasi (presence/absence) sebuah fitur berkontribusi dalam sebuah pengklasifikasian. Oleh karena itu dilakukan penelitian tentang klasifikasi spam e-mail menggunakan metode multinomial naïve bayes yang diharapkan dapat menjadi alat bantu (filter) dalam mengklasifikasikan spam e-mail sehingga dapat membantu user dalam mengatasi masalah yang berkaitan dengan spam e-mail. II. MATERI DAN METODE 2.1 Definisi Klasifikasi Teks Klasifikasi atau kategorisasi teks adalah proses penempatan suatu dokumen ke suatu kategori atau class sesuai dengan karakteristik dari dokumen tersebut. Dalam text mining, klasifikasi mengacu kepada aktifitas menganalisis atau mempelajari himpunan dokumen teks pre-classified untuk memperoleh suatu model atau fungsi yang dapat digunakan untuk mengelompokkan dokumen teks lain yang belum diketahui class-nya ke dalam satu atau lebih class pre-defined tersebut. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu fase information retrieval (IR) yakni untuk mendapatkan data numerik dari dokumen teks dan fase klasifikasi utama yakni dimana suatu algoritma memroses data numerik di atas untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan [1]. Gambaran umum klasifikasi teks dapat dilihat pada Gambar 1. 2.2 Corpus Gambar 1. Gambaran umum klasifikasi teks (Mahinovs, Tiwari 2007) Corpus didefinisikan sebagai kumpulan sistematis teks alami termasuk bahasa lisan maupun tertulis dimana struktur dan isi dari corpus mengikuti prinsip-prinsip linguistik tertentu [3]. Corpus yang digunakan dalam penelitian ini adalah corpus Lingspam yang terdiri dari 2893 pesan yang terdiri dari 2412 Ham (bukan spam) messages dan 481 spam messages. 2.3 Klasifikasi menggunakan Naïve Bayes Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Dalam naïve bayes, kemungkinan dokumen d berada di class c dihitung sebagai berikut [2] : P c d P c P(t k c) 1 k n d Keterangan: P c d = prior probability J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112
J-ICON ISSN 2337-7631 108 P(t k c =conditional probability Tujuan utama dalam klasifikasi teks adalah menemukan best class untuk sebuah dokumen. Best class dalam naïve bayes adalah yang paling mungkin atau maximum a posteriori (MAP) class c map : c map = argmax c C P c d = argmax c C P(c) P(t k c) 1 k n d Pada Persamaan diatas, banyak conditional probability yang dikalikan, satu untuk masing-masing posisi 1 k n d. Hal ini dapat mengakibatkan masalah underflow atau masalah yang muncul pada dokumen yang memiliki jumlah kata yang sangat besar. Hasil perkalian dari nilai-nilai conditional probability dari seluruh kata yang berjumlah sangat besar akan membuat variabel score bernilai sangat kecil. Nilai score yang sangat kecil dapat menimbulkan kesalahan saat dilakukan proses perbandingan. Oleh karena itu, lebih baik untuk melakukan perhitungan dengan menambahkan logaritma probabilitas daripada mengalikan probabilitas. Class dengan nilai probabilitas tertinggi masih yang paling mungkin. Oleh karena itu maksimalisasi yang sebenarnya dilakukan dalam kebanyakan implementasi dari naïve bayes adalah: c map = arg max c C [log P(c) + log P(t k c)] Keterangan: 1 k n d P = N c N N c = dokumen yang berada di class c N = jumlah dokumen Diperkirakan conditional probability P(t c) sebagai frekuensi relatif dari fitur t dalam dokumendokumen di class c dapat dihitung dengan persamaan: P(t c) = T ct + 1 T ct + 1 t V = T ct + 1 ( T ct ) + B t V Keterangan: B = V adalah jumlah fitur dalam vocabulary 2.4 Feature Selection menggunakan Mutual Information Di dalam proses klasifikasi menggunakan multinomial naïve bayes, akan dilakukan terlebih dahulu pre-processing e-mail (tokenisasi) dan feature selection menggunakan mutual information. Feature selection adalah suatu kegiatan yang umumnya dilakukan dalam preprocessing dan bertujuan untuk memilih fitur yang berpengaruh dan mengesampingkan fitur yang tidak berpengaruh dalam suatu kegiatan pemodelan atau analisa data [2]. Mutual information mengukur seberapa banyak informasi presence/absence dari sebuah fitur yang memberikan kontribusi untuk membuat keputusan klasifikasi yang benar di class tertentu. Secara umum persamaan mutual information dapat dinyatakan sebagai berikut [2] : NN 11 NN 01 NN 10 NN 00 I U; C = N 11 N log 2 + N 01 N 1. N.1 N log 2 + N 10 N 0. N.1 N log 2 + N 00 N 1. N.0 N log 2 N 0. N.0 dimana Ns adalah jumlah dokumen yang mempunyai nilai e t dan e c yang ditunjukkan oleh dua subscript. Sebagai contoh, N 10 adalah jumlah dokumen yang mengandung t (e t = 1) dan tidak termasuk dalam c (e c = 0). N 1. = N 10 + N 11 adalah jumlah dokumen yang Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam E-Mail (Tince E. Tallo)
AKTUAL 109 ISSN 2337-7631 mengandung t (e t = 1) dan kita menghitung dokumen independen dari keanggotaan class (e c {0, 1}). Jumlah total dokumen adalah N = N 00 + N 01 + N 10 + N 11. 2.5 Kriteria Evaluasi Untuk permasalahan dalam binary classification, kriteria evaluasi yang biasa digunakan adalah precision, recall dan accuracy [4] dan juga menggunakan F1-Measure. CLASSIFIER bukan spam spam bukan spam a b spam c d Rumus precision adalah: Precision = d b+d 100% Rumus recall adalah: Recall = d c+d 100% Rumus Accuracy adalah: Accuracy = a+d total email 100% Rumus menghitung F1-measure adalah: F 1 = 2 Precision Recall Precision +Recall III. HASIL DAN PEMBAHASAN 3.1 Pengujian Pengujian dilakukan untuk mengevaluasi hasil klasifikasi spam e-mail menggunakan naïve bayes dan membandingkan model yang dibangun hanya menggunakan metode naïve bayes dengan model yang menggunakan mutual information sebagai metode feature selection. Pengujian ini dilakukan untuk mengetahui pengaruh dari penggunaan mutual information yang dapat mereduksi fitur sehingga lebih efisien dalam hal penggunaan memory dan waktu klasifikasi. 3.2 Hasil Pengujian 1 Gambar 2 merupakan hasil pengujian terhadap model klasifikasi yang dibangun menggunakan metode naïve bayes (tanpa mutual information). Dari Gambar 5.1 dapat dilihat jumlah true positive sebanyak 47, true negative sebanyak 240, sedangkan false positive dan false negative berjumlah 1. Untuk parameter seperti F1 measure bernilai 0.979, accuracy 99.308%, precision 0.979%, dan recall 0.979%. J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112
J-ICON ISSN 2337-7631 110 3.3 Hasil Pengujian 2 Gambar 2. Hasil pengujian dengan naïve bayes Tabel 1 merupakan hasil pengujian 2 (eksperimen 1), yang dilakukan dengan jumlah fitur yang berbeda-beda serta parameter yang digunakan seperti pada hasil pengujian. Hasil pengujian menunjukkan bahwa nilai dari parameter precision, recall dan accuracy serta nilai true positive, true negative, false positive dan false negative cenderung identik untuk jumlah fitur 10.000-45.000, namun parameter-parameter tersebut memiliki nilai yang berbeda untuk jumlah fitur yang lebih kecil dari 10.000. Untuk mengetahui jumlah fitur yang paling baik maka dilakukan pengujian kembali namun difokuskan pada jumlah fitur yang lebih kecil dari 10.000 misalnya 5000, 6000, 7000, 8000, 9000. Hasil pengujian tersebut tampak pada Tabel 2 (eksperimen 2). Tabel 1. Hasil pengujian 2 eksperimen 1 No Jumlah Fitur Precision Recall F1 Measure Accuracy (%) (TP) (TN) (FP) (FN) 1 5000 0.242 0.958 0.387 49.481 46 97 144 2 2 10.000 0.959 0.979 0.979 99.308 47 240 1 1 3 15.000 0.959 0.979 0.979 99.308 47 240 1 1 4 20.000 0.959 0.979 0.979 99.308 47 240 1 1 5 25.000 0.959 0.979 0.979 99.308 47 240 1 1 6 35.000 0.959 0.979 0.979 99.308 47 240 1 1 7 45.000 0.959 0.979 0.979 99.308 47 240 1 1 Tabel 1. Hasil pengujian 2 eksperimen 2 No Jumlah Fitur Precision Recall F1 Measure Accuracy (%) (TP) (TN) (FP) (FN) 1 6000 0.959 0.979 0.969 98.962 47 239 2 1 2 7000 0.959 0.979 0.969 98.962 47 239 2 1 3 8000 0.959 0.979 0.969 98.962 47 239 2 1 4 9000 0.959 0.979 0.979 99.308 47 240 1 1 Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam E-Mail (Tince E. Tallo)
111 ISSN 2337-7631 3.4 Analisis Hasil Pengujian Berdasarkan hasil pengujian (Gambar 3) yang dilakukan maka dapat diketahui jumlah fitur yang paling baik dalam pengklasifikasian ini adalah 6.000 fitur karena jumlah fitur yg lebih kecil (5.000 fitur) memiliki hasil yang kurang baik sedangkan jumlah fitur yang lebih besar (10.000-45.000) memiliki hasil klasifikasi yang hampir sama dengan 6.000 fitur. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 5000 6000 7000 8000 9000 100001500020000250003500045000 Gambar 3. Grafik hasil pengujian F1 Measure Accuracy Di dalam hasil pengujian menggunakan 6.000 fitur ini temukan kasus dua file false positive (5-1218msg1.txt dan 3-442msg1.txt) dan satu file false negative (spmsg125.txt). Untuk kasus false positive (5-1218msg1.txt), fitur-fitur di dalam dokumen tersebut cenderung lebih banyak berada dalam class spam. Hal ini mengakibatkan nilai conditional probability mendominasi nilai keputusan classifier walaupun nilai prior probability-nya lebih rendah dari class bukan spam. Sebaliknya untuk kasus false negative (spmsga125.txt), fitur-fitur di dalam dokumen tersebut cenderung lebih banyak berada dalam class bukan spam. Hal ini mengakibatkan nilai prior probability mendominasi nilai keputusan classifier. IV. KESIMPULAN DAN SARAN 4.1 Kesimpulan Berdasarkan hasil pengujian maka dapat disimpulkan: 1. Multinomial naïve bayes mampu mengklasifikasikan spam e-mail dengan akurasi 99.308% (tanpa mutual information). 2. Penggunaan mutual information untuk mengurangi dimensi fitur mampu memperbaiki kinerja dari naïve bayes classifier dengan akurasi 98.962% dan jumlah fitur terbaik dalam pengklasifikasian adalah 6.000 jika dibandingkan dengan pemakaian seluruh fitur (49.894 fitur) yang memiliki akurasi yang hampir sama yaitu 99.308%. 3. Penggunaan jumlah fitur yang jauh lebih kecil daripada penggunaan seluruh fitur menghasilkan akurasi yang hampir sama dengan menggunakan waktu dan memory yang lebih sedikit. 4.2 Saran Diperlukan adanya penelitian lanjutan pada naïve bayes classifier khususnya dalam hal menangani dataset yang memiliki jumlah data yang tidak seimbang di dalam class (unbalanced data) serta penggunaan dataset berbahasa indonesia agar lebih mudah digunakan oleh pembaca. J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112
J-ICON ISSN 2337-7631 112 DAFTAR PUSTAKA [1] Mahinovs, Aigars., Tiwari, Ashutosh., 2007. Text classification method review, https://dspace.lib.cranfield.ac.uk/bitstream/1826/1860/1/mahinovs.pdf, diakses tanggal 15 september 2013Giarratano J, Riley G., 2005, Expert Sistem: Principle and Programming 4 th Edition, PWS Publishing Company, USA. [2] Manning, Christopher., Raghavan, Prabhakar., dan Schutze, Hinrich., 2009. An introduction to information retrieval,http://nlp.stanford.edu/irbook/pdf/irbookonlinereading.pdf, diakses tanggal 25 Agustus 2013 [3] Nesselhauf, Nadja., 2005. Corpus Linguistics : A Practical Introduction, http://www.as.uniheidelberg.de/personen/nesselhauf/files/corpus%20linguistics%20prac tical%20introduction.pdf, diakses tanggal 30 November 2013 [4] Sheu, Jyh-jian., 2008. An Efficient Two-Phase Spam Filtering Method Based On E-mails Categorization, http://ijns.femto.com.tw/contents/ijns-v9-n1/ijns-2009-v9-n1-p34-43.pdf, diakses tanggal 7 Oktober 2013 Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam E-Mail (Tince E. Tallo)