PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

dokumen-dokumen yang mirip
KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

1. Pendahuluan 1.1 Latar Belakang

BAB III METODE PENELITIAN

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN. Dataset

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Gambar 1.1 Proses Text Mining [7]

BAB IV HASIL DAN PEMBAHASAN

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes

Bandung, Indonesia Bandung, Indonesia

Prosiding Statistika ISSN:

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1.

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. Latar belakang

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB I PENDAHULUAN I-1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah. Informasi merupakan kebutuhan yang sangat penting dalam era

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier. Bayes Classifier PENDAHULUAN JULIO ADISANTOSO *, WILDAN RAHMAN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB 2 LANDASAN TEORI

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

BAB III METODOLOGI PENELITIAN

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

Jurnal Politeknik Caltex Riau

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

ANALISIS METODE NAIVE BAYESAN PADA APLIKASI SPAM FILTERING BERBASIS JAVA DESKTOP UNTUK MENGKLASIFIKASIKAN SUREL

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

PERBANDINGAN KINERJA ALGORITMA ID3 DAN C4.5 DALAM KLASIFIKASI SPAM-MAIL

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

BAB III ANALISA DAN PERANCANGAN SISTEM. Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem.

Online News Classification Using Multinomial Naive Bayes

BAB I PENDAHULUAN. perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar

BAB II TINJAUAN PUSTAKA

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

PENERAPAN DATA MINING UNTUK MENENTUKAN POTENSI HUJAN HARIAN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES

PEMBANGUNAN SPAM FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

SISTEM KLASIFIKASI PENYEBARAN PENYAKIT MATA DI JAWA BARAT DENGAN ALGORITMA ITERATIVE DICHOTOMISER 3 DAN NAÏVE BAYES CLASSIFIER

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Aplikasi Filtering of Spam Menggunakan Naïve Bayes

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Online News Classification Using Naive Bayes Classifier with Mutual Information for Feature Selection

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

Implementasi Pengembangan Smart Helpdesk di UPT TIK UNS Menggunakan Algoritma Naive Bayes Classifier

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio

PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA ABSTRAK

BAB I PENDAHULUAN. 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB 3 METODE PENELITIAN

BAB 3 LANDASAN TEORI

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

Klasifikasi Posting Twitter Kemacetan Lalu Lintas Kota Bandung Menggunakan Naive Bayesian Classification

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu Komputer, Fakultas Sains dan Teknik, Universitas Nusa Cendana ABSTRAK Spam e-mail adalah e-mail yang tidak diinginkan yang dikirim secara otomatis kepada ribuan penerima oleh pihak-pihak tertentu yang dapat berisi promosi produk atau jasa, pornografi, virus, dan kontenkonten yang tidak penting. Dalam penelitian ini diusulkan penggunaan multinomial naïve bayes untuk pengklasifikasian e-mail. Fokus penelitian ini terdapat pada penggunaan mutual information untuk mengurangi dimensi fitur dari e-mail. Hasil pengujian menunjukkan bahwa penggunaan mutual information mampu memperbaiki performansi dari multinomial naïve bayes dari 49.894 fitur dengan akurasi 99.308% menjadi 6.000 fitur dengan akurasi 98.962%. Kata Kunci : Klasifikasi, Spam E-mail, Naïve Bayes, Mutual Information ABSTRACT Spam e-mails are unsolicited e-mails that are sent to recipients automatically by certain parties that include the promotion of products or services, pornography items, viruses and various unimportant contents. In this study we proposed the use of multinomial naïve bayes for spam e-mail classification. This study focuses on the use of mutual information to reduce feature dimension of the e-mail. The experiment results showed that mutual information able to improve the performance of multinomial naïve bayes classifier with 49.894 (number of features) and 99.308% (accuracy) to 6000 (number of features) and 98.962% (accuracy). Keyword: Classification, Spam E-mail, Naïve Bayes, Mutual Information. I. PENDAHULUAN Spam e-mail merupakan e-mail yang tidak diinginkan yang dikirim secara otomatis. Spam e- mail biasanya dikirimkan kepada ribuan penerima (recipient) oleh pihak-pihak tertentu yang dapat berisi promosi produk atau jasa, hal-hal yang berbau pornografi, virus, dan konten-konten yang tidak penting. Hal ini menyebabkan semakin padatnya queue atau antrian dari mail server yang digunakan, banyak waktu yang diperlukan untuk menghapus spam e-mail dari inbox, terbuangnya bandwith serta dapat menyebabkan penerima dibawah umur mengakses situs-situs yang tidak seharusnya. Oleh karena fasilitas e-mail yang murah dan kemudahan untuk mengirimkan pesan kepada sejumlah penerima, maka penyebaran spam e-mail menjadi tidak terkontrol. Untuk mengatasi masalah ini diperlukan suatu filter, salah satunya adalah klasifikasi, yang dapat memisahkan spam e-mail dan bukan spam e-mail. Naive bayes merupakan metode statistik yang sederhana dan memiliki akurasi yang baik dalam proses pengklasifikasian. Naïve bayes disebut juga multinomial naïve bayes merupakan model penyederhanaan dari algoritma bayes yang cocok dalam pengklasifikasian teks atau dokumen. Dalam klasifikasi menggunakan naïve bayes, nilai kategori dari suatu dokumen akan ditentukan berdasarkan fitur yang muncul dalam dokumen yang akan diklasifikasikan. Sebelum masuk dalam tahap pengklasifikasian akan dilakukan tahap pre-processing terhadap dokumen e-mail yang terdapat dalam dataset. Tahap pre-processing dilakukan untuk mengidentifikasi kata unik dalam seluruh dokumen yang dipilih seperti lemmatisasi, eliminasi stopword dan punctuation untuk memilih fitur atau kata kunci sebagai vocabulary. Proses ini dinamakan feature selection yang dilakukan untuk membantu mengeliminasi kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen berdasarkan frekuensi kemunculan kata tersebut, mengurangi ISSN 2337-7631

107 ISSN 2337-7631 noise dan untuk mengurangi dimensi dari suatu kumpulan teks (reduksi dimensionalitas). Reduksi dimensionalitas dapat memberikan model yang lebih mudah dimengerti karena melibatkan lebih sedikit atribut, waktu dan memory sehingga dapat mengurangi dimensi dari dataset. Di dalam feature selection terdapat metode mutual information yang akan digunakan dalam penelitian ini. Dalam beberapa penelitian menunjukkan bahwa mutual information digunakan untuk mengukur berapa banyak informasi (presence/absence) sebuah fitur berkontribusi dalam sebuah pengklasifikasian. Oleh karena itu dilakukan penelitian tentang klasifikasi spam e-mail menggunakan metode multinomial naïve bayes yang diharapkan dapat menjadi alat bantu (filter) dalam mengklasifikasikan spam e-mail sehingga dapat membantu user dalam mengatasi masalah yang berkaitan dengan spam e-mail. II. MATERI DAN METODE 2.1 Definisi Klasifikasi Teks Klasifikasi atau kategorisasi teks adalah proses penempatan suatu dokumen ke suatu kategori atau class sesuai dengan karakteristik dari dokumen tersebut. Dalam text mining, klasifikasi mengacu kepada aktifitas menganalisis atau mempelajari himpunan dokumen teks pre-classified untuk memperoleh suatu model atau fungsi yang dapat digunakan untuk mengelompokkan dokumen teks lain yang belum diketahui class-nya ke dalam satu atau lebih class pre-defined tersebut. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu fase information retrieval (IR) yakni untuk mendapatkan data numerik dari dokumen teks dan fase klasifikasi utama yakni dimana suatu algoritma memroses data numerik di atas untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan [1]. Gambaran umum klasifikasi teks dapat dilihat pada Gambar 1. 2.2 Corpus Gambar 1. Gambaran umum klasifikasi teks (Mahinovs, Tiwari 2007) Corpus didefinisikan sebagai kumpulan sistematis teks alami termasuk bahasa lisan maupun tertulis dimana struktur dan isi dari corpus mengikuti prinsip-prinsip linguistik tertentu [3]. Corpus yang digunakan dalam penelitian ini adalah corpus Lingspam yang terdiri dari 2893 pesan yang terdiri dari 2412 Ham (bukan spam) messages dan 481 spam messages. 2.3 Klasifikasi menggunakan Naïve Bayes Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Dalam naïve bayes, kemungkinan dokumen d berada di class c dihitung sebagai berikut [2] : P c d P c P(t k c) 1 k n d Keterangan: P c d = prior probability J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112

J-ICON ISSN 2337-7631 108 P(t k c =conditional probability Tujuan utama dalam klasifikasi teks adalah menemukan best class untuk sebuah dokumen. Best class dalam naïve bayes adalah yang paling mungkin atau maximum a posteriori (MAP) class c map : c map = argmax c C P c d = argmax c C P(c) P(t k c) 1 k n d Pada Persamaan diatas, banyak conditional probability yang dikalikan, satu untuk masing-masing posisi 1 k n d. Hal ini dapat mengakibatkan masalah underflow atau masalah yang muncul pada dokumen yang memiliki jumlah kata yang sangat besar. Hasil perkalian dari nilai-nilai conditional probability dari seluruh kata yang berjumlah sangat besar akan membuat variabel score bernilai sangat kecil. Nilai score yang sangat kecil dapat menimbulkan kesalahan saat dilakukan proses perbandingan. Oleh karena itu, lebih baik untuk melakukan perhitungan dengan menambahkan logaritma probabilitas daripada mengalikan probabilitas. Class dengan nilai probabilitas tertinggi masih yang paling mungkin. Oleh karena itu maksimalisasi yang sebenarnya dilakukan dalam kebanyakan implementasi dari naïve bayes adalah: c map = arg max c C [log P(c) + log P(t k c)] Keterangan: 1 k n d P = N c N N c = dokumen yang berada di class c N = jumlah dokumen Diperkirakan conditional probability P(t c) sebagai frekuensi relatif dari fitur t dalam dokumendokumen di class c dapat dihitung dengan persamaan: P(t c) = T ct + 1 T ct + 1 t V = T ct + 1 ( T ct ) + B t V Keterangan: B = V adalah jumlah fitur dalam vocabulary 2.4 Feature Selection menggunakan Mutual Information Di dalam proses klasifikasi menggunakan multinomial naïve bayes, akan dilakukan terlebih dahulu pre-processing e-mail (tokenisasi) dan feature selection menggunakan mutual information. Feature selection adalah suatu kegiatan yang umumnya dilakukan dalam preprocessing dan bertujuan untuk memilih fitur yang berpengaruh dan mengesampingkan fitur yang tidak berpengaruh dalam suatu kegiatan pemodelan atau analisa data [2]. Mutual information mengukur seberapa banyak informasi presence/absence dari sebuah fitur yang memberikan kontribusi untuk membuat keputusan klasifikasi yang benar di class tertentu. Secara umum persamaan mutual information dapat dinyatakan sebagai berikut [2] : NN 11 NN 01 NN 10 NN 00 I U; C = N 11 N log 2 + N 01 N 1. N.1 N log 2 + N 10 N 0. N.1 N log 2 + N 00 N 1. N.0 N log 2 N 0. N.0 dimana Ns adalah jumlah dokumen yang mempunyai nilai e t dan e c yang ditunjukkan oleh dua subscript. Sebagai contoh, N 10 adalah jumlah dokumen yang mengandung t (e t = 1) dan tidak termasuk dalam c (e c = 0). N 1. = N 10 + N 11 adalah jumlah dokumen yang Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam E-Mail (Tince E. Tallo)

AKTUAL 109 ISSN 2337-7631 mengandung t (e t = 1) dan kita menghitung dokumen independen dari keanggotaan class (e c {0, 1}). Jumlah total dokumen adalah N = N 00 + N 01 + N 10 + N 11. 2.5 Kriteria Evaluasi Untuk permasalahan dalam binary classification, kriteria evaluasi yang biasa digunakan adalah precision, recall dan accuracy [4] dan juga menggunakan F1-Measure. CLASSIFIER bukan spam spam bukan spam a b spam c d Rumus precision adalah: Precision = d b+d 100% Rumus recall adalah: Recall = d c+d 100% Rumus Accuracy adalah: Accuracy = a+d total email 100% Rumus menghitung F1-measure adalah: F 1 = 2 Precision Recall Precision +Recall III. HASIL DAN PEMBAHASAN 3.1 Pengujian Pengujian dilakukan untuk mengevaluasi hasil klasifikasi spam e-mail menggunakan naïve bayes dan membandingkan model yang dibangun hanya menggunakan metode naïve bayes dengan model yang menggunakan mutual information sebagai metode feature selection. Pengujian ini dilakukan untuk mengetahui pengaruh dari penggunaan mutual information yang dapat mereduksi fitur sehingga lebih efisien dalam hal penggunaan memory dan waktu klasifikasi. 3.2 Hasil Pengujian 1 Gambar 2 merupakan hasil pengujian terhadap model klasifikasi yang dibangun menggunakan metode naïve bayes (tanpa mutual information). Dari Gambar 5.1 dapat dilihat jumlah true positive sebanyak 47, true negative sebanyak 240, sedangkan false positive dan false negative berjumlah 1. Untuk parameter seperti F1 measure bernilai 0.979, accuracy 99.308%, precision 0.979%, dan recall 0.979%. J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112

J-ICON ISSN 2337-7631 110 3.3 Hasil Pengujian 2 Gambar 2. Hasil pengujian dengan naïve bayes Tabel 1 merupakan hasil pengujian 2 (eksperimen 1), yang dilakukan dengan jumlah fitur yang berbeda-beda serta parameter yang digunakan seperti pada hasil pengujian. Hasil pengujian menunjukkan bahwa nilai dari parameter precision, recall dan accuracy serta nilai true positive, true negative, false positive dan false negative cenderung identik untuk jumlah fitur 10.000-45.000, namun parameter-parameter tersebut memiliki nilai yang berbeda untuk jumlah fitur yang lebih kecil dari 10.000. Untuk mengetahui jumlah fitur yang paling baik maka dilakukan pengujian kembali namun difokuskan pada jumlah fitur yang lebih kecil dari 10.000 misalnya 5000, 6000, 7000, 8000, 9000. Hasil pengujian tersebut tampak pada Tabel 2 (eksperimen 2). Tabel 1. Hasil pengujian 2 eksperimen 1 No Jumlah Fitur Precision Recall F1 Measure Accuracy (%) (TP) (TN) (FP) (FN) 1 5000 0.242 0.958 0.387 49.481 46 97 144 2 2 10.000 0.959 0.979 0.979 99.308 47 240 1 1 3 15.000 0.959 0.979 0.979 99.308 47 240 1 1 4 20.000 0.959 0.979 0.979 99.308 47 240 1 1 5 25.000 0.959 0.979 0.979 99.308 47 240 1 1 6 35.000 0.959 0.979 0.979 99.308 47 240 1 1 7 45.000 0.959 0.979 0.979 99.308 47 240 1 1 Tabel 1. Hasil pengujian 2 eksperimen 2 No Jumlah Fitur Precision Recall F1 Measure Accuracy (%) (TP) (TN) (FP) (FN) 1 6000 0.959 0.979 0.969 98.962 47 239 2 1 2 7000 0.959 0.979 0.969 98.962 47 239 2 1 3 8000 0.959 0.979 0.969 98.962 47 239 2 1 4 9000 0.959 0.979 0.979 99.308 47 240 1 1 Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam E-Mail (Tince E. Tallo)

111 ISSN 2337-7631 3.4 Analisis Hasil Pengujian Berdasarkan hasil pengujian (Gambar 3) yang dilakukan maka dapat diketahui jumlah fitur yang paling baik dalam pengklasifikasian ini adalah 6.000 fitur karena jumlah fitur yg lebih kecil (5.000 fitur) memiliki hasil yang kurang baik sedangkan jumlah fitur yang lebih besar (10.000-45.000) memiliki hasil klasifikasi yang hampir sama dengan 6.000 fitur. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 5000 6000 7000 8000 9000 100001500020000250003500045000 Gambar 3. Grafik hasil pengujian F1 Measure Accuracy Di dalam hasil pengujian menggunakan 6.000 fitur ini temukan kasus dua file false positive (5-1218msg1.txt dan 3-442msg1.txt) dan satu file false negative (spmsg125.txt). Untuk kasus false positive (5-1218msg1.txt), fitur-fitur di dalam dokumen tersebut cenderung lebih banyak berada dalam class spam. Hal ini mengakibatkan nilai conditional probability mendominasi nilai keputusan classifier walaupun nilai prior probability-nya lebih rendah dari class bukan spam. Sebaliknya untuk kasus false negative (spmsga125.txt), fitur-fitur di dalam dokumen tersebut cenderung lebih banyak berada dalam class bukan spam. Hal ini mengakibatkan nilai prior probability mendominasi nilai keputusan classifier. IV. KESIMPULAN DAN SARAN 4.1 Kesimpulan Berdasarkan hasil pengujian maka dapat disimpulkan: 1. Multinomial naïve bayes mampu mengklasifikasikan spam e-mail dengan akurasi 99.308% (tanpa mutual information). 2. Penggunaan mutual information untuk mengurangi dimensi fitur mampu memperbaiki kinerja dari naïve bayes classifier dengan akurasi 98.962% dan jumlah fitur terbaik dalam pengklasifikasian adalah 6.000 jika dibandingkan dengan pemakaian seluruh fitur (49.894 fitur) yang memiliki akurasi yang hampir sama yaitu 99.308%. 3. Penggunaan jumlah fitur yang jauh lebih kecil daripada penggunaan seluruh fitur menghasilkan akurasi yang hampir sama dengan menggunakan waktu dan memory yang lebih sedikit. 4.2 Saran Diperlukan adanya penelitian lanjutan pada naïve bayes classifier khususnya dalam hal menangani dataset yang memiliki jumlah data yang tidak seimbang di dalam class (unbalanced data) serta penggunaan dataset berbahasa indonesia agar lebih mudah digunakan oleh pembaca. J~ICON, Vol. 3 No. 2, Oktober 2015 : 106 ~112

J-ICON ISSN 2337-7631 112 DAFTAR PUSTAKA [1] Mahinovs, Aigars., Tiwari, Ashutosh., 2007. Text classification method review, https://dspace.lib.cranfield.ac.uk/bitstream/1826/1860/1/mahinovs.pdf, diakses tanggal 15 september 2013Giarratano J, Riley G., 2005, Expert Sistem: Principle and Programming 4 th Edition, PWS Publishing Company, USA. [2] Manning, Christopher., Raghavan, Prabhakar., dan Schutze, Hinrich., 2009. An introduction to information retrieval,http://nlp.stanford.edu/irbook/pdf/irbookonlinereading.pdf, diakses tanggal 25 Agustus 2013 [3] Nesselhauf, Nadja., 2005. Corpus Linguistics : A Practical Introduction, http://www.as.uniheidelberg.de/personen/nesselhauf/files/corpus%20linguistics%20prac tical%20introduction.pdf, diakses tanggal 30 November 2013 [4] Sheu, Jyh-jian., 2008. An Efficient Two-Phase Spam Filtering Method Based On E-mails Categorization, http://ijns.femto.com.tw/contents/ijns-v9-n1/ijns-2009-v9-n1-p34-43.pdf, diakses tanggal 7 Oktober 2013 Penggunaan Metode Multinomial Naïve Bayes Pada Klasifikasi Spam E-Mail (Tince E. Tallo)