ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI

dokumen-dokumen yang mirip
PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

PERBANDINGAN EFEKTIFITAS METODE USER-BASED COLLABORATIVE FILTERING DENGAN METODE USER-ITEM BASED COLLABORATIVE FILTERING

SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika. Disusun Oleh: WINA ISTI RETNANI NIM.

Aplikasi Dashboard sebagai Modul Executive Information System untuk Analisis Data Eksport Furniture di Indonesia SKRIPSI

PERBANDINGAN ALGORITMA COSINE SIMILARITY DAN CONFIDENCE PADA SISTEM REKOMENDASI DENGAN METODE ITEM BASED COLLABORATIVE FILTERING

PENERAPAN METODE ASSOCIATION RULES DAN COSINE SIMILARITY UNTUK PENGEMBANGAN FITUR DETEKSI DINI PENYAKIT

PENGARUH DUMMY VARIABLE PADA METODE NAÏVE BAYES DALAM KASUS KLASIFIKASI PENYAKIT KANDUNGAN

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA

PENGARUH PERBEDAAN STRATEGI METODE SELEKSI DALAM ALGORITMA GENETIKA UNTUK KOMPRESI CITRA FRAKTAL SKRIPSI

INTRUSION DETECTION SYSTEM (IDS) MENGGUNAKAN JARINGAN SYARAF TIRUAN ENSEMBLE

ii

Penentuan Model Terbaik pada Metode Naïve Bayes Classifier dalam Menentukan Status Gizi Balita

DIAGNOSA PENYAKIT PARU EFUSI PLEURA DENGAN PENDEKATAN POSSIBILISTIC FUZZY LEARNING VECTOR QUANTIZATION SKRIPSI

PEMANFAATAN WEB SERVICE MOODLE BERBASIS REST- JSON UNTUK MEMBANGUN MOODLE ONLINE LEARNING EXTENSION BERBASIS ANDROID

SHABRINA ROSE HAPSARI M SURAKARTA

SISTEM VALIDASI DOKUMEN TUGAS AKHIR UNIVERSITAS SEBELAS MARET DENGAN METODE FORWARD CHAINING

PENGEMBANGAN APLIKASI ESTIMASI UKURAN PERANGKAT LUNAK DENGAN PENDEKATAN FUNCTION POINT ANALYSIS

PERBANDINGAN ALGORITMA LEVENBERG-MARQUARDT DENGAN BACKPROPAGATION UNTUK MENDIAGNOSA JENIS PENYAKIT KANDUNGAN

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu. Program Studi Informatika. Disusun oleh : FAIRLY OKTA MAL

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh : YOSEFIN EVA CHRISTANTI M

PEMODELAN PENJADWALAN MULTILEVEL FEEDBACK QUEUE MENGGUNAKAN DYNAMIC TIME QUANTUM PADA KASUS PEMESANAN MAKANAN DI RESTORAN

PEMBANGUNAN SISTEM INFORMASI KEPEGAWAIAN UNIVERSITAS SEBELAS MARET SURAKARTA SUB PENILAIAN ANGKA KREDIT DOSEN FUNGSIONAL TUGAS AKHIR

SISTEM REKOMENDASI MAKANAN PENDAMPING AIR SUSU IBU (MPASI) DENGAN METODE NAÏVE BAYES DAN ATURAN MPASI

ASSOCIATION RULE MINING DATA PEMINJAMAN PERPUSTAKAAN MENGGUNAKAN KOMBINASI APRIORI DAN JACCARD SIMILARITY

SIMULASI SISTEM KONTROL HIDROLIK DENGAN PID CONTROLLER PADA EXCAVATOR SKRIPSI

OPTIMASI PRODUKSI MENGGUNAKAN ALGORITMA FUZZY LINEAR PROGRAMMING (STUDI KASUS: PRODUKSI TAS UKM CANTIK SOUVENIR) SKRIPSI

SISTEM REKOMENDASI PEMINJAMAN VCD DENGAN METODE ITEM BASED COLLABORATIVE FILTERING

SKRIPSI ANALISIS USER EXPERIENCE DAN USER INTERFACE DENGAN PENDEKATAN USER-CENTERED DESIGN STUDI KASUS: AKAKOM.AC.ID

IMPLEMENTASI METODE TOPSIS PADA SISTEM PENDUKUNG KEPUTUSAN SELEKSI CALON TENAGA KERJA DI PT. ASRY AMANAH TIMUR

PEMBANGUNAN SISTEM INFORMASI KEPEGAWAIAN SUB EKIVALENSI WAKTU MENGAJAR PENUH (EWMP) DOSEN UNIVERSITAS SEBELAS MARET

PENGUKURAN KINERJA METODE NAIVE BAYES PADA SISTEM DETEKSI KERUSAKAN MOTOR

PENGEMBANGAN APLIKASI DETEKSI HAMA DAN PENYAKIT TANAMAN PADI DI INDONESIA DENGAN METODE ASSOCIATION RULE DAN COSINE SIMILARITY

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL

DETEKSI HAMA DAN PENYAKIT TANAMAN PADI MEMANFAATKAN INPUT TEKSTUAL DENGAN METODE COSINE SIMILARITY SKRIPSI

PEMBUATAN SISTEM INFORMASI PENGELOLAAN DAN PELAPORAN UANG MASUK YPPP VETERAN SUKOHARJO MENGGUNAKAN FRAMEWORK YII2 TUGAS AKHIR

PEMANFAATAN METODE K-MEANS CLUSTERING DALAM PENENTUAN PENJURUSAN SISWA SMA SKRIPSI

Skripsi. Disusun Oleh : Arief Adi Nugroho M

SKRIPSI. Disusun Oleh : RISMA INDAH PURNAMA NIM. I PROGRAM STUDI TEKNIK SIPIL FAKULTAS TEKNIK UNIVERSITAS SEBELAS MARET SURAKARTA

SISTEM PENDUKUNG KEPUTUSAN UNTUK SELEKSI PENERIMAAN SISWA BARU TINGKAT SEKOLAH MENENGAH KEJURUAN (SMK) DENGAN METODE PROMETHEE

Disusun Oleh: Rahmad Afandi M

PENGEMBANGAN SUB SISTEM ASET PADA SISTEM INFORMASI MANAJEMEN SEKOLAH TUGAS AKHIR

GAMBARAN PENGETAHUAN SWAMEDIKASI GASTRITIS (MAAG) PADA MAHASISWA NON FARMASI FMIPA UNIVERSITAS SEBELAS MARET TUGAS AKHIR

MOTTO. Barang siapa keluar untuk mencari ilmu maka dia berada di jalan Allah (H.R. Turmudzi)

SISTEM INFORMASI PENJADWALAN SMK NEGERI 1 KEMUSU BOYOLALI TUGAS AKHIR

RATA-RATA KUADRAT SESATAN PENDUGA REGRESI DENGAN KOMBINASI LINIER DUA VARIABEL BANTU PADA SAMPEL ACAK SEDERHANA

SISTEM INFORMASI PENJUALAN PAKAIAN BERBASIS WEB DI TOKO AVISTA FASHION

PENGKLASIFIKASIAN UNTUK MENDETEKSI SPAM MENGGUNAKAN ALGORITMA NAIVE BAYESIAN ABSTRAK

PERTUMBUHAN NILAI INVESTASI, UNIT USAHA DAN PENYERAPAN TENAGA KERJA PADA SEKTOR INDUSTRI DI KOTA SURAKARTA (TAHUN )

MEMBANGUN APLIKASI TOKO HEWAN ONLINE DENGAN FRAMEWORK PHONEGAP TUGAS AKHIR

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN UNIVERSITAS SEBELAS MARET SURAKARTA 2013

APLIKASI PENDATAAN TESIS DAN DISERTASI PADA PROGRAM PASCASARJANA UNIVERSITAS SEBELAS MARET SURAKARTA TUGAS AKHIR

PENERAPAN METODE PROBABILITAS BAYESIAN DAN NEAREST NEIGHBOUR DALAM SISTEM PAKAR BERBASIS CASE BASED REASONING (CBR) KOMPETENSI KOMPUTASI SKRIPSI

Fakultas Ekonomi Universitas Sebelas Maret Surakarta 2015 commit to user

RIZAL KUSUMAJATI NUGROHO

SKRIPSI. Skripsi ini Disusun untuk Memenuhi Salah Satu Syarat. Memperoleh Ijazah S1 Gizi. Disusun oleh : EDO YULIANTO WICAKSONO J

PEMBUATAN APLIKASI PETA WISATA GUNUNG KIDUL BERBASIS FLASH TUGAS AKHIR

SISTEM PAKAR UNTUK MENGIDENTIFIKASI JENIS KAYU DENGAN METODE CERTAINTY FACTOR DAN FORWARD CHAINING

PEMBANGUNAN SISTEM INFORMASI EVALUASI PEMBELAJARAN MENGAJAR SMK NEGERI 1 SUKOHARJO TUGAS AKHIR

SISTEM INFORMASI MANAJEMEN SEKOLAH SUB SISTEM PENJADWALAN TUGAS AKHIR

PENGARUH METODE PEER LEARNING DENGAN PENDEKATAN MASTERY LEARNING TERHADAP KEMAMPUAN PEMAHAMAN KONSEP MATEMATIS SISWA MTS AL HIDAYAH PURWASABA

Disusun Oleh : Dinita Christy Pratiwi NIM. M

PEMBUATAN PROGRAM APLIKASI ADMINISTRASI NILAI BERBASIS JAVA STUDI KASUS DI SD KRISTEN BANJARSARI

oleh WAHYUNI PUTRANTO NIM. M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

IMPLEMENTASI ALGORITMA PALGUNADI DALAM OPTIMALISASI VEHICLE ROUTING PROBLEM DELIVERY AND PICK-UP (VRPDP)

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

ANALISA POLA SELERA MASYARAKAT KOTA SURAKARTA DALAM MEMILIH RUMAH MAKAN DENGAN MENGGUNAKAN ALGORITMA CT-PRO SKRIPSI

PEMBUATAN APLIKASI MOBILE TILANG KENDARAAN BERMOTOR

ANALISIS METAKOGNITIF SISWA DALAM PEMECAHAN MASALAH SEGIEMPAT PADA SISWA SMP. Disusun Oleh: APRILIA SUSANTI A

PEMERINGKATAN PENERIMA BEASISWA BANTUAN BELAJAR MAHASISWA DI FAKULTAS MIPA UNS MENGGUNAKAN FUZZY SIMPLE ADDITIVE WEIGHTING

PENERAPAN MODEL PEMBELAJARAN AKTIF TIPE EVERYONE IS A

SKRIPSI SISTEM PREDIKSI KONDISI KELAHIRAN BAYI MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES. Oleh : WAHYUNINGSIH

PEMBUATAN SISTEM NAVIGASI PENGISIAN MOBIL LISTRIK BERBASIS GOOGLE API UNTUK KOTA YOGYAKARTA DENGAN PLATFORM ANDROID SKRIPSI

APLIKASI PENGARSIPAN DATA MAHASISWA PENERIMA DANA KASIH DI UNIVERSITAS SEBELAS MARET

LAPORAN TUGAS AKHIR RANCANG BANGUN APLIKASI PENJUALAN KNALPOT BERBASIS WEB

Analisis Perbandingan Vector Space Model dan Weighted Tree Similarity pada Pencarian Informasi Ebook Pedoman Pengobatan Dasar di Puskesmas SKRIPSI

PENGARUH CORPORATE GOVERNANCE PERCEPTION INDEX

PENYUSUNAN INSTRUMEN TES FISIKA TENGAH SEMESTER GASAL UNTUK SISWA SMA KELAS XI

MODIFIKASI LEAST SIGNIFICANT BIT UNTUK MENINGKATKAN KETAHANAN PESAN TERHADAP CROPPING DAN NOISE SKRIPSI

SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014

oleh LILIS SETYORINI NIM. M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

SKRIPSI Disusun sebagai Syarat Memperoleh Gelar Sarjana Teknik Pada Program Studi Teknik Sipil Fakultas Teknik Universitas Sebelas Maret Surakarta

KEANEKARAGAMAN MAKROFAUNA TANAH PADA LAHAN TANAMAN PADI DENGAN SISTEM ROTASI DAN MONOKULTUR DI DESA BANYUDONO BOYOLALI. Skripsi

HUBUNGAN PEKERJAAN, PENGETAHUAN, PENDIDIKAN DAN USIA BALITA DENGAN KEAKTIFAN IBU BERKUNJUNG KE POSYANDU

ANALISIS PERBANDINGAN KINERJA KEUANGAN BANK SEBELUM DAN SESUDAH AKUISISI. (Studi pada PT Bank Mutiara Tbk)

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN LOKASI CABANG USAHA MENGGUNAKAN METODE AHP DAN VISUALISASI PETA (STUDI KASUS TOKO IVO BUSANA PADANG)

NILAI KARAKTER ANAK DI RA SUDIRMAN KARANGMOJO, TASIKMADU, KARANGANYAR

IMPLEMENTASI ALGORITMA PALGUNADI UNTUK MENYELESAIKAN SINGLE DAN MULTI PRODUCT VEHICLE ROUTING PROBLEM

TUGAS AKHIR SISTEM INFORMASI TUGAS AKHIR DIII TEKNIK INFORMATIKA FMIPA UNS

PEMBUATAN SISTEM INFORMASI RAPOR ONLINE (SIRALINE) UNTUK TINGKAT SMA BERBASIS WEB DENGAN MENGGUNAKAN FRAMEWORK CODEIGNITER.

ANALISIS KEMAMPUAN KONEKSI MATEMATIS SISWA KELAS VII MTS MUHAMMADIYAH PURWOKERTO

PENGARUH PELATIHAN, DISIPLIN KERJA, DAN KOMPENSASI TERHADAP KINERJA KARYAWAN PO. NUSANTARA KUDUS

PENGARUH PENAMBAHAN SERAT IJUK DAN SERAT SABUT KELAPA TERHADAP KUAT TEKAN DAN KUAT LENTUR PADA BETON SEBAGAI BAHAN AJAR MATA KULIAH TEKNOLOGI BETON

PENGARUH PENGUMUMAN PERINGKAT OBLIGASI TERHADAP REAKSI PASAR SAHAM DI BURSA EFEK INDONESIA

APLIKASI PENDATAAN DAN PENGELOLAAN ADMINISTRASI KEUANGAN PT MITRA LINTANG INDONESIA. Program Studi Diploma III Teknik Informatika.

APLIKASI PENDATAAN OPERASIONAL PT MITRA LINTANG INDONESIA. Tugas Akhir untuk memenuhi sebagian persyaratan mencapai derajat Diploma III

LAPORAN TUGAS AKHIR SISTEM PEMILIHAN PERUMAHAN DI BANYUMAS DENGAN METODE ANALYTIC HIERARCHY PROCESS

SISTEM INFORMASI MANAGEMENT SEKOLAH SUB SISTEM PENERIMAAN PESERTA DIDIK BARU UNTUK SEKOLAH DASAR TUGAS AKHIR

Transkripsi:

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun oleh : Andriyanto Dwi N NIM. M0508085 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2013 i

HALAMAN JUDUL ii

iii

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER ANDRIYANTO DWI NURAHMAT Jurusan Informatika.Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Sebelas Maret. ABSTRAK Spam pada email merupakan hal yang sangat menggangu maka diperlukan filtering untuk mengklasifikasikan email, terdapat beberapa metode yang dapat mengklasifikasikan email. Metode tersebut antara lain Bayesian Chi-Square dan Naïve Bayes Classifier, kedua metode tersebut mengklasifikan email secara matematis, untuk mengklasifikasikan email berdasarkan kata, frasa dan domain yang terdapat didalam email. Penelitian analisis spam filtering pada mail server ini menggunakan metode Bayesian-Chi Square dan Naïve Bayes Classifier. Kedua metode dibandingkan untuk mengetahui metode yang lebih efektif digunakan pada spam filtering. Keduanya diintegrasikan dengan mail server, selanjutnya dilakukan training dengan menggunakan dataset TREC2007 yang telah diklasifikasikan menjadi ham dan spam. Sampel data diperoleh dengan mengambil sebagian data secara random dari TREC2007. Pada tahap pengujian masing-masing bagian, dilakukan pengujian dengan sample data random yang berjumlah 300 email. Untuk menginputkan data training dilakukan secara bertahap tahap I data training berjumlah 750 email, tahap II berjumlah 1050 email, dan terakhir 1350. selanjutnya sampai pada tahap pengujian, pengujian dilakukan untuk setiap tahap training data di kedua metode tersebut. Pada metode Bayesian Chi-Square dilakukan pengujian dengan mengubah threshold antara spam dan ham, sehingga akan diketahui threshold yang terbaik untuk digunakan. Hasil penelitian dari serangkaian pengujian menunjukkan metode Bayesian Chi-Square mempunyai akurasi terbaik pada saat threshold 40 dan 60, dengan nilai akurasi 87%. Sementara metode Naïve Bayes Classifier memiliki hasil yang lebih baik dengan required default 5 mampu menghasilkan akurasi terbaik mencapai 92,6%, akurasi tinggi juga mengakibatkan beberapa tiper error menjadi tinggi seperti error spam menjadi ham yang berakibat mengganggu kinerja server, error kedua adalah ham menjadi spam akibatnya email yang seharusnya berada diinbox akan kespam atau terhapus. Untuk metode bayesian chi-square terdapat error unsure akibatnya user harus mengklasifikasikan email secara mandiri tetapi nilainya berbanding terbalik dengan akurasi. Kata Kunci : Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam iv

SPAM FILTERING ANALYSIS ON THE MAIL SERVER WITH THE BAYESIAN CHI-SQUARE METHODS AND THE NAIVE BAYES CLASSIFIER METHODS ANDRIYANTO DWI NURAHMAT Department of Informatic. Mathematic and Science Faculty. Sebelas Maret University ABSTRACT Spam is a very disturbing case, so it is necessary to filtering the classify email and there are several methods that can classify the email. the methods are Bayesian Chi-Square and Naïve Bayes Classifier, both are classify the email mathematically based on words, phrases and domains contained within the email. this Research of analysing spam filtering on the mail server is using the Bayesian-Chi Square and Naïve Bayes Classifier methods. Both were compared to determine which method is more effective on spam filtering. the methods could be integrated with the mail server, then training using the data set TREC2007 which have been classified into ham and spam. the Samples obtained take some random data from TREC2007. In the testing phase of each pieces, performed testing with 300 sample data of random email. gradually, Input training data first phase up to 750 emails, second phase up to 1050 email, and the last was 1350. next, the testing phase, the testing is done for each phase of training data in both methods. the Bayesian Chi- Square test method is done by changing the threshold between spam and ham, so there will know which is the best threshold to use. based on test result, the conclusion are the Bayesian Chi-Square method has the best accuracy threshold at 40 and 60, with the accuracy was 87%. While Naïve Bayes Classifier method had better results with the required default 5 is able to produce the best accuracy reaches 92,6%, this high accuracy also resulted in some type of the error such as errors result in spam being the ham that interfere the performance of the server, the second error is ham being spam which is the email that should be in inbox will become spam or deleted. there are error unsure in Chisquare bayesian that consequently the user must classify email independently but its value is inversely proportional to accuracy. Keywords: Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam v

MOTTO Karena sesungguhnya sesudah kesulitan itu ada kemudahan, sesungguhnya sesudah kesulitan itu ada kemudahan, Maka apabila kamu telah selesai (dari sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain (Q.S Alam Nasyrah : 5-7) Ingatlah, sesungguhnya pertolongan Allah itu amat dekat (Q.S Al-Baqarah : 214) Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila kamu telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh urusan yang lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap. (Q.S. 94 : 6-8) Sesuatu yang belum dikerjakan, seringkali tampak mustahil, kita baru yakin kalau kita telah berhasil melakukannya dengan baik (Evelyn Underhill) vi

PERSEMBAHAN Kupersembahkan karya ini kepada : Untuk Ayah ibu dan kakak yang selalu memberikan perhatian penuh untuk sahabatku Monica Tanuhita Putri yang selalu sabar untuk mengingatkan Teman-teman Informatika UNS khususnya angkatan 2008 untuk kebersamaan dan dukungannya vii

KATA PENGANTAR Bismillahirrahmaanirrahiim Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta ala yang senantiasa memberikan nikmat dan karunia-nya sehingga penulis dapat menyelesaikan skripsi dengan judul Analisis Spam Filtering pada Mail Server dengan Metode Bayesian-Chi Square dan Naïve Bayes classifier, yang menjadi salah satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS) Surakarta. Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada : 1. Ibu Umi Salamah,S.Si.,M.Kom. selaku Ketua Jurusan S1 Informatika, 2. Bapak Abdul aziz, S.kom, M.Cs. selaku Dosen Pembimbing I yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini, 3. Bapak Ristu Saptono, S.Si. MT. selaku Dosen Pembimbing II yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini, 4. Bapak Wiharto, S.T., M.Kom. selaku Pembimbing Akademik yang telah banyak memberi bimbingan dan pengarahan selama penulis menempuh studi di Jurusan Informatika FMIPA UNS, 5. Bapak dan Ibu dosen di Jurusan Informatika FMIPA UNS yang telah mengajar penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini, 6. Ibu, Bapak, dan kakak-kakakku, serta teman-teman yang telah memberikan bantuan sehingga penyusunan skripsi ini dapat terselesaikan. Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang berkepentingan. Surakarta, Mei 2013 Penulis viii

DAFTAR ISI HALAMAN JUDUL... ii ABSTRAK... iv ABSTRACT... v MOTTO... vi PERSEMBAHAN... vii KATA PENGANTAR... viii DAFTAR ISI... ix DAFTAR TABEL... xi DAFTAR GAMBAR... xii DAFTAR LAMPIRAN... xiii DAFTAR SIMBOL... xiv BAB I PENDAHULUAN... 2 1.1 Latar Belakang... 2 1.2 Rumusan Masalah... 3 1.3 Batasan Masalah... 4 1.4 Tujuan Penelitian... 4 1.5 Manfaat Penelitian... 4 1.6 Sistematika Penulisan... 4 BAB II TINJAUAN PUSTAKA... 6 2.1 Landasan Teori... 6 2.1.1 Mail... 6 2.1.2 SPAM MAIL... 7 2.1.3 Spam Filtering... 9 2.1.4 Mail Server... 9 2.1.5 Statistical Filtering... 10 ix

2.1.6 Metode bayesian... 10 2.1.7 Rumus Bayes... 13 2.1.8 Metode Chi-Square... 13 2.1.9 Metode Naive Bayes Classifier... 16 2.2 Penelitian Terkait... 18 2.3 Rencana Penelitian... 19 BAB III METODE PENELITIAN...20 3.1 Studi Literatur... 20 3.2 Pengumpulan Data... 20 3.3 Perancangan... 21 3.3.1 Instalasi... 21 3.3.2 Penginputan Data... 21 3.4 Pengujian... 22 BAB IV HASIL DAN PEMBAHASAN... 24 4.1 Perbandingan Hasil Pengujian Metode... 24 4.2 Pembahasan... 29 BAB V KESIMPULAN DAN SARAN... 31 4.1 Kesimpulan... 31 4.2 Saran... 32 LAMPIRAN... 33 x

DAFTAR TABEL Tabel 3. 1 Data Training 50%... 21 Tabel 3. 2 Data Training 70%... 22 Tabel 3. 3 Data Training 90%... 22 Tabel 3. 4 Identifikasi Email... 23 Tabel 4. 1 Hasil pengujian data training 50%...24 Tabel 4. 2 Tabel hasil pengujian 70%... 26 Tabel 4. 3 Hasil pengujian 90%... 27 xi

DAFTAR GAMBAR Gambar 2. 1 Mail Server... 6 Gambar 2. 2 Proses Pengiriman Mail... 9 Gambar 3. 1 Alur Rancangan Penelitian...20 Gambar 4. 1 Pengujian data training 50%...25 Gambar 4. 2 Pengujian data training 70%... 26 Gambar 4. 3 hasil Pengujian data training 90%... 28 xii

DAFTAR LAMPIRAN 1. Contoh Perhitungan Metode Bayesian Chi square... 33 2. Contoh Perhitungan Metode Naive Bayes classifier... 35 3. Data training 50%... 36 4. Data training 70%... 36 5. Data training 90%... 36 6. Perbandingan antar Treshold data input 50%... 37 xiii

DAFTAR SIMBOL p(s W) : Probabilitas suatu e-mail adalah spam dengan diketahui kata Word p(w S) : Probabilitas suatu kata "word" terdapat pada spam P(W H) : Probabilitas suatu kata "word" terdapat pada ham P(S) : Probabilitas suatu email pada spam P(H) : Probabilitas suatu email pada ham n : jumlah e-mail yang didalamnya terdapat kata "word" q : jumlah e-mail yang mengandung kata "word" merupakan spam q : Probabilitas kata "word" terdapat pada spam x : Probabilitas kata yang tidak terdaftar dalam database s : Bobot yang diberikan kepada probabilitas tersebut f(w) : Probabilitas lokal kata "word" dengan metode Robinson H : indikator tingkat ham sebuah email S : indikator tingkat spam sebuah email I : Probabilitas email secara keseluruhan xiv