1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan data mining yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini. Ternyata penerapan pada data berskala besar memberikan tantangantantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi, pertahanan negara dan telekomunikasi. Salah satu produk di bidang telekomunikasi adalah Electronic mail (email) yang merupakan media komunikasi di internet yang jangkauannya sangat luas. Mengingat fasilitas email yang murah dan kemudahan untuk mengirimkan ke
2 berapapun jumlah penerimanya maka beberapa pihak tertentu memanfaatkannya dengan mengirimkan email berisi promosi produk atau jasa, pornografi, virus, dan content-content yang tidak penting ke ribuan pengguna email. Email-email inilah yang biasanya disebut dengan spam mail. Dampak buruk yang paling utama dari adanya spam mail adalah terbuangnya waktu dengan percuma untuk menghapus spam mail dari inbox satu persatu. Meskipun berbagai perangkat lunak email filtering banyak tersedia, namun masalah spam mail juga semakin berkembang. Berkaitan dengan hal ini penulis ingin mencoba menganalisa penerapan data mining dalam kasus email filtering yaitu memilah antar spam mail dan legitimate mail. Data mining memiliki beberapa kategori diantaranya klasifikasi, asosiasi, clustering, dan masih banyak lagi. Metoda yang paling banyak digunakan untuk email filtering ini adalah naive bayesian yang merupakan salah satu konsep data mining dalam kategori klasifikasi. Kelebihan naive bayesian filtering diantaranya adalah tingkat akurasi yang tinggi dan error rate yang minimum. Berikut tabel perbandingan berbagai macam metode anti spam filter : Tabel 1.1 Perbandingan performansi metode-metode anti spam filter Metode Kelebihan Kekurangan Keywords Filtering Mudah, karena filter Dapat menimbulkan false hanya dilatih untuk menscan positives atau false negatives kata-kata tertentu karena kata-kata tertentu dapat yang sering digunakan pada spam-mail digunakan baik pada spammail maupun ham-mail Black and White Sangat efektif, terutama Filter dapat dikalahkan jika Listing jika diimplementasikan spammers memakai alamat pada level server palsu
3 Tabel 1.1 Perbandingan performansi metode-metode anti spam filter (Lanjutan) Signature based False positives dapat filtering dihindari Challenge-response Dapat memblok spam filtering dengan sangat akurat Rule based filtering Mudah diinstal pada level server, simple karena hanya menggunakan rule tertentu Bayesian filtering Memblok spam dengan (Paul Graham) efektif karena menghitung probabilitas dari setiap message Metode SpamBayes Memiliki kategori unsure message, untuk mengurangi false positives Filter dapat dikalahkan dengan menambahkan sembarang karakter pada copy spam mail, sehingga copy spam mail terlihat seperti memiliki signature yang berbeda Mekanismenya menyulitkan orang untuk mengirim e-mail pada kita, dapat mem-blok legitimate e-mail Rule ini harus di-update terus menerus seiring dengan perubahan karakteristik spammail yang dilakukan oleh spammers Masih terdapat kemungkinan terjadinya false positives Unsure mail harus di-training lebih lanjut untuk dapat dikategorikan sebagai hammail atau spam-mail 1.2 RUMUSAN MASALAH Permasalahan dalam Spam Fiter adalah : Bagaimana menerapkan Naive Bayesian untuk digunakan sebagai spam filter.
4 Bagaimana menentukan batas penentu sebuah email dikatakan sebuah email spam. 1.3 RUANG LINGKUP Ruang lingkup pembuatan program ini, menggunakan Visual Studio 2008 dan Microsoft Outlook 2003. 1.4 TUJUAN PEMBAHASAN Tujuan yang ingin dicapai dari tugas akhir ini adalah : Membuat aplikasi untuk kasus pemilahan spam mail dengan menerapkan metode Naive Bayesian. 1.5 METODE PENYELESAIAN MASALAH Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah : 1. Studi Literatur Mempelajari literatur-literatur tentang email, konsep dan penerapan data mining dalam kasus pemilahan spam mail, juga bahasa pemrograman Visual Studio 2008. 2. Perencanaan dan Pembuatan Perangkat Lunak Modul pembuatan sistem tokenizing. Modul pembuatan sistem combining and scoring. Penggabungan modul-modul yang ada menjadi satu sistem untuk menangani sistem pengkategorian spam.
5 3. Pengujian dan Analisa Perangkat Lunak 1. Pengujian program 2. Analisa hasil output dari program 4. Pengambilan Kesimpulan Pengambilan kesimpulan dengan membandingkan hasil output program dengan kenyataan di lapangan. 1.6 SISTEMATIKA PENULISAN Laporan tugas akhir ini disusun dengan sistematika penulisan sebagai berikut : BAB I : PENDAHULUAN Bab ini berisi latar belakang masalah, perumusan masalah, ruang lingkup, tujuan tugas akhir, metodologi penyelesaian masalah dan sistematika penulisan. BAB II : LANDASAN TEORI Bab ini berisi teori-teori penunjang pembuatan tugas akhir. BAB III : ANALISA DAN PERANCANGAN SISTEM Bab ini berisi penjelasan tentang analisa dan perancangan program. BAB IV : IMPLEMENTASI DAN PENGUJIAN SISTEM Bab ini berisi tentang implementasi dan pengujian sistem yang dibuat dengan Microsoft Visual Studio 2008. BAB V : PENUTUP Bab ini berisi kesimpulan dan saran mengenai program yang telah dibuat.