Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Proposal Tugas Akhir KBK: Rekayasa Perangkat Lunak dan Data (RPLD) Moh. Mahsus 113060088 Fakultas Informatika Institut Teknologi Telkom Bandung 2009
I. Latar belakang masalah Spam adalah penyalahgunaan sistem pesan elektronik (termasuk sebagian besar media penyiaran, sistem pengiriman digital) untuk mengirim pesan massal yang tidak diminta oleh penerimanya. Email spam adalah salah satu jenis spam berupa pesan-pesan identik yang dikirim secara massal ke sejumlah penerima dengan e- mail. E-mail spam telah tumbuh dari tahun 1990 mencapai milyaran e-mail perhari, hal Ini menyebabkan banyak pengguna email menjadi bingung, kesal dan terganggu. Berdasarkan motivasi tersebut e-mail filtering banyak dikembangkan. E-mail filtering adalah sebuah proses untuk melakukan pengelompokan e-mail berdasarkan kriteria tertentu. Salah satu bentuk e-mail filtering adalah e-mail spam filtering yang bertujuan untuk memisahkan antara e-mail spam dan bukan spam. Banyak teknik yang digunakan untuk pembangunan sebuah e-mail spam filtering, salah satunya dengan menggunakan teknik klasifikasi. Klasifikasi adalah teknik memetakan (mengklasifikasikan) data ke dalam satu atau beberapa kelas yang sudah didefinisikan sebelumnya. Beberapa teknik klassifikasi yang sering digunakan dalam pembangunan sebuah e-mail spam filtering adalah Naïve Bayes, Support Vector Machines, k-nearest Neighbor dan Artificial Neural Network. Support Vector Machines adalah salah satu metode supervised learning yang digunakan untuk klasifikasi data. Support Vector Machines banyak digunakan untuk e-mail spam filtering karena telah terbukti memiliki hasil yang bagus. Untuk menambah efektifitas dan efisiensi pada SVM, maka banyak dilakukan modifikasi terhadap SVM itu sendiri. Salah satu penerapan modifikasi pada SVM adalah dengan cara penggunaan granular computing dan teori statistik yang kemudian gabungan dari kedua cara tersebut disebut Granular Support Vector Machines (GSVM). Terdapat beberapa metode yang ditambahkan pada GSVM sesuai dengan tujuan pembangunan SVM. Salah satunya adalah metode Data Cleaning yang berfungsi untuk mengurangi redudansi data akibat dataset yang terlalu besar. Pada tugas akhir ini akan dibangun sebuah sistem e-mail spam filtering menggunakan Granular Support Vector Machine dengan Data Cleaning yang diharapkan akan efisien dan memiliki akurasi yang tinggi. Karakteristik sistem yang akan dibangun menggabungkan Granular Support Vector Machine dan Data Cleaning, dimana pemisahan data menjadi bentuk granular adalah domain dari GSVM dan Data Cleaning untuk mengurangi redudansi data.
2. Perumusan masalah Berdasarkan latar belakang tersebut, maka dapat dirumuskan permasalahan sebagai berikut: 1. Bagaimana mengklasifikasikan e-mail berdasarkan kriteria spam atau bukan spam. 2. Apakah teknik Granular Support Vector Machine with Data Cleaning baik untuk e-mail spam filtering. 3. Tujuan Tujuan dari penelitian tugas akhir ini adalah: 1. Mengimplementasikan teknik Granular Support Vector Machine with Data Cleaning untuk mengklasifikasikan e-mail berdasarkan criteria spam atau bukan spam. 2. Melakukan analisa keakuratan sistem yang telah dibangun dengan ukuran F-Measure, G-Means dan Area under ROC. 4. Batasan Masalah Terdapat beberapa batasan masalah dalam penelitian tugas akhir ini, antara lain : 1. Data set yang digunakan berasal dari data set Task A pada EMCL PKDD 2006 Discovery Challenge, dengan menggunakan data training sebanyak 4000 data e-mail dan 2500 data e-mail untuk data testing. 2. Data set yang akan diproses, sebelumnya telah dilakukan preprocessing untuk mengurangi atribut-atribut dalam data set menggunakan ID3. 5. Metodologi penyelesaian masalah Metode yang digunakan untuk menyelesaikan tugas akhir ini adalah: 1. Studi Literatur, yakni dengan mempelajari referensi dan literatur, baik berupa makalah, jurnal, maupun buku yang relevan yang membahas tentang Granular Support Vector Machine with Data Cleaning. 2. Mempersiapkan data set yang akan digunakan untuk testing dan training dengan terlebih dahulu dilakukan preprocessing pada data tersebut dengan menggunakan ID3 untuk mengurangi atribut-atribut yang terdapat pada data set. 3. Pembuatan desain sistem e-mail spam filtering dengan Granular Support Vector Machine with Data Cleaning. 4. Implementasi (Coding), yaitu mengimplementasikan perancangan menjadi sistem e-mail spam filtering deangan Granular Support Vector Machine with Data Cleaning. 5. Training sistem, melakukan pelatihan pada sistem dengan menggunakan data training. 6. Testing sistem, melakukan pengujian pada sistem dengan menggunakan data testing.
7. Analisa hasil, melakukan analisa hasil dari sistem dengan cara membandingkan hasil klasifikasi data testing dengan data jawaban sebenarnya, F-Measure, G-Means dan Area ROC. 8. Pembuatan laporan, melakukan pelaporan hasil pengerjaan tugas akhir berupa analisis sistem yang dibangun beserta dokumentasinya. 5. Jadwal kegiatan Rancangan jadwal kegiatan pengerjaan tugas akhir adalah sebagai berikut: Kegiatan Bulan ke-1 Bulan ke-2 Bulan ke-3 Bulan ke-4 Study literatur Pembangunan model Implementasi Analisa hasil Pembuatan laporan Daftar Pustaka
[1] Tang Yuchun. (2006). Granular Support Vector Machines Based on Granular Computing, Soft Computing and Statistical Learning. [2] Kolcz A, Alspector J. (2001). SVM-based Filtering of E-mail Spam with Content-specific Misclassification Costs. [3] http://www.support-vector-machines.org/. diakses pada tanggal 13 Oktober 2009. [4] R. Akbani, S. Kwek, and N. Japkowicz. (2004). Applying Support Vector Machines to Imbalanced Datasets. [5] Wang Qiang, Guan Yi, Wang Xiaolong. (2007). SVM-Based Spam Filter with Active and Online Learning. [6] Tong Simon, Koller Daphne. (2002). Support Vector Machine Active Learning with Applications to Text Classification. [7] Tang Yuchun, Krasser Sven, Judge Paul. (2007). Fast and Effective Spam Sender Detection with Granular SVM on Highly Imbalanced Mail Server Behavior Data. [8] Akbani Rehan, Kwek Stephen, Japkowicz Nathalie. (2004). Applying Support Vector Machines to Imbalanced Datasets. [9] Tang Yuchun, Zhang Yan-Qing, Chawla Nitesh V., Krasser Sven. (2002). SVMs Modeling for Highly Imbalanced Classification. [10] Drucker Harris, Wu Donghui, Vapnik Vladimir N. (1999). Support Vector Machines for Spam Categorization. [11] Hong Peng, Jun Wang, Wu Tiefeng, Zhang Dongna. (2004). An Malicious E-mail Detection Method Based on Support Vector Machine. [12] Tang Jie, Li Hang, Cao Yunbo, Tang Zhaohui. (2004). Email Data Cleaning. Abstrak
E-mail spam adalah salah satu jenis spam berupa pesan-pesan identik yang dikirim secara massal ke sejumlah penerima dengan e-mail. Isi pesan dalam spam biasanya berupa iklan-iklan, trojan, dan juga biasanya berisi juga penipuan ke pengguna e-mail. Untuk masa sekarang, spam telah menyebar dengan luas dan jumlahnya sangat banyak. e-mail spam bisa mengakibatkan bouncing pada inbox e-mail sehingga email tidak bisa masuk dan bisa mengakibatkan e-mail yang bukan spam tidak dapat diterima oleh pengguna e-mail. Pada tugas akhir ini akan dibangun sebuah sistem e-mail spam filtering menggunakan metode Support Vector Machine yang digabungkan dengan Granular Computing dan metode Data Cleaning untuk pengklasifikasian e-mail yang diharapkan akan efektif dan efisien dalam pengidentifikasian e-mail spam. Kata kunci: e-mail spam, granular, support vector machine, data cleaning, klasifikasi. LEMBAR PERSETUJUAN PROPOSAL
Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Disusun dalam rangka memenuhi persyaratan mengajukan Tugas Akhir untuk memperoleh Gelar Sarjana Teknik Informatika Proposal ini disetujui untuk menyelesaikan Tugas Akhir Oleh : Moh.Mahsus NIM : 113060088 Pembimbing I Bandung, Oktober 2009 Menyetujui Pembimbing II NIK : NIK :