Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

dokumen-dokumen yang mirip
1. Pendahuluan 1.1 Latar Belakang

IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINE DENGAN DATA CLEANING (GSVM-DC) UNTUK SPAM FILTERING

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENGKLASIFIKASIAN TINGKAT DANGEROUS DRIVING BEHAVIOR MENGGUNAKAN DATA ELEKTROENSEFALOGRAFI (EEG) DENGAN PENDEKATAN MACHINE LEARNING

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN I-1

BAB 1 PENDAHULUAN Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

Perbandingan Algoritma Pendeteksian Spam

KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Bandung, Indonesia Bandung, Indonesia

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah. Informasi merupakan kebutuhan yang sangat penting dalam era

KLASIFIKASI SPAM MENGGUNAKAN NAÏVE BAYES

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Oleh: ARIF DARMAWAN NIM

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

ALGORITMA SUPPORT VECTOR MACHINE UNTUK MENDETEKSI SMS SPAM BERBAHASA INDONESIA

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

2. Tahapan Penelitian pemahaman merupakan awal proses penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

BAB I PENDAHULUAN. 1.1 Latar Belakang

Terkait dengan klasifikasi trafik jaringan komputer, beberapa penelitian telah dilakukan dengan fokus pada penerapan data mining. Penelitian tentang

LEARNING ARTIFICIAL INTELLIGENT

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar belakang

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

METODOLOGI PENELITIAN

BAB IV EKSPERIMEN. 4.1 Tujuan

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

ANALISA ALGORITMA SUPPORT VECTOR MACHINE (SVM) DALAM MEMPREDIKSI NASABAH YANG BERPELUANG KREDIT MACET

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

3. Masalah Penelitian

BAB I PENDAHULUAN. sistem peredaran darah orang lain. Sebelum ditransfusikan, periksa kembali sifat

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN. 1.1 Latar Belakang

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii

ANALISIS SENTIMEN DATA KRITIK DAN SARAN PELATIHAN APLIKASI TEKNOLOGI INFORMASI (PATI) MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

BAB II LANDASAN TEORI

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB I PENDAHULUAN. 1.1 Latar Belakang

Klasifikasi Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB I PENDAHULUAN. 1.1 Latar Belakang !! "(!

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

MODUL 12 Model Prediktif


BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

BABI PENDAHULUAN. 1.1 Latar Belakang

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

BAB 3 METODE PENELITIAN

BAB III ANALISA DAN PERANCANGAN SISTEM

(Adaptive Neuro- akurasi 58,33% untuk 9 kelas output

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti

DATA MINING UNTUK REKOMENDASI KERJA BAGI ALUMI DENGAN ALGORITMA GARC(GAIN BASED ASSOCIATION RULE CLASSIFICTION)

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

3. Masalah Penelitian pemahaman merupakan awal proses penelitian

BAB III ANALISIS DAN PENYELESAIAN MASALAH

Data Mining Terapan dengan Matlab

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Transkripsi:

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Proposal Tugas Akhir KBK: Rekayasa Perangkat Lunak dan Data (RPLD) Moh. Mahsus 113060088 Fakultas Informatika Institut Teknologi Telkom Bandung 2009

I. Latar belakang masalah Spam adalah penyalahgunaan sistem pesan elektronik (termasuk sebagian besar media penyiaran, sistem pengiriman digital) untuk mengirim pesan massal yang tidak diminta oleh penerimanya. Email spam adalah salah satu jenis spam berupa pesan-pesan identik yang dikirim secara massal ke sejumlah penerima dengan e- mail. E-mail spam telah tumbuh dari tahun 1990 mencapai milyaran e-mail perhari, hal Ini menyebabkan banyak pengguna email menjadi bingung, kesal dan terganggu. Berdasarkan motivasi tersebut e-mail filtering banyak dikembangkan. E-mail filtering adalah sebuah proses untuk melakukan pengelompokan e-mail berdasarkan kriteria tertentu. Salah satu bentuk e-mail filtering adalah e-mail spam filtering yang bertujuan untuk memisahkan antara e-mail spam dan bukan spam. Banyak teknik yang digunakan untuk pembangunan sebuah e-mail spam filtering, salah satunya dengan menggunakan teknik klasifikasi. Klasifikasi adalah teknik memetakan (mengklasifikasikan) data ke dalam satu atau beberapa kelas yang sudah didefinisikan sebelumnya. Beberapa teknik klassifikasi yang sering digunakan dalam pembangunan sebuah e-mail spam filtering adalah Naïve Bayes, Support Vector Machines, k-nearest Neighbor dan Artificial Neural Network. Support Vector Machines adalah salah satu metode supervised learning yang digunakan untuk klasifikasi data. Support Vector Machines banyak digunakan untuk e-mail spam filtering karena telah terbukti memiliki hasil yang bagus. Untuk menambah efektifitas dan efisiensi pada SVM, maka banyak dilakukan modifikasi terhadap SVM itu sendiri. Salah satu penerapan modifikasi pada SVM adalah dengan cara penggunaan granular computing dan teori statistik yang kemudian gabungan dari kedua cara tersebut disebut Granular Support Vector Machines (GSVM). Terdapat beberapa metode yang ditambahkan pada GSVM sesuai dengan tujuan pembangunan SVM. Salah satunya adalah metode Data Cleaning yang berfungsi untuk mengurangi redudansi data akibat dataset yang terlalu besar. Pada tugas akhir ini akan dibangun sebuah sistem e-mail spam filtering menggunakan Granular Support Vector Machine dengan Data Cleaning yang diharapkan akan efisien dan memiliki akurasi yang tinggi. Karakteristik sistem yang akan dibangun menggabungkan Granular Support Vector Machine dan Data Cleaning, dimana pemisahan data menjadi bentuk granular adalah domain dari GSVM dan Data Cleaning untuk mengurangi redudansi data.

2. Perumusan masalah Berdasarkan latar belakang tersebut, maka dapat dirumuskan permasalahan sebagai berikut: 1. Bagaimana mengklasifikasikan e-mail berdasarkan kriteria spam atau bukan spam. 2. Apakah teknik Granular Support Vector Machine with Data Cleaning baik untuk e-mail spam filtering. 3. Tujuan Tujuan dari penelitian tugas akhir ini adalah: 1. Mengimplementasikan teknik Granular Support Vector Machine with Data Cleaning untuk mengklasifikasikan e-mail berdasarkan criteria spam atau bukan spam. 2. Melakukan analisa keakuratan sistem yang telah dibangun dengan ukuran F-Measure, G-Means dan Area under ROC. 4. Batasan Masalah Terdapat beberapa batasan masalah dalam penelitian tugas akhir ini, antara lain : 1. Data set yang digunakan berasal dari data set Task A pada EMCL PKDD 2006 Discovery Challenge, dengan menggunakan data training sebanyak 4000 data e-mail dan 2500 data e-mail untuk data testing. 2. Data set yang akan diproses, sebelumnya telah dilakukan preprocessing untuk mengurangi atribut-atribut dalam data set menggunakan ID3. 5. Metodologi penyelesaian masalah Metode yang digunakan untuk menyelesaikan tugas akhir ini adalah: 1. Studi Literatur, yakni dengan mempelajari referensi dan literatur, baik berupa makalah, jurnal, maupun buku yang relevan yang membahas tentang Granular Support Vector Machine with Data Cleaning. 2. Mempersiapkan data set yang akan digunakan untuk testing dan training dengan terlebih dahulu dilakukan preprocessing pada data tersebut dengan menggunakan ID3 untuk mengurangi atribut-atribut yang terdapat pada data set. 3. Pembuatan desain sistem e-mail spam filtering dengan Granular Support Vector Machine with Data Cleaning. 4. Implementasi (Coding), yaitu mengimplementasikan perancangan menjadi sistem e-mail spam filtering deangan Granular Support Vector Machine with Data Cleaning. 5. Training sistem, melakukan pelatihan pada sistem dengan menggunakan data training. 6. Testing sistem, melakukan pengujian pada sistem dengan menggunakan data testing.

7. Analisa hasil, melakukan analisa hasil dari sistem dengan cara membandingkan hasil klasifikasi data testing dengan data jawaban sebenarnya, F-Measure, G-Means dan Area ROC. 8. Pembuatan laporan, melakukan pelaporan hasil pengerjaan tugas akhir berupa analisis sistem yang dibangun beserta dokumentasinya. 5. Jadwal kegiatan Rancangan jadwal kegiatan pengerjaan tugas akhir adalah sebagai berikut: Kegiatan Bulan ke-1 Bulan ke-2 Bulan ke-3 Bulan ke-4 Study literatur Pembangunan model Implementasi Analisa hasil Pembuatan laporan Daftar Pustaka

[1] Tang Yuchun. (2006). Granular Support Vector Machines Based on Granular Computing, Soft Computing and Statistical Learning. [2] Kolcz A, Alspector J. (2001). SVM-based Filtering of E-mail Spam with Content-specific Misclassification Costs. [3] http://www.support-vector-machines.org/. diakses pada tanggal 13 Oktober 2009. [4] R. Akbani, S. Kwek, and N. Japkowicz. (2004). Applying Support Vector Machines to Imbalanced Datasets. [5] Wang Qiang, Guan Yi, Wang Xiaolong. (2007). SVM-Based Spam Filter with Active and Online Learning. [6] Tong Simon, Koller Daphne. (2002). Support Vector Machine Active Learning with Applications to Text Classification. [7] Tang Yuchun, Krasser Sven, Judge Paul. (2007). Fast and Effective Spam Sender Detection with Granular SVM on Highly Imbalanced Mail Server Behavior Data. [8] Akbani Rehan, Kwek Stephen, Japkowicz Nathalie. (2004). Applying Support Vector Machines to Imbalanced Datasets. [9] Tang Yuchun, Zhang Yan-Qing, Chawla Nitesh V., Krasser Sven. (2002). SVMs Modeling for Highly Imbalanced Classification. [10] Drucker Harris, Wu Donghui, Vapnik Vladimir N. (1999). Support Vector Machines for Spam Categorization. [11] Hong Peng, Jun Wang, Wu Tiefeng, Zhang Dongna. (2004). An Malicious E-mail Detection Method Based on Support Vector Machine. [12] Tang Jie, Li Hang, Cao Yunbo, Tang Zhaohui. (2004). Email Data Cleaning. Abstrak

E-mail spam adalah salah satu jenis spam berupa pesan-pesan identik yang dikirim secara massal ke sejumlah penerima dengan e-mail. Isi pesan dalam spam biasanya berupa iklan-iklan, trojan, dan juga biasanya berisi juga penipuan ke pengguna e-mail. Untuk masa sekarang, spam telah menyebar dengan luas dan jumlahnya sangat banyak. e-mail spam bisa mengakibatkan bouncing pada inbox e-mail sehingga email tidak bisa masuk dan bisa mengakibatkan e-mail yang bukan spam tidak dapat diterima oleh pengguna e-mail. Pada tugas akhir ini akan dibangun sebuah sistem e-mail spam filtering menggunakan metode Support Vector Machine yang digabungkan dengan Granular Computing dan metode Data Cleaning untuk pengklasifikasian e-mail yang diharapkan akan efektif dan efisien dalam pengidentifikasian e-mail spam. Kata kunci: e-mail spam, granular, support vector machine, data cleaning, klasifikasi. LEMBAR PERSETUJUAN PROPOSAL

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Disusun dalam rangka memenuhi persyaratan mengajukan Tugas Akhir untuk memperoleh Gelar Sarjana Teknik Informatika Proposal ini disetujui untuk menyelesaikan Tugas Akhir Oleh : Moh.Mahsus NIM : 113060088 Pembimbing I Bandung, Oktober 2009 Menyetujui Pembimbing II NIK : NIK :