BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Basis data saat ini sudah berkembang menjadi sangat besar secara cepat ke dalam ukuran terabyte. Di dalam tumpukan data tersebut mungkin terdapat informasiinformasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Dalam hal ini dapat dikatakan bahwa semua data belum berarti informasi. Kita telah mengetahui bahwa data mentah (raw data) tidak terlalu berguna karena ukurannya yang begitu besar sehingga tidak mungkin dianalisis. Kita perlu mengekstrak pola dari data mentah tersebut. Dengan teknik data mining mungkin dapat memecahkan semua masalah di atas, karena telah banyak perusahaan dan organisasi di dunia yang telah menggunakan data mining untuk mencari dan menarik kesimpulan dari data yang mereka miliki. Electronic Mail (E-Mail) merupakan media komunikasi di internet seperti untuk berdiskusi (Mailing List), transfer informasi berupa file (File Attachment) bahkan dapat digunakan untuk media iklan suatu perusahaan atau produk tertentu. Mengingat fasilitas email yang murah dan kemudahan untuk mengirimkan ke berapun jumlah penerimanya, maka beberapa pihak tertentu memanfaatkannya dengan mengirimkan email berisi promosi produk atau jasa, pornografi, virus, dan content-content yang tidak penting ke ribuan pengguna email. Email-email inilah yang biasanya disebut dengan Spam Email. Dampak buruk yang paling utama dari adanya Spam Email adalah terbuangnya waktu dengan percuma untuk menghapus spam email dari inbox satu persatu. Meskipun berbagai perangkat lunak email filtering banyak tersedia, namun masalah spam email juga semakin berkembang. Oleh karena itu, pada tugas akhir ini penulis 1
mencoba menjelaskan email filtering untuk mengotomatisasikan proses pemilahan spam email dan legitimate email (bukan spam email) agar email-email yang diterima adalah informasi yang tepat bagi si pengguna email. Salah satu metode dalam teknik data mining yang akan digunakan untuk pengklasifikasian email adalah metode Naïve Bayesian. Metode ini memanfaatkan teorema probabilitas yang sering disebut dengan Theorema Bayes dan fungsionalitas Data Mining yaitu klasifikasi Naïve Bayesian. 1.2. Perumusan Masalah Dari latar belakang masalah di atas maka dapat dibuat suatu perumusan masalah, sebagai berikut: 1. Dibutuhkan suatu Machine Learning yang terintegrasi untuk memparsing sejumlah email ke database agar data yang terkumpul dapat diolah sehingga menghasilkan suatu informasi yang berguna. 2. Dibutuhkan suatu teknik atau metode dalam data mining untuk mengetahui relasi antar data yang terbentuk agar dapat digunakan untuk mengklasifikasi dengan tepat sesuai pada kenyataanya. 3. Dibutuhkan sejumlah data yang nantinya dapat menjadikan informasi yang berguna bagi pengguna sesuai dengan kebutuhannya. 4. Dalam kasus ini akan dicoba dikembangkan sebuah aplikasi yang memanfaatkan Visual Basic.NET untuk membuat suatu sistem informasi berbasis desktop. 1.3. Batasan Masalah Adapun batasan masalah dari sistem aplikasi yang dibuat, meliputi : 1. Sistem menggunakan Microsoft Outlook 2007 untuk menampung sejumlah email secara sementara dan dibaca dalam keadaan offline yang nantinya akan diparsing ke mesin database. 2
2. Sistem hanya berupa aplikasi desktop dan aplikasi ini bersifat individual person. 3. Sistem ini hanya akan membahas metode Naïve Bayesian yang akan digunakan untuk menemukan pola dan relasi data agar dapat digunakan untuk pengklasifikasian spam email dan legitimate mail. 4. Sistem ini tidak akan menganilisis teks dalam isi email selain Bahasa Indonesia. 5. Sistem tidak akan memeriksa apabila email yang diterima berupa File Attachment. 1.4. Hipotesis Adapun beberapa hipotesis yang perlu diuji kebenarannya, yaitu : 1. Semakin banyak jumlah data (dalam kasus ini adalah email) yang digunakan untuk training maka akan semakin tinggi keakuratannya. 2. Aplikasi ini memiliki waktu pemrosesan yang tinggi pada saat preprocessing dengan jumlah data yang semakin banyak dan pada saat melakukan learning dibandingkan mengambil data yang minim. 3. Metode Naïve Bayesian akan memeriksa semua token pada body email yang terdapat pada database spam email maupun legitimate email. 1.5. Tujuan Penelitian Tujuan yang ingin dicapai dari tugas akhir ini adalah : Tujuan Utama : Mengerti penggunaan dan cara kerja Naïve Bayesian pada data mining untuk mengklasifikasi email dan diolah kedalam database dengan teknik parsing untuk didapatkan pengklasifikasian yang tepat bagi pengguna email. 3
Sub-tujuan : a) Membuat aplikasi desktop yang dinamis dalam penyediaan informasinya kepada pihak-pihak yang membutuhkan. b) Mengimplementasikan metode yang digunakan dalam memecahkan suatu masalah agar data mentah yang diolah dapat menjadi suatu informasi yang berharga bagi pengguna. 1.6. Metode/Pendekatan Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah dengan mempelajari literatur-literatur dengan mempelajari referensi yang berhubungan dengan metode Naïve Bayesian dari buku-buku, majalah, jurnal, maupun internet. Dalam menyelesaikan tugas akhir ini akan dilakukan uji coba atau trial and error, hal ini dilakukan terus menerus sampai menghasilkan sistem yang sesuai dengan harapan. Selain itu juga melakukan observasi, yaitu dengan melakukan pengamatan langsung terhadap obyek penelitian dan melalui interview, yaitu dengan melakukan wawancara atau mengajukan pertanyaan kepada orang-orang yang mengetahui tentang hal-hal yang berhubungan dengan topik tugas akhir ini. 1.7. Sistematika Penulisan Sistematika penulisan yang akan dibuat dibagi menjadi lima bab, yaitu : BAB I : PENDAHULUAN Memberikan gambaran secara umum mengenai sistem yang akan dibuat. Dalam pendahuluan akan berisi latar belakang masalah, perumusan masalah, batasan masalah, hipotesis, tujuan penelitian, metode atau pendekatan, dan yang terakhir yaitu sistematika penulisan. 4
BAB II : TINJAUAN PUSTAKA Pada bab ini akan menguraikan teori-teori dan metode yang akan digunakan ataupun yang berkaitan dengan skripsi penulis yang mendukung pada perancangan dan implementasi dari sistem yang akan dibuat yang nantinya akan ditulis pada BAB III dan BAB IV. BAB III : PERANCANGAN SISTEM Dalam perancangan sistem akan dibahas mengenai tahap-tahap perancangan sistem, alur kerja sistem, rancangan interface, kebutuhan sistem yang berkaitan dengan hardware dan software. BAB IV : IMPLEMENTASI DAN ANALISIS SISTEM Pada bab ini berisi hasil-hasil penelitian dari penulis baik itu berupa gambar (capture) maupun source code dari program. Disini juga akan diberikan beberapa keterangan maupun analisis mengenai program atau gambar. BAB V : KESIMPULAN DAN SARAN Bab ini adalah sebagai penutup yang berisikan kesimpulan dan saran untuk kemungkinan pengembangan program. Sebagai pelengkap laporan ini juga akan disediakan daftar pustaka yang mendukung pembuatan tugas akhir ini dan lampiran yang berupa laporan dan listing program. 5