PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB II LANDASAN TEORI

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

1. Pendahuluan 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii

BABI PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

MODUL 12 Model Prediktif

BAB I PENDAHULUAN. perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

ANALISIS SENTIMEN DATA KRITIK DAN SARAN PELATIHAN APLIKASI TEKNOLOGI INFORMASI (PATI) MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

Pengaturan OpenDNS. OpenDNS untuk meningkatkan waktu respon Web navigasi

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB III ANALISA DAN PERANCANGAN SISTEM

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

BAB I PENDAHULUAN. 1.1 Latar Belakang

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB 1 PENDAHULUAN. Hal itu bisa dirasakan dengan semakin banyaknya ditemukan sistem yang berbasiskan

BAB III METODE PENELITIAN

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Gambar 1.1 Proses Text Mining [7]

5. Struktur Penulisan Tesis

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI METODE NAIVE BAYES UNTUK KELANCARAN PEMBAYARAN KREDIT LEASING SEPEDA MOTOR

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

BAB III ANALISIS DAN PERANCANGAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Data Mining Terapan dengan Matlab

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

ANALISIS SENTIMEN OPINI PUBLIK BERITA KEBAKARAN HUTAN MELALUI KOMPARASI ALGORITMA SUPPORT VECTOR MACHINE

Bandung, Indonesia Bandung, Indonesia

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah. Informasi merupakan kebutuhan yang sangat penting dalam era

Perbandingan Algoritma Pendeteksian Spam

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

BAB I PENDAHULUAN. 1.1 Latar belakang

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB I PENDAHULUAN. 1.1 Latar Belakang Penelitian

BAB II LANDASAN TEORI

PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

KOMPARASI FITUR SELEKSI PADA ALGORITMA SUPPORT VECTOR MACHINE UNTUK ANALISIS SENTIMEN REVIEW

KEAMANAN . Subianto AMIK JTC SEMARANG

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB I PENDAHULUAN. 1.1 Latar Belakang

Algoritma Dasar. 4.1 Naive Bayes

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

KOMPARASI FITUR SELEKSI PADA ALGORITMA SUPPORT VECTOR MACHINE UNTUK ANALISIS SENTIMEN REVIEW

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

Prediksi Nasabah yang Berpotensi Membuka Simpanan Deposito Menggunakan Naive Bayes Berbasis Particle Swarm Optimization

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB V EKSPERIMEN TEXT CLASSIFICATION

FIREWALL. Diajukan untuk Memenuhi Salah Satu Tugas Security. Disusun Oleh: Khresna A.W ( )

Gambar 1.1 Logo Rumah123.com Sumber: rumah123.com

BAB I PENDAHULUAN. 1.1 Latar Belakang

Transkripsi:

1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang yaitu email. Media email dengan cepat berkembang menggantikan media komunikasi konvensional lainnya karena memiliki beragam kegunaan. Dengan semakin berkembangnya penggunaan email, email yang tidak diinginkan oleh pengguna dalam jumlah banyak yang biasa disebut spam juga semakin meningkat [1]. Berdasarkan laporan tahun 2014, Symantec memprediksi jumlah global email spam sebesar 60 persen, jumlah ini menurun dibandingkan tahun 2013 sebesar 62 persen [2]. Meskipun jumlahnya menurun, jumlah email spam masih mendominasi jumlah keseluruhan email secara global. Spam dalam penggunaannya sering dikaitkan dengan media komersial, sebuah perusahaan sering memanfaatkan media email untuk mempromosikan produknya dengan cepat dan biaya rendah [3]. Selain media promosi, email spam dapat mengancam keamanan dari individu ataupun grup karena mengandung virus atau program jahat lainnya [4]. Bentuk ancaman lain dari email spam yaitu pengirim email spam meniru otoritas resmi seperti administrator server, sekolah ataupun bank. Pengirim email spam kemudian meminta informasi sensitif dari pengguna berupa password ataupun nomor kartu kredit [5] dan kemudian mengambil keuntungan dari pengguna email yang merespon email spam tersebut. Dalam investigasi lebih lanjut yang berkaitan dengan konten dari email spam, spam memiliki struktur yang mirip dengan email nonspam seperti surat dan memo [6] dengan tujuan untuk mengelabuhi email spam filter. Selain klasifikasi berbasis teks, email dapat diklasifikasikan berdasarkan informasi dari alamat Internet Protocol yang ada pada email header seperti alamat routing dan alamat IP pengirim. Informasi tersebut kemudian digunakan untuk menentukan apakah email akan masuk dalam daftar whitelist ataupun blacklist. Whitelist merupakan daftar pengirim email yang masuk dalam kategori tidak berbahaya karena tidak mengirim email spam. Sebaliknya blacklist merupakan 5

daftar pengirim email yang diblokir karena mengirim email spam [7]. Daftar blacklist dan whitelist dapat dengan mudah disimpan pada klien ataupun server dan diperbaharui secara berkala. Namun, pendekatan berdasarkan informasi internet memiliki kelemahan yang bertumpu pada informasi Internet Protocol. Hal ini dikarenakan Internet Protocol dapat dengan mudah diganti, bahkan dibajak oleh pihak yang tidak bertanggungjawab. Pendekatan ini juga memunculkan tingkat false positive yang tinggi pada email spam filtering [8]. Maka dari itu, pendekatan terakhir yang mampu meminimalisir email spam dengan tingkat false positive yang rendah yaitu pendekatan berdasarkan konten teks dari email. Penelitian lain mengenai klasifikasi email spam dengan pendekatan klasifikasi teks telah banyak dilakukan oleh peneliti lain seperti Amayri [3], Almeida [9], Saab [10] dan Idris [11]. Namun, penelitian yang dilakukan sebagian besar mengeksplorasi berbagai macam metode machine learning dan menggunakan metode pembobotan TF-IDF. Sedangkan metode yang mengeksplorasi tentang penggunaan pembobotan fitur yang merupakan pengembangan TF-IDF masih jarang dilakukan, walaupun metode pembobotan fitur TF-IDF memiliki perkembangan yang sangat pesat. Penelitian ini akan memodelkan klasifikasi email spam yang dapat mengklasifikasikan antara email spam dan email nonspam berdasarkan konten teks yang dimiliki. Pengklasifikasian dilakukan dengan metode machine learning yang disertai dengan metode pembobotan fitur. Metode pembobotan fitur digunakan untuk memberikan bobot pada setiap fitur untuk menentukan relevansinya terhadap email spam ataupun nonspam. Selanjutnya metode machine learning akan mengklasifikasikan email berdasarkan bobot dari fitur yang telah diberikan. 1.2 Perumusan Masalah Dalam pendekatan klasifikasi email spam berdasarkan konten teks, penelitian yang mengeksplorasi penggunaan berbagai pembobotan fitur masih jarang dilakukan. Sehingga terdapat tantangan untuk mendapatkan hasil 6

klasifikasi email spam yang terbaik dengan mengeksplorasi berbagai metode pembobotan fitur dan metode machine learning. 1.3 Keaslian Penelitian Penelitian tentang klasifikasi email spam telah banyak dilakukan sebelumnya. Namun, sebagian besar peneliti fokus pada penggunaan berbagai metode klasifikasi dan penggunaan metode pembobotan fitur TF-IDF. Amayri [3] melakukan komparasi berbagai kernel dari metode klasifikasi Support Vector Machines (SVM) dan juga variasi dari metode pembobotan fitur TF-IDF yaitu TF, LogTF, ITF, IDF dan TF-IDF. Perbedaan dengan penelitian ini yaitu metode klasifikasi SVM dibandingkan satu sama lain dengan perbedaan pada kernel dari SVM. Sedangkan metode pembobotan fitur yang digunakan merupakan variasi dari metode TF-IDF. Almeida [9], Saab [10] dan Idris [11] melakukan komparasi terhadap berbagai metode klasifikasi serta variasi dari metode klasifikasi tersebut untuk klasifikasi email spam. Metode yang digunakan antara lain Negative Selection Algorithm-Particle Swarm Optimization (NSA-PSO), Naïve Bayes, SVM, ANN, dan Decision Tree. Perbedaan dengan penelitian ini yaitu komparasi dilakukan hanya pada metode klasifikasi. Manek [12] mengajukan metode preprocessing secara berulang dengan memanfaatkan metode Naïve Bayes sebagai metode seleksi fitur. Selanjutnya metode klasifikasi yang digunakan adalah metode W-BIF. Hong [13] membangun sistem klasifikasi email spam dengan menggabungkan metode klasifikasi K- Nearest Neighbor (KNN) dan metode clustering. Sedangkan untuk metode pembobotan fitur, metode yang digunakan yaitu Term Frequency (TF). Selanjutnya Youn [14] menggunakan pendekatan ontology yang diserta dengan metode Decision Tree untuk klasifikasi email spam. Ringkasan dari penjelasan diatas selanjutnya dapat dilihat pada Tabel 1.1 berikut ini: 7

Tabel 1.1 Keaslian Penelitian No. Nama Peneliti Tujuan Penelitian Metode yang Digunakan 1. Amayri dkk. [3] Melakukan komparasi dari metode klasifikasi Support Vector Machines (SVM) pada klasifikasi email spam. 2. Almeida dkk. [9] Melakukan komparasi dari metode klasifikasi Naïve Bayes dengan metode Support Vector Machines (SVM) untuk klasifikasi email spam. 3. Saab dkk. [10] Melakukan komparasi dari berbagai metode klasifikasi untuk klasifikasi email spam. 4. Idris dkk. [11] Membangun sistem pendeteksian email spam menggunakan metode Negative Selection Algorithm yang dipadukan dengan metode Particle Swarm Optimization (NSA-PSO). 5. Manek dkk. [12] Mengajukan metode RePID- OK (preprocessing berulang) untuk klasifikasi email spam. 6. Hong dkk. [13] Membangun sistem klasifikasi email spam dengan metode clustering. 7. Youn dkk. [14] Menggunakan pendekatan ontology untuk klasifikasi email spam. Berbagai kernel dari Support Vector Machines (SVM) dan berbagai variasi dari metode pembobotan fitur TF-IDF (TF, LogTF, ITF, IDF, TF-IDF). Berbagai variasi dari metode klasifikasi Naïve Bayes dan metode klasifikasi Linier Support Vector Machines (SVM). Metode klasifikasi Support Vector Machines (SVM), LM- SVM, ANN, dan Decision Tree. Metode NSA-PSO, Support Vector Machines (SVM) dan Naïve Bayes. Metode RePID-OK, seleksi fitur dengan Naïve Bayes dan metode klasifikasi W-BIF. Metode pembobotan fitur TF dan metode klasifikasi clustering. Metode klasifikasi C4.5 (Decision Tree) dan metode ontology. 8

1.4 Tujuan Penelitian Tujuan penelitian ini adalah memodelkan klasifikasi email spam berdasarkan konten dan mengeksplorasi berbagai metode pembobotan fitur serta berbagai metode klasifikasi untuk mengetahui metode yang memiliki performa terbaik pada klasifikasi email spam. 1.5 Manfaat Penelitian Adapun manfaat dengan adanya penelitian pemodelan klasifikasi email spam yaitu untuk memberikan pengetahuan tentang penklasifikasian email spam dengan metode pembobotan fitur dan metode klasifikasi yang terbaik serta sebagai pedoman pengembangan penelitian klasifikasi email spam lebih lanjut. 9