BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah satu aplikasi yang memanfaatkan layanan Twitter tersebut adalah JalananYogya. JalananYogya merupakan konsep platform crowdsourcing yang mampu mengumpulkan data-data laporan jalan rusak dari masyarakat dengan memanfaatkan Twitter. Laporan masyarakat tersebut nantinya dikumpulkan oleh sistem dan dipetakan dengan peta digital sehingga diharapkan dapat membantu proses penanganan jalan rusak. Twitter memberikan kemudahan dan keleluasaan bagi penggunanya untuk mengirimkan tweet dengan isi konten yang bermacam-macam. Beragam informasi dapat dikirimkan melalui Twitter, mulai dari berita, artikel lucu hingga informasi mengenai produk-produk terbaru dari sebuah brand. Kebebasan yang diberikan oleh Twitter tersebut seringkali dimanfaatkan oleh oknum-oknum yang tidak bertanggungjawab untuk mengirimkan tweet spam kepada pengguna lain. Kondisi ini juga memungkinkan spammer mengirimkan tweet spam melalui JalananYogya. Prinsip kerja JalananYogya yang mengumpulkan laporan berdasarkan tweet yang dikirimkan dengan format tertentu memungkinkan tweet spam dianggap sebagai laporan masyarakat yang valid. Hal ini tentunya menjadi tantangan dan ancaman tersendiri bagi JalananYogya dalam mengumpulkan dan memilah laporan yang valid. 1
2 Diperlukan sebuah sistem yang dapat melakukan pemilahan antara tweet yang dikumpulkan oleh JalananYogya. Seluruh tweet yang masuk nantinya akan dikelompokkan menjadi dua kelas, yakni tweet yang benar-benar merupakan laporan masyarakat dan tweet spam. Terdapat beberapa algoritma yang dapat digunakan untuk menyelesaikan permasalahan klasifikasi seperti ini. Beberapa diantaranya adalah Naïve Bayes Classifier, Support Vector Machine, KNN, adaboost dan lain-lain (Selvaperumal, 2014). Masing-masing algoritma tersebut bisa saja memberikan hasil klasifikasi yang berbeda apabila diaplikasikan untuk permasalahan yang sama. Naïve Bayes Classifier merupakan salah satu algoritma klasifikasi yang memiliki performa cukup baik ketika digunakan untuk melakukan klasifikasi teks. Penelitian You et al. (2015) menunjukkan bahwa nilai precision klasifikasi spam yang dilakukan oleh web service yang menggunakan Naïve Bayes Classifier adalah 93.3 %. Pada penelitian lain Ling et al. (2013) melakukan analisis sentimen terhadap dokumen teks yang menghasilkan akurasi sebesar 83 %. R.Malarvizhi dan K.Saraswathi (2013) melakukan pengujian terhadap beberapa algoritma yang biasa digunakan untuk mendeteksi spam, hasil akurasi yang didapatkan akurasi sebesar 96.5 %. Selain itu diperlukan proses seleksi fitur untuk mereduksi fitur-fitur yang tidak relevan dalam proses klasifikasi. Beberapa metode seleksi fitur yang umum digunakan adalah Chi Square ( X 2 ), Mutual Information (MI), dan Frequency- Based. Manning et al. mengatakan untuk kasus seleksi fitur frequency-based memiliki kinerja yang buruk dibandingkan MI dan Chi Square (Ling et al., 2013). Berdasarkan hal-hal tersebut, sebagai langkah awal dalam proses pengembangan sistem spam filtering, penelitian ini akan berusaha untuk mengetahui performa algoritma Naïve Bayes Classifier dan metode seleksi fitur Chi Square apabila digunakan untuk mengklasifikasikan tweet berbahasa Indonesia ke dalam kelompok tweet spam atau tweet valid.
3 1.2 Rumusan Masalah Berdasarkan latar belakang yang telah diuraikan diatas maka permasalahan yang akan diteliti adalah sebagai berikut: 1. Merancang sebuah sistem yang dapat mengklasifikasikan tweet-tweet yang berbahasa Indonesia kedalam kategori tweet spam atau tweet valid. 2. Mengevaluasi performa algoritma Naïve Bayes Classifier dan algoritma seleksi fitur Chi Square. 1.3 Batasan Masalah Dari permasalahan yang disebutkan di atas, batasan masalah pada penelitian ini adalah: 1. Tweet yang digunakan adalah tweet berbahasa Indonesia. 2. Data yang digunakan pada penelitian ini berasal dari tweet dengan domain jalan dan tweet yang erat kaitannya dengan spam. 3. Perilaku pengguna tidak menjadi parameter penentuan kelas tweet pada penelitian ini. 1.4 Tujuan Penelitian Penelitian ini bertujuan untuk mengembangkan sebuah sistem yang dapat melakukan klasifikasi tweet spam dan valid dengan menggunakan algoritma Naïve Bayes Classifier dan seleksi fitur model Chi Square. 1.5 Manfaat Penelitian Dengan dilakukannya penelitian ini dapat diketahui performa algoritma Naïve Bayes Classifier dan kombinasinya dengan seleksi fitur Chi Square ketika digunakan untuk melakukan klasifikasi tweet spam dan valid yang berbahasa Indonesia.
4 1.6 Sistematika Penulisan Sistematika dalam penulisan tugas akhir ini terdiri atas 7 bab, yaitu: BAB I PENDAHULUAN Bab ini berisikan latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan. BAB II TINJAUAN PUSTAKA Bab ini memuat pembahasan mengenai penelitian yang sebelumnya telah dilakukan dan penelitian yang digunakan sebagai bahan referensi dalam penulisan penelitian ini. Selain itu bab ini juga memuat penjelasan yang membedakan penelitian ini dengan penelitian sejenis yang pernah ada sebelumnya. BAB III LANDASAN TEORI Bab ini berisi teori-teori yang menjadi landasan dalam penulisan penelitian ini seperti teknik-teknik praproses, Naïve Bayes Classifier, seleksi fitur model Chi Square serta teori-teori lain yang mendukung penelitian ini. BAB IV ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi mengenai analisis terhadap sistem yang akan dikembangkan pada penelitian ini, serta penjelasan mengenai perancangan sistem berdasarkan hasil analisis yang telah dilakukan. BAB V IMPLEMENTASI SISTEM Bab ini akan memaparkan proses implementasi sistem sesuai dengan rancangan yang telah dibangun. Implementasi sistem berisi implementasi basis data dan implementasi proses-proses yang telah dirancang.
5 BAB VI PENGUJIAN DAN PEMBAHASAN Bab ini menjelaskan pengujian-pengujian yang dilakukan dalam penelitian ini. Pengujian dilakukan dalam rangka melakukan evaluasi terhadap sistem yang telah dibangun. Disertai pula pembahasan hasil pengujian tersebut. BAB VII KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dari penelitian yang telah dilakukan dan saran untuk penelitian selanjutnya. Kesimpulan diambil berdasarkan hasil analisa dan pembahasan dari pengujian sistem yang telah dikembangkan.