DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS SKRIPSI Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar Strata Satu Program Studi Informatika Disusun oleh : AFIF RIZKA WANDALA NIM. M0509004 PROGRAM STUDI INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2015
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS SKRIPSI Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar Strata Satu Program Studi Informatika Disusun oleh : AFIF RIZKA WANDALA NIM. M0509004 PROGRAM STUDI INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2015 i
ii
iii
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS AFIF RIZKA WANDALA Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret ABSTRAK Saat ini konten porno banyak bertebaran di sebuah website baik dalam bentuk konten utama maupun iklan. Salah satu cara untuk mencegah konten yang tidak diinginkan tersebut adalah dengan pendeteksian konten. Pendeteksian konten dilakukan dengan proses text mining. Setiap website diprediksi dengan mempertimbangkan karakteristik text yang ada didalamnya. Metode yang digunakan untuk mempredeksi web porno dalam penelitian ini adalah bayesian filtering, Bayesian filtering berrfungsi memperhitungkan probabilitas kemiripan suatu website dengan membandingkan munculnya tiap keyword pada data latih. Namun, banyaknya keyword atau variable mempengaruhi efisiensi dan keakuratan deteksi. Untuk mengatasi hal tersebut, peneilitan ini menggunakan Principal component analysis untuk mengurangi dan mencari variable yang memiliki pengaruh penting terhadap deteksi. Dari penelitian ini diperoleh tingkat akurasi tertinggi deteksi web berkonten porno dengan metode bayesian filtering sebesar 89.22%, hasil deteksi tersebut menggunakan 51 variable hasil ekstraksi Principal component analysis. Kata kunci : Bayesian Filtering, Text mining, Deteksi, PCA, Porno iv
PORN WEBSITE DETECTION USING BAYESIAN FILTERING AND PRINCIPAL COMPONENT ANALYSIS METHOD AFIF RIZKA WANDALA Department of Informatics, Faculty of Mathematics and Natural Science Sebelas Maret University ABSTRACT Now days many pornographic content on a website is not only in the form of main content but also in advertisement. One way to prevent it is using content detection. The detection of content can be done with text mining process. Each website is predicted inside by the characteristics of the text. This research using Bayesian filtering to predicting of pornographic web. The function of Bayesian filtering is to calculate the similarity s of probability in a website by comparing the appearance of each keyword in the training data. However, the number of keywords or variables influence the efficiency and accuracy of detection. To prefent it this research using Principal component analysis to reduce and looking for the variables have an important influence on detection. From this research, the highest level of accuracy of detection of pornographic web with Bayesian filtering method amounted to 89.22%, the detection results using 51 variables from extraction result of Principal component analysis. Keyword : Bayesian Filtering, Detection, PCA, Porn, Text mining. v
MOTTO La tahzan Allohu ma ana Sebaik-baik manusia adalah yang paling bermanfaat bagi orang lain. -(HR. Ahmad) sesungguhnya bersama dengan kesulitan, ada kemudahan.. bersama dengan kesulitan, ada kemudahan.. (Al-Insyirah : 6-7) With great power comes great responsibility -Spiderman vi
PERSEMBAHAN Karya ini Penulis persembahkan kepada : Bapak dan Ibu yang jasanya tidak akan pernah terbalaskan sedikitpun Kakak dan adik saya yang telah memberi support yang tiada hentinya vii
KATA PENGANTAR Segala puji dan syukur penulis ucapkan kepada Allah SWT, yang hanya karena rahmat dan karunia-nya, penulis dapat menyelesaikan penelitian dan pembuatan laporan penelitian ini dengan judul DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS, yang merupakan salah satu syarat mendapatkan gelar strata satu Informatika Universitas Sebelas Maret Surakarta. Skripsi ini tidak akan selesai tanpa adanya bantuan dari banyak pihak. Untuk itu penulis ingin menyampaikan ucapan terima kasih kepada : 1. Allah SWT atas limpahan segala rahmat dan karunianya sehingga karya tulis ini dapat terselesaikan. 2. Bapak Palgunadi selaku dosen pembimbing yang telah memberikan bimbingan, masukan, serta pengarahan. 3. Bapak Abdul Aziz selaku dosen pembimbing yang telah memberikan bimbingan, masukan, serta pengarahan. 4. Bapak Afrizal dan Bapak Bambang Harjito selaku dosen penguji yang telah memberikan penilaian dan masukan untuk tugas akhir ini. 5. Bapak, Ibu, dan keluarga yang selalu memberikan dukungan. 6. Teman-teman dan adik-adik semua yang memberi bantuan serta nasehat. 7. Keluarga besar S1 Informatika UNS, khususnya angkatan 2009 atas kiriman semangat dan motivasi skripsi. Semoga penelitian yang telah dilakukan penulis dapat bermanfaat. Surakarta, 29 September 2015 Penulis viii
DAFTAR ISI HALAMAN JUDUL... i HALAMAN PERSETUJUAN... ii HALAMAN PERSETUJUAN... iii ABSTRAK... iv ABSTRACT... v MOTTO... vi PERSEMBAHAN... vii KATA PENGANTAR... viii DAFTAR ISI... ix DAFTAR TABEL... xi DAFTAR GAMBAR... xii DAFTAR LAMPIRAN... xiii BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah... 3 1.3 Batasan Masalah... 3 1.4 Tujuan Penelitian... 3 1.5 Manfaat Penelitian... 3 1.6 Sistematika Penulisan... 4 BAB II TINJAUAN PUSTAKA... 5 2.1 Dasar Teori... 5 2.1.1 Text mining... 5 2.1.2 Web Crawling... 6 2.1.3 Text Preprocessing... 6 2.1.4 Web Mining... 8 2.1.5 Information Gain... 9 2.1.6 Bayesian Filtering... 10 2.1.7 Multikolinieritas... 12 2.2 Penelitian terkait... 15 2.3 Rencana Penelitian... 17 ix
BAB III METODOLOGI... 18 3.1 Pengumpulan Data... 18 3.2 Implementasi... 19 3.2.1 Preprocessing... 19 3.2.2 Reducing Variable... 20 3.2.3 Feature Selection... 21 3.2.4 Bayesian Filtering... 23 3.3 Pengujian... 24 3.3.1 Kombinasi data dan variabel... 24 3.3.2 Correctness... 24 BAB IV HASIL DAN PEMBAHASAN... 25 4.1 Hasil pengumpulan data dan Crawling... 25 4.2 Preprocessing... 25 4.3 Variable extraction... 26 4.3.1 Analisis PCA data training 100 porn :400 safe... 26 4.3.2 Analisis PCA data training 250 porn : 250 safe... 28 4.3.3 Analisis PCA data training 400 porn : 100 safe... 30 4.4 Hasil Pengujian deteksi dengan Bayesian filtering... 32 BAB V PENUTUP... 34 5.1 Kesimpulan... 34 5.2 Saran... 34 DAFTAR PUSTAKA... 35 x
DAFTAR TABEL Tabel 2.1 Penelitian Terkait... 15 Tabel 3.1. Contoh nilai covarians variabel PCA... 22 Tabel 4.1 Total keyword... 25 Tabel 4.2 Keyword hasil estraksi PCA data 100:400... 27 Tabel 4.3 Keyword hasil estraksi PCA data 250 porn : 250 safe... 28 Tabel 4.4 Keyword hasil estraksi PCA data 400 porn : 100 safe... 30 Tabel 4.5 Perbandingan akurasi non PCA... 32 Tabel 4.6 Perbandingan akurasi ekstraksi PCA... 33 xi
DAFTAR GAMBAR Gambar 2.1 Proses text mining... 6 Gambar 2.2 Contoh tokenizing... 7 Gambar 2.4 Contoh stemming... 8 Gambar 3.1 Alur metodologi penelitian... 18 Gambar 3.2 Grafik nilai eigen PCA... 21 Gambar 4.1 Grafik nilai eigen PCA 100 web porno: 400 web safe... 26 Gambar 4.2 Grafik nilai eigen PCA 250 web porno: 250 web safe... 28 Gambar 4.3 Grafik nilai eigen PCA 400 web porno: 100 web safe... 30 xii
DAFTAR LAMPIRAN Lampiran 1. Nilai gain 1000 keyword 100 porn : 400 safe... 37 Lampiran 2. Nilai gain 1000 keyword 250 porn : 250 safe... 45 Lampiran 3. Nilai gain 1000 keyword 400 porn : 100 safe... 54 xiii