IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

dokumen-dokumen yang mirip
DAFTAR ISI. BAB II... Error! Bookmark not defined.

HALAMAN SAMPUL SKRIPSI PENGENALAN POLA TELAPAK TANGAN DENGAN MENGGUNAKAN ALGORITMA BACK PROPAGATION NEURAL NETWORK

ABSTRAK. Kata kunci : CBIR, GLCM, Histogram, Kuantisasi, Euclidean distance, Normalisasi. v Universitas Kristen Maranatha

LAPORAN SKRIPSI DATA MINING PENENTUAN LAGU DANGDUT TERLARIS MENGGUNAKAN ALGORITMA NAIVE BAYES. Oleh : VINA KHILMIYATI

PENGENALAN POLA WAYANG MENGGUNAKAN DETEKSI TEPI DAN JARINGAN SARAF TIRUAN PADA APLIKASI MOBILE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

SKRIPSI SEGMENTASI PEMBULUH DARAH PADA CITRA FUNDUS RETINA MATA DENGAN ALGORITMA FILTER GABOR. Oleh: NUR AHMAD FAUZAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

BAB I. Pendahuluan. 1. Latar Belakang Masalah

IDENTIFIKASI KEASLIAN MATA UANG RUPIAH MENGGUNAKAN METODE ALGORITMA K-NEAREST NEIGHBOR (K-NN)

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

ii

APLIKASI EKSTRAKSI CIRI TEKSTUR MENGGUNAKAN METODA GRAY LEVEL CO OCCURRENCE MATRIX

KLASIFIKASI POLA UKIR KAYU JEPARA BERDASARKAN DETEKSI TEPI BERBASIS JARINGAN SYARAF TIRUAN

IMPLEMENTASI METODE BUDGETOPTIMIZED DALAM FITUR PENGAMBILAN KEPUTUSAN PADA PT.TOTAL PRINT TUGAS AKHIR FIRDAUS ANGGA DEWANGGA

SKRIPSI ANALISIS PERBANDINGAN DETEKSI TEPI PREWITT DAN ROBERTS PADA UANG KERTAS DAN MENGGUNAKAN KLASIFIKASI SUPPORT VECTOR MACHINE (SVM)

PENGENALAN AKSARA BALI MENGGUNAKAN METODE MODIFIED DIRECTION FEATURE DAN ALGORITMA GENERALIZED LEARNING VECTOR QUANTIZATION (GLVQ)

KLASIFIKASI CITRA PARU MENGGUNAKAN MODEL SELF-ORGANIZING MAPS RADIAL BASIS FUNCTION NEURAL NETWORKS (SOM-RBFNN) SKRIPSI

PENENTUAN LOKASI PARKIR KOSONG MENGGUNAKAN ALGORITMA PROBABILISTIC NEURAL NETWORK (PNN) SKRIPSI JOKO KURNIANTO

BAB III METODE PENELITIAN

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

BAB IV HASIL DAN PEMBAHASAN

PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE

BAB II LANDASAN TEORI

BAB 3 METODOLOGI. untuk mengurangi adanya false positive dan false negative. False positive dalam hal ini

LAPORAN SKRIPSI EKSTRAKSI CIRI PENGENALAN GENDER MENGGUNAKAN FITUR GEOMETRIS CITRA WAJAH DENGAN METODE FUZZY C-MEANS (FCM)

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

UNIVERSITAS BINA NUSANTARA

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

APLIKASI IDENTIFIKASI CIRI TEKSTUR KAYU JATI MENGGUNAKAN METODA GRAY LEVEL CO OCCURRENCE MATRIX

PERBANDINGAN KLASIFIKASI TUTUPAN LAHAN DENGAN METODE OBJECT-BASED DAN PIXEL- BASED

UCAPAN TERIMAKASIH. Denpasar, Agustus Penulis

LAPORAN SKRIPSI DETEKSI KANKER OTAK PADA DATA MRI MELALUI JARINGAN SYARAF TIRUAN DENGAN EKSTRAKSI FITUR DISCRETE WAVELET TRANSFORM


TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

LEMBAR PENGESAHAN TUGAS AKHIR...

EKSTRAKSI FITUR TEKSTUR CITRA TEMPE MENGGUNAKAN METODE GRAY LEVEL CO-OCCURENCE MATRIX

IDENTIFIKASI SESEORANG BERDASARKAN CITRA TELINGA DENGAN MENGGUNAKAN METODE TRANSFORMASI HOUGH ABSTRAK

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

ABSTRAK. Kata kunci : Steganografi, bit-plane complexity segmentation, data tersembunyi, peak signal-to-noise ratio. v Universitas Kristen Maranatha

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA

MUHAMMAD SALAFUDDIN NIM.

TUGAS AKHIR Diajukan untuk Memenuhi Sebagian Persyaratan Mencapai Derjat Sarjana Teknik Informatika

UNIVERSITAS BINA NUSANTARA Program Ganda. Teknik Informatika - Matematika Skripsi Sarjana Program Ganda Semester Ganjil 2006/2007

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

PENGKLASIFIKASIAN UNTUK MENDETEKSI SPAM MENGGUNAKAN ALGORITMA NAIVE BAYESIAN ABSTRAK

EKSTRAKSI CIRI TEKSTUR CITRA WAJAH PENGGUNA NARKOTIKA MENGGUNAKAN METODE GRAY LEVEL CO-OCCURANCE MATRIX. Abstrak

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL

IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE SKRIPSI AARON

KLASIFIKASI POLA BATIK DENGAN DETEKSI TEPI (LAPLACIAN DAN ROBERT) BERBASIS JARINGAN SYARAF TIRUAN

PENGOLAHAN CITRA RADIOGRAF PERIAPIKAL PADA DETEKSI PENYAKIT PULPITIS MENGGUNAKAN METODE ADAPTIVE REGION GROWING APPROACH

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Efektifitas Algoritma Knuth-Morris-Pratt dan Algoritma Boyer- Moore Dalam Pencarian Word Suggestion Menggunakan Metode Perbandingan Eksponensial

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika. Skripsi Sarjana Komputer. Semester Ganjil tahun 2007/2008 OTOMATISASI SEGMENTASI DOKUMEN

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

PENGARUH DUMMY VARIABLE PADA METODE NAÏVE BAYES DALAM KASUS KLASIFIKASI PENYAKIT KANDUNGAN

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

LAPORAN SKRIPSI ALGORITMA K-MEANS UNTUK PENGELOMPOKAN KABUPATEN/KOTA DI INDONESIA BERDASARKAN INDIKATOR INDEKS PEMBANGUNAN MANUSIA.

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu. Program Studi Informatika. Disusun oleh : FAIRLY OKTA MAL

KLASIFIKASI PADA TEXT MINING

APLIKASI PENGKLASIFIKASIAN MOTIF BATIK TULIS LASEM MENGGUNAKAN METODE GRAY LEVEL CO-OCCURRENCE MATRICES (GLCM) DAN SUPPORT VECTOR MACHINE (SVM)

Novi Indriyani

BAB II TINJAUAN PUSTAKA

PENERAPAN METODE DETEKSI TEPI CANNY UNTUK SISTEM PENGENALAN PLAT NOMOR KENDARAAN TUGAS AKHIR

LAPORAN SKRIPSI ANALISIS PASANGAN CIRI PALING DOMINAN DARI CLUSTERING GENDER BERDASARKAN AMPLITUDO SUARA BERBASIS FUZZY C-MEANS (FCM) Oleh :

PREDIKSI LAMA STUDI MAHASISWA DENGAN METODE RANDOM FOREST (STUDI KASUS : STIKOM BALI)

Oleh Risyad Ananda Putra

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

IDENTIFIKASI TEKSTUR PERMUKAAN KACANG TANAH (KACANG BROL) MENGGUNAKAN PENGOLAHAN CITRA DIGITAL BERDASARKAN WARNA RGB DENGAN K-MEANS CLUSTERING

UNIVERSITAS BINA NUSANTARA

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

DIAGNOSA PENYAKIT PARU EFUSI PLEURA DENGAN PENDEKATAN POSSIBILISTIC FUZZY LEARNING VECTOR QUANTIZATION SKRIPSI

SAMPUL SAMPUL LAPORAN SKRIPSI

IMPLEMENTASI ALGORITMA NEURAL NETWORK DENGAN METODE PRUNE UNTUK KLASIFIKASI PENENTUAN DOSEN PEMBIMBING TUGAS AKHIR TUGAS AKHIR

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

LAPORAN SKRIPSI DETEKSI JENIS KULIT WAJAH BERDASARKAN WARNA YCBCR DENGAN ALGORITMA FUZZY SUBTRACTIVE CLUSTERING

SKRIPSI PENGENALAN TINGKAT KEMATANGAN BUAH PEPAYA CALIFORNIA MENGGUNAKAN PENGOLAHAN CITRA BERDASARKAN WARNA RGB DENGAN K-MEANS CLUSTERING

PENGARUH KUALITAS JASA TERHADAP KEPUTUSAN PEMBELIAN PRODUK GO-SEND TUGAS AKHIR

IDENTIFIKASI TANDA TANGAN MENGGUNAKAN ALGORITMA DOUBLE BACKPROPAGATION ABSTRAK

ANALISIS SENTIMEN BERDASARKAN KALIMAT BERBAHASA INDONESIA PADA KOLOM KOMENTAR INSTAGRAM MENGGUNAKAN ALGORITMA HARN TUGAS AKHIR

PERBAIKAN KINERJA MANAJEMEN LAYANAN DENGAN MENGGUNAKAN METODE SISTEM MANAJEMEN MUTU, LEAN SIX SIGMA DAN BALANCED SCORECARD : STUDI KASUS PT.

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MURIA KUDUS 2015

TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : /PS/MTF

BAB 3 METODOLOGI. melakukan pengamatan dan analisis dari gambar yang didapat. Untuk bisa mendapatkan

1. Pendahuluan 1.1 Latar Belakang

APLIKASI PENGINDERAAN JAUH UNTUK PENGHITUNGAN SEBARAN CO 2 DARI TUTUPAN HUTAN DENGAN SATELIT LANDSAT 8 TUGAS AKHIR

BAB III METODELOGI PENELITIAN

PENGEMBANGAN PROGRAM PENYARINGAN DATA WEBLOG UNTUK ANALISIS POLA AKSES PENGUNJUNG WEBSERVER TESIS BENNY NIXON

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

SKRIPSI RANTI RAMADHIANA

Ekstraksi Fitur Warna, Tekstur dan Bentuk untuk Clustered- Based Retrieval of Images (CLUE)

PENERAPAN METODE SEMANTIC SEARCH DALAM MENCARI RELASI KATA YANG TERDAPAT PADA AL-QUR AN TERJEMAHAN BAHASA INDONESIA SKRIPSI

PENGENALAN AKSARA BALI MENGGUNAKAN METODE ZONING DAN KNN

PENERAPAN METODE MOBILE

Tugas Akhir. Memenuhi Sebagian Persyaratan Mencapai Derajat Sarjana Teknik Informatika. Disusun Oleh : ALOYSIUS HERRY FATMANTO

AGUNG RAHMAT RAMADHAN NIM.

Transkripsi:

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS BAKRIE JAKARTA 2017

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM HALAMAN JUDUL TUGAS AKHIR Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS BAKRIE JAKARTA 2017 ii

iii

UNGKAPAN TERIMA KASIH Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena atas berkat dan rahmat-nya, penulis dapat menyelesaikan Tugas Akhir ini. Penulisan Tugas Akhir ini dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai gelar Sarjana Komputer Program Studi Informatika pada Fakultas Teknik dan Ilmu Komputer Universitas Bakrie. Saya menyadari bahwa, tanpa bantuan dan bimbingan dari berbagai pihak, dari masa perkuliahan sampai pada penyusunan Tugas Akhir ini, sangatlah sulit bagi saya untuk menyelesaikannya. Oleh karena itu, saya mengucapkan terima kasih kepada: 1) Bapak Guson P. Kuntarto, ST, Msc, selaku dosen pembimbing yang telah menyediakan waktu, tenaga, dan pikiran untuk mengarahkan saya dalam penyusunan skripsi ini. 2) Bapak Berkah I. Santoso, S.T, M.T.I., dan Prof. Dr. Hoga Saragih, ST, MT. selaku dewan penguji memberikan masukan dan saran terhadap penulisan skripsi ini. 3) Orang tua dan keluarga saya yang telah memberikan bantuan dukungan material dan moral. 4) FK Bella Septiarani dan Rifki Ramadhani yang telah mendengarkan cerita serta memberikan bantuan dan dukungan. 5) Keluarga Informatika angkatan 2013 yang telah berjuang bersama selama 4 tahun. Akhir kata, penulis berharap Tuhan Yang Maha Esa berkenan membalas segala kebaikan semua pihak yang telah membantu. Semoga Tugas Akhir ini membawa manfaat bagi pengembangan ilmu. Jakarta, 12 September 2017 Penulis iv

v

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM Rizky Novriyedi Putra ABSTRAK Pada saat sekarang ini media sosial memegang peranan penting dalam berkomunikasi dan berbagi pengalaman, Instagram merupakan sebuah platform media sosial yang menggunakan gambar, dan text dalam komunikasi sesama pengguna. Informasi yang tersebar di Instagram dapat berupa promosi barang, dan konten yang tidak berhubungan dengan penerima dan lain sebagainya, hal tesebut merupakan spam yang dapat menggangu kenyamanan. Permasalahan tersebut dapat dicegah dengan mengklasifikasi data gambar dan text pada Instagram kedalam kategori spam dan non-spam. Untuk melakukan hal tersebut diperlukannya sebuah dataset yang dapat diproses menggunakan metode gray level coocurance matrix (GLCM) untuk data gambar dan term frequency invers document frequency (TF/IDF) untuk data text. Proses klasifikasi pada penelitian ini menggunakan 250 data spam dan 250 data non-spam, dimana masing-masing dataset images dan dataset text berjumlah 500 data. Algortima random forests digunakan sebagai metode klasifikasi dalam machine learning yang memiliki tahapan random feature selection, dan bootstrap aggrigation dalam pembentukan model, untuk proses klasifikasi random forests menggunakan majority vote, hasil penelitian ini memiliki f-measure rata-rata 70% untuk dataset gambar dan rata-rata 60% untuk dataset text dengan melakukan perubahan parameter bootstrap aggregation menjadi 3 diantaranya 1/2, 1/6, 2/3 data dari dataset. Kata Kuci: Instagram, Gray Level Coocurance Matrix (GLCM), Term Frequency/ Invers Document Frequency (TF/IDF), Machine Learning, Random Forests, Random Feature Selection, Bagging, Majority Vote. vi

IMPLEMENTATION OF RANDOM FORESTS ALGORITHM FOR SPAM CLASSIFICATION ON IMAGE AND TEXT INSTAGRAM Rizky Novriyedi Putra ABSTRACT Today, social media is a important part of communication and sharing experience to the people in network. One of that is Instagram, a social media platform that using picture and text in communication to each other user. Information spread on the Instagram have a many variation like a promotion, and content that doesn t related to other user and etc, that will disturb the comfort to some user. The problems can be solved with classification the data of text and picture to spam and non-spam category. To do that, we ll need some dataset that can be processed with method of Gray Level Concurrence Matrix (GLCM) to data picture and Term Frequency invers Document Frequency (TF/IDF) to data text. The process classification on this study using 250 spam and 250 non-spam data where in each other data set total is 500 data. Algorithm Random Forest used in classification method for machine learning that have a random feature selection and bootstrap aggregation in forming the model, for process classification random forest used majority vote. The result of this study have Average F-Measure 70% on picture dataset and 60% on text dataset with 3 (three) parameter bootstrap aggregation among others, 1/2, 1/6, 2,3 data from dataset. Key Words: Instagram, Gray Level Coocurance Matrix (GLCM), Term Frequency/ Invers Document Frequency (TF/IDF), Machine Learning, Random Forests, Random Feature Selection, Bagging, Majority Vote. vii

DAFTAR ISI HALAMAN JUDUL... ii HALAMAN PERNYATAAN ORISINALITAS... Error! Bookmark not defined. HALAMAN PENGESAHAN... Error! Bookmark not defined. UNGKAPAN TERIMA KASIH... iv HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASIError! not defined. Bookmark ABSTRAK... vi ABSTRACT... vii DAFTAR ISI... viii DAFTAR GAMBAR... xi DAFTAR TABEL... xiii DAFTAR RUMUS... xiv DAFTAR LAMPIRAN... xv BAB I PENDAHULUAN... 1 1.1. Latar Belakang... 1 1.2. Rumusan Masalah... 4 1.3. Tujuan Penelitian... 4 1.4. Ruang Lingkup Penelitian... 4 1.5. Sistematika Penulisan... 5 BAB II TINJAUAN PUSTAKA... 6 2.1. Penelitian Terkait... 6 2.2. Spam... 10 2.3. Feature Extraction... 11 2.4. Machine Learning... 18 BAB III METODOLOGI PENELITIAN... 25 viii

3.1. Studi Literatur... 27 3.2. Merumuskan Tujuan Penelitian... 27 3.3. Pembentukan Dataset... 28 3.4. Implementasi Random Forests... 33 3.5. Hasil Implementasi dan Pembahasan... 35 3.6. Penyusunan Laporan Hasil Penelitian... 35 BAB IV IMPLEMENTASI DAN HASIL PENELITIAN... 36 4.1. Pengumpulan Data... 36 4.2. Ekstraksi Fitur... 39 4.2.1. Ekstrasi Fitur Images... 39 4.2.2. Ekstraksi Fitur Text... 40 4.3. Labeling... 41 4.4. Dataset... 42 4.4.1. Training Data... 42 4.4.2. Testing Data... 43 4.5. Pembentukan Random Forests... 43 4.5.1. Random Feature Selection... 44 4.5.2. Bootstrap Aggregation (Bagging)... 44 4.5.3. Pembentukan Pohon... 45 4.6. Eksperimen... 46 4.6.1. Hasil Model Training... 47 4.6.2. Hasil Uji Coba Data Images... 48 4.6.3. Hasil Uji Coba Data Text... 52 4.7. Pembahasan... 55 BAB V SIMPULAN DAN SARAN... 56 5.1. Simpulan... 56 ix

5.2 Saran... 57 DAFTAR PUSTAKA... 58 LAMPIRAN... 62 x

DAFTAR GAMBAR Gambar 2. 1 Proses Kuantisasi [10]... 13 Gambar 2. 2 Empat Sudut GLCM [22]... 14 Gambar 2. 3 Proses Pembentukan Co-occurrence Matrix [10]... 14 Gambar 2. 4 Proses Pembentukan Matrik Simetris [10]... 15 Gambar 2. 5 Proses Normalisasi Matrik Simetris [10]... 15 Gambar 2. 6 Flowchart Algoritma Random Forests [30]... 21 Gambar 2. 7 Decision tree [37]... 22 Gambar 3. 1. Tahapan Penelitian... 25 Gambar 3. 2 Pembentukan Dataset dan Implementasi Random Forests... 26 Gambar 3. 3. Hasil Crawling [34].... 30 Gambar 3. 4. Tahapan Text Preprocessing... 31 Gambar 3. 5. Proses Klasifikasi Algoritma Random Forests... 34 Gambar 3. 6. Tabel Confusion Matrix Images dan Text... 35 Gambar 4. 1 Potongan JSON hasil Crawling.... 36 Gambar 4. 2. Potongan description... 37 Gambar 4. 3. Potongan Raw Data Images Non-Spam... 37 Gambar 4. 4. Potongan Raw Data Images Spam... 38 Gambar 4. 5. Potongan Raw Data Text Non-Spam... 38 Gambar 4. 6. Potongan Raw Data Text Spam... 38 Gambar 4. 7. Potongan Hasil Preprocess Class GLCM Data Images Non-Spam.. 39 Gambar 4. 8. Potongn Hasil Preprocess Class GLCM Data Images Spam... 39 Gambar 4. 9. Parameter Query.... 40 Gambar 4. 10. Kumpulan File JSON hasil Crawling.... 40 xi

Gambar 4. 11. Potongan Hasil Preprocess Class TF-IDF... 41 Gambar 4. 12. Script Labeling Data.... 42 Gambar 4. 13. Psudocode Algoritma Random Forests [36]... 43 Gambar 4. 14. Implementasi Algoritma Random Forests... 44 Gambar 4. 15. Contoh Model Random Forests Images... 45 Gambar 4. 16. Contoh Model Random Forests Text... 46 Gambar 4. 17. Potongan Data Hasil Uji Coba... 47 Gambar 4. 18. Hasil Model Data Text... 47 Gambar 4. 19. Hasil Model Data Images... 48 Gambar 4. 20. Hasil Rata-Rata Uji Coba 2/3 Bagging Images... 49 Gambar 4. 21. Hasil Rata-Rata Uji Coba 1/2 Bagging Images... 50 Gambar 4. 22. Hasil Rata-Rata Uji Coba 1/6 Bagging Images... 51 Gambar 4. 23. Hasil Rata-Rata Uji Coba 2/3 Bagging Text... 52 Gambar 4. 24. Hasil Rata-Rata Uji Coba 1/2 Bagging Text... 53 Gambar 4. 25. Hasil Rata-Rata Uji Coba 1/6 Bagging Text... 54 xii

DAFTAR TABEL Tabel 2. 1 Rangkuman Hasil Penelitian Terkait... 9 Tabel 2. 2 Pengelompokan Warna [10].... 13 Tabel 2. 3 Confusion Matrix 2x2 [12].... 23 xiii

DAFTAR RUMUS Persamaan (2.1) Contrats Persamaan (2.2) Correlation Persamaan (2.3) Energy (Angular Second Moment) Persamaan (2.4) Entropy Persamaan (2.5) Homogeneity Persamaan (2.6) TF (Term Frequency) Persamaan (2.7) IDF (Inverse Document Frequency) Persamaan (2.8) TF-IDF Persamaan (2.9) Information Gain Persamaan (2.10) Gain Persamaan (2.11) Entropi Persamaan (2.12) F-Measure Persamaan (2.13) Recall Persamaan (2.14) Precision xiv

DAFTAR LAMPIRAN Lampiran 1: Raw Data Non-Spam Images Lampiran 2: Raw Data Spam Images Lampiran 3: Raw Data Spam Text Lampiran 4: Raw Data Non-Spam Text Lampiran 5: Dataset Images Lampiran 6: Dataset Text Lampiran 7: Hasil Implementasi Random Forests Data Training Images Lampiran 8: Hasil Implementasi Random Forests Data Training Text Lampiran 9: Hasil Implementasi Random Forests Data Testing Images Lampiran 10: Hasil Implementasi Random Forests Data Testing Text Lampiran 11: Source Code Class GLCM Lampiran 12: Source Code Class TF-IDF Lampiran 13: Source Code Class Random Forests Lampiran 14: Source Code Class Confusion Matrix xv