BAB IV HASIL DAN PEMBAHASAN

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Klasifikasi Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS SENTIMEN DATA KRITIK DAN SARAN PELATIHAN APLIKASI TEKNOLOGI INFORMASI (PATI) MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

PENDAHULUAN. 1.1 Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

PENGKLASIFIKASIAN TINGKAT DANGEROUS DRIVING BEHAVIOR MENGGUNAKAN DATA ELEKTROENSEFALOGRAFI (EEG) DENGAN PENDEKATAN MACHINE LEARNING

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN 1.1 Latar Belakang

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB II LANDASAN TEORI

UKDW BAB I PENDAHULUAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Bandung, Indonesia Bandung, Indonesia

Peringkasan Teks Otomatis Berita Berbahasa Indonesia Pada Multi-Document Menggunakan Metode Support Vector Machines (SVM)

Perbandingan Algoritma Pendeteksian Spam

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINE DENGAN DATA CLEANING (GSVM-DC) UNTUK SPAM FILTERING

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

OPTIMALISASI SUPPORT VEKTOR MACHINE (SVM) UNTUK KLASIFIKASI TEMA TUGAS AKHIR BERBASIS K-MEANS

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

CHURN PREDICTION PELANGGAN MENGGUNAKAN CRISP-DM (Studi Kasus Pelanggan TelkomFlexi Bandung)

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen

1. Pendahuluan 1.1 Latar Belakang

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB 1 PENDAHULUAN Latar Belakang

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG

Algoritma Dasar. 4.1 Naive Bayes

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

Gambar 1.1 Proses Text Mining [7]

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB III METODOLOGI PENELITIAN. Dataset

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

HASIL DAN PEMBAHASAN. B fch a. d b

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

KLASIFIKASI PADA TEXT MINING

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

BAB III METODE PENELITIAN. tangan dengan menggunakan metode Support Vector Machine (SVM).

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

KLASIFIKASI PADA TEXT MINING

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

SUPPORT VECTOR MACHINE UNTUK IMAGE RETRIEVAL

BAB I PENDAHULUAN 1.1. Latar Belakang

PENGENALAN KUALITAS BUAH JERUK KINTAMANI MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) KOMPETENSI KOMPUTASI SKRIPSI KOMANG SONIYA GUNAWAN

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

BAB 2 TINJAUAN PUSTAKA

BAB V EKSPERIMEN TEXT CLASSIFICATION

SISTEM KLASIFIKASI PENYAKIT DIABETES MELLITUS MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN)

BAB I PENDAHULUAN. sistem peredaran darah orang lain. Sebelum ditransfusikan, periksa kembali sifat

BAB 4 HASIL DAN PEMBAHASAN

ABSTRAK. Universitas Kristen Maranatha

Analisis dan Implementasi Algoritma Graph-based K-Nearest Neighbour untuk Klasifikasi Spam pada Pesan Singkat

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera pada lampiran 4, yang akan dijadikan sebagai bahan analisis data sebagai berikut : Tabel 3 Hasil Pengenalan Email Spam dengan SVM Parameter Hasil ns 500 nh 500 ns s 375 ns h 125 nh h 490 nh s 10 Keterangan : ns : jumlah spam 62

nh : jumlah ham ns s : jumlah spam yang benar dikenali sebagai spam ns h : jumlah spam yang dikenali sebagai ham nh h : jumlah ham yang benar dikenali sebagai ham nh s : jumlah ham yang dikenali sebagai spam Data hasil eksperimen dengan metode SVM di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut : 1. Recall Spam 375 375 125 0.75 2. Recall Ham 490 490 0 〲 0.98 3. Precision Spam 375 375 10 63

0.97 4. Precision Ham 490 490 125 0.80 5. F-measure Spam 2 x 0.75 0.974 0.75 0.974 0.85 6. F-measure Ham 2 x 0.98 0.796 0.98 0.796 0.88 4.1.2 K Nearest Neighbor (knn) Hasil pengenalan metode k-nearest Neighbor (knn) dengan k = 1 sebagaimana terlampir pada lampiran 5 adalah sebagai berikut : 64

Tabel 4 Hasil Pengenalan Email Spam dengan knn Parameter Hasil Ns 500 Nh 500 ns s 464 ns h 36 nh h 431 nh s 69 Keterangan : ns nh : jumlah spam : jumlah ham ns s : jumlah spam yang benar dikenali sebagai spam ns h : jumlah spam yang dikenali sebagai ham nh h : jumlah ham yang benar dikenali sebagai ham nh s : jumlah ham yang dikenali sebagai spam Data hasil eksperimen dengan metode knn di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut : 65

1. Recall Spam 464 464 36 0.93 2. Recall Ham 431 431 69 0.86 3. Precision Spam 464 464 69 0.87 4. Precision Ham 431 431 36 0.92 5. F-measure Spam 2 x 0.928 0.870 0.928 0.870 66

0.90 6. F-measure Ham 2 x 0.862 0.922 0.862 0.922 0.89 4.1.3 Naïve Bayes Classifier (NBC) Hasil pengenalan dengan metode Naïve Bayes Classifier (NBC) sebagaimana terlampir pada lampiran 6 direpresentasikan pada tabel berikut : Tabel 5 Hasil Pengenalan Email Spam dengan NBC Parameter Hasil ns 500 nh 500 ns s 496 ns h 4 nh h 118 nh s 382 Keterangan : ns : jumlah spam 67

nh : jumlah ham ns s : jumlah spam yang benar dikenali sebagai spam ns h : jumlah spam yang dikenali sebagai ham nh h : jumlah ham yang benar dikenali sebagai ham nh s : jumlah ham yang dikenali sebagai spam Data hasil eksperimen dengan metode NBC di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut : 1. Recall Spam : 496 496 4 0.99 2. Recall Ham : 118 118 382 晜 0.24 3. Precision Spam : 496 496 382 68

0.56 4. Precision Ham 118 118 4 0.97 5. F-measure Spam 2 x 0.992 0.564 0.992 0.564 0.72 6. F-measure Ham 2 x 0.236 0.967 0.236 0.67 0.38 69

4.2 Analisis Hasil Penelitian 4.2.1 Recall, Precision dan F-measure Spam Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (knn) dan Naïve Bayes Classifier (NBC). Tabel 6 Recall, Precision dan F-measure Spam Recall Spam Precision Spam F measure Spam SVM 0.75 0.97 0.85 knn 0.93 0.87 0.90 NBC 0.99 0.56 0. 72 Berdasarkan tabel di atas dapat terlihat bahwa nilai recall spam tertinggi diperoleh dari hasil pengenalan metode NBC, precision spam tertinggi diperoleh dari hasil pengenalan metode SVM, sedangkan f-measure spam tertinggi diperoleh dari hasil pengenalan metode knn. Metode Support Vector Machines (SVM) menghasilkan recall spam yang lebih rendah dari metode knn dan NBC yaitu sebesar 0.75. Namun meski demikian metode SVM menghasilkan precision spamtertinggi dibandingkan dengan hasil pengenalan metode knn dan NBC yaitu sebesar 0.97. F-measure spam yang dihasilkan metode SVM cukup tinggi yaitu sebesar 0.85, meskipun masih berada di bawah f-measure spam knn. Nilai precision spam SVM yang lebih tinggi dari knn dan NBC menunjukkan bahwa SVM sangat efektif dalam mempertahankan email ham agar 70

tidak dikenali sebagai spam. Hal ini sangat penting, karena jika email ham dikenali sebagai spam, maka penerima cenderung untuk tidak membaca email tersebut karena menganggapnya sebagai email spam. Namun recall spam yang rendah menunjukkan bahwa kinerja SVM dalam mengenali email spam lebih rendah dari knn dan NBC. Metode k Nearest Neighbor (knn) menghasilkan recall spam yang cukup tinggi, yaitu sebesar 0.93 meskipun masih di bawah recall spam NBC. Precision spam knn pun cukup tinggi yaitu sebesar 0.87, namun juga masih di bawah precision spam SVM. Untuk F-measure spam knn menghasilkan nilai tertinggi dibandingkan dengan f-measure spam SVM dan NBC yaitu sebesar 0.90. Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall spam yang lebih tinggi dari recall spam SVM dan knn yaitu sebesar 0.99. Namun, precision spam yang dihasilkan sangat rendah yaitu sebesar 0.56. Hal ini menyebabkan nilai f- measure spam yang dihasilkan oleh metode NBC ini menjadi rendah, yaitu sebesar 0.72. Nilai recall spam NBC yang lebih tinggi dari SVM dan knn menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih baik dari SVM dan knn. Hal ini juga sangat penting mengingat kerugian yang banyak terjadi akibat banyaknya email spam yang dikenali sebagai email ham sebagaimana disebutkan pada latar belakang penelitian. Namun precision spam yang sangat rendah menunjukkan bahwa kemampuan NBC dalam mengenali email ham lebih rendah dari SVM dan knn sehingga banyak email ham yang dikenali sebagai email spam. 71

Grafik hasil perhitungan nilai recall, metode Support Vectore Machines (SVM), k precision dan f-measure spam dari Nearest Neighbor (knn) dan Naïve Bayes Classifier (NBC) digambarkan seperti di bawah ini : 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SVM knnn NBC Recall Spam Precision Spam F Measure Spam Gambar 22 Grafik Nilai Recall, Precision dan F-measure Spam 4.2.2 Recall, Precision dan F-measure Ham Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines Bayes Classifier (NBC) : (SVM), k Nearest Neighbor (knn) dan Naïve Tabel 7 Recall, Precision dan F-measure Ham SVM knn NBC Recall Ham 0. 98 0. 86 0. 24 Precision Ham 0.800 0.92 0.97 F measure Ham 0.88 0.89 0. 38 72

Berdasarkan tabel di atas, nilai recall ham tertinggi dihasilkan oleh metode SVM yaitu sebesar 0.98, precision ham tertinggi dihasilkan oleh metode NBC yaitu sebesar 0.97, sedangkan f-measure ham tertinggi dihasilkan oleh metode knn yaitu sebesar 0.89. Metode Support Vector Machines (SVM) menghasilkan nilai recall ham yang sangat tinggi, yaitu sebesar 0.98.. Namun, precision ham yang dihasilkan SVM lebih rendah dari precision ham hasil knn dan NBC yaitu sebesar 0.80. Nilai f-measure ham yang dihasilkan oleh metode SVM cukup tinggi, yaitu sebesar 0.88, meskipun masih di bawah f-measureham knn. Nilai recall ham SVM yang lebih tinggi dari knn dan NBC menunjukkan bahwa kinerja SVM dalam mengenali email ham lebih baik dari knn dan NBC. Hal ini berarti proporsi email ham yang dikenali sebagai email spam lebih rendah dari knn dan NBC. Namun nilai precision ham SVM yang lebih rendah dari knn dan NBC menunjukkan bahwa kinerja SVM dalam mengenaliemail spam tidak lebih baik dari knn dan NBC. Metode k Nearest Neighbor (knn) menghasilkan nilai recall ham yang cukup tinggi yaitu sebesar 0.86 meskipun masih di bawah recall ham SVM. Precision ham yang dihasilkan metode knn pun cukup tinggi yaitu sebesar 0.92 meskipun masih di bawah precision ham NBC. Sedangkan nilai f-measure ham yang dihasilkan knn lebih tinggi dari f-measure ham SVM dan NBC yaitu sebesar 0.89. 73

Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall ham yang sangat rendah yaitu sebesar 0.24. Namun, nilai precision ham yang dihasilkan NBC sangat tinggi, yaitu sebesar 0.97, lebih tinggi dari precision ham SVM dan knn. Sedangkan nilai f-measure ham yang dihasilkan NBC ini cukup rendah, yaitu sebesar 0.38. Nilai precision ham NBC yang lebih tinggi dari SVM dan knn menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih tinggi dari SVM dan knn. Sementara dalam mengenali email ham kinerja NBC sangat rendah jika dibandingkan dengan SVM dan knn. Hal ini ditunjukkan oleh rendahnya nilai recall ham yang dihasilkan oleh NBC. Secara keseluruhan, hasil perhitungan nilai recall, precision dan f-measure ham yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (knn) dan Naïve Bayes Classifier (NBC) digambarkan dalam grafik di bawah ini : 74

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SVM knnn NBC Recall Ham Precision Ham F Measure Ham Gambar 23 Grafik Nilai Recall, Precision dan F-measure Spam Hasil penelitian ini menunjukkan bahwa SVM lebih baik dalam konteks pengenalan email ham. Hal ini ditunjukkan oleh nilai precision spam dan recall ham yang lebih tinggi dari metode knn dan NBC. Sedangkan dalam konteks pengenalan email spam NBC menunjukkan hasil yang lebih baik dengan nilai recall spam dan precision ham yang lebih tinggi dari SVM dan knn. Hal tersebut dapat disebabkan karena struktur email spam lebih kompleks dari email ham. Ketersebaran data email spam yang lebih kompleks padaa ruang vector menyebabkan hyperplane yang dihasilkan oleh algoritma SVM tidak dapat melakukan pengelompok kkan email spam sebaik pengelompokkan email ham. 75

Hasil penelitian ini berbeda dengan beberapa hasil penelitian sebelumnya yang telah disebutkan pada Bab I. Hal ini dapat disebabkan oleh beberapa faktor berikut : 1. Perbedaan jenis dan jumlah feature yang digunakan baik dalam proses training maupun testing. 2. Perbedaan dalam teknik pre-processing data. 3. Perbedaan dalam teknik pembobotan data. 4. Perbedaan jenis kernel yang digunakan. 76