BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera pada lampiran 4, yang akan dijadikan sebagai bahan analisis data sebagai berikut : Tabel 3 Hasil Pengenalan Email Spam dengan SVM Parameter Hasil ns 500 nh 500 ns s 375 ns h 125 nh h 490 nh s 10 Keterangan : ns : jumlah spam 62
nh : jumlah ham ns s : jumlah spam yang benar dikenali sebagai spam ns h : jumlah spam yang dikenali sebagai ham nh h : jumlah ham yang benar dikenali sebagai ham nh s : jumlah ham yang dikenali sebagai spam Data hasil eksperimen dengan metode SVM di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut : 1. Recall Spam 375 375 125 0.75 2. Recall Ham 490 490 0 〲 0.98 3. Precision Spam 375 375 10 63
0.97 4. Precision Ham 490 490 125 0.80 5. F-measure Spam 2 x 0.75 0.974 0.75 0.974 0.85 6. F-measure Ham 2 x 0.98 0.796 0.98 0.796 0.88 4.1.2 K Nearest Neighbor (knn) Hasil pengenalan metode k-nearest Neighbor (knn) dengan k = 1 sebagaimana terlampir pada lampiran 5 adalah sebagai berikut : 64
Tabel 4 Hasil Pengenalan Email Spam dengan knn Parameter Hasil Ns 500 Nh 500 ns s 464 ns h 36 nh h 431 nh s 69 Keterangan : ns nh : jumlah spam : jumlah ham ns s : jumlah spam yang benar dikenali sebagai spam ns h : jumlah spam yang dikenali sebagai ham nh h : jumlah ham yang benar dikenali sebagai ham nh s : jumlah ham yang dikenali sebagai spam Data hasil eksperimen dengan metode knn di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut : 65
1. Recall Spam 464 464 36 0.93 2. Recall Ham 431 431 69 0.86 3. Precision Spam 464 464 69 0.87 4. Precision Ham 431 431 36 0.92 5. F-measure Spam 2 x 0.928 0.870 0.928 0.870 66
0.90 6. F-measure Ham 2 x 0.862 0.922 0.862 0.922 0.89 4.1.3 Naïve Bayes Classifier (NBC) Hasil pengenalan dengan metode Naïve Bayes Classifier (NBC) sebagaimana terlampir pada lampiran 6 direpresentasikan pada tabel berikut : Tabel 5 Hasil Pengenalan Email Spam dengan NBC Parameter Hasil ns 500 nh 500 ns s 496 ns h 4 nh h 118 nh s 382 Keterangan : ns : jumlah spam 67
nh : jumlah ham ns s : jumlah spam yang benar dikenali sebagai spam ns h : jumlah spam yang dikenali sebagai ham nh h : jumlah ham yang benar dikenali sebagai ham nh s : jumlah ham yang dikenali sebagai spam Data hasil eksperimen dengan metode NBC di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut : 1. Recall Spam : 496 496 4 0.99 2. Recall Ham : 118 118 382 晜 0.24 3. Precision Spam : 496 496 382 68
0.56 4. Precision Ham 118 118 4 0.97 5. F-measure Spam 2 x 0.992 0.564 0.992 0.564 0.72 6. F-measure Ham 2 x 0.236 0.967 0.236 0.67 0.38 69
4.2 Analisis Hasil Penelitian 4.2.1 Recall, Precision dan F-measure Spam Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (knn) dan Naïve Bayes Classifier (NBC). Tabel 6 Recall, Precision dan F-measure Spam Recall Spam Precision Spam F measure Spam SVM 0.75 0.97 0.85 knn 0.93 0.87 0.90 NBC 0.99 0.56 0. 72 Berdasarkan tabel di atas dapat terlihat bahwa nilai recall spam tertinggi diperoleh dari hasil pengenalan metode NBC, precision spam tertinggi diperoleh dari hasil pengenalan metode SVM, sedangkan f-measure spam tertinggi diperoleh dari hasil pengenalan metode knn. Metode Support Vector Machines (SVM) menghasilkan recall spam yang lebih rendah dari metode knn dan NBC yaitu sebesar 0.75. Namun meski demikian metode SVM menghasilkan precision spamtertinggi dibandingkan dengan hasil pengenalan metode knn dan NBC yaitu sebesar 0.97. F-measure spam yang dihasilkan metode SVM cukup tinggi yaitu sebesar 0.85, meskipun masih berada di bawah f-measure spam knn. Nilai precision spam SVM yang lebih tinggi dari knn dan NBC menunjukkan bahwa SVM sangat efektif dalam mempertahankan email ham agar 70
tidak dikenali sebagai spam. Hal ini sangat penting, karena jika email ham dikenali sebagai spam, maka penerima cenderung untuk tidak membaca email tersebut karena menganggapnya sebagai email spam. Namun recall spam yang rendah menunjukkan bahwa kinerja SVM dalam mengenali email spam lebih rendah dari knn dan NBC. Metode k Nearest Neighbor (knn) menghasilkan recall spam yang cukup tinggi, yaitu sebesar 0.93 meskipun masih di bawah recall spam NBC. Precision spam knn pun cukup tinggi yaitu sebesar 0.87, namun juga masih di bawah precision spam SVM. Untuk F-measure spam knn menghasilkan nilai tertinggi dibandingkan dengan f-measure spam SVM dan NBC yaitu sebesar 0.90. Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall spam yang lebih tinggi dari recall spam SVM dan knn yaitu sebesar 0.99. Namun, precision spam yang dihasilkan sangat rendah yaitu sebesar 0.56. Hal ini menyebabkan nilai f- measure spam yang dihasilkan oleh metode NBC ini menjadi rendah, yaitu sebesar 0.72. Nilai recall spam NBC yang lebih tinggi dari SVM dan knn menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih baik dari SVM dan knn. Hal ini juga sangat penting mengingat kerugian yang banyak terjadi akibat banyaknya email spam yang dikenali sebagai email ham sebagaimana disebutkan pada latar belakang penelitian. Namun precision spam yang sangat rendah menunjukkan bahwa kemampuan NBC dalam mengenali email ham lebih rendah dari SVM dan knn sehingga banyak email ham yang dikenali sebagai email spam. 71
Grafik hasil perhitungan nilai recall, metode Support Vectore Machines (SVM), k precision dan f-measure spam dari Nearest Neighbor (knn) dan Naïve Bayes Classifier (NBC) digambarkan seperti di bawah ini : 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SVM knnn NBC Recall Spam Precision Spam F Measure Spam Gambar 22 Grafik Nilai Recall, Precision dan F-measure Spam 4.2.2 Recall, Precision dan F-measure Ham Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines Bayes Classifier (NBC) : (SVM), k Nearest Neighbor (knn) dan Naïve Tabel 7 Recall, Precision dan F-measure Ham SVM knn NBC Recall Ham 0. 98 0. 86 0. 24 Precision Ham 0.800 0.92 0.97 F measure Ham 0.88 0.89 0. 38 72
Berdasarkan tabel di atas, nilai recall ham tertinggi dihasilkan oleh metode SVM yaitu sebesar 0.98, precision ham tertinggi dihasilkan oleh metode NBC yaitu sebesar 0.97, sedangkan f-measure ham tertinggi dihasilkan oleh metode knn yaitu sebesar 0.89. Metode Support Vector Machines (SVM) menghasilkan nilai recall ham yang sangat tinggi, yaitu sebesar 0.98.. Namun, precision ham yang dihasilkan SVM lebih rendah dari precision ham hasil knn dan NBC yaitu sebesar 0.80. Nilai f-measure ham yang dihasilkan oleh metode SVM cukup tinggi, yaitu sebesar 0.88, meskipun masih di bawah f-measureham knn. Nilai recall ham SVM yang lebih tinggi dari knn dan NBC menunjukkan bahwa kinerja SVM dalam mengenali email ham lebih baik dari knn dan NBC. Hal ini berarti proporsi email ham yang dikenali sebagai email spam lebih rendah dari knn dan NBC. Namun nilai precision ham SVM yang lebih rendah dari knn dan NBC menunjukkan bahwa kinerja SVM dalam mengenaliemail spam tidak lebih baik dari knn dan NBC. Metode k Nearest Neighbor (knn) menghasilkan nilai recall ham yang cukup tinggi yaitu sebesar 0.86 meskipun masih di bawah recall ham SVM. Precision ham yang dihasilkan metode knn pun cukup tinggi yaitu sebesar 0.92 meskipun masih di bawah precision ham NBC. Sedangkan nilai f-measure ham yang dihasilkan knn lebih tinggi dari f-measure ham SVM dan NBC yaitu sebesar 0.89. 73
Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall ham yang sangat rendah yaitu sebesar 0.24. Namun, nilai precision ham yang dihasilkan NBC sangat tinggi, yaitu sebesar 0.97, lebih tinggi dari precision ham SVM dan knn. Sedangkan nilai f-measure ham yang dihasilkan NBC ini cukup rendah, yaitu sebesar 0.38. Nilai precision ham NBC yang lebih tinggi dari SVM dan knn menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih tinggi dari SVM dan knn. Sementara dalam mengenali email ham kinerja NBC sangat rendah jika dibandingkan dengan SVM dan knn. Hal ini ditunjukkan oleh rendahnya nilai recall ham yang dihasilkan oleh NBC. Secara keseluruhan, hasil perhitungan nilai recall, precision dan f-measure ham yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (knn) dan Naïve Bayes Classifier (NBC) digambarkan dalam grafik di bawah ini : 74
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SVM knnn NBC Recall Ham Precision Ham F Measure Ham Gambar 23 Grafik Nilai Recall, Precision dan F-measure Spam Hasil penelitian ini menunjukkan bahwa SVM lebih baik dalam konteks pengenalan email ham. Hal ini ditunjukkan oleh nilai precision spam dan recall ham yang lebih tinggi dari metode knn dan NBC. Sedangkan dalam konteks pengenalan email spam NBC menunjukkan hasil yang lebih baik dengan nilai recall spam dan precision ham yang lebih tinggi dari SVM dan knn. Hal tersebut dapat disebabkan karena struktur email spam lebih kompleks dari email ham. Ketersebaran data email spam yang lebih kompleks padaa ruang vector menyebabkan hyperplane yang dihasilkan oleh algoritma SVM tidak dapat melakukan pengelompok kkan email spam sebaik pengelompokkan email ham. 75
Hasil penelitian ini berbeda dengan beberapa hasil penelitian sebelumnya yang telah disebutkan pada Bab I. Hal ini dapat disebabkan oleh beberapa faktor berikut : 1. Perbedaan jenis dan jumlah feature yang digunakan baik dalam proses training maupun testing. 2. Perbedaan dalam teknik pre-processing data. 3. Perbedaan dalam teknik pembobotan data. 4. Perbedaan jenis kernel yang digunakan. 76