BAB IV HASIL DAN PEMBAHASAN 4.1 Data E-mail Pada bagian ini akan disajikan detail jumlah keseluruhan dataset yang digunakan untuk penelitian. Dataset diambil CSDMC21 yang disediakan oleh http://www.csmining.org/ dan diakses pada tanggal 27 Oktober 214. Isi dataset dari CSDMC21 bisa dilihat pada gambar 4.1. Total dataset e-mail yang dimiliki oleh CSDMC21 adalah 4653 e- mail yang terdiri dari 4292 data training dan 4327 data testing. Dari kedua jenis data tersebut antara spam dan non-spam menjadi satu direktori sehingga apabila diproses secara langsung tidak akan menghasilkan nilai akurasi, presisi, recall dan error rate yang diinginkan. Gambar 4.1. Data Set 4.2 Penyeleksian Pada bagian sebelumnya telah dijelaskan total dataset e-mail yang dimiliki oleh CSDMC21. Dikarenakan tercampurnya antara spam dan non-spam maka penyeleksian data dilakukan secara manual dibantu oleh label list yang tersedia pada paket dataset (lihat gambar 4.1 pada file SPAMTrain.label). Label list berisi informasi e-mail mana saja yang tergolong spam maupun non-spam. Penyeleksian awal adalah memilah e- mail mana yang termasuk spam dan non-spam yang terdapat pada folder Training. Dari sini didapatkan spam sebanyak 6 dan non-spam sebanyak 17
18 6. Lalu pada folder Testing diambil total 25 spam dan 25 non spam. Hasil penyeleksian tersebut akan dilampirkan pada halaman lampiran 3. 4.3 Hasil Implementasi dan Analisa Pada bagian ini akan dijabarkan hasil dari keseluruhan pengujian. Penyajian data adalah tabel perhitungan diikuti dengan grafik sebagai pembanding. Tabel 4.1 Tabel Pengujian Naïve Bayesian data testing 2% 26 22 24 28 4% 56 37 44 63 6% 98 57 52 93 8% 141 52 59 148 1% 21 37 49 213 Tabel 4.1 berisi hasil keseluruhan pengujian dataset e-mail menggunakan metode Naïve Bayesian. adalah keadaan dimana non-spam dianggap non-spam. adalah keadaan dimana spam dianggap sebagai spam. adalah keadaan dimana spam yang dianggap sebagai non-spam. adalah keadaan dimana nonspam dianggap sebagai spam. Tabel 4.2 Tabel Pengujian data testing 2% 22 36 26 16 4% 51 59 42 48 6% 89 73 55 83 8% 126 77 66 131 1% 183 68 53 196
19 Tabel 4.3 Tabel Pengujian data testing 2% 22 28 34 16 4% 51 39 62 48 6% 89 61 67 83 8% 126 59 84 131 1% 183 47 74 196 Tabel 4.2 dan tabel 4.3 berisi hasil keseluruhan pengujian dataset e- mail menggunakan metode. adalah keadaan dimana nonspam dianggap non-spam. adalah keadaan dimana spam dianggap sebagai spam. adalah keadaan dimana spam yang dianggap sebagai non-spam. adalah keadaan dimana non-spam dianggap sebagai spam. Pada kasus proses pengujian menghasilkan tiga output yaitu spam, non-spam dan unsure. Dalam kasus ini penulis mengkondisikan menjadi dua tabel yaitu tabel dan. Pada tabel kondisi unsure dikenali sistem sebagai non-spam. Sedangkan Pada tabel kondisi unsure dikenali sistem sebagai spam. 4.4 Hasil Analisa menggunakan Confusion Matrixdan Pembahasan Proses selanjutnya adalah perhitungan akurasi, presisi, recall dan error rate menggunakan dasar rumus Confusion Matrix. Detail perhitungan pada lampiran dua. Tabel 4.4 Tabel Akurasi.54.38.38.595.495.495.637.573.573.723.643.643.828.758.758
2 Tabel 4.4 berisi hasil dari perhitungan akurasi kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di gambar 4.2 1.8.6.4.2 akurasi Gambar 4.2Grafik akurasi Dari grafik yang disajikan terlihat bahwa akurasi semakin membaik sejalan dengan bertambahanya data training dan testing. Akurasi yang dihasilkan metode Naïve Bayesian menghasilkan angka lebih besar dibandingkan akurasi dari metode. Dari dan angka yang dihasilkan sama meskipun dengan kondisi yang berbeda. Mengapa bisa memunculkan angka yang sama dikarenakan untuk penghitungan akurasi formula yang dibutuhkan adalah jumlah dari kedua kondisi prediksi dibandingkan dengan jumlah total data. Sehingga meskipun dikondisikan berbeda hasilnya akan tetap sama karena jumlah dari kedua kondisi prediksi tetap sama bagaimana pun kondisinya. Tabel 4.5 Tabel Presisi.542.379.44.62.464.567.632.549.593.731.621.681.845.729.796
21 Tabel 4.5 berisi hasil dari perhitungan presisi kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di Gambar 4.3 1 Presisi.8.6.4.2 Gambar 4.3Grafik Presisi Dari grafik yang disajikan terlihat bahwa presisi semakin membaik sejalan dengan bertambahanya data training dan testing. Presisi yang dihasilkan metode Naïve Bayesian lebih besar dibandingkan akurasi dari metode. Dari perbandingan ke dua sendiri, menghasilkan presisi yang lebih baik. lebih baik karena nilai lebih kecil dibandingkan yang dimiliki. Tabel 4.6 Tabel Recall.52.458.393.56.548.451.653.618.571.75.656.6.84.775.712 Tabel 4.6 berisi hasil dari perhitungan recall kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di gambar 4.4
22.9.8.7.6.5.4.3.2.1 Recall Gambar 4.4Grafik Recall Dari grafik yang disajikan terlihat bahwa recall semakin membaik sejalan dengan bertambahanya data training dan testing. recall yang dihasilkan metode Naïve Bayesian lebih besar dibandingkan akurasi dari metode. Dari perbandingan ke dua sendiri, menghasilkan recall yang lebih baik. Dalam hal recall bisa lebih baik dikarenakan pada kondisi nilai lebih kecil. Table 4.7 Tabel Alarm Rate.458.621.56.398.536.433.368.451.47.269.379.319.155.271.24 Tabel 4.7 berisi hasil dari perhitungan error rate kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di gambar 4.5
23.7.6.5.4.3.2.1 Alarm Rate Gambar 4.5Grafik Alarm Rate Error Rate pada penyajian data ini adalah berdasarkan kasus yang diidentifikasi salah, sehingga perhitungan error rate disini berdasarkan pada nilai prediksi spam. Dalam hal ini adalah. Dari grafik yang disajikan terlihat bahwa error semakin mengecil sejalan dengan bertambahanya data training dan testing yang berarti kemungkinan terjadinya kesalahan semakin kecil. Error Rate yang dihasilkan metode Naïve Bayesian lebih kecil dibandingkan akurasi dari metode. Dari perbandingan ke dua sendiri, menghasilkan alarm rate yang lebih kecil nilai false positifnya lebih besar dibandingkan.