ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

dokumen-dokumen yang mirip
( ) ( ) (3) II-1 ( ) ( )

Seleksi Atribut Menggunakan Information Gain Untuk Clustering Penduduk Miskin Dengan Validity Index Xie Beni

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB III METODOLOGI PENELITIAN. Dataset

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB 3 METODE PENELITIAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio

KLASIFIKASI PADA TEXT MINING

BAB II TINJAUAN PUSTAKA

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

SKRIPSI. Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program Studi Teknik Informatika OLEH :

KLASIFIKASI PADA TEXT MINING

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

Analisis Perbandingan Algoritma ID3 Dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum Pada PDAM Kabupaten Kendal

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

Pemanfaatan Educational Data Mining (EDM)...

ANALISIS PERBANDINGAN TINGKAT AKURASI ALGORITMA NAÏVE BAYES CLASSIFIER DENGAN CORRELATED-NAÏVE BAYES CLASSIFIER

Penerapan Dizcretization dan Teknik Bagging Untuk Meningkatkan Akurasi Klasifikasi Berbasis Ensemble pada Algoritma C4.5 dalam Mendiagnosa Diabetes

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

ANALISIS SERANGAN DARI LOG DATASET SISTEM DETEKSI INTRUSI DENGAN MENGGUNAKAN ALGORITMA DECISION TREE SKRIPSI RAHMAD FAHROZI

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

PEMBOBOTAN KORELASI PADA NAÏVE BAYES CLASSIFIER

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

IMPLEMENTASI TEKNIK SELEKSI FITUR INFORMATION GAIN PADA ALGORITMA KLASIFIKASI MACHINE LEARNING UNTUK PREDIKSI PERFORMA AKADEMIK SISWA

PERBANDINGAN KINERJA ALGORITMA C4.5 DAN NAIVE BAYES UNTUK KETEPATAN PEMILIHAN KONSENTRASI MAHASISWA. Abstrak

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB III METODE PENELITIAN

Sistem Pendukung Keputusan Untuk Mengevaluasi Internal Program Studi

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

RANCANGAN SISTEM REKOMENDASI KATEGORI PERUSAHAAN PRAKTIK INDUSTRI MENGGUNAKAN ALGORITMA NAÏVE BAYES

PROSIDING ISSN:

PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R)

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

SAINTEKBU: Jurnal Sains dan Teknologi Volume 9 No.2 Mei 2017 EVALUASI INTERNAL PROGRAM STUDI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER (NBC)

PERBANDINGAN KINERJA ALGORITME C4.5 DAN NAÏVE BAYES MENGKLASIFIKASI PENYAKIT DIABETES

PENERAPAN DATA MINING UNTUK MENENTUKAN POTENSI HUJAN HARIAN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

BAB III METODE PENELITIAN

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Versi Online tersedia di : JURNAL TECH-E (Online)

BAB I PENDAHULUAN Latar Belakang

TINJAUAN PUSTAKA. Definisi Data Mining

Algoritma K-Means untuk Diskretisasi Numerik Kontinyu Pada Klasifikasi Intrusion Detection System Menggunakan Naive Bayes

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

Bandung, Indonesia Bandung, Indonesia

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

BAB II TINJAUAN PUSTAKA

Prosiding SNATIF Ke-1 Tahun 2014 ISBN:

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

ALGORITMA NAÏVE BAIYES UNTUK PREDIKSI PROFESI BERDASARKAN SKILL JOB SEEKER

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

BAB II TINJAUAN PUSTAKA

PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel

BAB 2 TINJAUAN PUSTAKA

PERBANDINGAN K-SUPPORT VECTOR NEAREST NEIGHBOR TERHADAP DECISION TREE DAN NAIVE BAYES

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga

BAB 2. Landasan Teori

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

BENCHMARKING ALGORITMA PEMILIHAN ATRIBUT PADA KLASIFIKASI DATA MINING

BAB 1 PENDAHULUAN 1.1 LATAR BELAKANG

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN 1.1 Latar Belakang

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

ANALISIS DAN IMPLEMENTASI ALGORITMA RELIEFF UNTUK FEATURE SELECTION PADA KLASIFIKASI DATASET MULTICLASS

BAB IV EKSPERIMEN. 4.1 Tujuan

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

PENERAPAN NAIVE BAYES PADA INTRUSION DETECTION SYSTEM DENGAN DISKRITISASI VARIABEL

Transkripsi:

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A Kampus USU, Medan, 20155, Indonesia E-mail : aulia.e@live.com (1) ABSTRACT In this study applied Attribute Information Gain Evaluation techniques for preprocessing the Naïve Bayes classification algorithm. Characteristic of Naïve Bayes algorithm within the classification is based on probability theory that sees all the features of the data as evidence in probabilitias. By doing feature selection, the results of this study indicate that Information Gain Attribute Evaluation not significantly improve performance and computation time Naïve Bayes classification algorithm. Keywords : Information Gain Attribute Evaluation, Naïve Bayes, Classification, Performance ABSTRAK Pada penelitian ini diterapkan teknik Information Gain Attribute Evaluation untuk preprocessing dalam klasifikasi menggunakan algoritma Naïve Bayes. Karakteristik Naïve Bayes dalam melakukan klasifikasi didasarkan pada teori probabilitas yang memandang semua fitur dari data sebagai bukti dalam probabilitias. Dengan melakukan seleksi fitur, hasil penelitian ini menunjukkan bahwa Information Gain Attribute Evaluation tidak begitu signifikan meningkatkan kinerja dan waktu komputasi klasifikasi dengan algoritma Naïve Bayes. Kata kunci: Information Gain Attribute Evaluation, Naïve Bayes, Klasifikasi, Performansi Jurnal ISD (Information System Development) Vol.2 No.2 Juli - Desember 2016 9

PENDAHULUAN Klasifikasi digunakan untuk menilai data dengan memasukkan data tersebut ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Ada dua pekerjaan utama dalam klasifikasi yaitu pembangunan model dengan melakukan pelatihan (training) sebagai prototype untuk disimpan sebagai memori; penggunaan atau penerapan model tersebut untuk melakukan klasifikasi data lain agar diketahui di kelas mana data tersebut dalam model yang sudah disimpan pada proses pembangunan model [1]. Karakteristik Naïve Bayes dalam melakukan klasifikasi didasarkan pada teori probabilitas yang memandang semua fitur/atribut dari data sebagai bukti dalam probabilitias. Model yang digunakan dalam Naïve Bayes adalah model fitur/atribut independen. Dengan kata lain, Bayes merupakan teknik prediksi berbasis probabilistik dengan asumsi independensi yang kuat pada fitur/atribut. Maksudnya adalah bahwa fitur/atribut pada sebuah data tidak berkaitan dengan ada atau tidak adanya fitur/atribut lain dalam data yang sama [1]. Dengan lebih menitik beratkan pada atribut data, seleksi atribut dapat menjadi sebuah masalah fundamental terhadap kinerja suatu algoritma. Untuk beberapa algoritma, setiap atribut data memiliki peranan penting, tapi untuk beberapa algoritma dalam mencapai targetnya, hanya beberapa atribut yang relevan untuk tindakan lebih lanjutnya. Beberapa atribut pada data mungkin memiliki nilai yang tidak relevan untuk tugas mining dan jika mengikutsertakannya dapat merugikan dan mengacaukan tugas algoritma data mining [2]. Untuk itu perlu dilakukan seleksi atribut yang merupakan proses untuk mengidentifikasi dan menghilangkan atribut dengan nilai yang tidak relevan atau berlebihan [3]. Seleksi atribut dapat dilakukan dengan metode penyaringan dimana atribut diurutkan sesuai dengan peringkat (ranking) berdasarkan evaluasi dengan kriteria tertentu seperti akurasi dan konsistensi data [4]. Salah satu algoritma yang digunakan dalam seleksi atribut dengan metode penyaringan adalah informasi Gain. Informasi Gain menggunakan entropy untuk menentukan atribut terbaik. Entropy merupakan ukuran ketidakpastian. Semakin besar nilai informasi gain dari suatu atribut, maka semakin signifikan atribut tersebut untuk tugas prediksi [5]. Penelitian ini menyajikan penerapan algoritma Naïve Bayes untuk mengetahui perubahan nilai akurasi dan hasil prediksi serangan yang ada dalam dataset KDD Cup 99 dengan dan tanpa seleksi atribut Information Gain Attribute Evaluation yang dipilih berdasarkan nilai informasi gainnya. METODE PENELITIAN Berikut ini flow diagram untuk metode penelitian yang dilakukan: Gambar 1. Metode Penelitian Jurnal ISD Vol.2 No.2 Juli - Desember 2016 ISSN : 2528-5114 10

Dataset Pada umumnya, dataset yang digunakan untuk penelitian mengenai klasifikasi serangan intrusi adalah dataset KDD Cup 99 [6]. Dataset ini merupakan data rekam koneksi yang terdiri dari 1 jenis data normal dan 22 jenis data serangan yang dikelompokkan kedalam empat tipe intrusi. Dataset yang diperoleh dari UCI Repository ini memiliki 41 atribut/fitur yang dibagi ke dalam tiga kelompok yaitu atribut basic, atribut konten dan atribut trafik. Atribut basic (atribut nomor 1 sampai 9) merupakan hasil ekstraksi dari sistem log tcpdump dalam jaringan komputer. Atribut konten (atribut nomor 10 sampai 22) merupakan atribut-atribut yang diambil dari kegiatan yang berlangsung dalam sistem jaringan komputer. Sedangkan atribut trafik terbagi menjadi dua bagian, pertama terdiri dari atribut nomor 23 sampai 31 merupakan atribut trafik jaringan yang dihitung menggunakan waktu dua detik time window, dan kedua terdiri dari atribut nomor 32 sampai 41 dihitung menggunakan waktu dua detik time window dari tujuan ke host. Discretization Umumnya, Bayes mudah dihitung untuk atribut bertipe kategoris, namun pada dataset KDD Cup 99 terdapat beberapa atribut bertipe kontinu (numerik) sehingga ada perlakuan khusus sebelum dimasukkan dalam Naïve Bayes. Untuk mengubah fitur bertipe numerik menjadi kategoris dapat dilakukan dengan cara diskritisasi pada setiap fitur kontinu tersebut dengan nilai interval diskret. Dalam hal ini, pendekatan yang digunakan adalah metode Supervised Entropy Based Discretization yang diusulkan oleh Fayyad dan Irani [7]. Information Gain Attribute Evaluation Penggunaan teknik seleksi atribut/fitur bertujuan untuk membuang fitur yang tidak relevan atau berlebihan dari segi vektor fitur yang diberikan. Dalam literatur machine learning telah banyak diusulkan teknik-teknik seleksi atribut. Beberapa seleksi atribut di antaranya adalah: IG (Information Gain), Gain Ratio, Symmetrical Uncertainty, Relief- F, One-R and Chi-Squared. Dalam tulisan ini dilakukan evaluasi terhadap Information Gain Attribute Evaluation. Entropi pada umumnya digunakan untuk mengukur ketidakpastian dari sekumpulan atribut dari suatu set data. Ukuran entropi dianggap sebagai ukuran ketidakpastian dimana semakin tinggi entropy suatu atribut maka semakin tinggi ketidakpastian. Berikut ini rumus entropi [8]. ( ) ( ) ( ( )) (1) dimana ( ) sama dengan fungsi probabilitas marginal untuk variabel acak Y. Jika nilai-nilai Y yang diamati dalam dataset S dipartisi sesuai dengan nilai-nilai dari fitur kedua X, dan entropi Y terhadap partisi yang disebabkan oleh X kurang dari entropi Y sebelum partisi, maka ada hubungan antara fitur Y dan X. kemudian entropi Y setelah mengamati X adalah: ( ) ( ) ( ) (2) dimana ( ) sama dengan probabilitas bersyarat dari y terhadap x. Mengingat entropi sebagai kriteria pengotor dalam pelatihan set S, kita dapat mendefinisikan ukuran mencerminkan informasi tambahan tentang Y disediakan oleh X yang mewakili jumlah dimana entropi Y menurun. Langkah ini dikenal sebagai IG. Hal ini diberikan oleh ( ) ( ) ( ) ( ) (3) Seperti yang terlihat pada persamaan 3 bahwa informasi yang diperoleh tentang Jurnal ISD Vol.2 No.2 Juli - Desember 2016 ISSN : 2528-5114 11

Y setelah mengamati X sama dengan informasi yang diperoleh tentang X setelah mengamati Y. Untuk hasil perhitungan nilai Information Gain terhadap dataset KDD Cup 99 menunjukkan bahwa ada empat atribut yang memiliki nilai gain 0 yang berarti bahwa atribut tersebut tidak memberikan kontribusi pada karakteristik trafik jaringan dan 37 atribut memiliki nilai gain lebih besar dari 0 yang berarti relevan dengan karakteristik trafik jaringan. Adapun empat atribut yang direduksi (nilai gain 0) tersebut adalah lnum_outbound_cmds, lsu_attempted, urgent, is_host_login. Hal ini disebabkan karena adanya kesamaan nilai pada setiap data yang dimiliki oleh masing-masing atribut sehingga tidak memberikan kontribusi terhadap karakteristik jaringan. Sebagai contoh atribut is_host_login bernilai 1 jika login dari hot list dan bernilai 0 jika sebaliknya. Di dalam dataset KDD Cup 99, semua data untuk atribut ini bernilai 0 sehingga perhitungan gain yang dihasilkan sama dengan 0. Dengan demikian, maka atribut ini dianggap tidak memberi kontribusi terhadap karakteristik jaringan. Menurut peneliti Suthaharan & Panchagnula [9], tidak semua atribut yang ada di dalam dataset KDD Cup 99 memberikan kontribusi pada karakteristik trafik jaringan Naïve Bayes Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi [1]. Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naïve Bayes dituliskan dengan P(Y X). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir (posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior probability) Y. Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P(Y X) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat dari data latih. Dengan membangun model tersebut, suatu data uji X dapat diklasifikasikan dengan mencari nilai Y dengan memaksimalkan nilai P(Y X ) yang didapat. Formulasi Naïve Bayes untuk klasifikasi adalah: ( ) ( ) ( ) ( ) (4) P(Y X) adalah probabilitas data dengan vektor X pada kelas Y. P(Y) adalah probabilitas awal kelas Y. ( ) adalah probabilitas independen kelas Y dari semua fitur dalam vektor X. Nilai P(X) selalu tetap sehingga dalam perhitungan prediksi hanya menghitung bagian ( ) ( ) dengan memilih yang terbesar sebagai kelas yang dipilih sebagai hasil prediksi. Sementara probabilitas independen ( ) tersebut merupakan pengaruh semua fitur dari data terhadap setiap kelas Y, yang difomulasikan dengan: ( ) ( ) (5) dimana, setiap set fitur * + terdiri atas q atribut. Pengukuran Performansi Pada umumnya pengukuran performansi klasifikasi menggunakan matriks konfusi (confusion matrix). Confusion matrix merupakan tabel pencatat hasil kerja klasifikasi. Tabel Jurnal ISD Vol.2 No.2 Juli - Desember 2016 ISSN : 2528-5114 12

confusion matrix berisikan empat kemungkinan keluaran sebagai bahan acuan dalam membandingan antara kejadian yang sebenarnya (aktual) dengan kejadian yang terprediksi seperti yang ditunjukan pada tabel 1. Aktual Table 1. Confusion Matrix Prediksi Normal Intrusi Normal TP TN Intrusi FP FN dimana: True Positive (TP) sama dengan jumlah data normal yang diprediksi normal. True Negative (TN) sama dengan jumlah data normal yang diprediksi serangan. False Positive (FP) sama dengan jumlah data serangan yang diprediksi normal. False Negative (FN) sama dengan jumlah data serangan yang diprediksi serangan. Jumlah data yang diklasifikasikan benar, dapat digunakan untuk menghitung performansi akurasi dan Detection Rate, sedangkan jumlah data yang diklasifikasikan salah, dapat digunakan untuk menghitung performansi False Positive Rate dan True Negative Rate. Berikut persamaan untuk menghitung performansi klasifikasi: (4) (5) HASIL DAN PEMBAHASAN Hasil Pengujian Pengujian dilakukan dengan menggunakan seluruh data yang ada di dalam dataset KDD Cup 99 10% dengan komposisi data normal sebanyak 97.277 data dan data intrusi sebanyak 396.743 data. Sama dengan pengujian sebelumnya, hasil proses klasifikasi pola didistribusikan ke dalam confusion matrix seperti ditunjukkan pada Tabel 2 dan 3. Kemudian, nilai tersebut digunakan untuk mengukur performansi. Table 2. Confusion Matrix Pengujian Tanpa Seleksi Atribut Aktual Prediksi Normal Intrusi Normal 97.176 101 Intrusi 4.533 392.210 Berikut ini hasil perhitungan performansi untuk pengujian tanpa menggunakan seleksi atribut Information Gain Attribut Evaluation: Table 3. Confusion Matrix Pengujian Dengan Seleksi Atribut Aktual Prediksi Normal Intrusi Normal 97.176 101 Intrusi 4.521 392.222 Berikut ini hasil perhitungan performansi untuk pengujian menggunakan seleksi atribut Information Gain Attribut Evaluation: (6) (7) Jurnal ISD Vol.2 No.2 Juli - Desember 2016 ISSN : 2528-5114 13

Pembahasan Dari dua eksperimen yang dilakukan dapat dilihat bahwa penggunaan teknik Information Gain Evaluation Attribute untuk menyeleksi dan mengurangi atribut yang tidak relevan atau nilai gainnya sama dengan 0, tidak memberi pengaruh yang signifikan terhadap performansi klasifikasi Naive Bayes. Perubahan hasil klasifikasi hanya terlihat pada peningkatan deteksi data intrusi dari 392.210 menjadi 392.222, sedangkan untuk data normal masih tetap KESIMPULAN Information Gain Attribute Evaluation tidak mampu secara signifikan meningkatkan performansi akurasi, deteksi dan false positive algoritma Naïve Bayes dalam melakukan klasifikasi data serangan yang ada pada dataset KDD Cup 99. Begitu juga dengan waktu pembangunan model yang tidak berpengaruh signifikan. DAFTAR PUSTAKA [1] E. Prasetyo, Data Mining: Konsep dan aplikasi menggunakan matlab, Yogyakarta: Andi Yogyakarta, 2012. [2] B. Azhagusundari and A. Thanami, "Feature selection based on information gain," International Journal and Innovative Technology and Exploring Engineering (IJITEE), 2013. Journal of Computational Intelligence Research, 2013. [4] M. Danubianu, S. Pentiuc and D. Danubianu, "Data Dimensionality Reduction for Data Mining: A combined filter-wrapper framework," International Journal of Computers, Communications & Control, 2012. [5] L. Ladha and T. Deepa, "Feature selection methods and algorithms," International Journal on Computer Science and Engineering (IJCSE), 2013. [6] "UCI Machine Learning Repository," 1999. [Online]. Available: http://kdd.ics.uci.edu/... [Accessed 25 Juni 2016]. [7] U. M. Fayyad and K. B. Irani, "Multi-interval discretization of continuous-valued attributes for classification learning," in Proceedings of the 13th International Joint Conference on Artificial Intelligence, 1993. [8] M. Slocum, "Decision making using ID3 algorithm," InSight: Rivier Academic Journal, vol. Volume 8, p. Number 2, FALL 2012. [9] S. Suthaharan and T. Panchagnula, "Relevance feature selection with data cleaning for intrusion detection system," in Proceedings of IEEE (pp. 1-6), in Southeastcon: IEEE, 2012. [3] R. Abraham, J. Simha and S. Iyengar, "Effective discretization and hybrid feature selection using naive bayessian classifier for medical data mining," International Jurnal ISD Vol.2 No.2 Juli - Desember 2016 ISSN : 2528-5114 14