METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

dokumen-dokumen yang mirip
Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

MENGGUNAKAN DATA MINING

BAB IV PERANCANGAN SISTEM

BAB III METODOLOGI PENELITIAN. Dataset

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017

BAB III ANALISIS SISTEM

BAB III METODE PENELITIAN

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PARTICLE SWARM OPTIMIZATION UNTUK MENINGKATKAN AKURASI PREDIKSI PEMASARAN BANK

PERBANDINGAN TEKNIK SAMPLING DALAM RANDOM FOREST PADA KELAS IMBALANCED

BAB III METODE PENELITIAN

BAB 3 METODE PENELITIAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

MEMPREDIKSI STATUS BERLANGGANAN KLIEN BANK PADA KAMPANYE PEMASARAN LANGSUNG DENGAN MENGGUNAKAN METODE KLASIFIKASI DENGAN ALGORITMA C5.

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

PREDIKSI KEPUTUSAN KLIEN TELEMARKETING UNTUK DEPOSITO PADA BANK MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

Prediksi Nasabah yang Berpotensi Membuka Simpanan Deposito Menggunakan Naive Bayes Berbasis Particle Swarm Optimization

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine.

Techno.COM, Vol. 17, No. 2, Mei 2018 :

ANALISIS PENGARUH METODE OVER SAMPLING DALAM CHURN PREDICTION UNTUK PERUSAHAAN TELEKOMUNIKASI

BAB 2 TINJAUAN PUSTAKA

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB I 1 PENDAHULUAN. atas sekelompok vertebra, invertebrate discs, saraf, otot, medulla, dan sendi

PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

ANALISIS PERBANDINGAN TINGKAT AKURASI ALGORITMA NAÏVE BAYES CLASSIFIER DENGAN CORRELATED-NAÏVE BAYES CLASSIFIER

BAB III METODE PENELITIAN

PERBANDINGAN ALGORITMA C4.5 DENGAN C4.5 BAGGING DALAM MEMPREDIKSI DAN ANALISA DATA SET PEMILIH MINYAK PELUMAS MESIN (OLI) PADA KEDARAAN RODA DUA

BAB I PENDAHULUAN 1.1 Latar Belakang

TINJAUAN PUSTAKA. Definisi Data Mining

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

PERBANDINGAN KINERJA ALGORITME C4.5 DAN NAÏVE BAYES MENGKLASIFIKASI PENYAKIT DIABETES

BAB V IMPLEMENTASI DAN PENGUJIAN SISTEM

PROSIDING ISSN:

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB 2 TINJAUAN PUSTAKA

BAB 2. Landasan Teori

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT

ALGORITMA NAÏVE BAYES UNTUK PENENTUAN JURUSAN PADA SISWA MADRASAH ALIYAH

KLASIFIKASI METODE NAIVE BAYES UNTUK KELANCARAN PEMBAYARAN KREDIT LEASING SEPEDA MOTOR

Pemanfaatan Educational Data Mining (EDM)...

( ) ( ) (3) II-1 ( ) ( )

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

KLASIFIKASI UNTUK DIAGNOSA DIABETES MENGGUNAKAN METODE BAYESIAN REGULARIZATION NEURAL NETWORK (RBNN)

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

IPTEK-KOM, Vol. 19 No.12, Juni 2017: ISSN

CITEE 2017 Yogyakarta, 27 Juli 2017 ISSN:

BAB I PENDAHULUAN 1.1 Latar Belakang

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB 4 IMPLEMENTASI DAN PENGUJIAN

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA

KOMPARASI ALGORITMA KLASIFIKASI DENGAN PENDEKATAN LEVEL DATA UNTUK MENANGANI DATA KELAS TIDAK SEIMBANG

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

IMPLEMENTASI WEB SERVICE DAN ANALISIS KINERJA ALGORITMA KLASIFIKASI DATA MINING UNTUK MEMPREDIKSI DIABETES MELLITUS

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

Algoritma K-Means Untuk Menangani Data Tidak Seimbang Pada Data Kebakaran Hutan

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

Bab I Pendahuluan. 1.1 Latar Belakang

PENGKOMBINASIAN POHON KEPUTUSAN DATA PENCILAN KELAS DAN POHON KEPUTUSAN DATA NORMAL UNTUK PENINGKATAN AKURASI PREDIKSI CACAT PERANGKAT LUNAK

METODOLOGI PENELITIAN

KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU

PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Analisis Kualitas Data dan Klasifikasi Data Pasien Kanker

Perbandingan Kinerja Algoritme CART dan Naïve Bayesian Untuk Mendiagnosa Penyakit Diabetes Mellitus

3. Masalah Penelitian

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

KAJIAN ALGORITMA NAÏVE BAYES DALAM PEMILIHAN PENERIMAAN BEASISWA TINGKAT SMA

KOMPARASI ALGORITMA NAÏVE BAYES DAN K- NEAREST NEIGHBOR UNTUK DETEKSI KANKER PAYUDARA

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

OPTIMASI DECISION TREE MENGGUNAKAN PARTICLE SWARM OPTIMIZATION PADA DATA SISWA PUTUS SEKOLAH

PENANGANAN MASALAH KELAS DATA TIDAK SEIMBANG PADA PEMODELAN RISIKO HIV DI PAPUA EVLINA TRISIA SALSABELLA

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

SISTEM DETEKSI PENYAKIT DIABETES MENGGUNAKAN METODE SUPPORT VECTOR MACHINES

IMPLEMENTASI TEKNIK SELEKSI FITUR INFORMATION GAIN PADA ALGORITMA KLASIFIKASI MACHINE LEARNING UNTUK PREDIKSI PERFORMA AKADEMIK SISWA

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

Transkripsi:

Metode Klasifikasi Data Mining dan Teknik Sampling Smote... METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN Hairani *, Noor Akhmad Setiawan, Teguh Bharata Adji Department of Electrical Engineering and Information Technology Universitas Gadjah Mada Jalan Grafika No. 2, Yogyakarta, 55281 Indonesia * Email: ronii.ahmad83@gmail.com Abstrak Class imbalance merupakan sebuah permasalahan yang lazim ditemukan pada dataset, dimana disribusi antara class mayoritas (Negative) dan minoritas (positive) tidak seimbang. Dengan kata lain, class mayoritas memiliki jumlah yang lebih banyak dibandingkan class minoritas. Dengan distribusi yang tidak seimbang, metode pada machine learning cenderung keliru mengklasifikasikan class minoritas. Paper ini mengadopsi pendekatan teknik sampling yaitu Algoritma SMOTE untuk menangani permasalahan class imbalance yang dikombinasikan dengan metode klasifikasi yang lainnya yaitu metode,, dan Naive Bayes. Berdasarkan hasil pengujian yang telah dilakukan dengan tools weka menggunakan evaluasi kinerja confusion matrix, menunjukkan bahwa metode +SMOTE memiliki tingkat akurasi dan sensitivity paling tinggi yaitu sebesar,93% dan,93%. Sedangkan metode memiliki nilai specificity yang paling tinggi sebesar.99% dan metode Naive Bayes memiliki waktu komputasi yang paling cepat dibandingkan ketiga metode lainnya sebesar.38 seconds. Dengan demikian, metode +SMOTE mampu menangani class imbalance pada dataset Bank Direct Marketing pada industri perbankan dibandingkan metode dan Naive Bayes. Kata kunci: Algoritma SMOTE; Class Imbalance; Metode Klasifikasi I. PENDAHULUAN Suatu class pada dataset dengan pendistribusian class yang tidak seimbang (class imbalance) menimbulkan kejadian klasifikasi lebih condong ke class mayoritas dibandingkan dengan class minoritas. Ketidakseimbangan class pada sebuah dataset merupakan suatu permasalahan dalam machine learning, dimana jumlah class mayoritas (negative) lebih besar dari pada jumlah class minoritas (positive). Dengan kata lain, jumlah class negative (mayoritas) lebih besar jumlahnya dibandingkan dengan class positive (minoritas). Permasalahan class imbalance merupakan sebuah permasalahan yang sudah lazim ditemukan pada dataset di berbagai bidang, termasuk prediksi cacat software, deteksi tumpahan minyak dari citra satelit, deteksi penipuan kartu kredit online, dan diagnosis penyakit(phoungphol, 213). Masalah class imbalance biasanya terjadi ketika melakukan klasifikasi, dimana sebuah classifier cenderung mengklasifikasikan class mayoritas dan mengabaikan class minoritas. Untuk mengatasi permasalahan tersebut dapat digunakan dua pendekatan yaitu, pendekatan sample dan algoritma (Chawla et al. 22). Sebagai contoh sebuah dataset yang tidak seimbang memiliki rasio 1:1, dimana 1 merepresentasikan class minoritas (positive) sedangkan 1 merepresentasikan class mayoritas (negative). Sebuah metode klasifikasi yang mencoba untuk memaksimalkan akurasinya, dapat mencapai akurasi 99% hanya menggunakan class negative (mayoritas) tanpa melihat class positive (minoritas). Hal tersebut dapat mengakibatkan metode pada machine learning cenderung keliru mengklasifikasikan yang seharusnya class minoritas dianggap sebagai class mayoritas. Untuk mengatasi permasalahan class imbalance, dapat digunakan sebuah pendekaatan teknik sampling. Teknik sampling yang umumnya digunakan dalam mengatasi permasalahan class imbalance yaitu Over-sampling, Under-sampling, dan kombinasi keduanya. Penyelesaian class imbalance dilihat berdasarkan akurasi, sensitivity, dan spesificitydengan metode klasifikasi (,, dan Naive Bayes) yang dikombinasikan algoritma SMOTE pada dataset Bank Direct Marketing. 168

F.29 II. METODOLOGI Metodologi yang digunakan dalam penelitian ini dijelaskan pada Gambar 1 sebagai berikut: Pengumpulan Data: Dataset Bank Direct Marketing Dari UCI Repository Data Pra-processing : Transformasi Data Ke Type Numeric SMOTE 3 Fold-Cross Validation Klasifikasi : Classifier Pengkuran: Akurasi, waktu komputasi, spesifisitas, dan sensitivitas Gambar 1. Metodologi Penelitian Mengacu pada Gambar 1 tahapan awal penelitian dimulai dengan pengumpulan dataset Bank Direct Marketing yang diambil dari UCI Repository. Dataset Bank Direct Marketing memiliki 17 atribut yang ditunjukkan pada Tabel 1. Tabel 1. Atribut Dataset Bank Direct Marketing No Atribut Type Value 1. Age Numeric Real 2. Job Categorical Admin, Unknown, Unemployed, Mangement, Housemaid, Entrepreneur, Stident, Blue-collar, Self-employed, Retired, Technician, Services 3. Marital Categorical Married, Divorced, Single 4. Education Categorical Unknown, Secondary, Primary, Tertiary 5. Default Binary Yes or No Prosiding SNST ke-7 Tahun 216 Fakultas Teknik Universitas Wahid Hasyim Semarang 169

Metode Klasifikasi Data Mining dan Teknik Sampling Smote... 6. Balance Numeric Real 7. Housing Binary Yes or No 8. Loan Binary Yes or No 9. Contact Categorical Unknown, Telephone, Cellular 1. Day Numeric Real 11. Month Categorical Jan, Feb, Mar,, Nov, Dec 12. Duration Numeric Real 13. Campaign Numeric Real 14. Pdays Numeric Real 15. Previous Numeric Real 16. Poutcome Numeric Real 17. Class Categorical Yes or No Pada tahapan pre-processing, type data pada dataset bank direct marketing ditransformasikan ke bentuk numerik. Kemudian dilakukan klasifikasimenggunakan metode klasifikasi Naive Bayes,, dan yang divalidasi dengan 3 cross validation untuk mendapatkan model yang maksimal, yang diukur berdasarkan tingkat akurasi, sensitivity, specificity, dan waktu komputasi yang dibutuhkan dalam membangun sebuah model klasifikasi. III. HASIL DAN PEMBAHASAN Hasil pengujian yang telah dilakukan menggunakan 3 Fold-cross validation dan evaluasi kinerjanya menggunakan confusion matrik yang diukur berdasarkan akurasi, sensitivity, specificity, dan waktu komputasi yang masing-masing rumusnya ditunjukkan pada persaman 1, 2, dan 3. Adapun confusion matrix nya ditunjukkan pada Tabel 2. Tabel 2. Confusion Matrix Class Prediksi Yes No Class Actual Yes TP FN No FP TN (1) (2) (3) 17

Sensitivity Akurasi F.29 1 8 Perbandingan Akurasi Metode Klasifikasi dan SMOTE 89.24 74.2 89.89 93.21 89.3 86.33 6 4 2 + SMOTE + SMOTE + SMOTE Gambar 2. Hasil Perbandingan Akurasi Metode Klasifikasi dan SMOTE Berdasarkan hasil klasifikasi yang ada pada Gambar 2 menunjukkan bahwa Metode +SMOTE memiliki akurasi yang paling tinggi dibandingkan dengan metode laiinya yaitu sebesar 93,21%, disusul oleh metode,, Naive Bayes, +SMOTE, dan Naive Bayes SMOTE masing-masing akurasinya sebesar 89,89%, 89,3%, 89,24%, 86,33%, dan 74,2%. Perbandingan Sensitivity Metode Klasifikasi dan SMOTE 1.92.93.86.8.6.4.39.48.2.19 + SMOTE + SMOTE + SMOTE Gambar 3 Hasil Perbandingan Sensitivity Metode Klasifikasi dan SMOTE Berdasarkan nilai sensistivity yang ada pada Gambar 3 menunjukkan bahwa Metode +SMOTE memiliki nilai sensistivity yang paling tinggi dibandingkan dengan metode laiinya sebesar 93%, disusul oleh metode Naive Bayes+SMOTE, +SMOTE,, Naive Bayes, dan masing-masing akurasinya sebesar 92%, 86%, 48%, 39%, dan 19%. Prosiding SNST ke-7 Tahun 216 Fakultas Teknik Universitas Wahid Hasyim Semarang 171

Specificity Metode Klasifikasi Data Mining dan Teknik Sampling Smote... 1.2 1 Perbandingan Specificity Metode Klasifikasi dan SMOTE.95.96.94.99.87.8.6.57.4.2 + SMOTE + SMOTE + SMOTE Gambar 4 Hasil Perbandingan Specificity Metode Klasifikasi dan SMOTE Berdasarkan nilai spesificity yang ada pada Gambar 4 menunjukkan bahwa Metode memiliki nilai spesificity yang paling tinggi dibandingkan dengan metode lainnya sebesar 99%, disusul oleh metode, Naive Bayes, +SMOTE, +SMOTE dan Naive Bayes+SMOTE masing-masing akurasinya sebesar 96%, 95%, 94%, 87%, dan 57% Tabel 3 Waktu Komputasi (Seconds) Metode Data Original SMOTE Naive Bayes,38,66 14,92 19,14 1662,55 1592,52 Berdasarkan waktu komputasi yang dibutuhkan pada Tabel 3 menunjukkan bahwa Metode memiliki waktu komputasi yang paling cepat dibandingkan dengan metode laiinya sebesar.38 seconds, disusul oleh metode Naive Bayes+SMOTE,, +SMOTE, +SMOTE dan masing-masing waktu komputasinya sebesar.66 seconds, 14,92 seconds, 19,14 seconds, 1592,52 seconds, dan 1662,55 seconds. IV. KESIMPULAN Berdasarkan hasil pengujian yang telah dilakukan dengan menggunakan tools weka yang di evaluasi kinerjanya menggunakan confusion matrix. Didapatkan hasil penelitian bahwa metode +SMOTE memiliki tingkat akurasi dan sensisitivity yang paling tinggi dibandingkan dengan metode lainnya, dari segi specificity metode memiliki nilai paling tinggi, dan segi komputasi waktu metode Naive Bayes memiliki waktu yang paling cepat dibandingkan dengan metode lainnya.dengan demikian, metode +SMOTE mampu menangani class imbalance pada dataset Bank Direct Marketing pada industri perbankandibandingkan metode dan Naive Bayes. DAFTAR PUSTAKA Chawla, N. V, Bowyer, K.W. & Hall, L.O., 22. SMOTE : Synthetic Minority Over-sampling TEchnique., 16. Phoungphol, P., 213. A Classification Framework for Imbalanced Data. Georgia State University. Available at: http://scholarworks.gsu.edu/cs_diss/78. 172