PERBANDINGAN KINERJA ALGORITME C4.5 DAN NAÏVE BAYES MENGKLASIFIKASI PENYAKIT DIABETES

dokumen-dokumen yang mirip
BAB III METODE PENELITIAN

KLASIFIKASI UNTUK DIAGNOSA DIABETES MENGGUNAKAN METODE BAYESIAN REGULARIZATION NEURAL NETWORK (RBNN)

PENGEMBANGAN DECISION TREE J48 UNTUK DIAGNOSIS PENYAKIT DIABETES MELLITUS

Penerapan Dizcretization dan Teknik Bagging Untuk Meningkatkan Akurasi Klasifikasi Berbasis Ensemble pada Algoritma C4.5 dalam Mendiagnosa Diabetes

BAB III METODOLOGI PENELITIAN. Dataset

Perbandingan Kinerja Algoritme CART dan Naïve Bayesian Untuk Mendiagnosa Penyakit Diabetes Mellitus

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

OPTIMASI PARAMETER K PADA ALGORITMA K-NEAREST NEIGHBOUR UNTUK KLASIFIKASI PENYAKIT DIABETES MELLITUS

ABSTRAK PREVALENSI DIABETES MELITUS TIPE 2 DENGAN HIPERTENSI DI RSUP SANGLAH DENPASAR TAHUN 2015

PREDIKSI PENYAKIT DIABETES MENGGUNAKAN NAIVE BAYES DENGAN OPTIMASI PARAMETER MENGGUNAKAN ALGORITMA GENETIKA

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

Jurnal MIPA 39 (2) (2016): Jurnal MIPA.

KLASIFIKASI FAKTOR PENENTU WANITA BERPOTENSI DIABETES MENGGUNAKAN DECISION TREE CHAID

IMPLEMENTASI WEB SERVICE DAN ANALISIS KINERJA ALGORITMA KLASIFIKASI DATA MINING UNTUK MEMPREDIKSI DIABETES MELLITUS

FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA DATA DIABETES INDIAN PIMA

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB I PENDAHULUAN Latar Belakang

PERBANDINGAN KINERJA DECISION TREE J48 DAN ID3 DALAM PENGKLASIFIKASIAN DIAGNOSIS PENYAKIT DIABETES MELLITUS

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

PROSIDING ISSN:

ANALISIS TEKNIK DATA MINING ALGORITMA C4.5 DAN K-NEAREST NEIGHBOR UNTUK MENDIAGNOSA PENYAKIT DIABETES MELLITUS

Sistem Pakar Diagnosa Penyakit Diabetes Melitus Menggunakan Algoritma Iterative Dichotomiser Three (ID3) Berbasis Android.

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

ii

ABSTRAK. Kata kunci: temperamen, kepribadian, Hippocrates, sinonim, antonim, pembelajaran mesin. Universitas Kristen Maranatha

BAB I PENDAHULUAN. 1.1 Latar Belakang

MENGIDENTIFIKASI DATA REKAM MEDIS. (Studi Kasus Penyakit Diabetes Mellitus di Balai Kesehatan Kementerian. Perindustrian, Jakarta) SKRIPSI

BAB I PENDAHULUAN. disebabkan karena adanya peningkatan kadar gula (glukosa) darah

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

BAB I. Pendahuluan. diamputasi, penyakit jantung dan stroke (Kemenkes, 2013). sampai 21,3 juta orang di tahun 2030 (Diabetes Care, 2004).

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

SISTEM DETEKSI PENYAKIT DIABETES MENGGUNAKAN METODE SUPPORT VECTOR MACHINES

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

ABSTRAK PENGARUH DAN HUBUNGAN ANTARA BMI (BODY MASS INDEX) DENGAN KADAR GLUKOSA DARAH PUASA DAN KADAR GLUKOSA DARAH 2 JAM POST PRANDIAL

TINJAUAN PUSTAKA. Definisi Data Mining

IMPLEMENTASI TEKNIK SELEKSI FITUR INFORMATION GAIN PADA ALGORITMA KLASIFIKASI MACHINE LEARNING UNTUK PREDIKSI PERFORMA AKADEMIK SISWA

GAMBARAN BERAT JENIS DAN GLUKOSA PADA URIN PENDERITA DIABETES MELLITUS TIPE 2 DI RSUP H. ADAM MALIK MEDAN PERIODE SEPTEMBER NOVEMBER 2014

ALGORITMA K-NEAREST NEIGHBOR BERBASIS FORWARD SELECTION UNTUK MENDIAGNOSIS PENYAKIT JANTUNG KORONER

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT

ABSTRAK GAMBARAN KADAR GLUKOSA DARAH DAN FAKTOR RISIKO DIABETES MELITUS TIPE 2 PADA WANITA MENOPAUSE

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine.

AKADEMI FARMASI ISFI BANJARMASIN (Jl. Flamboyan 3 No.

GAMBARAN PENGETAHUAN PASIEN DIABETES MELITUS TENTANG PENANGANANNYA DI RUMAH SAKIT PAHLAWAN MEDICAL CENTER KANDANGAN, KAB

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

KOMPARASI DATA MINING UNTUK MEMPREDIKSI MINAT KLIEN DALAM MEMILIH PRODUK ASURANSI PENDIDIKAN (Studi pada PT. AJB Bumiputera 1912 Karanganyar)

VERIFIKASI SESEORANG BERDASARKAN CITRA PEMBULUH DARAH MENGGUNAKAN EKSTRAKSI FILTER GABOR ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB I PENDAHULUAN UKDW. 27,6% meskipun angka ini tidak menggambarkan populasi umum. baru (Kementerian Kesehatan Republik Indonesia, 2011).

BAB 3 METODE PENELITIAN

BAB I PENDAHULUAN. disebabkan oleh kegagalan pengendalian gula darah. Kegagalan ini

ABSTRACT ABSTRAK RIWAYAT PENYAKIT KELUARGA DENGAN KEJADIAN DIABETES MELLITUS

Kata kunci: diabetes melitus, diabetic kidney disease, end stage renal disease

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

ABSTRAK. EFEK INFUSA DAUN SAMBUNG NYAWA (Gynura Procumbens Back ) SEBAGAI ANTIDIABETIK ALTERNATIF PADA MENCIT YANG DIINDUKSI ALOKSAN

Prediksi Tingkat Kelulusan Mahasiswa Tepat Waktu Menggunakan Naïve Bayes: Studi Kasus UIN Syarif Hidayatullah Jakarta

BAB I PENDAHULUAN. Menurut WHO Tahun 2013, diperkirakan 347 juta orang di dunia menderita

EKSPLORA INFORMATIKA 127

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL

Bandung, Indonesia Bandung, Indonesia

BAB 1 PENDAHULUAN. Berdasarkan data International Diabetes Federation (IDF) pada

ABSTRAK GAMBARAN DEMOGRAFI DAN PENGETAHUAN MENGENAI PENYAKIT DIABETES MELITUS PADA TENAGA EDUKATIF TETAP DI UNIVERSITAS KRISTEN MARANATHA

PROBABILISTIC NEURAL NETWORK BERBASIS GUI MATLAB UNTUK KLASIFIKASI DATA REKAM MEDIS

PENCEGAHAN PENYAKIT DIABETES MELLITUS MELALUI PROGRAM PENYULUHAN DAN PEMERIKSAAN KADAR GULA DARAH DI DUKUH CANDRAN DESA SENTONO KLATEN JAWA TENGAH

BAB I PENDAHULUAN. 1.1 Latar Belakang

DAFTAR ISI Halaman SAMPUL DALAM... i LEMBAR PENGESAHAN... ii PENETAPAN PANITIA PENGUJI... iii KATA PENGANTAR... iv PERNYATAAN KEASLIAN KARYA TULIS

BAB I 1 PENDAHULUAN. atas sekelompok vertebra, invertebrate discs, saraf, otot, medulla, dan sendi

ADLN - PERPUSTAKAAN UNIVERSITAS AIRLANGGA

DAFTAR ISI. Sampul Dalam... i. Lembar Persetujuan... ii. Penetapan Panitia Penguji... iii. Kata Pengantar... iv. Pernyataan Keaslian Penelitian...

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra

ABSTRAK PERBANDINGAN KADAR GLUKOSA DARAH KAPILER DENGAN KADAR GLUKOSA DARAH VENA MENGGUNAKAN GLUKOMETER PADA PENDERITA DIABETES MELITUS

REALISASI PERANGKAT LUNAK UNTUK IDENTIFIKASI SESEORANG BERDASARKAN CITRA PEMBULUH DARAH MENGGUNAKAN EKSTRAKSI FITUR LOCAL LINE BINARY PATTERN (LLPB)

Aplikasi Metode Naive Bayes dalam Prediksi Risiko Penyakit Jantung. Naive Bayes Method for a Heart Risk Disease Prediction Application

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. A. Latar belakang. Diabetes Mellitus (DM) atau kencing manis merupakan salah satu

VERIFIKASI SESEORANG BERDASARKAN CITRA PEMBULUH DARAH MENGGUNAKAN METODA PHASE ONLY CORRELATION ABSTRAK

OPTIMASI DECISION TREE MENGGUNAKAN PARTICLE SWARM OPTIMIZATION PADA DATA SISWA PUTUS SEKOLAH

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

KLASIFIKASI POLA UKIR KAYU JEPARA BERDASARKAN DETEKSI TEPI BERBASIS JARINGAN SYARAF TIRUAN

SISTEM PENDUKUNG KEPUTUSAN UNTUK MENDIAGNOSIS DIABETES MENGGUNAKAN C4.5

PERBANDINGAN DECISION TREE

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

SELISIH LAMA RAWAT INAP PASIEN JAMKESMAS DIABETES MELLITUS TIPE 2 ANTARA RILL DAN PAKET INA-CBG

Transkripsi:

PERBANDINGAN KINERJA ALGORITME C4.5 DAN NAÏVE BAYES MENGKLASIFIKASI PENYAKIT DIABETES Hendra Marcos 1, Hengky Setiawan Utomo 2 1,2 Program Studi Teknik Informatika, STMIK Amikom Purwokerto Jl. Pol. Soemarto Depan SPN Watumas Purwokerto Telp. (0281) 623321 Fax. (0281) 623196 e-mail : 1 hendra.marcos@amikompurwokerto.ac.id ABSTRACT Diabetes or can be called with diabetes or blood sugar disease is a disease that is hard to cure but can be controlled blood sugar levels. This causes people with diabetes is increasing every year. This study aims to determine which algorithm that has the best classification accuracy, so that it can be used to assist in classifying whether a person has diabetes or not. The data used is the Pima Indians Diabetes dataset obtained from the UCI machine learning. Processing of data mining is divided into two stages, namely stage of data preprocessing and feature selection. Results of the research that has been done, C4.5 algorithm has an accuracy of 73.82% and increased to 74.87%, subsequent to the selection of attributes. While naïve Bayes has an accuracy rate of 76.30% and increased to 77.47%. The end result of this research is naïve bayes algorithm is better than C4.5 algorithms because it has a better accuracy rate Keywords C4.5, Bayes, Diabetes ABSTRAK Diabetes atau dapat disebut dengan kencing manis atau penyakit gula darah merupakan penyakit yang sukar disembuhkan namun kadar gula darah dapat dikontrol. Hal ini menyebabkan penderita penyakit diabetes semakin meningkat setiap tahunnya. Penelitian ini bertujuan untuk mengetahui algoritme mana yang memiliki tingkat akurasi klasifikasi paling baik, sehingga bisa digunakan untuk membantu dalam mengklasifikasi apakah seseorang terkena penyakit diabetes atau tidak. Data yang digunakan adalah Pima Indians Diabetesdataset yang diperoleh dari UCI machine learning. Pengolahan data mining dibagi menjadi dua tahap, yaitu tahap preprocessingdata dan seleksi fitur. Hasil penelitian yang telah dilakukan, algoritme C4.5 memiliki akurasi sebesar 73.82% dan meningkat menjadi 74,87% setelah dilakukannya seleksi atribut. Sedangkan naïve bayes memiliki tingkat akurasi sebesar 76,30% dan meningkat menjadi 77,47%. Hasil akhir dari penelitian ini adalah algoritme naïve bayes lebih baik dari pada algoritme C4.5 karena memiliki tingkat akurasi yang lebih baik. Kata Kunci Perbandingan kinerja algoritme, C4.5, Bayes, Diabetes I. PENDAHULUAN Diabetes atau dapat disebut dengan penyakit gula darah adalah salah satu jenispenyakit kronis yang mempunyai tanda awal berupa meningkatnya kadar gula darah akibat adanya gangguan sistem Informatics and Business Institute Darmajaya 141

metabolisme didalam tubuh. Diabetes sukar untuk disembuhkan namun kadar gula darah dapat dikontrol. Menurut laporan WHO [1][2], Indonesia menempatiurutan ke-empat terbesar dari jumlah penderita diabetes mellitus (DM) dengan prevalensi 8,6% dari total penduduk dan WHO memprediksi kenaikan jumlah penyandang DM di Indonesia dari 8,4 juta pada tahun 2000 menjadi sekitar 21,3 juta pada tahun 2030. Sedangkan International Diabetes Federation (IDF) pada tahun 2009 memprediksi kenaikan jumlah penyandang DM dari 7 juta pada tahun 2009 menjadi 12 juta pada tahun 2030[3]. Dari laporan tersebut menunjukkan peningkatan jumlah penyandang DM sebanyak 2-3 kali lipat pada tahun 2030 [4]. Seperti halnya WHO dan IDF, dari hasil riset yang telah dilakukan oleh Riset Kesehatan Dasar (Riskesdas) pada tahun 2007 dan 2013 proporsi DM meningkat hampir dua kali lipat[5]. Dari banyaknya jumlah penduduk yang terkena penyakit diabetes yang semakin tahun makin meningkat maka diperlukan sebuah diagnosis komputer dengan menggunakan algoritme tertentu untuk mengklasifikasi apakah seseorang terkena penyakit diabetes ataupun tidak berdasarkan data-data pasien dengan teknik data mining[6]. Beberapa penelitian yang telah dilakukanmenggunakan machine learningdari dataset yang sama yaitu UCI machine learning, diantaranya menggunakan extreme machine learning [7], bayesian[8] menunjukkan hasil yang tidak transparan dan relatif hasil akurasi masih rendah 72,3%. Metode artificial neural network juga telah digunakan pada penelitian [9], yang menggunakan principal component analysis (PCA) untuk seleksi fitur/atribut nya dengan hasil akurasi sekitar 66,8% s.d 68%. Maka dari itu pada penelitian ini diusulkan teknik algoritme C.45 dan naive bayes dan membandingkan kinerja kedua algoritme dalam mengklasifikasi dengan evaluasi accuracy, precision dan recall. II. METODE PENELITIAN 2.1 Pengukuran Kinerja Pengukuran kinerja algoritme menggunakan bantuan perangkat lunak data mining yaitu menggunakan aplikasi weka. Algoritme yang diuji yaitu C4.5 dengan Bayes. Pengukuran kinerja dilihat dari confusion matrix dengan mencari nilai precision, recall dan nilai accuracy. a. Precision merupakan tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. 142 Informatics and Business Institute Darmajaya

Hendra Marcos, Hengky S.U. b. recall adalah tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi. c. accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Secara umum precision, recall dan accuracy dapat dirumuskan seperti pada tabel 1 berikut: Tabel 1 Rumus precision, recall dan accuracy Classified Positive Classified Negative 2.2. Dataset Dataset yang digunakan yaitu berupa data sekunder pima indians diabetesdiambil dari repository UCI machinelearning. Langkah-langkah yang dilakukanpada penelitian ini, dapat dilihat pada gambar 1 Actual Positive Actual Negative TP (True Positive) FP (False Positive) FN (False Nagative) TN (True Negative) a. Precission b. Recall c. Accuracy Pengukuran kinerja algoritme akan dilakukan dengan dua cara, yaitu untuk pertama akan membandingkan kinerja kedua algoritme tanpa adanya seleksi atribut dan yang kedua dengan adanya seleksi atribut, yaitu dengan menggunakan correlation-based feature selection (CFS) pada aplikasi WEKA. Metode pengujian sistem menggunakan cross validation 10, baik dataset yang belum terseleksi atribut maupun yang sudah dilakukan seleksi atribut. Gambar 1 Diagram alur penelitian 2.3. Uji Hipotesis Setelah didapatkan hasil perbandingan kinerja langkah selanjutnya yaitu dengan melakukan uji hipotesis. Pengujian uji hipotesis akan dibagi menjadi dua langkah : Informatics and Business Institute Darmajaya 143

a. Pengujian hipotesis pertama 3.2.Preprocessing data Pengujian hipotesis pertama dilakukan dengan membandingkan ratarata nilai kinerja algoritme C4.5 dengan naïve bayes. b. Pengujian hipotesis kedua Pengujian hipotesis kedua dilakukan dengan uji t data berpasangan (paired sample t test). Penghitungan dilakukan melalui prosedur paired sample t test dengan software SPSS for windows versi 22(Sugiyono, 2012). III. 3.1.Dataset HASIL DAN PEMBAHASAN Dataset terdiri dari 8 atribut dan 768 instance yang semuanya berasal dari jenis kelamin wanita dengan umur sekurang- kurangnya 21 tahun[10]. Tabel 2. Atribut dataset diabetes Pima Indians Atribut Deskripsi Satuan Tipe Data Number of Banyaknya - Numerik kehamilan times pregnant Plasma glucose Kadar glukosa dua mg/dl Numerik concentration jam setelah makan Diastolic blood Tekanan darah mm Numerik pressure Hg Triceps skin fold Ketebalan kulit mm Numerik Thickness Insulin Insulin mu Numerik U/ml Body mass index Berat tubuh Kg/m 2 Numerik Diabetes pedigree Function Riwayat diabetes dalam keluarga - Numerik Age Umur Years Numerik Class Variable Positif diabetes (1) dan negative diabetes(0) - Nominal Preprocessing data yang dilakukan yaitu dengan menormalisasi atribut class dengan nilai 0 menjadi tested_negative sedangkan dengan nilai 1 menjadi tested_positive, sehingga ketika sudah pembuatan file arff maka dapat dibuka menggunakan aplikasi weka dan data dapat diproses. Perbandingan kinerja algoritme sebelum proses seleksi atribut Pada langkah ini perbandingan yang dilakukan yaitu dengan menghitung nilai recall, precision dan accuracy tanpa adanya seleksi atribut pada dataset yang digunakan. Dari perhitungan yang dilakukan mendapatkan hasil seperti pada tabel 3 berikut : Tabel 3. Hasil perhitungan tanpa seleksi atribut Algoritme Precision Recall Accuracy C4.5 79.03% 81.40% 73.82% Bayes 80.20% 84.40% 76.30% Pada tabel 3 menunjukkan bahwa nilai precision,recall dan accuracyyang tertinggi algoritmenaïve bayes. Hal ini membuktikan bahwa kinerja algoritme naïve bayes lebih unggul jika dibandingkan dengan kinerja algoritme C4.5. Untuk lebih jelasnya dapat dilihat pada gambar 2 berikut. 144 Informatics and Business Institute Darmajaya

Hendra Marcos, Hengky S.U. 090% 085% 080% 075% 070% 065% Gambar 2. Hasil perbandingan kinerja algoritme Perbandingan kinerja algoritme sesudah proses seleksi atribut Pengukuran kenerja selanjutnya yaitu dengan meyeleksi jumlah atribut dari dataset yang ada dengan menggunakan fitur Select attributes pada aplikasi weka. Seleksi atribut yang digunakan yaitu Correlation-based Featur Selection (CFS). Dari dataset yang ada dengan jumlah data 768 dan memiliki 9 atribut akan diseleksi fitur untuk mencari fitur atribut yang mempunyai korelasi antar fitur rendah namun mempunyai korelasi yang tinggi terhadap kelas. C4.5 Bayes dataset pada aplikasi weka. Proses pengukuran, dataset yang digunakan yaitu yang sudah diubah sesuai atribut yang terseleksi.perhitungan yang dilakukan mendapatkan hasil seperti pada tabel 4 berikut : Tabel 4. Hasil perhitungan setelah seleksi atribut Algoritme Precision Recall Accuracy C4.5 78.16% 85.20% 74.87% Bayes 79.78% 87.60% 77.47% Dari data yang ada pada tabel 4menunjukan bahwa nilai precision,recall dan accuracy yang tertinggi diperoleh oleh Bayes. Hal ini membuktikan bahwa kinerja algoritme Bayes lebih unggul jika dibandingkan dengan kinerja algoritme C4.5. Untuk lebih jelasnya dapat dilihat pada gambar 4 berikut. 090% 085% 080% 075% 070% 065% C4.5 Bayes Gambar 3. Hasil seleksi atribut Gambar 4. Hasil perbandingan kinerja algoritme setelah seleksi atribut Ketika dataset sudah diubah sesuai atribut yang terseleksi maka langah Uji t selanjutnya ialah mengukur kinerja kedua Digunakan dalam penelitian ini algoritme dengan mencari nilai precision, untuk menguji perbedaan antara algoritme recall dan accuracy dari confussion C4.5 dan naïve bayes. Data yang matrixyang diperoleh dari pemrosesan digunakan untuk pengujian adalah data Informatics and Business Institute Darmajaya 145

kinerja algoritme sesudah seleksi atribut.uji t yang digunakan adalah uji t data berpasangan (paired sample t test). Software yang digunakan untuk menghitung nilai t adalah SPSS for windows versi 22. Tabel 5. Statistik deskriptif data penelitian Algoritme Rata-rata N C4.5,7943 3 Bayes,8163 3 ada perbedaan antara nilai kinerja Algoritme C4.5 dan algoritme naïve bayes. Perbedaan tersebut menunjukkan nilai kinerja algoritme naïve bayes lebih besar dibandingkan dengan kinerja algoritme C4.5 dengan selisih yang signifikan pada tingkat keyakinan 95%. Kurva uji t tersebut dapat dilihat pada gambar 5. Data tersebut selanjutnya diuji dengan uji t. Hasil uji t dapat dilihat pada tabel 6.Berdasarkan tabel Tabel 6 dapat diketahui rata-rata selisih sebesar - 0,02200. Hal ini menunjukkan rata-rata nilai algoritme C.4.5 lebih kecil dibandingkan dengan rata-rata nilai Algoritme naïve bayes dengan dengan rata-rata selisih sebesat 2,2 persen. Uji t digunakan untuk menguji signifikansi selisih kinerja algoritme C4.5 dan algoritme naïve bayes. Pasang ah Algorit me C4.5 - Bayes Tabel 6. Statistik deskriptif data penelitian Paired Differences Mean t df Sig. (2- tailed) -,02200-7,201 2,019 Nilai uji t sebesar -7,201 dengan signifikansi 0,019. Nilai signifikansi tersebut lebih kecil dari = 0,05, sehingga H 0 ditolak dan H 1 diterima. Hal ini berarti Gambar 5. Daerah penerimaan dan penolakan H 0 uji t Pengujian hipotesis a. Pengujian hipotesis pertama Hipotesis pertama menyatakan algoritme naïve bayes memiliki tingkat akurasi ketepatan lebih baik dibandingkan dengan algoritme C4.5 dalam menentukan potensi terjadinya penyakit diabetes. Berdasarkan hasil analisis data dapat diketahui rata-rata nilai kinerja algoritme C4.5 sebesar 79,43%, sedangkan nilai rata-rata kinerja algoritme naïve bayes sebesar 81,63%. Berdasarkan nilai rata-rata tersebut dapat diketahui nilai rata-rata kinerja algoritme naïve bayes lebih tinggi dibandingkan dengan nilai 146 Informatics and Business Institute Darmajaya

Hendra Marcos, Hengky S.U. kinerja algoritme C4.5, sehingga dapat disimpulkan algoritme naïve bayes memiliki tingkat akurasi ketepatan lebih baik dibandingkan dengan algoritme C4.5 dalam menentukan potensi terjadinya penyakit diabetes, sehingga hipotesis pertama diterima. b. Pengujian hipotesis kedua Hipotesis kedua menyatakan terdapat perbedaan nilai kinerja antara algoritme C4.5 dengan naïve bayes. Berdasarkan hasil pengujian dengan uji t data berpasangan diperoleh kesimpulan ada perbedaan antara nilai kinerja Algoritme C4.5 dan algoritme naïve bayes. Perbedaan tersebut menunjukkan nilai kinerja algoritme naïve bayes lebih besar dibandingkan dengan kinerja algoritme C4.5 dengan selisih yang signifikan pada tingkat keyakinan 95%. Berdasarkan hasil uji t ini maka dapat disimpulkan terdapat perbedaan nilai kinerja antara algoritme C4.5 dengan naïve bayes, sehingga hipotesis kedua dapat diterima.. IV. SIMPULAN Dari pengukuran kinerja kedua algoritme yang telah dilakukan, algoritmenaïve bayes memiliki kinerja (precision, recall dan accuracy) lebih baik jika dibandingkan dengan algoritme C4.5. Ketika dilakukan seleksi atribut terjadi penurunan kinerja pada precision untuk masing masing algoritme, namun pada kinerja recall dan accuracy dengan dilakukannya seleksi atribut mengalami peningkatan. Hasil akurasi yang diperoleh dari perhitungan yang telah dilakukan, algoritme C4.5 memiliki akurasi sebesar 73.82% dan meningkat menjadi 74.87% setelah dilakukannya seleksi atribut. Sedangkan naïve bayes memiliki tingkat akurasi sebesar 76.3% dan meningkat menjadi 77.47%. Dari semua perhitungan yang telah dilakukan, dapat disimpulkan algoritme naïve bayes memiliki tingkat akurasi ketepatan lebih baik dibandingkan dengan algoritme C4.5 dalam mengklasifiksi risiko terjadinya penyakit diabetes. Hasil analisis statistik antara nilai kinerja algoritme C4.5 dan naïve bayes dapat disimpulkan terdapat perbedaan nilai kinerja antara algoritme C4.5 dengan naïve bayes. PENELITIAN LANJUTAN Dari penelitian yang dilakukan, peneliti menggunakan metode pengujian sistem cross validation, dan metode seleksi fitur correlation-based feature selection (CFS), sehingga untuk peneliti lain bisa menggunakan metode pengujian sistem dan metode seleksi fitur yang lain. Informatics and Business Institute Darmajaya 147

DAFTAR PUSTAKA [1] S. Kumari dan A. Singh, A Data Mining Approach for the Diagnosis of Diabetes Mellitus, IEEE, no. 978-1-4673-4603-0, pp. 373-375, 2012. [2] WHO, WHO, 2016. [Online]. Available: http://goo.gl/a6btob. [Diakses 20 Januari 2016]. [3] I. D. Federation, International Diabetes Federation, 2016. [Online]. Available: http://www.idf.org/who-we-are. [Diakses 2 Mei 2016]. [4] PERKENI, Perkumpulan Endokrinologi Indonesia, 2011. [Online]. Available: http://perkeni.freeservers.com/kons_ dm.html. [Diakses 23 Februari 2016]. [5] Riset Kesehatan Dasar, 2016. [Online]. Available: http://goo.gl/mx0hcm. [Diakses 17 Mei 2016]. Information Technology Systems and Innovation (ICITSI), 2014. [8] Y. Guo, G. Bai dan Y. Hu, Using Bayes Network for Prediction of Type-2 Diabetes, International Conference for Internet Technology and Secured Transactions IEEE, 2012. [9] T. Jayalakshmi dan Dr.A.Santhakumaran, A Novel Classification Method for Diagnosis of Diabetes Mellitus Using Artificial Neural Network, dalam International Conference on Data Storage and Data Engineering, 2010. [10] UCI repository dataset, [Online]. Available: https://archive.ics.uci.edu/ml/datasets /Pima+Indians+Diabetes. [Diakses 4 April 2016]. [6] E. Prasetyo, Data Mining Konsep dan Aplikasi Menggunakan Matlab, Yogyakarta: Andi Publisher, 2012. [7] J. J. Pangaribuan dan Suharjito, Diagnosis of Diabetes Mellitus Using Extreme Learning Machine, dalam International Conference on 148 Informatics and Business Institute Darmajaya