Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

dokumen-dokumen yang mirip
KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

BAB I PENDAHULUAN Latar Belakang

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

BAB II LANDASAN TEORI

ALGORITMA K-NEAREST NEIGHBOR BERBASIS FORWARD SELECTION UNTUK MENDIAGNOSIS PENYAKIT JANTUNG KORONER

BAB III METODOLOGI PENELITIAN. Dataset

BAB II LANDASAN TEORI

CONTOH KASUS DATA MINING

BAB II TINJAUAN PUSTAKA

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 2 LANDASAN TEORI

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB III METODE PENELITIAN

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB III METODE PENELITIAN

BAB 3 METODE PENELITIAN

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

KOMPARASI ALGORITMA NAÏVE BAYES DAN K- NEAREST NEIGHBOR UNTUK DETEKSI KANKER PAYUDARA

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 2 TINJAUAN PUSTAKA

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PERBANDINGAN DECISION TREE

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

TINJAUAN PUSTAKA. Definisi Data Mining

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

BAB I PENDAHULUAN. terjadinya penyempitan, penyumbatan, atau kelainan pembuluh nadi

BAB II TINJAUAN PUSTAKA

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

KLASIFIKASI PADA TEXT MINING

BAB 2. Landasan Teori

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

PEMETAAN SEBARAN ASAL SISWA DAN KLASIFIKASI JARAK ASAL SISWA SMA NEGERI DI KABUPATEN PRINGSEWU MENGGUNAKAN METODE NAÏVE BAYES

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN

SISTEM KLASIFIKASI PENYAKIT DIABETES MELLITUS MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN)

Prediksi Tingkat Kelulusan Mahasiswa Tepat Waktu Menggunakan Naïve Bayes: Studi Kasus UIN Syarif Hidayatullah Jakarta

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PENGGABUNGAN ALGORITMA BACKWARD ELIMINATION DAN K-NEAREST NEIGHBOR UNTUK MENDIAGNOSIS PENYAKIT JANTUNG

BAB III METODE PENELITIAN. Desain penelitian yang dikembangkan dalam pengembangan sistem. keputusan jantung ini adalah sebagai berikut.

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

RANCANGAN SISTEM REKOMENDASI KATEGORI PERUSAHAAN PRAKTIK INDUSTRI MENGGUNAKAN ALGORITMA NAÏVE BAYES

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

PENERAPAN DATA MINING UNTUK MENENTUKAN POTENSI HUJAN HARIAN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 3, Tahun 2015, Halaman Online di:

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

Penggunaan Metodologi Analisa Komponen Utama (PCA) untuk Mereduksi Faktor-Faktor yang Mempengaruhi Penyakit Jantung Koroner

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

Klasifikasi Proses Penjurusan Siswa Tingkat SMA Menggunakan Data Mining

BAB II LANDASAN TEORI

PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

SNIPTEK 2014 ISBN:

PROSIDING ISSN:

3.1 Metode Pengumpulan Data

Versi Online tersedia di : JURNAL TECH-E (Online)

PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

Keoptimalan Naïve Bayes Dalam Klasifikasi

BAB III METODELOGI PENELITIAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

PERBANDINGAN KINERJA ALGORITME C4.5 DAN NAÏVE BAYES MENGKLASIFIKASI PENYAKIT DIABETES


PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

Transkripsi:

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes Muhammad Sulkifly Said Program Studi Magister Teknologi Informasi, Universitas Gadjah Mada Jl. Grafika No.2 Kampus UGM, Yogyakarta 55281 sulkifly.ti14@mail.ugm.ac.id Abstrak salah satu fungsi data mining adalah melakukan klasifikasi berdasarkan inputan attribute-atribute yang ada, dalam paper ini akan dijelaskan metode pengklasifikasian guna melakukan identifikasi apakah seseorang terkena penyakit jantung atau tidak, tools yang digunakan dalam penelitian adalah WEKA, dalam paper ini akan dilakukan seleksi terhadap beberapa attribute dalam dataset jantung guna meningkatkan akurasi, kecepatan dan error dan kemudian akan dilakukan perbandingan apakah terdapat perbedaan yang signifikan diantara kedua metode yang diusulkan abstrak: naïve bayes, weka, klasifikasi 1. Pendahuluan Dataset yang digunakan bersumber dari data rekam medis penyakit jantung Cleveland yang didapatkan secara online di UCI repository. Dataset memiliki 14 atribut, atribut yang terakhir merupakan kelas, attribute terdiri dari age, sex, cp, trestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal, num. berdasarkan studi literature pada sebuah penelitian tentang wawancara dokter ahli jantung menjelaskan bahwa attribute yang digunakan untuk penyakit jantung khususnya penyankit jantung koroner. Attribute diatas dibagi menjadi 2 bagian yang disesuaikan dengan gejala penyakit jantung yaitu kronis dan akut. Gejala penyakit kronis memerlukan hamper semua attribute untuk diagnose gangguan pada jantung dimana attribute nomor 1,2,5 dan 6 merupakan attribute bebas (penunjang). Sementara untuk gejala akut, attribute nomor 3 sampai 7 dan 14 merupakan attribute penunjang. Attribute nomor 8 sampai 13 berkaitan dengan latihan (treatmill) tidak diikutsertakan. Pada penelitian ini attribute pada data penelitian digunakan hanya untuk memprediksi penyakit jantung dengan gejala kronis. Beberapa attribute diatas memiliki nilai continue. Pada penelitian ini dilakukan diskretisasi terhadap nilai kontinu menjadi nilai diskrit. Data diskrit biasanya memberikan hasil prediksi yang lebih baik dibandingkan data continue, beberapa attribute yang didiskretisasikan adalah age, trestbps, chol, thalach, oldpeak. Data mining adalah suatu proses menemukan sebuah hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistic, matematika, kecerdasan buatan dan machine learning. Salah satu metode data mining adalah klasifikasi. Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data. Dalam penelitian ini digunakan algoritma naïve bayes, naïve bayes merupakan salah metode probabilistic reasoning. Algoritma naïve bayes bertujuan untuk melakukan klasifikasi data pada kelas tertentu, kemudian pola tersebut dapat digunakan untuk memperkirakan indikasi sebuah penyakit jantung berdasarkan pengalaman pelatihan dimasa sebelumnya. II LANDASAN TEORI 2.1 Penyakit Jantung Penyakit jantung koroner adalah penyakit jantung yang terjadi karena rusaknya dinding pembuluh darah karena

beberapa factor resiko seperti radikal bebas yang terkandung dalam rokok dan polusi, kolesterol tinggi, hipertensi, diabetes, kebiasaan merokok dan sebagainya. Kolesterol yang menimbun di dinding bagian dalam pembuluh darah, dapat mengakibatkan pembuluh darah mengalami penyempitan dan aliran darahpun menjadi tersumbat. Akibatnya, fungsi jantung terganggu karena harus bekerja lebih keras untuk memompa alirah darah. Seiring perjalanan waktu, arteri-arteri koroner makin sempit dan mengeras. Inilah yang disebut aterosklerosis. Radikal bebas adalah ion molekul tanpa pasangan yang mengikat molekul lain yang mengakibatkan molekul/zat tadi menjadi rusak dan berubah sifat. Misalnya sel-sel pembuluh darah menjadi cepat mati atau pembuluh darah menjadi sempit. Sel-sel yang berubah sifat contohnya adalah sel-sel kanker. Sumber radikal bebas antara lain: Asap rokok Polusi udara Polusi kimiawi / lingkungan (semprotan nyamuk, inteksida, cat) Polusi elektromagnetik (handphone, layar tv, layar monitor) Polusi dari tubuh sendiri (penyakit kronis seperti diabetes) Obesitas dapat menyebabkan penyakit jantung karena terlalu banyak mengkonsumsi makan. Jantung koroner bisa diturunkan dari keluarga, jika salah satu anggota keluarga mempunyai riwayat penyakit jantung koroner. Artinya ada kecenderungan dalam keluarga. Namun, penyebab dasar jantung koroner pada hakikatnya adalah kelainan metabolisme. 2.1 Data Mining Data mining adalah penambangan atau penemuan informasi baru dengan mencari pola aturan tertentu dari sejumlah data yang sangat besar. Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Tahapan dari proses knowledge discovery (KDD) adalah: 1. Selection 2. Pre-Processing / Cleaning 3. Transformation 4. Data mining 5. Interpretation / evaluation 2.1 Klasifikasi Klasifikasi pertama kali diterapkan pada bidang tanahaman yang mengklasifikasikan suatu spesies tanaman tertentu, seperti yang dilakukan oleh carolus von linne (atau dikenal dengan nama carolus Linnaeus) yang pertama kali mengklasifikasikan spesies berdasarkan karakteristik fisik. Selanjutnya dia dikenal sebagai bapak klasifikasi. Komponen utama dari proses klasifikasi antara lain adalah: 1. Kelas, merupakan variable tak bebas yang merupakan table dari hasil klasifikasi. Sebagai contoh adalah kelas loyalitas pelanggan, kelas badai atau gempa bumi dan lain-lain. 2. Predictor, merupakan variable bebas suatu model berdasarkan dari karakteristik attribute data yang diklasifikasi, misalnya merokok, minum-minum beralkohol, tekanan darah, status perkawinan, dan sebagainya. 3. Set data pelatihan, merupakan sekumpulan data lengkap yang berisi kelas dan predictor untuk dilatih agar model dapat mengelompokkan ke dalam kelas yang tepat. Contohnya adalah grup pasien yang telah di-test terhadap serangan jantung, grup pelanggan di suatu supermarket, dan sebagainya. 4. Set data uji, berisi data-data baru yang akan dikelompokkan oleh model guna mengetahui akurasi dari model yang telah dibuat. 2.2 Algoritma Naïve Bayes Algoritma Naïve Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Naïve bayes merupakan pengklasifikasian dengan metode probabilitas dan statistic yang dikemukakan oleh ilmuwan inggris

Thomas bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal sebagai teorema bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman diasa sebelumnya sehingga dikenal sebagai teorema bayes. Teorema tersebut dikombinasikan dengan naïve dimana diasumsikan kondisi antar attribute saling bebas. Klasifikasi naïve bayes diasumsikan bahwa ada atau tidak cirri tertentu dari sebuah tidak ada hubungannya dengan cirri dari kelas lainnya. Persamamaan dari teorema bayes adalah: Keterangan: X H P(H X) P ( X H ). P(H) P( X ) : Data dengan class yang diketahui : Hipotesis data X merupakan suatu class spesifik P(H X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probability) P(H) hipotesis H P(X) : Probabilitas X berdasarkan kondisi pada sebuah : Probabilitas X 2.3 Confusion Matrix Confusion matrix adalah tools yang digunakan untuk melakukan evaluasi model klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix dari prediksi yang akan dibandingkan dengan kelas yang asli dari inputan atau dengan kata lain berisi nilai actual dan prediksi pada proses klasifikasi Evaluasi dan validasi hasil dapat dihitung menggunakan rumus akurasi, precision, recall dan f-measure berdasarkan confusion matrix 1. Akurasi Perhitungan akurasi dilakukan dengan cara membagi jumlah data yang diklasifikasi secara benar dengan total sample data testing yang diuji. 2. Precision Akurasi TP+TN TP+TN +FP+FN menghitung nilai precision dengan cara membagi jumlah data benar yang bernilai positif (true positive) dibagi dengan jumlah data benar yang bernilai positif (true positive) dan data salah yang bernilai negative (false negatife) 3. Recall Precision TP TP+FP Sedangkan recall dihitung dengan cara membagi data benar yang bernilai positif (true positive) dengan hasil penjumlahan dari data benar yang bernilai positif (true positive) dan data salah bernilai negatif (false negative) 4. F-measure Recall TP TP+FN Nilai F-measure didapat dari perhitungan pembagian hasil dari perkalian precision dan recall dengan hasil penjumlahan precision dan recall, kemudian dikalikan dua. F Measure 2 * III. METODOLOGI Precision recall Precision+recall Seleksi attribute merupakan proses mengidentifikasi dan menghilangkan attribute dengan nilai yang tidak relevan atau berlebihan. Pada penelitian ini dilakukan seleksi attribute dengan menggunakan information gain yang diimplementasikan pada algoritma naïve bayes untuk tugas klasifikasi dalam memprediksi penyakit jantung. Information gain bertujuan melakukan pengurutan attribute berdasarkan peringkat (rank) dimana besar nilai information gain dari suatu attribute maka semakin signifikan attribute tersebut untuk tugas prediksi. Metode pengujian yang digunakan dalam penelitian ini adalah metode holdout dimana data penelitian menjadi dua bagian, 2/3 dari jumlah data yang dijadikan sebagai data training dan 1/3 dari jumlah data digunakan sebagai data testing (Han and Kamber, 2006). Pengujian dilakukan dengan dua tahap dengan langkah-langkah sebagai berikut:

1. Pada tahap pertama data training diproses dengan menggunakan algoritma naïve bayes yang melibatkan keseluruhan attribute. Dari data training yang dilatih terbentuk aturan klasifikasi. Kemudian data testing diujikan sehingga diperoleh hasil prediksi dengan nilai akurasi, error dan kecepatan proses 2. Pada tahap kedua data training terlebih dahulu diproses dengan menggunakan algoritma informasi gain. Setiap attribute dihitung informasi gain-nya dan diurutkan dari nilai tertinggi sampai terendah. Attribute rendah direduksi (dibuang), dan sisanya dipilih untuk kemudian di training dengan menggunakan algoritma naïve bayes. Kemudian data testing diujikan sehingga diperoleh hasil prediksi dengan nilai akurasi, error dan kecepatan proses. 3. Hasil prediksi dan kecepatan proses dari tahap kedua dianalisis untuk melihat apakah ada perubahan nilai akurasi, error dan kecepatan proses dari tahap yang pertama IV. HASIL DAN PEMBAHASAN Pada bab ini dijelaskan hasil pengujian yang dilakukan dalam melakukan pelatihan dan tugas klasifikasi dalam memprediksi penyakit jantung dengan menggunakan algoritma naïve bayes dan informasi gain sebagai parameter seleksi attribute. Pelatihan data dan tugas klasifikasi diuji dengan menggunakan aplikasi yang penulis bangun dengan menggunakan tools data mining WEKA. Berdasarkan pada hasil pengujian pelatihan dan tugas klasifikasi dari data rekam medis nantinya dapat ditarik kesimpulan, apakah algoritma naïve bayes dengan seleksi attribute dapat meningkatkan nilai akurasi prediksi penyakit jantung dan kecepatan proses dibandingkan dengan pelatihan dan tugas klasifikasi dengan algoritma naïve bayes secara umum. 4.1 hasil pengujian hasil pengujian diukur dari seberapa besar nilai akurasi serta kecepatan dari proses training data. Pengukuran akurasi dilakukan dengan menggunakan table klasifikasi yang disebut dengan confusion matrix dan kecepatan proses diukur dari lama waktu yang dibutuhkan dalam proses training dan testing data. Jumlah data training terdiri dari 195 baris data (2/3 dari jumlah baris data penelitian) dan jumlah testing terdiri dari baris baris data (1/3 dari jumlah baris data penelitian) 4.1.1 hasil pengujian tahap pertama pengujian pada tahap pertama menggunakan seluruh attribute data rekam medis penyakit jantung dalam pelatihan data dan tugas klasifikasi dalam memprediksi penyakit jantung. Dari data training yang diproses dengan algoritma naïve bayes diperoleh hasil pelatihan sebagai berikut: waktu proses pelatihan data dengan melibatkan seluruh attribute yang ditampilkan pada table diatas adalah 0,38135 detik. Berdasarkan hasil dari training data dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam table confusion matrix berikut: Table 4.2 hasil pengujian data testing dataset tahap pertama Aktual yang sebenarnya Prediksi Sakit Tidak Sakit Sakit 38 10 Tidak sakit 7 46 Dari table diatas diperoleh nilai prediksi yang benar untuk yang sakit ada 38 orang dan untuk yang tidak sakit 46 orang. Sementara prediksi yang salah teridiri dari 10 orang diprediksi tidak sakit (sebenarnya sakit). Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap pertama 0,83168 83,17% Error tahap pertama 0,16831 16,83% TP+TN FP+FN 38+46 10+7 Waktu proses pengujian dari data testing yang melibatkan seluruh attribute dari table 4.1 adalah: 0.57582 detik. 4.1.2 Hasil pengujian tahap kedua

Pengujian pada tahap kedua menggunakan beberapa atribut data rekam medis penyakit jantung yang dipilih berdasarkan nilai informasi gain untuk pelatihan data dan tugas klasifikasi dalam memprediksi penyakit jantung. Attribute diurutkan berdasarkan nilai informasi gain yang paling tinggi ke yang paling rendah. Pada tahap ini attribute dengan nilai terkecil (fbs) tidak diikut sertakan dalam proses training dan testing data. Kemudian dilihat nilai akurasi yang dihasilkan dari hasil pengujian tersebut. Pada percobaan ini untuk hasil data training sama dengan table 4.1 namun tanpa atribut fbs. Untuk proses training data yang melibatkan 12 atribute adalah: 0,35456 detik. Berasarkan hasil dari training data tanpa menggunakan attribute fbs dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam table confusion matrix berikut: Table 4.4 hasil pengujian data testing dataset tahap kedua Aktual yang sebenarnya Prediksi Sakit Tidak Sakit sakit 38 10 Tidak sakit 6 47 Dari hasil pengujian di atas dapat dilihat perbandingan akurasi, error dan waktu proses pada tahap pertama dan kedua, hasil akan ditampilkan dalam bentuk tabulasi Table 4.7 hasil pengujian percobaan tahap pertama dan kedua Pengujian I Pengujian II Atribute yang direduksi - Fbs Jumlah attribute 13 12 Akurasi 83,17% 84,16% Error 16,83% 15,84% Waktu testing (detik) 0,57582 0,65077 Waktu training (detik) 0,38135 0,35456 Table 4.7 hasil pengujian percobaan tahap pertama dan kedua Dari table di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 38 orang dan untuk yang tidak sakit ada 47 orang. Sementara prediksi yang salah terdiri dari 10 orang diprediksi tidak sakit (sebenarnya sakit) dan 6 orang diprediksi sakit (sebenarnya tidak sakit). Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap pertama 0,84158 84,16% Error tahap pertama 0,15481 15,84% TP+TN FP+FN 38+47 10+6 Waktu proses pengujian data testing yang melibatkan 12 atribute dari table 4.1 adalah: 0.65077 detik. V. PEMBAHASAN Dari grafik diatas dapat dilihat bahwa hasil pengujian pada tahap kedua dimana atribut fbs tidak diikutsertakan memiliki nilai akurasi lebih baik yaitu 84,16% dibandingkan hasil pengujian tahap pertama yang mengikut sertakan keseluruhan attribute yaitu 83,47% Dari hasil penelitian didapatkan bahwa, seleksi attribute dapat meningkatkan nilai akurasi dan mengurangi nilai error dari tugas klasifikasi. Hal ini dapat dilihat pada tahap kedua dimana attribute dengan nilai gain terendah (fbs) tidak diikutsertakan, menghasilkan nilai akurasi 84,16% dan nilai error 15,84%. Sementara jika menggunakan semua attribute (pengujian tahap pertama) akurasi diperoleh 83,17% dan error sebesar 16,83%. REFERENCES

[1] Dumitru, D. Prediction of recurrent events in breast cancer using the naïve Bayesian classification. 2009. Annals of university of Craiova, mathematics and computer series. [2] Gorunescu, F. 2011. Data mining: concepts and techniques, second edition. Morgan Kauffman publishers. [3] Kantardzic, M., 2003. Data mining: concepts, models, methods and algorithms. The institute of electrical engineering, Inc. [4] Sansosa, B. 2007. Data mining teknik pemanfaatan data untuk keperluan bisnis. Yogyakarta. Graham ilmu. [5] R. Nicole, Title of paper with only first word capitalized, J. Name Stand. Abbrev., in press.