BAB III METODOLOGI PENELITIAN. Dataset

dokumen-dokumen yang mirip
IMPLEMENTATION OF NAIVE BAYES CLASSIFIER METHOD AND ADABOOST ALGORITHM FOR PREDICTION OF CHRONIC KIDNEY DISEASE

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB 3 METODE PENELITIAN

BAB III METODE PENELITIAN

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB III METODE PENELITIAN

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II TINJAUAN PUSTAKA

BAB 2. Landasan Teori

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

PENERAPAN DATA MINING UNTUK MENENTUKAN POTENSI HUJAN HARIAN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES

ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB 2 TINJAUAN PUSTAKA

KLASIFIKASI METODE NAIVE BAYES UNTUK KELANCARAN PEMBAYARAN KREDIT LEASING SEPEDA MOTOR

PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA ABSTRAK

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

BAB III ANALISA DAN PERANCANGAN SISTEM

HASIL DAN PEMBAHASAN. Data

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB I PENDAHULUAN 1.1 Latar Belakang

Bab IV Eksperimen. 4.1 Dataset. 4.2 Kakas

PENERAPAN ALGORITMA NEURAL NETWORK DALAM MENENTUKAN PRIORITAS PENGEMBANGAN JALAN DI PROVINSI KALIMANTAN SELATAN

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

BAB 4 HASIL DAN BAHASAN

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

BAB III METODOLOGI PENELITIAN

BAB. III. ANALISA PERMASALAHAN

BAB 4 IMPLEMENTASI DAN PENGUJIAN

Bab I Pendahuluan. 1.1 Latar Belakang

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PEMETAAN SEBARAN ASAL SISWA DAN KLASIFIKASI JARAK ASAL SISWA SMA NEGERI DI KABUPATEN PRINGSEWU MENGGUNAKAN METODE NAÏVE BAYES

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

BAB 2 LANDASAN TEORI

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

SISTEM IDENTIFIKASI PENYAKIT TANAMAN KACANG KEDELAI MENGGUNAKAN METODE NAIVE BAYES

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI PADA TEXT MINING

BAB 3 METODE PENELITIAN

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

PREDIKSI KEPUTUSAN KLIEN TELEMARKETING UNTUK DEPOSITO PADA BANK MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

DIAGNOSA PREDIKSI PENYAKIT JANTUNG DENGAN MODEL ALGORITMA NAÏVE BAYES DAN ALGORITMA C4.5

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

ALGORITMA K-NEAREST NEIGHBOR BERBASIS FORWARD SELECTION UNTUK MENDIAGNOSIS PENYAKIT JANTUNG KORONER

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

PREDIKSI HASIL PENJURUSAN SISWA SEKOLAH MENENGAH ATAS DENGAN MENGGUNAKAN ALGORITMA DECISION TREE C.45

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT

PENDAHULUAN TINJAUAN PUSTAKA

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

Sistem Pendukung Keputusan Untuk Mengevaluasi Internal Program Studi

BAB II LANDASAN TEORI

PENDEKATAN METODE FEATURE EXTRACTION DENGAN ALGORITMA NAÏVE BAYES

ALGORITMA NAÏVE BAYES UNTUK PENENTUAN JURUSAN PADA SISWA MADRASAH ALIYAH

TUGAS AKHIR. Oleh: Bondhan Arya Purnanditya A

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Transkripsi:

BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar 3.1 dibawah ini: Pengumpulan Data Dataset Analisis dan Perancangan Proses Data Cleaning Proses Pelatihan dengan Naïve Bayes dan AdaBoost Cross Validation Pengembangan Aplikasi Menentukan Software dan Hardware Requirement Menulis Kode Program Pengujian Metode Menguji kinerja dan keefektifan metode Naïve Bayes dan AdaBoost Gambar 3.1 Alur Metodologi Penelitian 3. 1. Pengumpulan Data 3. 1. 1 Dataset Dataset diperoleh dari UCI Machine Learning Repository berupa data stadium awal penyakit ginjal kronik (CKD) terhadap orang India (Lichman, 2013). 37

38 3. 2. Analisis dan Perancangan 3. 2. 1 Proses Data Cleaning Proses data cleaning dilakukan sebelum data dibagi menjadi data training dan data testing. Bertujuan untuk membuang data yang tidak konsisten dan noise. Termasuk didalamnya penanganan terhadap missing value yang terdapat dalam data (bisa diisi dengan nilai yang paling sesuai atau diabaikan begitu saja) (Turban, et al., 2011). Proses yang dilakukan dalam penelitian ini yaitu dengan me-replace data yang hilang atau kosong (missing value) dengan mean untuk atribut numerik dan modus untuk atribut nominal. Mean adalah nilai rata-rata dari suatu informasi, sedangkan modus dalam suatu data adalah nilai yang paling sering muncul. Berikut merupakan rumus dari mean: x = N i=1 x i N = x 1 + x 2 + + x N N 3. 2. 2 Proses Pelatihan dengan Naïve Bayes dan AdaBoost (3.1) Proses pelatihan dengan menghitung probabilitas masing-masing atribut yang menyertai berdasarkan kelasnya. Untuk menghindari terjadinya probabilitas yang bernilai 0, maka dilakukan proses smoothing dengan menggunakan laplacian correction. P(X = x k C i ) = N ik + p N i + p. N k (3.2) Untuk attribut yang memiliki nilai kontinyu (continous-valued), maka perhitungan probabilitasnya diasumsikan memiliki distribusi Gauss dengan dengan mean μ dan standar deviasi σ, yang dirumuskan sebagai berikut: g(x, μ, σ) = 1 (x μ) 2 2πσ e 2σ 2 (3.3) Kemudian setelah dilakukan pelatihan dengan menggunakan metode Naïve Bayes, pelatihan selanjutnya dengan menggunakan metode boosting AdaBoost. Pada dasarnya, metode boosting ini bertujuan untuk meningkatkan ketelitian dalam proses klasifikasi dan prediksi dengan cara membangkitkan kombinasi dari suatu model, tetapi hasil klasifikasi atau prediksi yang dipilih adalah model yang

39 memiliki atribut nilai bobot terbesar. Jumlah perulangan yang dilakukan dalam percobaan menggunakan metode AdaBoost dibatasi sebanyak 10 kali. Pembagian data training dan testing untuk pelatihan menggunakan validasi 10-fold cross validation yang kemudian hasil pengukuran kinerja tersebut saling dibandingkan antara metode Naïve Bayes dan metode Naïve Bayes yang telah dilakukan boosting menggunakan AdaBoost. 3. 2. 3 Cross Validation Dalam k-fold cross validation, data awal dibagi secara acak menjadi k subset saling eksklusif (berdiri sendiri) atau disebut dengan fold, dari ukuran yang kirakira sama. Proses training dan testing dilakukan sebanyak k kali eksperimen. Pada setiap iterasi, dimana satu partisi digunakan sebagai data testing dan memanfaatkan sisa partisi lainnya sebagai data training. Sebagai contoh apabila terdapat subset D1, D2,..., Dk, maka untuk iterasi pertama, subset D1 digunakan sebagai data testing sedangkan sisanya D2,..., Dk digunakan sebagai data training untuk memperoleh model pertama, begitu juga untuk iterasi kedua, maka D2 digunakan untuk data testing dan sisanya D1, D3,...,Dk digunakan untuk data training, begitu seterusnya sampai subset terakhir Dk. Hasil perkiraan akurasi cross validation diperoleh dari jumlah keseluruhan klasifikasi yang benar dari iterasi k, dibagi dengan jumlah total tuple dalam data awal. Secara umum, stratified 10-fold cross validation dianjurkan untuk memperkirakan akurasi (meskipun daya komputasi memungkinkan untuk meggunakan fold yang lebih banyak) dikarenakan bias dan variansi yang relatif rendah (Han, et al., 2012). Gambar 3.2 merupakan gambaran alur kerja sistem yang diusulkan.

40 Dataset Data Cleaning New Dataset 10-Fold Cross Validation Model Naïve Bayes AdaBoost Data Training Data Testing Evaluasi Confusion Matrix Perbandingan Akurasi Gambar 3.2 Alur Kerja Sistem 3. 3. Pengembangan Aplikasi Pada tahap ini dilakukan penentuan kebutuhan baik perangkat lunak dan perangkat keras dalam mengimplementasikan sistem. Penulisan kode program untuk pembangunan aplikasi juga termasuk dalam tahap ini. 3. 4. Pengujian dan Analisis Hasil Pengujian dilakukan untuk mengukur keakuratan hasil dari tiap model yang diusulkan. Pengukuran kinerja ini menggunakan perhitungan nilai accuracy, precision, recall, dan F1-score (disebut juga sebagai F-score atau F-measure) untuk mengetahui seberapa besar perbedaan antara metode Naïve Bayes dengan metode Naïve Bayes dan AdaBoost dalam menangani kasus prediksi penyakit ginjal kronik. Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi

41 dengan nilai aktual. Definisi dari precision adalah proporsi kasus yang diprediksi positif yang juga positif benar pada data sebenarnya, sedangkan recall adalah proporsi dari kasus positif kejadian sebenarnya yang diprediksi positif secara benar (Powers, 2011). F1-score atau F-measure merupakan rata-rata harmonik dari nilai precision dan recall, dimana F1-score ini mencapai nilai terbaik pada 1 dan terburuk pada 0 (range penilaian dari 1-0). Pengukuran akurasi terhadap model dengan menggunakan confusion matrix yang menitik beratkan pada kelasnya. Kelas Sebenarnya Tabel 3.2 Confusion Matrix yes Kelas Prediksi yes True Positive (TP) False Negative (FN) no False Positive (FP) True Negative (TN) no Dari tabel 3.2, maka dapat dirumuskan untuk masing-masing nilai accuracy, presicion, recall, dan F1-score sebagai berikut: F 1 = TP + TN accuracy = TP + TN + FP + FN precision = TP TP + FP TP recall = TP + FN 2 precision recall 2 TP = precision + recall 2 TP + FP + FN (3.4) (3.5) (3.6) (3.7) True positive adalah jumlah record positif yang diklasifikasikan sebagai positif oleh classifier. True negative adalah jumlah record negatif yang diklasifikasikan sebagai negatif oleh clasifier. False positive adalah jumlah record negatif yang diklasifikasikan sebagai positif, sedangkan false negative adalah jumlah record positif yang diklasifikasikan sebagai negatif oleh classifier.

42 Analisis hasil dan pengujian dibagi menjadi dua skenario, yaitu yang pertama pengujian dan analisis hasil terhadap model Naïve Bayes dan AdaBoost dengan dataset asli yang masih memiliki missing value. Kedua yaitu pengujian dan analisis hasil terhadap model Naïve Bayes dan AdaBoost dengan dataset yang sudah melalui proses data cleaning. Hasil dari masing-masing model yang diajukan lalu dibandingkan untuk memperoleh hasil terbaik.