BAB II TINJAUAN PUSTAKA

Transkripsi

1 digilib.uns.ac.id BAB II TINJAUAN PUSTAKA Dasar Teori Data mining Data mining merupakan suatu proses penemuan pola dan pengetahuan atau informasi yang menarik dari data dengan jumlah yang besar. Data mining memiliki beberapa nama alternatif seperti knowledge mining from data, knowledge extraction, data/pattern analysis, data archaeology, data dredging, dan salah satu terminologi yang populer disebut dengan knowledge discovery from data (KDD). Data mining sebagai rangkaian suatu proses dapat dibagi menjadi beberapa tahap (Han, et al., 2012): a. Data cleaning (pembersihan data). Bertujuan untuk membuang data yang tidak konsisten dan noise. Termasuk didalamnya penanganan terhadap missing value yang terdapat dalam data (bisa diisi dengan nilai yang paling sesuai atau diabaikan begitu saja) (Turban, et al., 2011). b. Data integration (integrasi data). Proses dimana terjadi penggabungan data dari berbagai macam sumber. c. Data selection (pemilihan data). Proses dimana hanya data yang relevan untuk dianalisis yang diambil dari database. d. Data transformation (transformasi data). Data ditransformasi dan dikonsolidasikan menjadi suatu format yang sesuai untuk digali dengan menjalankan operasi penjumlahan atau agregasi. e. Data mining (penggalian data). Suatu proses dengan menerapkan metode cerdas untuk ekstraksi pola data. f. Pattern evaluation (evaluasi pola). Bertujuan untuk mengidentifikasi mana yang menjadi pola yang benar-benar menarik berdasarkan penilaian ketertarikan. 17

2 digilib.uns.ac.id 18 g. Knowledge presentation (presentasi pengetahuan). Dimana proses visualisasi dan teknik representasi pengetahuan digunakan untuk menyajikan pengetahuan atau informasi yang telah digali kepada pengguna. Berbagai macam metode yang digunakan dalam data mining pada saat ini cukuplah banyak. Berikut merupakan beberapa metode data mining yang paling banyak digunakan (Turban, et al., 2011): a. Classification (klasifikasi). Klasifikasi kemungkinan merupakan salah satu metode data mining yang paling sering digunakan dalam menghadapi suatu masalah. Klasifikasi ini mempelajari pola-pola dari data yang telah lalu (kumpulan informasi, variabel, fitur) dengan tujuan untuk menempatkan instance baru (dengan label yang belum diketahui) ke grup atau kelasnya yang sesuai. Apabila hasil yang diprediksi merupakan label kelas, maka hal ini disebut dengan klasifikasi, tetapi apabila yang hasilnya merupakan suatu nilai angka, maka disebut dengan regresi. b. Cluster Analysis for Data mining. Cluster analysis merupakan salah satu metode data mining yang penting untuk mengklasifikasi suatu barang, kejadian, atau konsep kedalam kelompok yang sama (cluster) atau memiliki karakteristik yang mirip. Berbeda dengan klasifikasi, clustering ini memiliki label kelas yang belum diketahui. c. Association Rule Mining. Metode ini terkenal umumnya digunakan sebagai contoh untuk menjelaskan apa yang dimaksud dengan data mining dan apa yang dapat dilakukan untuk khalayak umum yang tidak begitu paham akan teknologi. Pada dasarnya associaton rule mining bertujuan untuk menemukan hubungan yang menarik (afinitas) antara variabel (item) dalam database besar. Dikarenakan kesuksesan penggunaannya dalam menangani masalah bisnis, sehingga biasa disebut dengan market-basket analysis Klasifikasi Klasifikasi adalah suatu bentuk analisis data yang mengekstrak model yang menggambarkan kelas-kelas data. Suatu classifier, atau model klasifikasi (classification model), memprediksi commit label to berkategori user (classes) (Han, et al., 2012).

3 digilib.uns.ac.id 19 Sedangkan menurut Tan, et al. (2006) menjelaskan bahwa klasifikasi adalah tugas pembelajaran fungsi target f yang memetakan setiap set atribut x ke salah satu label kelas y yang sudah dikenali. Gambar 2.1 merupakan ilustrasi penjelasan klasifikasi. Gambar 2.1. Klasifikasi sebagai tugas memetakan set atribut x kedalam label kelas y (Tan, et al., 2006) Fungsi target juga dikenal sebagai model klasifikasi. Model klasifikasi ini bertujuan sebagai berikut (Tan, et al., 2006): a. Pemodelan Deskriptif Suatu model klasifikasi dapat bertindak sebagai suatu alat yang mampu menjelaskan perbedaan antara objek dengan kelas-kelas yang berbeda. b. Pemodelan Prediktif Suatu model klasifikasi juga dapat digunakan untuk memprediksi label kelas yang belum diketahui record-nya. Adapun proses dari klasifikasi itu sendiri diilustrasikan pada gambar 2.2 dibawah ini:

4 digilib.uns.ac.id 20 Gambar 2.2 Tahapan Proses Klasifikasi: (a) Pembelajaran: Data training dianalisis dengan menggunakan algoritma klasifikasi. (b) Klasifikasi: data tes digunakan untuk memperkirakan akurasi dari aturan-aturan klasifikasi yang dipakai (Han, et al., 2012). Berdasarkan ilustrasi diatas, proses klasifikasi data dibagi menjadi dua tahap (Han, et al., 2012), yaitu: a. Tahap Pembelajaran Disini tiap record data dari training set yang nilai atributnya saling berhubungan dianalisis dengan menggunakan suatu algoritma klasifikasi sehingga dapat menghasilkan suatu model pembelajaran atau classifier yang sesuai.

5 digilib.uns.ac.id 21 b. Tahap Klasifikasi Pada tahap ini data tes digunakan untuk mengetahui ketepatan atau akurasi dari aturan-aturan klasifikasi yang berlaku pada model yang dihasilkan. Apabila tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan data record lain yang data kelasnya belum diketahui atau diujikan (dalam pembelajaran mesin, data tersebut juga dikenal sebagai data unkown atau prevously unseen data) Naïve Bayes Classifier Naïve Bayes Classifier merupakan salah satu teknik klasifikasi yang menggunakan metode probabilitas sederhana berdasarkan teorema bayes dengan asumsi ketidaktergantungan (independent) yang tinggi. Beberapa studi mengenai algoritma klasifikasi menunjukkan bahwa Naïve Bayes Classifier memiliki performa yang sebanding dengan decision tree dan neural network classifiers tertentu. Selain itu, metode ini juga menunjukkan akurasi dan kecepatan yang tinggi ketika digunakan dalam basis data yang berukuran besar (Han, et al., 2012). Teorema bayes yang digunakan sebagai dasar algoritma ini merupakan suatu teori yang dikemukakan oleh ilmuwan Inggris Thomas Bayes yang memprediksi probabilitas dimasa depan berdasarkan pengalaman dimasa sebelumnya. Teorema bayes diformulasikan sebagai berikut (Han, et al., 2012): X H Dimana: P(H X) = P(X H)P(H) P(X) : Probabilitas dari X (2.1) : Data dengan class yang belum diketahui atau evidence. Digambarkan dengan ukuran yang dibuat dari sejumlah n atribut : Hipotesis data tuple X yang termasuk di dalam class tertentu P(H X) : Probabilitas hipotesis H berdasarkan kondisi X (posetrior probabiity) P(X H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(H) P(X) : Probabilitas hipotesis H (prior probability)

6 digilib.uns.ac.id 22 Untuk menjelaskan teorema Naïve Bayes, perlu diketahui bahwa proses dari klasifikasi membutuhkan sejumlah petunjuk untuk menentukan kelas yang sesuai dengan sampel yang dianalisis, sehingga teorema bayes diatas disesuaikan menjadi: P(C i X) = P(X C i)p(c i ) (2.2) P(X) Disini X memrepresentasikan vektor masukan yang berisikan fitur. Sedangkan C i merepresentasikan label kelas. Dengan asumsi bahwa nilai variabel dalam tiap kelas saling independen yang kuat (naïve) satu dengan yang lainnya maka: P(X C i ) = P(x k C i ) n (2.3) k=1 = P(x 1 C i ) P(x 2 C i ) P(x n C i ) Dikarenakan nilai P(X) dalam setiap kelas bernilai konstan, maka model persamaan Naïve Bayes untuk klasifikasi dapat disederhanakan menjadi: n P(C i X) = P(x k C i )P(C i ) (2.4) k=1 Laplacian correction digunakan agar kemungkinan probabilitas yang dimaksudkan tidak ada yang bernilai 0. Rumus laplacian correction dalam kasus ini adalah sebagai berikut: P(X = x k C i ) = N ik + p N i + p. N k (2.5) Dimana N ik merupakan jumlah kejadian yang muncul di kolom k dari baris i pada data training, N i adalah jumlah kemunculan kejadian pada data training dari kelas C i, sedangkan N k adalah jumlah kejadian yang muncul pada kolom k yang terdapat dalam data training, dan p merupakan arbitrary probability, disini nilai p = 1. Tabel 2.1 menunjukkan contoh dataset ckd berdasarkan kondisi tertentu yang digunakan sebagai training set yang diambil secara acak. Dalam contoh ini atribut yang dipakai yaitu: sg (specific gravity) yang merupakan indikator kepekatan urine, al (albumin) merupakan commit to kadar user albumin dalam urine, su (sugar)

7 digilib.uns.ac.id 23 merupakan kadar gula dalam urine, dan htn (hypertension) yang merupakan gejala hipertensi yang dimiliki pasien. Tabel 2.1 Contoh Training Set dari Basis Data CKD Idpasien Sg al su htn kelas yes ckd no ckd no ckd yes ckd no ckd yes ckd yes ckd yes ckd yes ckd yes ckd yes ckd no notckd no notckd no notckd no notckd no notckd no notckd no notckd Contoh perhitungan: Bila kita ingin mengetahui apakah seorang pasien dikategorikan menderita ckd atau tidak dengan kondisi sebagai berikut: X = (sg = 1.020, al = 3, su = 1, htn = no) Disini kita perlu menghitung nilai P(X C i )PC i untuk i = 1, 2. Pertama yang dilakukan adalah menghitung nilai P(C i ) masing-masing kelas dengan menerapkan laplacian correction: P(kelas = ckd) = = = 0,6 P(kelas = notckd) = = 8 20 = 0,4 Kemudian untuk menghitung P(X C i ), untuk i = 1, 2 kita perlu untuk menghitung masing-masing probabilitas dari tiap kondisi yang diberikan: P(sg = kelas = ckd) = = 3 16 = 0,1875

8 digilib.uns.ac.id 24 P(sg = kelas = notckd) = = 4 12 = 0,3333 P(al = 3 kelas = ckd) = = 4 16 = 0,25 P(al = 3 kelas = notckd) = = 1 12 = 0,0833 P(su = 1 kelas = ckd) = = 2 16 = 0,125 P(su = 1 kelas = notckd) = = 1 12 = 0,0833 P(htn = no kelas = ckd) = = 4 13 = 0,3077 P(htn = no kelas = notckd) = = 8 9 = 0,8889 Berdasarkan probabilitas diatas, maka diperoleh: P(X kelas = ckd) = P(sg = kelas = ckd) P(al = 3 kelas = ckd) P(su = 1 kelas = ckd) P(htn = no kelas = ckd) = 0,1875 0,25 0,125 0,3077 = 0,0018 P(X kelas = notckd) = P(sg = kelas = notckd) P(al = 3 kelas = notckd) P(su = 1 kelas = notckd) P(htn = no kelas = notckd) = 0,3333 0,0833 0,0833 0,8889 = 0,002 Dengan demikian kelas penyakit C i didapatkan dengan menghitung nilai P(X C i )PC i sebagai berikut: P(X kelas = ckd)p(kelas = ckd) = 0,6 0,0018 = 0,00108 P(X kelas = notckd)p(kelas = notckd) = 0,4 0,002 = 0,0008 Berdasarkan hasil diatas, maka Naïve Bayes classifier ini memprediksi pasien tersebut menderita ckd untuk kondisi X.

9 digilib.uns.ac.id AdaBoost Algoritma AdaBoost pertama kali diperkenalkan pada tahun 1995 oleh Freund dan Schapire, telah banyak memecahkan berbagai masalah praktis dari algoritma boosting sebelumnya (Freund & Schapire, 1999). Boosting merupakan salah satu contoh metode ensemble (ensemble methods) yang menggabungkan suatu urutan model pembelajaran k (atau disebut juga sebagai classifier dasar), M1, M2,...,Mk, dengan tujuan menciptakan model klasifikasi gabungan yang lebih baik, M*. Metode ensemble ini mengembalikan hasil prediksi kelas berdasarkan penilaian dari classifier dasarnya (Han, et al., 2012). Adapun algoritma AdaBoost memiliki pondasi teori yang solid, prediksi yang sangat akurat, tingkat kesederhanaan yang tinggi (cukup hanya dengan 10 baris kode), dan penggunaannya yang luas dan sukses (Wu, et al., 2007). Penggambaran kerja dari algoritma AdaBoost adalah sebagai berikut: misalkan X didenotasikan sebagai instance dan Y sebagai set label kelas. Diasumsikan Y = { 1, +1}. Kemudian diberikan algoritma pembelajaran dasar atau lemah (weak or base learning algorithm) dan sebuah training set {(x 1, y 1 ), (x 2, y 2 ),, (x m, y m )} dimana x i X dan y i Y. Kemudian algoritma AdaBoost bekerja sebagai berikut, pertama-tama tiap contoh training (training example) (x i, y i )(i {1,, m}) diberikan bobot yang sama. Denotasikan distribusi bobot pada putaran pembelajaran (learning round) ke-t sebagai D t. Dari training set dan D t algoritma AdaBoost ini menghasilkan suatu weak atau base learner h t X Y dengan memanggil algoritma pembelajaran dasarnya. Kemudian contoh training tersebut digunakan untuk menguji h t, dan bobot-bobot dari contoh klasifikasi yang salah akan meningkat. Dengan demikian, suatu distribusi bobot yang telah diperbarui D t+1 diperoleh. Dari training set dan D t+1 AdaBoost menghasilkan weak learner lain dengan memanggil algoritma pembelajaran dasarnya lagi. Proses tersebut diulang untuk putaran T, dan model akhir diperoleh dengan suara terbanyak terbobot (weighted majority voting) dari kumpulan T weak learner, dimana bobot dari learner tersebut ditentukan selama proses pelatihan atau training (Wu, et al., 2007).

10 digilib.uns.ac.id 26 Dalam pengembangannya, metode AdaBoost memiliki banyak varian turunan antara lain: AdaBoost.M1 (Freund & Schapire, 1996), AdaBoost.M1W (Eibl & Pfeiffer, 2002), Kullback-Leibler Boosting (KLBoosting) (Liu & Shum, 2003), dan Jensen-Shannon Boosting (JSBoost) (Huang, et al., 2005). AdaBoost.M1 yang diajukan oleh Freund dan Schapire merupakan generalisasi langsung dari AdaBoost untuk dua kelompok dari masalah multikelas. Sedangkan AdaBoost.M1W merupakan pengembangan dari algoritma AdaBoost.M1 dengan meminimalisasi batas atas pengukuran kinerja yang disebut dengan guessing error (Eibl & Pfeiffer, 2002). Kemudian untuk algoritma KLBoosting dan JSBoost digunakan untuk pendeteksian pola atau objek gambar. Implementasi AdaBoost dalam WEKA sendiri menggunakan varian AdaBoost.M1. Berikut ini merupakan teknik pembobotan dari algoritma AdaBoost.M1: Input: Proses: Dataset D = {(x 1, y 1 ),, (x m, y m )}; dengan label y i Y = {1,, k} Algoritma pembelajaran dasar (base learning algorithm) L; Jumlah iterasi atau perulangan T. #Inisialisasi nilai bobot D 1 (i) = 1 untuk i = 1,, m m Do for t = 1,, T: # Latih weak learn h t dari D dengan menggunakan distribusi D t h t = L(D, D t ); (2.6) # Hitung error dari h t ε t = Pr i~di [h t (x i y i )]; (2.7) ε t = D t (i) i:h t (x i ) y i (2.8) Jika ε t ½, maka set T = t 1, batalkan loop dan langsung menuju output # Menentukan bobot dari h t α t = ln ( 1 ε t ); (2.9) ε t # Update

11 digilib.uns.ac.id 27 D t+1 (i) = D t (i) Z t { exp( α t) if h t (x i ) = y i exp(α t ) if h t (x i ) y i (2.10) # dimana Z t sebuah faktor normalisasi yang mengaktifkan D t+1 menjadi distribusi Output: Tentukan classifier akhir H fin(x) H fin(x) = arg max y Y t:h t (x)=y α t (2.11) Berikut merupakan contoh perhitungan menggunakan algoritma AdaBoost.M1, dengan diberikan suatu data training (berisi 2 kelas yaitu {1,-1}) seperti pada tabel 2.2 dibawah ini: Tabel 2.2 Contoh Data Training Index Nilai x Nilai y Berdasarkan data training diatas, weak learner menghasilkan hipotesis dengan form: x v dan x v. Threshold (ambang batas) v ditentukan untuk meminimalisasi kemungkinan kesalahan atas keseluruhan data. Pada data diatas diperoleh threshold x 2, x 5, dan x 8. Tabel 2.3 Threshold x 2 Index x y correct y y y y y y n n n y Tabel 2.4 Threshold x 5 Index x y correct n n n y y y y y y n

12 digilib.uns.ac.id 28 Tabel 2.5 Threshold x 8 Index x y correct y y y n n n y y y y Proses jalannya algoritma adalah sebagai berikut: Inisialisasi nilai bobot dari D 1 (i) maka diperoleh: Tabel 2.6 Inisialisasi Bobot Awal Index D 1 (i) 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 Untuk t = 1, diperoleh classifier h 1 (x) dengan nilai error terendah berada pada x 2, dengan error di index 6, 7, dan 8. Untuk x 2, nilai y yang benar seharusnya bernilai 1, dan untuk x > 2, nilai y yang benar seharusnya bernilai -1. Hitung nilai error h 1 (x) Hitung nilai α 1 ε 1 = D 1 (i) i:h t (x i ) y i ε 1 = 0,1 + 0,1 + 0,1 = 0,3 α 1 = ln ( 1 ε 1 ε 1 ) α 1 = ln ( 1 0,3 0,3 ) α 1 = 0,8473 Update distribusi D t+1 (i) = = = D 1 (i) { exp( α 1) if h t (x i ) = y i Z 1 exp(α 1 ) if h t (x i ) y i 0,1 0,99 { exp( 0,8473) = 0,4286 jika benar exp (0,8473) = 2,3333 jika salah 0, ,99 = 0,04329 (benar); 0,23333 = 0,2357 (salah) 0,99

13 digilib.uns.ac.id 29 Z t merupakan faktor normalisasi yang mengaktifkan D t+1 (i) menjadi distribusi, sehingga nilai Z 1 didapatkan dari penjumlahan seluruh nilai distribusi. Tabel 2.7 menunjukkan hasil masing-masing nilai terbobot yang dihasilkan. Tabel 2.7 Hasil Probabilitas t = 1 Pada x 2 Index Correct y y y y y y n n n y D t (i) exp α atau D t (i) exp α Z 1 =0,99 D 1+1 (i) Untuk t = 2. Berdasarkan tabel 2.7, sekarang diperoleh nilai error untuk x 2 sebesar 0,7. Sedangkan untuk x 5 menghasilkan nilai error sebesar 0,1732 (lihat tabel 2.4, dengan error sebanyak 4 kali pada index 0, 1, 2, 9) dan untuk x 8 menghasilkan nilai error sebesar 0,1299 (lihat tabel 2.5, total error sebanyak 3 kali pada index 3, 4, 5). Maka dipilihlah classifier h 2 (x) dengan nilai error terendah yaitu untuk x 8. Hitung nilai error h 2 (x) Hitung nilai α 2 ε 2 = D 2 (i) i:h t (x i ) y i ε 2 = 0, , ,433 = 0,1299 α 2 = ln ( 1 ε 2 ε 2 ) α 2 = ln ( 1 0,1299 0,1299 ) α 2 = 1,9018

14 digilib.uns.ac.id 30 Update distribusi Tabel 2.8 Probabilitas t = 2 pada x 8 Index correct y y y n n n y y y y D 2 (i) D 2 (i) exp α 2 atau D 2 (i) exp α 2 Z 2 =1,001 D 2+1 (i) Untuk t = 3. Classifier h 3 (x) dengan nilai threshold terendah yaitu x 5. Hitung nilai error h 3 (x) ε 3 = D 3 (i) i:h t (x i ) y i ε 3 = 0, , , ,0065 = 0,026 Hitung nilai α 3 Update distribusi α 3 = ln ( 1 ε 3 ε 3 ) α 3 = ln ( 1 0,026 0,026 ) α 2 = 3,6233 Tabel 2.9 Probabilitas t = 3 pada x 5 Index correct n n n y y y y y y n D 3 (i) D 2 (i) exp α 2 atau D 2 (i) exp α 2 Z 2 =0,999 D 3+1 (i)

15 digilib.uns.ac.id 31 Output Classifier akhir H fin(x) H fin(x) = arg max y Y t:h t (x)=y α t H fin(x) = arg max y Y (α 1 + α 2 + α 3 ) H fin(x) = arg max y Y (0, , ,6233) H fin(x) = 6,3724 Hipotesis akhir atau final H fin adalah suara tertimbang (yaitu, threshold linear tertimbang) dari hipotesis lemah. Artinya, ketika diberikan suatu instance x, maka H fin(x) menghasilkan output pada label (kelas) y yang memaksimalkan jumlah bobot dari hipotesis lemah yang memprediksi label tersebut (Freund & Schapire, 1996) Penyakit Ginjal Kronik (Chronic Kidney Disease, CKD) Definisi dan klasifikasi dari CKD yang digulirkan oleh National Kidney Foundation Kidney Disease Outcome Quality Initiative pada tahun 2002 dan direvisi oleh Kidney Disease Improving Global Outcomes tahun 2004 menyebutkan bahwa CKD adalah kelainan struktur atau fungsi ginjal 3 bulan yang ditunjukkan dengan kerusakan ginjal, dengan atau tanpa penurunan GFR seperti yang diketahui melalui kelainan hispatologi, tanda-tanda kerusakan ginjal (kelainan komposisi urin dan darah maupun uji pencitraan ginjal), dan transpantasi ginjal. Laju filtrasi glomerulus (GFR) kurang dari 60 ml/menit/1,73 m 2 3 bulan dengan atau tanpa kerusakan ginjal (Levey, et al., 2007). Analisis terkini menunjukan bahwa peningkatan albuminaria juga memiliki pengaruh yang penting terhadap hasilnya (Jha, et al., 2013). Tabel 2.10 merupakan stadium dan rencana tindakan terhadap CKD (Reilly & Perazella, 2005):

16 digilib.uns.ac.id 32 Tabel 2.10 Stadium dan Tindakan Terhadap CKD Stadium Deskripsi GFR (ml/mnt/1.73 m 2 ) Tindakan 0 Peningkatan resiko CKD 90 dengan berbagai faktor resiko 1 Kerusakan ginjal dengan GFR normal atau naik 2 Penurunan ringan pada GFR 3 Penurunan lanjut pada GFR 4 Penurunan berat pada GFR Screening pengurangan resiko CKD 90 Diagnosis dan pengobatan Memperlambat kemajuan/progres CKD Mengobati penyakit penyerta Pengurangan resiko penyakit kardiovaskular Estimasi progres penyakit Mengevaluasi dan obati komplikasi Persiapan terapi penggantian ginjal 5 Kegagalan ginjal <15 Penggantian ginjal jika uremia

17 digilib.uns.ac.id Penelitian Terkait Penelitian ini mengacu pada penelitian atau studi sejenis yang telah dilakukan sebelumnya. Saputra melakukan penelitian dengan judul komparasi algoritma data mining untuk memprediksi penyakit tubercolusis yang merupakan studi kasus di Puskesmas Karawang Sukabumi pada tahun Pada penelitian ini, peneliti melakukan komparasi algoritma C4.5, Naïve Bayes, neural network, dan logistic regression yang diaplikasikan terhadap data pasien yang dinyatakan positif TB dan negatif TB. Dari hasil pengujian dengan mengukur kinerja dari keempat algoritma tersebut menggunakan metode pengujian Confusion matrix dan Kurva Receiver Operating Characteristic (ROC), diketahui bahwa algoritma Naïve Bayes memiliki nilai accuracy paling tinggi, yaitu 91,61% diikuti algoritma C4.5 sebesar 89,77%, metode neural network sebesar 84,07%, dan yang terendah adalah metode logistic regression dengan nilai accuracy 80,02%. Nilai Area Under Curve (AUC) untuk metode Naïve Bayes juga menunjukkan nilai tertinggi sebesar 0,995, disusul algoritma C4.5 dengan nilai AUC sebesar 0,982, metode logistic regression dengan nilai AUC 0,968 dan yang terendah adalah nilai AUC neural network sebesar 0,940. Adapun penelitian mengenai penggunaan algoritma AdaBoost dilakukan oleh Korada, et al (2012). Penelitian ini menggunakan algoritma AdaBoost untuk meningkatkan akurasi dari weak learner berupa Naïve Bayes Classifier. Algoritma AdaBoost ini bekerja secara iteratif pada Naïve Bayesian classifier yang bobotnya sudah dinormalisasi dan menghasilkan klasifikasi dengan kelas yang berbeda sesuai dengan input yang diberikan. Maize Expert System merupakan sistem pakar yang digunakan untuk mendeteksi penyakit pada tanaman jagung, sistem pakar ini menggunakan algoritma Naïve Bayes yang ditingkatkan akurasinya dengan menggunakan logika AdaBoost. Dari hasil yang diperoleh, kinerja dari Naïve Bayes Classifier (sebagai weak learner) meningkat sebesar 33% dengan bantuan algoritma AdaBoost sehingga nilai error atau kesalahan dari misklasifikasi dapat berkurang. Penelitian lain yang terkait dengan penggunaan metode Naïve Bayes dan algoritma AdaBoost yaitu penelitian yang dilakukan commit to oleh user Utami dan Wahono (2015). Metode

18 digilib.uns.ac.id 34 yang tersebut digunakan untuk klasifikasi sentimen review restoran. Dalam penelitian ini, information gain digunakan sebagai seleksi fitur dan algoritma AdaBoost untuk mengurangi bias agar dapat meningkatkan akurasi algoritma Naïve Bayes. Dengan validasi 10-fold cross validation dan pengukuran akurasi dengan confusion matrix, hasil akurasi yang didapatkan dengan metode Naïve Bayes saja mencapai 70% dan AUC = 0,500. Sama halnya jika Naïve Bayes disertai dengan information gain, akurasi yang dicapaipun hanya 70% dan AUC=0,500 yang membuktikan bahwa information gain tidak mempengaruhi akurasi terhadap Naïve Bayes. Akan tetapi jika kedua metode tersebut digabungkan dengan AdaBoost, akurasi meningkat 29,5% menjadi 99,5% dan AUC = 0,995.

19 digilib.uns.ac.id Tabel 2.11 Tabel Penelitian Terkait No Judul Penulis Metode Persamaan Perbedaan 1 Komparasi Algoritma Data Mining untuk Memprediksi Penyakit Tubercolusis (TB): (Saputra, 2014) C4.5, Naïve Bayes, Neural Network, Studi Kasus Puskesmas Karawang Logistic Sukabumi Regression 2 Implementation of Naïve Bayesian Classifier and Ada-Boost Algorithm Using Maize Expert System (Korada, et al., 2012) Naïve Bayes, AdaBoost Penggunaan Metode Naïve Bayes untuk prediksi penyakit Penilaian dengan confusion matrix Penggunaan Naïve Bayes sebagai weak learner AdaBoost untuk meningkatkan akurasi Studi kasus Dataset yang digunakan Tidak menggunakan metode boosting Implementasi metode 3 Integrasi Metode Information Gain untuk Seleksi Fitur dan AdaBoost untuk Mengurangi Bias pada Analisis Sentimen Review Restoran Menggunakan Algoritma Naïve Bayes (Utami & Wahono, 2015) Information Gain, AdaBoost, Naïve Bayes AdaBoost dan Naïve Bayes Validasi dengan 10-fold cross validation Penggunaan seleksi fitur information gain 35

20 digilib.uns.ac.id Fokus Penelitian Penelitian yang akan dilakukan merupakan penelitian tentang analisis terhadap pengaruh algoritma AdaBoost dengan menggunakan metode Naïve Bayes sebagai classifier-nya. Data yang digunakan berasal dari UCI Machine Learning Repository berupa dataset mengenai stadium awal penyakit ginjal kronik (early stage of chronic kidney disease) yang terdiri dari 25 atribut (24 parameter input dan 1 parameter output berupa kelas) dan berisi 400 instance (250 CKD dan 150 notckd). Algoritma AdaBoost digunakan untuk meningkatkan kinerja dari metode Naïve Bayes classifier. Dengan menggunakan metode validasi 10-fold cross validation, dataset CKD tersebut dibagi menjadi data training dan data testing. Penelitian ini dilakukan dengan dua cara yaitu pertama dataset tersebut dilakukan training dengan menggunakan metode Naïve Bayes, sedangkan yang kedua, dataset tersebut di-training menggunakan metode Naïve Bayes yang dioptimalisasi dengan algoritma AdaBoost. Hasil dari training dan testing dari masing-masing metode kemudian dibandingkan sehingga diperoleh suatu kesimpulan mengenai pengaruh algoritma AdaBoost terhadap peningkatan kinerja yang diterapkan pada metode Naïve Bayes classifier. Selain itu perbandingan performa juga dilakukan terhadap dataset yang masih memiliki missing value dan dataset yang sudah mengalami pengisian atau perubahan pada missing value-nya.