KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER Agustina Ratna Puspitasari¹, -² ¹Teknik Informatika,, Universitas Telkom Abstrak Klasifikasi dapat diterapkan untuk mengatasi data explosion problem. Dengan adanya klasifikasi maka data-data yang sebelumnya kurang dimanfaatkan bisa digunakan untuk menemukan informasi berharga yang sebelumnya tidak diketahui. Pada Tugas Akhir ini dilakukan pembangunan perangkat lunak untuk klasifikasi menggunakan metode Naive Bayesian Classifier yang merupakan pendekatan dengan ilmu statistik yaitu pengklasifikasian data berdasarkan pemilihan probabilitas tertinggi. Atribut yang digunakan bisa berupa atribut continuous maupun atribut diskret. Selain itu pada Tugas Akhir ini juga dilakukan penanganan probabilitas nol dan missing value pada atribut non-class. Setelah dilakukan analisis dan pengujian ternyata metode yang sederhana ini mampu mengklasifikasikan data cukup akurat. Tugas Akhir ini dibangun menggunakan Borland Delphi 7 dan Oracle 8i versi 8.1.7 Kata Kunci : klasifikasi, naive bayesian classifier, probabilitas Abstract Classification overcomes data explosion problems. With classification, the data that previously less be exploited can be used to find valuable information that unknown before. In this final project, the software for classification was built using Naive Bayesian Classifier method that uses statistics approach with highest probability for data classification. It uses continuous and discret attribute and also handling null probability and missing value in non-class attribute. After analysis and testing done, we can result that this simple method can classify data accurately enough. This final project was built using Borland Delphi 7 and Oracle 8i version 8.1.7 Keywords : classification, naive bayesian classifier, probability

BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini sering terjadi data explosion problem yaitu data data yang tersimpan dalam database berjumlah sangat besar namun dari data data tersebut belum banyak dimanfaatkan terutama dalam hal pencarian informasi berharga (knowledge). Untuk mengatasi hal tersebut salah satunya adalah dengan menggunakan data mining karena data mining dapat membantu membuat hipotesis baru ataupun membantu analis untuk menemukan informasi berharga dari data tersebut. Salah satu fungsionalitas data mining adalah klasifikasi. Klasifikasi adalah proses mencari identitas umum diantara entitas-entitas yang berbeda dan mengklasifikasikannya ke dalam class yang sesuai. Klasifikasi pada data yang berjumlah besar dan kompleks jika dilakukan secara manual akan sulit dan membutuhkan waktu yang lama. Hal ini dapat diatasi dengan pembangunan suatu tools klasifikasi karena dengan adanya tools klasifikasi data yang berjumlah besar dan kompleks tersebut akan lebih mudah dan cepat dikelompokkan sesuai dengan class-nya masing-masing. Klasifikasi dapat dilakukan pada banyak bidang, diantaranya bidang ekonomi, kesehatan, dan pendidikan. Pada Tugas Akhir ini metode yang digunakan dalam pembangunan klasifikasi adalah Naive Bayesian Classifier karena metode ini merupakan metode klasifikasi yang sederhana yaitu berdasarkan pada probabilitas namun mampu mengklasifikasikan data cukup akurat. 1.2 Perumusan Masalah Permasalahan yang dijadikan obyek penelitian dan pengembangan Tugas Akhir ini adalah bagaimana mengimplementasikan dan menganalisis metode 1

2 Naive Bayesian Classifier untuk klasifikasi pada data mining dengan beberapa macam tipe atribut, missing value terhadap akurasi pengklasifikasian data. 1.3 Tujuan Berdasarkan pada masalah yang telah didefinisikan di atas, maka tujuan Tugas Akhir ini adalah: 1. Mengimplementasikan metode Naive Bayesian Classifier untuk mengklasifikasikan data 2. Menangani missing value pada atribut. 3. Menangani probabilitas nol yang mungkin terjadi pada data training. 4. Menangani penghitungan atribut continuous dengan menggunakan Gaussian Density Function dan pendiskretisasian dengan menggunakan Entropy Minimum Description Length (E-MDL) 5. Menghitung keakuratan pengklasifikasian data yang didahului dengan uji kebenaran terhadap model yang dibangun 6. Menganalisis perilaku Naive Bayesian Classifier terhadap akurasi pengklasifikasian data. 1.4 Batasan Masalah Dalam Tugas Akhir ini, batasan masalah yang digunakan untuk pembangunan klasifikasi menggunakan Naive Bayesian Classifier sebagai berikut : 1. Data yang akan dijadikan kajian berupa record dan terbagi menjadi 2 kelompok, yaitu data training dan data testing. 2. Data sudah tersimpan dalam database, user memilih data yang ingin diklasifikasikan. 3. Nilai dari suatu atribut independence terhadap nilai atribut lainnya. 4. Tidak membandingkan metode naive bayesian classifier dengan metode klasifikasi lain. 5. Tidak membahas mengenai statistika.

3 6. Tidak melakukan penanganan noise. 1.5 Metodologi Langkah langkah yang digunakan dalam merealisasikan tujuan dan pemecahan masalah di atas adalah : 1. Studi Literatur Mempelajari konsep-konsep klasifikasi data mining dan Naive Bayesian Classifier secara global yang diperoleh dari buku dan jurnal. 2. Pendalaman materi Mendalami materi yang akan digunakan yaitu konsep klasifikasi dan metode Naive Bayesian Classifier 3. Perancangan dan implementasi Merancang dan membangun perangkat lunak sebagai alat bantu dalam proses analisis. 4. Analisis dan Evaluasi Melakukan uji kebenaran pengklasifikasian data dengan menghitung akurasi. 1.6 Sistematika Penulisan Tugas Akhir ini disusun berdasarkan sistematika sebagai berikut : BAB I Pendahuluan Bab ini meliputi latar belakang, perumusan masalah, tujuan, batasan masalah, metodologi dan sistematika penulisan. BAB II Dasar Teori Bab ini memuat berbagai dasar teori yang mendukung dan mendasari penulisan Tugas Akhir ini yaitu mengenai konsep data mining, klasifikasi, dan Naive Bayesian Classifier BAB III Analisis dan Perancangan Sistem

4 BAB IV BAB V Dalam bab ini diuraikan tentang analisis, perancangan pembangunan perangkat lunak sebagai alat bantu dalam proses analisis. Implementasi dan Pengujian Bab ini memuat tentang analisis terhadap keakuratan pegklasifikasian data menggunakan metode Naive Bayesian Classifier dengan menggunakan beberapa macam tipe atribut. Kesimpulan dan Saran Bab ini berisi kesimpulan yang diambil dari pembahasan bab-bab sebelumnya serta saran-saran untuk pengembangan selanjutnya.

Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 5

BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Metode Uji Coba Sistem Pada bab ini dilakukan pengujian terhadap dataset untuk mengetahui tingkat akurasi ( kebenaran ) pengklasifikasian data menggunakan Naive Bayesian Classifier. Pengujian dilakukan untuk mengetahui pengaruh penggunaan parameter yaitu missing value, jumlah class serta pemilihan penghitungan atribut continuous terhadap akurasi pengklasifikasian data. Selain itu juga dilakukan analisis perilaku Naive Bayesian Classifier terhadap atribut yang mempunyai nilai numerik dengan range tertentu apakah diperlakukan sebagai atribut diskret atau continuous dan pengaruhnya terhadap akurasi pengklasifikasian data. 4.2 Data Uji yang Digunakan Data yang digunakan untuk melakukan klasifikasi terbagi menjadi 2 yaitu data training dan data testing. Data data tersebut mempunyai jumlah record yang berbeda. Atribut class terletak pada posisi paling kanan dari suatu record. Berikut adalah nama data beserta pertimbangan yang digunakan dalam pemilihan data: a. Breastcancer Mempunyai 9 atribut non-class yang bertipe continuous dan 1 atribut class bertipe diskret serta terdapat missing value pada atribut non-class. Nilai atribut non-class berkisar antara 1-10 dan akan digunakan untuk mengetahui perilaku Naive Bayesian Classifier terhadap atribut yang mempunyai nilai numerik dengan range tertentu. b. Iris Mempunyai 4 atribut non-class bertipe continuous dan 1 atribut class bertipe diskret. 31

32 c. Glass Mempunyai 9 atribut non-class bertipe continuous dan 1 atribut class bertipe diskret. Pada dataset terdapat 6 nilai class yang akan dikonversi menjadi 2 nilai class untuk mengetahui pengaruh jumlah class terhadap akurasi d. Zoo Mempunyai 15 atribut non-class bertipe diskret, 1 atribut nonclass bertipe continuous dan 1 atribut class bertipe diskret. Pada dataset terdapat 7 nilai class yang bisa dikonversi menjadi 2 nilai class untuk mengetahui pengaruh jumlah class terhadap akurasi. e. Lenses Mempunyai 4 atribut non-class dan 1 atribut class bertipe diskret. Tabel 4.1 Spesifikasi Data Pengujian Nama data training Jumlah record training Nama data testing Jumlah record testing Breastcancertest1 100 Breastcancertest2 100 Breastcancertes3 99 Keterangan semua atribut non-class bertipe continuous, tanpa penambahan missing value Breastcancer 400 Breastcancer_nom 400 Breastcancer5test1 100 Breastcancer5test2 100 Breastacncer5test3 99 Breastcancer10test1 100 Breastcancer10test2 100 Breastcancer10test3 99 Breastcancer_nom1 100 Breastcancer_nom2 100 Breastcancer_nom3 99 semua atribut non-class bertipe continuous, dengan penambahan missing value 5% pada atribut non-class semua atribut non-class bertipe continuous, dengan penambahan missing value 10% pada atribut non-class semua atribut non-class bertipe diskret tanpa penambahan missing value

33 Iris 100 Glass6class 150 Breastcancer5_nom1 100 Breastcancer5_nom2 100 Breastcancer5_nom3 99 Breastcancer10_nom1 100 Breastcancer10_nom2 100 Breastcancer10_nom3 99 Iristest1 25 Iristest2 25 Iris5test1 25 Iris5test2 25 Iris10test1 25 Iris10test2 25 Glass6classtest1 50 Glass6classtest2 14 Glass6class5test1 50 Glass6class5test2 14 Glass6class10test1 50 Glass6class10test2 14 Glass2classtest1 50 Glass2classtest2 14 semua atribut non-class bertipe diskret dengan penambahan missing value 5% pada atribut non-class semua atribut non-class bertipe diskret dengan penambahan missing value 10% pada atribut non-class semua atribut non class bertipe continuous tanpa penambahan missing value semua atribut non class bertipe continuous dengan penambahan missing value 5% pada atribut non-class semua atribut non class bertipe continuous dengan penambahan missing value 10% pada atribut non-class data glass dengan 6 nilai class tanpa penambahan missing value data glass dengan 6 nilai class dengan penambahan missing value 5% pada atribut non-class data glass dengan 6 nilai class dengan penambahan missing value 10% pada atribut non-class data glass dengan 2 nilai class tanpa penambahan missing value Glass2class 150 Lenses 19 Glass2class5test1 50 data glass dengan 2 nilai Glass2class5test2 14 class dengan penambahan missing value 5% pada atribut non-class Glass2class10test1 50 data glass dengan 2 nilai class dengan penambahan Glass2class10test2 14 missing value 10% pada atribut non-class Lensestest 5 semua atribut bertipe diskert tanpa penambahan missing value

34 Zoo2classtest1 10 Zoo2class 80 Zoo2classtest2 11 Zoo7classtest1 10 Zoo7class 80 Zoo7classtest2 11 Lenses5test 5 semua atribut bertipe diskert dengan penambahan missing value 5% pada atribut non-class Lenses10test 5 semua atribut bertipe diskert dengan penambahan missing value 10% pada atribut non-class data zoo dengan 2 nilai class tanpa penambahan missing value data zoo dengan 7 nilai class tanpa penambahan missing value 4.3 Skenario Pengujian Pengujian akurasi klasifikasi dilakukan terhadap 1 data training dan beberapa data testing untuk masing-masing dataset. Pengujian terhadap data training dilakukan untuk mengetahui apakah tool klasifikasi yang telah dibangun menggunakan metode Naive Bayesian Classifier cukup akurat dengan cara menghitung jumlah record pada data training yang diklasifikasikan benar dibagi dengan jumlah keseluruhan record dari data training tersebut. Jika tool yang dibangun cukup akurat maka dilakukan pengujian terhadap data testing untuk mengetahui pengaruh penggunaan beberapa parameter yaitu pengaruh missing value pada atribut non-class data testing suatu dataset, pengaruh pemilihan pemrosesan atribut continuous apakah dihitung menggunakan Gaussian Density Function atau melalui pendiskretisasian menggunakan Entropy-Minimum Description Length, serta pengaruh jumlah class terhadap akurasi pengklasifikasian data. Selain ketiga parameter tersebut, dilakukan juga pengujian untuk mengetahui perilaku Naive Bayesian Classifier untuk atribut numerik dengan range tertentu. 4.4 Pengujian Kebenaran Model yang Dibangun Pengujian dilakukan pada data training tiap dataset yang digunakan pada klasifikasi ini yaitu pada dataset breastcancer bertipe continuous, breastcancer bertipe diskret, iris, glass dengan jumlah class sebanyak 6 yang bisa

35 disederhanakan menjadi 2 class, zoo dengan jumlah class sebanyak 7 yang bisa disederhanakan mejadi 2 class, serta pada dataset lenses. Berikut hasil pengujian terhadap dataset tersebut: Tabel 4.2 Akurasi Model yang Dibangun Nama data Jumlah record training Akurasi ( % ) Gauss E-MDL Breastcancer 400 96,25 97,50 Breastcancer_nom 400 97,50 Iris 100 95,00 97,00 Glass6class 150-97,33 Glass2class 150 91,33 100,00 Zoo2class 80 100,00 100,00 Z007class 80-100,00 Lenses 19 100,00 Proses learning sangat berpengaruh terhadap kebenaran klasifikasi yang dihasilkan. Berdasarkan tabel di atas, tidak semua data mampu menghasilkan klasifikasi dengan tingkat akurasi 100%, hal ini disebabkan karena tidak semua data yang ada di sekitar kita mempunyai independencies antar atribut. Selain itu, persebaran data juga mempengaruhi tingkat akurasi yang dihasilkan. Semakin bagus persebaran data training akan menghasilkan tingkat akurasi klasifikasi yang semakin tinggi pula. 4.5 Pengaruh Penggunaan Parameter Pengujian dilakukan pada data testing untuk mengetahui pengaruh parameter yang digunakan terhadap akurasi pengklasifikasian data. Berikut adalah parameter yang digunakan : 4.5.1 Pemilihan Penghitungan Atribut Continuous Pengujian terhadap penghitungan atribut continuous dengan Gaussian Density Function dan diskretisasi menggunakan Entropy Minimum Description Length (E-MDL) pada dataset yang mempunyai atribut continuous.

36 Table 4.3 Perbandingan Pemilihan Penghitungan Atribut Continuous terhadap Akurasi Jumlah record Akurasi ( % ) Waktu ( hh:mm:ss.ms ) Nama data testing testing Gauss E-MDL Gauss E-MDL breastcancertest1 100 95,00 96,00 00:00:00.172 00:00:02.109 breastcancertest2 100 95,00 97,00 00:00:00.172 00:00:02.109 breastcancertest3 99 96,97 97,98 00:00:00.172 00:00:02.109 iristest1 25 100,00 100,00 00:00:00.078 00:00:01.109 iristest2 25 96,00 96,00 00:00:00.078 00:00:01.109 glass6classtest1 50-48,00-00:01:52.750 glass6classtest2 14-78,57-00:01:52.672 glass2classtest1 50 90,00 84,00 00:00:00.094 00:00:23.859 glass2classtest2 14 100,00 100,00 00:00:00.094 00:00:23.531 Zoo2classtest1 10 100,00 100,00 00:00:00.265 00:00:00.328 Zoo2classtest2 11 100,00 100,00 00:00:00.281 00:00:00.344 Zoo7classtest1 10-80,00-00:00:00.437 Zoo7classtest2 11-72,73-00:00:00.437 Akurasi ( % ) 100 80 60 40 20 0 Pengaruh Pemilihan Penghitungan Atribut Continuous terhadap Akurasi breastcancertest1 breastcancertest2 breastcancertest3 iristest1 iristest2 glass6classtest1 glass6classtest2 glass2classtest1 glass2classtest2 zoo2classtest1 zoo2classtest2 zoo7classtest1 zoo7classtest2 Gauss E-MDL Gambar 4.1 Grafik Perbandingan Pemilihan Penghitungan Atribut Continuous terhadap Akurasi Pada gambar 4.1 terlihat bahwa pada data glass6classtest1 dan glass6classtest2 penghitungan akurasi menggunakan Gaussian Density Function tidak dapat dilakukan. Pada data testing breastcancertest1, breastcancertest2, dan breastcancertest3 penghitungan menggunakan Entropy Minimum Description

37 Length memberikan akurasi lebih tinggi daripada penghitungan menggunakan Gaussian Density Function, namun hal ini berlaku sebaliknya untuk data testing glass2classetest1. Dari semua data testing yang digunakan, dapat disimpulkan bahwa penghitungan atribut continuous menggunakan E-MDL cenderung mempunyai akurasi lebih bagus daripada menggunakan Gaussian Density Function karena tidak semua data continuous terdistribusi secara normal sebagaimana asumsi Gaussian Density Function, namun masing- masing teknik tersebut mempunyai kelebihan dan kekurangan masing-masing. a. Kelebihan dan kekurangan Gaussian Density Function: 1. Waktu yang dibutuhkan untuk klasifikasi lebih cepat 2. Data hanya bisa diklasifikasikan jika minimal terdapat 2 record tanpa missing value pada atribut continuous untuk tiap nilai class pada data training 3. Jika semua record pada tiap class untuk atribut continuous mempunyai nilai sama maka data tidak bisa diklasifikasikan karena akan menghasilkan standard deviation nol yang akan mengakibatkan pembagian dengan nol pada saat penghitungan probabilitas. b. Kelebihan dan kekurangan E-MDL: 1. Jumlah data training yang dibutuhkan cenderung lebih sedikit daripada menggunakan Gaussian Density Function karena pada E-MDL data bisa diklasifikasikan jika pada semua atribut continuous-nya minimal terdapat 1 nilai atribut tanpa missing value. 2. Jika semua nilai record pada suatu atribut continuous bernilai sama data masih bisa diklasifikasikan 3. Waktu yang dibutuhkan Entropy Minimum Description Length untuk melakukan klasifikasi lebih lama daripada Gaussian

38 Density Function karena harus melakukan rekursif diskretisasi untuk menentukan titik interval diskretisasi. 4. Data hanya bisa diklasifikasikan jika jumlah nilai dari tiap atribut continuous dari data training > 2 karena terdapat operasi log2(jumlah nilai-1) dalam pendiskretisasian data. 4.5.2 Jumlah Class Pengujian dilakukan terhadap dataset glass karena data ini mempunyai 6 nilai class yang bisa disederhanakan menjadi 2 class dan dataset zoo karena mempunyai 7 nilai class yang bisa disederhanakan menjadi 2 class, sedangkan penghitungan atribut continuous menggunakan Entropy Minimum Description Length karena pada datatest glass6class dab datatest zoo7class penghitungan menggunakan Gaussian Density Function tidak dapat dilakukan. Pengaruh Jumlah Class terhadap Akurasi 100 Akurasi ( % ) 80 60 40 20 6 class 7 class 2 class 0 datatest1 glass datatest2 glass datatest1 zoo datatest2 zoo Gambar 4.2 Grafik Pengaruh Jumlah Class Terhadap Akurasi Dari grafik perubahan class pada dataset glass dan zoo di atas terlihat bahwa semakin banyak nilai class dalam suatu dataset akan mengakibatkan penurunan akurasi. Hal ini disebabkan pada jumlah nilai class yang lebih banyak dalam suatu dataset, probabilitas data tiap class yang dihasilkan lebih kecil daripada probabilitas pada jumlah nilai class yang lebih sedikit

39 4.5.3 Nilai Numerik pada Atribut dengan Range Tertentu Pengujian dilakukan terhadap dataset yang mempunyai nilai numerik pada atribut dengan range tertentu, dalam hal ini dataset yang digunakan adalah breastcancer karena semua atribut non-class nya mempunyai nilai antara 1 10, penghitungan menggunakan Entropy Minimum Description Length. Perilaku Naive Bayesian Classifier pada Atribut Numerik dengan Range Tertentu 100 Akurasi ( % ) 98 96 94 92 Breastcancer continuous Breastcancer diskret 90 Data Test1 Data Test2 Data Test3 Gambar 4.3 Grafik Perilaku Naive Bayesian Classifier pada Nilai Numerik pada Atribut dengan Range Tertentu Dari grafik tersebut, terlihat bahwa pada data test1 nilai numerik dengan range tertentu yang diperlakukan sebagai atribut diskret memberikan akurasi lebih tinggi 1% daripada nilai numerik dengan range tertentu yang diperlakukan sebagai atribut continuous, namun pada data test2 dan data test3 keduanya memberikan hasil akurasi yang sama. Sehingga dapat disimpulkan bahwa nilai numerik dengan range tertentu pada atribut bisa diperlakukan sebagai atribut diskret maupun continuous karena setelah melalui pengujian ternyata keduanya memberikan akurasi yang hampir sama. 4.5.4 Missing Value Pengujian dilakukan terhadap dataset yang telah ditambahkan missing value sebanyak 5% dan 10% terhadap atribut non-class pada data testing. Missing value ditangani dengan cara mengabaikan nilai missing value dari suatu atribut dalam perhitungan.

40 Tabel 4.4 Perbandingan Akurasi Data Testing dengan Penambahan Missing Value Nama Data Testing Akurasi Tanpa penambahan missing value Penambahan missing value 5% Penambahan Missing value 10% E- Gauss E-MDL Gauss E-MDL Gauss MDL breastcancertest1 95,00 96,00 96,00 97,00 96,00 97,00 breastcancertest2 95,00 97,00 97,00 97,00 97,00 97,00 breastcancertest3 96,97 97,98 95,96 96,97 95,96 96,97 iristest1 100,00 100,00 100,00 100,00 100,00 100,00 iristest2 96,00 96,00 96,00 96,00 92,00 92,00 glass6classtest1-48,00-48,00-48,00 glass6classtest2-78,57-78,57-85,71 glass2classtest1 90,00 84,00 90,00 84,00 90,00 82,00 glass2classtest2 100,00 100,00 100,00 100,00 100,00 100,00 lensestest 100,00 100,00 100,00 breastcancer_nom1 97,00 96,00 97,00 breastcancer_nom2 97,00 98,00 98,00 breastcancer_nom3 97,98 97,98 97,98 Pengaruh Missing Value terhadap Akurasi ( Gauss ) 100 Akurasi ( % ) 80 60 40 20 0 breastcancertest1 breastcancertest2 breastcancertest3 iristest1 iristest2 glass2classtest1 glass2classtest2 Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Nonclass Penambahan Missing Value 10% pada Atribut Non-class Gambar 4.4 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Continuous Menggunakan Gaussian Density Function

41 Pengaruh Missing Value terhadap Akurasi ( E-MDL ) Akurasi ( % ) 100 80 60 40 20 0 breastcancertest1 breastcancertest2 breastcancertest3 iristest1 iristest2 glass6classtest1 glass6classtest2 glass2classtest1 glass2classtest2 Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Non-class Penambahan Missing Value 10% pada Atribut Non-class Gambar 4.5 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Continuous Menggunakan Entropy Minimum Description Length Pengaruh Missing Value terhadap Akurasi ( Diskret ) Akurasi ( % ) 100 80 60 40 20 0 lensestest breastcancer_nom1 breastcancer_nom2 breastcancer_nom3 Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Non-class Penambahan Missing Value 10% pada Atribut Non-class Gambar 4.6 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Diskret Pada ketiga grafik di atas terlihat bahwa pada data testing breastcancertest2, iristest1, glass6classtest1, glass2classtest2 yang dihitung menggunakan Entropy Minimum Description Length, dan iristest1, glass2classetest1, glass2classtest2 yang dihitung menggunakan Gaussian Density Function serta pada data testing breastcancer_nom3 dan lenses, penambahan missing value terhadap atribut non-class pada data testing suatu dataset tidak mempengaruhi akurasi. Sedangkan pada data testing yang lain perubahan akurasinya hanya sedikit, sehingga dapat disimpulkan bahwa penambahan missing value terhadap atribut non-class pada suatu data testing suatu dataset tidak begitu

Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 42 mempengaruhi akurasi karena metode Naive Bayesian Classifier tidak mempedulikan berapa besar nilai probabilitas suatu class selama record tersebut diklasifikasikan ke dalam class yang benar. Namun semuanya tetap tergantung pada persebaran data.