KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

APLIKASI PEMELIHARAAN DATA DONATUR DI RUMAH ZAKAT MAINTENANCE DONATURE APPLICATION AT RUMAH ZAKAT

BAB III METODOLOGI PENELITIAN. Dataset

BAB 3 METODE PENELITIAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

BAB I PENDAHULUAN 1.1 Latar Belakang

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

BAB III METODE PENELITIAN

CONTOH KASUS DATA MINING

PENERAPAN NAÏVE BAYES UNTUK PREDIKSI KELAYAKAN KREDIT

MENENTUKAN KEPADATAN LALU LINTAS DENGAN PENGHITUNGAN JUMLAH KENDARAAN BERBASIS VIDEO PROCESSING

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB I PENDAHULUAN I - 1

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB I PENDAHULUAN 1.1 Latar Belakang

IDENTIFIKASI NOMOR POLISI KENDARAAN BERMOTOR MENGGUNAKAN JARINGAN SYARAF TIRUAN SELF ORGANIZING MAPS (SOMS)

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

Angelina Prima Kurniati¹, -². ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB I PENDAHULUAN I.1 Latar Belakang

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

PEMBANGUNAN APLIKASI KLASIFIKASI MAHASISWA BARU UNIVERSITAS ATMA JAYA YOGYAKARTA DENGAN METODE NAΪVE BAYES CLASSIFIER

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

BAB III METODOLOGI PENELITIAN

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

BAB III METODE PENELITIAN

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

PERBANDINGAN ANALISIS PENGENALAN HURUF ARAB MENGGUNAKAN METODE JARINGAN SYARAF TIRUAN BACKPROPAGATION DAN K-NEAREST NEIGHBOR

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI SISTEM KEUANGAN PT. WAHANA KREASI SEJATI

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

Ina Ariani Firstaria¹, -². ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

BAB I PENDAHULUAN 1.1 Latar belakang

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Penerapan metode..., Novi Indriyani, FASILKOM UI, Universitas Indonesia

APLIKASI MANAJEMEN PRAKTIKUM LABORATORIUM INFORMATIKA IT- TELKOM

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN

1. Pendahuluan 1.1 Latar Belakang

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang

SISTEM PENGENALAN PENGUCAPAN HURUF VOKAL DENGAN METODA PENGUKURAN SUDUT BIBIR PADA CITRA 2 DIMENSI ABSTRAK

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

PERBANDINGAN DECISION TREE

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

OPTIMASI NAÏVE BAYES CLASSIFIER DENGAN MENGGUNAKAN PARTICLE SWARM OPTIMIZATION PADA DATA IRIS

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI CALON PENDONOR DARAH MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

EDU SOFT. Statement Of Work

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

Kata kunci : citra, pendeteksian warna kulit, YCbCr, look up table

BAB III METODOLOGI PENELITIAN

ABSTRAK. Universitas Kristen Maranatha

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

BAB I PENDAHULUAN. 1.1 Latar Belakang

Raden Abi Hanindito¹, -². ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 Pendahuluan 1.1 Latar Belakang Masalah

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

BAB I PENDAHULUAN. dari pemikiran-pemikiran manusia yang semakin maju, hal tersebut dapat. mendukung bagi pengembangan penyebaran informasi.

BAB I PENDAHULUAN. Peminatan atau bidang peminatan adalah sebuah jurusan yang harus di

Bab I Pendahuluan I 1 BAB I PENDAHULUAN

DESAIN DAN IMPLEMENTASI APLIKASI PROBABILITAS DAN STATISTIKA PADA PERANGKAT ANDROID

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

BAB III METODOLOGI PENELITIAN

PENGELOMPOKAN DAN ANALISIS PELANGGAN DENGAN MENGGUNAKAN FUZZY C-MEANS CLUSTERING

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

Transkripsi:

Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER Agustina Ratna Puspitasari¹, -² ¹Teknik Informatika,, Universitas Telkom Abstrak Klasifikasi dapat diterapkan untuk mengatasi data explosion problem. Dengan adanya klasifikasi maka data-data yang sebelumnya kurang dimanfaatkan bisa digunakan untuk menemukan informasi berharga yang sebelumnya tidak diketahui. Pada Tugas Akhir ini dilakukan pembangunan perangkat lunak untuk klasifikasi menggunakan metode Naive Bayesian Classifier yang merupakan pendekatan dengan ilmu statistik yaitu pengklasifikasian data berdasarkan pemilihan probabilitas tertinggi. Atribut yang digunakan bisa berupa atribut continuous maupun atribut diskret. Selain itu pada Tugas Akhir ini juga dilakukan penanganan probabilitas nol dan missing value pada atribut non-class. Setelah dilakukan analisis dan pengujian ternyata metode yang sederhana ini mampu mengklasifikasikan data cukup akurat. Tugas Akhir ini dibangun menggunakan Borland Delphi 7 dan Oracle 8i versi 8.1.7 Kata Kunci : klasifikasi, naive bayesian classifier, probabilitas Abstract Classification overcomes data explosion problems. With classification, the data that previously less be exploited can be used to find valuable information that unknown before. In this final project, the software for classification was built using Naive Bayesian Classifier method that uses statistics approach with highest probability for data classification. It uses continuous and discret attribute and also handling null probability and missing value in non-class attribute. After analysis and testing done, we can result that this simple method can classify data accurately enough. This final project was built using Borland Delphi 7 and Oracle 8i version 8.1.7 Keywords : classification, naive bayesian classifier, probability

BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini sering terjadi data explosion problem yaitu data data yang tersimpan dalam database berjumlah sangat besar namun dari data data tersebut belum banyak dimanfaatkan terutama dalam hal pencarian informasi berharga (knowledge). Untuk mengatasi hal tersebut salah satunya adalah dengan menggunakan data mining karena data mining dapat membantu membuat hipotesis baru ataupun membantu analis untuk menemukan informasi berharga dari data tersebut. Salah satu fungsionalitas data mining adalah klasifikasi. Klasifikasi adalah proses mencari identitas umum diantara entitas-entitas yang berbeda dan mengklasifikasikannya ke dalam class yang sesuai. Klasifikasi pada data yang berjumlah besar dan kompleks jika dilakukan secara manual akan sulit dan membutuhkan waktu yang lama. Hal ini dapat diatasi dengan pembangunan suatu tools klasifikasi karena dengan adanya tools klasifikasi data yang berjumlah besar dan kompleks tersebut akan lebih mudah dan cepat dikelompokkan sesuai dengan class-nya masing-masing. Klasifikasi dapat dilakukan pada banyak bidang, diantaranya bidang ekonomi, kesehatan, dan pendidikan. Pada Tugas Akhir ini metode yang digunakan dalam pembangunan klasifikasi adalah Naive Bayesian Classifier karena metode ini merupakan metode klasifikasi yang sederhana yaitu berdasarkan pada probabilitas namun mampu mengklasifikasikan data cukup akurat. 1.2 Perumusan Masalah Permasalahan yang dijadikan obyek penelitian dan pengembangan Tugas Akhir ini adalah bagaimana mengimplementasikan dan menganalisis metode 1

2 Naive Bayesian Classifier untuk klasifikasi pada data mining dengan beberapa macam tipe atribut, missing value terhadap akurasi pengklasifikasian data. 1.3 Tujuan Berdasarkan pada masalah yang telah didefinisikan di atas, maka tujuan Tugas Akhir ini adalah: 1. Mengimplementasikan metode Naive Bayesian Classifier untuk mengklasifikasikan data 2. Menangani missing value pada atribut. 3. Menangani probabilitas nol yang mungkin terjadi pada data training. 4. Menangani penghitungan atribut continuous dengan menggunakan Gaussian Density Function dan pendiskretisasian dengan menggunakan Entropy Minimum Description Length (E-MDL) 5. Menghitung keakuratan pengklasifikasian data yang didahului dengan uji kebenaran terhadap model yang dibangun 6. Menganalisis perilaku Naive Bayesian Classifier terhadap akurasi pengklasifikasian data. 1.4 Batasan Masalah Dalam Tugas Akhir ini, batasan masalah yang digunakan untuk pembangunan klasifikasi menggunakan Naive Bayesian Classifier sebagai berikut : 1. Data yang akan dijadikan kajian berupa record dan terbagi menjadi 2 kelompok, yaitu data training dan data testing. 2. Data sudah tersimpan dalam database, user memilih data yang ingin diklasifikasikan. 3. Nilai dari suatu atribut independence terhadap nilai atribut lainnya. 4. Tidak membandingkan metode naive bayesian classifier dengan metode klasifikasi lain. 5. Tidak membahas mengenai statistika.

3 6. Tidak melakukan penanganan noise. 1.5 Metodologi Langkah langkah yang digunakan dalam merealisasikan tujuan dan pemecahan masalah di atas adalah : 1. Studi Literatur Mempelajari konsep-konsep klasifikasi data mining dan Naive Bayesian Classifier secara global yang diperoleh dari buku dan jurnal. 2. Pendalaman materi Mendalami materi yang akan digunakan yaitu konsep klasifikasi dan metode Naive Bayesian Classifier 3. Perancangan dan implementasi Merancang dan membangun perangkat lunak sebagai alat bantu dalam proses analisis. 4. Analisis dan Evaluasi Melakukan uji kebenaran pengklasifikasian data dengan menghitung akurasi. 1.6 Sistematika Penulisan Tugas Akhir ini disusun berdasarkan sistematika sebagai berikut : BAB I Pendahuluan Bab ini meliputi latar belakang, perumusan masalah, tujuan, batasan masalah, metodologi dan sistematika penulisan. BAB II Dasar Teori Bab ini memuat berbagai dasar teori yang mendukung dan mendasari penulisan Tugas Akhir ini yaitu mengenai konsep data mining, klasifikasi, dan Naive Bayesian Classifier BAB III Analisis dan Perancangan Sistem

4 BAB IV BAB V Dalam bab ini diuraikan tentang analisis, perancangan pembangunan perangkat lunak sebagai alat bantu dalam proses analisis. Implementasi dan Pengujian Bab ini memuat tentang analisis terhadap keakuratan pegklasifikasian data menggunakan metode Naive Bayesian Classifier dengan menggunakan beberapa macam tipe atribut. Kesimpulan dan Saran Bab ini berisi kesimpulan yang diambil dari pembahasan bab-bab sebelumnya serta saran-saran untuk pengembangan selanjutnya.

Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 5

BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Metode Uji Coba Sistem Pada bab ini dilakukan pengujian terhadap dataset untuk mengetahui tingkat akurasi ( kebenaran ) pengklasifikasian data menggunakan Naive Bayesian Classifier. Pengujian dilakukan untuk mengetahui pengaruh penggunaan parameter yaitu missing value, jumlah class serta pemilihan penghitungan atribut continuous terhadap akurasi pengklasifikasian data. Selain itu juga dilakukan analisis perilaku Naive Bayesian Classifier terhadap atribut yang mempunyai nilai numerik dengan range tertentu apakah diperlakukan sebagai atribut diskret atau continuous dan pengaruhnya terhadap akurasi pengklasifikasian data. 4.2 Data Uji yang Digunakan Data yang digunakan untuk melakukan klasifikasi terbagi menjadi 2 yaitu data training dan data testing. Data data tersebut mempunyai jumlah record yang berbeda. Atribut class terletak pada posisi paling kanan dari suatu record. Berikut adalah nama data beserta pertimbangan yang digunakan dalam pemilihan data: a. Breastcancer Mempunyai 9 atribut non-class yang bertipe continuous dan 1 atribut class bertipe diskret serta terdapat missing value pada atribut non-class. Nilai atribut non-class berkisar antara 1-10 dan akan digunakan untuk mengetahui perilaku Naive Bayesian Classifier terhadap atribut yang mempunyai nilai numerik dengan range tertentu. b. Iris Mempunyai 4 atribut non-class bertipe continuous dan 1 atribut class bertipe diskret. 31

32 c. Glass Mempunyai 9 atribut non-class bertipe continuous dan 1 atribut class bertipe diskret. Pada dataset terdapat 6 nilai class yang akan dikonversi menjadi 2 nilai class untuk mengetahui pengaruh jumlah class terhadap akurasi d. Zoo Mempunyai 15 atribut non-class bertipe diskret, 1 atribut nonclass bertipe continuous dan 1 atribut class bertipe diskret. Pada dataset terdapat 7 nilai class yang bisa dikonversi menjadi 2 nilai class untuk mengetahui pengaruh jumlah class terhadap akurasi. e. Lenses Mempunyai 4 atribut non-class dan 1 atribut class bertipe diskret. Tabel 4.1 Spesifikasi Data Pengujian Nama data training Jumlah record training Nama data testing Jumlah record testing Breastcancertest1 100 Breastcancertest2 100 Breastcancertes3 99 Keterangan semua atribut non-class bertipe continuous, tanpa penambahan missing value Breastcancer 400 Breastcancer_nom 400 Breastcancer5test1 100 Breastcancer5test2 100 Breastacncer5test3 99 Breastcancer10test1 100 Breastcancer10test2 100 Breastcancer10test3 99 Breastcancer_nom1 100 Breastcancer_nom2 100 Breastcancer_nom3 99 semua atribut non-class bertipe continuous, dengan penambahan missing value 5% pada atribut non-class semua atribut non-class bertipe continuous, dengan penambahan missing value 10% pada atribut non-class semua atribut non-class bertipe diskret tanpa penambahan missing value

33 Iris 100 Glass6class 150 Breastcancer5_nom1 100 Breastcancer5_nom2 100 Breastcancer5_nom3 99 Breastcancer10_nom1 100 Breastcancer10_nom2 100 Breastcancer10_nom3 99 Iristest1 25 Iristest2 25 Iris5test1 25 Iris5test2 25 Iris10test1 25 Iris10test2 25 Glass6classtest1 50 Glass6classtest2 14 Glass6class5test1 50 Glass6class5test2 14 Glass6class10test1 50 Glass6class10test2 14 Glass2classtest1 50 Glass2classtest2 14 semua atribut non-class bertipe diskret dengan penambahan missing value 5% pada atribut non-class semua atribut non-class bertipe diskret dengan penambahan missing value 10% pada atribut non-class semua atribut non class bertipe continuous tanpa penambahan missing value semua atribut non class bertipe continuous dengan penambahan missing value 5% pada atribut non-class semua atribut non class bertipe continuous dengan penambahan missing value 10% pada atribut non-class data glass dengan 6 nilai class tanpa penambahan missing value data glass dengan 6 nilai class dengan penambahan missing value 5% pada atribut non-class data glass dengan 6 nilai class dengan penambahan missing value 10% pada atribut non-class data glass dengan 2 nilai class tanpa penambahan missing value Glass2class 150 Lenses 19 Glass2class5test1 50 data glass dengan 2 nilai Glass2class5test2 14 class dengan penambahan missing value 5% pada atribut non-class Glass2class10test1 50 data glass dengan 2 nilai class dengan penambahan Glass2class10test2 14 missing value 10% pada atribut non-class Lensestest 5 semua atribut bertipe diskert tanpa penambahan missing value

34 Zoo2classtest1 10 Zoo2class 80 Zoo2classtest2 11 Zoo7classtest1 10 Zoo7class 80 Zoo7classtest2 11 Lenses5test 5 semua atribut bertipe diskert dengan penambahan missing value 5% pada atribut non-class Lenses10test 5 semua atribut bertipe diskert dengan penambahan missing value 10% pada atribut non-class data zoo dengan 2 nilai class tanpa penambahan missing value data zoo dengan 7 nilai class tanpa penambahan missing value 4.3 Skenario Pengujian Pengujian akurasi klasifikasi dilakukan terhadap 1 data training dan beberapa data testing untuk masing-masing dataset. Pengujian terhadap data training dilakukan untuk mengetahui apakah tool klasifikasi yang telah dibangun menggunakan metode Naive Bayesian Classifier cukup akurat dengan cara menghitung jumlah record pada data training yang diklasifikasikan benar dibagi dengan jumlah keseluruhan record dari data training tersebut. Jika tool yang dibangun cukup akurat maka dilakukan pengujian terhadap data testing untuk mengetahui pengaruh penggunaan beberapa parameter yaitu pengaruh missing value pada atribut non-class data testing suatu dataset, pengaruh pemilihan pemrosesan atribut continuous apakah dihitung menggunakan Gaussian Density Function atau melalui pendiskretisasian menggunakan Entropy-Minimum Description Length, serta pengaruh jumlah class terhadap akurasi pengklasifikasian data. Selain ketiga parameter tersebut, dilakukan juga pengujian untuk mengetahui perilaku Naive Bayesian Classifier untuk atribut numerik dengan range tertentu. 4.4 Pengujian Kebenaran Model yang Dibangun Pengujian dilakukan pada data training tiap dataset yang digunakan pada klasifikasi ini yaitu pada dataset breastcancer bertipe continuous, breastcancer bertipe diskret, iris, glass dengan jumlah class sebanyak 6 yang bisa

35 disederhanakan menjadi 2 class, zoo dengan jumlah class sebanyak 7 yang bisa disederhanakan mejadi 2 class, serta pada dataset lenses. Berikut hasil pengujian terhadap dataset tersebut: Tabel 4.2 Akurasi Model yang Dibangun Nama data Jumlah record training Akurasi ( % ) Gauss E-MDL Breastcancer 400 96,25 97,50 Breastcancer_nom 400 97,50 Iris 100 95,00 97,00 Glass6class 150-97,33 Glass2class 150 91,33 100,00 Zoo2class 80 100,00 100,00 Z007class 80-100,00 Lenses 19 100,00 Proses learning sangat berpengaruh terhadap kebenaran klasifikasi yang dihasilkan. Berdasarkan tabel di atas, tidak semua data mampu menghasilkan klasifikasi dengan tingkat akurasi 100%, hal ini disebabkan karena tidak semua data yang ada di sekitar kita mempunyai independencies antar atribut. Selain itu, persebaran data juga mempengaruhi tingkat akurasi yang dihasilkan. Semakin bagus persebaran data training akan menghasilkan tingkat akurasi klasifikasi yang semakin tinggi pula. 4.5 Pengaruh Penggunaan Parameter Pengujian dilakukan pada data testing untuk mengetahui pengaruh parameter yang digunakan terhadap akurasi pengklasifikasian data. Berikut adalah parameter yang digunakan : 4.5.1 Pemilihan Penghitungan Atribut Continuous Pengujian terhadap penghitungan atribut continuous dengan Gaussian Density Function dan diskretisasi menggunakan Entropy Minimum Description Length (E-MDL) pada dataset yang mempunyai atribut continuous.

36 Table 4.3 Perbandingan Pemilihan Penghitungan Atribut Continuous terhadap Akurasi Jumlah record Akurasi ( % ) Waktu ( hh:mm:ss.ms ) Nama data testing testing Gauss E-MDL Gauss E-MDL breastcancertest1 100 95,00 96,00 00:00:00.172 00:00:02.109 breastcancertest2 100 95,00 97,00 00:00:00.172 00:00:02.109 breastcancertest3 99 96,97 97,98 00:00:00.172 00:00:02.109 iristest1 25 100,00 100,00 00:00:00.078 00:00:01.109 iristest2 25 96,00 96,00 00:00:00.078 00:00:01.109 glass6classtest1 50-48,00-00:01:52.750 glass6classtest2 14-78,57-00:01:52.672 glass2classtest1 50 90,00 84,00 00:00:00.094 00:00:23.859 glass2classtest2 14 100,00 100,00 00:00:00.094 00:00:23.531 Zoo2classtest1 10 100,00 100,00 00:00:00.265 00:00:00.328 Zoo2classtest2 11 100,00 100,00 00:00:00.281 00:00:00.344 Zoo7classtest1 10-80,00-00:00:00.437 Zoo7classtest2 11-72,73-00:00:00.437 Akurasi ( % ) 100 80 60 40 20 0 Pengaruh Pemilihan Penghitungan Atribut Continuous terhadap Akurasi breastcancertest1 breastcancertest2 breastcancertest3 iristest1 iristest2 glass6classtest1 glass6classtest2 glass2classtest1 glass2classtest2 zoo2classtest1 zoo2classtest2 zoo7classtest1 zoo7classtest2 Gauss E-MDL Gambar 4.1 Grafik Perbandingan Pemilihan Penghitungan Atribut Continuous terhadap Akurasi Pada gambar 4.1 terlihat bahwa pada data glass6classtest1 dan glass6classtest2 penghitungan akurasi menggunakan Gaussian Density Function tidak dapat dilakukan. Pada data testing breastcancertest1, breastcancertest2, dan breastcancertest3 penghitungan menggunakan Entropy Minimum Description

37 Length memberikan akurasi lebih tinggi daripada penghitungan menggunakan Gaussian Density Function, namun hal ini berlaku sebaliknya untuk data testing glass2classetest1. Dari semua data testing yang digunakan, dapat disimpulkan bahwa penghitungan atribut continuous menggunakan E-MDL cenderung mempunyai akurasi lebih bagus daripada menggunakan Gaussian Density Function karena tidak semua data continuous terdistribusi secara normal sebagaimana asumsi Gaussian Density Function, namun masing- masing teknik tersebut mempunyai kelebihan dan kekurangan masing-masing. a. Kelebihan dan kekurangan Gaussian Density Function: 1. Waktu yang dibutuhkan untuk klasifikasi lebih cepat 2. Data hanya bisa diklasifikasikan jika minimal terdapat 2 record tanpa missing value pada atribut continuous untuk tiap nilai class pada data training 3. Jika semua record pada tiap class untuk atribut continuous mempunyai nilai sama maka data tidak bisa diklasifikasikan karena akan menghasilkan standard deviation nol yang akan mengakibatkan pembagian dengan nol pada saat penghitungan probabilitas. b. Kelebihan dan kekurangan E-MDL: 1. Jumlah data training yang dibutuhkan cenderung lebih sedikit daripada menggunakan Gaussian Density Function karena pada E-MDL data bisa diklasifikasikan jika pada semua atribut continuous-nya minimal terdapat 1 nilai atribut tanpa missing value. 2. Jika semua nilai record pada suatu atribut continuous bernilai sama data masih bisa diklasifikasikan 3. Waktu yang dibutuhkan Entropy Minimum Description Length untuk melakukan klasifikasi lebih lama daripada Gaussian

38 Density Function karena harus melakukan rekursif diskretisasi untuk menentukan titik interval diskretisasi. 4. Data hanya bisa diklasifikasikan jika jumlah nilai dari tiap atribut continuous dari data training > 2 karena terdapat operasi log2(jumlah nilai-1) dalam pendiskretisasian data. 4.5.2 Jumlah Class Pengujian dilakukan terhadap dataset glass karena data ini mempunyai 6 nilai class yang bisa disederhanakan menjadi 2 class dan dataset zoo karena mempunyai 7 nilai class yang bisa disederhanakan menjadi 2 class, sedangkan penghitungan atribut continuous menggunakan Entropy Minimum Description Length karena pada datatest glass6class dab datatest zoo7class penghitungan menggunakan Gaussian Density Function tidak dapat dilakukan. Pengaruh Jumlah Class terhadap Akurasi 100 Akurasi ( % ) 80 60 40 20 6 class 7 class 2 class 0 datatest1 glass datatest2 glass datatest1 zoo datatest2 zoo Gambar 4.2 Grafik Pengaruh Jumlah Class Terhadap Akurasi Dari grafik perubahan class pada dataset glass dan zoo di atas terlihat bahwa semakin banyak nilai class dalam suatu dataset akan mengakibatkan penurunan akurasi. Hal ini disebabkan pada jumlah nilai class yang lebih banyak dalam suatu dataset, probabilitas data tiap class yang dihasilkan lebih kecil daripada probabilitas pada jumlah nilai class yang lebih sedikit

39 4.5.3 Nilai Numerik pada Atribut dengan Range Tertentu Pengujian dilakukan terhadap dataset yang mempunyai nilai numerik pada atribut dengan range tertentu, dalam hal ini dataset yang digunakan adalah breastcancer karena semua atribut non-class nya mempunyai nilai antara 1 10, penghitungan menggunakan Entropy Minimum Description Length. Perilaku Naive Bayesian Classifier pada Atribut Numerik dengan Range Tertentu 100 Akurasi ( % ) 98 96 94 92 Breastcancer continuous Breastcancer diskret 90 Data Test1 Data Test2 Data Test3 Gambar 4.3 Grafik Perilaku Naive Bayesian Classifier pada Nilai Numerik pada Atribut dengan Range Tertentu Dari grafik tersebut, terlihat bahwa pada data test1 nilai numerik dengan range tertentu yang diperlakukan sebagai atribut diskret memberikan akurasi lebih tinggi 1% daripada nilai numerik dengan range tertentu yang diperlakukan sebagai atribut continuous, namun pada data test2 dan data test3 keduanya memberikan hasil akurasi yang sama. Sehingga dapat disimpulkan bahwa nilai numerik dengan range tertentu pada atribut bisa diperlakukan sebagai atribut diskret maupun continuous karena setelah melalui pengujian ternyata keduanya memberikan akurasi yang hampir sama. 4.5.4 Missing Value Pengujian dilakukan terhadap dataset yang telah ditambahkan missing value sebanyak 5% dan 10% terhadap atribut non-class pada data testing. Missing value ditangani dengan cara mengabaikan nilai missing value dari suatu atribut dalam perhitungan.

40 Tabel 4.4 Perbandingan Akurasi Data Testing dengan Penambahan Missing Value Nama Data Testing Akurasi Tanpa penambahan missing value Penambahan missing value 5% Penambahan Missing value 10% E- Gauss E-MDL Gauss E-MDL Gauss MDL breastcancertest1 95,00 96,00 96,00 97,00 96,00 97,00 breastcancertest2 95,00 97,00 97,00 97,00 97,00 97,00 breastcancertest3 96,97 97,98 95,96 96,97 95,96 96,97 iristest1 100,00 100,00 100,00 100,00 100,00 100,00 iristest2 96,00 96,00 96,00 96,00 92,00 92,00 glass6classtest1-48,00-48,00-48,00 glass6classtest2-78,57-78,57-85,71 glass2classtest1 90,00 84,00 90,00 84,00 90,00 82,00 glass2classtest2 100,00 100,00 100,00 100,00 100,00 100,00 lensestest 100,00 100,00 100,00 breastcancer_nom1 97,00 96,00 97,00 breastcancer_nom2 97,00 98,00 98,00 breastcancer_nom3 97,98 97,98 97,98 Pengaruh Missing Value terhadap Akurasi ( Gauss ) 100 Akurasi ( % ) 80 60 40 20 0 breastcancertest1 breastcancertest2 breastcancertest3 iristest1 iristest2 glass2classtest1 glass2classtest2 Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Nonclass Penambahan Missing Value 10% pada Atribut Non-class Gambar 4.4 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Continuous Menggunakan Gaussian Density Function

41 Pengaruh Missing Value terhadap Akurasi ( E-MDL ) Akurasi ( % ) 100 80 60 40 20 0 breastcancertest1 breastcancertest2 breastcancertest3 iristest1 iristest2 glass6classtest1 glass6classtest2 glass2classtest1 glass2classtest2 Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Non-class Penambahan Missing Value 10% pada Atribut Non-class Gambar 4.5 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Continuous Menggunakan Entropy Minimum Description Length Pengaruh Missing Value terhadap Akurasi ( Diskret ) Akurasi ( % ) 100 80 60 40 20 0 lensestest breastcancer_nom1 breastcancer_nom2 breastcancer_nom3 Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Non-class Penambahan Missing Value 10% pada Atribut Non-class Gambar 4.6 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Diskret Pada ketiga grafik di atas terlihat bahwa pada data testing breastcancertest2, iristest1, glass6classtest1, glass2classtest2 yang dihitung menggunakan Entropy Minimum Description Length, dan iristest1, glass2classetest1, glass2classtest2 yang dihitung menggunakan Gaussian Density Function serta pada data testing breastcancer_nom3 dan lenses, penambahan missing value terhadap atribut non-class pada data testing suatu dataset tidak mempengaruhi akurasi. Sedangkan pada data testing yang lain perubahan akurasinya hanya sedikit, sehingga dapat disimpulkan bahwa penambahan missing value terhadap atribut non-class pada suatu data testing suatu dataset tidak begitu

Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 42 mempengaruhi akurasi karena metode Naive Bayesian Classifier tidak mempedulikan berapa besar nilai probabilitas suatu class selama record tersebut diklasifikasikan ke dalam class yang benar. Namun semuanya tetap tergantung pada persebaran data.