BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

BAB I PENDAHULUAN. 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang

PEMBOBOTAN KORELASI PADA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

( ) ( ) (3) II-1 ( ) ( )

BAB I PENDAHULUAN. 1.1 Latar Belakang

ANALISIS PERBANDINGAN TINGKAT AKURASI ALGORITMA NAÏVE BAYES CLASSIFIER DENGAN CORRELATED-NAÏVE BAYES CLASSIFIER

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB II LANDASAN TEORI

1. BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

PERBANDINGAN K-SUPPORT VECTOR NEAREST NEIGHBOR TERHADAP DECISION TREE DAN NAIVE BAYES

3. Masalah Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB I PENDAHULUAN 1.1 Latar Belakang

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN

Algoritma Dasar. 4.1 Naive Bayes

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB I PENDAHULUAN. Machine learning (ML), bagian dari kecerdasan buatan (artificial

BAB III METODOLOGI PENELITIAN. Dataset

BABI PENDAHULUAN. 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio

BAB 2 TINJAUAN PUSTAKA

Seleksi Atribut Menggunakan Information Gain Untuk Clustering Penduduk Miskin Dengan Validity Index Xie Beni

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

Sekip Utara Yogyakarta * 1 2

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

BAB III METODOLOGI PENELITIAN

Analisis Sentimen Pada Review Konsumen Menggunakan Metode Naive Bayes Dengan Seleksi Fitur Chi Square Untuk Rekomendasi Lokasi Makanan Tradisional

KLASIFIKASI SPAM MENGGUNAKAN NAÏVE BAYES

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB 1 PENDAHULUAN 1-1

METODOLOGI PENELITIAN

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R)

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

1. Pendahuluan 1.1 Latar Belakang

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

BAB I PENDAHULUAN Latar Belakang

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

1. BAB I PENDAHULUAN 1.1 Latar Belakang

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

BAB II TINJAUAN PUSTAKA

3. Masalah Penelitian pemahaman merupakan awal proses penelitian

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting yang dibutuhkan dalam mendukung pengambilan keputusan strategis menjadi kunci keberhasilan suatu perusahaan. Persaingan dan kompetisi dalam dunia bisnis memaksa para pelaku bisnis untuk selalu berinovasi dan merancang strategi-strategi yang dapat menunjang perkembangan bisnis yang dijalankan. Salah satu cabang ilmu yang dapat memberikan informasi penting yang berguna bagi perusahaan adalah data mining. Data mining merupakan suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan atau informasi di dalam suatu data set. Kemajuan data mining didorong oleh beberapa faktor, antara lain: pertumbuhan data yang cepat, perkembangan teknologi, peningkatan akses data dan perkembangan yang hebat dalam kemampuan komputasi serta perkembangan kapasitas media penyimpanan. Secara fungsional data mining dibagi menjadi beberapa kelompok, salah satu pengelompokkan data mining tersebut adalah klasifikasi. Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Klasifikasi telah menjadi topik penting dalam machine learning, pattern recognition dan data mining. Berhubungan dengan pemanfaatan teknologi data mining dalam berbagai bidang, klasifikasi banyak digunakan dalam pengembangan sistem pendukung pengambilan keputusan (Decision Support System), sistem prediksi, sistem diagnosis dan lain-lain. Sehubungan dengan besarnya kebutuhan terhadap sistem klasifikasi yang efektif dan efisien, maka klasifikasi yang baik dituntut untuk dapat memberikan hasil klasifikasi yang akurat, pemrosesan yang cepat dan mudah untuk diimplementasikan atau memiliki kompleksitas yang rendah. Dalam pengimplementasian klasifikasi terdapat beberapa algoritme yang dapat digunakan, seperti : Decision Tree, Naïve

Bayes Classifier, Neural Network, Genetic Algorithms, Support Vector Machines dan lain sebagainya. Salah satu algoritme yang dapat digunakan dalam proses klasifikasi adalah Naïve Bayes Classifier (NBC). Naïve Bayes Classifier merupakan algoritme klasifikasi yang berbasis pada teori keputusan Bayes yang menggunakan probabilitas untuk penentuan keputusan. Naïve Bayes Classifer merupakan algoritme klasifikasi yang sederhana, efektif, cepat, memiliki tingkat akurasi yang tinggi dan algoritme yang paling banyak digunakan dalam proses klasifikasi dibanding algoritme klasifikasi lainnya. Meskipun Naïve Bayes Classifier merupakan algoritme yang paling banyak digunakan, Naïve Bayes Classifier masih memiliki kelemahan yang harus diatasi guna meningkatkan performa dari algoritme tersebut. Kelemahan Naïve Bayes Classifier dijelaskan pada penelitian yang dilakukan oleh Nurnberger, dkk [1] yang menyebutkan bahwa dalam proses klasifikasi, algoritme Naïve Bayes Classifier hanya berdasar pada distribusi probabilitas (prior probability dan conditional probability). Jika hanya menggunakan distribusi probabilitas maka yang menjadi faktor penentu pemetaan suatu kelas hanya berdasar kepada tingkat kemunculan data pada data set dengan asumsi bahwa bobot atau prioritas masing-masing atribut adalah sama. Pada saat dilakukan perhitungan probability masing-masing atribut terhadap kelas dengan metode Naive Bayes Classifier, idealnya juga diperhitungkan seberapa kuat hubungan atribut tersebut dengan kelas. Perhitungan nilai hubungan atribut dengan kelas menyebabkan yang menjadi parameter untuk pemetaan data yang belum diketahui kelasnya terhadap kelas yang ditentukan bukan hanya dari probability atribut data tersebut, tetapi juga seberapa kuat hubungan atribut dari data tersebut dengan kelas yang ditentukan. Dalam beberapa tahun terakhir, banyak penelitian dilakukan untuk mengatasi permasalahan Naïve Bayes Classifier yang hanya bergantung pada distribusi probabilitas. Pengembangan yang dilakukan untuk mengatasi masalah tersebut adalah dengan melakukan pembobotan atribut pada Naïve Bayes Classifier. Beberapa algoritme yang telah diusulkan para peneliti terdahulu adalah : Weighted Naïve Bayes Classifier

Algorithm-Attribute Frequency (WNBCA-AF), Naïve Bayes Classifier with Hybrid-weight (NBCH) dan Weighted Naïve Bayes on Correlation Coefficient (WNB-CC). Algoritme Weighted Naïve Bayes Classifier Algorithm-Attribute Frequency (WNBCA-AF) merupakan pengembangan algoritme Naïve Bayes Classifier yang diusulkan oleh Zhang dan Wang [2]. Konsep dasar pembobotan atribut dalam algoritme ini adalah dengan melakukan pembobotan Attribute Frequency. Frekuensi atribut merupakan jumlah data dari matriks yang terbentuk oleh masing-masing atribut. Atribut dengan frekuensi atribut terbesar merupakan atribut yang memiliki bobot terbesar. Algoritme ini merupakan algoritme yang paling mudah dan sederhana, akan tetapi kelemahan dari algoritme ini adalah pembobotan frekuensi atribut tidak selalu tepat digunakan untuk semua kondisi data set dan akurasi yang diberikan tidak begitu tinggi. Algoritme lain yang diusulkan adalah Naïve Bayes Classifier with Hybridweight (NBCH). Algoritme ini diusulkan oleh Geng, dkk [3] yang menerapkan metode penggabungan gain ratio dan koefisien korelasi. Gain ratio digunakan untuk mengukur keefektifan kondisi atribut dalam klasifikasi dan koefisien korelasi digunakan untuk menggambarkan hubungan ketergantungan antara atribut dengan kelas. Algoritme ini memberikan tingkat akurasi yang cukup tinggi, akan tetapi kelemahan dari algoritme ini adalah memiliki kompleksitas yang tinggi dan hampir mendekati kompleksitas algoritme Decision Tree. Dengan melakukan pembobotan berdasarkan information gain, entropy dan koefisien korelasi, proses komputasi dalam klasikasi menjadi sangat tinggi. Hal ini sangat berpengaruh terhadap kecepatan proses klasifikasi. Algoritme yang cukup efektif dan efisien serta memiliki akurasi cukup tinggi diusulkan oleh Yao dan Li [4] yaitu Weighted Naïve Bayes on Correlation Coefficient (WNB-CC). Konsep dari pembobotan atribut dengan koefisien korelasi ini adalah dengan memberikan bobot atribut berdasarkan pada nilai koefisien korelasi antara atribut tersebut dengan atribut kelas. Pembobotan atribut dibobotkan pada conditional probability, hal ini membuat algoritme ini memiliki kelemahan karena nilai koefisien korelasi berkisar antara -1 sampai dengan 1

maka memungkinkan terjadi probability negatif. Kelemahan lain dari algoritme ini adalah pembobotan dengan metode ini tidak selalu akurat untuk semua kondisi misalnya jika frekuensi kemunculan data suatu atribut berbanding terbalik dengan koefisien korelasinya serta jika terjadi probability 0 atau zero probability pada conditional probability, maka pembobotan atribut menjadi tidak efektif lagi. Dalam penelitian ini menawarkan sebuah metode baru untuk pembobotan atribut pada Naïve Bayes Classifier yang lebih sederhana, efektif, cepat dan memiliki tingkat akurasi yang tinggi yang dinamakan Correlated-Naïve Bayes Classifier (CNBC). Metode yang diusulkan ditujukan untuk mengatasi kelemahan Naïve Bayes Classifier yang hanya menggunakan distribusi probabilitas dengan pembobotan atribut terhadap kelas dan dioptimalkan dengan metode Laplacian. Bobot atribut dalam metode yang diusulkan, didapatkan dari nilai koefisien korelasi antara atribut tersebut dengan kelas. Koefisien korelasi mempunyai range nilai dari -1 sampai dengan 1, sehingga terdapat kemungkinan nilai pembobotan atribut menjadi negatif. Untuk mencegah terjadi nilai negatif, maka yang digunakan untuk pembobotan atribut adalah nilai R Square. Pembobotan atribut merupakan metode dimana nilai R Square dari masing-masing atribut terhadap kelas dikalikan dengan probability masing-masing atribut dalam perhitungan conditional probability Naive Bayes Classifier dengan metode join probability. Pembobotan atribut ini dapat meningkatkan akurasi dengan memperhitungkan seberapa kuat hubungan atribut tersebut terhadap kelas yang ditentukan. Untuk menjaga konsistensi bahwa nilai R Square selalu berpengaruh pada proses klasifikasi, maka digunakan metode Laplacian yang mencegah terjadinya probability 0. Metode Laplacian perlu diterapkan karena jika terdapat probability 0, maka berapapun nilai R Square atribut tidak akan berpengaruh. Penerapan metode Laplacian adalah dengan memaksa frekuensi kemunculan data pada data set lebih besar dari 0 dengan menambahkan nilai kemunculan 1 pada setiap perhitungan conditional probability.

1.2 Perumusan masalah Berdasarkan latar belakang masalah, maka permasalahan yang dibahas dan diteliti adalah sebagai berikut: 1. Proses klasifikasi algoritme Naïve Bayes Classifier yang hanya bergantung kepada distribusi probabilitas. 2. Akurasi algoritme Naïve Bayes Classifier masih memiliki kemungkinan untuk dapat ditingkatkan. 1.3 Keaslian penelitian Ada beberapa penelitian yang telah dilakukan yang berkaitan dengan data mining dan pengembangan algoritme Naïve Bayes Classifier. Berikut akan diuraikan ringkasan mengenai penelitian yang berkaitan dengan data mining dan pengembangan algoritme Naïve Bayes Classifier yang merupakan hasil review dari penelitian sebelumnya. Arroyo dan Sucar [5] melakukan penelitian untuk mengoptimalkan algoritme Naïve Bayes Classifier dengan menggunakan metode diskritisasi dan perbaikan struktur. Tujuan dari optimasi ini adalah untuk mengatasi kelemahan algoritme Naïve Bayes Classifier yang cenderung akurasi klasifikasinya menurun ketika atribut tidak independen dan tidak dapat menangani nonparametric continuous attributes. Perbaikan struktural yang dilakukan adalah dengan menghilangkan dan menggabungkan atribut berdasarkan pada kondisional dan saling ketergantungan antar atribut. Penelitian lain yang bertujuan untuk mengembangkan algoritme Naïve Bayes Classifier adalah penelitian yang dilakukan Nurnberger dan Klose [1] yang menjelaskan pengembangan algoritme Naïve Bayes Classifier dengan sebuah sistem Neuro-Fuzzy dan distribusi non-gaussian. Salah satu kelemahan dalam algoritme Naïve Bayes Classifier adalah hanya bergantung pada distribusi probability. Untuk mengatasi kelemahan algoritme Naïve Bayes Classifier yang hanya bergantung pada distribusi probability, metode yang diusulkan adalah dengan memetakan Naïve Bayes Classifier ke dalam Neuro-Fuzzy Classifier.

Pengembangan data mining tidak hanya dilakukan dengan optimasi algoritme yang digunakan. Beberapa penelitian mengembangkan data mining dengan memperbaiki proses dalam pemilihan fitur yang akan digunakan untuk proses data mining khususnya proses klasifikasi. Huang, dkk [6] melakukan penelitian tentang feature selection berbasis analisis korelasi. Feature selection merupakan salah satu hal penting dalam bidang machine learning dan klasifikasi data mining. Analisis korelasi dalam penelitian ini dibagi menjadi C-correlation dan F-correlation. C-correlation digunakan untuk mengidentifikasi feature yang relevan untuk kategori atribut dan F-Correlation digunakan untuk mengukur redundansi antar feature. Optimasi proses feature selection lainnya ditunjukkan pada penelitian Deshmukh, dkk [7] yang melakukan penelitian untuk menggambarkan sebuah sistem yang menggunakan serangkaian kegiatan preprocessing data yang termasuk feature selection dan discretization. Feature selection diimplementasikan dengan menggunakan metode Fast Correlation Based Filter (FCBF). Konsep dasar dari Fast Correlation Based Filter adalah dengan memprioritaskan feature yang memiliki korelasi tinggi dengan kelas dan mengeliminasi feature yang memiliki korelasi rendah dengan class. Discretization ditujukan untuk merubah continuous variable menjadi variabel nominal dengan nilai yang terbatas. Hal lain yang perlu diperbaiki dalam pengembangan algoritme Naïve Bayes Classifier adalah permasalahan Zero Probabilistic. Zhang, dkk [8] membuat sebuah penelitian untuk mengatasi permasalahan Zero Probabilistic (ZP) pada proses klasifikasi berbasis probability dengan mengusulkan sebuah metode Improved Naïve Bayes Learning (INBL). Metode INBL berbasis pada karakteristik data. Konsep dasar dari INBL adalah jika menemukan nilai probability 0 pada saat proses perhitungan conditional probability atribut x terhadap kelas y, maka nilai dari probability atribut x akan diganti dengan atribut lain yang memiliki nilai paling dekat dengan atribut x. Dalam penelitian ini, pengujian metode INBL diterapkan pada algoritme klasifikasi Naïve Bayes dan k- Nearest Neighbors.

Penelitian lain yang bertujuan untuk mengembangkan algoritme Naïve Bayes Classifier adalah penelitian yang dilakukan oleh Liu, dkk [9] yang mengusulkan sebuah metode untuk mengembangkan algoritme Naïve Bayes Classifier. Metode yang digunakan adalah Improved Naïve Bayes Classifier (INBC) dan mengeksplorasi penggunaan Genetic Algorithms (GAs) untuk pemilihan subset dari fitur-fitur dalam permasalahan klasifikasi. Konsep dasar dari INBC adalah dengan membagi data set x ke dalam beberapa data set x 1, x 2,, x i untuk memodifikasi data set x secara bertahap. Hasil akhir dari INBC adalah data set baru yang merupakan hasil dari pengujian dan modifikasi pecahan data set x 1, x 2,, x i terhadap data set x. Pengembangan algoritme Naïve Bayes Classifier juga dilakukan dengan pembobotan atribut. Salah satu algoritme yang diusulkan adalah algoritme Weighted Naïve Bayes Classifier Algorithm-Attribute Frequency (WNBCA-AF) yang yang diusulkan oleh Zhang dan Wang [2]. Konsep dasar pembobotan atribut dalam algoritme ini adalah dengan melakukan pembobotan Attribute Frequency. Frekuensi atribut merupakan jumlah data dari matriks yang terbentuk oleh masing-masing atribut. Atribut dengan frekuensi atribut terbesar merupakan atribut yang memiliki bobot terbesar. Algoritme ini merupakan algoritme yang paling mudah dan sederhana, akan tetapi kelemahan dari algoritme ini adalah pembobotan frekuensi atribut tidak selalu tepat digunakan untuk semua kondisi data set dan akurasi yang diberikan tidak begitu tinggi. Algoritme pembobotan atribut lain yang diusulkan adalah Naïve Bayes Classifier with Hybrid-weight (NBCH). Algoritme ini diusulkan oleh Geng, dkk [3] yang menerapkan metode penggabungan gain ratio dan koefisien korelasi. Gain ratio digunakan untuk mengukur keefektifan kondisi atribut dalam klasifikasi dan koefisien korelasi digunakan untuk menggambarkan hubungan ketergantungan antara atribut dengan kelas. Algoritme ini memberikan tingkat akurasi yang cukup tinggi, akan tetapi kelemahan dari algoritme ini adalah memiliki kompleksitas yang tinggi dan hampir mendekati kompleksitas algortime Decision Tree. Dengan melakukan pembobotan berdasarkan information gain, entropy dan koefisien korelasi, proses komputasi dalam klasikasi menjadi sangat

tinggi. Hal ini sangat berpengaruh terhadap kecepatan proses klasifikasi. Yao dan Li [4] juga mengusulkan sebuah algoritme pembobotan atribut yaitu Weighted Naïve Bayes on Correlation Coefficient (WNB-CC). Konsep dari pembobotan atribut dengan koefisien korelasi ini adalah dengan memberikan bobot atribut berdasarkan pada nilai koefisien korelasi antara atribut tersebut dengan atribut kelas. Pembobotan atribut dibobotkan pada conditional probability, hal ini membuat algoritme ini memiliki kelemahan karena nilai koefisien korelasi berkisar antara -1 sampai dengan 1 maka memungkinkan terjadi probability negatif. Kelemahan lain dari algoritme ini adalah pembobotan dengan metode ini tidak selalu akurat untuk semua kondisi misalnya jika frekuensi kemunculan data suatu atribut berbanding terbalik dengan koefisien korelasinya serta jika terjadi probability 0 atau zero probability pada conditional probability, maka pembobotan atribut menjadi tidak efektif lagi. Pengembangan algoritme Naïve Bayes Classifier pada penelitian yang akan dilakukan menggunakan pembobotan atribut berdasarkan pada keeratan hubungan masing-masing atribut dengan kelas. Konsep dasar dari pembobotan atribut adalah dengan mengasumsikan bahwa masing-masing atribut memiliki pengaruh dan prioritas yang berbeda terhadap kelas. Untuk mengoptimalkan hasil klasifikasi, dalam penelitian yang akan dilakukan juga menggunakan metode Laplacian untuk mengatasi permasalahan Zero Probability. Perbedaan dari penelitian yang pernah dilakukan adalah pada penelitian ini menggunakan metode pengembangan yang berbeda dari penelitian-penelitian yang sudah dilakukan yaitu dengan pembobotan atribut dengan menggunakan R Square yang diperhitungkan pada conditional probability dengan metode join probability dan disempurnakan dengan metode Laplacian. Pada penelitian ini menggunakan 30 data set yang disediakan oleh Uci Repository dengan tipe atribut numerical, categorical atau mixed. Penelitian ini juga akan memberikan hasil analisis perbandingan antara algoritme Naïve Bayes Classifier dengan algoritme Correlated Naïve Bayes Classfier.

1.4 Tujuan Penelitian Tujuan yang ingin dicapai dalam penelitian ini adalah membuat sebuah metode baru yang sederhana dan memiliki akurasi yang lebih tinggi dibandingkan dengan algoritme Naïve Bayes Classifier. 1.5 Manfaat Penelitian Manfaat yang dapat diberikan dari adanya penelitian ini adalah mendapatkan sebuah algoritme baru yang dapat digunakan sebagai salah satu alternatif untuk proses klasifikasi seperti dalam membangun sistem pakar, sistem kecerdasan buatan, sistem prediksi dan sistem klasifikasi lainnya.