BAB 2. Landasan Teori

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB III METODOLOGI PENELITIAN. Dataset

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB II TINJAUAN PUSTAKA

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB II. Landasan Teori

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

TINJAUAN PUSTAKA. Definisi Data Mining

Penentuan Kelayakan Kredit Dengan Algoritma Naïve Bayes Classifier: Studi Kasus Bank Mayapada Mitra Usaha Cabang PGC

BAB III METODE PENELITIAN

PENERAPAN DATA MINING UNTUK MENENTUKAN POTENSI HUJAN HARIAN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB 3 METODE PENELITIAN

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

Klasifikasi. Diadaptasi dari slide Jiawei Han

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Klasifikasi. Diadaptasi dari slide Jiawei Han

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

BAB. III. ANALISA PERMASALAHAN

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

PERBANDINGAN DECISION TREE

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Cross Industry Standard Process for Data Mining (CRISP-DM) Nama : Siti Maskuroh NIM : A Kel : A

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB III METODE PENELITIAN

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB III METODE PENELITIAN

PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

BAB II LANDASAN TEORI

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

BAB 2 TINJAUAN PUSTAKA

KLASIFIKASI PADA TEXT MINING

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

Sekip Utara Yogyakarta * 1 2

BAB 2 LANDASAN TEORI

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

CONTOH KASUS DATA MINING

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

( ) ( ) (3) II-1 ( ) ( )

KLASIFIKASI PADA TEXT MINING

Klasifikasi Kelayakan Kredit Dengan Menggunakan Metode Naive Bayes

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

Analisis Hubungan antar Faktor dan Komparasi Algoritma Klasifikasi pada Penentuan Penundaan Penerbangan

Sistem Pendukung Keputusan Untuk Mengevaluasi Internal Program Studi

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB I PENDAHULUAN 1.1 Latar Belakang

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 3, Tahun 2015, Halaman Online di:

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB II TINJAUAN PUSTAKA

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

TRANSFORMASI Jurnal Informasi & Pengembangan Iptek

MODEL KLASIFIKASI KELAYAKAN KREDIT KOPERASI KARYAWAN DENGAN ALGORITMA DECISION TREE

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

MODEL KLASIFIKASI KELAYAKAN KREDIT KOPERASI KARYAWAN BERBASIS DECISION TREE

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB I PENDAHULUAN 1.1. Latar Belakang

PEMILIHAN JENIS ASURANSI BERDASARKAN DEMOGRAFI CALON PEMEGANG POLIS DENGAN METODE NAÏVE BAYES CLASSIFIER

KLASIFIKASI UNTUK DIAGNOSA DIABETES MENGGUNAKAN METODE BAYESIAN REGULARIZATION NEURAL NETWORK (RBNN)

BAB 2. Landasan Teori

BAB I PENDAHULUAN. basis data dan mengubahnya menjadi informasi yang berguna. Metode data

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

TUGAS AKHIR. Oleh: Bondhan Arya Purnanditya A

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Application Determination Of Credit Feasibility in Sharia Cooperative

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

Prediksi Masa Studi Mahasiswa dengan Menggunakan Algoritma Naïve Bayes

Prediksi Tingkat Kelulusan Mahasiswa Tepat Waktu Menggunakan Naïve Bayes: Studi Kasus UIN Syarif Hidayatullah Jakarta

SISTEM PENDUKUNG PENGAMBILAN KEPUTUSAN MENGGUNAKAN METODE NAIVE BAYES (STUDI KASUS KREDIT SEPEDA MOTOR)

BAB II LANDASAN TEORI

SAINTEKBU: Jurnal Sains dan Teknologi Volume 9 No.2 Mei 2017 EVALUASI INTERNAL PROGRAM STUDI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER (NBC)

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

BAB I PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

DATA MINING. Pertemuan 2. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan Segall, Guha & Nonis (2008:127) menjelaskan Data Mining disebut penemuan pengetahuan atau menemukan pola yang tersembunyi dalam data. Data mining adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna. Bisa disimpulkan Data mining adalah Proses menganalisis data yang banyak dan membuat suatu pola untuk menjadi informasi yang berguna. 2.2 Cross industry Standard Process for Data Mining (CRISP DM) Dalam jurnal Identifying Bank Frauds Using CRISP-DM and Decision trees oleh Da Rocha & Timóteo (2010) mengatakan metodologi Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data mining untuk memecahkan suatu masalah. Metodologi ini terdiri dari enam tahap proses siklus. Metodologi ini membuat data mining yang besar dapat dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, data mining yang berukuran kecil pun dapat memperoleh 5

6 keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam tahap yang disebut sebagai siklus: 1. Business understanding Business understanding meliputi penentuan tujuan bisnis, menilai situasi saat ini, menetapkan tujuan data mining, dan mengembangkan rencana proyek. 2. Data understanding Setelah tujuan bisnis dan rencana proyek ditetapkan, Data understanding mempertimbangkan persyaratan data. Langkah ini dapat mencakup pengumpulan data awal, deskripsi data, eksplorasi data, dan verifikasi data yang berkualitas. 3. Data preparation Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang diinginkan, dan diformat. Pembersihan data dan transformasi data dalam penyusunan pemodelan data perlu terjadi di tahap ini. Gambar 2.1 Greedy (heuristic) methods for attribute subset selection. Sumber: (Han & Kamber, 2011, p104)

7 Terdapat beberapa teknik dalam mengolah data seperti Data Transformation, Data Reduction dan Data Cleaning, diantaranya : Generalization Mengubah data atribut low level menjadi atribut high level, contoh : atribut numerical menjadi ordinal. Attribute construction Penambahan atribut baru untuk kepentingan proses mining. Attribute subset selection Attribute subset selection dilakukan untuk pemilihan atribut yang menjadi atribut predictor. Ada 4 metode yang dapat digunakan dalam melakukan attribute subset selection, yaitu : a. Stepwise forward selection Proses metode ini adalah untuk mencari atribut terbaik dari seluruh data set dan di masukkan ke dalam data set baru berdasarkan atribut terbaik yang telah dipilih. b. Stepwise backward elimination Proses metode ini adalah untuk mencari atribut yang tidak berkaitan dengan data mining yang dicari, lalu langsung menghapusnya dari data set. c. Combination of forward selection and backward elimination Proses metode ini adalah penggabungan dari metode stepwise forward selection dan stepwise backward elimination.

8 d. Decision tree induction Proses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik. Missing Value Nilai null yang terdapat dalam data set dapat mengganggu pembuatan mining yang dilakukan. Ada 6 metode yang dapat digunakan dalam mengolah nilai null yang terdapat dalam data, yaitu : a. Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null. b. Fill in the missing value manually: mengisi sendiri nilai null yang terdapat dalam data. c. Use global constant to fill in the missing value: mengganti nilai null dengan label constant, seperti Unknown. d. Use the attribute mean to fill in the missing value: mengganti nilai null dengan rata-rata yang dimiliki atribut. e. Use the attribute mean for all samples belonging to the same class the given tuple: mengganti nilai null dengan nilai rata-rata yang dimilik atribut berdasarkan target kelas yang dicari. f. Use the most probable value to fill in the missing value: mengganti nilai null dengan nilai yang paling mungkin muncul berdasarkan atribut target kelas yang dicari.

9 4. Modeling Tujuan dari pemodelan data mining adalah untuk mencari hasil dari berbagai situasi yang ada. Alat perangkat lunak untuk data mining seperti visualisasi (mensplit data dan membangun hubungan) dan analisis kluster (untuk mengidentifikasikan variable berjalan dengan baik secara bersamaan) dapat berguna untuk analisis awal model yang akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian juga diperlukan untuk pemodelan. 5. Evaluation Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama (pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan perhitungan statistik pengujian berdasarkan pemodelan yang dibuat. Pada akhir dari tahap ini, keputusan penggunaan hasil data mining telah ditentukan. 6. Deployment Pembuatan dari model bukanlah akhir dari projek data mining. Meskipun tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data, pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat pada satu bentuk yang dapat digunakan oleh pengguna.

10 Gambar 2.2 CRISP-DM process Sumber: (Olson & Delen, 2008, p10) 2.3 Fungsi Data Mining Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi (Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining secara umum : 1. Classification Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih. Gambar 2.3 Classification - Decision Tree Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

11 2. Clustering Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas. Gambar 2.4 Clustering Sumber: (Maclennan, Tang, & Crivat, 2009, p7) 3. Association Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada. Gambar 2.5 Product Association Sumber: (Maclennan, Tang, & Crivat, 2009, p7) 4. Regression Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada.

12 5. Forecasting Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya. Gambar 2.6 Time Series Sumber: (Maclennan, Tang, & Crivat, 2009, p8) 6. Sequence Analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian. Gambar 2.7 Web Navigation Sequence Sumber: (Maclennan, Tang, & Crivat, 2009, p9) 7. Deviation Analysis Fungsi dari devation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal).

13 2.4 Credit Scoring Credit scoring atau penilaian kredit adalah sistem cara yang digunakan oleh bank atau lembaga pembiayaan lainnya yang berguna untuk menentukan apakah seorang pemohon kredit itu layak atau tidak mendapatkan pinjaman. Menurut Anderson (2007:6) Credit Scoring yaitu it is the use of statistical models to transform relevant data into numerical measures that guide credit decisions yang artinya penggunaan model statistik untuk mengubah data yang relevan ke dalam ukuran numerik yang menuntun keputusan kredit. Beda halnya dengan pendapat Mylonakis & Diacogiannis (2010:9) Credit Scoring adalah metode mengevaluasi risiko kredit dari pemohon dan memprediksi perilaku konsumen di masa mendatang, apakah mereka akan default atau menunggak. Terdapat bermacam-macam jenis credit scoring berdasarkan dari kategori resiko dan tugasnya. Menurut Anderson (2007:310) menjelaskan bahwa terdapat 4 macam jenis credit scoring, yaitu : 1. Application scoring Application Scoring dilakukan untuk penilain dasar pengambilan keputusan dalam penetuan pemohon kredit, apakah pemohon tersebut layak atau tidak diberikan kredit. 2. Behavioural scoring Behavioral scoring dilakukan untuk penilaian yang memfokuskan terhadap hasil dari perilaku pelaku kredit yang telah diterima permohonan kreditnya. 3. Customer scoring Customer Scoring dilakukan untuk penilain terhadap pencarian potensi yang dimiliki oleh pelaku kredit.

14 4. Collections scoring Collections scoring dilakukan untuk penilain terhadap pelaku kredit pada saat terjadinya penagihan kredit oleh lembaga keuangan. 2.5 Naive Bayes Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan Delen (2008:102) menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan. The Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages mengatakan bahwa Naïve Bayes Classifier memiliki tingkat akurasi yang lebih baik dibanding model classifier lainnya. Table 2.1 Result of measure Classifier Accuracy Precision Recall F-Measure NB Classifier 95.20% 99.37% 95.23% 97.26% DT Classifier 94.85% 98.31% 95.90% 97.09%

15 Dalam jurnal Credit Scoring Model Based on Simple Naive Bayesian Classifier and a Rough Set oleh Jiang juga mengatakan Untuk membangun model credit scoring menggunakkan pendekatan baru dengan sintesis sederhana Naive Bayesian classifier (SNBC) dan teori himpunan. Dalam jurnal A Proposed Classification of Data Mining Techniques in Credit Scoring oleh Keramati mengatakan ingin memperkenalkan metode data mining dalam masalah credit scoring menggunakan classification. Menurut Han dan Kamber (2011:351) Proses dari The Naïve Bayesian classifier, atau Simple Bayesian Classifier, sebagai berikut: 1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X = (x 1, x 2,..., x n ), ini menggambarkan pengukuran n dibuat pada tuple dari atribut n, masing-masing, A 1, A 2,..., An. 2. Misalkan ada kelas m, C 1, C 2,..., C m. Diberi sebuah tuple, X, classifier akan memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive bayesian memprediksi bahwa X tuple milik kelas C i jika dan hanya jika : (2.1) Jadi memaksimalkan P (C i X). Ci kelas yang P (C i X) dimaksimalkan disebut hipotesis posteriori maksimal. Dengan teorema Bayes : (2.2)

16 Keterangan : P(C i X) = Probabilitas hipotesis C i jika diberikan fakta atau record X (Posterior probability) P(X C i ) = mencari nilai parameter yang memberi kemungkinan yang paling besar (likelihood) P(C i ) = Prior probability dari X (Prior probability) P(X) = Jumlah probability tuple yg muncul 3. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X C i ) P (C i ) butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C 1 ) = P (C 2 ) = = P (C m ), maka dari itu akan memaksimalkan P (X C i ). Jika tidak, maka akan memaksimalkan P (X C i ) P (C i ). Perhatikan bahwa probabilitas sebelum kelas dapat diperkirakan oleh P (C i ) = C i, D / D, dimana C i, D adalah jumlah tuple pelatihan kelas C i di D. 4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit dalam mengkomputasi untuk menghitung P(X C i ). Agar dapat mengurangi perhitungan dalam mengevaluasi P(X C i ), asumsi naïve independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara atribut ) dengan demikian : (2.3) Maka dapat dengan mudah memperkirakan probabilitas P (x 1 C i ), P (x 2 C i ),..., P (x n C i ) dari pelatihan tuple. Ingat bahwa di sini x k mengacu

17 pada nilai atribut A k untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut kategorikal atau continuous-valued. Misalnya, untuk menghitung P (X C i ) mempertimbangkan hal-hal berikut: a) Jika A k adalah kategorikal, maka P (X k C i ) adalah jumlah tuple kelas C i di D memiliki nilai X k untuk atribut A k, dibagi dengan C i, D, jumlah tuple kelas C i di D. b) Jika A k continuous-valued, maka perlu melakukan sedikit lebih banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah atribut continuous-valued biasanya diasumsikan memiliki distribusi Gaussian dengan rata-rata µ dan standar deviasi σ, didefinisikan oleh sehingga : (2.4) (2.5) Setelah itu hitung µc i dan σc i, yang merupakan deviasi mean (rata-rata) dan standar masing-masing nilai atribut A k untuk tuple pelatihan kelas C i. Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama dengan x k, untuk memperkirakan P (x k C i ). 5. Untuk memprediksi label kelas x, P(X C i )P(C i ) dievaluasi untuk setiap kelas C i. Classifier memprediksi kelas label dari tuple x adalah kelas C i, jika (2.6) Dengan kata lain, label kelas diprediksi adalah C i yang mana P (X C i ) P (C i ) adalah maksimal.

18 Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk penggunaannya, seperti kondisi kelas independen, dan kurangnya data probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak secara eksplisit menggunakan teorema Bayes. 2.6 Holdout Method Dalam metode ini, data yang diberikan secara acak dibagi menjadi dua set independen yaitu training set dan test tes. Biasanya, dua-pertiga dari data yang dialokasikan untuk training set, dan sisanya sepertiga dialokasikan untuk test set. Training set digunakan untuk memperoleh model. Test set digunakan untuk menghitung akurasi model yang telah dibuat (Han & Kamber, 2011:370). Dalam jurnal ilmiah Computers in Biology and Medicine yang berjudul Diagnosis of breast cancer using Bayesian networks, penelitian tersebut menggunakan holdout method untuk membuat pemodelan naïve bayes, dimana data training berjumlah 67% dan data testing sebesar 33%. 2.7 Evaluasi kinerja Classifier Gambar 2.8 Estimating accuracy with the holdout method Sumber: (Han & Kamber, 2011, p370)

19 Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas yang berbeda. TP dan TN memberikan informasi ketika classifier benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh gambar Confusion matrix ditunjukan pada gambar 2.8. Gambar 2.9 The Confusion Matrix menampilkan total positive dan negative tuple Sumber: (Han & Kamber, 2011, p366) Langkah sensitivity dan specificity dapat digunakan untuk pengklasifikasian akurasi. Sensitivity dapat ditunjuk sebagai true positives (recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar). Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang diidentifikasi secara benar). (2.7) Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan spesifisitas: (2.8) (2.9) Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error Rate:

20 atau Error rate = 1 Accuracy (2.10) 2.8 Kerangka Pikiran Data Mining dan Application Scoring Pada penelitian ini, menggunakan metode studi lapangan dan studi pustaka untuk mendapatkan data dan informasi yang terkait dengan topik skripsi ini. Setelah mendapatkan data set dari Bank Rakyat Indonesia, Data set tersebut diproses menggunakan tehnik Data Preprocessing. Data yang telah selesai diproses akan dibuat pemodelan dengan menggunakan model naïve bayes. Dan hasilnya akan di tentukan apakah pemohon tersebut masuk ke kategori approve atau reject. Tingkat ukuran ketepatan dapat dihitung untuk menentukan kelayakan model yang dibuat. Indicator, Proposed, Objectives, dan Measurement mengacu dengan metode CRISP-DM yang ditunjukkan pada gambar 2.10. CRISP-DM Indicator Proposed Objectives Measurement Studi lapangan: Survei, wawancara, dan observasi Studi pustaka: buku literature, tesis dan jurnal BRI- SCORING Data Set Data Preprocessing BRI-SCORING Naïve Bayes Model Result (App-Status : Approve/Reject) Sensitivity Specificity Accuracy Error Rate Gambar 2.10 Kerangka Pikiran Data Mining dan Application Scoring