BAB 2 LANDASAN TEORI

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB 2 LANDASAN TEORI

TINJAUAN PUSTAKA. Definisi Data Mining

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB III METODOLOGI PENELITIAN. Dataset

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB II LANDASAN TEORI

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Analisis perbandingan Klasifikasi penyakit jantung dengan menggunakan naïve bayes

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

Klasifikasi & Prediksi

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB II TINJAUAN PUSTAKA

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

CONTOH KASUS DATA MINING

BAB 2 TINJAUAN PUSTAKA

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Abidah Elcholiqi, Beta Noranita, Indra Waspada

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

BAB I PENDAHULUAN Latar Belakang

BAB II KAJIAN TEORI. Pada bab ini berisi tentang teori-teori dasar mengenai kredit, database,

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB 2 TINJAUAN PUSTAKA

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain


Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

BAB 2 LANDASAN TEORI

KLASIFIKASI PADA TEXT MINING

II. TINJAUAN PUSTAKA

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB III METODE PENELITIAN

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

KLASIFIKASI PADA TEXT MINING

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

MODUL 12 Model Prediktif

Sebelumnya... Sistem Pakar berbasis Logika Fuzzy

BAB III METODE PENELITIAN

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB II LANDASAN TEORI

BAB 2. Landasan Teori

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

Algoritma Data Mining

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

PENENTUAN INDIKATOR PRIORITAS PEMBANGUNAN DESA MENGGUNAKAN METODE SELEKSI FITUR

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI

BAB II LANDASAN TEORI

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

( ) ( ) (3) II-1 ( ) ( )

Manfaat Pohon Keputusan

Pengklasifikasian Kemampuan Akademik Mahasiswa

PERBANDINGAN DECISION TREE

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

BAB III METODE PENELITIAN

BAB 2 TINJAUAN PUSTAKA

PENERAPAN METODE ASOSIASI DATA MINING MENGGUNAKAN ALGORITMA APRIORI UNTUK MENGETAHUI KOMBINASI ANTAR ITEMSET PADA PONDOK KOPI

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Analisis Perbandingan Algoritma ID3 Dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum Pada PDAM Kabupaten Kendal

BAB III METODELOGI PENELITIAN

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB IV HASIL DAN PEMBAHASAN

Penggunaan Pohon Keputusan untuk Data Mining

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

Belajar Mudah Algoritma Data Mining : C4.5

2.2 Data Mining. Universitas Sumatera Utara

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

BAB IV HASIL DAN PEMBAHASAN

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

Transkripsi:

BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining merupakan disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data (Han and Kamber, 2006). Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santosa, 2007). 2.1.1. Tugas Utama Data Mining Secara umum data mining memiliki empat tugas utama (Sahu, et al. 2011): 1. Klasifikasi (Classification) Klasifikasi bertujuan untuk mengklasifikasikan item data menjadi satu dari beberapa kelas standar. Sebagai contoh, suatu program email dapat mengklasifikasikan email yang sah dengan email spam. Beberapa algoritma klasifikasi antara lain pohon keputusan, nearest neighbor, naïve bayes, neural networks dan support vector machines. 2. Regresi (Regression) Regresi merupakan pemodelan dan investigasi hubungan dua atau lebih variabel. Dalam analisis regresi ada satu atau lebih variabel independentt / prediktor yang biasa diwakili dengan notasi x dan satu variabel respon yang biasa diwakili dengan notasi y (Santosa, 2007).

3. Pengelompokan (Clustering) Clustering merupakan metode pengelompokan sejumlah data ke dalam klaster (group) sehingga dalam setiap klaster berisi data yang semirip mungkin. 4. Pembelajaran Aturan Asosiasi (Association Rule Learning) Pembelajaran aturan asosiasi mencari hubungan antara variabel. Sebagai contoh suatu toko mengumpulkan data kebiasaan pelanggan dalam berbelanja. Dengan menggunakan pembelajaran aturan asosiasi, toko tersebut dapat menentuan produk yang sering dibeli bersamaan dan menggunakan informasi ini untuk tujuan pemasaran. 2.1.2. Proses Data Mining Proses dari data mining mempunyai prosedur umum dengan langkah-langkah sebagai berikut (Kantardzic, 2003): 1. Merumuskan permasalahan dan hipotesis Pada langkah ini dispesifikasikan sekumpulan variabel yang tidak diketahui hubungannya dan jika memungkinkan dispesifikasikan bentuk umum dari keterkaitan variabel sebagai hipotesis awal. 2. Mengoleksi data Langkah ini menitikberatkan pada cara bagaimana data dihasilkan dan dikoleksi. Secara umum ada dua kemungkinan yang berbeda. ng pertama adalah ketika proses pembangkitan data dibawah kendali dari ahli. Pendekatan ini disebut juga dengan percobaan yang dirancang (designed experiment). Kemungkinan yang kedua adalah ketika ahli tidak memiliki pengaruh pada proses pembangkitan data, dikenal sebagai pendekatan observasional. 3. Pra pengolahan data Pra pengolahan data melibatkan dua tugas utama yaitu: a. Deteksi dan pembuangan data asing (outlier) Data asing merupakan data dengan nilai yang tidak dibutuhkan karena tidak konsisten pada sebagian pengamatan. Biasanya data asing dihasilkan dari kesalahan pengukuran, kesalahan pengkodean dan pencatatan dan beberapa nilai abnormal yang wajar. Ada dua strategi untuk menangani data asing, yang pertama mendeteksi dan berikutnya membuang data asing sebagai bagian dari fase pra pengolahan. ng kedua adalah

mengembangkan metode pemodelan yang kuat yang tidak merespon data asing. b. Pemberian skala, pengkodean dan seleksi fitur Pra pengolahan data menyangkut beberapa langkah seperti memberikan skala variabel dan beberapa jenis pengkodean. Sebagai contoh, satu fitur dengan range [0, 1] dan yang lain dengan range [-100, 100] tidak akan memiliki bobot yang sama pada teknik yang diaplikasikan dan akan berpengaruh pada hasil akhir data mining. Oleh karena itu, disarankan untuk pemberian skala dan membawa fitur-fitur tersebut ke bobot yang sama untuk analisis lebih lanjut. 4. Mengestimasi model Pemilihan dan implementasi dari tehnik data mining yang sesuai merupakan tugas utama dari fase ini. Proses ini tidak mudah, biasanya dalam pelatihan, implementasi berdasarkan pada beberapa model dan pemilihan model yang terbaik merupakan tugas tambahan. 5. Menginterpretasikan model dan menarik kesimpulan Pada banyak kasus, model data mining akan membantu dalam pengambilan keputusan. Metode data mining modern diharapkan akan menghasilkan hasil akurasi yang tinggi dengan menggunakan model dimensi-tinggi. Pengetahuan yang baik pada keseluruhan proses sangat penting untuk kesuksesan aplikasi. Tidak perduli seberapa kuat metode data mining yang digunakan, hasil dari model tidak akan valid jika pra pengolahan dan pengkoleksian data tidak benar atau jika rumusan masalah tidak berarti. 2.2. Klasifikasi (Classification) Salah satu tugas utama dari data mining adalah klasifikasi. Klasifikasi digunakan untuk menempatkan bagian yang tidak diketahui pada data ke dalam kelompok yang sudah diketahui. Klasifikasi menggunakan variabel target dengan nilai nominal. Dalam satu set pelatihan, variabel target sudah diketahui. Dengan pembelajaran dapat ditemukan hubungan antara fitur dengan variabel target. Ada dua langkah dalam proses klasifikasi (Han and Kamber, 2006):

a. Pembelajaran (learning) : pelatihan data dianalisis oleh algoritma klasifikasi. b. Klasifikasi: data yang diujikan digunakan untuk mengkalkulasi akurasi dari aturan klasifikasi. Jika akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi data tuple yang baru. Classification Algorithm Training Data name age income loan decision Sandy Jones young low risky Bill Lee young low risky Caroline Fox middle_aged low safe Rick Field middle_aged low risky Susan Lake senior low safe Claire Phips senior medium safe Joe Smith middle_aged high safe............ Classification Rules IF age = youth THEN loan_decision = risky IF income = high THEN loan_decision = safe IF age = middle_aged AND income = low THEN loan_decision = risky Classification Rules Training Data New Data name age income loan decision Juan Bello senior low safe Silvia Crest middle_aged low risky Anne Yee middle_aged high safe............ (John Henry, middle_aged, low) Loan decision? risky Gambar 2.1 Langkah Proses Klasifikasi (Han and Kamber, 2006)

2.2.1. Information Gain Information gain menggunakan entropy untuk menentukan atribut terbaik. Entropy merupakan ukuran ketidakpastian dimana semakin tinggi entropy, maka semakin tinggi ketidakpastian. Rumus dari entropy (Slocum, 2012): n E(S) = f s (j) log 2 f s (j) j=1 Dimana: E(S) adalah informasi entropy dari atribut S n adalah jumlah dari nilai-nilai yang berbeda pada atribut S f s (j) adalah frekuensi dari nilai j pada S log 2 adalah logaritma biner Information gain dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain(y,a). Information gain, gain(y,a), dari atribut A relatif terhadap output data y adalah (Santosa, 2007): gain(y, A) = Entropy(y) y c y c nilai(a) entropy (y c ) dimana nilai(a) adalah semua nilai yang mungkin dari atribut A, dan y c adalah subset dari y dimana A mempunyai nilai c. Term yang pertama pada rumus information gain di atas adalah entropy total y dan term kedua adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A. Konsep dari perhitungan entropy dan informasi gain dapat dijelaskan dengan menggunakan contoh yang terdapat pada data sebagai berikut:

Tabel 2.1 Data Set Untuk Resiko Penyakit Jantung (Slocum, 2012) Age Trestbps Chol Gender Heart <50 <120 <200 Male No <50 <120 <200 Female No <70 <120 <200 Male Yes <60 <140 <200 Male Yes <60 <160 >200 Male Yes <60 <160 >200 Female No <70 <160 >200 Female Yes <50 <140 <200 Male No <50 <160 >200 Male Yes <60 <140 >200 Male Yes <50 <140 >200 Female Yes <70 <140 <200 Female Yes <70 <120 >200 Male Yes <60 <140 <200 Female No Dari tabel di atas ditetapkan jumlah No dan jumlah Yes pada kolom keputusan untuk menghitung entropy yang ditunjukkan pada tabel di bawah: Tabel 2.2 Pembagian Hasil Yes dan No (Slocum, 2012) Age Trestbps Chol Gender Heart <50 <120 <200 male No <50 <120 <200 female No <60 <160 >200 female No <50 <140 <200 male No <60 <140 <200 female No Total No 5 <70 <120 <200 male Yes <60 <140 <200 male Yes <60 <160 >200 male Yes <70 <160 >200 female Yes <50 <160 >200 male Yes <60 <140 >200 male Yes <50 <140 >200 female Yes <70 <140 <200 female Yes <70 <120 >200 male Yes Total Yes 9

Pada contoh di atas, total entropy adalah: E = ((-5/14)log 2 (5/14)) + ((-9/14)log 2 (9/14)) = 0.94 Selanjutnya dilakukan perhitungan information gain di masing-masing kolom. Dimulai dari kolom Gender, tinjau nilai Male dan Female dan dihitung entropy Yes dan No dimana diperoleh Gender/Female (6/14) dan Gender/Male (8/14) dan dikurangi dari total entropy yang sudah dihitung sebelumnya. Entropy female = Entropy[3, 3] = 3 log 6 2 3 log 6 6 2 = 1 6 Entropy male = Entropy[6, 2] = 6 log 6 8 2 2 log 2 8 8 2 = 0,811 8 3 3 Gain = TotalEntropy (6/14 x (EntropyFemale)) (8/14 x (EntropyMale)) = 0.048 2.2.2. Naive Bayes Naive Bayes merupakan algoritma klasifikasi yang sederhana dimana setiap atribut bersifat independent dan memungkinkan berkontribusi terhadap keputusan akhir (Xhemali, et al. 2009). Dasar dari teorema Naïve Bayes yang dipakai dalam pemrograman adalah rumus bayes yaitu sebagai berikut (Han and Kamber, 2006) : P(H X) = P(X H)P(H) P(X) dimana P(H X) merupakan probabilitas H di dalam X atau dengan bahasa lain P(H X) adalah persentase banyaknya H di dalam X, P(X H) merupakan probabilitas X di dalam H, P(H) merupakan probabilitas prior dari H dan P(X) merupakan probabilitas prior dari X. Konsep dari perhitungan Naive Bayes dapat dijelaskan dengan menggunakan contoh yang terdapat pada data sebagai berikut:

Tabel 2.3 Data Cuaca dan Keputusan Main atau Tidak (Santosa, 2007) Cuaca X1 Cerah Cerah Mendung Hujan Hujan Hujan Mendung Cerah Cerah Hujan Cerah Mendung Mendung Hujan Temperatur X2 Panas Panas Panas Sedang Dingin Dingin Dingin Sedang Dingin Sedang Sedang Sedang Panas Sedang Kelembaban X3 Angin X4 Besar Besar Besar Besar Besar Besar Main atau Tidak y Tidak Tidak Tidak Tidak Tidak Naive Bayes akan menentukan kelas dari data baru berikut: (Cuaca = Cerah, Temperatur = Dingin, Kelembaban =, Angin = Besar) P(main) = 9 14 = 0.64 P(tidak) = 5 14 = 0.36 P(Angin = Besar main) = 3 9 = 0.33 P(Angin = Besar tidak) = 3 5 = 0.60 P(main) P(Cerah/main) P(Dingin/main) P(/main) P(Besar/main) = 9 14 2 9 3 9 3 9 3 9 = 0.0053 P(tidak) P(Cerah/tidak) P(Dingin/tidak) P(/tidak) P(Besar/tidak) = 5 14 3 5 1 5 4 5 3 5 = 0.0206 Dari data baru tersebut dapat disimpulkan tidak main, berdasarkan estimasi probabilitas yang dipelajari dari data training.

Implementasi dari Naive Bayes pada data pasien dengan menghitung korelasi antara target dan variabel lainnya, dapat digambarkan sebagai berikut (Subbalakshmi, et al. 2011): Data Set Masukkan Data Medis Pasien Naive Bayes Hitung Probabilitas Setiap Atribut Hitung Probabilitas dan Tidak Tampilkan Resiko Gambar 2.2 Implementasi Naive Bayes pada data pasien (Subbalakshmi, et al. 2011) 2.3. Diskritisasi Beberapa data memiliki format yang kompleks dimana terdapat penggabungan tipe data numerik dan diskrit. Data diskrit lebih dekat ke tingkat pengetahuan representasi manusia dan terkadang lebih efisien. (Yul, 2010). Diskritisasi merupakan peralihan dari data kontinu menjadi data diskrit (kategori) (Gorunescu, 2011). Diskritisasi juga dapat digunakan untuk mengubah atribut dengan nilai numerik menjadi nilai nominal / kategorikal (Sullivan, 2014). Terdapat dua bentuk diskritisasi yaitu diskritisasi yang tidak diawasi (unsupervised) dan diskritisasi yang diawasi (supervised). Diskritisasi yang tidak diawasi diperuntukkan untuk tugas data mining clustering sedangkan diskritisasi yang diawasi diperuntukkan untuk tugas data mining regresi dan klasifikasi (Yul, 2010).

Berikut contoh diskritisasi dengan menggunakan informasi Gain: A A A A B B A A A A A B C A B C A A A A A B A A B C C C B C C B C B C 114 116 117 118 120 122 123 126 127 131 132 133 134 135 136 137 138 141 147 Gambar 2.3 Data Kontinu dengan Pasangan Nilai Kategorikal Dari gambar di atas terlihat data kontinu dari nilai 114 sampai dengan 147 yang memiliki pasangan nilai kategorikal yaitu A, B dan C. Informasi dari data set: P[Y=A]=17/35, P[Y=B]=9/35, P[Y=C]=9/35 Info(Data set) = 17/35 x log 2 (17/35) + 9/35 x log 2 (9/35) + 9/35 x log 2 (9/35) = 1.51 Gambar 2.4 Pemisahan dengan Informasi Gain Informasi dari data set setelah pemisahan pada 121: P[Y=A kiri]=7/7, P[Y=B kiri]=0/7, P[Y=C kiri]=0/7 P[Y=A kanan]=10/28, P[Y=B kanan]=9/28, P[Y=C kanan]=9/28

Info(Data set pemisahan) = 7/35 x Info (data set kiri) + 28/35 x Info (data set kanan) = 7/35 x 0 + 28/35 x 1.58=1.26 Info (data set kanan) =10/28 x log2 (10/28) + 2 x 9/28 x log2 (9/28) =1.58 Informasi Gain setelah pemisahan pada 121 = 1.51 1.26 = 0.25 Gambar 2.5 Pemisahan dengan Informasi Gain Terbaik Dari gambar di atas dapat dilihat bahwa informasi Gain maksimum terdapat pada titik potong 129. Gain untuk pemotongan baru 126,5 sampai [114, 129]: [114, 126.5], [126.5, 129] adalah: Info(Y [114, 129]) = -16/18 x log 2 (16/18) 2/18 x log 2 (2/18) = 0.503 Info(Y [114, 126.5]) = -15/18 x log 2 (15/18) 1/16 x log 2 (1/16) = 0.337 Info(Y [126.5, 129]) = -1/2 x log 2 (1/2) 1/2 x log 2 (1/2) = 1 = Info (Y [114, 129]) 16/18 x Info (Y [114, 126.5]) 2/18 x Info (Y [126.5, 129]) = 0,503 16/18 x 0,337 2/18 x 1 = 0.092 Dari hasil perhitungan di atas gain yang tertinggi terdapat pada 129 dan titik ini dijadikan sebagai titik pemisah.

2.4. Ukuran Kinerja Percobaan dari penelitian dievaluasi dengan pengukuran akurasi, presisi, recall dan f- measure. Pengukuran dilakukan dengan menggunakan tabel klasifikasi yang bersifat prediktif, disebut juga dengan Confusion Matrix (Xhemali, et al. 2009). Tabel 2.4 Confusion Matrix (Xhemali, et al. 2009) Aktual (sebenarnya) Prediksi Sakit Tidak Sakit TP FN Tidak FP TN dimana: TP (True Positive) Jumlah prediksi yang benar dari data yang sakit. FP (False Positive) Jumlah prediksi yang salah dari data yang tidak sakit. FN (False Negative) Jumlah prediksi yang salah dari data yang sakit. TN (True Negative) Jumlah prediksi yang benar dari data yang tidak sakit. Dari Confusion Matrix dapat diukur akurasi, presisi dan recall untuk menganalisa kinerja dari algoritma dalam melakukan klasifikasi untuk mendeteksi penyakit. Akurasi merupakan persentase dari prediksi yang benar. Presisi adalah ukuran dari akurasi dari suatu kelas tertentu yang telah diprediksi. Recall merupakan persentase dari data dengan nilai positif yang nilai prediksinya juga positif. Adapun perhitungannya adalah sebagai berikut: Akurasi Presisi Recall = (TP+TN) / (TP+FP+TN+FN) = TN / (FP+TN) = TP / (TP+FN)