BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

dokumen-dokumen yang mirip
BAB II LANDASAN TEORI

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA

PERTEMUAN 14 DATA WAREHOUSE

BAB 3 LANDASAN TEORI

BAB V KESIMPULAN DAN SARAN

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

BAB 3 METODE PENELITIAN

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

BAB II LANDASAN TEORI

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II TINJAUAN PUSTAKA

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Abidah Elcholiqi, Beta Noranita, Indra Waspada

( ) ( ) (3) II-1 ( ) ( )

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

Implementasi Data Mining dengan Metode Klastering untuk Meramalkan Permintaan Pasar (Studi Kasus PT. Nutrifood Indonesia )

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN DATA MINING UNTUK MEMPREDIKSI KRITERIA NASABAH KREDIT

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1-1

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

BAB 2 TINJAUAN PUSTAKA

KOMPARASI ALGORITMA C4.5 DENGAN NAÏVE BAYES DALAM PENGKLASIFIKASIAN TINGKAT PENDIDIKAN ANAK MISKIN. Andi Nurhayati 1, Andi Baso Kaswar 2

CONTOH KASUS DATA MINING

BAB I PENDAHULUAN Latar Belakang


IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB III LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 1 PENDAHULUAN 1-1

Data Mining : Klasifikasi Menggunakan Algoritma C4.5

PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK POLIPROFESI MEDAN DENGAN KERNEL K-MEANS CLUSTERING

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

KLASIFIKASI SPAM MENGGUNAKAN NAÏVE BAYES

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

Komparasi Algoritma Klasifikasi untuk dataset iris dengan rapid miner

Tahapan Proses KDD (Peter Cabena)

BAB I PENDAHULUAN. Perusahaan perusahaan pada saat ini sudah memiliki database yang

KLASIFIKASI PADA TEXT MINING

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

KLASIFIKASI PADA TEXT MINING

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMBANGUNAN SISTEM INFORMASI PERSONEL PADA DINAS ADMINISTRASI PERSONEL ARMADA REPUBLIK INDONESIA KAWASAN BARAT

BAB III METODOLOGI PENELITIAN

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN

BAB I PENDAHULUAN. jurusan ditentukan berdasarkan standar kriteria tiap jurusan.

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

BAB I PENDAHULUAN. Hal ini dibuktikan dengan adanya fakta yang diungkap oleh World Health

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. kegiatan simpan pinjam layaknya bank, dimana ijin operasionalnya di bawah

Transkripsi:

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti sebelumnya dengan algoritma yang berbeda-beda seperti yang telah dipaparkan pada tabel 1.1. Berikut penjelasan singkat algoritma yang membedakan setiap metode kombinasi pada setiap penelitian: Xie dkk (2002) menggabungkan metode KNN dengan Naïve Bayes. Metode utama yang digunakan ialah metode Naïve Bayes dimana KNN digunakan pada langkah pertama untuk mencari jarak antara data uji dengan setiap data pelatihan. Kemudian dilanjutkan dengan proses Naïve Bayes menggunakan jarak antara data uji dengan setiap data pelatihan dan dilanjutkan dengan mencari nilai probabilitas terbesar sesuai dengan tahapan pada Naïve Bayes. Tujuan dari munculnya algoritma baru ini untuk meningkatkan nilai keakuratan pada penambangan data, dan terbukti dapat meningkatkan nilai keakuratan dari Naïve Bayes. Jiang dkk (2005) menggabungkan metode KNN dengan Naïve bayes. Metode utama yang digunakan ialah metode KNN dimana Naïve Bayes digunakan pada saat tahap perhitungan peringkat jarak terdekat metode KNN dan 20

mencloned beberapa data pelatihan yang memiliki nilai jarak terdekat dengan data uji. Kemudian mencari nilai probabilitas dari data tersebut dengan Naïve Bayes. Tujuan dari munculnya algoritma baru ini untuk meningkatkan nilai keakuratan pada penambangan data, dan terbukti bahwa hasil yang diperoleh lebih baik dibandingkan dengan Naïve Bayes, C4.4 dan NBTree. Hall (2007), menggabungkan Naïve Bayes dengan Decision Tree. Metode utama yang digunakan ialah Naïve Bayes dimana Decision Tree digunakan pada awal pembobotan atribut. Tujuan munculnya algoritma baru ini untuk meningkatkan proses kinerja Naïve Bayes berdasarkan algoritma Decision Tree yang terbukti lebih baik dibandingkan dengan Naïve Bayes trees dan selective Bayes. Farid dkk (2010), menggabungkan metode Naïve Bayes dengan Decision Tree. Metode utama yang digunakan ialah Naïve Bayes, dan Decision Tree digunakan untuk mencari Gain data pada tahap klasifikasi. Langkah pertama ialah mencari nilai probabilitas dengan menggunakan Naïve Bayes dan nilai tersebut digunakan untuk memperbarui nilai setiap kelas pada D. Kemudian memilih gain terbaik dengan nilai maksimum. Tujuan dari munculnya algoritma baru ini untuk mendeteksi gangguan jaringan dengan nilai akurat yang tinggi. Hasil dari percobaan yang diujikan, keakuratan algoritma ini dalam mendeteksi gangguan jaringan mencapai 99%. 21

2.2 Landasan Teori 2.2.1. Data, Informasi dan Pengetahuan Data adalah bilangan, terkait dengan angka- angka atau atribut-atribut yang bersifat kuantitas yang berasal dari hasil observasi, eksperimen, atau kalkulasi. Data kategori adalah semua nilai yang mungkin ada, bersifat terbatas yang berdasarkan nominal dan ordinal. Yang dimaksud nominal di sini adalah tanpa adanya urutan sebagai contohnya adalah status perkawinan atau jenis kelamin. Informasi adalah data didalam satu konteks tertentu. Informasi merupakan kumpulan data dan terkait dengan penjelasan, interpretasi, dan berhubungan dengan materi lainnya mengenai objek, peristiwa-peristiwa atau proses tertentu. Sementara itu, pengetahuan adalah informasi yang telah diorganisasi, disintesiskan, diringkaskan untuk meningkatkan pengertian, kesadaran atau pemahaman (Bergeron, 2003). 2.2.2. Klasifikasi Penambangan data Penambangan data yang juga dikenal dengan KDD (Knowledge Discovery in Database) digunakan untuk mengekstrak model yang menggambarkan data kelas yang penting (Baradwaj & Pal, 2011, Bhargavi & Jyothi, 2011, Bhuvaneswari & Kalaiselvi, 2012, Kumar & Verma, 2012, Kaur & Aggarwal, 2013, Kaur & Kaur, 2013). Sebelum melakukan proses penambangan data, perlu dilakukan beberapa tahapan yang disebut preprocessing (Beniwal & Arora, 2012). Hal tersebut disebabkan karena teknik preprocessing memiliki dampak signifikan terhadap 22

kinerja pada algoritma machine learning. Desain database yang baik dan analisis yang baik dapat mereduksi permasalahan missing data melalui preprocessing (Christobel & Sivaprakasam, 2013). Dengan menggunakan teknik visualisasi preprocessing dapat diperoleh beberapa pengetahuan mengenai data (Nithyasri dkk, 2010). Berikut merupakan beberapa tahapan awal hingga hasil dari penambangan data (Singh dkk, 2012): 1. Pemilihan (data selection) Pemilihan data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. 2. Pemrosesan awal (preprocessing) Sebelum proses penambangan data dapat dilaksanakan, perlu dilakukan proses cleaning dengan tujuan untuk membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 3. Transformasi Proses coding pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses penambangan data. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database. 23

4. Penambangan data (data mining) Proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam penambangan data sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 5. Interpretasi/Evaluasi Pola informasi yang dihasilkan dari proses penambangan data perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation.tahap ini mencangkup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya atau tidak. 2.2.3. Teknik Klasifikasi Klasifikasi merupakan tugas penambangan data yang memetakan data ke dalam kelompok-kelompok kelas (Jain dkk, 2013). Teknik klasifikasi melakukan pengklasifikasian item data ke label kelas yang telah ditetapkan, membangun model klasifikasi dari kumpulan data input, membangun model yang digunakan untuk memprediksi tren data masa depan (Shazmeen dkk, 2013). Algoritma yang umum digunakan meliputi K-Nearest neighbor, Naïve Bayes Classification, Pohon Keputusan (Decision Tree), Jaringan Saraf (Neural Network), dan Suport Vector Machines (Sahu dkk, 2011). 24

2.2.2.1 Naïve Bayes Naïve Bayes merupakan metode klasifikasi yang statistik berdasarkan teorema Bayes (Kabir dkk, 2011, Baby & T., 2012). Naïve Bayes berpotensi baik untuk mengklasifikasikan data karena kesederhanaannya (Abraham dkk, 2009, Ting dkk, 2011). Persamaan yang digunakan pada Naïve Bayes: (2.1) P( X) yaitu, probabilitas terjadi jika X sudah terjadi. P( ) adalah kemungkinan didata, bersifat independent terhadap X. X adalah kumpulan atribut. P(X ) adalah probabilitas X terjadi jika benar atau sudah terjadi berdasarkan data pelatihan. Selama nilai P( ) konstan, maka dapat disederhanakan menjadi rumus berikut ini: (2.2) 2.2.2.2 KNN (K-Nearest Neighbor) KNN (K-Nearest Neighbor) merupakan metode yang cukup popular dan sederhana (Chou &Shen, 2006). KNN termasuk metode klasifikasi penambangan data yang didasarkan pada pembelajaran dengan analogi. Sampel data pelatihan memiliki n atribut dimensi numerik. Setiap sampel merupakan titik dalam ruang n-dimensi. Semua sampel pelatihan disimpan di ruang n-dimensi. Ketika pengujian data, akan mencari nilai k terdekat dengan data uji. Kedekatan 25

didefinisikan dalam hal jarak Euclidean antara dua titik X=(,,, ) dan Y=(,,, ) (Phyu, 2009). (2.3) 26