BAB 2 LANDASAN TEORI

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 LANDASAN TEORI

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

METODE CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK REKOMENDASI PEMILIHAN BIDANG KEAHLIAN PADA PROGRAM STUDI TEKNIK INFORMATIKA

SISTEM APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASITINGKAT KELULUSAN MAHASISWA

BAB III METODE PENELITIAN. ini dilaksanakan dari bulan Agustus Oktober 2016.

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

DESAIN APLIKASI UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA. Oleh : Rita Prima Bendriyanti ABSTRAK

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

LANDASAN TEORI Data Mining

BAB 1 PENDAHULUAN 1-1

Student Clustering Based on Academic Using K-Means Algoritms

PERTEMUAN 14 DATA WAREHOUSE

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II LANDASAN TEORI

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI KNOWLEDGE DISCOVERY IN DATABASE (KDD) DALAM SERVICE LEVEL AGREEMENT (SLA) KLAIM PADA ASURANSI KESEHATAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENGANTAR SOLUSI DATA MINING

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

BAB I PENDAHULUAN. Universitas Sumatera Utara

BAB II TINJAUAN PUSTAKA

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB 2 LANDASAN TEORI

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

EDUCATIONAL DATA MINING (KONSEP DAN PENERAPAN)

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI PENGUNDURAN DIRI MAHASISWA DENGAN APLIKASI DATA MINING ADD-INS STUDI KASUS PADA STMIK MIKROSKIL

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

Sistem Klasifikasi Jamur Dengan Algoritma Iterative Dichotomiser 3

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

Prosiding SNATIF Ke-1 Tahun 2014 ISBN:

IDENTIFIKASI POLA PENYAKIT ANAK DIBAWAH 5 TAHUN (BALITA) DENGAN MENGGUNAKAN ALGORITMA APRIORI

BAB II TINJAUAN PUSTAKA 2.1 DASAR TEORI Business Analytic

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

APLIKASI DATA MINING UNTUK MENAMPILKAN TINGKAT KELULUSAN MAHASISWA DENGAN ALGORITMA APRIORI

BAB II TINJAUAN PUSTAKA

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PROPOSAL PENELITIAN. PENERAPAN DATA MINING UNTUK MENINGKATKAN PENJUALAN PADA PT. XL AXIATA, Tbk PALEMBANG

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3

Kerusakan Barang Jadi

ANALISIS DATA MINING UNTUK MENENTUKAN VARIABEL VARIABEL YANG MEMPENGARUHI KELAYAKAN KREDIT KEPEMILIKAN RUMAH MENGGUNAKAN TEKNIK KLASIFIKASI

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

II. TINJAUAN PUSTAKA

TUGAS KONSEP DASAR DATA MINING

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

BAB II LANDASAN TEORI

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

Dwi Anggih Yosepta 1), Tria Aprilianto 2) 1. STMIK Asia Malang, 1 2

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN 1-1

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB 2 LANDASAN TEORI

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

Transkripsi:

BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau informasi yang berguna dari data berskala besar. Sering juga disebut segabai bagian proses KDD (Knowledge Discovery in Databases) (Santosa, 2007). 2. Data mining adalah bagian dari proses KDD yang terdiri dari beberapa tahapan seperti pemilihan data, pra-pengolahan, transformasi, data mining, dan interpretasi hasil (Sitompul, 2008). 3. Data mining adalah proses menemukan korelasi-korelasi penuh arti, pola-pola dan trend dengan penyaringan melalui sejumlah data yang besar pada tempat penyimpanan, dan menggunakan teknologi pengenalan pola seperti yang terdapat pada teknik-teknik di statistika dan matematika (Larose, 2005). 4. Data mining adalah mengenai pemecahan masalah dengan menganalisa data yang ada di dalam database dan sering juga didefinisikan sebagai proses menemukan pola dalam data, dimana proses tersebut harus otomatis atau semi-otomatis dan pola yang ditemukan harus bermakna (Chakrabarti, et al., 2009). 5. Data mining adalah ilmu pengetahuan dan teknologi mengeksplorasi data untuk menemukan pola yang sebelumnya tidak diketahui, merupakan bagian dari proses KDD (Lior, et al., 2008). 6. Data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar (Davies, et al., 2004). 7. Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau

7 penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, et al., 2006). 8. Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar (Witten, et al., 2005).. Karakteristik data mining sebagai berikut: a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih percaya. c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategis (Davies, et al., 2004). 2.1.1 Tahap-tahap Penambangan Data(Data mining) Data mining dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap tahapan sebelumnya (Kusnawi, 2007). Adapun tahapan tersbut dapat dilihat pada gambar 2.1.

8 Evaluation and Presentation Knowladge Data Mining 1 2 3 4 Pattern 5 Selection and Transformation Data warehouse Cleaning and Integration Database Flat Files Gambar 2.1 Tahap-tahap penambangan data. (Han, et al., 2006) Tahap tahap tersebut, bersifat interaktif dimana pemakai terlibat langsung atau dengan perantaraan knowledge base. 1. Pembersihan data Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

9 2. Integrasi data Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi data Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi data Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 5. Proses mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.

10 6. Presentasi pengetahuan Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 2.2 Decision Tree Decision tree adalah teknik model prediksi yang digunakan pada klasifiksi, clustering, dan prediksi tugas. Decision tree menggunakan teknik membagi dan menaklukkan untuk membagi ruang pencarian masalah menjadi himpunan masalah. (Dunham, 2003). Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2007). Decision tree adalah sturktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, dimana setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas (Kusnawi, 2007).

11 2.3 Algoritma C5.0 C5.0 adalah versi komersial dari C4.5 yang secara luas digunakan di banyak pemaketan data mining seperti Clementine and RuleQuest. Tidak seperti C4.5, penggunaan algoritma yang tepat untuk C5.0 belum terungkap. Hasil menunjukkan bahwa C5.0 meningkatkan pada penggunaaan memori sekitar 90%, lebih cepat daripada C4.5. (Dunham, 2003) Algoritma C5.0 adalah salah satu algortitma klasifikasi data mining yang khususnya diterapkan pada teknik decision tree. C5.0 merupakan penyempurnaan algoritma sebelumnya yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain. Dalam memilih atribut untuk pemecah obyek dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain paling besar. Atribut dengan nilai information gain tertinggi akan dipilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah (Kantardzic, 2003): I S 1, S 2,., S m = m i=1 pi Ket : S = himpunan kasus S 1 Pi = jumlah sampel = proporsi kelas log 2 p i... 1 Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula dibawah ini : Ket : E A = S 1j + +S mj S y S 1j + +S mj j =1 I S S 1j, S mj... 2 = jumlah subset j yang dibagi dengan jumlah sampel S Untuk mendapatkan nnilai gain selanjutnya digunakan formula dibawah ini : Gain A = I S 1, S 2,, S m E... 3 Ket : A = atribut S S 1 = himpunan kasus = jumlah sampel

12 2.4 Penelitian yang Berkaitan Penelitian yang telah dilakukan oleh Lobban (2008) pada program Ilmu Komputer di California State University, Chico, dari hasil penelitian tersebut hanya dapat memprediksi 75% tingkat keakuratannya, dimana atribut tambahan mengenai Ilmu Komputer dan kelas khusus yang telah diambil mahasiswa akan meningkatkan akurasi prediksi prestasi akademik. Ogor (2007) juga telah melakukan penelitian mengenai Student Academic Performance Monitoring And Evaluation Using Data Mining Techniques, dimana Ogor membandingkan beberapa algoritma antara lain: C5.0, C&RT, ANN, CHAID. Dalam penelitian lain yang dilakukan Bidgoli (2003), penggunaan Combination of Multiple Classifiers (CMC) dapat mencapai peningkatan akurasi secara signifikan pada semua kasus 2, 3, dan 9-kelas dan penggunaan Genetic Algorithm (GA) akan meminimalkan tingkat kesalahan akurasi prediksi minimal 10% pada semua kasus 2, 3, dan 9-kelas. Penelitian yang dilakukan oleh Sajadin (2009) menggunakan J48 decision tree untuk merepresentasikan aturan logika, yang menghasilkan beberapa aturan dan menerapkan multiclass SSVM klasifikasi biner, kemudian menggunakan algoritma Kernel K-Means. Penggunaan Artificial Neural Network dalam penelitian lain yang dilakukan Oladokun (2008) dapat memprediksi kinerja mahasiswa dengan tingkat keakuratan 70%, dimana dalam penelitian ini dibagi dengan beberapa faktor yang mempengaruhi, antara lain: usia saat masuk kuliah, latar belakang orangtua, jenis dan lokasi sekolah menengah, gender, dan lainnya.