BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

dokumen-dokumen yang mirip
PENERAPAN DATA MINING UNTUK KLASIFIKASI PENJURUSAN SEKOLAH MENENGAH ATAS PADA SMA 1 KAJEN DENGAN MENGGUNAKAN ALGORITMA NAIVE BAYES CLASSIFIER

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB III METODOLOGI PENELITIAN. Dataset

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

Prosiding SNATIF Ke-1 Tahun 2014 ISBN:

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 3 METODE PENELITIAN

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

BAB III METODE PENELITIAN

DESAIN APLIKASI UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA. Oleh : Rita Prima Bendriyanti ABSTRAK

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

SKRIPSI TI S1 FIK UDINUS 1

BAB II LANDASAN TEORI

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING

BAB III METODE PENELITIAN

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB I PENDAHULUAN 1.1 Latar Belakang

Cross Industry Standard Process for Data Mining (CRISP-DM) Nama : Siti Maskuroh NIM : A Kel : A

PERBANDINGAN DECISION TREE

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

BAB 2 TINJAUAN PUSTAKA

BAB III METODE PENELITIAN. ini dilaksanakan dari bulan Agustus Oktober 2016.

BAB I PENDAHULUAN. jurusan ditentukan berdasarkan standar kriteria tiap jurusan.

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Implementasi Data Mining Menggunakan Algoritma C4.5 Untuk Klasifikasi Penjurusan Siswa Pada SMA Negeri 2 Pemalang

ALGORITMA NAÏVE BAYES UNTUK PENENTUAN JURUSAN PADA SISWA MADRASAH ALIYAH

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB 2. Landasan Teori

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

KLASIFIKASI UNTUK DIAGNOSA DIABETES MENGGUNAKAN METODE BAYESIAN REGULARIZATION NEURAL NETWORK (RBNN)

DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI KELULUSAN MAHASISWA UNIVERSITAS DIAN NUSWANTORO ABSTRAK

BAB III METODE PENELITIAN

TINJAUAN PUSTAKA. Definisi Data Mining

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

SILABUS MATAKULIAH. Indikator Pokok Bahasan/Materi Aktifitas Pembelajaran

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

PENERAPAN ALGORITMA DECISION TREE C4.5 UNTUK DIAGNOSA PENYAKIT STROKE DENGAN KLASIFIKASI DATA MINING PADA RUMAH SAKIT SANTA MARIA PEMALANG

BAB III METODELOGI PENELITIAN

CONTOH KASUS DATA MINING

BAB II LANDASAN TEORI

ALGORITMA KLASIFIKASI NAÏVE BAYES UNTUK MENILAI KELAYAKAN KREDIT

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

( ) ( ) (3) II-1 ( ) ( )

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek)

BAB 2 TINJAUAN PUSTAKA. menggunakan teknik statistik, matematika, kecerdasan buatan, tiruan dan machinelearning

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

Rancang Bangun Sistem Pendukung Keputusan Penerimaan Beasiswa Menggunakan Meotde Naive Bayes Classiffier

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB I PENDAHULUAN. Peminatan atau bidang peminatan adalah sebuah jurusan yang harus di

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB II TINJAUAN PUSTAKA

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

PENERAPAN ALGORITMA C4.5 UNTUK PREDIKSI JURUSAN SISWA SMAN 3 REMBANG

PENERAPAN ALGORITMA NAIVE BAYES UNTUK KLASIFIKASI PENERIMA BEASISWA PRESTASI

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

BAB II TINJAUAN PUSTAKA

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PROSIDING ISSN:

METODE CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK REKOMENDASI PEMILIHAN BIDANG KEAHLIAN PADA PROGRAM STUDI TEKNIK INFORMATIKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Andi Bekto Rahardjo 1. Jurusan Teknik Informatika, FASILKOM UDINUS Jln. Nakula 1 No 5-11 Semarang INDONESIA.

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Kata Kunci : Optimasi, Naïve Bayes, Risiko Kredit, Algoritma Genetika, Seleksi Fitur.

MODEL KLASIFIKASI KELAYAKAN KREDIT KOPERASI KARYAWAN DENGAN ALGORITMA DECISION TREE

Transkripsi:

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan sekolah menengah atas ini bukanlah penelitian yang pertama kalinya. Sebelumnya sudah ada penelitian yang membahas mengenai klasifikasi penjurusan sekolah menengah atas menggunakan metode algoritma Naive Bayes. Berikut adalah beberapa penelitian yang terkait dengan masalah tersebut. Penelitian yang pertama adalah penelitian yang dilakukan oleh Claudia Clarentina Ciptohartono yang berjudul Algoritma Klasifikasi Naive Bayes untuk Menilai Kelayakan Kredit [7]. Metode yang digunakan pada penelitian ini adalah Algoritma Naive Bayes. Data yang digunakan adalah data dari nasabah perusahaan BCA Finance Jakarta tahun 2013. Tool yang digunakan untuk implementasi sistem adalah matlab. Penelitian ini menghasilkan bukti bahwa algoritma Naive Bayes bisa diterapkan dalam pemberian kelayakan kredit pada BCA Finance Jakarta. Tahap pengolahan data awal dapat menghasilkan akurasi yang tinggi dan menghasilkan akurasi akhir yang Excellent. Dalam penelitian kelayakan kredit ini pada data awal dengan melakukan pre-processing mendapatkan akurasi sebesar 85.57%, tetapi jika data awal dilakukan pengolahan dan dengan melakukan preprocessing dapat menghasilkan akurasi sebesar 92.53%. Jadi Algoritma Naive Bayes akan lebih unggul dalam pemberian penilian kelayakan kredit jika dilakukan proses pengolahan data awal, meskipun algoritma Naive Bayes adalah algoritma yang sanggup menangani data yang hilang. Penelitian yang kedua adalah penelitian yang dilakukan oleh Arief Jananto. Penelitian yang berjudul Algoritma Naive Bayes untuk Mencari Perkiraan Waktu Studi Mahasiswa [8]. Metode yang digunakan pada 5

6 penelitian ini adalah Algoritma Klasifikasi Naive Bayes. Data yang diperoleh adalah data yang berkaitan dengan keterangan diri dari mahasiswa UNISBANK dan data nilai semua mata kuliah mahasiswa lulusan tahun 2004-2007. Kesimpulan dari penelitian tersebut adalah sebagai berikut : a. Ketepatan masa studi mahasiswa diprediksi berdasarkan latar belakang sekolah sebelumnya dan data akademik, serta pribadi saat berada diperguruan tinggi. b. Dalam memprediksi ketepatan studi mahasiswa menggunakan data training dan testing dengan memanfaatkan fungsi prediksi dari teknik data mining yaitu menggunakan algoritma klasifikasi Naive Bayes. c. Fungsi klasifikasi yang digunakan dalam prediksi ketepatan masa studi mahasiswa ini mempunyai tingkat kesalahan sebesar 20% sampai 34%, kesalahan tersebut dapat dipengaruhi oleh jumlah data training dan testing serta tingkat konsistensi data yang digunakan. Penelitian yang ketiga adalah peneltian yang dilakukan oleh Yuda Septian Nugroho. Penelitian yang berjudul Data Mining Menggunakan Algoritma Naive Bayes untuk Klasifikasi Kelulusan Mahasiswa Universitas Dian Nuswantoro [9]. Teknik yang digunkan merupakan teknik klasifikasi dan menggunakan algoritma Naive Bayes, tujuan dari penelitian tersebut adalah mengklasifikasi kelulusan mahasiswa Udinus Fakultas Ilmu Komputer angkatan tahun 2009. Hasil dari penelitian ini dengan menggunakan metode klasifikasi Naive Bayes dan dataset berupa data mahasiswa Universitas Dian Nuswantoro Fakultas Ilmu Kompur angkatan tahun 2009, mendapatkan hasil akurasi kelulusan sebesar 82.08%. Data yang kurang kompleksitas menyebabkan model dapat memprediksi cukup akurat. Penelitian yang terakhir adalah penelitian yang dilakukan Faid Ari Prastya yang berjudul Penerapan Algoritma C4.5 Untuk Prediksi Jurusan Siswa SMAN 3 Rembang [10]. Algoritma yang digunakan pada penelitian ini adalah Algoritma C4.5. Data yang digunakan adalah data siswa SMAN 3

7 Rembang tahun ajaran 2014/2015. Berdasarkan hasil pengujian menggunakan algoritma C4.5 didapat akurasi ketepatan hasil prediksi sebesar 74,65%. Dengan jumlah true positif (tp) sebanyak 107 record, false positif (fp) sebanyak 34 record. Jumlah true negative (tn) sebanyak 108 record dan jumlah false negative (fn) sebanyak 39 record. Jadi klasifikasi data siswa baru Sekolah Menengah Atas Negeri 3 Rembang Tahun Ajaran 2014 / 2015 dengan algoritma C4.5 bisa menjadi pendukung keputusan yang digunakan oleh pihak Sekolah Menengah Atas Negeri 3 Rembang dalam proses penetuan jurusan siswa. Tabel 2.1 : Ringkasan Penelitian Peneliti Judul Metode Tahun Hasil Penelitian Claudia Clarentia Algoritma Klasifikasi Algoritma Naïve 2014 Penelitian ini Ciptohartono Naive Bayes Untuk Bayes Classifier menghasilkan bukti Menilai Kelayakan bahwa algoritma Naive Kredit Bayes bisa diterapkan dalam pemberian kelayakan kredit pada BCA Finance Jakarta. Tahap pengolahan data awal dapat menghasilkan akurasi yang tinggi dan menghasilkan akurasi akhir yang Excellent. Dalam penelitian kelayakan kredit ini pada data awal dengan melakukan pre-processing mendapatkan akurasi sebesar 85.57%, tetapi jika data awal dilakukan pengolahan dan dengan melakukan pre-processing dapat menghasilkan

8 akurasi sebesar 92.53%. Jadi Algoritma Naive Bayes akan lebih unggul dalam pemberian penilaian kelayakan kredit jika dilakukan proses pengolahan data awal, meskipun algoritma Naive Bayes adalah algoritma yang sanggup menangani data yang hilang. Arief Jananto Algoritma Naive Algoritma Naive 2013 Dengan menguji coba data Bayes untuk Mencari Bayes training dan testing secara Perkiraan Waktu Studi random memperoleh Mahasiswa kesalahan prediksi mencari perkiraan waktu studi mahasiswa sebesar 20% sampai 50%. Jumlah record data dan konsistensi dari data training dan testing yang digunakan dapat menyebabkan tinggi dan rendahnya tingkat kesalahan/akurasi. Hasil dari prediksi ketepatan mahasiswa angkatan tahun 2008 dengan menggunkan algoritma Naive Bayes ini adalah diprediksi 254 mahasiswa Tepat Waktu dan diprediksi 4 mahasiswa Tidak Tepat Waktu.

9 Yuda Septian Nugroho Faid Ari Prastya Data Mining Menggunakan Algoritma Naive bayes Untuk Klasifikasi Kelulusan Mahasiswa Universitas Dian Nuswantoro Penerapan Algoritma C4.5 Untuk Prediksi Jurusan Siswa SMAN 3 Rembang Algoritma Naive 2014 Hasil dari penelitian ini Bayes dengan menggunakan metode klasifikasi Naive Bayes dan dataset berupa data mahasiswa Universitas Dian Nuswantoro Fakultas Ilmu Komputer angkatan tahun 2009, mendapatkan hasil akurasi kelulusan sebesar 82.08%. Data yang kurang kompleksitas menyebabkan model dapat memprediksi cukup akurat. C4.5 2015 Dengan menggunakan Algoritma C4.5 menghasilkan akurasi sebesar 74,65%. Dengan jumlah true positif (tp) sebanyak 107 record, false positif (fp) sebanyak 34 record. Jumlah true negative (tn) sebanyak 108 record dan jumlah false negative (fn) sebanyak 39 record. Jadi klasifikasi data siswa baru SMAN 3 Rembang Tahun Ajaran 2014/2015 dengan algoritma C4.5 bisa menjadi pendukung keputusan yang digunakan oleh pihak SMAN 3 Rembang dalam proses penentuan jurusan siswa.

10 Berikut adalah perbedaan penelitian yang penulis teliti dengan penelitian sebelumnya adalah : a. Data yang digunakan oleh penulis dalam penelitian ini adalah data siswa SMA 1 Kajen tahun ajaran 2015/2016 yang menggunakan kurikulum 2013. b. Data yang dianalisa dan diproses oleh penulis akan dijadikan untuk klasifikasi penjurusan siswa di SMA 1 Kajen dengan parameter yang digunakan berupa data nilai Ujian Nasional IPA dan Matematika Sekolah Menengah Pertama (SMP), nilai rapot IPA dan Matematika Sekolah Menengah Pertama (SMP) selama 5 semester, nilai kualitas, nilai IQ, minat jurusan dan jurusan. c. Metode yang digunakan penulis dalam penelitian ini adalah algoritma klasifikasi Naive Bayes, yang digunakan untuk mengklasifikasi penjurusan di SMA 1 Kajen. Untuk melihat tingkat keakurasian data yang diteliti penulis menggunakan tools Rapidminer dan Matlab untuk mengolah data dalam klasifikasi penjurusan siswa SMA 1 Kajen. 2.2 Tinjauan Pustaka 2.2.1 Penjurusan Siswa Peminatan siswa adalah proses dalam pengambilan keputusan dan pilihan oleh siswa dalam bidang keahlian yang didasarkan atas pemahaman potensi diri dan peluang yang ada. Dalam konteks ini, bimbingan dan konseling membantu siswa untuk memahami diri, menerima diri, mengarahkan diri, mengambil keputusan diri, merealisasikan keputusannya secara bertanggung jawab. Implementasi kurikulum 2013 akan dapat menimbulkan masalah bagi siswa SMA/MA dan SMK yang tidak mampu dalam menetapkan pilihan peminatan, baik pemintaan kelompok mata pelajaran, peminatan lintas mata pelajaran maupun pendalaman mata

11 pelajaran secara tepat, sehingga akan menimbulkan kesulitan dan kecenderungan gagal dalam belajar [11]. Penetapan pilihan peminatan kelompok mata pelajaran, pemintaan lintas mata pelajaran, dan pemintan pedalaman materi mata pelajaran harus sesuai dengan kecerdasan, bakat, minat dan kecenderungan pilihan masing-masing siswa agar proses belajar berjalan dengan baik dan berhasil dalam belajar. Oleh karena itu peminatan sangat diperlukan bagi siswa agar dapat menetapkan pilihan peminatan sesuai kemampuan potensi yang dimilikinya dan kemungkinan berhasil dalam belajar. 2.2.2 Data Mining Data mining merupakan proses penggunaan teknik statistik, matematika, artificial intelligence (kecerdasan buatan) dan machine learning yang digunakan untuk mengekstrak serta mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar [12]. Berikut merupakan karakteristik dari data mining : a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang belum diketahui sebelumnya. b. Data mining dapat menggunakan data yang sangat besar. Data yang sangat besar biasanya digunakan untuk membuat hasil data mining yang lebih terpercaya. c. Data mining berguna untuk membuat suatu keputusan yang kritis, terutam dalam hal strategi. Data mining mempunyai beberapa teknik berdasarkan tugas yang dilakukan dan setiap teknik mempunyai algoritma masing-

12 masing. Berikut adalah teknik dalam data mining yang terbagi menjadi enam kategori [9] : a. Deskripsi Para peneliti biasanya mencoba menemukan cara untuk mendeskripsikan pola dan trend yang tersembunyi dalam data. b. Estimasi Teknik estimasi ini mirip dengan teknik kasifikasi, kecuali variabel tujuan lebih kearah numerik dari pada kategori. c. Prediksi Prediksi memiliki kemiripan dengan estimasi dan klasifikasi. Namun prediksi hasilnya menunjukan sesuatu yang belum pernah terjadi atau mungkin terjadi dimasa depan. d. Klasifikasi Dalam klasifikasi variabel, tujuan bersifat kategorik. Contoh, kita akan mengklasifikasi penghasilan dalam tiga kelas, yaitu penghasilan tinggi, penghasilan sedang dan penghasilan rendah. e. Klastering Klastering lebih ke arah pengelompokan record, pengamatan dan kasus dalam kelas yang memiliki kemiripan. f. Asosiasi Asosiasi mengidentifikasi hubungan antara berbagai peristiwa yang terjadi pada satu waktu. 2.2.2.1 Tahap-tahap Data Mining Data mining dapat dibagi menjadi beberapa tahap, Tahap data mining dilakukan sebagai suatu rangkaian proses. Tahap-tahap tersebut bersifat interaktif dimana pemakai terlibat langsung atau dengan perantaraan knowledge base [13]. Berikut adalah tahap-tahap dalam data mining :

13 Gambar 2.1 : Tahapan Data Mining Keterangan: 1. Pembersihan Data Pembersihan data dilakukan untuk menghilangkan noise dan data yang tidak konsisten atau tidak relevan. Sering kali data yang diperoleh dari database suatu perusahaan maupun diperoleh melalui hasil eksperimen, memiliki isian-isian data yang tidak lengkap seperti data yang hilang, tidak valid dan atau hanya salah ketik. Selain itu terdapat atribut-atribut data yang tidak relevan dengan

14 hipotesa data mining yang dimiliki. Data-data yang tidak relevan lebih baik dibuang dan tidak digunakan dalam proses. Pembersihan data akan mempengaruhi performasi dari teknik data mining. Karena data yang diproses akan berkurang jumlah dan kompleksitasnya. 2. Integrasi Data Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database yang baru. Data yang digunakan dalam data mining tidak hanya didapatkan dari satu database namun juga didapatkan dari beberapa database atau file teks. Integrasi data dapat dilakukan pada atribut-atribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomer pelanggan dan lainya. Dalam melakukan integrasi data harus dilakukan dengan cermat agar hasil tidak menyimpang dan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk namun menggabungkan produk dari kategori yang berbeda, maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. Dalam melakukan integrasi data diperlukan transformasi dan pemberisihan data dikarenakan sering kali data dari dua database berbeda cara penulisannya dan bahkan data yang ada disatu database tidak ada di database lainya. 3. Seleksi Data Tidak semua data yang ada dalam database dipakai, oleh sebab itu hanya data yang sesuai akan diambil untuk dianalisa. Sebagai contoh sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analisis, tidak perlu mengambil nama pelanggan, tetapi cukup dengan id pelanggan.

15 4. Transformasi Data Beberapa teknik data mining memerlukan format data yang khusus sebelum dapat diaplikasikan. Sebelum diproses dalam data mining data akan diubah dan di digabungkan ke dalam format yang sesuai. Beberapa metode data mining memerlukan format data khusus agar dapat diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagibagi menjadi beberapa interval. Dalam proses ini sering disebut transformasi data. Transformasi dan pemilihan data ini menentukan kualitas dari hasil data mining nantinya, karena ada beberapa karakteristik teknik data mining tertentu yang tergantung pada tahap ini. 5. Proses Mining Tahap ini merupakan proses utama saat metode diterapkan untuk menemukan informasi atau pengetahuan yang berharga dan tersembunyi dari data. 6. Evaluasi Pola Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas ataupun model prediksi akan dievaluasi untuk menilai apakah hipotensa yang ada memang tercapai. Namun bila hasil yang didapatkan tidak sesuai hipotesa maka akan dilakukan beberapa alternatif, seperti menjadikan umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain dan menerima hasil ini sebagai hasil yang diluar dugaan yang mungkin bermanfaat.

16 7. Presentasi Pengetahuan Tahap yang terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami tentang data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang mampu dipahami semua orang dalam satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,visualisasi juga dapat membantu mengkomunikasikan hasil dari data mining 2.2.3 CRISP-DM (Cross Industry Standart Process for Data Mining) CRISP-DM (Cross Industry Standard Process for Data Mining) adalah suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan sudah ditetapkan sebagai proses standar dalam data mining yang bisa diaplikasikan diberbagai sektor industri. Berikut merupakan gambar dari proses siklus hidup pengembangan dari CRISP-DM [12] :

17 Gambar 2.2 : Siklus Hidup CRISP-DM Berikut merupakan tahap dari siklus pengembangan data mining CRISP-DM : 1. Business Understanding Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis. Kemudian pengetahuan ini diterjemahkan kedalam pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut. 2. Data Understanding Pada tahap ini dimulai dengan pengumpulan data kemudian dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, dan untuk mendeteksi bagian menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.

18 3. Data Preparation Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diperoleh pada modeling) dari data mentah. Data preparation ini dapat diulang beberapa kali. Dalam tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuk juga proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap modeling. 4. Modeling Pada tahap ini dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Dipihak lain ada teknik pemodelan yang membutuhkan format data khusus. Sehingga memungkinkan pada tahap ini dapat kembali ke tahap sebelumnya. 5. Evaluation Pada tahap evaluation ini model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Dalam tahap ini sebelum model digunakan apakah model dapat mencapai tujuan yang ditetapkan pada fase awal yaitu Business Understanding akan dilakukan evaluasi terhadap keefektifan dan kualitas model. Kunci pada tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. 6. Deployment Pada tahap ini pengetahuan dan informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus, sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses

19 data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, disamping analisis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat. 2.2.4 Klasifikasi Klasifikasi merupakan salah satu tugas yang penting dalam data mining. mengorganisasikan serta mengelompokan data ke dalam kelas-kelas yang berbeda merupakan tujuan utama dari klasifikasi. Definisi pengklasifikasian adalah sebuah fungsi yang bersifat prediksi dan menggolongkan data item tertentu ke dalam sebuah kelas. Sebuah pengklasifikasian dibuat dari sekumpulan data latih dengan kelas yang telah ditentukan dan dikenal ciri-cirinya sebelumnya. Performa pengklasifikasian biasanya diukur dengan ketepatan [14]. Gambar 2.3 : Blok Diagram Model Klasifikasi 2.2.5 Algoritma Naive Bayes Algoritma Naive Bayes adalah salah satu algoritma yang terdapat pada teknik data mining klasifikasi. Naive bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuan Inggris yaitu Thomas bayes, Naive Bayes memprediksi peluang dimasa depan berdasarkan pengalaman dimasa sebelumnya, sehingga dikenal dengan Teorema Bayes. Teorema

20 tersebut dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling bebas. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya [15]. Persamaan dari teorema Bayes adalah : ( ). ( ) P(H X) = ( ) Keterangan : X : Data dengan class yang belum diketahui H : Hipotesis data X merupakan suatu class spesifik P(H X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probability) P(H) : Probabilitas hipotesis H (prior probability) P(X H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas X Adapun alur dari metode Naive Bayes adalah sebagai berikut : 1. Baca data training 2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka: a. Cari nilai mean dan standar deviasi dari masing masing parameter yang merupakan data numerik. b. Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut. 3. Mendapatkan nilai dalam tabel mean, standar deviasi dan probabilitas.

21 2.2.6 Pengujian Cross Validation Validation merupakan proses untuk mengevaluasi keakurasian prediksi dari model data mining. Validasi digunakan untuk mendapatkan prediksi menggunakan model yang sudah ada dan kemudian membandingkan hasil tersebut dengan hasil yang sudah diketahui, ini mewakili langkah paling penting dalam proses membangun sebuah model [16]. Cross Validation merupakan teknik validasi dengan membagi data secara acak ke dalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi. Dalam Cross Validation, jumlah tetap lipatan atau partisi dari data ditentukan sendiri. Cara standar untuk memprediksi error rate dari teknik pembelajaran dari sebuah sampel data tetap adalah dengan menggunakan tenfold cross validation. 2.2.7 Confusion Matrix Confusion Matrix matrix memberikan keputusan yang diperoleh dalam traning dan testing, confusion matrix memberikan penilaian performance klasifikasi berdasarkan objek dengan benar atau salah. Confusion matrix berisi informasi aktual (actual) dan prediksi (predicted) pada sistem klasifikasi [7]. Tabel 2.2 : Confusion Matrix untuk 2 Kelas Classification Predicted class Class = Yes Class = No Class=Yes a (true positive-tp) b (false negative-fn) Class=No c (false positive-fp) d (true negative-tn) Berikut merupakan persamaan model confusion matrix untuk menghitung akurasi. Akurasi =

22 2.3 Kerangka Pemikiran Penulis perlu membuat gambaran singkat sebagai alur penyusunan laporan ini dengan kerangka pemikiran sebagai berikut: Masalah Penerapan Kurikulum 2013 untuk penjurusan siswa SMA Studi Pustaka Buku dan Jurnal tentang data mining dan penjurusan siswa Tindakan Membuat sistem pendukung keputusan yang dapat digunakan oleh pihak sekolah untuk membantu proses penjurusan siswa Metode Algoritma Naive Bayes Penerapan Data Siswa SMA 1 Kajen tahun ajaran 2015/2016 Tool RapidMiner Studio dan Matlab Hasil Klasifikasi penjurusan siswa Gambar 2.4 : Kerangka Pemikiran.