BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : Tabel 2.1 Penelitian sebelumnya Parameter Penulis Objek Metode Hasil Adilla, M. F. dan Sutojo,T. 2015 - Siswa kelas X di SMA 1 Kajen Tahun Ajaran 2015/2016 - Algoritma Naïve Bayes Classifier Klasifikasi penentuan jurusan siswa dengan matlab akurasi yang dihasilkan 86,1842% dengan error rate sebesar 13,8158% Bisri, M. H. 2014 - Siswa kelas X di SMA Kesatrian 1 Semarang Tahun Ajaran 2014/2015 - Algoritma Naïve Bayes Hasil penelitian ini yaitu prediksi penjurusan siswa menggunakan matlab diperoleh akurasi sebesar 83,8798% dengan error rate sebesar 16,1202% Haryati, S. N. dan Nugroho, Y. S. 2015 - Siswa Kelas X di SMA N 3 Boyolali (selama 5 tahun) - Decision Tree, Naive Bayes, dan Algoritma K-Means Perbandingan 3 metode ini yaitu : a) Metode Decision Tree tingkat akurasi didapatkan sebesar 79,14%, tingkat ketelitian 75,51%, dan recall 90,80%. b) Metode Naïve Bayes tingkat akurasi sebesar 76,82%, tingkat ketelitian 77,51%, dan recall 80,37%. 11
12 Tabel 2.1 Lanjutan Parameter Penulis Objek Metode Hasil - - c) Metode K-Mean tingkat akurasi sebesar 36,40%, tingkat ketelitian 64,25%, dan recall 25,40%. Hidayah, N. 2014 - Siswa kelas X semester 2 di SMA N 1 Subah Tahun Ajaran 2012/2013 - Algoritma Naïve Bayes Classifier Klasifikasi menggunakan naïve bayes classifier menghasilkan akurasi yang excellent. Akurasi yang dihasilkan dari klasifikasi jurusan siswa SMA N 1 Subah menggunakan naïve bayes memiliki akurasi sebesar 98,00% dan nilai AUC 0,999%. Natsir, M. dan Marwanta,Y. Y. 2016 - Balita Puskesmas Umbulharjo 1 Yogyakarta - Naïve Bayes Gizi balita yang didiagnosa dalam keadaan kurang. Dengan hasil Perhitungan probabilitas akhir dari 3 kategori Lebih dengan nilai 0, Baik yaitu sebesar 0.000000000838244, Kurang yaitu 0.00001339185, dan Buruk menghasilkan nilai 0. Winanta, S., Oslan, Y., dan Santoso, G., 2013 - Siswa kelas X semester 2 di SMA Bruderan Purworejo Tahun Ajaran 2009/2010, 2010/2011 dan 2011/2012 - Algoritma Naïve Bayes Tingkat Keakuratan tertinggi dari hasil proses penjurusan dengan menggunakan range yang ditentukan secara manual berada pada range dengan interval 20 dan 25. Pada interval 20, angkatan 2009 mendapatkan sebesar 59 %, 2010 sebesar 66 %, 2011 sebesar 61 %. Sedangkan pada Interval 25, angkatan 2009 mendapatkan sebesar 62 %, 2010 sebesar 58 %, 2011 sebesar 54 % dan Hasil proses penjurusan dengan menggunakan range yang dapatkan dari proses Box Plot
13 Tabel 2.1 Lanjutan Parameter Penulis Objek Metode Hasil - - - rata-rata memiliki tingkat keakuratan lebih tinggi dibanding dengan range yang ditentukan secara manual.pada range Box Plot, tingkat keakuratan angkatan 2009 adalah 62%, tingkat keakuratan angkatan 2010 adalah 63% dan angkatan 2011 adalah 66%. Berdasarkan proses yang telah dilakukan, hasil penjurusan dengan cara tersebut rata-rata memiliki keakuratan lebih tinggi karena seluruh siswa mendapatkan saran jurusan tanpa terkecuali. Fitri Atun - Siswa kelas X SMA Negeri 3 Bantul tahun 2016/2017 - Metode Naïve Bayes Persentase akurasi dengan menggunakan metode Naïve Bayes diperolehan rata-rata dari hasil pengujian secara acak yaitu menghasilkan 78,0101%. Adilla, M. F. dan Sutojo,T. (2015) melakukan prediksi penjurusan Siswa kelas X di SMA 1 Kajen dengan output yang dihasilkan adalah jurusan IPA dan IPS, tujuan dari penelitian ini adalah mengklasifikasikan siswa SMA 1 Kajen angkatan tahun 2015. Objek yang digunakan yaitu siswa kelas X pada awal pendaftaran masuk ke SMA. Data training yang digunakan sebanyak 304 dan 8
14 variabel diantaranya adalah rata-rata nilai raport IPA, rata-rata nilai raport matematika, nilai Ujian Nasional IPA, nilai Ujian Nasional Matematika, nilai kualitas, tes IQ, minat jurusan, dan jurusan. Dimodelkan dengan algoritma Naïve Bayes diperoleh hasil. Menggunakan aplikasi Matlab version R2012a (7.14.0.739) dan RapidMiner 5.3.013 untuk perhitungan dan akurasi, hasil dari Confusin Matrix menunjukkkan accuracy yang dihasilkan dengan menggunakan algoritma Naïve Bayes adalah sebesar 86,1842 dan error rate sebesar 13,8158 %. Bisri, M. H. (2014) melakukan prediksi penjurusan Siswa kelas X di SMA 1 Kesatrian Semarang dengan output yang dihasilkan adalah jurusan IPA dan IPS, tujuan dari penelitian ini adalah mengklasifikasikan siswa SMA 1 Kesatrian Semarang angkatan tahun 2014. Objek yang digunakan yaitu siswa kelas X pada awal pendaftaran masuk ke SMA. Data training sebanyak 366 record dan 7 variabel yaitu Nama, nilai Ujian Nasional Bahasa Indonesia, nilai Bahasa Inggris, nilai Matematika, nilai IPA, minat jurusan, dan jurusan. Dimodelkan dengan algoritma Naïve Baye, hasil penelitian prediksi penjurusan siswa menggunakan matlab diperoleh akurasi sebesar 83,8798 % dengan error rate sebesar 16,1202 %. Haryati, S. N. dan Nugroho, Y. S. (2015) melakukan perbandingan dengan 3 metode untuk membantu penentuan jurusan ini menggunakan metode Decision Tree Algoritma C4.5, Naïve Bayes dan Clustering Algoritma K-Means. Tujuan dari penelitian ini adalah membantu dalam memberikan saran jurusan siswa di SMA Negeri 3 Boyolali yaitu jurusan IPA dan IPS. Atribut yang digunakan terdiri dari Gender, Minat, Rata-rata nilai raport IPA dan Rata-rata IPS, Psikotest IPA, Psikotest IPS, Asal Sekolah, dan Jurusan. Software yang digunakan untuk
15 membantu keakuratan metode yang paling baik yaitu RapidMiner 5. Hasil penelitian ini adalah berdasarkan nilai precision, metode Naïve Bayes lebih baik digunakan untuk penelitian ini dibandingkan dengan metode yang lain dengan nilai 77,51%. Sedangkan berdasarkan nilai recall dan accuracy, Decision Tree lebih baik digunakan dibandingkan metode yang lain dengan nilai recall sebesar 90,80 % dan nilai accuracy sebesar 79,14 %. Variabel yang paling berpengaruh dalam menentukan penjurusan yaitu rata-rata IPA. Hidayah, N. (2014) melakukan prediksi penjurusan Siswa kelas X di SMA Negeri 1 Subah dengan hasil output IPA dan IPS, tujuan dari penelitian ini adalah mengklasifikasikan siswa SMA Negeri 1 Subah angkatan tahun 2012/2013. Objek yang digunakan yaitu siswa kelas X pada semester dua. Sedangkan pada metode yang digunakan dalam pemrosesan data adalah Naïve Bayes. Tujuan obyektif pada penelitian ini adalah peningkatan akurasi model. Pengukuran akurasi tersebut menggunakan matrix dan ROC Curve. Hasil penelitian prediksi penjurusan siswa diperoleh akurasi sebesar 98,00 % dan nilai AUC 0,999 %. Natsir, M. dan Marwanta,Y. Y. (2016) melakukan prediksi gizi balita di Puskesmas Umbulharjo 1 Yogyakarta dengan Hasil dari penelitian ini adalah gizi balita yang didiagnosa dalam keadaan kurang. Dengan hasil Perhitungan probabilitas akhir dari 3 kategori Lebih dengan nilai 0 (nol), Baik yaitu sebesar 0.000000000838244, Kurang yaitu 0.00001339185, dan Buruk menghasilkan nilai 0 (nol).
16 Winanta, S. dan Oslan, Y. Santoso, G., (2013) melakukan prediksi penjurusan Siswa kelas X yang akan naik ke kelas XI di SMA Bruderan Purworejo dengan output yang dihasilkan adalah jurusan IPA, IPS dan Bahasa. Tujuan dari penelitian ini adalah membantu dalam memberikan saran jurusan bagi siswa berdasarkan nilai yang dimiliki siswa dan dicocokkan dengan data-data nilai angkatan lama dengan menggunakan metode Bayesian Clasification. Sistem dibuat dengan menggunakan program aplikasi Microsoft Visual FoxPro 9.0 Range nilai yang digunakan ada 2 yaitu range manual dan dari range box plot. Objek yang digunakan yaitu siswa kelas X pada awal pendaftaran masuk ke SMA. Keakuratan tertinggi dari hasil proses penjurusan dengan menggunakan range yang ditentukan secara manual berada pada range dengan interval 20 dan 25. Pada interval 20, angkatan 2009 mendapatkan sebesar 59 %, 2010 sebesar 66 %, 2011 sebesar 61 %. Sedangkan pada Interval 25, angkatan 2009 mendapatkan sebesar 62 %, 2010 sebesar 58 %, 2011 sebesar 54 % dan Hasil proses penjurusan dengan menggunakan range yang dapatkan dari proses Box Plot rata-rata memiliki tingkat keakuratan lebih tinggi dibanding dengan range yang ditentukan secara manual. Pada range Box Plot, tingkat keakuratan angkatan 2009 adalah 62%, tingkat keakuratan angkatan 2010 adalah 63% dan angkatan 2011 adalah 66%. Berdasarkan proses yang telah dilakukan, hasil penjurusan dengan cara tersebut rata-rata memiliki keakuratan lebih tinggi karena seluruh siswa mendapatkan saran jurusan tanpa terkecuali.
17 2.2 Dasar Teori Dasar teori digunakan untuk memahami definisi, pengertian dasar dan istilah yang digunakan dalam penelitian ini. Berikut dasar teori yang digunakan : 2.2.1. Data Mining Data mining merupakan proses penggunaan teknik statistik, matematika, artificial intelligence (kecerdasan buatan) dan machine learning yang digunakan untuk mengekstrak serta mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Adilla, M.F., 2016). Berikut merupakan karakteristik dari data mining : 1. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang belum diketahui sebelumnya. 2. Data mining dapat menggunakan data yang sangat besar. Data yang sangat besar biasanya digunakan untuk membuat hasil data mining yang lebih terpercaya. 3. Data mining berguna untuk membuat suatu keputusan yang kritis, terutama dalam hal strategi. 2.2.2. Klasifikasi Klasifikasi merupakan salah satu tugas yang penting dalam data mining. mengorganisasikan serta mengelompokan data ke dalam kelas-kelas yang berbeda merupakan tujuan utama dari klasifikasi. Definisi pengklasifikasian adalah sebuah fungsi yang bersifat prediksi dan menggolongkan data item tertentu ke dalam sebuah kelas. Sebuah pengklasifikasian dibuat dari sekumpulan data latih dengan
18 kelas yang telah ditentukan dan dikenal ciri-cirinya sebelumnya. Kinerja pengklasifikasian biasanya diukur dengan ketepatan (Adilla, M.T., 2016). 2.2.3. Algoritma Naive Bayes Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang ditemukan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal sebagai Teorema Bayes. Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari probabilitas individu. Keuntungan penggunaan Naive Bayes adalah bahwa metode ini hanya membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan estimasi paremeter yang diperlukan dalam proses pengklasifikasian. Naive Bayes sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks dari pada yang diharapkan (Pattekari, S. A., Parveen, A., 2012). Persamaan dari teorema Bayes adalah (Bustami, 2013) :..(1) di mana : X : Data dengan class yang belum diketahui
19 H P(H X) : Hipotesis data merupakan suatu class spesifik : Probabilitas hipotesis H berdasar kondisi X (posteriori probabilitas) P(H) P(X H) P(X) : Probabilitas hipotesis H (prior probabilitas) : Probabilitas X berdasarkan kondisi pada hipotesis H : Probabilitas X Persamaan di atas merupakan model dari teorema Naive Bayes yang selanjutnya akan digunakan dalam proses perhitungan. Adapun persamaan yang digunakan untuk menghitung nilai rata rata (mean) dapat dilihat sebagai berikut : (2) di mana : μ : rata rata hitung (mean) xi : nilai sample ke -i n : jumlah sampel Persamaan untuk menghitung nilai simpangan baku (standar deviasi) dapat dilihat sebagai berikut: (3)
20 di mana : σ : standar deviasi xi : nilai x ke -i μ : rata-rata hitung n : jumlah sampel yaitu : Perhitungan untuk mencari probabilitas pertama dengan persamaan (4) di mana : P : Peluang Xi : Atribut ke i xi : Nilai atribut ke i Y : Kelas yang dicari yi : Sub kelas Y yang dicari μ : mean, menyatakan rata rata dari seluruh atribut σ : Standar deviasi, menyatakan varian dari seluruh atribut. Perhitungan untuk mencari probabilitas kedua untuk data kategori dengan persamaan yaitu :
21 P(X i =x i Y =y j )=..(5) di mana : P : Peluang X i : Nilai Mapel x i : Atribut ke-i Y : Kelas yang di cari y i : Sub kelas Y yang dicari Perhitungan untuk mencari akurasi dengan persamaan yaitu : Akurasi =..(6) 2.2.4. Matlab Matlab merupakan sebuah singkatan dari Matrix Laboratory, yang pertama kali dikenalkan oleh University of New Mexico dan University of Stanford pada tahun 1970. software ini pertama kali memang digunakan untuk keperluan analisis numerik, aljabar linier dan teori tentang matriks. Saat ini, kemampuan dan fitur yang dimiliki oleh Matlab sudah jauh lebih lengkap dengan ditambahkannya toolboxtoolbox yang sangat luar biasa. Beberapa manfaat yang didapatkan dari Matlab antara lain: Perhitungan Matematika, Komputasi numerik, Simulasi dan pemodelan, Visualisasi dan analisis data, Pembuatan grafik untuk keperluan sains dan teknik, Pengembangan aplikasi, misalnya dengan memanfaatkan GUI. Matlab dapat dipandang sebagai sebuah kalkulator dengan
22 fitur yang lengkap. Kita pernah menggunakan kalkulator dengan fasilitas minimal, misalnya hanya terdapat fasilitas penambahan, pengurangan perkalian dan pembagian. Kalkulator yang lebih lengkap lagi adalah kalkulator scientific dimana fasilitas yang diberikan tidak hanya yang disebutkan di atas, melainkan sudah ada fungsi-fungsi trigonometri, bilangan kompleks, akar kuadrat dan logaritma. Matlab mirip dengan kalkulator tersebut, tetapi dengan fitur-fitur yang lengkap diantaranya dapat digunakan untuk memprogram, aplikasi berbasis GUI dan lengkap dengan toolbox yang dapat dimanfaatkan untuk memecahkan masalah sains dan teknik.