PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA

dokumen-dokumen yang mirip
PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)

SKRIPSI. Oleh : PUSPHITA ANNA OCTAVIANI NIM PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM)

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

KLASIFIKASI LAMA STUDI MAHASISWA FSM UNIVERSITAS DIPONEGORO MENGGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM)

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

KLASIFIKASI RUMAH LAYAK HUNI DI KABUPATEN BREBES DENGAN MENGGUNAKAN METODE LEARNING QUANTIZATION DAN NAIVE BAYES

PERBANDINGAN ANALISIS KLASIFIKASI MENGGUNAKAN METODE K-NEAREST NEIGHBOR

KLASIFIKASI KEIKUTSERTAAN KELUARGA DALAM PROGRAM KELUARGA BERENCANA (KB) DI KOTA SEMARANG MENGGUNAKAN METODE MARS DAN FK-NNC

SKRIPSI. Disusun Oleh : RAHMA NURFIANI PRADITA

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI PENERIMAAN PESERTA DIDIK SMA NEGERI 2 SEMARANG MENGGUNAKAN METODE REGRESI LOGISTIK ORDINAL

MENGIDENTIFIKASI DATA REKAM MEDIS. (Studi Kasus Penyakit Diabetes Mellitus di Balai Kesehatan Kementerian. Perindustrian, Jakarta) SKRIPSI

PERAMALAN JUMLAH TAMU HOTEL DI KABUPATEN DEMAK

SKRIPSI. Disusun oleh: DHINDA AMALIA TIMUR

SKRIPSI. Disusun Oleh : YUSUF ARIFKA RAHMAN

PERBANDINGAN ANALISIS DISKRIMINAN FISHER DAN NAIVE BAYES UNTUK KLASIFIKASI RISIKO KREDIT

IDENTIFIKASI LAMA STUDI BERDASARKAN KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5

PROBABILISTIC NEURAL NETWORK BERBASIS GUI MATLAB UNTUK KLASIFIKASI DATA REKAM MEDIS

PEMODELAN DINAMIS PRODUKSI PADI DI JAWA TENGAH MENGGUNAKAN METODE KOYCK DAN ALMON

KLASIFIKASI TINGKAT KELANCARAN NASABAH DALAM MEMBAYAR PREMI DENGAN MENGGUNAKAN METODE REGRESI LOGISTIK ORDINAL DAN NAÏVE BAYES SKRIPSI

PEMODELAN GEOGRAPHICALLY WEIGHTED LOGISTIC REGRESSION

BAB II LANDASAN TEORI

PEMODELAN REGRESI 3-LEVEL DENGAN METODE ITERATIVE GENERALIZED LEAST SQUARE (IGLS) (Studi Kasus: Lamanya pendidikan Anak di Kabupaten Semarang)

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

PENGAMBILAN SAMPEL BERDASARKAN PERINGKAT PADA ANALISIS REGRESI LINIER SEDERHANA

PENENTUAN MODEL RETURN HARGA SAHAM DENGAN MULTI LAYER FEED FORWARD NEURAL NETWORK MENGGUNAKAN ALGORITMA RESILENT BACKPROPAGATION SKRIPSI

SKRIPSI. Disusun Oleh : DINI PUSPITA JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

KLASIFIKASI KELOMPOK RUMAH TANGGA DI KABUPATEN BLORA MENGGUNAKAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN FUZZY K-NEAREST NEIGHBOR (FK-NN)

KLASIFIKASI KELULUSAN MAHASISWA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO MENGGUNAKAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS)

SKRIPSI. Oleh : LAILI ISNA NUR KHIQMAH NIM :

KETEPATAN KLASIFIKASI KEIKUTSERTAAN KELUARGA BERENCANA MENGGUNAKAN REGRESI LOGISTIK BINER DAN REGRESI PROBIT BINER

SKRIPSI. Disusun Oleh : CANDRA SILVIA

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

PERBANDINGAN ANALISIS KLASIFIKASI NASABAH MENGGUNAKAN REGRESI LOGISTIK BINER DAN (CLASSIFICATION AND REGRESSION TREES)

BAB I PENDAHULUAN. jurusan ditentukan berdasarkan standar kriteria tiap jurusan.

ANALISIS SUPPORT VECTOR REGRESSION

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

Data Mining : Klasifikasi Menggunakan Algoritma C4.5

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG

PENERAPAN REGRESI LINIER MULTIVARIAT PADA DISTRIBUSI UJIAN NASIONAL 2014 (Studi Kasus Nilai Ujian Nasional 2014 SMP Negeri 1 Sayung)

SKRIPSI. Disusun Oleh : RIAMA OKTAVIYANI SAMOSIR JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

KETEPATAN KLASIFIKASI PEMILIHAN METODE KONTRASEPSI REGRESI LOGISTIK MULTINOMIAL

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN Latar Belakang

KOMPUTASI METODE EXPONENTIALLY WEIGHTED MOVING AVERAGE UNTUK PENGENDALIAN KUALITAS PROSES PRODUKSI MENGGUNAKAN GUI MATLAB

Prediksi Kelayakan Masuk Penjurusan Ipa Siswa Sekolah Menengah Atas Menggunakan C4.5 (Studi Kasus: Sma Tarakanita Gading Serpong)

PERHITUNGAN DAN ANALISIS PRODUK DOMESTIK REGIONAL BRUTO (PDRB) KABUPATEN/KOTA BERDASARKAN HARGA KONSTAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SKRIPSI. Disusun Oleh: Ana Kartikawati NIM. J2E009024

ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN BOOTSTRAP AGGREGATING CLASSIFICATION AND REGRESSION TREES (BAGGING CART)

KLASIFIKASI CALON PENDONOR DARAH MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

PERBANDINGAN ANALISIS FAKTOR KLASIK DAN KELOMPOK BAHAN MAKANAN DI JAWA TENGAH

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

REGRESI ROBUST MM-ESTIMATOR UNTUK PENANGANAN PENCILAN PADA REGRESI LINIER BERGANDA

BAB II LANDASAN TEORI

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

STUDI ALGORITMA CART DENGAN INDUKSI FUZZY DALAM MENGKLASIFIKASIKAN DATA

ANALISIS PREFERENSI SISWA SMA DI KOTA SEMARANG TERHADAP PROGRAM STUDI DI PERGURUAN TINGGI DENGAN METODE CHOICE-BASED CONJOINT

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA

PEMODELAN TINGKAT PENGANGGURAN TERBUKA DI PROVINSI JAWA TENGAH MENGGUNAKAN REGRESI SPLINE

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

PEMODELAN REGRESI LINIER MULTIVARIAT DENGAN METODE PEMILIHAN MODEL FORWARD SELECTION

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

ANALISIS SEKTOR UNGGULAN MENGGUNAKAN DATA PDRB

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

BAB I PENDAHULUAN 1.1. Latar Belakang

PEMODELAN LAJU KESEMBUHAN PASIEN RAWAT INAP TYPHUS ABDOMINALIS

DEPARTEMEN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI LAJU PERTUMBUHAN PENDUDUK KOTA SEMARANG TAHUN 2011 MENGGUNAKAN GEOGRAPHICALLY WEIGHTED LOGISTIC REGRESSION

APLIKASI DATA MINING UNTUK ANALISIS ASOSIASI POLA PEMBELIAN DENGAN ALGORITMA APRIORI

BAB 2 LANDASAN TEORI

SKRIPSI APLIKASI METODE GOLDEN SECTION UNTUK OPTIMASI PARAMETER PADA METODE EXPONENTIAL SMOOTHING. Disusun oleh: DANI AL MAHKYA

KLASIFIKASI LAMA STUDI MAHASISWA FSM UNIVERSITAS DIPONEGORO MENGGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM)

PREDIKSI INFLASI BEBERAPA KOTA DI JAWA TENGAH TAHUN 2014 MENGGUNAKAN METODE VECTOR AUTOREGRESSIVE (VAR)

Data Mining II Estimasi

ii Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

RANCANGAN D-OPTIMAL UNTUK REGRESI POLINOMIAL DERAJAT 3 DENGAN HETEROSKEDASTISITAS

PERBANDINGAN METODE PEMULUSAN EKSPONENSIAL TUNGGAL DAN FUZZY TIME SERIES UNTUK MEMPREDIKSI INDEKS HARGA SAHAM GABUNGAN

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST (QUICK, UNBIASED, AND EFFICIENT STATISTICAL TREE) PADA DATA PASIEN LIVER

ANALISIS DESAIN FAKTORIAL FRAKSIONAL 2k-p DENGAN METODE LENTH

Abidah Elcholiqi, Beta Noranita, Indra Waspada

SKRIPSI JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT

PERBANDINGAN ARIMA DENGAN FUZZY AUTOREGRESSIVE (FAR) DALAM PERAMALAN INTERVAL HARGA PENUTUPAN SAHAM. (Studi Kasus pada Jakarta Composite Index)

ANALISIS LAPANGAN PEKERJAAN UTAMA DI JAWA TENGAH BERDASARKAN GRAFIK BIPLOT SQRT (SQUARE ROOT BIPLOT)

ANALISIS JALUR TERHADAP FAKTOR-FAKTOR YANG MEMPENGARUHI INDEKS PRESTASI KUMULATIF (IPK) MAHASISWA STATISTIKA UNDIP

BAB 1 PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

PENERAPAN METODE LEARNING VECTOR QUANTIZATION (LVQ) PADA PREDIKSI JURUSAN DI SMA PGRI 1 BANJARBARU

PERNYATAAN. dikutip dalam naskah ini dan disebutkan dalam daftar pustaka.

ANALISIS KUALITAS PELAYANAN DENGAN MENGGUNAKAN FUZZY SERVQUAL, KUADRAN IPA, DAN INDEKS PGCV SKRIPSI. Oleh: HANIK ROSYIDAH JURUSAN STATISTIKA

ABSTRAK. Kata kunci: Sistem Pakar, Pembelajaran Mesin, Weka, Support Vector Machine, Regresi Logistik, Demam Berdarah, Malaria, Typhus

Transkripsi:

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA (Studi Kasus Nilai Mata Pelajaran Pokok di SMA Negeri 1 Jepara) SKRIPSI Oleh: Rizky Ade Putranto NIM : 24010210141018 JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG 2015

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA (Studi Kasus Nilai Mata Pelajaran Pokok di SMA Negeri 1 Jepara) SKRIPSI Oleh: Rizky Ade Putranto NIM : 24010210141018 JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG 2015 i

ii

iii

KATA PENGANTAR Puji syukur penulis panjatkan atas hadirat Allah SWT yang telah memberikan rahmat dan karunia-nya, sehingga Laporan Tugas Akhir ini terselesaikan. Laporan Tugas akhir yang berjudul Perbandingan Analisis Klasifikasi Antara Decision Tree dan Support Vector Machine Multiclass Untuk Penentuan Jurusan Pada Siswa SMA (Studi Kasus Nilai Mata Pelajaran Pokok di SMA Negeri 1 Jepara) dapat terselesaikan. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada : 1. Ibu Dra. Dwi Ispriyanti, M.Si selaku Ketua Jurusan Statistika FSM Universitas Diponegoro Semarang. 2. Ibu Triastuti Wuryandari, S.Si, M.Si selaku Dosen Pembimbing I dan Bapak Drs. Sudarno, M.Si selaku Dosen Pembimbing II yang telah meluangkan waktu memberikan masukan, motivasi, bimbingan dan pengarahan kepada penulis. 3. Bapak/Ibu Dosen dan teman-teman mahasiswa Statistika Undip yang telah memberikan motivasi dan dukungan kepada penulis. 4. Semua pihak yang tidak dapat disebutkan satu per satu. Penulis menyadari bahwa Laporan Tugas Akhir ini belumlah sempurna. Oleh karena itu, kritik dan saran yang bersifat membangun sangat penulis harapkan. Penulis berharap semoga Laporan Tugas Akhir ini bisa membawa manfaat bagi penulis sendiri khususnya maupun bagi para pembaca pada umumnya. Semarang, 29 September 2015 Penulis iv

ABSTRAK Data mining adalah proses yang mempekerjakan satu atau lebih teknik Machine Learning untuk menganalisis dan mengekstraksi pengetahuan secara otomatis. Analisis klasifikasi data mining adalah menentukan sebuah record data baru ke salah satu dari beberapa kategori yang telah didefinisikan sebelumnya, disebut juga dengan Supervised Learning. Klasifikasi Decision Tree merupakan salah satu teknik terkenal dalam data mining dan merupakan salah satu metode yang popular dalam menentukan keputusan suatu kasus dimana dalam proses metodenya diperoleh kriteria entropy, information gain dan gain ratio. Klasifikasi Support Vector Machine Multiclass (SVMM) dikenal sebagai teknik Machine Learning paling mutakhir menangani kasus multi kelas dimana output dari himpunan data memiliki lebih dari dua kelas atau kategori. Penulisan Tugas Akhir ini bertujuan untuk membandingkan tingkat ketepatan dan laju error klasifikasi Decision Tree dan SVMM untuk prediksi penjurusan siswa SMA di SMA Negeri 1 Jepara. Total akurasi sebesar 88,57% dan laju error 11,43% untuk klasifikasi decision tree dan total akurasi sebesar 87,14% dan laju error 12,86% untuk klasifikasi SVMM. Kata kunci : Data Mining, Machine Learning, Supervised Learning, Decision Tree, Support Vector Machine Multiclass. v

ABSTRACT Data mining is a process that employs one or more of Machine Learning techniques to analyze and extract knowledge automatically. Analysis of data mining is to determine the classification of a new data record into one of several categories that have been defined previously, also known as Supervised Learning. Classification Decision Tree is one of the well-known technique in data mining and is one of the popular methods in the decision making process of a case in which the method is obtained entropy criteria, information gain and gain ratio. Classification Support Vector Machine Multiclass (SVMM) is known as the most advanced machine learning techniques to handle multi-class case where the output of the data set has more than two classes or categories. This final project aims to compare the level of accuracy and error rate of Decision Tree classification and prediction majors SVMM for high school students at SMAN 1 Jepara. The total accuracy of 88,57% and 11,43% error rate for the classification decision tree and the total accuracy of 87,14% and the error rate for the classification SVMM 12,86%. Keywords : Data Mining, Machine Learning, Supervised Learning, Decision Tree, Support Vector Machine Multiclass vi

DAFTAR ISI Halaman HALAMAN JUDUL.. i HALAMAN PENGESAHAN I. ii HALAMAN PENGESAHAN II. iii KATA PENGANTAR iv ABSTRAK.. v ABSTRACT vi DAFTAR ISI.. vii DAFTAR TABEL.. ix DAFTAR GAMBAR.. xi DAFTAR LAMPIRAN xii BAB I PENDAHULUAN... 1 1.1 Latar Belakang.. 1 1.2 Rumusan Masalah..... 5 1.3 Batasan Masalah... 6 1.4 Tujuan... 6 BAB II TINJAUAN PUSTAKA.... 7 2.1 Konsep Dasar Data Mining...... 7 2.2 Operasi Data Mining. 10 2.3 Permasalahan dalam Data Mining.... 11 2.4.Teknik Data Mining.. 12 2.5 Klasifikasi (Classification) 13 2.6 Konsep Decision Tree.. 17 2.6.1 Algoritma C 4.5 20 2.6.2 Memilih Atribut Decision Tree.. 21 2.6.3 Kriteria Pemilihan Atribut.. 22 2.7 Support Vector Machine... 23 2.7.1 Hyperplane. 24 2.7.2 Klasifikasi Linear Separable 24 2.7.3 Klasifikasi Linear Non-Separable 28 2.7.4 Klasifikasi Non Linear. 30 vii

2.8 Konsep SVMM (Support Vector Machine Multiclass) 32 2.8.1 Metode Satu Lawan Semua 33 2.8.2 Metode Satu Lawan Satu 34 2.8.3 Max Voting. 35 2.9 Pengukuran Uji Ketepatan Klasifikasi.. 36 BAB III METODOLOGI... 38 3.1 Sumber Data 38 3.2 Metode Analisis 38 3.2.1 Tahap Pengumpulan Data Sekunder 38 3.2.2 Melakukan Klasifikasi Menggunakan Decision Tree.. 39 3.2.3 Melakukan Klasifikasi Menggunakan SVMM. 39 3.2.4 Melakukan Analisis Perbandingan 40 3.3 Flowchart.. 41 BAB IV HASIL DAN PEMBAHASAN....... 42 4.1 Analisis Klasifikasi Decision Tree 42 4.1.1 Menyiapkan Data Training. 42 4.1.2 Menentukan Akar Pohon Keputusan.. 42 4.1.3 Klasifikasi Penjurusan Menggunakan Decision Tree. 58 4.2 Analisis Klasifikasi Metode SVMM. 60 4.2.1 Pembentukan Persamaan Menggunakan Fungsi Kernel Linier untuk Pembuatan GUI.. 61 4.2.2 Fungsi Kernel Polynomial untuk Perhitungan Akurasi dan Laju Error. 61 4.3 Membuat Aplikasi Klasifikasi SVMM Berbasis text dan GUI. 64 4.4 Analisis Hasil Perbandingan. 66 BAB V KESIMPULAN...... 72 DAFTAR PUSTAKA 73 LAMPIRAN 75 viii

DAFTAR TABEL Halaman Tabel 1. Matriks Konfusi untuk Klasifikasi Tiga Kelas.. 36 Tabel 2. Posisi v Untuk Pemecahan Fitur Nilai IPA.... 43 Tabel 3. Hasil Perhitungan Entropy dan Gain Data Training Simpul Akar Nilai IPA..... 45 Tabel 4. Posisi v Untuk Pemecahan Fitur Nilai IPS.. 46 Tabel 5. Hasil Perhitungan Entropy dan Gain Data Training Simpul Akar Nilai IPS...... 48 Tabel 6. Posisi v Untuk Pemecahan Fitur Nilai Bahasa.... 48 Tabel 7. Hasil Perhitungan Entropy dan Gain Data Training Simpul Akar Nilai Bahasa..... 50 Tabel 8. Posisi v Untuk Pemecahan Fitur Nilai IPA... 52 Tabel 9. Hasil Perhitungan Entropy dan Gain Data Testing Simpul Akar Nilai IPA.. 54 Tabel 10. Posisi v Untuk Pemecahan Fitur Nilai IPS. 54 Tabel 11. Hasil Perhitungan Entropy dan Gain Data Testing Simpul Akar Nilai IPS.. 55 Tabel 12. Posisi v Untuk Pemecahan Fitur Nilai Bahasa.. 56 Tabel 13. Hasil Perhitungan Entropy dan Gain Data Testing Simpul Akar Nilai Bahasa 57 Tabel 14. Hasil Prediksi Klasifikasi Data Training Decision Tree. 66 Tabel 15. Hasil Prediksi Klasifikasi Data Testing Decision Tree...... 67 Tabel 16. Hasil Prediksi Klasifikasi Data Training SVMM... 67 ix

Tabel 17. Hasil Prediksi Klasifikasi Data Testing SVMM... 68 Tabel 18. Perbandingan Data Training... 69 Tabel 19. Perbandingan Data Testing.. 70 x

DAFTAR GAMBAR Halaman Gambar 1. Data Mining dan Teknologi Database Lainnya..... 8 Gambar 2. Proses KDD (Knowledge Discovery in Database) 10 Gambar 3. Proses Pekerjaan Klasifikasi..... 13 Gambar 4. Klasifikasi Dua Kelas 16 Gambar 5. Klasifikasi Multi Kelas...... 16 Gambar 6. Decision Tree untuk Klasifikasi Data Nilai Siswa.. 18 Gambar 7. Penelusuran Decision Tree untuk Menentukan Kelas Dari Objek Nilai Siswa...... 19 Gambar 8. Hyperplane pada SVM.. 24 Gambar 9. Klasifikasi SVM untuk Klasifikasi 3 Kelas... 33 Gambar 10. Flowchart Analisis Klasifikasi 41 xi

DAFTAR LAMPIRAN Halaman Lampiran 1. Data Penjurusan SMA.. 75 Lampiran 2. Data Training Klasifikasi Nilai Penjurusan SMA.. 85 Lampiran 3. Data Testing Klasifikasi Nilai Penjurusan SMA 89 Lampiran 4. Pembentukan Decision Tree dengan Matlab 90 Lampiran 5. Output Decision Tree Data Training..... 91 Lampiran 6. Output Decision Tree Data Testing...... 93 Lampiran 7. Aplikasi GUI Berbasis Decision Tree 95 Lampiran 8. Data dan Group Data Training SVMM. 97 Lampiran 9. Data dan Group Data Testing SVMM. 99 Lampiran 10. Algoritma SVMM Data Training Menggunakan Software Matlab 101 Lampiran 11. Algoritma SVMM Data Testing Menggunakan Software Matlab 104 Lampiran 12.Sintaks Klasifikasi M-File. 107 Lampiran 13.Rancangan GUI Berbasis SVMM. 108 Lampiran 14.Sintaks Callback 109 xii

BAB I PENDAHULUAN 1.1 Latar Belakang Setiap lembaga mempunyai sistem operasional yang setiap transaksi kegiatan operasinya selalu dicatat dan didokumentasikan. Pendokumentasian setiap transaksi sangat berguna bagi lembaga tersebut untuk segala keperluan. Data-data tersebut tersimpan dalam sebuah basis data berkapasitas besar. Bagi suatu perusahaan, data-data yang tersimpan di basis data dapat dimanfaatkan untuk membuat laporan penjualan, kontrol inventaris, dan sebagainya, yang pada akhirnya dapat digunakan untuk mengetahui kondisi keuangan perusahaan. Dalam dunia pendidikan, proses penentuan bidang minat siswa juga menjadi hal yang penting untuk dapat diputuskan dengan benar. Faktor-faktor penentu masuknya siswa dalam sebuah bidang minat menjadi data awal yang dapat digunakan untuk membantu penentuan keputusan. Dalam dunia kesehatan, diagnosis penyakit pasien menjadi hal yang sangat sulit dilakukan. Namun demikian, catatan rekam medis telah menyimpan gejala-gejala penyakit pasien dan diagnosis penyakitnya. Hal seperti itu tentu sangat berguna bagi para dokter muda. Mereka dapat menggunakan catatan rekam medis yang sudah ada sebagai bantuan untuk mengambil keputusan tentang diagnosis penyakit pasien. Beberapa lembaga yang mempunyai sistem operasional data yang tersimpan dalam sebuah basis data kapasitas besar, memicu munculnya suatu ilmu yang dapat digunakan memecahkan banyak kasus, yaitu data mining (Prasetyo, 2012). 1

2 Munculnya data mining didasarkan pada kenyataan bahwa jumlah data yang tersimpan dalam basis data semakin besar. Data mining sendiri berisi pencarian trend atau pola tertentu yang diinginkan dalam basis data yang besar untuk membantu pengambilan keputusan di waktu yang akan datang. Harapannya, perangkat data mining mampu mengenali pola-pola ini dalam data dengan masukan yang minimal. Pola-pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan lainnya. Data mining berhubungan dengan sub-area statistik yang disebut Exploratory Data Analysis (Analisis Data Eksplorasi) yang mempunyai tujuan sama dan bersandar pada ukuran statistik. Data mining berpotensi tinggi jika data yang tepat dikumpulkan dan disimpan dalam sebuah gudang data ( data warehouse). Sebuah gudang data merupakan suatu sistem manajemen basis data relasional yang didesain khusus untuk memenuhi kebutuhan sistem pengolahan transaksi. Basis data cenderung menjadi besar dan dinamis dalam hal isinya yang selalu berubah saat informasi ditambahkan, dimodifikasi atau dihapus. Permasalahan dalam hal ini dari sudut pandang data mining adalah bagaimana menjamin bahwa aturan-aturan tersebut up-to-date dan konsisten dengan informasi paling terkini. Juga sistem penemuan dipengaruhi oleh ketepatan waktu dari data tersebut. Beberapa aplikasi yang menggunakan data mining bermaksud menyelesaikan permasalahan dengan membangun model berdasarkan data yang sudah digali untuk diterapkan terhadap data yang lain. Secara umum terdapat dua jenis tipologi aplikasi data mining (Hermawati, 2013):

3 1. Metode prediksi, yang bermaksud memprediksi nilai yang akan datang berdasarkan data-data yang telah ada variabelnya seperti Classification, Regression, Deviation Detection dan lain-lain. 2. Metode deskriptif, yang bertujuan membantu user agar mudah melihat polapola yang berasal dari data yang ada seperti Clustering, Association Rule Discovery, Sequential Pattern Discovery dan lain-lain. Analisis klasifikasi data mining adalah menentukan sebuah record data baru ke salah satu dari beberapa kategori yang telah didefinisikan sebelumnya, disebut juga dengan supervised learning. Di dalam klasifikasi keluaran dari setiap data adalah bilangan bulat atau diskrit. Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikasikan suatu spesies tertentu, seperti yang dilakukan oleh Carolus von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali mengklasifikasikan spesies berdasarkan karakter fisik dan dikenal dengan bapak klasifikasi. Metode-metode yang telah dikembangkan oleh periset untuk menyelesaikan kasus klasifikasi, antara lain: Pohon keputusan ( Decision Tree), Naïve Bayes, Jaringan Syaraf Tiruan, Analisis Statistik, Algoritma Genetik, Rough Sets, k-nearest Neighbour, Metode Berbasis Aturan, Memory Based Reasoning, Support Vector Machine (Sumathi, 2006). Berdasarkan beberapa metode klasifikasi tersebut, ingin dilakukan perbandingan analisis klasifikasi antara metode Decision Tree dan Support Vector Machine Multiclass untuk penentuan jurusan pada siswa SMA. Tingkat penguasaan ilmu pengetahuan dan teknologi erat kaitannya dengan kesejahteraan dan perekonomian suatu negara. Masyarakat yang berpendidikan, berwawasan, berbudi, dan terampil dapat membawa bangsanya menjadi negara yang maju dan

4 disegani bangsa lain. Oleh karena itu, pendidikan disebut-sebut sebagai salah satu landasan utama meraih impian tersebut. Generasi berpendidikan turut mempengaruhi angkatan kerja di sebuah negara, tanpa terkecuali Indonesia. Menurut Badan Pusat Statistik (BPS), jumlah angkatan kerja di Indonesia pada Agustus 2014 tercatat 118,2 juta orang, berkurang 3 juta orang dari jumlah angkatan kerja pada Februari 2014. Pada Agustus 2014, penduduk bekerja pada jenjang pendidikan Sekolah Dasar ke bawah sebanyak 52 juta orang atau 44 persen, pada jenjang pendidikan SMP sebanyak 21,1 juta orang atau 17,85 persen, pada jenjang pendidikan SMA sebanyak 34,6 juta orang atau 29,27 persen, pada jenjang diploma 2,9 juta orang atau 2,45 persen, dan pendidikan universitas 7,6 juta orang atau 6,43 persen. Dari data Badan Pusat Statistik tersebut dapat disimpulkan bahwa penduduk Indonesia yang bekerja pada jenjang pendidikan diploma dan pendidikan universitas masih sangat rendah. Hal ini dikarenakan banyak lulusan-lulusan dari pendidikan universitas yang bekerja di berbagai macam sektor pekerjaan kebanyakan tidak sesuai dengan bidang atau jurusan yang digeluti pada masa pendidikan di tingkat universitas. Hal ini menjadikan output lulusan dari berbagai universitas tidak sesuai harapan. Sumber dari masalah ini adalah berakar dari ketidaksesuaian minat dan bakat dari seorang individu terhadap penjurusan suatu pendidikan. Sebelum masuk ke jenjang pendidikan diploma dan universitas, seorang individu menempuh jenjang pendidikan di SMA. Di SMA inilah seorang individu sudah diarahkan kepada bidang minat dan bakat seseorang terhadap potensi yang dimiliki, diantaranya yang umum dikenal di masyarakat adalah penjurusan minat bidang pendidikan IPA (Sains), Pendidikan IPS (Sosial), dan

5 pendidikan Bahasa. Tujuan penjurusan ini adalah agar minat dan bakat seseorang dapat terarah dengan spesifik pada bidang ilmu tersebut yang selanjutnya dapat melanjutkan ke jenjang perguruan tinggi dan setelah itu memperoleh suatu pekerjaan yang sesuai minat dan bakat seseorang. Akhirnya tercapai suatu tujuan peningkatan penguasaan ilmu pengetahuan dan teknologi yang erat kaitannya dengan kesejahteraan dan perekonomian suatu negara. Fakta di lapangan masih banyak terdapat kesalahan dalam proses penjurusan pendidikan tersebut. Atas dasar itulah maka penulis ingin mengkaji aplikasi data mining untuk penentuan bidang minat pada siswa SMA dengan menyusun tugas akhir yang berjudul Perbandingan Analisis Klasifikasi Antara Decision Tree dan Support Vector Machine Multiclass Untuk Penentuan Jurusan Pada Siswa SMA (Studi Kasus Nilai Mata Pelajaran Pokok di SMA Negeri 1 Jepara). 1.2 Rumusan Masalah Berdasarkan latar belakang tersebut dapat dirumuskan masalah sebagai berikut : 1. Bagaimana klasifikasi decision tree dihasilkan dari kriteria entropy, information gain, dan gain ratio terhadap penentuan jurusan siswa SMA menggunakan algorithma C4.5 2. Bagaimana klasifikasi SVMM dihasilkan dari kriteria pendekatan satu lawan satu (One against one) terhadap penentuan jurusan siswa SMA 3. Bagaimana hasil model terbaik dari perbandingan klasifikasi decision tree dan SVMM yang dapat digunakan untuk prediksi penjurusan terbaik

6 1.3 Batasan Masalah Penulisan tugas akhir ini dibatasi pada pengujian data rata-rata nilai yang digunakan dalam penentuan penjurusan pendidikan IPA (Sains), IPS (Sosial), dan Bahasa pada tingkat pendidikan di SMA Negeri 1 Jepara. Metode pengujian data ini adalah berurutan dari Decision Tree dilanjutkan dengan Support Vector Machine Multiclass dan akhirnya dapat dilakukan perbandingan dari kedua metode data mining klasifikasi tersebut. 1.4 Tujuan Adapun tujuan dari penulisan tugas akhir ini adalah sebagai berikut : 1. Mendapatkan kriteria entropy, information gain, dan gain ratio analisis klasifikasi decision tree menggunakan algorithma C 4.5 2. Mendapatkan kriteria SVMM dengan pendekatan satu lawan satu ( One against one) 3. Membandingkan tingkat ketepatan akurasi dan laju error klasifikasi decision tree dan SVMM untuk mendapatkan model terbaik yang dapat digunakan untuk prediksi penjurusan terbaik