BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

dokumen-dokumen yang mirip
BAB 2 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN. ini dilaksanakan dari bulan Agustus Oktober 2016.

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

DESAIN APLIKASI UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA. Oleh : Rita Prima Bendriyanti ABSTRAK

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 TINJAUAN PUSTAKA

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

BAB III METODE PENELITIAN

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Sistem Klasifikasi Jamur Dengan Algoritma Iterative Dichotomiser 3

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

TINJAUAN PUSTAKA. Definisi Data Mining

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

BAB 1 PENDAHULUAN 1-1

Kerusakan Barang Jadi

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

Prosiding SNATIF Ke-1 Tahun 2014 ISBN:

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

Abidah Elcholiqi, Beta Noranita, Indra Waspada

PENGAMBILAN KEPUTUSAN UNTUK PENENTUAN BEASISWA TEPAT SASARAN MENGGUNAKAN METODE DECISION TREE DI SMK TARUNA BAKTI KERTOSONO

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PROGRAM BANTU PEMILIHAN PAKAIAN DAN BAHAN BATIK BAGI KONSUMEN DENGAN PENDEKATAN DECISION TREE Studi Kasus : Toko InBATIK

BAB 3 METODE PENELITIAN

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Manfaat Pohon Keputusan

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

BAB 2 TINJAUAN PUSTAKA

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

BAB 2 TINJAUAN PUSTAKA

SKRIPSI TI S1 FIK UDINUS 1

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

Belajar Mudah Algoritma Data Mining : C4.5

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

BAB I PENDAHULUAN. waktu mendatang. Perkembangan teknologi informasi membuat pencarian. data data sangat mudah bahkan cenderung berlebihan.

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

METODE CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK REKOMENDASI PEMILIHAN BIDANG KEAHLIAN PADA PROGRAM STUDI TEKNIK INFORMATIKA

IMPLEMENTASI DATA MINING UNTUK MENGETAHUI PERILAKU SESEORANG DALAM MEMBELI ALAT PANAHAN

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI

BAB 2 TINJAUAN PUSTAKA

DECISION TREE BERBASIS ALGORITMA UNTUK PENGAMBILAN KEPUTUSAN

Penerapan Data Mining dalam Memprediksi Pembelian cat

BAB II LANDASAN TEORI

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

BAB II DASAR TEORI. untuk memenuhi berbagai kebutuhan. Kumpulan file/table/arsip yang saling berhubungan yang disimpan dalam

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB II LANDASAN TEORI

PROPOSAL PENELITIAN. PENERAPAN DATA MINING UNTUK MENINGKATKAN PENJUALAN PADA PT. XL AXIATA, Tbk PALEMBANG

BAB 1 PENDAHULUAN 1-1

KONVERSI DATA TRAINING TENTANG PENYAKIT HIPERTENSI MENJADI BENTUK POHON KEPUTUSAN DENGAN TEKNIK KLASIFIKASI MENGGUNAKAN TOOLS RAPID MINER 4.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

BAB IV HASIL DAN PEMBAHASAN. Data yang digunakan dalam penelitian ini adalah data warehouse

PERBANDINGAN DECISION TREE

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA. Abstrak

BAB IV HASIL DAN PEMBAHASAN. dan fakor-faktor penyebab masalah tersebut bisa terjadi diantaranya. dimanfaatkan dan dikelola dengan baik.

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

IDENTIFIKASI POLA PENYAKIT ANAK DIBAWAH 5 TAHUN (BALITA) DENGAN MENGGUNAKAN ALGORITMA APRIORI

Penggunaan Pohon Keputusan untuk Data Mining

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

PENERAPAN ALGORITMA C4.5 DALAM PENERIMAAN CALON KARYAWAN PT. TELKOM AKSES AREA LAMPUNG BERBASIS WEBSITE

EDUCATIONAL DATA MINING (KONSEP DAN PENERAPAN)

JOIN Volume 2 No. 1 Juni 2017 ISSN

ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN

Transkripsi:

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan pengelohan data yang akurat sehingga bisa langsung digunakan dan dilaporkan. Penelitian mengenai data mining sebelumnya sudah banyak dilakukan, tetapi tempat dan program aplikasi yang digunakan berbeda beda. Adapun sistem data mining yang berkaitan yang pernah dibuat adalah sebagai berikut: Menurut penelitian yang dilakukan oleh Swastina. L. (2013), yang berjudul Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa. Metode yang digunakan dalam penelitian ini adalah Algoritma C4.5, Algoritma C4.5 digunakan untuk menentukan jurusan yang akan diambil oleh mahasiswa sesuai dengan latar belakang, minat dan kemampuannya sendiri. Parameter pemilihan jurusan adalah Indeksi Prestasi Kumulatif Semester 1 dan 2. Hasil eksperimen dan evaluasi dari penelitian tersebut menunjukan bahwa Algoritma Decision Tree C4.5 akurat diterapkan untuk penentuan kesesuaian jurusan mahasiswa dengan tingkat akurasi 93,31% dan akurasi rekomendasi jurusan sebesar 82,64%. Andriani. A. (2013), melakukan penelitian tentang Sistem Pendukung Keputusan Berbasis Decision Tree dalam Pemberian Beasiswa (Studi Kasus: AMIK BSI Yogyakarta ). Tujuan penelitian ini adalah membuat klasifikasi mahasiswa penerima beasiswa dengan Decision Tree yang menggunakan Algoritma C4.5. Hasil klasifikasi dievaluasi dan divalidasi dengan Confusion 5

Matrix dan Kurva ROC untuk mengetahui tingkat akurasi Decision Tree dalam membuat klasifikasi beasiswa. Hasil klasifikasi digunakan untuk membuat sistem pendukung keputusan dalam pemberian beasiswa. Sistem yang digunakan dibuat dengan Microsoft Visual Basic 6.0. Dengan adanya sistem pendukung keputusan ini dapat mempermudah dan mempercepat pengambilan keputusan untuk pemberian beasiswa. Julianto. W. et al (2014), penelitian yang pernah mereka lakukan adalah Algoritma C4.5 untuk Penilaian Kinerja Karyawan. Dengan menggunakan algoritma C4.5 yang menggunakan teknik data mining untuk membuat pohon keputusan, algoritma ini dimulai dengan memasukkan data training ke dalam simpul akar pada pohon keputusan. Data training adalah sampel yang digunakan untuk membangun model classifier dalam hal ini pohon keputusan. Adapun hasil analisis sebagai berikut: berdasarkan evaluasi yang dilakukan dapat diketahui bahwa proses pembentukan pohon menggunakan teknik pruning memiliki kecepatan yang lebih tinggi karena penyederhanaan pohon, tetapi tidak selalu memliki akurasi yang lebih besar, dan perbedaan pohon keputusan yang dihasilkan disebabkan oleh perbedaan jumlah data training yang digunakan pada masingmasing partisi. Dari ketiga peneliti yang telah dilakukan tersebut, klasifikasi Decision Tree dengan Algoritma C4.5 digunakan oleh para peneliti sebagai solusi untuk mengambil keputusan yang diharapkan mampu membantu dalam pengambilan keputusan dengan lebih mudah dan cepat. Begitu juga dengan penelitian ini, klasifikasi Decision Tree dengan Algoritma C4.5 sebagai solusi pengambilan 6

keputusan bagi pihak Universitas dalam menentukan status dosen, sehingga mempermudah pihak universitas dalam menentukan status dosen. Adapun perbedaan yang ada yaitu dalam penelitian ini, data yang digunakan data yang tersimpan didalam database server dan pengambilan data menggunakan software Sql Server 2014. 2.2. Landasan Teori 2.2.1. Data Mining Menurut Gunadi dan Sensuse (2012) Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Data mining merupakan proses analisa data untuk menemukan suatu pola dari kumpulan data tersebut. Data mining mampu menganalisa data yang besar menjadi informasi berupa pola yang mempunyai arti bagi pendukung keputusan. Menurut Hermawati (2013) Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan secara otomatis. Menurut Kursini dan Luthfi (2009) Data Mining merupakan suatu proses otomatis terhadap data yang sudah ada. Dan data yang akan diproses berupa data yang sangat besar. Menurut Han dan Kamber (2006), rancangan bangun dari data mining yang khas memiliki beberapa komponen utama yaitu: Database, data warehouse, atau tempat penyimpanan informasi lainnya. Server database atau data warehouse. 7

Knowledge base. Data mining engine. Pattern evolution module. Graphical user interface. Tahap-tahap data mining salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapantahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya (Kusnawi, 2007). Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. 8

Gambar 1. Tahapan Data Mining (Han dan Kamber, 2006) Keterangan: 1. Pembersihan Data (Data Cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isianisian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya. 2. Integrasi Data (Data Integration) Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining 9

tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi Data (Data Selection) Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analisis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi Data (Data Transformation) Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 10

5. Proses Mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi Pola (Pattern Evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge base yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 7. Presentasi Pengetahuan (Knowledge Presentation) Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (Han dan Kamber, 2006) 11

2.2.2. Klasifikasi Klasifikasi adalah suatu fungsionalitas data mining yang menghasilkan model untuk memprediksi kelas atau kategori dari objek - objek didalam basis data. Klasifikasi merupakan proses yang terdiri dari dua tahap, yaitu tahap pembelajaran dan tahap pengklasifikasian. Pada tahap pembelajaran, sebuah algoritma klasifikasi akan membangun sebuah model klasifikasi dengan cara menganalisis training data. Tahap pembelajaran dapat juga dipandang sebagai tahap pembentuakan fungsi atau pemetaan Y=F(X) dimana Y adalah kelas hasil prediksi dan X adalah tuple yang ingin diprediksi kelasnya. Selanjutnya pada tahap pengklasifikasian, model yang telah dihasilkan akan digunakan untuk melakukan pengklasifikasian. Menurut Herman Aldino, Naam, Julfriadif (2012), klasifikasi adalah proses pencarian sekumpulan model yang menggambarkan dan membedakan kelas data dengan tujuan agar model tersebut dapat digunakan untuk memprediksi kelas dari suatu obyek yang belum diketahui kelasnya. 2.2.3. Decision Tree (Pohon Keputusan) Pohon (tree) adalah sebuah struktur data yang terdiri dari simpul (node) dan rusuk (edge). Simpul pada sebuah pohon dibedakan menjadi tiga, yaitu simpul akar (root node), simpul percabangan/internal (branch/ internal node) dan simpul daun (leaf node), (Hermawati, 2013). Pohon keputusan merupakan representasi sederhana dari teknik klasifikasi untuk sejumlah kelas berhingga, dimana simpul internal maupun simpul akar ditandai dengan nama atribut, rusuk-rusuknya diberi label nilai atribut yang 12

mungkin dan simpul daun ditandai dengan kelas-kelas yang berbeda (Hermawati, 2013). Gambar 2. Konsep Pohon Keputusan Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule. Manfaat utama dari penggunaan pohon keputusan adalah kemampuannya untuk membreak down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Pohon keputusan merupakan himpunan aturan IF...THEN. Setiap path dalam tree dihubungkan dengan sebuah aturan, di mana premis terdiri atas sekumpulan node-node yang ditemui, dan kesimpulan dari aturam terdiri atas kelas yang terhubung dengan leaf dari path (Wibowo, 2011). 13

Gambar 3. Konsep Dasar Pohon Keputusan Bagian awal dari pohon keputusan ini adalah titik akar (root), sedangkan setiap cabang dari pohon keputusan merupakan pembagian berdasarkan hasil uji, dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan. Pohon keputusan banyak mengalami perkembangan, beberapa algoritma yang populer dan sering dipakai adalah ID3, C4.5 dan CART. Tabel 1. Frekuensi Penggunaan Algoritma Pohon Keputusan Algoritma Pohon Keputusan ID3 68 % C4.5 54.55 % CART 40.9 % SPRINT 31.84 % SLIQ 27.27 % PUBLIC 13.6 % C5.0 9 % CLS 9 % RANDOM FOREST 9 % RANDOM TREE 4.5 % ID3+ 4.5 % OCI 4.5 % CLOUDS 4.5 % Frekuensi 14

2.2.4. Algoritma C4.5 Menurut Luthfi (2009), algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon keputusan yang memiliki kelebihan-kelebihan. Kelebihan ini misalnya dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan - aturan yang mudah diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain. Keakuratan prediksi yaitu kemampuan model untuk dapat memprediksi label kelas terhadap data baru atau yang belum diketahui sebelumnya dengan baik. Dalam hal kecepatan atau efisiensi waktu komputasi yang diperlukan untuk membuat dan menggunakan model. Kemampuan model untuk memprediksi dengan benar walaupun data ada nilai dari atribut yang hilang. Dan juga skalabilitas yaitu kemampuan untuk membangun model secara efisien untuk data berjumlah besar (aspek ini akan mendapatkan penekanan). Terakhir interpretabilitas yaitu model yang dihasilkan mudah dipahami. Dalam algoritma C4.5 untuk membangun pohon keputusan hal pertama yang dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang untuk tiaptiap nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus dalam cabang. Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Menurut Luthfi (2009), untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut - tribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1 berikut: 15

Gain(S, A) = Entropy(S) S i Entropy(S) S n i=1 Keterangan: S : Himpunan kasus A : Atribut N : Jumlah partisi atribut A Si : Jumlah kasus pada partisi ke-i S : Jumlah kasus dalam S Sehingga akan diperoleh nilai gain dari atribut yang paling tertinggi. Gain adalah salah satu atribute selection measure yang digunakan untuk memilih test atribute tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribute dari suatu node. Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan 2. Entropy(S) = pi log 2 pi Keterangan: n i=1 S A N Pi : Himpunan kasus : Atribut : Jumlah partisi S : Proporsi dari Si terhadap S 16