ALGORITMA C4.5 DALAM MENGANALISA KELAYAKAN KREDIT(STUDI KASUS DI KOPERASI PEGAWAI REPUBLIK INDONESIA (KP-RI) LENGAYANG PESISIR SELATAN, PAINAN, SUMATERA BARAT) Shary Armonitha Lusinia, S.Kom, M.Kom, Fakultas Ilmu Komputer Universitas Putra Indonesia YPTK Padang e-mail : shary21armansyah@gmail.com Abstrak - Algoritma C4.5 adalah algoritma klasifikasi pohon keputusan (decision tree). Pohon keputusan algoritma C4.5 dibangun dengan tiga tahap yaitu pemilihan atribut sebagai akar, membuat cabang untuk tiap-tiap nilai dan membagi kasus dalam cabang. Tahap-tahap ini akan diulangi untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Dari penyelesaian pohon keputusan maka akan di hasilkan beberapa rule atau pengetahuan dari suatu kasus. Dalam tesis ini penulis mengklasifikasikan kriteria anggota koperasi yang melakukan pengajuan kredit di koperasi pegawai republik indonesia. Pengklasifikasian anggota pengajuan kredit ini di tentukan oleh variabelvariabel yang mempengaruhinya antara lain umur, gaji bersih, jumlah kredit, sisa masa jabatan. Dengan penerapan algoritma C4.5 ini akan dapat membantu pihak Koperasi dalam menentukan anggota kredit yang akan disetujui pengajuan kreditnya, dan mentukan jumlah kredit yang akan dicairkan. Kata kunci : Data Mining, Klasifikasi, Algoritma C4.5, Pohon Keputusan, Koperasi. 1. PENDAHULUAN Kredit pada koperasi merupakan sumber utama penghasilan bagi koperasi, dan juga merupakan sumber resiko terbesar bagi koperasi. Hampir seluruh dana operasional koperasi diputar di dalam kredit, bila kredit yang ada pada koperasi berjalan lancar, maka koperasi tersebut akan berhasil, tetapi jika sebaliknya maka koperasi tersebut akan mengalami kerugian. Evaluasi kredit merupakan elemen penting yang dilakukan sebelum pemberian kredit kepada pemohon kredit, kegiatan ini merupakan aspek yang sangat berpengaruh dalam menunjang proses pemberian kredit, sehingga dari keputusan yang dihasilkan dapat menentukan anggota tersebut layak atau tidak untuk mendapatkan kredit Pada masa sekarang ini data mining merupakan disiplin ilmu yang dapat membantu para pembuat keputusan dalam menetapkan keputusan, secara garis besar metode data mining dapat dipandang dari dua pendekatan, yaitu pendekatan deskriptif dan pendekatan prediktif. klasifikasi merupakan metode yang termasuk kepada pendekatan deskriptif. Teknik C4.5 adalah salah satu keluarga pohon keputusan yang dapat menghasilkan baik pohon keputusan dan aturan-set, dan membangun pohon untuk tujuan meningkatkan akurasi prediksi. ( Jantan, dkk, 2010). Pohon keputusan C4.5 dibangun dengan menggunakan seperangkat data pelatihan atau data set seperti di ID3. Pada setiap node dari pohon, C4.5 memilih satu atribut dari data yang paling efektif membagi set sampel menjadi subset diperkaya dalam satu kelas atau yang lain. ( Hardikar, dkk, 2012). C4.5 adalah ekstensi dari software dasar algoritma ID3 yang dirancang oleh Quinlan untuk mengatasi masalah tidak ditangani secara memadai oleh ID3 (Rajesh, Anand, 2012). C4.5 adalah sebuah algoritma yang digunakan untuk menghasilkan sebuah pohon keputusan yang dikembangkan oleh Ross qiunlan. Banyak peneliti membuat jenis perbaikan pada algoritma pohon keputusan. Tetapi masalahnya adalah bahwa algoritma pohon keputusan ini membutuhkan beberapa pemindaian dan menyortir pengumpulan data beberapa kali dalam proses konstruksi pohon keputusan. Kecepatan pemrosesan berkurang banyak dalam kasus data set begitu besar yang tidak dapat disimpan dalam memori.saat ini, literatur tentang peningkatan efisiensi keputusan pohon klasifikasi algoritma (L.Agrawal, dan Gupta, 2013). Pohon keputusan yang dihasilkan oleh C4.5 dapat digunakan untuk klasifikasi, dan untuk alasan ini, C4.5 sering disebut sebagai Penjodoh Statistik.C4.5 menggunakan informasi entropi konsep. C4.5 membangun pohon keputusan dari serangkaian pelatihan data dalam cara yang sama seperti ID3, menggunakan konsep informasi entropi (Kumar Chaturvedi dan Richariya, 2012). Algoritma C.45 Dalam Menganalisa Kelayakan Kredit... 6
(1) Di mana pi adalah proporsi / probabilitas S milik kelas i. (2) Di mana Nilai (A) adalah himpunan semua nilai yang mungkin untuk atribut A, dan v S adalah bagian dari S yang atribut A memiliki nilai v. 2. METODOLOGI Pada penulisan penelitian ini proses klasifikasi persetujuan pemberian kredit baru diproses dengan membuat pohon keputusan untuk menghasilkan suatu output untuk mengetahui anggota mana yang pengajuan kreditnya disetujui atau menunggu pada Koperasi Pegawai Republik Indonesia (KP RI) Lengayang. Untuk melakukan proses analisa dan klasifikasi tersebut, sampel data yang digunakan adalah data anggota pengajuan kredit pada KP RI Lengayang 2.1. Pemilihan Variabel Setelah kita melakukan analisa masalah, selanjutnya kita harus menentukan variable input data. Pada algoritma C4.5 akan dilakukan perancangan decision tree, dengan memilih atribut pada field- field data sebagai akar, membuat cabang untuk masing-masing nilai. Membagi kasus dalam cabang, dan mengulangi proses untuk masing-masing cabang samapi semua kasus pada cabang memiliki kelas yang sama 2.2. Pengujian Data Secara Manual Pengujian data anggota kredit ini menggambarkan faktor-faktor atau model keterhubungan data anggota kredit. Pada algoritma C4.5 inputan berupa training samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field- field data yang nantinya akan kita gunakan sebagai parameter dalam melakukan klasifikasi data 2.3. Implementasi Menggunakan Software Di dalam penganalisaan data nasabah kredit ini penulis menggunakan software Rapid Miner versi 5.3. Di mana software Rapid Miner memiliki pilihan decision tree untuk keputusan algoritma C4.5 3. HASIL DAN PEMBAHASAN 3.1. Pemilihan Variabel Dari data yang telah diperoleh, maka akan ditentukan variabel data yang menjadi variabel penentu keputusan yaitu, anggota yang pengajuan kreditnya disetujui dan menunggu. Data yang menjadi variabel penentu dalam pembentukan pohon keputusan pada penelitian ini adalah umur, gaji bersih, jumlah kredit, dan sisa masa jabatan.pemilihan variabel penentu tersebut dengan pertimbangan bahwa variabelvariabel yang dipilih merupakan variabel yang paling mempengaruhi keputusan kredit disetujui atau menunggu 3.2. Pra Proses Berdasarkan variabel-variabel yang sudah dipilih dari 30 data sampel, format data menjadi seperti tabel 1 sebagai berikut Setelah data dalam format di atas, dilakukan pra-proses dengan mengelompokkan datadata tersebut ke dalam beberapa kelas yang telah di tentukan berdasarkan Transformasi Algoritma MD Heuristik. 1. Bentuk Set Of Cuts 2. Membentuk discernibility formula 3. Membentuk Tabel representasi dari Discernibility Formula 4. Kemudian dari table tahap ke 3 pilih kolom dengan jumlah 1 paling banyak, kemudian hapus kolom tersebut dan baris yang mempunyai nilai 1 pada kolom yang dihapus, ulangi proses sampai nilai 1 pada tabel kosong 5. Membentuk tabel klasifikasi dari hasil tahap ke 4. Setelah perhitungan data masing-masing kelas telah selesai, maka akan didapatkan hasil seperti table 2 berikut ini: Algoritma C.45 Dalam Menganalisa Kelayakan Kredit... 7
3.3. Pohon Keputusan Dari format data akhir anggota maka akan dilakukan klasifikasi data algoritma C4.5 dengan membuat pohon keputusan. Seperti yang telah dijelaskan sebelumnya Algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut: 1. Pilih atribut sebagai akar. 2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang. 4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama Dalam kasus yang tertera pada tabel 4.6 diatas, akan dibuat pohon keputusan untuk menentukan klasifikasi anggota pengajuan kredit dengan melihat umur, gaji bersih, jumlah kredit, dan sisa masa jabatan. Untuk melihat atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus (2), sedangkan untuk menghitung nilai Entropy dapat dilihat pada rumus (1). Dengan menggunakan dua persamaan tersebut maka akan didapat nilai Entropy pada Gain yang digunakan sebagai akar dalam membuat pohon keputusan. Menghitung jumlah kasus, jumlah untuk keputusan Disetujui, jumlah kasus untuk keputusan Menunggu, dan kasus yang dibagi berdasarkan atribut Umur, Gaji Bersih, Jumlah Kredit, Sisa Masa Jabatan. Setelah itu, lakukan perhitungan Gain untuk setiap atribut Dengan menggunakan persamaan (1), kita dapat menghitung nilaientropy.menghitung Entropy Total dilakukan dengan cara menghitung jumlah keputusan Disetujui dan Menunggu dari seluruh kasus yang ada. Setelah nilai Entropy da Gain dihitung, kemudian hasil dari perhitungan tersebut dimasukkan ke dalam tabel 3 Entropy Totaladalah menghitung nilai total keputusan setujui (14) dan menunggu (16), sedangkan 30 adalah jumlah keseluruhan kasus. Dengan menggunakan persamaan (2) kita dapat menghitung nilai Gain tiap-tiap Atribut Algoritma C.45 Dalam Menganalisa Kelayakan Kredit... 8
Dari perhitungan pada tabel 3 dapat diketahui bahwa atribut dengan gain tertinggi adalah Umur sebesar 0.491553. BerartiJumlah Umur dapat menjadi node akar. Ada 9 atribut dari Jumlah Umur yaitu, 1,2,3,4,5,6,7,8,9. Dari nilai atribut tersebut, klsifikasi Umur 2,6,9sudah mempunyai keputusan Disetujui dan klasifikasi Umur 1,4,8 sudah mempunyai keputusan Menunggu, untuk itu tidak dilakukan lagi perhitungannya,tetapi nilai atribut2,5,7masih perlu dilakukan perhitungan, seperti pada gambar 1 Gambar 1. Pohon Keputusan Node 1 Setelah keseluruhan nilai Entropy dan Gain dari masing-masing variable dihitung, maka terbetuk lah pohon keputusan akhir Gambar 2. Pohon Keputusan Akhir Dari pohon keputusan yang didapat bahwa secara umum anggota KP RI Lengayang mengajukan kredit sebagian besar dipengaruhi oleh jumlah kredit dan sisa jabatan. Berdasarkan pohon keputusan terakhir yang terbentuk pada gambar 2 di atas, maka aturan atau rule yang terbentuk adalah sebagai berikut : 1. If Umur = 1, Then keputusan = 2. If Umur = 2, And Gaji Bersih = Menengah, Jumlah Kredit = 2, Then keputusan = Setujui. 3. If Umur = 2, And Gaji Bersih = Menengah, Jumlah Kredit = 3, Then keputusan = 4. If Umur = 3, Then keputusan = Setujui. 5. If Umur = 4, Then keputusan = 6. If Umur = 5, And Sisa Masa Jabatan = lama, And Gaji Bersih = kecil, Jumlah Kredit = Tinggi, Then keputusan = Setujui. 7. If Umur = 5, And Sisa Masa Jabatan = sebentar, Then keputusan = Menunggu 8. If Umur = 6, Then keputusan = Setujui. 9. If Umur = 7, And Jumlah Kredit = rendah Then keputusan = Setujui. 10. If Umur = 7, And Jumlah Kredit = sedang Then keputusan = Setujui. 11. If Umur = 7, And Jumlah Kredit = tinggi, And Gaji Bersih = besar, And Sisa Masa Jabatan = sebentar, Then keputusan = 12. If Umur = 7, And Jumlah Kredit = tinggi, And Gaji Bersih = kecil, Then keputusan = 13. If Umur = 7, And Jumlah Kredit = tinggi, And Gaji Bersih = menengah, Then keputusan = 14. If Umur = 8, Then keputusan = 15. If Umur = 9, Then keputusan = Setujui 4. KESIMPULAN DAN SARAN 4.1. Kesimpulan Dari uraian pada bab-bab yang sudah dibahas sebelumnya dapat ditarik kesimpulan : 1. Metode pohon keputusan (decision tree) yang diproses dengan software Rapidminer dapat mengidentifikasi kelayakan kredit dengan baik. 2. Pemilihan variabel (atribut kondisi dan atribut keputusan) yang akan digunakan dalam menentukan sebuah klasifikasi juga sangat mempengaruhi rule atau knowledge yang dihasilkan. 3. Sistem yang dibangun dapat membantu dalam mengklasifikasikan kriteria anggota koperasi yang pengajuan kreditnya disetujui dan yang harus menunggu. Sehingga dapat membantu pihak koperasi dalam pengambilan keputusan. 4. Algoritma C4.5 dianggap sebagai algoritma yang sangat membantu dalam melakukan klasifikasi data karena karakteristik data yang diklasifikasikan dapat diperoleh dengan jelas, baik Algoritma C.45 Dalam Menganalisa Kelayakan Kredit... 9
dalam bentuk struktur pohon keputusan (decision tree) maupun dalam aturan rule If Then sehingga memudahkan pengguna dalam melakukan penggalian informasi terhadap data yang bersangkutan 4.2. Saran Adapun beberapa saran dari penulis untuk pengembangan tesis ini adalah: 1. Dalam menggunakan algoritma C4.5 untuk melakukan klasifikasi, harus dilakukan pemilihan variabel yang tepat agar hasil dari pohon keputusan lebih akurat atau terperinci 2. Penelitian ini dapat dilanjutkan dengan menambahkan variabel-variabel yang memiliki hubungan dengan masalah pengajuan kredit agar nantinya tingkat pemberian keputusan yang lebih baik dapat tercapai. 3. Penelitian ini dapat dilanjutkan dengan menggunakan metode-metode data mining lainnya untuk mendapatkan perbandingan metode yang lebih baik DAFTAR PUSTAKA Ariatni, Ratih., dan Arieshanti Isye. Implementasi Metode Pohon Keputusan Untuk Klasifikasi Data Dengan Nilai Fitur Yang Tidak Pasti 1-7. Bin Ismail, Zuhaimy. (2008) Pembangunan Kaedah Heuristik Berasaskan Algoritma Genetika Untuk Menyelesaikan Masalah Penjalanan Kendaraan Vote No. 74285. Defiyanti, Sofi., dan Crispina Pardede, D.L. Perbandingan Kinerja Algoritma ID3 dan C4.5 Dalam Klasifikasi Spam-Mail Gunadi, Goldie., dan Indra Sensue, Dana. (2012) Penerapan Metode Data Mining Market Basket Analysis Terhadap Data Penjualan Prodek Buku Dengan Menggunakan Algoritma Apriori dan Frequent Pattern Growth (FP-Growth) : Studi Kasus Percetakan PT. Gramedia Vol. 4 No. 1, 118-132. Hardikar, Surbini., Shrivastava, Ankur dan Choudhary, Vijay. (2012) Comparison Between ID3 and C4.5 in Contrast to IDS Vol. 02(7), 659-667. Jantan, Hamidah., Razak Hamdan, Abdul dan Ali Othman, Zulaiha (2010) Human Talent Prediction in HRM using C4.5 Classification Algorithm Vol. 02, 2526-2534. Kumar Chaturvedi, Sushil., dan Richariya, Vineet (2012) Attack Detection Over Network Based on C4.5 and RF Algorithms Vol. 57 No. 9, 29-34. Kusrini, dan Taufiq Luthfi, Emha. Algoritma C4.5 L.Agrawal, Gaurav., dan Gupta, Hitesh. (2013) Optimization of C4.5 Decision Tree Algorithm for Data Mining Application Vol. 3 Issue. 3, 341-345. Prasetyo, Eko. (2012) Data Mining Konsep dan Aplikasi menggunakan MATLAB Andi, Yogyakarta Rajesh, K dan Anand Sheila (2012) Analysis Of SEER Dataset for Breast Cancer Diagnosis Using C4.5 Classification Algorithm Vol. 01, 72-77. Ridwan, Mujib., Suyono, Hadi., dan Sarosa, M. (2013) Penerapan Data Mining Untuk Evaluasi Kinerja Akademin mahasiswa Menggunakan Algoritma Naïve Bayes Classifier Vol. 7 No. 1, 59-64. Santosa, Budi. (2007) Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis Graha Ilmu, Yogyakarta Sunjana. (2010) Aplikasi Mining Data Mahasiswa Dengan Metode Klasifikasi Decision Tree 24-29. Sunjana. (2010) Klasifikasi Data Nasabah Sebuah Asuransi Menggunakan Algoritma C4.5 31-34. Syafiq Abriyansyah, Ghiyats. (2010) Tugas Data Mining dan Knowledge Discovery in Database 1-5. Algoritma C.45 Dalam Menganalisa Kelayakan Kredit... 10