IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELAYAKAN KREDIT NASABAH PADA BMT BUMI MIZAN SEJAHTERA YOGYAKARTA MENGGUNAKAN ALGORITMA C4.5 NASKAH PUBLIKASI diajukan oleh Ardun 12.11.6692 kepada SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA YOGYAKARTA 2015
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELAYAKAN KREDIT NASABAH PADA BMT BUMI MIZAN SEJAHTERA YOGYAKARTA MENGGUNAKAN ALGORITMA C4.5 Ardun 1), Windha Mega Pradnya D 2), 1) Teknik Informatika STMIK AMIKOM Yogyakarta 2) Sistem Informasi STMIK AMIKOM Yogyakarta Jl Ringroad Utara, Condongcatur, Depok, Sleman, Yogyakarta Indonesia 55283 Email : ardun.a@students.amikom.ac.id 1), windha.m@amikom.ac.id 2) Abstract - The cooperative is one of the institutions engaged in the field of financial services such as banks. The Bank or financial institution, credit risk is an important factor that needs to be managed.evaluation of credit risk is a very challenging problem and dominant role in financial analysis. BMT BMS Yogyakarta one cooperative save loan succe attracted many clients each year, but the cooperative got difficulties in determining the creditworthiness of new customers and to anticipate well or not mortgage payment the customer is doing the lending. The research was cunducted by identifying problems and determining goals. Then take the data with observations and analyzes data by studying some of the existing literature. Data analysis using data mining methods of decision tree algorithm C4.5. The resulting model will rule created an application system that is able to support the customer s creditworhiness predication system. The application of new data using these implementations produce data according to the prediction of greater than not appropriate, so that it can be said that the system of applications using algorithm implementations of C4.5 can be used for the determination of the appropriateness of granting credit cooperative to the customer. Keywords : Data Mining, Algorithm C4.5, Cooperative 1. PENDAHULUAN BMT Bumi Mizan Sejahtera (BMS) Yogyakarta merupakan salah satu contoh Lembaga Keuangan Mikro (LKM), koperasi simpan pinjam yang sukses menarik banyak nasabah, terbukti dengan meningkatnya jumlah nasabah baru tiap tahunnya. Melihat peningkatan tersebut pihak lembaga terkait juga harus meningkatkan kualitas dari sistem yang mengelola setiap transaksi yang dilakukan, maka dibutuhkan sebuah sistem yang dapat membantu memanajemen para nasabahnya, namun pihak lembaga terkait mengalami kesulitan dalam mengambil keputusan kelayakan kredit nasabah dengan memprediksi resiko kelancaran pembayaran kredit kedepannya. Kebanyakan koperasi simpan pinjam hanya melihat dari aspek gaji untuk menentukan kelayakan kredit, sedangkan kita tidak selalu tahu kebutuhan seseorang sehingga dapat terjadi kekeliruan. Penelitian ini dilakukan dengan pengujian data histori transaksi nasabah mendapat pembiayaan kredit koperasi, baik yang bermasalah dalam pembayaran angsurannya maupun tidak dengan menggunakan data mining algoritma C4.5. penulis melakukan penelitian ini menggunakan algoritma C4.5 karena memiliki tingkat akurasi yang lebih tinggi dibandingkan algoritma pohon keputusan yang lain. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan, dengan metode pohon keputusan kita dapat mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan variabel target [1]. Melihat kondisi demikian, diperlukan sebuah sistem aplikasi perangkat lunak menggunakan algoritma C4.5 yang dapat membantu pihak BMT BMS Yogyakarta dalam menentukan kelayakan kredit nasabah yang hendak melakukan kredit, dengan memprediksi layak atau tidak diberi pembiayaan kredit. Rancangan sistem aplikasi yang akan dibuat adalah Implementasi Data Mining untuk Memprediksi Kelayakan Kredit Nasabah pada BMT Bumi mizan Sejahtera Yogyakarta Menggunakan Algoritma C4.5. Sistem aplikasi yang dibuat ini diharapkan mampu mengatasi persoalan di atas dan menghasilkan informasi yang tepat, akurat dan relevan. 2. PEMBAHASAN 2.1 Tinjauan Pustaka Beberapa penelitian menggunakan data mining Algoritma pohon keputusan telah banyak digunakan dari berbagai studi kasus khususnya algoritma C4.5, karena alagoritma C4.5 memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan algoritma pohon keputusan yang lain. Penelitian terkait dengan menggunakan algoritma C4.5 adalah sebagai berikut : Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Feti Jayanti (2014) dengan judul Implementasi Data Mining Algoritma C4.5 Untuk Pengelompokan Hasil Diagnosa Pasien Pengguna JAMKESMAS pada Rumah Sakit Umum KRATON Pekalongan. Penelitian tersebut dilakukan untuk 1
mengetahui hasil diagnosa pengguna JAMKESMAS pada Rumah Sakit Umum KRATON Pekalongan untuk dapat ditentukan jumlah pasiennya [2]. Studi kasus pohon keputusan menggunakan Algoritma C4.5 pernah juga diteliti oleh Mabrur dan Lubis (2012) pada Perkreditan Nasabah Bank XY Kabupaten Bandung dengan judul Penerapan Data Mining Untuk Memprediksi Kriteria Nasabah Kredit. Penelitian tersebut dilakukan untuk membantu bagian dana dalam menganalisis data nasabah untuk menentukan target pemasaran kredit sehingga diharapkan biaya operasional marketing perbankan dapat ditekan se-minimum mungkin [3]. Studi kasus yang lain, penelitian terkait perbandingan kinerja pohon keputusan ID3 dan C4.5 pernah dilakukan oleh Sukardi, Abd Syukur dan Supriyanto (2014) dengan judul Klasifikasi Spam Email Menggunakan Algoritma C4.5 dengan Seleksi Fitur. Membuktikan bahwa pohon keputusan algoritma C4.5 memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan ID3 dalam mengklasifikasikan data spam email [4]. 2.2 Landasan Teori 2.2.1 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah suatu proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk., 2005) [1]. 2.2.2 Pohon Keputusan (Decision Tree) Pohon keputusan merupakan metode klasifikasi dari prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target [1]. 2.2.3 Algoritma C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut [1] : 1. Pilih atribut sebagai akar. 2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang. 4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algortima C4.5 yaitu [1] : 1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas tertentu. 2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus : Keterangan : S : Himpunan Kasus A : Atribut B : Jumlah partisi atribut A Si : Jumlah Kasus pada partisi ke-i S : Jumlah Kasus dalam S 3. Kemudian hitung nilai gain menggunakan rumus : Keterangan : S : Himpunan Kasus A : Fitur n : Jumlah partisi S Pi: Proporsi dari Si terhadap S 4. Ulangi langkah kedua hingga semua record terpartisi. 5. Proses partisi keputusan akan berhenti saat : a. Semua record dalam simpul N mendapat kelas yang sama. b. Tidak ada atribut di dalam record yang dipartisi lagi. c. Tidak ada record di dalam cabang yang kosong. 2.3 Analisis Data Tahap awal yang dilakukan untuk melakukan prediksi kelayakan kredit nasabah pada BMT Bumi Mizan Sejahtera Yogyakarta diterapkannya sebuah sistem informasi yang baru adalah melakukan analisis data terhadap sistem informasi yang baru. data digunakan untuk pengembangan sistem informasi yang baru, dilakukan dengan menganalisis beberapa data penting yang mempengaruhi sistem informasi supaya pencapaian informasi lebih cepat, tepat, konsisten yang baik, mereduksi biaya dan keamanan yang lebih baik. Adapun variabel yang akan diproses data mining menggunakan algoritma C4.5 sebagai berikut : 1. Jumlah Tanggungan Keluarga Variabel ini berisi data jumlah tanggungan keluarga dari nasabah. Jumlah tanggungan keluarga telah sesuai dengan analisis yang dilakukan terhadap 2
data manual dari pihak BMT BMS Yogyakarta, pengelompokan yang telah ditentukan yaitu 0 2 orang dan >= 3 Orang. 2. Jumlah Pembiayaan Diajukan Variabel ini berisi data jumlah pembiayaan yang diajukan oleh nasabah yang akan disetujui dari pihak BMT BMS Yogyakarta. Pengelompokan minimal dan maksimal jumlah pembiayaan yang diajukan telah sesuai dengan data yang dianalisis yaitu < Rp. 5.000.000, Rp.5.000.000 Rp.50.000.000, dan > Rp.50.000.000. 3. Keperluan Pembiayaan Variabel ini berisi jenis keperluan nasabah untuk melakukan perkreditan terhadap pihak BMT BMS Yogyakarta. Pengelompokan jenis keperluan sesuai dengan yang ada berdasarkan untuk keperluan Tambah Modal dan Beli Barang. 4. Jangka Waktu Variabel ini berisi data jangka waktu pembayaran yang diajukan oleh nasabah yang akan disetujui dari pihak BMT BMS Yogyakarta. Pengelompokan minimal dan maksimal dari data yang telah sesuai dengan yang ada yaitu 1 12 Bulan, 13 24 Bulan, dan 25 36 Bulan. 5. Agunan/Jaminan Variabel ini berisi jenis agunan/jaminan dari nasabah. jenis agunan/jaminan yang diberikan oleh pihak nasabah terhadap pihak BMT BMS Yogyakarta seperti BPKB Motor, BPKB Mobil, Sertifikat Tanah, Kartu Pasar, Barang Berharga dan SK Karyawan/PNS. Dalam pengelompokan jenis agunan/jaminan akan dilihat dari besar jumlah nilai jual jaminan tersebut yang disesuaikan dengan jumlah pembiayaan yang akan diajukan, karena pihak BMT harus menganalisis terlebih dahulu tingkat kebesaran jumlah nilai jual dari agunan/jaminan yang diberikan nasabah. pengelompokan minimal dan maksimal dari data yang telah sesuai dengan data yang ada yaitu Low, Medium, dan High. 6. Total Penghasilan Variabel ini berisi data total penghasilan dari nasabah. pengelompokan minimal dan maksimal data yang telah sesaui dengan yang ada yaitu Low, Medium, dan High. 7. Karakter Variabel ini berisi jenis karakter dari nasabah, pengelompokan sesuai dengan yang ada berdasarkan karakter Baik dan Bermasalah. 8. Kelayakan Variabel ini merupakan data yang berfungsi untuk menentukan hasil keputusan dari data nasabah yang sudah diproses. Pengelompokan data sudah ditentukan secara tepat agar tidak terjadi kesalahan dalam perhitungan proses sistem. Data keputusan utuk kelayakan hanya ditentukan sesaui data yang ada berdasarkan Ya dan Tidak. 2.4 Analisis Model 2.4.1 Kebutuhan Masukan Kebutuhan masukan dari sistem adalah berupa atribut yang dimiliki oleh sebuah variabel, nilai atribut dan nilai kemungkinannya yang dibuat ke dalam sebuah data tabel. Data tabel yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu kolom atribut masukan dan satu kolom sebagai atribut target. Setiap kolom terdapat nilai-nilai yang akan dipergunakan untuk kalkulasi, dan nilai dari setiap atribut harus bersifat rahasia. Atribut yang digunakan untuk perhitungan pada penelitian ini yaitu jumlah tanggungan, jumlah pembiayaan, keperluan, jangka waktu, agunan/jaminan, total penghasilan, karakter dan kelayakan. Salah satu proses kalkulasi dari entropy adalah proses kalkulasi nilai entropy prediksi yaitu dengan jumlah 60 sampel data. Selanjutnya, akan diuraikan penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5. Berikut adalah data untuk prediksi kelayakan kredit nasabah pada BMT BMS Yogyakarta. Tabel 1 Hasil Perhitungan Entropy dan Gain Melihat hasil kalkulasi tabel di atas dapat diperoleh hasil entropy dan gain dari masing-masing atribut. Dapat kita lihat juga hasil pohon keputusan berdasarkan kolom node yang dihasilkan. Pada node 1.1 didapatkan variabel karakter sebagai pohon pertama. Pohon pertama ditentukan dari hasil nilai gain terbesar. Setelah itu, untuk menentukan hasil keputusan akhir dapat dilihat dari hasil entropy yang memiliki nilai nol. Apabila hasil entropy nol telah didapatkan, maka selanjutnya dilihat dari hasil variabel keputusan yang paling tinggi nilainya. Dari hasil perhitungan entropy dan gain node 1.1, maka dapat membentuk cabang pohon keputusan sebagai berikut : 3
Gambar 1 Hasil Akhir Pembentukan Cabang Pohon Keputusan 2.5 Perancangan Alur Sistem 2.5.1 Diagram Konteks Diagram konteks merupakan diagram yang menggambarkan aliran data secara garis besar yang dipresentasikan dengan lingkaran tunggal yang mewakili keseluruhan sistem. Diagram ini mencatat data yang masuk ke sistem beserta sumbernya, informasi yang dihasilkan oleh sistem dan tujuannya. Diagram konteks ini terdapat sebuah proses sistem kelayakan kredit nasabah dan satu entitas karyawan, seperti gambar diagram konteks yang ada di bawah ini. Gambar 3 Flowchart 2.5.3 Data Flow Diagram (DFD) Data Flow Diagram (DFD) adalah bagan atau alat perancangan sistem yang menggambarkan sebuah logika dan alur pada sebuah sistem. DFD merupakan langkah yang digunakan untuk menurunkan diagram konteks dalam bentuk lebih detail. Model ini menggambarkan sistem sebagai jaringan kerja antar fungsi yang saling berhubungan dengan aliran data dan penyimpanan data. Pada sistem ini digunakan DFD level 0 seperti gambar di bawah ini. Gambar 2 Context Diagram 2.5.2 Flowchart Sistem flowchart merupakan diagram alir yang menggambarkan suatu sistem logika sistem aplikasi yang digunakan untuk proses pengolahan data serta hubungan antar peralatan tersebut, untuk meningkatkan efisiens dan efektifitas pelayanan di BMT Bumi Mizan Sejahtera Yogyakarta. Gambar di bawah ini merupakan flowchart dari sistem baru yang dibuat. Gambar 4 Data Flow Diagram (DFD) Level 0 2.6 Impelementasi Sistem Implementasi sistem merupakan tahap meletakkan sistem yang dikembangkan setelah melakukan analisis dan rancangan sistem, supaya nantinya sistem yang baru tersebut siap untuk dioperasikan oleh user atau pengguna sistem sesuai dengan yang direncanakan dan diharapkan. 4
2.6.1 Implementasi Program 2.6.1.1 Manual Program 1. Tampilan Halaman Login Gambar 9 Halaman Testing Data Kasus Gambar 5 Form Login 2. Tampilan Halaman Utama 2.6.2 Uji Coba Program dan Sistem Uji coba program dilakukan pada pohon keputusan, form prediksi dan status nasabah. Melihat dari hasil yang diperoleh dari program dengan hasil manual. Untuk proses pengujian program digunakan data yang sama seperti pada perhitungan manual dengan sampel 60 data nasabah. Berikut ini sebagian data yang digunakan. Gambar 6 Halaman Utama 3. Tampilan Halaman Menu Data Nasabah Gambar 10 Data Sampel Gambar 7 Halaman Data Nasabah Berikut ini pengujian berdasarkan masing-masing form: 1. Form Pohon Keputusan Pengujian dilakukan dengan menampilkan pohon keputusan yang terbentuk dari hasil olah data sistem. Berikut ini hasil dari pohon keputusan : 4. Tampilan Halaman Tambah Data Nasabah Gambar 11 Hasil Pohon Keputusan Gambar 8 Form Input Data Nasabah 5. Tampilan Halaman Menu Testing 2. Form Prediksi Pengujian dilakukan dengan cara menginputkan nilai variabel yang dimiliki oleh data nasabah. Apabila data tersebut diproses makan sistem akan menampilkan output prediksi kelayakan kredit nasabah. pengujian ini menggunakan contoh calon anggota yang memiliki kasus sebagai berikut. 5
Gambar 12 Hasil Prediksi Berdasarkan hasil perbandingan di atas, nilai yang dihasilkan oleh program memiliki akurasi 95%, dilihat dari perhitungan Ms.Excel dengan perhitungan pada aplikasi, beserta screenshot sebagai bukti akurasi. Oleh karena itu, dapat disimpulkan program ini dapat diimplementasikan di lapangan. 2.6.3 Pemeliharaan Sistem Meskipun aplikasi telah dirancang, dibangun dan diuji coba, sistem ini bisa saja mengalami error atau terjadi kesalahan yang tidak bisa dihindari. Bug bisa disebabkan oleh beberapa faktor, diantaranya : 1. Kebutuhan sistem yang semakin berkembang. 2. Kesalahan dalam mendesain dan mengimplementasikan kebutuhan sistem. Tujuan utama dari pemeliharaan sistem ini adalah : 1. Memperbaiki kesalahan yang mungkin timbul tanpa kesenjangan pada saat proses perancangan, pembuatan dan implementasi sistem. 2. Melakukan backup data secara berkala, dengan tujuan apabila dimasa yang akan datang terjadi kerusakan data secara sistem (internal) maupun kerusakan yang disebabkan oleh user. 3. Menjamin aplikasi berjalan dengan baik karena kegagalana bisa saja berakibat pada kerugian. 3 PENUTUP 3.1 Kesimpulan Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan, maka kesimpulan yang dapat diambil adalah : 1. Sistem ini menampilkan kelayakan kredit nasabah pada BMT Bumi Mizan Sejahtera Yogyakarta dengan meprediksi kelayakan Ya dan Tidak berdasarkan variabel yang telah ditentukan. 2. Sistem data mining untuk memprediksi kelayakan kredit nasabah ini dapat membantu pihak BMT Bumi Mizan Sejahtera Yogyakarta dalam memprediksi kelayakan kredit nasabah berdasarkan rule pohon keputusan algoritma C4.5. 3. Sistem mampu menerapkan pohon keputusan menggunakan algoritma C4.5 dengan cara menginputkan data kasus nasabah yang akan diprediksi. 4. Sistem mampu menggolongkan data nasabah yang masuk dalam kategori Blacklist/Non-Blacklist guna memudahkan pihak BMT dalam mengolah data yang bermasalah. 5. Data yang diinputkan hanya dengan file berekstensi *.csv. 3.2 Saran Saran yang dapat disampaikan oleh penulis untuk pengembangan dan perbaikan pada sistem ini untuk penelitian selanjutnya yaitu : 1. Selama melakukan penelitian ada variabel yang dibutuhkan namun dari pihak BMT BMS masih sedikit data mengenai variabel sebagai salah satu syarat kelayakan kredit nasabah. 2. Adanya penambahan variabel lain yang memungkinkan mempengaruhi hasil kelayakan kredit nasabah dan variabel dijelaskan sedetail mungkin. 3. Adanya penambahan data update secara berkala pada sistem demi mendapatkan hasil kelayakan yang lebih akurat lagi. 4. Pada sistem ini input data bisa sekaligus dalam artian banyak dengan file.csv, untuk itu perlu dibuat export data hasil prediksi dengan file.csv juga guna menambahkan data sewaktu-waktu ke dalam proses mining. 5. Input data sekaligus tidak hanya untuk file.csv saja, tetapi bisa juga ditambahkan dengan bentuk file yang lain. 6. Pada halaman output testing sebaiknya ditambahkan perintah untuk edit data, jika terjadi kesalahan input terhadap data tersebut. DAFTAR PUSTAKA [1] Kusrini, Luthfy, E.T. 2009. Algoritma Data Mining.Yogyakarta : Andi. [2] Prasetyo, Eko. 2012. Data Mining Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta : Andi. [3] Hermawanti, F.A. 2013. Data Mining. Yogyakarta : Andi. [4] Widodo, P.P., Handayanto, R.T., Herlawati. 2013. Penerapan Data Mining Dengan MATLAB. Bandung : Rekayasa Sains. Biodata Penulis Ardun, memperoleh gelar Sarjana Komputer (S.Kom), Jurusan Teknik Informatika STMIK AMIKOM Yogyakarta, lulus tahun 2015. Windha Mega Pradnya D, memperoleh gelar Sarjana Komputer (S.Kom), Jurusan Sistem Informasi STMIK AMIKOM Yogyakarta, lulus tahun 2007. Memperoleh gelar Magister Komputer (M.Kom), Jurusan Teknik Informatika STMIK AMIKOM Yogyakarta, lulus tahun 2011. Saat ini menjadi Dosen di STMIK AMIKOM Yogyakarta. 6