BAB II KAJIAN TEORI. Pada bab ini berisi tentang teori-teori dasar mengenai kredit, database,

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB II KAJIAN TEORI. Pada bab ini berisi tentang teori-teori dasar mengenai kredit, database,"

Transkripsi

1 BAB II KAJIAN TEORI Pada bab ini berisi tentang teori-teori dasar mengenai kredit, database, penambangan data (data mining), aturan klasifikasi, decision tree C4.5, naïve bayes, metode evaluasi model, WEKA, dan penelitian yang relevan sebagai landasan pelaksanaan penelitian. A. Kredit Kredit adalah kemampuan untuk melaksanakan suatu pembelian atau mengadakan suatu pinjaman dengan suatu janji pembayarannya akan dilakukan ditangguhkan pada suatu jangka waktu yang disepakati (Teguh Pudjo Muljono, 2000: 9). Menurut Undang-Undang Perbankan No.12 Tahun 1992 pasal 1, kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan dengan itu, berdasarkan persetujuan atau kesepakatan pinjam-meminjam antara pihak bank dengan pihak lain, yang mewajibkan pihak peminjam untuk melunasi hutangnya setelah jangka waktu tertentu dengan bunga, imbalan, atau pembagian hasil keuntungan. Kegiatan perkreditan mempunyai prinsip-prinsip yang disebut juga sebagai konsep 5C. Pada dasarnya konsep 5C dapat memberikan beberapa informasi mengenai seberapa baik nasabah akan melunasi pinjaman. Konsep 5C tersebut adalah sebagai berikut (Kasmir, 2012: 136): 7

2 1. Character Sifat atau watak dari orang-orang yang akan diberikan kredit benar-benar harus dapat dipercaya. Manfaat dari penilaian character yaitu untuk mengetahui sejauh mana tingkat kejujuran dan integritas serta tekad baik yaitu kemauan untuk memenuhi kewajiban-kewajibannya dari calon debitur. 2. Capacity Kemampuan melunasi kewajiban-kewajibannya dari kegiatan usaha yang dilakukannya atau kegiatan usaha yang akan dilakukan dengan biaya kredit bank. 3. Capital Besar atau kecilnya modal seorang calon debitur, serta analisis dari sumber mana saja modal saat ini, termasuk banyaknya modal yang digunakan untuk membiayai usaha yang akan dijalankan. 4. Collateral Barang-barang jaminan yang diserahkan oleh peminjam/ debitur sebagai jaminan atas kredit yang diterimanya. Manfaat collateral yaitu sebagai alat pengamanan apabila usaha yang dibiayai dengan kredit tersebut gagal atau sebab-sebab lain dimana debitur tidak mampu melunasi kreditnya dari hasil usahanya yang normal. 5. Condition of Economy Situasi dan kondisi politik, sosial, ekonomi, budaya, dan lain-lain yang mempengaruhi keadaan perekonomian pada suatu saat maupun untuk suatu 8

3 kurun waktu tertentu yang kemungkinannya akan dapat mempengaruhi kelancaran usaha dari perusahaan yang memperoleh kredit. Jumlah kredit yang disalurkan sangat berpengaruh terhadap hidup matinya lembaga keuangan. Banyaknya jumlah kredit yang disalurkan juga harus memperhatikan kualitas kredit tersebut. Bank Indonesia menggolongkan kualitas kredit menurut ketentuan sebagai berikut (Kasmir, 2013: ): 1. Lancar Suatu kredit dikatakan lancar apabila: a. pembayaran angsuran pokok dan/ atau bunga tepat waktu; dan b. memiliki mutasi rekening yang aktif; atau c. bagian dari kerdit yang dijamin dengan agunan tunai. 2. Dalam perhatian khusus Dikatakan dalam perhatian khusus apabila memenuhi kriteria antara lain: a. terdapat tunggakan pembayaran angsuran pokok dan/ bunga yang belum melampaui 90 hari; atau b. kadang-kadang terjadi cerukan atau jumlah penarikan yang melebihi dana yang tersedia pada akun giro atau rekening negatif yang disebabkan oleh nasabah yang menulis cek melebihi jumlah dana yang ada direkeningnya; atau c. jarang terjadi pelanggaran terhadap kontrak yang diperjanjikan; atau d. mutasi rekening relatif aktif; atau e. didukung dengan pinjaman baru. 9

4 3. Kurang lancar Dikatakan kurang lancar apabila memiliki kriteria diantaranya: a. terdapat tunggakan angsuran pokok dan/ atau bunga yang telah melampaui 90 hari; atau b. sering terjadi cerukan; atau c. terjadi pelanggaran terhadap kontrak yang diperjanjikan lebih dari 90 hari; atau d. frekuensi mutasi rekening relatif rendah; atau e. terdapat indikasi masalah keuangan yang dihadapi debitur; atau f. dokumen pinjaman yang lemah. 4. Diragukan Dikatakan diragukan apabila memenuhi kriteria diantaranya: a. terdapat tunggakan pembayaran angsuran pokok dan/ atau bunga yang melampaui 180 hari; atau b. terjadi cerukan bersifat permanen; atau c. terjadi wanprestasi lebih dari 180 hari; atau d. terjadi kapitalisasi bunga; atau e. dokumen hukum yang lemah, baik untuk perjanjian kredit maupun peningkatan jaminian. 5. Macet Dikatakan macet apabila memenuhi kriteria antara lain: a. terdapat tunggakan pembayaran angsuran pokok dan/ atau bunga yang telah melampaui 270 hari; atau 10

5 b. kerugian operasional ditutup dengan pinjaman baru; atau c. dari segi hukum dan kondisi pasar, jaminan tidak dapat dicairkan pada nilai yang wajar. Penggolongan kualitas kredit di atas digunakan untuk mengantisipasi resiko kredit bermasalah secara dini. Kredit bermasalah atau problem loan dapat diartikan sebagai pinjaman yang mengalami kesulitan pelunasan akibat adanya faktor kesengajaan dan atau karena faktor eksternal di luar kemampuan kendali debitur. Apabila kredit dikaitkan dengan tingkat kolektibilitasnya, maka yang digolongkan kredit bermasalah adalah kredit yang memiliki kualitas dalam perhatian khusus, kurang lancar, diragukan, dan macet (Dahlan Siamat 2004: 174). B. Basis Data (Database) Menurut Connolly & Begg (2002: 15) database merupakan suatu kumpulan data yang terhubung secara logic, dan deskripsi dari data tersebut yang dirancang untuk memenuhi kebutuhan informasi dari suatu organisasi. Database merupakan tempat penyimpanan data yang besar, dimana dapat digunakan secara simultan oleh banyak pengguna. Database terdiri dari beberapa objek antara lain yaitu: 1. Field Field adalah kumpulan dari beberapa karakteristik dari objek-objek yang ada. 2. Record Record adalah kumpulan dari field yang berhubungan satu sama lain. 11

6 3. File File atau berkas adalah kumpulan dari beberapa record yang berhubungan membentuk saling ketergantungan satu dengan yang lainnya. 4. Entity Entity adalah satu kesatuan yang terdiri dari informasi yang disimpan. 5. Attribute Atribut adalah nama dari suatu kolom relasi yang menjelaskan suatu entity. 6. Primary Key Primary Key adalah sebuah field yang mempunyai nilai unik yang tidak memiliki kesamaan antara record yang satu dengan record yang lain. 7. Foreign Key Foreign Key adalah satu atribut atau kumpulan atribut dalam satu relasi yang berguna untuk menghubungkan primary key lain yang berbeda dalam tabel lain. Menurut Han, et al (2012: 9) jenis-jenis database adalah sebagai berikut: 1. Relational database Relational database atau basis data relasional adalah sebuah kumpulan tabel dengan nama khusus dan setiap tabel terdiri atas kumpulan atribut (kolom atau field) dan biasanya menyimpan data dalam jumah yang besar pada data (baris atau record). Setiap data dalam tabel relasi menunjukkan sebuah objek yang diidentifikasi oleh sebuah unique key dan digambarkan oleh nilai dari atribut tersebut. 12

7 2. Data Warehouse Data warehouse adalah tempat penyimpanan informasi dari berbagai sumber data dan disimpan pada satu tempat. Data warehouse dibangun melalui sebuah proses dari pembersihan data dari data-data yang tidak lengkap, menganalisis data, perubahan bentuk data, pemuatan ulang datadata yang baru, dan pembaharuan data secara periodik. 3. Transactional Data Transactional data pada setiap record dikumpulkan berdasarkan sebuah transaksi (dalam dunia bisnis). Sebuah transaksi memiliki nomor identitas transaksi yang unik (trans_id). Transactional data yang mempunyai tabel tambahan yang berisi informasi lain direlasikan pada hubungan yang mungkin terjadi, seperti deskripsi barang, informasi dari pelayan toko, dan lain-lain. C. Penambangan Data (Data Mining) Data mining adalah proses menentukan pola dan informasi dari data yang berjumlah besar. Sumber data dapat berupa database, data warehouse, Web, tempat penyimpanan informasi lainnya atau data yang mengalir ke dalam sistem yang dinamis (Han, et al, 2012: 8). Menurut Grup Gartner (dalam Larose, 2005: 2) data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti statistik dan matematika. 13

8 Menurut Turban, dkk (dalam Kusrini & Emha, 2009: 3) Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengindentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Data mining merupakan salah satu langkah penting dalam menemukan sebuah pengetahuan pada proses Knowledge Discovery in Data (KDD). KDD adalah proses menentukan informasi yang berguna serta pola-pola yang ada dalam data. Tahapan proses KDD ditunjukkan pada Gambar 2.1. Gambar 2.1 Tahap-tahap Knowledge Discovery in Data (Han, et al, 2006: 6) 14

9 Menurut Han, et al (2006: 7 ) tahapan dalam KDD dapat dijelaskan sebagai berikut: 1. Pembersihan Data (Data Cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten. Pada tahap ini data-data yang memiliki isian tidak sempurna seperti data yang tidak memiliki kelengkapan atribut yang dibutuhkan dan data yang tidak valid dihapus dari database. 2. Integrasi Data (Data Integration) Integrasi data merupakan proses kombinasi beberapa sumber data ke dalam database. Pada tahap ini dilakukan penggabungan data dari berbagai sumber untuk dibentuk penyimpanan data yang koheren. 3. Seleksi Data (Data Selection) Seleksi data merupakan pemilihan data yang digunakan untuk proses data mining. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan suatu berkas dan terpisah dari basis data operasional. 4. Transformasi Data (Data Transformation) Transformasi data merupakan proses mentransformasikan dan mengkonsolidasikan data yang digunakan untuk proses mining. Pada tahap ini dilakukan pengubahan format data menjadi format yang sesuai dengan teknik data mining yang digunakan. 5. Penambangan Data (Data Mining) Penambangan data merupakan proses utama mencari pengetahuan dari informasi tersembunyi. Penambangan data adalah proses mencari pola 15

10 atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik dalam data mining sangat bervariasi, pemilihan teknik yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 6. Evaluasi Pola (Pattern Evaluation) Evaluasi pola ialah proses mengidentifikasi kebenaran pola yang telah didapat. Pada tahap ini pola yang telah didapat dari proses data mining dievaluasi apakah pola yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. 7. Representasi Pengetahuan (Knowledge Presentation) Representasi pengetahuan merupakan visualisasi dan presentasi pengetahuan yang telah didapat kepada pengguna. Pada tahap terakhir ini disajikan pengetahuan dan metode yang digunakan untuk memperoleh pengetahuan yang dapat dipahami oleh pengguna atau semua orang. Data mining mempunyai beberapa metode yang dilakukan pengguna untuk meningkatkan proses mining supaya lebih efektif. Oleh karena itu, data mining dibagi menjadi beberapa kelompok berdasarkan metodenya, yaitu (Larose, 2005: 11): 1. Deskripsi Deskripsi digunakan untuk memberikan gambaran secara ringkas berupa pola dan tren bagi data yang jumlahnya sangat besar dan jenisnya beragam. Metode dalam data mining yang dapat digunakan untuk deskripsi contohnya neural network dan exploratory data analysis. 16

11 2. Klasifikasi Pada klasifikasi terdapat variabel target yang berupa nilai kategori. Contoh dari klasifikasi adalah penggolongan pendapatan masyarakat ke dalam tiga kelompok, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Algoritma klasifikasi yang biasa digunakan adalah Naïve Bayes, K-Nearest Neighbor, dan C Estimasi Estimasi mirip dengan klasifikasi namun variabel target pada proses estimasi lebih condong ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi, kemudian nilai estimasi dari variabel target dibuat berdasarkan pada nilai prediksi. Contoh algoritma estimasi adalah linear regression dan neural network. 4. Prediksi Prediksi hampir sama dengan klasifikasi dan estimasi, namun pada prediksi data yang digunakan adalah data runtun waktu (data time series) dan nilai pada hasil akhir digunakan untuk beberapa waktu mendatang. Contoh prediksi dalam bisnis dan penelitian adalah prediksi harga beras dalam tiga bulan kedepan. 5. Pengelompokan Pengelompokan data atau pembentukan data ke dalam jenis yang sama. Pengelompokan tidak untuk mengklasifikasi, mengestimasi, atau memprediksi nilai, tetapi membagi seluruh data menjadi kelompok- 17

12 kelompok yang relatif sama (homogen). Perbedaan algoritma pengelompokan dengan algoritma klasifikasi adalah pengelompokan tidak memiliki target/ class/ label. Contoh algoritma pengelompokan adalah K- Means dan Fuzzy C-Means. 6. Asosiasi Asosiasi digunakan untuk menemukan atribut yang muncul dalam waktu yang bersamaan dan untuk mencari hubungan antara dua atau lebih data dalam sekumpulan data. Contoh penggunaan aturan asosiasi adalah analisis kemungkinan seorang pelanggan membeli roti dan susu dalam waktu yang bersamaan di suatu pasar swalayan. Contoh algoritma aturan asosiasi yang sering digunakan adalah Apriori dan FP-Growth. D. Klasifikasi Klasifikasi adalah proses penemuan model (atau fungsi) yang membedakan kelas data atau konsep yang bertujuan agar dapat digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui. Model ditemukan berdasarkan analisis data training (objek data yang kelasnya diketahui) (Han, et al, 2006: 24). Algoritma-algoritma yang sering digunakan untuk proses klasifikasi sangat banyak, yaitu k-nearest neighbor, rough set, algoritma genetika, metode rule based, C4.5, naive bayes, analisis statistik, memory based reasoning, dan support vector machines (SVM). Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisa data training lalu direpresentasikan dalam bentuk aturan klasifikasi. Proses kedua adalah klasifikasi, 18

13 dimana data tes digunakan untuk memperkirakan akurasi dari aturan klasifikasi (Han, et al, 2006: 286). Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011: 15): 1. Kelas Variabel dependen berupa kategori yang merepresentasikan label yang terdapat pada objek. Contohnya: risiko penyakit jantung, risiko kredit, dan jenis gempa. 2. Predictor Variabel independen yang direpresentasikan oleh karakteristik (atribut) data. Contohnya: merokok atau tidak, minum alkohol atau tidak, besar tekanan darah, jumlah tabungan, jumlah aset, jumlah gaji. 3. Training dataset Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan untuk menentukan kelas yang cocok berdasarkan predictor. 4. Testing dataset Berisi data baru yang akan diklasifikasikan oleh model yang telah dibuat dan akurasi klasifikasi dievaluasi. Proses klasifikasi dapat dicontohkan seperti yang ditunjukkan pada Gambar 2.2. Gambar 2.2 poin (a) adalah proses pembelajaran dimana data training dianalisis menggunakan algoritma klasifikasi. Atribut keputusan kredit sebagai label kelas, dan model pembelajaran atau pengklasifikasian dipresentasikan dalam bentuk aturan klasifikasi (classification rule). Gambar 2.2 poin (b) adalah proses 19

14 klasifikasi. Proses klasifikasi digunakan untuk mengestimasi keakurasian dari classification rule yang dihasilkan. Apabila akurasi dapat diterima maka aturan yang diperoleh dapat digunakan pada klasifikasi data baru (Han, et al, 2006: 287). Gambar 2.2 Proses Klasifikasi (Han, et al, 2006: 287) 20

15 1. Pohon Keputusan (Decision Tree) Pohon keputusan merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) dimana setiap simpul internal (internal node) merupakan sebuah atribut, setiap cabang merupakan nilai atribut, dan setiap simpul daun (leaf node) atau simpul terminal merupakan label class, serta simpul yang paling atas adalah simpul akar (root node) (Han, et al, 2006: 291). Simpul Internal Simpul Akar Simpul Daun Gambar 2.3 Bentuk Pohon Keputusan Berikut penjelasan mengenai 3 jenis simpul yang terdapat pada pohon keputusan: a. Simpul Akar Simpul akar merupakan simpul yang paling atas, pada simpul ini tidak mempunyai input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Simpul Internal Simpul internal merupakan simpul percabangan dari simpul akar, pada simpul ini hanya ada satu input dan mempunyai minimal dua output. 21

16 c. Simpul Daun Simpul daun merupakan simpul terakhir, pada simpul ini hanya terdapat satu input dan tidak mempunyai output, simpul ini sering disebut simpul terminal serta merupakan suatu keputusan. Dalam kaitannya dengan sebuah basis data, himpunan data dapat berupa tabel, sedangkan sampel adalah record. Himpunan data dapat memiliki atribut yang dapat bertipe diskrit maupun kontinu. Ilustrasi dari pohon keputusan berdasarkan tipe atributnya dapat dijelaskan pada Gambar 2.4 (Han, et al, 2001). Gambar 2.4 Ilustrasi Model Pohon Keputusan Berdasarkan Tipe Atributnya Berdasarkan Gambar 2.4 jika atribut prediktor bertipe diskret (a d ), maka cabang simpul dibuat untuk setiap nilai pada atribut diskrit tersebut (v 1, v 2, v m ). Sedangkan jika atribut prediktor bertipe kontinu atau numerik (a n ), maka cabang simpul dibuat untuk dua buah nilai yaitu a n v th dan a n v th, dimana v th adalah nilai ambang dari a n. Konsep dasar pohon keputusan ditunjukkan pada Gambar

17 Algoritma: Pembentukan_Pohon_Keputusan, Pembentukan pohon keputusan dari tupel pelatih pada partisi data, D. Masukan: Partisi data, D, yang merupakan satu set data tupel pelatihan dan label kelas yang berkaitan; Daftar_atribut, kumpulan beberapa atribut; Metode_seleksi_atribut, sebuah prosedur untuk menentukan kriteria terbaik pemecahan data tupel ke dalam kelas masing-masing. Kriteria ini terdiri dari pemecahan_atribut dan kemungkinannya, baik pemecahan simpul atau pemecahan bagian. Hasil: pohon keputusan Metode: (1) Bentuk sebuah simpul N; (2) jika tupel di D ada pada kelas yang sama, C, maka (3) kembali N sebagai simpul daun yang diberi label kelas C; (4) jika daftar_atribut kosong maka (5) kembali N sebagai simpul yang diberi label dengan kelas terbanyak di D; // kelas terbanyak (6) berlaku metode_seleksi_atribut (D, daftar_atribut) untuk menemukan pemecahan kriteria terbaik; (7) beri label N dengan kriteria_pemecahan; (8) jika pemecahan_atribut bernilai diskrit dan beberapa pemecahan diperbolehkan maka // tidak terbatas untuk pohon biner (9) daftar_atribut daftar_atribut pemecahan_atribut; // hapus pemecahan_atribut (10) Untuk setiap j dari pemecahan_kriteria (11) kemudian D j menjadi kumpulan data tupel di D dengan hasil j; // partisi (12) jika D j kosong maka (13) Lampirkan sebuah simpul daun dengan label kelas terbanyak di D untuk simpul N; (14) Untuk lainnya lampirkan simpul kembali dengan pembentukan _pohon_keputusan (D j, daftar _atribut) pada N; berakhir untuk (15) kembali N; Gambar 2.5 Algoritma Dasar Pohon Keputusan 23

18 Berdasarkan Gambar 2.5, input algoritma dasar terdiri dari partisi data D, daftar atribut (attribute list), dan metode seleksi atribut (attribute selection method). Proses untuk membangun sebuah pohon keputusan seperti yang ditunjukkan pada Gambar 2.5 di atas adalah sebagai berikut: 1. Pohon dimulai dengan simpul tunggal N yang merepresentasikan tupel training pada D (langkah 1). 2. Jika semua tupel di D berasal dari kelas yang sama, maka simpul N menjadi daun dan diberi label kelas tersebut (langkah 2 dan 3). Langkah 4 dan 5 merupakan kondisi akhir. Semua kondisi akhir dijelaskan pada akhir algoritma. 3. Jika tidak, maka metode seleksi atribut digunakan untuk memilih atribut split, yaitu atribut terbaik dalam memisahkan tupel ke dalam kelas masing-masing (langkah 6). Atribut tersebut menjadi atribut tes pada simpul N (langkah 7). 4. Terdapat dua kemungkinan yang dapat mempartisi D. Apabila A atribut split pada simpul N dan A memiliki sejumlah v nilai yang berbeda {a 1, a 2, a v } maka pada data training dapat terjadi (langkah 8 dan 9): a. Jika A memiliki nilai-nilai bersifat diskrit, maka sebuah cabang dibentuk untuk setiap nilai A. Nilai total cabang yang akan dibentuk sebanyak v cabang. Partisi D j terdiri dari record yang terdapat pada D yang memiliki nilai a j untuk atribut A. Selanjutnya atribut A dihapus dari daftar atribut. b. Jika A memiliki nilai yang bersifat kontinu, maka hasil pengujian simpul N akan menghasilkan dua cabang. Kedua cabang tersebut adalah A < split point dan A split point. Split point merupakan keluaran metode seleksi atribut sebagai bagian dari kriteria untuk melakukan partisi. Selanjutnya D 24

19 dipartisi, sehingga D 1 terdiri dari record dimana A < split point dan D 2 adalah sisanya. 5. Cabang akan dibuat untuk setiap nilai pada atribut tes dan tupel pada data training akan dipartisi lagi (langkah 10 dan langkah 11). 6. Proses pembentukan ini menggunakan proses rekursif untuk membentuk pohon pada setiap data partisi (langkah 14). 7. Proses rekursif akan berhenti jika telah mencapai kondisi sebagai berikut: a. Semua tupel pada simpul berada di dalam satu kelas (langkah 2 dan 3). b. Tidak ada atribut lainnya yang dapat digunakan untuk mempartisi tupel lebih lanjut (langkah 4). Selanjutnya dalam hal ini, akan diterapkan jumlah terbanyak (langkah 5). Hal tersebut berarti mengubah sebuah simpul menjadi daun dan memberi label dengan kelas pada jumlah terbanyak. Sebagai alternatifnya, distribusi kelas pada simpul ini dapat disimpan. c. Tidak ada tupel yang digunakan untuk mencabang, suatu partisi D j kosong (langkah 12). Selanjutnya dalam hal ini, sebuah daun dibuat dan diberi label dengan kelas yang memiliki kelas terbanyak di D (langkah 13). 8. Kembali menghasilkan pohon keputusan (langkah 15) (Han, et al, 2012: ; Neni Miswaningsih, 2015: 37-39). Pohon keputusan memiliki beberapa cara dalam menentukan ukuran data dalam bentuk pohon, salah satunya adalah dengan algoritma C4.5. Algoritma C4.5 menggunakan information gain sebagai penentu simpul akar, internal, dan daun. Misalkan N merupakan simpul partisi dari D. Apabila terdapat nilai information gain tertinggi maka akan terpilih sebagai atribut pemisah untuk simpul 25

20 N. Perhitungan informasi yang dibutuhkan untuk mengklasifikasi pada tupel D dinyatakan sebagai berikut: m Info(D) = p i log 2 (p i ) i=1 (2.1) dimana m merupakan banyaknya jenis kategori nilai pada atribut C, p i = C i,d merupakan probabilitas dari tupel D yang mempunyai kelas C i. Info (D) merupakan rata-rata dari informasi yang dibutuhkan untuk mengetahui label kelas dari tupel D. Info (D) juga sering dikenal sebagai entropy dari tupel D. Sebagai ilustrasi diberikan Tabel 2.1. Tabel 2.1 Banyaknya Kelas pada Tupel D Kelas C 1 C 2 frekuensi n C1 n C2 p i p 1 p 2 log 2 (p i ) log 2 p 1 log 2 p 2 p i log 2 (p i ) p 1 log 2 (p 1 ) p 2 log 2 (p 2 ) D Apabila diberikan tupel D dengan dua pengklasifikasian yaitu kelas C 1, dan C 2, dengan frekuensi n C1 dan n C2 serta p i adalah proporsi dari setiap kelas, maka n C 1 p 1 = n C 1 + n C 2 untuk p 2 analog dengan perhitungan p 1. Perhitungan log 2 p i dilakukan untuk mentransformasi masing-masing proporsi kelas menjadi informasi dalam bentuk bit atau bilangan basis 2. Informasi tersebut dapat juga dipandang sebagai jumlah informasi yang dapat dikodekan menjadi satu atau nol. 26

21 Nilai p i log 2 p i akan positif bila p i lebih besar dari nol dan kurang dari satu. Ketika p i = 1 maka nilai dari p i log 2 p i adalah nol, sehingga nilai p i log 2 (p i ) diantara bilangan positif atau nol pada data training. Nilai Info(D) = m i=1 p i log 2 (p i ) adalah nol jika dan hanya jika semua data memiliki klasifikasi yang sama dimana probabilitasnya adalah satu. Sebagai contoh diberikan Tabel 2.2. Tabel 2.2 Contoh Perhitungan Info(D) Kelas C 1 C 2 frekuensi 9 5 p i 0,643 0,357 log 2 (p i ) 0,637 1,485 p i log 2 (p i ) 0,409 0,531 Tabel 2.2 merupakan data penjualan komputer, dimana C 1 adalah membeli komputer dan C 2 adalah tidak membeli komputer. Berdasarkan Tabel 2.2 Info(D) = 0, ,531 = 0,940, nilai Info(D) 0, artinya data belum memiliki klasifikasi kelas yang sama, sehingga dibutuhkan perhitungan lanjutan untuk menemukan simpul akar dalam pembentukan pohon keputusan. Selanjutnya misalkan terdapat atribut A yang memiliki v nilai yang berbeda {a 1, a 2, a v }. Atribut A dapat digunakan untuk membagi D ke dalam v partisi {D 1, D 2,, D v }, dimana D j memuat tupel D yang memiliki nilai a j dari A. Sebagai ilustrasi perhitungan entropy, diberikan Tabel 2.3. Tabel 2.3 Kelas Tupel D Berdasarkan Partisi Atribut A A Kelas C 1 C 2 Total a 1 n 11 n 12 n D1 a 2 n 21 n 22 n D2 a 3 n 31 n 32 n D3 Total n C1 n C2 n D 27

22 Tabel 2.3 menunjukkan jumlah tupel D dengan partisi atribut A yang mempunyai nilai kategori a 1, a 2 serta pengklasifikasian sebanyak dua kelas yaitu C 1, C 2. Dimana n 11,, n 32 merupakan jumlah sampel pada subset yang mempunyai nilai a 1, a 2 yang berada pada kelas C 1, C 2 kemudian n D1, n D2 merupakan jumlah sampel yang mempunyai nilai a 1, a 2, dan n C1, n C2 merupakan jumlah sampel kategori kelas C 1, C 2, maka nilai dari entropy atribut A dapat dihitung sebagai berikut: E(A) = n D 1 n D ( n 11 n D1 log 2 n 11 n D1 n 12 n D1 log 2 n 12 n D1 n 13 n D1 log 2 n 13 n D1 ) berikut: + n D 2 n D ( n 21 n D2 log 2 n 21 n D2 n 22 n D2 log 2 n 22 n D2 n 33 n D2 log 2 n 23 n D2 ) Rumus secara umum dalam mencari nilai entropy dari subset A sebagai Info A (D) = E(A) = v j=1 D j Info (D D j ) (2.2) dimana E(A) adalah entropy dari subset A, v merupakan banyaknya jenis kategori nilai pada subset A, D j D merupakan bobot dari subset j dan jumlah sampel pada subset yang mempunyai nilai a j dari A, dibagi dengan jumlah tupel dari D. Entropy dari subset A merupakan informasi harapan yang dibutuhkan untuk mengklasifikasi suatu tupel dari D berdasarkan partisi dari atribut A. Menurut Han, et al (2012: 337), nilai information gain dari atribut A pada subset D dapat dihitung dengan persamaan berikut: Gain(A) = info(d) E(A) (2.3) 28

23 Information gain didefinisikan sebagai perbedaan diantara informasi asli yang dibutuhkan dengan jumlah informasi baru yang didapatkan dari partisi A. Atribut A yang memiliki nilai information gain tertinggi dipilih sebagai pemisah atribut pada simpul N Proses untuk menghitung nilai E(A) bergantung dari nilai suatu atribut. Jika a d adalah atribut diskrit, maka tupel D dibagi menjadi sub tupel D 1 D n, dimana n jumlah nilai pada atribut a d dan D i adalah sub tupel yang memiliki nilai atribut a i. Jika a n adalah atribut kontinu, maka sub tupel D dibagi menjadi dua sub tupel D v1 dan D v2 dengan D 1 = {v j v j sp} dan D 2 = {v j v j > sp}, dimana sp merupakan sebuah nilai ambang (split point). Nilai split information digunakan pada pencarian nilai gain ratio untuk mengatasi bias terhadap atribut yang memiliki banyak nilai unik. Persamaan split information dan gain ratio dinyatakan sebagai berikut: Split Info A (D) = Gain Ratio (A) = v j=1 D j D log D j 2 D Gain(A) Split Info (A) (2.4) (2.5) Apabila atribut tersebut memiliki nilai gain ratio terbesar maka atribut tersebut terpilih sebagai atribut split pada konstruksi pohon keputusan (Han, et al, 2012: ). Sebagai contoh penerapan decision tree C4.5 dengan perhitungan manual pada sebuah kasus pelanggan AllElectronic. Tabel 2.4 merupakan data training dari database pelanggan AllElectronic atau disebut dengan partisi tupel D. 29

24 Tabel 2.4 Keputusan Membeli Komputer RID age income student credit_rating Class_ buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle_aged high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle_aged low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle_aged medium no excellent yes 13 middle_aged high yes fair yes 14 senior medium no excellent no Sumber: Han, et al, 2006: 299 Kasus yang tertera pada Tabel 2.4 akan dibuat pohon keputusan untuk menentukan membeli komputer atau tidak dengan melihat umur, pendapatan, status pelajar, dan peringkat kredit. Pertama menghitung informasi yang dibutuhkan untuk mengklasifikasikan partisi data D menggunakan persamaan (2.1) dengan i = 1, 2 adalah banyaknya kategori nilai pada kelas membeli komputer. Tabel 2.5 merupakan total kasus pelanggan yang berada pada kelas yes dan no. Tabel 2.5 Kelas Membeli Komputer Class_buys_computer yes no 9 5 Info(D) = 9 14 log 2 ( 9 14 ) 5 14 log 2 ( 5 14 ) = 0,940 Selanjutnya menghitung informasi harapan yang dibutuhkan untuk klasifikasi data berdasarkan partisi dari setiap atribut. Sebagai contoh partisi pada 30

25 atribut age. Banyaknya data yang berada dalam kelas yes atau no berdasarkan atribut age dapat dilihat pada Tabel 2.6. Tabel 2.6 Kelas Membeli Komputer Berdasarkan Partisi Atribut Age age Class_buys_computer yes no youth 2 3 middle_aged 4 0 senior 3 2 Digunakan persamaan (2.2) untuk menghitung informasi harapan yang dibutuhkan untuk klasifikasi data berdasarkan partisi dari atribut age dengan j adalah banyaknya kategori pada atribut age. Info age (D) = 5 14 ( 2 5 log log 2 ( 3 5 log log ) ( 4 4 log log ) ) = 0,694 Oleh karena itu didapatkan information gain yang dihitung menggunakan persamaan (2.3). Gain(age) = Info(D) Info age (D) = 0,940 0,694 = 0,246 Pergitungan gain ratio atribut age dapat dihitung menggunakan persamaan (2.5) namun terlebih dahulu perlu dihitung nilai split information menggunakan persamaan (2.4) dengan j adalah banyaknya jenis kategori nilai pada atribut age. SplitInfo age (D) = 5 14 log 2 ( 5 14 ) 4 14 log 2 ( 4 14 ) 5 14 log 2 ( 5 14 ) = 1,577 GainRatio(age) = 0,246 1,577 = 0,

26 Setelah perhitungan gain ratio dari setiap atribut maka akan dipilih nilai yang terbesar sebagai atribut yang menjadi simpul akar dari pohon keputusan dan nilai dari atribut tersebut menjadi cabang. Perhitungan lanjutan yang analog dengan perhitungan simpul akar perlu dilakukan apabila setiap cabang belum menunjukkan keputusan akhir. Pada saat pembangunan pohon keputusan, akan banyak ditemukan adanya cabang yang noise atau outlier pada data training. Pemangkasan pohon dapat dilakukan untuk menghapus cabang-cabang tersebut sehingga dapat mempercepat proses klasifikasi. Pohon yang dipangkas akan menjadi lebih kecil dan lebih mudah dipahami. Pemangkasan pohon dilakukan selain untuk pengurangan ukuran pohon, juga bertujuan untuk mengurangi tingkat kesalahan klasifikasi pada kasus baru. Contoh pemangkasan pohon keputusan ditunjukkan Gambar 2.6 dan Gambar 2.7. Gambar 2.6 Pohon Keputusan Sebelum Pemangkasan (Han, et al, 2006:305) Gambar 2.7 Pohon Keputusan Sesudah Pemangkasan (Han, et al, 2006: 305) 32

27 Setelah pemangkasan pohon, kemudian dilakukan pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk. Aturan tersebut dapat dalam bentuk if-then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. Setiap simpul dan percabangan akan diberikan if, sedangkan nilai pada daun akan ditulis then. Setelah semua aturan dibuat, maka aturan dapat disederhanakan (digabungkan). 2. Naïve Bayes Sebelum membahas mengenai naïve bayes, perlunya pengetahuan tentang peluang bersyarat. Peluang bersyarat adalah peluang terjadinya kejadian X bila diketahui bahwa suatu kejadian H telah terjadi. Peluang bersyarat dilambangkan denagn P(X H) dibaca peluang X bila H terjadi. Persamaan untuk peluang bersyarat sebagai berikut (Walpole, 1995: 97-98). P(X H) = P(X H) P(H) jika P(A) > 0 (2.6) Sama halnya dengan peluang terjadinya kejadian H bila diketahui bahwa suatu kejadian X telah terjadi. P(H X) = P(X H) P(X) jika P(H) > 0 (2.7) Dengan mengkombinasikan persamaan (2.6) dan (2.7) maka diperoleh P(H X)P(X) = P(X H) = P(X H)P(H) sehingga persamaan (2.7) menjadi: (H X) = P(X H) P(X) P(H X) = P(X H)P(H) P(X) 33

28 Teorema Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Pada teorema Bayes, X dijabarkan oleh kumpulan n atribut dengan H adalah beberapa hipotesis, sehingga data X termasuk sebuah kelas C (Han, et al, 2012: 350). Persamaan dari teorema Bayes adalah P(H X) = P(X H)P(H) P(X) (2.8) Keterangan : X H : Data dengan kelas yang belum diketahui : Hipotesis data X merupakan suatu kelas khusus P(H X) : Probabilitas hipotesis H berdasarkan kondisi X (posterior probability) P(H) : Probabilitas hipotesis H (prior probability) P(X H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas X Naïve Bayes adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class. Bayes merupakan teknik berbasis probabilistik sederhana yang berdasar pada penerapan teorema Bayes dengan asumsi independensi yang kuat. Dengan kata lain, dalam naïve bayes, model yang digunakan adalah model fitur independen (Eko Prasetyo, 2012: 59). Klasifikasi naïve bayes yang mengacu pada teorema Bayes di atas mempunyai persamaan sebagai berikut P(C i X) = P(X C i)p(c i ) P(X) (2.9) 34

29 Keterangan : P(C i X) : Probabilitas hipotesis C i jika diberikan fakta atau record X (posterior probability) P(X C i ) : Nilai parameter yang memberikan kemungkinan yang paling besar (likelihood) P(C i ) P(X) : Probabilitas kelas C i (Prior probability) : Probabilitas X Menurut Han, et al (2012: 351) proses dari pengklasifikasian naïve bayes adalah sebagai berikut: a. Variabel D adalah kumpulan dari data dan label yang terkait dengan class. Setiap data diwakili oleh vektor atribut n-dimensi, X = (x 1, x 2,, x n ) dengan n dibuat dari data n atribut, berturut-turut, A 1, A 2,, A n. b. Misalkan terdapat i class, C 1, C 2,, C i. Diberikan sebuah data X, kemudian pengklasifikasian akan memprediksi X ke dalam kelompok yang memiliki probabilitas posterior tertinggi berdasarkan kondisi X. Artinya klasifikasi naïve bayes memprediksi bahwa X termasuk class C i jika dan hanya jika: P(C i X) > P(C j X) untuk 1 j m, j i (2.10) Maka nilai P(C i X) harus lebih dari P(C j X) supaya diperoleh hasil akhir P(C i X). c. Ketika P(X) konstan untuk semua class maka hanya P(X C i )P(C i ) yang dihitung. Jika probabilitas class prior sebelumnya tidak diketahui, maka diasumsikan bahwa class-nya sama, yaitu P(C 1 ) = P(C 2 ) = = P(C m ), 35

30 untuk menghitung P(X C i ) dan P(X C i )P(C i ). Perhatikan bahwa probabilitas class prior dapat diperkirakan oleh P(C i ) = ( C i,d ) D (2.11) dimana C i,d adalah jumlah data training dari kelas C i dan D adalah jumlah total data training yang digunakan. d. Apabila diberikan kumpulan data yang mempunyai banyak atribut, maka perhitungan P(X C i ) dengan penjabaran lebih lanjut rumus Bayes tersebut yaitu menjabarkan P(x 1,..., x n C i ) menggunakan aturan perkalian, menjadi sebagai berikut (Samuel Natalius: 2010): P(x 1,, x n C i ) = P(x 1 C i )P(x 2,, x n C i, x 1 ) = P(x 1 C i )P(x 2 C i, x 1 )P(x 3,, x n C i, x 1, x 2 ) P(x 1,, x n C i ) = P(x 1 C i )P(x 2 C i, x 1 ) P(x n C i, x 1, x 2,, x n 1 ) Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu-persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Oleh karena itu digunakan asumsi independensi yang sangat tinggi (naïve), bahwa masing-masing petunjuk (x 1, x 2,, x n ) saling bebas (independen) satu sama lain, maka berlaku suatu kesamaan sebagai berikut (Samuel Natalius: 2010): P(x i x j ) = P(x i x j ) P(x j ) = P(x i)p(x j ) P(x j ) P(x i C, x j ) = P(x i C i ) = P(x i ) untuk i j, sehingga 36

31 Disimpulkan bahwa asumsi independensi naïve tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(x 1,..., x n C i ) dapat disederhanakan menjadi seperti berikut: n P(X C i ) = P(x k C i ) = P(x 1 C i ) P(x 2 C i ) P(x n C i ) (2.12) k=1 Perhitungan P(X C i ) pada setiap atribut mengikuti hal-hal berikut: 1) jika A k adalah kategori, maka P(x k C i ) adalah jumlah data dari kelas C i di D yang memiliki nilai x k untuk atribut A k dibagi dengan C i,d yaitu jumlah data dari kelas C i di D, 2) jika A k adalah numerik, biasanya diasumsikan memiliki distribusi Gauss dengan rata-rata μ dan standar deviasi σ, didefinisikan oleh: sehingga diperoleh: g(x, μ, σ) = 1 (x μ) 2 2πσ e 2σ 2 (2.13) P(x k C i ) = g(x k, μ Ci, σ Ci ) (2.14) Setelah itu akan dihitung μ Ci dan σ Ci yang merupakan rata-rata dan standar deviasi masing-masing nilai atribut A k untuk tupel training kelas C i. e. P(X C i )P(C i ) dievaluasi pada setiap kelas C i untuk memprediksi pengklasifikasian label kelas data X dengan menggunakan P(X C i )P(C i ) > P(X C j )P(C j ) untuk 1 j m, j i (2.15) label kelas untuk data X yang diprediksi adalah kelas C i jika nilai P(X C i )P(C i ) lebih dari nilai P(X C j )P(C j ). 37

32 E. Pengujian dan Evaluasi Model Model yang didapatkan dari kedua metode decision tree C4.5 dan naïve byes kemudian dilakukan pengujian menggunakan k-fold cross validation. Crossvalidation adalah bentuk sederhana dari teknik statistik. Jumlah fold standar untuk memprediksi tingkat error dari data adalah dengan menggunakan 10-fold cross validation (Witten, et al, 2011: 153). Data yang digunakan dibagi secara acak ke dalam k subset yaitu D 1, D 2,, D k dengan ukuran yang sama. Dataset akan dibagi menjadi data training dan data testing. Proses training dan testing dilakukan sebanyak k kali secara berulang-ulang. Pada iterasi ke-i, partisi D i disajikan sebagai data testing dan partisi sisanya digunakan secara bersamaan dan berurutan sebagai data training. Iterasi kedua, subset D 1, D 2,, D k akan dites pada D 2, dan selanjutnya hingga D k (Han, et al, 2012: 364). Gambar 2.8 berikut adalah contoh ilustrasi 4-fold cross validation. Gambar 2.8 Ilustrasi 4-Fold Cross Validation Berdasarkan Gambar 2.8 ditunjukkan bahwa nilai fold yang digunakan adalah 4-fold cross validation. Berikut diberikan langkah-langkah pengujian data dengan 4-fold cross validation. 38

33 a. Dataset yang digunakan dibagi menjadi 4 bagian, yaitu D 1, D 2, D 3, dan D 4. D t, t = (1, 2, 3, 4) digunakan sebagai data testing dan dataset lainnya sebagai data training. b. Tingkat akurasi dihitung pada setiap iterasi ( iterasi-1, iterasi-2, iterasi-3, iterasi-4), kemudian dihitung rata-rata tingkat akurasi dari seluruh iterasi untuk mendapatkan tingkat akurasi data keseluruhan. Evaluasi hasil klasifikasi dilakukan dengan metode confusion matrix. Confusion matrix adalah tool yang digunakan sebagai evaluasi model klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix dari prediksi yang akan dibandingkan dengan kelas sebenarnya atau dengan kata lain berisi informasi nilai sebenarnya dan prediksi pada klasifikasi (Gorunescu, 2011: 319). Tabel 2.7 Tabel Confusion Matrix Dua Kelas Clasification Predicted class Class=Yes Class=No Class=Yes a (true positive) b (false negative) Class=No c (false positive) d (true negative) Pada tabel confusion matrix di atas, true positive (TP) adalah jumlah record positif yang diklasifikasikan sebagai positif, false positive (FP) adalah jumlah record negatif yang diklasifikasikan sebagai positif, false negatives (FN) adalah jumlah record positif yang diklasifikasikan sebagai negatif, true negatives (TN) adalah jumlah record negatif yang diklasifikasikan sebagai negatif. Setelah data uji diklasifikasikan maka akan didapatkan confusion matrix sehingga dapat dihitung jumlah sensitivitas, spesifisitas, dan akurasi (Henny Lediyana, 2013: 69). 39

34 Sensitivitas adalah proporsi dari class=yes yang teridentifikasi dengan benar. Spesifisitas adalah proporsi dari class=no yang teridentifikasi dengan benar. Contohnya dalam klasifikasi pelanggan komputer dimana class=yes adalah pelanggan yang membeli computer sedangkan class=no adalah pelanggan yang tidak membeli komputer. Dihasilkan sensitivitas sebesar 95%, artinya ketika dilakukan uji klasifikasi pada pelanggan yang membeli, maka pelanggan tersebut berpeluang 95% dinyatakan positive (membeli komputer). Apabila dihasilkan spesifisitas sebesar 85%, artinya ketika dilakukan uji klasifikasi pada pelanggan yang tidak membeli, maka pelanggan tersebut berpeluang 95% dinyatakan negative (tidak membeli). Rumus untuk menghitung akurasi, spesifisitas, dan sensitivitas pada confusion matrix adalah sebagai berikut (Gorunescu, 2011: 319) Akurasi = Sensitivitas = Spesifisitas = TP + TN TP + TN + FP + FN = a + d a + b + c + d TP TP + FN = a a + b TN TN + FP = d d + c (2.16) (2.17) (2.18) F. Waikato Environment for Knowledge (WEKA) The Waikato Environment for Knowledge Analysis (WEKA) adalah sebuah sistem data mining open source yang berbasis java. Sistem ini dikembangkan oleh Universitas Waikato di Selandia Baru dan merupakan perangkat lunak free yang tersedia di bawah GNU (General Public License). WEKA menyediakan dukungan yang luas untuk seluruh proses data mining mulai dari menyiapkan data masukkan, evaluasi pembelajaran, skema statistik, visualisasi data input dan hasil 40

35 pembelajaran. Metode atau teknik yang digunakan pada WEKA adalah Predictive dan Descriptive karena sistem ini mendukung teknik-teknik data preprocessing, clustering, classification, regression, visualization, dan feature Reduction. (Witten, et all, 2011: ). Gambar 2.9 Tampilan Awal GUI WEKA WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data mining open source yang paling popular. WEKA mempunyai kelebihan seperti mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakai oleh perusahaan untuk meramalkan bisnis dari suatu perusahaan. WEKA mendukung beberapa format file untuk inputnya, yaitu: 1. Comma Separated Values (CSV): Merupakan file teks dengan pemisah tanda koma (,) yang cukup umum digunakan. File ini dapat dibuat dengan menggunakan Microsoft Excel atau membuat sendiri dengan menggunakan notepad. 41

36 2. Format C45: Merupakan format file yang dapat diakses dengan menggunakan aplikasi WEKA. 3. Attribute-Relation File Format (ARFF): Merupakan tipe file teks yang berisi berbagai instance data yang berhubungan dengan suatu set atribut data yang dideskripsikan serta di dalam file tersebut. 4. SQL Server/ MySql Server: Dapat mengakses database dengan menggunakan SQL Server/MySql Server. Beberapa menu dalam tampilan WEKA, diantaranya yaitu 1. Explorer, menu ini memberikan akses untuk semua fasilitas yang menggunakan pilihan menu dan pengisian data. Pada menu ini terdapat enam sub-menu pada bagian atas window, sub-menu tersebut yaitu: a. Preprocess, proses pemilihan dataset yang akan diolah pemilihan filter, b. Classify, terdapat berbagai macam teknik klasifikasi dan evaluasinya yang digunakan untuk mengolah data, c. Cluster, terdapat berbagai macam teknik cluster yang dapat digunakan untuk mengolah data, d. Associate, terdapat berbagai macam teknik association rules yang dapat digunakan untuk mengolah data, e. Select Atribut, proses pemilihan aspek yang mempunyai hubungan paling relevan pada data, f. Visualize, proses menampilan berbagai plot dua dimensi yang dibentuk dari pengolahan data. 42

37 2. Experimenter, menu ini digunakan untuk mengatur percobaan dalam skala besar, dimulai dari running, penyelesaian, dan menganalisis data secara statistik. 3. Knowledge Flow, pada tampilan menu ini, pengguna memilih komponen WEKA dari toolbar untuk memproses dan menganalisis data serta memberikan alternatif pada menu Explorer untuk kondisi aliran data yang melewati sistem. Selain itu, Knowledge Flow juga berfungsi untuk memberikan model dan pengaturan untuk mengolahan data yang tidak bisa dilakukan oleh Explorer. 4. Simple CLI, menu yang menggunakan tampilan command-line. Menu ini menggunakan tampilan command-line untuk menjalankan class di weka.jar, dimana langkah pertama variabel Classpath dijelaskan di file Readme. Pada sub-menu klsifikasi WEKA terdapat test options yang digunakan untuk menguji kinerja model klasifikasi. Ada empat model tes yaitu: 1. Use training set Pengetesan dilakukan dengan menggunakan data training itu sendiri. Akurasi akan sangat tinggi, tetapi tidak memberikan estimasi akurasi yang sebenarnya terhadap data yang lain (data yang tidak dipakai untuk training). 2. Supplied test set Pengetesan dilakukan dengan menggunakan data lain (file training dan testing tersedia secara terpisah). Dengan menggunakan option inilah bisa dilakukan prediksi pada data tes. 3. Cross validation 43

38 Pada cross-validation, akan ada pilihan banyaknya fold yang akan digunakan. Nilai default-nya yaitu Percentage split Hasil klasifikasi akan dites menggunakan k% dari data tersebut, dimana k adalah proporsi dari dataset yang digunakan untuk data training. Persentase di kolom adalah bagian dari data yang dipakai sebagai training set. Pada option ini data training dan testing terdapat dalam satu file. G. Penelitian yang Relevan Penelitian tentang data mining dengan menggunakan berbagai algoritma pada analisis bidang keuangan telah banyak dilakukan khususnya untuk analisis klasifikasi kredit. Beberapa diantaranya yang mendukung penelitian ini dengan variabel dan metode penelitian yang berkaitan. Penelitian yang dilakukan oleh Yogi Yusuf, dkk dalam jurnal Evaluasi Pemohon Kredit Mobil di PT X dengan menggunakan Teknik Data Mining Decision Tree. Penelitian ini menggunakan model credit scoring dengan algoritma C5.0 kredit mobil dengan teknik decision tree dan bantuan software Celementine. Atribut yang digunakan ada 8 yaitu penghasilan, cicilan per bulan, uang muka, jumlah periode pinjaman, rekening tabungan, umur, rekening tagihan telepon, rekening tagihan listrik, dan atribut label kelas. Jumlah sampel yang digunakan sebanyak 750 record. Data dibagi menjadi 60% sebagai data training dan 40% sebagai data testing. Dari penelitian tersebut dapat diketahui bahwa terdapat 148 record (79,57%) yang memiliki hasil validasi yang benar dari 186 sampel. Sedangkan untuk hasil validasi yang kurang tepat terdapat 20,43 % dimana terdapat 38 record 44

39 yang memiliki perbedaan antara hasil prediksi dan aktual. Hasil prediksi juga menunjukkan bahwa sebesar 19,4 % yang semula diprediksi memiliki status kredit lancar ternyata memiliki status kredit macet. Tingkat akurasi keseluruhan dari model yang dibangun sebesar 79,57%. Penelitian yang dilakukan oleh Claudia Clarentia Ciptohartono dalam jurnal skripsi Algoritma Klasifikasi Naïve Bayes untuk Menilai Kelayakan Kredit. Penelitian ini menggunakan algoritma naïve bayes dan software bantu Rapid Miner untuk menentukan nilai kelayakan kredit konsumen dari perusahaan BCA Finance Jakarta Data awal penelitian berjumlah 682 data dan 20 atribut, setelah tahap preprocessing menjadi 682 data dan 16 atribut. Pada penelitian ini digunakan metode cross validation untuk mengukur kinerja algoritma yang digunakan, diketahui nilai akurasi sebelum preprocessing sebesar 85,57% dan setelah preprocessing sebesar 92,53%. Penelitian yang dilakukan oleh Rina Fiati dalam jurnal Model Klasifikasi Kelayakan Kredit Koperasi Karyawan Berbasis Decision Tree. Pada penelitian ini menggunakan algoritma decision tree dan bantuan software RapidMiner. Atribut yang digunakan ada 6 yaitu nomor anggota, bagian, golongan, masa keanggotaan, status marital, dan status pinjaman. Jumlah data yang digunakan ada 584 record, perhitungan manual nilai gain menggunakan data sampel yaitu 10 record. Tingkat akurasi decision tree untuk data dari koperasi karyawan PT Nojorono Tobacco International sebesar 92,28%. Berdasakan model klasifikasi yang telah diperoleh pada penelitian ini, penentuan kelayakan kredit koperasi karyawan adalah dengan memperhatikan atribut masa keanggotaan, status marital dan nomor anggota. 45

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta

Lebih terperinci

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES Analisis Klasifikasi pada Nasabah... (Ahadiyah Nurul Kholifah) 1 ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES CLASSIFICATION ANALYSIS OF CREDIT CUSTOMERS

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI Diajukan Kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta Sebagai

Lebih terperinci

BAB I PENDAHULUAN. kegiatan simpan pinjam layaknya bank, dimana ijin operasionalnya di bawah

BAB I PENDAHULUAN. kegiatan simpan pinjam layaknya bank, dimana ijin operasionalnya di bawah BAB I PENDAHULUAN A. Latar Belakang Koperasi adalah suatu lembaga keuangan bukan bank yang bergerak dalam kegiatan simpan pinjam layaknya bank, dimana ijin operasionalnya di bawah Kementrian Koperasi dan

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan 6 BAB II TINJAUAN PUSTAKA 2.1 Pengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Decision Tree Definisi Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut,

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah BAB III METODOLOGI Dalam penelitian ini metodologi memegang peranan penting guna mendapatkan data yang obyektik, valid dan selanjutnya digunakan untuk memecahkan permasalahan yang telah dirumuskan. Maka

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan) LEARNING Jiawei Han and Micheline Kamber. 2006. Data Mining Concepts and Techniques. San Fransisco : Elsevier M.Tim Jones. Artificial Intelligence A System Approach. Slide Kuliah Data Mining - Klasifikasi,

Lebih terperinci

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN: KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas

Lebih terperinci

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining. Modul Praktikum WEKA Yudi Wibisono (e: yudi@upi.edu ); t: @yudiwbs Ilmu Komputer Universitas Pendidikan Indonesia (cs.upi.edu) Versi BETA : Oktober 2013 http://creativecommons.org/licenses/by-nc-sa/3.0/

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

POHON KEPUTUSAN DENGAN ALGORITMA C4.5 POHON KEPUTUSAN DENGAN ALGORITMA C4.5 1. Pengantar Algoritma C4.5 Klasifikasi merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga dari data yang berukuran relatif

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining merupakan disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data (Han and Kamber, 2006). Data mining sering

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien 1 Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien Ketut Wisnu Antara 1, Gede Thadeo Angga Kusuma 2 Jurusan Pendidikan Teknik Informatika Universitas Pendidikan Ganesha

Lebih terperinci

LANDASAN TEORI Data Mining

LANDASAN TEORI Data Mining 7 LANDASAN TEORI 2.1. Data Mining Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan

Lebih terperinci

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION Hamsir Saleh Hamsir.saleh@gmail.com Fakultas Ilmu Komputer Universitas Ichsan Gorontalo Abstrak Memprediksi kebangkrutan

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG Andri 1), Yesi Novaria Kunang 2), Sri Murniati 3) 1,2,3) Jurusan Sistem Informasi Universitas

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

Penerapan Data Mining dalam Memprediksi Pembelian cat

Penerapan Data Mining dalam Memprediksi Pembelian cat Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Penerapan Data Mining dalam Memprediksi Pembelian cat Fitriana Harahap STMIK POTENSI UTAMA Jl. KL. Yos Sudarso KM 6,5

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Sebelum melakukan penelitian adapun penulis mencari penelitian penelitian yang memungkinkan terkait dengan penelitian antara lain : 1. Analisis Kinerja Data

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. dan fakor-faktor penyebab masalah tersebut bisa terjadi diantaranya. dimanfaatkan dan dikelola dengan baik.

BAB IV HASIL DAN PEMBAHASAN. dan fakor-faktor penyebab masalah tersebut bisa terjadi diantaranya. dimanfaatkan dan dikelola dengan baik. BAB IV HASIL DAN PEMBAHASAN 4.1. Identifikasi Masalah Dalam menentukan status calon dosen dan dosen tetap terdapat masalahmasalah dan fakor-faktor penyebab masalah tersebut bisa terjadi diantaranya sebagai

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Studi Sebelum menyusun tugas akhir ini dilakukan tinjauan pustaka terlebih dahulu terhadap penelitian-penelitian terkait sebagai bahan referensi. Penelitian tentang

Lebih terperinci

Penggunaan Pohon Keputusan untuk Data Mining

Penggunaan Pohon Keputusan untuk Data Mining Penggunaan Pohon Keputusan untuk Data Mining Indah Kuntum Khairina NIM 13505088 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha

Lebih terperinci

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL) KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL) Budi Utami 1, Yuniarsi Rahayu, 2 1,2 Program Studi Teknik Informatika, Fakultas Ilmu Komputer,

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret 2013 12 PENERAPAN ALGORITMA C 4.5 DALAM MEMPEROLEH DECISION TREE UNTUK MEMPREDIKSI PENENTUAN RESIKO KREDIT PADA BANK BPR BUKITTANDANG MANDIRI PADANG MENGGUNAKAN

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah Proses yang menggunakan

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree Scientific Journal of Informatics Vol. 3, No. 1, Mei 2016 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan

Lebih terperinci

BAB I PENDAHULUAN. Indonesia. Menurut Undang-Undang No.25 Tahun 1992 koperasi Indonesia adalah

BAB I PENDAHULUAN. Indonesia. Menurut Undang-Undang No.25 Tahun 1992 koperasi Indonesia adalah BAB I PENDAHULUAN A. Latar Belakang Koperasi merupakan salah satu badan usaha yang sudah lama dikenal di Indonesia. Menurut Undang-Undang No.25 Tahun 1992 koperasi Indonesia adalah badan usaha yang beranggotakan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu tanggung jawab sosial PT. Telkom dalam program kemitraan dengan masyarakat sekitarnya adalah memberikan kredit lunak bagi pelaku Usaha Kecil Menengah (UKM).

Lebih terperinci

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES Nama : Muhammad Rizki NPM : 54410806 Jurusan Pembimbing

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio 21 BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) 3.1 Regresi Logistik Biner Regresi logistik berguna untuk meramalkan ada atau tidaknya karakteristik berdasarkan prediksi

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : Tabel 2.1 Penelitian sebelumnya Parameter Penulis Objek Metode Hasil

Lebih terperinci

PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT

PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT Jurnal Techno Nusa Mandiri Vol. XIV, No. 1 Maret 2017 9 PENERAPAN ALGORTIMA C4.5 UNTUK PENENTUAN KELAYAKAN KREDIT Siti Nur Khasanah Sistem Informasi STMIK Nusa Mandiri Jakarta Jl. Damai No 8 Warung Jati

Lebih terperinci

Data Mining II Estimasi

Data Mining II Estimasi Data Mining II Estimasi Matakuliah Data warehouse Universitas Darma Persada Oleh: Adam AB Data Mining-2012-a@b 1 Tahapan proses datamining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Deposito merupakan salah satu tabungan berjangkaayangamodel pengambilannya berdasarkan pada kesepakatan dari pihak bank dengan nasabah deposito [1].Suku bunga

Lebih terperinci

TEKNIK DATA MINING UNTUK MENDAPATKAN INFORMASI DARI KELUARAN PERANGKAT JARINGAN

TEKNIK DATA MINING UNTUK MENDAPATKAN INFORMASI DARI KELUARAN PERANGKAT JARINGAN TEKNIK DATA MINING UNTUK MENDAPATKAN INFORMASI DARI KELUARAN PERANGKAT JARINGAN Haryanto Binus University, Jakarta, DKI Jakarta, Indonesia Abstrak Data mining adalah sebuah tool yang banyak digunakan dalam

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN Penelitian ini adalah penelitian eksperimen dengan langkah-langkah atau metode penelitian sebagai berikut: 1. Penentuan Masalah Penentuan masalah ini diperoleh dari studi literature

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi

Lebih terperinci

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang) Hapsari Dita Anggraeni, Ragil Saputra, Beta Noranita APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang) Hapsari Dita

Lebih terperinci

2.2 Data Mining. Universitas Sumatera Utara

2.2 Data Mining. Universitas Sumatera Utara Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record

Lebih terperinci

BAB 2. Landasan Teori

BAB 2. Landasan Teori BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO Wahyu Nurjaya WK 1, Yusrina Adani 2 Program Studi Sistem Informasi, STMIK LPKIA Bandung Program

Lebih terperinci

TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK

TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK 1 Nurma Jayanti Sulistyo Puspitodjati 3 Tety Elida 1 jurusan sistem informasi, universitas gunadarma

Lebih terperinci

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1 BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang

Lebih terperinci

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan PENERAPAN DATA MINING DENGAN METODE KLASIFIKASI NAÏVE BAYES UNTUK MEMPREDIKSI KELULUSAN MAHASISWA DALAM MENGIKUTI ENGLISH PROFICIENCY TEST (Studi Kasus : Universitas Potensi Utama) Alfa Saleh Teknik Informatika

Lebih terperinci

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal) 1 KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal) Budi Utami Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula No. 5-11 Semarang-50131

Lebih terperinci

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY DATA WAREHOUSE - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD) Penemuan Pengetahuan di Database Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data

Lebih terperinci

ISSN : STMIK AMIKOM Yogyakarta, 6-8Februari 2015

ISSN : STMIK AMIKOM Yogyakarta, 6-8Februari 2015 KLASIFIKASI DATA NAP (NOTA ANALISIS PEMBIAYAAN) DENGAN 5C+1S UNTUK PENENTUAN TINGKAT KEAMANAN PEMBIAYAAN MENGGUNKAN ALGORITMA NAÏVE BAYES CLASSIFIER PADA BANK SYARIAH Sumarni Adi1) 1) Teknik Informatika

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti

Lebih terperinci

Manajemen Data. Dosen : Dr. Yan Rianto Rini Wijayanti, M.Kom Nama : Yoga Prihastomo NIM :

Manajemen Data. Dosen : Dr. Yan Rianto Rini Wijayanti, M.Kom Nama : Yoga Prihastomo NIM : Manajemen Data Dosen : Dr. Yan Rianto Rini Wijayanti, M.Kom Nama : Yoga Prihastomo NIM : 1011601026 MAGISTER ILMU KOMPUTER UNIVERSITAS BUDI LUHUR 2011 DIT TI / DJHKI SKPL-DJHKI-01.04.2011.xx Halaman 0

Lebih terperinci

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. BAB 2 LANDASAN TEORI Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. 2.1. Data Mining Data mining adalah suatu istilah yang digunakan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Database Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian kumpulan data yang berisi secara logika, dan keterangan dari masing-masing data yang didesain untuk mendapatkan

Lebih terperinci

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5 PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5 Annisak Izzaty Jamhur Universitas Putera Indonesia YPTK Padang e-mail: annisakizzaty@yahoo.com Abstract

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

Sekip Utara Yogyakarta * 1 2

Sekip Utara Yogyakarta   * 1 2 IJCCS, Vol.9, No.1, January 2015, pp. 1~12 ISSN: 1978-1520 1 Klasifikasi Data NAP (Nota Analisis Pembiayaan) untuk Prediksi Tingkat Keamanan Pemberian Kredit (Studi Kasus : Bank Syariah Mandiri Cabang

Lebih terperinci

BAB III LANDASAN TEORI

BAB III LANDASAN TEORI BAB III LANDASAN TEORI 3.1 Data, Informasi, Pengetahuan Data adalah bilangan, terkait dengan angka angka atau atribut atribut yang bersifat kuantitas, yang berasal dari hasil observasi, eksperimen, atau

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap Data Mining Outline BAB I Pendahuluan BAB II Data BAB III Algoritma Klasifikasi BAB IV Algoritma Klastering BAB V Algoritma Asosiasi BAB VI Algoritma Estimasi BAB VII Deteksi Anomali Ricky Maulana Fajri

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Selly Artaty Zega Program Studi Teknik Multimedia dan Jaringan, Jurusan Teknik Informatika, Politeknik

Lebih terperinci