PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Ukuran: px
Mulai penontonan dengan halaman:

Download "PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI"

Transkripsi

1 DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN KATEGORIKAL MENGGUNAKAN ALGORITMA ENHANCED CLASS OUTLIER DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ) TUGAS AKHIR Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Disusun Oleh : MARIA KRISTILIA WIDOWATI PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2014

2 DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN KATEGORIKAL MENGGUNAKAN ALGORITMA ENHANCED CLASS OUTLIER DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ) TUGAS AKHIR Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Disusun Oleh : MARIA KRISTILIA WIDOWATI PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2014 i

3 OUTLIER DETECTION ON MIXED ATTRIBUTES NUMERICAL AND CATEGORICAL DATA USING ENHANCED CLASS OUTLIER DISTANCE BASED (ECODB) ALGORITHM (Case Study : Credit Data of BPR XYZ) A Thesis Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana Komputer Degree In Informatical Engineering Study Program By : MARIA KRISTILIA WIDOWATI INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2014 ii

4

5 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI

6 HALAMAN PERSEMBAHAN Janganlah gelisah hatimu; percayalah kepada Allah, percayalah juga kepada-ku. (Yohanes 14:1) Tidak ada yang mustahil bagi orang yang percaya! (Markus 9:32) Pendidikan mempunyai akar yang pahit, tetapi buahnya manis. (Aristoteles) Tidak ada orang yang gagal selama dia menikmati hidup. (William Feather) Setiap hal yang terjadi, baik ataupun buruk, selalu ada yang menarik dan dapat dipelajari. Tugas akhir ini saya persembahkan untuk : Allah Tritunggal Orangtuaku, saudara- saudaraku, sahabat sahabatku dan orang orang terkasih. v

7

8 ABSTRAK Outlier adalah adalah obyek yang berbeda dibandingkan obyek obyek lain dalam suatu dataset. Dalam penambangan data, deteksi outlier adalah satu satu bidang penelitian yang terus berkembang. Umumnya metode deteksi outlier tidak memperhatikan secara khusus class label pada dataset dan hanya fokus pada dataset yang seragam. Padahal, dataset yang nyata biasanya mempunyai multiatribut. Pada deteksi outlier dengan algoritma Enhanced Class Outlier Distance Based (ECODB), data yang menyimpang dari kumpulan class-nya dapat ditemukan. Algoritma ECODB dapat diterapkan pada dataset dengan atribut campuran numerik dan kategorikal. Algoritma ECODB akan menghitung nilai Class Outlier Factor (COF) dari tiap instances berdasarkan masukan nilai k dan top N. K adalah jumlah tetangga terdekat dari suatu instances, sedangkan top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar berdasarkan nilai COF. COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah data dengan nilai COF terendah. Pada penelitian ini dilakukan pendeteksian outlier menggunakan algoritma ECODB. Data yang digunakan adalah data debitur BPR XYZ yang mengangsur kredit pada bulan Agustus Data tersebut berjumlah 97 record dalam format Microsoft Excel (.xls). Pada penelitian ini akan diketahui bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB. Pengujian dilakukan dengan cara menghitung data debitur BPR XYZ menggunakan algoritma ECODB dengan masukan k dan top N yang berbeda. Kemudian hasil perhitungan tersebut dibandingkan untuk mendapatkan kesimpulan. Selain itu juga dilakukan review hasil deteksi outlier oleh petugas bank. Dari hasil pengujian efek perubahan nilai k dan top N dapat disimpulkan bahwa penentuan nilai k dan top N pada algoritma ECODB berpengaruh terhadap outlier yang dihasilkan. Nilai k dan top N yang terlalu kecil atau besar menyebabkan hasil deteksi outlier tidak optimal. Berdasarkan hasil pengujian review dan validitas oleh petugas bank dapat disimpulkan bahwa hasil deteksi outlier yang diperoleh layak dinyatakan sebagai outlier. Kata kunci : penambangan data, deteksi outlier, ecodb, enhanced class outlier distance based vii

9 ABSTRACT Outlier is an object which is different from any objects in one dataset. In data mining, outlier detection is one of growing researches. Generally, outlier detection methods find exception or rare cases in a dataset without considered class label as an important thing and only can be used on dataset that have single datatypes. In fact, real world dataset usually have mixed datatypes. On outlier detection using Enhanced Class Outlier Distance Based (ECODB) algorithm, data which is different from its class can be found. ECODB algorithm can be applied on dataset that have numerical and categorical attributes. ECODB algorithm count the Class Outlier Factor (COF) from each instances based on k and top N value. K is the nearest neighbors of instances, whereas top N is the number of top class outlier that rank from greatest to the least based on COF value. COF is the probability/degree from an instance to be considered as outlier. Outlier is data which have least COF value. In this thesis, ECODB algorithm was used to perform outlier detection. The data used in this thesis is credit data of BPR XYZ debtor whom lessened their credit on August This data consist of 97 records on Microsoft Excel format (.xls). In this thesis, it can be understand how k and top N value influenced on outlier detection using ECODB algorithm. The testing can be done by counting credit data of BPR XYZ using ECODB algoritm with various input of k and top N. The results was compared to provide the conclusion. Besides, it also validated the results of outlier detection by reviewing the bank officer. Based on the testing, it can be concluded that the determination of k and top N value influence the results of outlier detection. Very small or very high of k and top N value cause unoptimal outlier detection. Also, based on validation testing by bank officer, the results of the outlier detection using ECODB algorithm are confirmed as outliers. Keyword : data mining, outlier detection, ecodb, enhanced class outlier distance based viii

10

11 KATA PENGANTAR Puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas penyertaan-nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Deteksi Outlier pada Data Campuran Numerik dan Kategorikal Menggunakan Algoritma Enhanced Class Outlier Distance Based (ECODB) (Studi Kasus : Data Kredit BPR XYZ). Penulisan tugas akhir ini ditujukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer Jurusan Teknik Informatika. Terselesaikannya penulisan tugas akhir ini tidak lepas dari peran serta beberapa pihak, baik secara langsung maupun secara tidak langsung. Oleh karena itu, penulis ingin menyampaikan terima kasih kepada pihak - pihak yang telah ikut membantu dalam penulisan tugas akhir ini, baik dalam memberi bimbingan, petunjuk kerjasama, kritikan, maupun saran,antara lain kepada: 1. Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta dan dosen pembimbing yang telah memberikan masukan sehingga tugas akhir ini dapat terselesaikan. 2. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Ketua Program Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta dan dosen penguji. 3. Sri Hartati Wijono, S.Si., M.Kom, selaku dosen penguji. 4. Seluruh staff pengajar dan karyawan Program Studi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma. 5. Direktur Utama BPR XYZ dan Kepala Bagian Humas BPR XYZ yang telah memberikan ijin untuk melakukan penelitian di BPR XYZ. 6. Kedua orang tua tersayang, bapak Yohanes Suradi dan ibu Firmina Sri Rahayuningsih yang selalu mendoakan, memberi petuah dan semangat sehingga tugas akhir ini dapat terselesaikan. 7. Semua saudara, Agatha Ratih Firmita Adhi, Andreas Kresna Oki Raditya, Rosa Ayu Famela Larasati, dan Juanetta Ruby de Bruyn yang telah x

12 memberikan semangat, perhatian, penghiburan dan doa sehingga penulis dapat menyelesaikan tugas akhir ini. 8. Sahabat sahabatku, alm. Vina, alm. Yoana, Murni, Rosa, Devi, mbak Putri, Vina, Veni, Monic, Eny, Ria, Ita, Nana, Endah, Etik, Dhesie, Caca, Ulays, Veverly, Justin, Helan, dan Violya. 9. Dan semua pihak yang tidak dapat disebutkan satu per satu yang telah membantu terselesaikannya tugas akhir ini. Penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna. Oleh karena itu, penulis dengan senang hati menerima sumbangan pikiran, baik saran maupun kritik untuk perbaikan perbaikan di masa datang. Akhir kata, penulis berharap semoga laporan ini dapat bermanfaat bagi semua pihak. Yogyakarta, Oktober 2014 Maria Kristilia Widowati xi

13 DAFTAR ISI HALAMAN JUDUL.. i HALAMAN PERSETUJUAN... iii HALAMAN PENGESAHAN.... iv HALAMAN PERSEMBAHAN..... v PERNYATAAN KEASLIAN KARYA..... vi ABSTRAK vii ABSTRACT viii LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI. ix KATA PENGANTAR x DAFTAR ISI... xii DAFTAR TABEL... xv DAFTAR GAMBAR.. DAFTAR LAMPIRAN... xvi xvii BAB I PENDAHULUAN A. Latar Belakang Masalah... 1 B. Rumusan Masalah C. Tujuan Penelitian D. Batasan Masalah E. Manfaat Penelitian.. 4 F. Metodologi Penelitian. 4 G. Sistematika Penulisan.. 5 BAB II LANDASAN TEORI A. Penambangan Data Pengertian dan Fungsi Penambangan Data Pemrosesan Awal Data... 8 B. Outlier C. Algoritma Enhanced Class Outlier Distance Based (ECODB) xii

14 BAB III METODE PENELITIAN A. Metodologi Penelitian.. 19 B. Instrumen Penelitian C. Teknik Pengumpulan Data D. Teknik Pengolahan Data E. Tahap Tahap Penelitian.. 23 F. Contoh Perhitungan Algoritma ECODB.. 25 BAB IV HASIL DAN PEMBAHASAN A. Sumber Awal Data B. Pemrosesan Awal Data Seleksi Data.. 2. Pengisian Missing Value.. 3. Normalisasi Data.. C. Penambangan Data Dengan Microsoft Excel.. 1. Menormalisasi Data Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak Mixed Euclidian Distance Menghitung PCL Meranking List Top N Outlier Dari Instance Dengan Nilai PCL(T,K) Terkecil Menghitung Nilai Deviation(T) Norm(Deviation(T)), Kdist(T), Dan Norm(Kdist(T)).. 6. Menghitung Nilai COF (Class Outlier Factor) Mengurutkan List Top N Secara Ascending Sesuai Nilai COF D. Hasil Deteksi Outlier Berdasarkan Algoritma ECODB Dengan Microsoft Excel. 44 E. Kesimpulan Hasil Percobaan Perhitungan Dengan Masukan K dan Top N Yang Berubah - Ubah. 66 F. Kesimpulan Hasil Pengujian Review dan Validitas oleh Pengguna.. 67 xiii

15 BAB V PENUTUP A.Kesimpulan G. Saran DAFTAR PUSTAKA. 75 LAMPIRAN xiv

16 DAFTAR TABEL Tabel 3.1. Atribut atribut pada dataset debitur Tabel 3.2. Hasil perhitungan PCL tiap instance Tabel 3.3 Hasil perhitungan Deviation dan KDist dari tiap instance Tabel 3.4. Hasil perhitungan COF dari tiap instance Tabel 4.1. Contoh atribut pada dataset debitur sebelum normalisasi Tabel 4.2. Contoh atribut pada dataset debitur setelah normalisasi Tabel 4.3. Hasil deteksi outlier dengan masukan k dan top N yang berubah ubah Tabel 4.4. Nilai rata rata COF berdasarkan masukan k dan top N yang berubah ubah 47 Tabel 4.5 Nilai COF dengan k = 7 dan top N = Tabel 4.6 Nilai COF dengan k = 7 dan top N = Tabel 4.7 Nilai COF dengan k = 7 dan top N = Tabel 4.8 Nilai COF dengan k = 7 dan top N = Tabel 4.9 Nilai COF dengan k = 7 dan top N = Tabel 4.10 Nilai COF dengan k = 17 dan top N = Tabel 4.11 Nilai COF dengan k = 17 dan top N = Tabel 4.12 Nilai COF dengan k = 17 dan top N = Tabel 4.13 Nilai COF dengan k = 17 dan top N = Tabel 4.14 Nilai COF dengan k = 17 dan top N = Tabel 4.15 Nilai COF dengan k = 27 dan top N = Tabel 4.16 Nilai COF dengan k = 27 dan top N = Tabel 4.17 Nilai COF dengan k = 27 dan top N = Tabel 4.18 Nilai COF dengan k = 27 dan top N = Tabel 4.19 Nilai COF dengan k = 27 dan top N = Tabel 4.20 Nilai COF dengan k = 37 dan top N = Tabel 4.21 Nilai COF dengan k = 37 dan top N = Tabel 4.22 Nilai COF dengan k = 37 dan top N = Tabel 4.23 Nilai COF dengan k = 37 dan top N = xv

17 Tabel 4.24 Nilai COF dengan k = 37 dan top N = Tabel 4.25 Nilai COF dengan k = 47 dan top N = Tabel 4.26 Nilai COF dengan k = 47 dan top N = Tabel 4.27 Nilai COF dengan k = 47 dan top N = Tabel 4.28 Nilai COF dengan k = 47 dan top N = Tabel 4.29 Nilai COF dengan k = 47 dan top N = xvi

18 DAFTAR GAMBAR Gambar 2.1 Metode pemrosesan awal data Gambar 2.2 Set data dengan outlier Gambar 3.1 Contoh dataset debitur Gambar 3.2 Data debitur yang telah dinormalisasi. 26 Gambar 3.3 Perhitungan jarak setiap instance dari data debitur 26 Gambar 3.4 Tujuh tetangga terdekat dari tiap instance... Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data Gambar 4.2 Isi data debitur setelah tahap pengisian missing value. 37 Gambar 4.3 Contoh formula normalisasi data Gambar 4.4 Contoh formula mencari jarak.. 40 Gambar 4.5 Contoh formula menghitung PCL Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCL(T,K) terkecil Gambar 4.7 Contoh formula menghitung Deviation 42 Gambar 4.8 Contoh formula menghitung Norm(Deviation(T)) Gambar 4.9 Contoh formula menghitung Kdist.. 42 Gambar 4.10 Contoh formula menghitung Norm(KDist(T)) Gambar 4.11 Contoh formula menghitung COF (Class Outlier Factor). 43 Gambar 4.12 Contoh meranking kecil ke besar berdasarkan nilai COF terkecil. 44 xvii

19 DAFTAR LAMPIRAN 1. Tabel data debitur sebelum mengalami pemrosesan awal Hasil seleksi atribut data debitur Hasil pengisian missing value Hasil normalisasi data Hasil pemrosesan data xviii

20 BAB I PENDAHULUAN A. Latar Belakang Masalah Outlier adalah kumpulan obyek - obyek yang dipandang sangat berbeda dibandingkan keseluruhan data (Han dan M. Kamber, 2006). Dalam penambangan data, deteksi outlier adalah satu satu bidang penelitian yang terus berkembang (Maryono, 2010). Deteksi data outlier sangat bermanfaat untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu kredit, deteksi intrusi jaringan, penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan sebagainya (Breunig, et. al., 2000). Ada bermacam macam teknik yang digunakan untuk mendeteksi outlier pada data. Namun, pada banyak metode deteksi outlier tidak memperhatikan secara khusus class label pada dataset. Akibatnya data yang merupakan outlier dalam suatu class label tidak dapat dideteksi. Selain itu, metode metode tersebut hanya fokus pada set data yang seragam, yaitu hanya terdiri dari salah satu tipe atribut saja (Maryono, 2010). Padahal, set data yang nyata tidak hanya mempunyai atribut numerik, tetapi juga mempunyai atribut kategorikal (Aggarwal, 2013). Contoh data nyata dengan atribut campuran dan mempunyai class label adalah data debitur BPR XYZ. Data ini merupakan data debitur yang mengangsur kredit pada bulan Agustus Untuk mengetahui outlier yang 1

21 2 terdapat pada data debitur tersebut dapat dilakukan pendeteksian outlier menggunakan algoritma Enhanced Class Outlier Distance Based (ECODB). Menurut Hewahi dan M. K. Saad (2009), algoritma Enhanced Class Outlier Distance Based (ECODB) dapat digunakan untuk mendeteksi outlier pada data dengan multiatribut. Algoritma ini akan menghitung nilai Class Outlier Factor (COF) dari tiap instances berdasarkan masukan nilai k dan top N. K adalah jumlah tetangga terdekat dari suatu instances, sedangkan top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar berdasarkan nilai COF. COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah data dengan nilai COF terendah. Pada penelitian ini dilakukan pendeteksian outlier pada data debitur BPR XYZ menggunakan algoritma ECODB. Hasil penelitian ini diharapkan dapat memberi gambaran apakah algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur dengan atribut campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ dan bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank dapat menganalisa data dan outlier untuk menemukan faktor tertentu yang berpengaruh pada keunikan data debitur tersebut. B. Rumusan Masalah Berdasarkan latar belakang masalah di atas, maka masalah yang dapat diselesaikan adalah sebagai berikut :

22 3 1. Apakah algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur dengan atribut campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ? 2. Bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB? C. Tujuan Penelitian Tujuan dari penelitian ini adalah : 1. Menguji apakah algoritma ECODB dapat digunakan untuk menemukan outlier pada data debitur dengan atribut campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ. 2. Mengetahui pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB. D. Batasan Masalah Penelitian ini mempunyai beberapa batasan, yaitu : 1. Data yang digunakan adalah data debitur BPR XYZ yang mengangsur kredit pada bulan Agustus Data tersebut berjumlah 97 record dalam format Microsoft Excel. 2. Algoritma yang digunakan adalah algoritma ECODB (Enhanced Class Outlier Distance Based). 3. Proses deteksi outlier dan analisa menggunakan Microsoft Excel.

23 4 E. Manfaat Penelitian Penelitian ini mempunyai manfaat sebagai berikut : 1. Mengetahui apakah algoritma ECODB dapat digunakan untuk menemukan outlier pada data debitur dengan atribut campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ. 2. Mengetahui pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB. 3. Membantu pihak bank untuk menemukan faktor tertentu yang berpengaruh pada keunikan data debitur. F. Metodologi Penelitian Metodologi yang digunakan pada penelitian ini adalah menggunakan metode KDD (Knowledge Discovery in Database), yang dikemukakan oleh Han dan Kamber (2006). Langkah dari metodologi tersebut adalah sebagai berikut : 1. Seleksi Data ( Data Selection ) Proses pemilihan atribut-atribut yang relevan untuk dilakukan penambangan data. Atribut yang tidak relevan akan dihilangkan karena akan membiaskan hasil penambangan data. 2. Pembersihan Data (Data Cleaning) Proses pembersihan pada data yang menjadi fokus KDD. Bentuk pembersihan data mencakup antara lain mengisi missing value, menghaluskan data yang noisy, mengidentifikasi dan menghilangkan outlier, dan menangani data yang tidak

24 5 konsisten. Dalam penelitian ini dilakukan pengisian missing value. 3. Transformasi Data (Data Transformation) Proses transformasi pada data yang sudah diseleksi ke dalam bentuk yang sesuai untuk ditambang. 4. Penambangan Data (Data Mining) Proses mengaplikasikan metode untuk mendapatkan pola pada suatu kumpulan data. Dalam penelitian ini, metode yang digunakan adalah metode analisis outlier dengan menggunakan algoritma ECODB. 5. Evaluasi Pola ( Pattern Evaluation ) Proses penerjemahan pola-pola yang dihasilkan dari penambangan data. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. G. Sistematika Penulisan Secara umum dalam menyelesaikan penelitian ini, disusun suatu sistematika sebagai berikut : BAB I : PENDAHULUAN Berisi latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian dan sistematika penulisan.

25 6 BAB II : LANDASAN TEORI Berisi teori - teori yang mendukung penelitian, antara lain mengenai penambangan data, outlier dan algoritma Enhanced Class Outlier Distance Based (ECODB). BAB III : METODE PENELITIAN Berisi penjelasan mengenai langkah atau metode yang dilakukan untuk menyelesaikan masalah dalam penelitian ini. BAB IV : HASIL DAN PEMBAHASAN Berisi penjelasan tentang hasil analisa yang diperoleh dari penelitian. Pada bab ini, akan dijabarkan secara lengkap proses perhitungan menggunakan Microsoft Excel, hasil deteksi outlier yang didapat, hasil analisa algoritma ECODB yang diterapkan ke dalam data debitur dan hasil pengujian review dan validitas outlier oleh petugas bank BPR XYZ. BAB VII : PENUTUP Berisi kesimpulan dan saran yang bermanfaat bagi pengembangan penelitian ini lebih lanjut.

26 BAB II LANDASAN TEORI A. Penambangan Data 1. Pengertian dan Fungsi Penambangan Data Menurut Santosa (2007) penambangan data adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari penambangan data bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Tool penambangan data mampu memprediksi tren dan perilaku sehingga mampu membuat perusahaan semakin proaktif dan memperkaya pengetahuan atau informasi dalam membuat keputusan (Lee S dan Santana, 2010). Menurut Lee S dan Santana (2010), fungsi penambangan data yang digunakan untuk keperluan implementatif mencakup : a. Mendeteksi pola kecurangan bertransaksi, klaim kartu kredit, dll. b. Memodelkan pola dan perilaku pembeli/konsumen. c. Mengoptimasi performansi produk barang atau jasa. d. Mendeteksi kejadian pada perilaku, seperti menelusuri riwayat aktivitas yang unik atau tidak wajar. 7

27 8 e. Memperlengkapi perusahaan dalam menemukan pola dan korelasi data yang menuntun pada pengetahuan dan temuan bernilai lainnya. 2. Pemrosesan Awal Data Data yang belum diproses disebut data mentah. Data mentah perlu disiapkan terlebih dahulu agar bisa dipakai dalam proses penambangan data. Pada data mentah sering ditemukan noisy, missing value (nilai yang hilang), dan data yang tidak konsisten. Data dengan kualitas rendah akan menghasilkan kualitas penambangan yang buruk (Han dan Kamber, 2006). Maka perlu ditingkatkan kualitasnya dengan melakukan pemrosesan awal data. Sumber : Han dan Kamber, 2006 Gambar 2.1 Metode pemrosesan awal data Ada beberapa metode pemrosesan awal data, yaitu : a. Pembersihan data (data cleaning)

28 9 Data yang akan ditambang mungkin saja mengalami missing value, noisy, atau tidak konsisten. Pembersihan data diperlukan untuk mengisi missing value, menghaluskan data yang noisy, mengidentifikasi dan menghilangkan outlier, dan menangani data yang tidak konsisten (Han dan Kamber, 2006). Ada beberapa langkah pembersihan data untuk menangani data yang missing value atau noisy. 1. Missing value a. Membiarkan nilai yang hilang. b. Mengisi nilai yang hilang secara manual. c. Menggunakan konstanta \Unknown atau untuk mengisi nilai yang hilang. d. Mengisi nilai yang hilang dengan nilai rata rata atribut. e. Mengisi nilai yang hilang dengan nilai rata rata sampel dari kelas yang sama. f. Mengisi dengan nilai yang paling besar kemungkinan/kesesuaiannya dengan nilai yang hilang (Han dan Kamber, 2006). 2. Noisy a. Metode binning. Ada 3 macam metode binning, yaitu :

29 10 1. Smoothing dengan rata rata (means) dari bin. Tiap nilai dari bin diganti dengan nilai rata rata bin. 2. Smoothing dengan nilai tengah (median) dari bin. Tiap nilai dari bin diganti dengan nilai nilai tengah bin. 3. Smoothing dengan batas bin. Nilai terendah dan tertinggi diidentifikasi sebagai batas bin. Setiap nilai bin diubah sesuai nilai batas bin yang paling mendekati (Han dan Kamber, 2006). b. Regresi. c. Clustering. b. Integrasi data (data integration) Integrasi data adalah suatu teknik mengkombinasikan data dari beberapa sumber dalam satu tempat penyimpanan, misalnya gudang data (data warehouse). Sumber tersebut bisa berupa multiple database, data cube atau flat file (Han dan Kamber, 2006). c. Transformasi data (data transformation)

30 11 Data mentah perlu dilakukan proses transformasi untuk meningkatkan performanya. Dalam tranformasi data, data diubah menjadi bentuk yang bisa ditambang (Han dan Kamber, 2006). Ada beberapa metode transformasi data, yaitu : 1. Smoothing. 2. Agregasi. 3. Generalisasi. 4. Normalisasi. 5. Konstruksi atribut. (Han dan Kamber, 2006) d. Reduksi data (data reduction) Data yang kompleks akan membutuhkan waktu yang lama untuk menambang. Teknik reduksi data sangat membantu mereduksi data yang kompleks tanpa mengurangi integritas dari data yang asli dan tidak mengurangi kualitas informasi yang dihasilkan (Han dan Kamber, 2006). Ada beberapa metode yang digunakan untuk mereduksi data, yaitu : 1. Agregasi data cube. 2. Mereduksi dimensi. 3. Mengkompresi data. 4. Mereduksi semua data (mengganti data yang asli dengan model data).

31 12 5. Pendiskretan dan konsep hirarki (Han dan Kamber, 2006). B. Outlier Menurut Han dan Kamber (2006), data outlier adalah kumpulan obyek - obyek yang dipandang sangat berbeda dibandingkan keseluruhan data. Jadi dapat dikatakan, outlier adalah data yang berbeda/tidak sama atau tidak konsisten dengan keseluruhan set data. Sumber : Han dan Kamber, 2006 Gambar 2.2 Set data dengan outlier Ada beberapa hal yang menyebabkan munculnya outlier, yaitu : 1. Kesalahan pengukuran data. Sebagai contoh, munculnya data umur seseorang yaitu 999 tahun karena kesalahan pengaturan default program. 2. Data pengukuran berasal dari populasi lain. Contohnya yaitu gaji seorang pimpinan perusahaan dapat dianggap sebagai outlier di antara gaji para karyawan di perusahaan tersebut karena adanya perbedaan yang sangat

32 13 mencolok antara gaji seorang pimpinan dan gaji karyawan di sebuah perusahaan (Han dan Kamber, 2006). 3. Data pengukuran yang benar tetapi mewakili peristiwa atau keadaan unik yang jarang terjadi. Misalnya, terdapat ada mahasiswa dengan IPK di atas 3,9 sementara sebagian besar mahasiswa mempunyai IPK di bawah 3,3, maka mahasiswa itu akan dianggap sebagai outlier. Kebanyakan algoritma penambangan data mencoba untuk mengurangi atau bahkan menghilangkan pengaruh outlier. Padahal outlier sendiri kemungkinan memiliki informasi penting yang tersembunyi (Han dan Kamber, 2006). Deteksi outlier dapat menghasilkan informasi penting yang terdapat pada outlier. Dalam penambangan data, deteksi outlier adalah satu satu bidang penelitian yang terus berkembang (Maryono, 2010). Deteksi data outlier sangat bermanfaat untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu kredit, deteksi intrusi jaringan, penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan sebagainya (Breunig, et. Al., 2000). Menurut Han dan Kamber (2006), pendeteksian outlier dikategorikan menjadi 4 metode yaitu : a. Statistical Distribution Based Outlier Detection Dalam metode ini data diasumsikan sebagai sebuah hipotesis kerja. Setiap data obyek di dalam dataset dibandingkan terhadap hipotesis kerja. Data yang dapat diterima maka akan

33 14 masuk dalam hipotesis kerja, sedangkan data yang ditolak atau tidak sesuai dengan hipotesis kerja maka ditetapkan menjadi hipotesis alternatif (outlier). b. Distance Based Outlier Detection Metode ini adalah sebuah metode deteksi outlier dengan menghitung jarak pada obyek tetangga terdekat (nearest neighbor). Di dalam pendekatan ini sebuah obyek dibandingkan dengan obyek obyek terdekatnya yang didefinisikan sebagai k nearest neighbor. Jika jarak sebuah obyek relatif dekat maka obyek tersebut dikatakan normal, namun jika jarak antar obyek relatif jauh maka obyek tersebut dikatakan tidak normal (outlier). c. Density Based Local Outlier Detection Metode density based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk pencarian outlier ini hanya membutuhkan sebuah parameter yaitu MinPts. MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan kumpulan lokal suatu obyek. d. Deviation Based Outlier Detection Metode deviation based tidak menggunakan pengujian statistik ataupun perbandingan jarak untuk mengidentifikasi sebuah outlier.

34 15 Metode ini mengidentifikasi sebuah outlier dengan memeriksa karakteristik utama dari obyek dalam sebuah kumpulan data. Obyek yang memiliki karakteristik di luar karakteristik utama akan dianggap sebagai outlier (Han dan Kamber, 2006). C. Algoritma Enhanced Class Outlier Distance Based (ECODB) Algoritma Enhanced Class Outlier Distance Based (ECODB) adalah algoritma deteksi outlier yang dikembangkan oleh Hewahi dan M. K. Saad (2009). Algoritma ini merupakan penyempurnaan dari algoritma CODB (Class Outlier Distance Based). Pada algoritma ini parameter α dan β dihilangkan sehingga pada penghitungan Deviation(T) dan KDist(T) dilakukan proses normalisasi (Hewahi dan M. K. Saad, 2009). Kedua parameter tersebut dihilangkan untuk menghindari proses trial and error. Langkah langkah algoritma ECODB adalah sebagai berikut : 1. Untuk dataset yang diberikan, hitung nilai PCL(T,K) untuk semua instance. PCL(Probability of Class Label) adalah nilai probabilitas/banyaknya kemunculan class label yang sama dengan instance T dibandingkan K tetangga terdekatnya. Misalkan ada 7 tetangga terdekat dari instance T (termasuk dirinya) dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga terdekat mempunyai class label x dan sisanya mempunyai class label y. Instance T dengan class label y mempunyai nilai PCL 2/7.

35 16 2. Meranking list top N outlier dari instance dengan nilai PCL(T,K) terkecil. Top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan dari kecil ke besar berdasarkan nilai COF. 3. Untuk setiap instance yang berada di list top N, menghitung nilai Deviation(T) dan KDist(T) dan update nilai MaxDev, MinDev, MaxKDist, dan MinKDist. Misalkan ada subset DCL = {t 1, t 2, t 3,..., t h } dari dataset D= {t 1, t 2, t 3,..., t n }, dimana h adalah jumlah instance dari DCL dan n adalah jumlah instance di D. Misalkan ada instance T, DCL mengandung seluruh instance yang mempunyai label kelas (class label) yang sama dengan instance T. Deviation dari T adalah seberapa besar nilai instance T yang menyimpang dari subset DCL. Deviation dihitung dengan menjumlahkan jarak antara instance T dengan setiap instance DCL. Deviation dihitung dengan rumus sebagai berikut : (2.1) KDist adalah jarak antara instance T pada dataset D dengan K tetangga terdekat, seberapa dekat nilai K instance tetangga terdekat dengan instance T. KDist dihitung dengan rumus sebagai berikut :

36 17 (2.2) Kemudian nilai Deviation dan KDist dinormalisasikan dalam range 0 1 menggunakan rumus sebagai berikut : (2.3) Dimana, Norm(Deviation(T)) : nilai deviation yang sudah ternormalisasi dari instance T Norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari instance T MaxDev : nilai deviation tertinggi dari top N class outlier MinDev : nilai deviation terendah dari top N class outlier MaxKDist : nilai KDist tertinggi dari top N class outlier MinKDist : KDist terendah dari top N class outlier 4. Menghitung nilai COF (Class Outlier Factor) dari setiap instance yang berada di list top N. COF adalah derajat dari suatu instance T untuk dikategorikan sebagai outlier. (2.4) Dimana, COF(T) : nilai Class Outlier Faktor dari instance T K : jumlah tetangga instance T

37 18 PCL(T,K) : nilai probabilitas class label dari instance T dengan class label dari K Nearest Neighbors norm(devation(t)) : nilai deviation yang sudah ternormalisasi dari instance T norm(kdist(t)) : nilai KDist yang sudah ternormalisasi dari dari instance T Class outlier adalah instance instance yang memenuhi pernyataan berikut : a. KDist dari K tetangga terdekatnya terkecil. b. Nilai Deviation-nya terbesar. c. Mempunyai class label yang berbeda dengan K tetangga terdekatnya. 5. Mengurutkan list top N dari kecil ke besar sesuai nilai COF.

38 BAB III METODE PENELITIAN A. Metodologi Penelitian Penelitian ini dilakukan untuk menemukan outlier pada data debitur dengan data campuran numerik dan kategorikal menggunakan algoritma ECODB. Penelitian ini menggunakan data debitur dari BPR XYZ sebagai bahan studi kasus. Dengan melakukan pendeteksian outlier pada data tersebut, dapat diketahui outlier pada suatu kumpulan data yang mempunyai classs label. Penelitian dilakukan dengan cara menghitung data debitur BPR XYZ bulan Agustus 2013 berdasarkan teori algoritma ECODB dengan menggunakan Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda. Kemudian hasil perhitungan tersebut akan dibandingkan untuk mendapatkan kesimpulan dan dilakukan review hasil deteksi outlier oleh petugas bank. Hasil penelitian ini diharapkan dapat memberi gambaran apakah algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur dengan atribut campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ dan bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank dapat menganalisa data dan outlier untuk menemukan faktor tertentu yang berpengaruh pada keunikan data debitur tersebut. 19

39 20 B. Instrumen Penelitian Instrumen yang digunakan untuk melakukan penelitian ini adalah sebagai berikut : 1. Microsoft Excel Microsoft Excel digunakan untuk menghitung dan menganalisa hasil penambangan data menggunakan algoritma ECODB. Data akan mengalami pemrosesan awal dahulu kemudian akan dihitung menggunakan algoritma ECODB. Rumus rumus perhitungan pada algoritma ECODB akan diterapkan dalam bentuk formula di Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda. 2. Grafik Grafik digunakan untuk melihat persebaran dari hasil perhitungan dengan masukan k dan top N yang berbeda. Dengan memperhatikan grafik, maka dapat diambil kesimpulan tentang pengaruh nilai nilai k dan top N dalam mendeteksi outlier mengunakan algoritma ECODB. C. Teknik Pengumpulan Data Data yang digunakan dalam penelitian ini adalah data debitur yang mengangsur kredit di BPR XYZ bulan Agustus 2013 sebanyak 97 data record. Data tersebut dalam format Microsoft Excel (.xls). Data ini diperoleh setelah mendapat ijin pengambilan dan penggunaan data untuk penelitian dari Kepala

40 21 Humas BPR XYZ. Data tersebut terdiri dari 33 atribut seperti dalam tabel berikut : Atribut Tabel 3.1 Atribut atribut pada dataset debitur Keterangan NOREK NOPK NAMA KODE_PEKER No rekening debitur di bank No peminjaman debitur di bank. Nama lengkap dari debitur. Kode pekerjaan atau jenis usaha yang dilakukan debitur J_USAHA NAMAIBU ALAMAT1 T_LAHIR TGL_LAHIR UMUR Jenis usaha atau pekerjaan yang dilakukan debitur. Nama gadis ibu kandung debitur. Alamat lengkap yang ditinggali debitur. Tempat lahir debitur. Tanggal lahir debitur. Umur debitur ketika melakukan peminjaman/kredit. IDENTITAS NAMA_KTR KODE_POS JW Nomor KTP debitur. Nama kantor/tempat debitur bekerja. Kode pos tempat tinggal debitur. Jangka waktu peminjaman kredit yang dipilih debitur. NOM_PINJ SB Nominal/jumlah kredit yang diajukan debitur. Jumlah suku bunga yang diterima debitur.

41 22 JAMINAN Jaminan yang digunakan debitur untuk mengajukan kredit. NJOP_NT PINJ_KE Nilai barang yang dijadikan jaminan oleh debitur. Jumlah berapa kali debitur melakukan peminjaman di BPR XYZ. TUNG_POK Jumlah berapa kali debitur menunggak mengangsur kredit. TUNG_BNG Jumlah berapa kali debitur menunggak mengangsur bunga. TUNG_POKOK TUNG_BUNGA POKOK_BLN Jumlah total kredit yang ditunggak oleh debitur. Jumlah total bunga yang ditunggak oleh debitur. Jumlah kredit yang harus diangsur debitur tiap bulan. BUNGA_BLN Jumlah bunga yang harus diangsur debitur tiap bulan. GAJI/PENDAPATAN JML_TANGGUNGAN UANG _DIBAWA STATUS_PINJAMAN Gaji atau pendapatan debitur tiap bulan. Jumlah anggota keluarga yang ditanggung debitur. Jumlah uang yang dibawa pulang debitur. Keterangan apakah debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain atau tidak. JML_SETORAN/BULAN Jumlah setoran yang harus diangsur debitur di bank lain tiap bulan.

42 23 KOLBI1 Status peminjaman debitur baik atau bermasalah. D. Teknik Pengolahan Data Sampel data debitur akan diproses terlebih dahulu dengan teknik transformasi data (data transformation), pembersihan data (data cleaning), dan reduksi data (data reduction) untuk mengatasi missing value, noisy, data yang tidak konsisten, dan pemilihan atribut yang digunakan. Selanjutnya data akan dihitung berdasarkan teori algoritma ECODB dengan menerapkan rumus perhitungan pada formula Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda. Kemudian hasil perhitungan tersebut akan dibandingkan dan dilakukan review hasil deteksi outlier oleh petugas bank untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. Untuk membandingkan hasil deteksi outlier menggunakan algoritma ECODB, data hasil perhitungan akan ditampilkan dalam bentuk grafik. Grafik digunakan untuk melihat persebaran dari hasil perhitungan masukan k dan top N yang berbeda. Dengan memperhatikan grafik, maka dapat diambil kesimpulan tentang pengaruh nilai nilai k dan top N dalam mendeteksi outlier mengunakan algoritma ECODB. E. Tahap Tahap Penelitian Langkah langkah yang akan dilakukan untuk melakukan penelitian adalah sebagai berikut : 1. Studi kepustakaan

43 24 Studi kepustakaan melalui berbagai sumber yang mampu dipertanggungjawabkan seperti buku, jurnal, makalah dan paper seminar untuk mendapatkan teori mengenai penambangan data, outlier, dan algoritma ECODB (Enhanced Class Outlier Distance Based). 2. Pengumpulan Data Pengumpulan data sekunder berupa data debitur BPR XYZ bulan Agustus 2013 sebanyak 97 record. 3. Penerapan algoritma ECODB Mendeteksi outlier pada data debitur BPR XYZ bulan Agustus 2013 berdasarkan teori algoritma ECODB menggunakan Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda. 5. Analisa hasil perhitungan Membandingkan hasil perhitungan dengan masukan k dan top N yang berbeda beda untuk mendapatkan kesimpulan dan melakukan review hasil deteksi outlier oleh petugas bank. Review hasil deteksi outlier perlu dilakukan untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. 6. Pengambilan kesimpulan Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari langkah langkah sebelumnya.

44 25 F. Contoh Perhitungan Algoritma ECODB Berikut contoh perhitungan berdasarkan algoritma ECODB secara manual. Misalkan ada dataset debitur berjumlah 13 record dengan atribut KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN, JML_SETORAN/BULAN, dan STATUS sebagai berikut : Gambar 3.1 Contoh dataset debitur Pertama, tiap atribut bertipe numerik dinormalisasikan dengan range 0-1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN.

45 26 Gambar 3.2 Data debitur yang telah dinormalisasi Kemudian dicari jarak dari setiap instance dengan menggunakan fungsi jarak Mixed Euclidian Distance. Pada fungsi ini setiap instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung menggunakan rumus : (3.5) Gambar 3.3 Perhitungan jarak setiap instance dari data debitur

46 27 Setelah menghitung jarak dari setiap instance, tahap selanjutnya adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan jangkauan suatu instance terhadap tetangganya. Maka, dicari 7 tetangga terdekat dari setiap instance. Gambar 3.4 Tujuh tetangga terdekat dari tiap instance Selanjutnya mencari nilai PCL dari tiap instance. PCL adalah nilai probabilitas class label dari instance T dengan class label dari k tetangga terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class label yang sama (termasuk instance T sendiri) dengan nilai k. Misalkan ada 7 tetangga terdekat dari instance T (termasuk dirinya) dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga terdekat mempunyai class label x dan sisanya mempunyai class label y. Instance T dengan class label y mempunyai nilai PCL 2/7. Class label yang digunakan adalah nilai/isi dari atribut STATUS. Tabel 3.2 Hasil perhitungan PCL tiap instance PCL PCL/7 Dev v'dev Kdist v'kdist COF

47 Kemudian meranking list top N dari instance dengan nilai PCL terkecil. Misalkan top N = 5, maka dicari 5 instance dengan nilai PCL terkecil. Ranking top N dapat dilihat pada tabel 3.3. Instance yang di-bold adalah instance dengan nilai PCL terkecil. Selanjutnya mencari nilai Deviation(T) dan KDist(T) dari instance pada top N berdasarkan rumus (2.4) dan (3.5). Tabel 3.3 Hasil perhitungan Deviation dan KDist dari tiap instance PCL PCL/7 Dev v'dev Kdist v'kdist COF Setelah menghitung nilai Deviation dan KDist dari tiap instance pada top N, tahap selanjutnya adalah menghitung COF (Class Outlier Factor) dari

48 29 instance pada top N berdasarkan rumus (2.4). Kemudian meranking tiap instance pada list top N berdasarkan nilai COF terkecil. Tabel 3.4 Hasil perhitungan COF dari tiap instance PCL PCL/7 Dev v'dev Kdist v'kdist COF Dari tabel di 3.4, ditemukan instance yang menjadi outlier yaitu instance nomor 7, 6, 10, 9, dan 8. Dimana nasabah no. 7 dan 6 meminjam dengan jumlah cukup besar (dibandingkan dengan tetangga terdekatnya) dan menunggak sebanyak 6 kali. Sedangkan nasabah no. 10, 9, dan 8 mempunyai jumlah pinjaman yang terkecil tetapi mempunyai tunggakan sebanyak 4 5 kali.

49 BAB IV HASIL DAN PEMBAHASAN A. Sumber Data Sumber data dalam penelitian ini adalah data debitur BPR XYZ bulan Agustus 2013 sebanyak 97 data record. Data tersebut dalam format Microsoft Excel (.xls). Data ini diperoleh setelah mendapat ijin pengambilan dan penggunaan data untuk penelitian dari Kepala Humas BPR XYZ. Data tersebut terdiri dari 32 atribut seperti dalam tabel 3.1. Data debitur tersebut akan dihitung menggunakan algoritma ECODB untuk mendeteksi outlier yang terdapat pada data tersebut. Setelah outlier dideteksi, pihak bank dapat menganalisa data dan outlier untuk menemukan faktor tertentu yang berpengaruh pada keunikan data debitur tersebut. Sebelum ditambang, data akan akan mengalami pemrosesan awal terlebih dahulu untuk menghasilkan data dengan kualitas yang baik untuk diolah. B. Pemrosesan Awal Data 1. Seleksi Data Tahap pertama yang dilakukan adalah seleksi atribut yang akan digunakan dalam penambangan data. Seleksi ini dilakukan untuk mendapatkan atribut-atribut dengan nilai yang relevan terhadap proses deteksi outlier sehingga atribut-atribut yang dianggap berisi nilai yang tidak relevan tidak lagi disertakan dalam dataset. Berdasarkan tabel 3.1, diketahui terdapat sebanyak 32 atribut terdapat pada dataset debitur, yaitu 30

50 31 NOREK, NOPK, NAMA, KODE_PEKER, J_USAHA, NAMAIBU, ALAMAT1, T_LAHIR, TGL_LAHIR, UMUR, IDENTITAS, NAMA_KTR, KODE_POS, JW, NOM_PINJ, SB, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN, JML_TANGGUNGAN,STATUS_PINJAMAN,JML_SETORAN/BULAN dan KOLBI1. Atribut NOREK, NOPK, NAMA, NAMAIBU, ALAMAT1, T_LAHIR, IDENTITAS, NAMA_KTR dan KODE_POS tidak digunakan karena dianggap tidak relevan jika digunakan pada proses deteksi outlier. Hal ini berdasarkan keterangan atribut pada tabel 3.1. Atribut J_USAHA dan TGL_LAHIR juga tidak digunakan. Atribut atribut tersebut cukup relevan jika digunakan. Tetapi nilai dari atribut tersebut dapat digantikan dengan atribut lainnya dengan nilai yang mirip atau sama maka atribut atribut tersebut tidak digunakan dalam penelitian. J_USAHA diganti dengan KODE_PEKER dan atribut TGL_LAHIR diganti dengan UMUR sehingga data tersebut tidak kompleks lagi dan juga mempunyai kualitas informasi yang baik untuk ditambang. Atribut atribut yang tersisa adalah KODE_PEKER, UMUR NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN, JML_TANGGUNGAN, UANG

51 32 _DIBAWA, STATUS_PINJAMAN, JML_SETORAN/BULAN, dan KOLBI1. Hasil seleksi atribut dapat dilihat di lampiran 2. Hasil yang di peroleh dari tahap seleksi atribut telah menghasilkan sejumlah 20 atribut dan 97 instances. Berikut ini beberapa keterangan yang berkaitan dengan atribut atribut terpilih, yaitu : a. KODE_PEKER Atribut ini berisi kode pekerjaan berdasarkan jenis usaha yang dijalankan debitur. Kode pekerjaan tersebut adalah 010 dan 014. Atribut ini bertipe kategorikal. b. UMUR Atribut ini berisi umur dari tiap debitur ketika mengajukan kredit. Dalam atribut ini diketahui debitur paling muda berusia 18 tahun dan debitur paling tua berusia 63 tahun. Rata rata umur debitur ketika mengajukan kredit adalah 44, 5 tahun. Atribut ini bertipe numerik. c. NOM_PINJ Atribut ini berisi jumlah pinjaman kredit yang diajukan debitur dan telah disetujui oleh bank/kreditur. Nominal pinjaman ditetapkan dalam rupiah (Rp). Atribut ini bertipe numerik. d. SB Atribut ini berisi jumlah suku bunga yang diterima debitur. Suku bunga ditetapkan dalam bentuk persen (%).Atribut ini bertipe numerik.

52 33 e. JW Atribut ini berisi jangka waktu kredit yang diajukan nasabah. Jangka waktu kredit ditetapkan dalam waktu tertentu selama beberapa bulan. Atribut ini bertipe numerik. f. JAMINAN Atribut ini berisi bentuk jaminan yang diberikan debitur sebagai salah satu syarat pengajuan kredit. Bentuk bentuk jaminan tersebut adalah BPKB, GAJI, SERTIFIKAT, dan TANAH. Atribut ini bertipe kategorikal. g. NJOP_NT Atribut ini berisi nilai/harga jaminan yang dipunyai debitur berdasarkan hasil perkiraan bank. Nominal nilai jaminan ditetapkan dalam rupiah (Rp). Atribut ini bertipe numerik. h. PINJ_KE Atribut ini berisi keterangan sejumlah berapa kali debitur pernah mengajukan kredit di BPR Shinta Bhakti Wedi. Atribut ini umumnya digunakan untuk mengetahui reputasi pengajuan kredit debitur, khususnya selama mengajukan kredit di BPR Shinta Bhakti Wedi. Atribut ini bertipe numerik. i. TUNG_POK Atribut ini berisi keterangan berapa kali debitur menunggak mengangsur kredit. Atribut ini bertipe numerik. j. TUNG_BNG

53 34 Atribut ini berisi keterangan berapa kali debitur menunggak mengangsur bunga. Atribut ini bertipe numerik. k. TUNG_POKOK Atribut ini berisi jumlah total kredit yang ditunggak oleh debitur. Atribut ini bertipe numerik. l. TUNG_BUNGA Atribut ini berisi jumlah total bunga yang ditunggak oleh debitur. Atribut ini bertipe numerik. m. GAJI/PENDAPATAN Atribut ini berisi jumlah gaji atau pendapatan debitur tiap bulan. Atribut ini bertipe numerik. n. JML_TANGGUNGAN Atribut ini berisi jumlah anggota keluarga yang ditanggung oleh debitur. Atribut ini bertipe numerik. o. UANG_DIBAWA Atribut ini berisi jumlah nominal uang yang dibawa pulang/diperoleh debitur setiap bulannya. Atribut ini bertipe numerik. p. STATUS_PINJAMAN Atribut ini berisi keterangan apakah debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain atau tidak. Atribut ini bertipe kategorikal. q. JML_SETORAN/BULAN

54 35 Atribut ini berisi besar jumlah setoran yang harus diangsur debitur di bank lain setiap bulannya (jika debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain). Atribut ini bertipe numerik. r. POKOK_BLN Atribut ini berisi jumlah kredit yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik. s. BUNGA_BLN Atribut ini berisi jumlah bunga yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik. t. KOLBI1 Atribut ini adalah atribut yang digunakan untuk menyatakan status kredit debitur. Dimana nilai 1 berarti debitur mengangsur dengan baik (lancar), 2 berarti debitur sedikit tersendat dalam mengangsur (kurang lancar), 3 berarti debitur cukup tersendat dalam mengangsur kredit (diragukan), dan 4 berarti debitur berhenti mengangsur (macet). Atribut ini merupakan class label pada data debitur tersebut.

55 36 Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data 2. Pengisian Missing Value Di dalam dataset debitur yang telah mengalami seleksi atribut terdapat missing value pada kolom GAJI/PENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN, JML_SETORAN/BULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk mengatasi hal ini, kolom yang kosong akan diisi dengan means untuk data dengan atribut numerik dan diisi dengan mode untuk data dengan atribut kategorikal (Hewahi dan M. K. Saad, 2007). Hasil pengisian missing value dapat dilihat di lampiran 3. Gambar 4.2 Isi data debitur setelah tahap pengisian missing value

56 37 3. Normalisasi Data Setelah mengisi missing value secara manual dengan teknik means dan mode, dilakukan proses normalisasi atribut. Proses ini dilakukan karena adanya perbedaan range nilai dari tiap tiap atribut sehingga perlu dilakukan normalisasi agar data memiliki nilai yang tepat dan sama untuk ditambang. Atribut atribut tersebut akan dinormalisasi agar mempunyai range nilai 0-1. Hasil normalisasi dapat dilihat di lampiran 4. Proses normalisasi menggunakan metode min-max normalization sebagai berikut : (4.6) Dimana, v : nilai yang sudah ternormalisasi v : nilai lama yang belum ternormalisasi min : nilai minimum dari suatu instance max : nilai maksimum dari suatu instance NewMax : nilai minimum baru dari suatu instance NewMin : nilai maksimum baru dari suatu instance Berikut contoh proses normalisasi data : Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi UMUR NOM_PINJ SB JW NJOP_NT POKOK_BLN BUNGA_BLN 39 30,000, ,344, , , ,000, ,229, ,000 90, ,000, ,110, , , ,000, ,827, , ,000

57 ,000, ,803, , , ,000, ,984, , , ,000, ,819, , ,000 Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi v'umur v'nom_pinj v'sb v'jw v'njop_nt v'pokok_bln v'bunga_bln C. Penambangan Data Dengan Microsoft Excel Data yang telah mengalami pemrosesan akan ditambang berdasarkan algoritma ECODB. Penambangan data menggunakan Microsoft Excel. Rumus algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel. 1. Menormalisasi Data Sebelum ditambang, data yang telah mengalami pemrosesan awal akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk ditambang. Atribut atribut tersebut akan dinormalisasi agar mempunyai range nilai 0 1. Proses normalisasi menggunakan metode min-max normalization seperti pada rumus (4.6). Formula normalisasi dalam Microsoft Excel adalah sebagai berikut : =(cell1-min(cell))/(max(cell)-min(cell))*(1-0)+0

58 39 Gambar 4.3 Contoh formula normalisasi data 2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak Mixed Euclidian Distance Setelah menormalisasi data, dicari jarak dari tiap data dengan menggunakan fungsi jarak mixed euclidian distance. Pada fungsi ini setiap instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung berdasarkan rumus (5). Formula mencari jarak dalam Microsoft Excel adalah sebagai berikut : =SQRT((IF(cell1=cell2,0,1))^2+(cell3-cell4)^2+(cell5- cell6)^2+(cell7-cell8)^2+(cell9- cell10)^2+(if(cell11=cell12,0,1))^2+(cell13-cell14)^2+ (cell15-cell16)^2+(cell17-cell18)^2+(cell19-cell20)^2+ (cell21-cell22)^2+(cell23-cell24)^2+(cell25-cell26)^2+ (cell27-cell28)^2+(cell29-cell30)^2+(cell31-cell32)^2+ (cell33-cell34)^2+(if(cell35=cell36,0,1))^2+(cell37-cell38)^2)

59 40 Gambar 4.4 Contoh formula mencari jarak 3. Menghitung PCL PCL(Probability of Class Label) adalah nilai probabilitas/banyaknya kemunculan class label yang sama dengan instance T dibandingkan k tetangga terdekatnya. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class label yang sama (termasuk instance T sendiri) dengan nilai k. Formula menghitung PCL dalam Microsoft Excel adalah sebagai berikut : =cell1/k Gambar 4.5 Contoh formula menghitung PCL 4. Meranking List Top N Outlier Dari Instance Dengan Nilai PCL(T,K) Terkecil Setelah menghitung nilai PCL, data diranking secara kecil ke besar berdasarkan nilai PCL(T,K) terkecil sesuai dengan masukan top N. Top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar. Misalkan masukan top N = 10, maka akan

60 41 diranking 10 instance dengan nilai PCL(T,K) terkecil. Untuk meranking instance, digunakan fitur Sort & Filter dalam Microsoft Excel. Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCL(T,K) terkecil 5. Menghitung Nilai Deviation(T) Norm(Deviation(T)), Kdist(T), Dan Norm(Kdist(T)) Kemudian instance yang berada di top N dihitung nilai Deviation(T) Norm(Deviation(T)), Kdist(T), dan Norm(Kdist(T)) berdasarkan rumus (2.1), (2.2), dan (2.3). Deviation(T) adalah seberapa besar nilai instance T yang menyimpang dari subset DCL. KDist adalah jarak antara instance T pada dataset D dengan K tetangga terdekat, seberapa dekat nilai K instance tetangga terdekat dengan instance T. Sedangkan Norm(Deviation(T)) adalah nilai deviation yang sudah ternormalisasi dan Norm(KDist(T)) adalah nilai KDist yang sudah

61 42 ternormalisasi. Formula menghitung Deviation(T) Norm(Deviation(T)), Kdist(T), dan Norm(Kdist(T)) dalam Microsoft Excel adalah sebagai berikut : a. Mencari Deviation =cell1+cell2+cell3+...+celln Gambar 4.7 Contoh formula menghitung Deviation b. Mencari Norm(Deviation(T)) =(cell1-min(cell))/(max(cell)-min(cell)) Gambar 4.8 Contoh formula menghitung Norm(Deviation(T)) c. Mencari Kdist = cell1+cell2+cell3+...+celln Gambar 4.9 Contoh formula menghitung Kdist d. Mencari Norm(KDist(T)) =(cell1-min(cell))/(max(cell)-min(cell))

62 43 Gambar 4.10 Contoh formula menghitung Norm(KDist(T)) 6. Menghitung Nilai COF (Class Outlier Factor) Tahap selanjutnya adalah menghitung COF (Class Outlier Factor) dari setiap instance yang berada di list top N. COF adalah derajat dari suatu instance T untuk dikategorikan sebagai outlier. COF dihitung berdasarkan rumus (2.4). Formula menghitung COF dalam Microsoft Excel adalah sebagai berikut : =k*cell1-cell2+cell3 Gambar 4.11 Contoh formula menghitung COF (Class Outlier Factor) 7. Mengurutkan List Top N Secara Kecil Ke Besar Sesuai Nilai COF Tahap terakhir adalah mengurutkan list top N secara kecil ke besar sesuai nilai COF. Misalkan masukan top N = 10, maka akan diranking 10 instance dengan nilai COF terkecil. Untuk meranking instance, digunakan fitur Sort & Filter dalam Microsoft Excel.

63 44 Gambar 4.12 Contoh meranking kecil ke besar berdasarkan nilai COF terkecil D. Hasil Deteksi Outlier Berdasarkan Algoritma ECODB Dengan Microsoft Excel Hasil deteksi outlier berdasarkan algoritma ECODB menggunakan Microsoft Excel dengan masukan k dan top N yang berubah ubah dapat ditampilkan dalam bentuk tabel tabel di bawah. Dimana k adalah jumlah tetangga terdekat dari suatu instances, sedangkan top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar berdasarkan nilai COF (Class Outlier Factor). COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah data dengan nilai COF terendah. Class outlier adalah instances yang mempunyai derajat tinggi sebagai outlier. Jumlah class outlier ditentukan berdasarkan masukan top N, jika top N = 10 maka akan ada 10 instances yang yang mempunyai derajat tinggi sebagai outlier. Tabel 4.3 Hasil deteksi outlier dengan masukan k dan top N yang berubah ubah k Top N Min COF 10 36, 92, 53, 96, 39, 64, 56, 24, 23, , 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,

APLIKASI MASALAH 0/1 KNAPSACK MENGGUNAKAN ALGORITMA GREEDY

APLIKASI MASALAH 0/1 KNAPSACK MENGGUNAKAN ALGORITMA GREEDY PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI APLIKASI MASALAH 0/1 KNAPSACK MENGGUNAKAN ALGORITMA GREEDY Skripsi Diajukan untuk Menempuh Salah Satu Syarat Memperoleh Gelar

Lebih terperinci

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database 2. Tinjauan Pustaka 2.1 Data Mining Data mining merupakan ilmu yang mempelajari tentang proses ekstraksi informasi yang tersembunyi dari sekumpulan data yang berukuran sangat besar dengan menggunakan algoritma

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder. BAB 3 METODE PENELITIAN 3.1 Metode Pengumpulan Data 3.1.1 Sumber Data Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder. 1. Data primer Didapatkan peneliti secara langsung

Lebih terperinci

Deteksi Outlier Menggunakan Algoritma Block-based Nested Loop (Studi Kasus: Data Akademik Mahasiswa Prodi PS Universitas XYZ)

Deteksi Outlier Menggunakan Algoritma Block-based Nested Loop (Studi Kasus: Data Akademik Mahasiswa Prodi PS Universitas XYZ) Deteksi Outlier Menggunakan Algoritma Block-based Nested Loop (Studi Kasus: Data Akademik Mahasiswa Prodi PS Universitas XYZ) Fiona Endah Kwa 1, Paulina H. Prima Rosa 2 1, 2 Jurusan Teknik Informatika,

Lebih terperinci

DATA PREPROCESSING. Budi Susanto (versi 1.2)

DATA PREPROCESSING. Budi Susanto (versi 1.2) DATA PREPROCESSING Budi Susanto (versi 1.2) Kenali Data Anda Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA Irwan Budiman 1, Dodon Turianto Nugrahadi 2, Radityo Adi Nugroho 3 Universitas Lambung Mangkurat 1,2,3 irwan.budiman@unlam.ac.id

Lebih terperinci

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY DATA WAREHOUSE - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD) Penemuan Pengetahuan di Database Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #2 Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis (

Lebih terperinci

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING Marlindawati 1) Andri 2) 1) Manajemen Informatika Universitas Bina Darma Jl. Ahmad Yani No. 3, Palembang

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Dewasa ini kebutuhan masyarakat akan kredit merupakan hal yang tidak asing. Menyadari bahwa kegiatan kredit pada masyarakat umum semakin meningkat, maka perlu

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Tinjauan Studi Sebelum penelitian ini dilakukan, sudah terdapat beberapa penelitian yang menjadi dasar untuk menyelesaikan penelitian ini, penelitian tersebut diantaranya sebagai

Lebih terperinci

PE DAHULUA. Latar Belakang

PE DAHULUA. Latar Belakang Latar Belakang PE DAHULUA Pemilihan Kepala Daerah dan Wakil Kepala Daerah, atau seringkali disebut Pilkada, adalah pemilihan umum untuk memilih Kepala Daerah dan Wakil Kepala Daerah secara langsung di

Lebih terperinci

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

Apa itu is K-Nearest Neighbor (KNN) Algorithm? K-Nearest Neighbor Pendahuluan K-Nearest Neighbour atau KNN adalah salah dari algoritma instance based learning atau case-based reasoning. Definisi case based reasoning: KNN digunakan dalam banyak aplikasi

Lebih terperinci

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY (LoOP) (STUDI KASUS DATA AKADEMIK MAHASISWA PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA) Skripsi Diajukan Untuk Memenuhi Salah

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

Tahapan Proses KDD (Peter Cabena)

Tahapan Proses KDD (Peter Cabena) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #2 Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis (Business

Lebih terperinci

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING Marlindawati1), Andri2) 1), 2) Sistem Informasi UNIVERSITAS BINA DARMA Palembang Jl, Jend. A.Yani

Lebih terperinci

Data Preprocessing. oleh: Entin Martiana

Data Preprocessing. oleh: Entin Martiana Data Preprocessing oleh: Entin Martiana Data Data yang ada pada umumnya: Banyak noise Ukuran yang besar Dapat merupakan campuran dari berbagai sumber Memahami data sangat penting untuk preprocessing September

Lebih terperinci

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD) Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases (KDD) Definisi Knowledge Discovery

Lebih terperinci

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik DAFTAR ISI PERNYATAAN... iii PRAKATA... vi DAFTAR ISI... viii DAFTAR GAMBAR... xi DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xv DAFTAR ALGORITMA... xvi DAFTAR LAMPIRAN... xvii INTISARI... xviii ABSTRACT...

Lebih terperinci

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO 5107201006 LATAR BELAKANG MASALAH Deteksi Outlier Data Set Numerik : distance-based, density-based,

Lebih terperinci

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.

Lebih terperinci

PERTEMUAN 14 DATA WAREHOUSE

PERTEMUAN 14 DATA WAREHOUSE PERTEMUAN 14 DATA WAREHOUSE Data Warehouse Definisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung

Lebih terperinci

Student Clustering Based on Academic Using K-Means Algoritms

Student Clustering Based on Academic Using K-Means Algoritms Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata marlon.leong@gmail.com

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini adalah era dimana perkembangan teknologi semakin pesat dan cepat. Seiring dengan perkembangan teknologi yang ada, maka ukuran data yang diolah juga akan semakin

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret 2013 12 PENERAPAN ALGORITMA C 4.5 DALAM MEMPEROLEH DECISION TREE UNTUK MEMPREDIKSI PENENTUAN RESIKO KREDIT PADA BANK BPR BUKITTANDANG MANDIRI PADANG MENGGUNAKAN

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci

PENERAPAN DATA MINING UNTUK MEMPREDIKSI KRITERIA NASABAH KREDIT

PENERAPAN DATA MINING UNTUK MEMPREDIKSI KRITERIA NASABAH KREDIT Jurnal Komputer dan Informatika (KOMPUTA) 53 PENERAPAN DATA MINING UNTUK MEMPREDIKSI KRITERIA NASABAH KREDIT Angga Ginanjar Mabrur [1], Riani Lubis [2] 1,2 Program Studi Teknik Informatika Fakultas Teknik

Lebih terperinci

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DETEKSI OUTLIER MENGGUNAKAN ALGORITMA BLOCK-BASED NESTED-LOOP STUDI KASUS : DATA AKADEMIK MAHASISWA PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA SKRIPSI Diajukan untuk Memenuhi salah Satu

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pasar modal merupakan salah satu bagian dari pasar keuangan, di samping pasar uang, yang sangat penting peranannya bagi pembangunan nasional pada umumnya dan bagi

Lebih terperinci

3.2.3 Resiko, Keuntungan dan Kerugian Forex Metode Prediksi dalam Forex MetaTrader 4 sebagai Platform Trading dalam Forex...

3.2.3 Resiko, Keuntungan dan Kerugian Forex Metode Prediksi dalam Forex MetaTrader 4 sebagai Platform Trading dalam Forex... DAFTAR ISI HALAMAN PENGESAHAN... iii PERNYATAAN... iv HALAMAN MOTTO DAN PERSEMBAHAN... v PRAKATA... vi DAFTAR ISI... viii DAFTAR GAMBAR... xi DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xv DAFTAR LAMPIRAN...

Lebih terperinci

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree Scientific Journal of Informatics Vol. 3, No. 1, Mei 2016 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan

Lebih terperinci

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. BAB 2 LANDASAN TEORI Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. 2.1. Data Mining Data mining adalah suatu istilah yang digunakan

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Situs jejaring sosial merupakan gaya hidup sosial baru yang muncul seiring berkembangnya internet. Gaya hidup baru tersebut memiliki ruang lingkup yang lebih luas

Lebih terperinci

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA Ade Putra Fakultas Vokasi, Program Studi Komputerisasi Akuntansi Universitas Bina Darma

Lebih terperinci

RANCANG BANGUN PEMODELAN 3D GEDUNG FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH PURWOKERTO MENGGUNAKAN VIRTUAL REALITY

RANCANG BANGUN PEMODELAN 3D GEDUNG FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH PURWOKERTO MENGGUNAKAN VIRTUAL REALITY RANCANG BANGUN PEMODELAN 3D GEDUNG FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH PURWOKERTO MENGGUNAKAN VIRTUAL REALITY SKRIPSI diajukan sebagai salah satu syarat untuk memperoleh gelar sarjana komputer IMAM

Lebih terperinci

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI Diajukan Kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta Sebagai

Lebih terperinci

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta

Lebih terperinci

SKRIPSI SISTEM PREDIKSI KONDISI KELAHIRAN BAYI MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES. Oleh : WAHYUNINGSIH

SKRIPSI SISTEM PREDIKSI KONDISI KELAHIRAN BAYI MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES. Oleh : WAHYUNINGSIH SKRIPSI SISTEM PREDIKSI KONDISI KELAHIRAN BAYI MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES Oleh : WAHYUNINGSIH 2010-51-115 SKRIPSI DIAJUKAN SEBAGAI SALAH SATU SYARAT UNTUK MEMPEROLEH GELAR SARJANA KOMPUTER

Lebih terperinci

penyebarannya. Diharapkan dari penelitian ini dapat terbentuk sebuah basis pengetahuan spasial yang bermanfaat. PENDAHULUAN

penyebarannya. Diharapkan dari penelitian ini dapat terbentuk sebuah basis pengetahuan spasial yang bermanfaat. PENDAHULUAN 1 PENDAHULUAN Latar Belakang Kemiskinan merupakan suatu hal yang memiliki batasan yang luas, tetapi bagaimanapun juga batasan mengenai kemiskinan harus tetap diukur untuk kebijakan pemerintah. Menurut

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN Latar Belakang Kredit merupakan salah satu usaha sekunder yang dapat dilakukan untuk pemenuhan kebutuhan sehari-hari. Pada umumnya, proses kredit dapat dilayani melalui lembaga keuangan

Lebih terperinci

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI VISUALISASI PEMBELAJARAN SANDI MORSE UNTUK PRAMUKA TINGKAT SIAGA DENGAN MENGGUNAKAN ADOBE FLASH Skripsi Diajukan untuk Memenuhi

Lebih terperinci

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA Techno.COM, Vol. 15, No. 3, Agustus 216: 195-2 METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA Andrew Yova Kencana 1, Setia Astuti 2 1,2 Jurusan Teknik Ilmu

Lebih terperinci

Analisis Data Mining Untuk Menentukan Daerah Keluarga Sejahtera Di Kecamatan Balong Dengan Metode Algoritma K-MEANS Clustering SKRIPSI

Analisis Data Mining Untuk Menentukan Daerah Keluarga Sejahtera Di Kecamatan Balong Dengan Metode Algoritma K-MEANS Clustering SKRIPSI Analisis Data Mining Untuk Menentukan Daerah Keluarga Sejahtera Di Kecamatan Balong Dengan Metode Algoritma K-MEANS Clustering SKRIPSI Diajukan Sebagai Salah satu Syarat Untuk Memperoleh Gelar Sarjana

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Data mining adalah salah satu teknik dan proses untuk menemukan suatu pola dan pengetahuan dari data yang berjumlah besar (Han dkk., 2011). Proses yang dilakukan

Lebih terperinci

DAFTAR ISI... LEMBAR PENGESAHAN PEMBIMBING... LEMBAR PENGESAHAN PENGUJI... HALAMAN PERSEMBAHAN... HALAMAN MOTTO... KATA PENGANTAR...

DAFTAR ISI... LEMBAR PENGESAHAN PEMBIMBING... LEMBAR PENGESAHAN PENGUJI... HALAMAN PERSEMBAHAN... HALAMAN MOTTO... KATA PENGANTAR... DAFTAR ISI LEMBAR PENGESAHAN PEMBIMBING... LEMBAR PENGESAHAN PENGUJI... HALAMAN PERSEMBAHAN... HALAMAN MOTTO... KATA PENGANTAR... DAFTAR ISI... DAFTAR GAMBAR... DAFTAR TABEL... ABSTRAKSI... i ii iii v

Lebih terperinci

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 3 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015 Definisi Set Data Set Data / Data Set / Himpunan Data Kumpulan

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

BAB I PENDAHULUAN. Dalam dunia perbankan, bank bertindak sebagai kreditur, di mana bank memberikan

BAB I PENDAHULUAN. Dalam dunia perbankan, bank bertindak sebagai kreditur, di mana bank memberikan 1 BAB I PENDAHULUAN A. Latar Belakang Dalam dunia perbankan, bank bertindak sebagai kreditur, di mana bank memberikan bantuan kepada nasabah yang membutuhkan pinjaman dengan memberikan kredit pinjaman.

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG TESIS IVAN JAYA 117038072 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ SKRIPSI Diajukan untuk memenuhi salah satu syarat memperoleh Gelar Sarjana pada Program Studi Sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena

Lebih terperinci

HALAMAN SAMPUL SKRIPSI PENGENALAN POLA TELAPAK TANGAN DENGAN MENGGUNAKAN ALGORITMA BACK PROPAGATION NEURAL NETWORK

HALAMAN SAMPUL SKRIPSI PENGENALAN POLA TELAPAK TANGAN DENGAN MENGGUNAKAN ALGORITMA BACK PROPAGATION NEURAL NETWORK HALAMAN SAMPUL SKRIPSI PENGENALAN POLA TELAPAK TANGAN DENGAN MENGGUNAKAN ALGORITMA BACK PROPAGATION NEURAL NETWORK Oleh: MOH SHOCHWIL WIDAT 2011-51-034 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK

Lebih terperinci

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi IJCCS, Vol.x, No.x, July xxxx, pp. 1~5 ISSN: 1978-1520 39 Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi Irwan

Lebih terperinci

Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi

Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi ISSN: 2089-3787 1181 Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi Soegiarto 1, Bahar 2 Program Studi Teknik Informatika, STMIK Banjarbaru Jl. A. Yani Km. 33,3 Banjarbaru

Lebih terperinci

SHABRINA ROSE HAPSARI M SURAKARTA

SHABRINA ROSE HAPSARI M SURAKARTA digilib.uns.ac.id HALAMAN JUDUL PEMBUATAN KALKULATOR INTEGRASI NUMERIK DENGAN METODE TRAPESIUM, 1/3 SIMPSON, 3/8 SIMPSON, ROMBERG DAN MONTE CARLO PADA KASUS INTEGRAL TUNGGAL DAN INTEGRAL GANDA SKRIPSI

Lebih terperinci

TESIS ADYA ZIZWAN PUTRA

TESIS ADYA ZIZWAN PUTRA ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI CENTROID TESIS ADYA ZIZWAN PUTRA 147038003 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

OPTIMASI FUZZY BACKPROPAGATION NEURAL NETWORK DENGAN ALGORITMA GENETIKA UNTUK MEMPREDIKSI NILAI TUKAR RUPIAH TERHADAP DOLLAR AMERIKA

OPTIMASI FUZZY BACKPROPAGATION NEURAL NETWORK DENGAN ALGORITMA GENETIKA UNTUK MEMPREDIKSI NILAI TUKAR RUPIAH TERHADAP DOLLAR AMERIKA OPTIMASI FUZZY BACKPROPAGATION NEURAL NETWORK DENGAN ALGORITMA GENETIKA UNTUK MEMPREDIKSI NILAI TUKAR RUPIAH TERHADAP DOLLAR AMERIKA TUGAS AKHIR SKRIPSI Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan

Lebih terperinci

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika PENERAPAN METODE ENHANCED CLASS OUTLIER DISTANCE BASED UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS DAN AKREDITASI SEKOLAH MENENGAH ATAS SKRIPSI Diajukan untuk Memenuhi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA TESIS KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA MEGA KARTIKA SARI No. Mhs : 135302022/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCASARJANA UNIVERSITAS

Lebih terperinci

FUZZY ELMAN RECURRENT NEURAL NETWORK DALAM PERAMALAN HARGA MINYAK MENTAH DI INDONESIA DENGAN OPTIMASI ALGORITMA GENETIKA TUGAS AKHIR SKRIPSI

FUZZY ELMAN RECURRENT NEURAL NETWORK DALAM PERAMALAN HARGA MINYAK MENTAH DI INDONESIA DENGAN OPTIMASI ALGORITMA GENETIKA TUGAS AKHIR SKRIPSI FUZZY ELMAN RECURRENT NEURAL NETWORK DALAM PERAMALAN HARGA MINYAK MENTAH DI INDONESIA DENGAN OPTIMASI ALGORITMA GENETIKA TUGAS AKHIR SKRIPSI Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam

Lebih terperinci

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER Agustina Ratna Puspitasari¹,

Lebih terperinci

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika. Oleh :

SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika. Oleh : PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS, DAN AKREDITASI SMA DI DAERAH ISTIMEWA YOGYAKARTA SKRIPSI Diajukan untuk Memenuhi

Lebih terperinci

3.1 Metode Pengumpulan Data

3.1 Metode Pengumpulan Data BAB 3 METODE PENELITIAN 3.1 Metode Pengumpulan Data Sebuah penelitian memerlukan pengumpulan data dan metode pengumpulan data karena sangat berpengaruh terhadap akurasi dan kualitas data yang digunakan

Lebih terperinci

Business Objective Determination (#1)

Business Objective Determination (#1) Business Objective Determination (#1) Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining. (Oleh beberapa peneliti

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti

Lebih terperinci

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas Kompetensi Dasar Memahami definisi set data, tipe data, kualitas

Lebih terperinci

SKRIPSI REBALANCING PORTOFOLIO: STUDI KASUS 7 SAHAM YANG TERMASUK DALAM INDEKS LQ-45 ALEXANDER BHIMA CAHYANTO NPM:

SKRIPSI REBALANCING PORTOFOLIO: STUDI KASUS 7 SAHAM YANG TERMASUK DALAM INDEKS LQ-45 ALEXANDER BHIMA CAHYANTO NPM: SKRIPSI REBALANCING PORTOFOLIO: STUDI KASUS 7 SAHAM YANG TERMASUK DALAM INDEKS LQ-45 ALEXANDER BHIMA CAHYANTO NPM: 2013710016 PROGRAM STUDI MATEMATIKA FAKULTAS TEKNOLOGI INFORMASI DAN SAINS UNIVERSITAS

Lebih terperinci

DATA MINING UNTUK MENGETAHUI LAMA STUDI MAHASISWA DI UNIVERSITAS MUHAMMADIYAH PONOROGO

DATA MINING UNTUK MENGETAHUI LAMA STUDI MAHASISWA DI UNIVERSITAS MUHAMMADIYAH PONOROGO DATA MINING UNTUK MENGETAHUI LAMA STUDI MAHASISWA DI UNIVERSITAS MUHAMMADIYAH PONOROGO SKRIPSI Diajukan dan Disusun Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Jenjang Strata Satu (S1) Pada

Lebih terperinci

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA Aseptian Nugraha, Acep Irham Gufroni, Rohmat Gunawan Teknik Informatika Fakultas

Lebih terperinci

SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika. Disusun Oleh: WINA ISTI RETNANI NIM.

SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika. Disusun Oleh: WINA ISTI RETNANI NIM. PERBANDINGAN ALGORITMA BACKPROPAGATION LEVENBERG MARQUARDT (LM) DENGAN BACKPROPAGATION GRADIENT DESCENT ADAPTIVE GAIN (BPGD/AG) DALAM PREDIKSI JUMLAH PENGANGGURAN DI PROVINSI JAWA TENGAH SKRIPSI Diajukan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

PENERAPAN NAÏVE BAYES UNTUK PREDIKSI KELAYAKAN KREDIT

PENERAPAN NAÏVE BAYES UNTUK PREDIKSI KELAYAKAN KREDIT PENERAPAN NAÏVE BAYES UNTUK PREDIKSI KELAYAKAN KREDIT Dedy Ahmad Kurniawan 1), Danny Kriestanto 2) Teknik Informatika, STMIK AKAKOM e-mail: dedyahmad.akakom10@gmail.com 1), danny@akakom.ac.id 2) ABSTRAK

Lebih terperinci

ASSOCIATION RULE MINING DATA PEMINJAMAN PERPUSTAKAAN MENGGUNAKAN KOMBINASI APRIORI DAN JACCARD SIMILARITY

ASSOCIATION RULE MINING DATA PEMINJAMAN PERPUSTAKAAN MENGGUNAKAN KOMBINASI APRIORI DAN JACCARD SIMILARITY digilib.uns.ac.id ASSOCIATION RULE MINING DATA PEMINJAMAN PERPUSTAKAAN MENGGUNAKAN KOMBINASI APRIORI DAN JACCARD SIMILARITY SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Lebih terperinci

SISTEM MARKET BASKET UNTUK MENENTUKAN TATA LETAK PRODUK PADA SUATU SWALAYAN MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING SKRIPSI STEFFI ANDINA SEBAYANG

SISTEM MARKET BASKET UNTUK MENENTUKAN TATA LETAK PRODUK PADA SUATU SWALAYAN MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING SKRIPSI STEFFI ANDINA SEBAYANG SISTEM MARKET BASKET UNTUK MENENTUKAN TATA LETAK PRODUK PADA SUATU SWALAYAN MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING SKRIPSI STEFFI ANDINA SEBAYANG 071402041 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Sponge atau poriferans berasal dari bahasa Latin yaitu porus yang artinya pori dan ferre yang artinya memiliki. Sponge adalah hewan berpori, pada umumnya terdapat di lautan,

Lebih terperinci

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE Lutfi Hidayat Ramdhani¹, Hetti Hidayati², Mahmud Dwi Suliiyo³ ¹Teknik Informatika,, Universitas Telkom Abstrak K-Modes

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

LAPORAN SKRIPSI PENERAPAN ALGORITMA FUZZY C_MEANS DALAM PENENTUAN BEASISWA. Oleh : ARI IRAWAN

LAPORAN SKRIPSI PENERAPAN ALGORITMA FUZZY C_MEANS DALAM PENENTUAN BEASISWA. Oleh : ARI IRAWAN LAPORAN SKRIPSI PENERAPAN ALGORITMA FUZZY C_MEANS DALAM PENENTUAN BEASISWA Oleh : ARI IRAWAN 2010-51-221 SKRIPSI DIAJUKAN SEBAGAI SALAH SATU SYARAT UNTUK MEMPEROLEH GELAR SARJANA KOMPUTER PROGRAM STUDI

Lebih terperinci

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI Disusun Oleh : ATIKA ELSADINING TYAS 24010211120013 JURUSAN STATISTIKA

Lebih terperinci

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE JURNA TEKNIK, (2014) 1-6 1 AIKASI DATA MINING UNTUK MEMREDIKSI ERFORMANSI MAHASISWA DENGAN METODE KASIFIKASI DECISION TREE Irfan Fahmi, Budi Santosa Jurusan Teknik Industri, Fakultas Teknologi Industri,

Lebih terperinci

MENGGUNAKAN DATA MINING

MENGGUNAKAN DATA MINING E.11 MENGGUNAKAN DATA MINING UNTUK SEGMENTASI CUSTOMER PADA BANK UNTUK MENINGKATKAN CUSTOMER RELATIONSHIP MANAGEMENT (CRM) DENGAN METODE KLASIFIKASI (AGORITMA J-48, ZERO-R DAN NAIVE BAYES) Maghfirah, Teguh

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,

Lebih terperinci

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa

Lebih terperinci

LAPORAN SKRIPSI. RANCANG BANGUN SISTEM INFORMASI ADMINISTRASI PELAYANAN SALON BERBASIS WEB (Studi Kasus Alexa salon Yogyakarta)

LAPORAN SKRIPSI. RANCANG BANGUN SISTEM INFORMASI ADMINISTRASI PELAYANAN SALON BERBASIS WEB (Studi Kasus Alexa salon Yogyakarta) LAPORAN SKRIPSI RANCANG BANGUN SISTEM INFORMASI ADMINISTRASI PELAYANAN SALON BERBASIS WEB (Studi Kasus Alexa salon Yogyakarta) Diajukan oleh : Andrean Thomas Sinaga NIM : 08230042 Kepada PROGRAM STUDI

Lebih terperinci

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #4: Data Preprocessing (Bagian 2) Task III : Data Transformation (Transformasi Data) Mengubah / mentransformasikan data ke dalam

Lebih terperinci