KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI"

Transkripsi

1 KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Nasabah Kartu Kredit Menggunakan Algoritme Fuzzy K-Nearest Neighbor pada Data Tidak Seimbang adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Retno Wijayanti NIM G

4 ABSTRAK RETNO WIJAYANTI. Klasifikasi Nasabah Kartu Kredit Menggunakan Algoritme Fuzzy K-Nearest Neighbor pada Data Tidak Seimbang. Dibimbing oleh AZIZ KUSTIYO. Klasifikasi debitur diperlukan untuk mengurangi kemungkinan kerugian yang akan diderita oleh bank akibat menerima aplikasi kredit yang berpotensi menimbulkan masalah. Penelitian ini mengusulkan sebuah model klasifikasi nasabah kartu kredit menggunakan algoritme fuzzy k-nearest neighbor. Data yang digunakan tidak seimbang ketika data dari satu kelas mendominasi data yang lain. Algoritme klasifikasi umumnya memberikan kinerja yang buruk pada data tidak seimbang, terutama untuk kelas minoritas. Penelitian ini bertujuan meningkatkan kualitas klasifikasi pada data tidak seimbang menggunakan oversampling dan undersampling. Oversampling duplikasi menghasilkan akurasi, precision, recall, dan f-measure terbaik pada saat tetangga terdekat adalah 1, yaitu 91.93%, 86.12%, 100%, dan 92.54%. Namun, menurun drastis pada saat jumlah tetangga terdekat adalah 5. Oversampling acak menghasilkan akurasi, precision, recall, dan f- measure yang cukup bagus dan stabil pada saat jumlah tetangga terdekat ditingkatkan. Undersampling menghasilkan akurasi, precision, recall, dan f- measure yang stabil pada saat jumlah tetangga terdekat 1 sampai 5. Kata kunci: fuzzy k-nearest neigbor, data tidak seimbang, oversampling, undersampling ABSTRACT RETNO WIJAYANTI. Credit Card Debtor Classification using Fuzzy K-Nearest Neighbor Algorithm in Imbalanced Data. Supervised by AZIZ KUSTIYO. Debtor classification is a crucial banking process in order to identify potential problematic credit card applicant. This information is to support decision making in accepting or rejecting the application. The classification method makes use of fuzzy k-nearest neighbor method. Due to the nature of credit card business, most likely, the data collected is imbalanced. In this case, the good debtors always significantly outnumber the bad one. Most of the existing classification systems work well on balanced data, which is not the case in this research. Thus, in order to improve the system, the data composition must be banced using oversampling and undersampling technique. The performance indicator used are accuracy, precision, recall, and f-measure. Replication oversampling improved the algorithm best at the number of nearest neighbors 1. The accuration, precision, recall, and f- measure is 91.93%, 86.12%, 100%, and 92.54%, while the least performance was achieved at the number of nearest neighbors 5. Random oversampling performed better as the number of the nearest neighbors increases. Undersampling performed more stable with the number of the nearest neighbors between 1 and 5. Keywords: fuzzy k-nearest neighbor, imbalanced data, oversampling, undersampling

5 KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6 Penguji: 1 Dr Imas Sukaesih Sitanggang, SSi MKom 2 Toto Haryanto, SKom MSi

7 Judul Skripsi : Klasifikasi Nasabah Kartu Kredit Menggunakan Algoritme Fuzzy K-Nearest Neighbor pada Data Tidak Seimbang Nama : Retno Wijayanti NIM : G Disetujui oleh Aziz Kustiyo, SSi MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Ungkapan terima kasih penulis sampaikan kepada ayah, ibu, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Terima kasih penulis ucapkan kepada Bapak Aziz Kustiyo, MKom selaku pembimbing, kepada Ibu Dr Imas S Sitanggang, MKom dan Bapak Toto Haryanto, MSi selaku penguji. Terima kasih atas semua bimbingan dan saran yang diberikan dalam menyelesaikan karya ilmiah ini. Terima kasih juga penulis sampaikan kepada Nanang Wahyu Hariyadi, Munjiati, Leni Mariana, Rina Oktaviana, Listia Hesti, dan Ilkomerz 46 khususnya Dhieta Anggraini dan Fiqrotul Ulya atas kerja samanya. Semoga karya ilmiah ini bermanfaat. Bogor, Juli 2013 Retno Wijayanti

9 DAFTAR ISI DAFTAR TABEL vii DAFTAR GAMBAR vii DAFTAR LAMPIRAN vii PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 1 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 TINJAUAN PUSTAKA 2 Kartu Kredit 2 Klasifikasi 2 Data Tidak Seimbang 3 Algoritme K-Means 3 Metode K-Fold Cross Validation 3 Fuzzy K-Nearest Neighbor 3 Normalisasi 5 Confusion Matrix 5 METODE 6 Pengadaan Data 6 Praproses Data 6 Pembagian Data 7 Klasifikasi dengan FKNN 8 Analisis Hasil Klasifikasi 8 Penerapan Model Terbaik 8 Lingkungan Pengembangan 8 HASIL DAN PEMBAHASAN 8 Pengadaan Data 8 Praproses Data 9 Resampling 10

10 Analisa Hasil Klasifikasi 10 Penerapan Model Terbaik 14 Perbandingan dengan Penelitian Sebelumnya 14 SIMPULAN DAN SARAN 14 Simpulan 14 Saran 16 DAFTAR PUSTAKA 16 LAMPIRAN 18

11 DAFTAR TABEL 1 Confusion matrix 5 2 Atribut data 9 3 Nilai akurasi setiap model data percobaan 11 4 Nilai precision setiap proses uji oversampling duplikasi saat tetangga terdekat Confusion matrix proses pengujian ke Nilai precision setiap model data percobaan 12 7 Nilai recall setiap model data percobaan 12 8 Nilai f-measure setiap model data percobaan 12 9 Atribut data baru yang diuji beserta hasil prediksi Hasil prediksi data uji Perbandingan metrik pengukuran dengan penelitian lain 15 DAFTAR GAMBAR 1 Tahapan penelitian 7 2 Ilustrasi perhitungan FKNN 9 3 Grafik akurasi setiap model data percobaan 13 4 Grafik f-measure setiap model data percobaan 14 DAFTAR LAMPIRAN 1 Keterangan atribut 18 2 Nilai akurasi dalam % pada saat jumlah tetangga adalah 1 sampai Nilai precision dalam % pada saat jumlah tetangga 1 sampai Nilai recall dalam % pada saat jumlah tetangga adalah 1 sampai Nilai f-measure dalam % pada saat jumlah tatangga 1 sampai Contoh hasil klasifikasi data oversampling duplikasi saat k = Contoh hasil klasifikasi data oversampling duplikasi saat k = Contoh hasil klasifikasi data oversampling duplikasi saat k = Contoh hasil klasifikasi data oversampling duplikasi saat k = Contoh hasil klasifikasi data oversampling duplikasi saat k = Tampilan sistem Tampilan sistem saat menampilkan hasil prediksi 24

12

13 PENDAHULUAN Latar Belakang Usaha perbankan tidak hanya melayani penyimpanan dana nasabah, namun terdapat berbagai macam bentuk usaha bank. Salah satu usaha bank tersebut adalah memberikan fasilitas kartu kredit. Setiap bank mempunyai standar yang khusus dalam menentukan diterima atau tidaknya suatu pengajuan kredit. Hal ini sangat penting untuk mengurangi peluang kerugian bank akibat menerima nasabah kartu kredit yang mempunyai potensi bermasalah. Diperlukan manajemen risiko untuk meminimalkan kerugian yang akan diderita oleh pihak bank yang diakibatkan oleh kredit bermasalah. Salah satu bentuk manajemen risiko adalah menganalisis nasabah bermasalah yang sudah ada yang kemudian digunakan sebagai acuan penerimaan nasabah baru. Keputusan pemberian kredit kepada calon nasabah atau calon debitur melewati proses pengajuan kredit dan melalui tahap analisis terhadap kredit yang diajukan. Tahap analisis ini merupakan tahap yang paling penting dalam kualifikasi pemberian kredit. Data nasabah yang akan digunakan untuk pembuatan model klasifikasi merupakan salah satu data yang termasuk kasus data tidak seimbang. Hal ini menyebabkan proses klasifikasi menjadi tidak optimal karena kelas yang mempunyai jumlah data lebih banyak mendominasi hasil klasifikasi daripada kelas yang memiliki jumlah data lebih sedikit. Pada sebagian besar kasus data tidak seimbang, kelas yang menjadi target klasifikasi adalah kelas yang jumlah data lebih sedikit atau minoritas. Berbagai penelitian dilakukan untuk mencari solusi dari permasalahan klasifikasi data tidak seimbang. Salah satu penelitian tersebut adalah Liao (2008) yang mencoba berbagai teknik sampling untuk mengklasifikasikan kegagalan pengelasan menggunakan jarak minimum, k-nearest neighbor (KNN), dan fuzzy k- nearest neighbor (FKNN). Dari penelitian tersebut dapat disimpulkan bahwa FKNN memiliki perhitungan yang sederhana dan mudah diaplikasikan pada data berukuran besar. Selain itu, akurasi yang dihasilkan FKNN lebih tinggi daripada KNN dan mampu memberikan derajat keanggotaan pada kelas prediksi. Pada penelitian ini akan dibuat suatu model untuk mengklasifikasikan nasabah dengan kategori baik atau buruk. Pembuatan model dilakukan dengan menggunakan algoritme FKNN. Sebelumnya, penelitian dengan menggunakan data yang sama dilakukan oleh Setiawati (2011) menggunakan algoritme jaringan saraf tiruan backpropagation. Berdasarkan penelitian tersebut, diketahui bahwa perbandingan jumlah debitur pada kelas baik dan buruk memiliki perbedaan yang cukup besar, yaitu 4:1. Dari hasil penelitian tersebut diperoleh akurasi dari model terbaik sebesar 73.39%, serta recall dan precision kelas buruk sebesar 56.26% dan 36.90%. Perumusan Masalah Berdasarkan latar belakang yang telah dijelaskan, dapat disimpulkan bahwa proses analisis nasabah kartu kredit perlu dilakukan. Selain itu, terdapat hal-hal yang perlu dilakukan untuk mengatasi permasalahan pada data tidak seimbang.

14 2 Dengan mengambil sampel data sekunder dari Bank X akan dibuat model untuk mengklasifikasikan nasabah kredit yang diterima baik atau buruk. Tujuan Penelitian Tujuan dari penelitian ini adalah membangun suatu model untuk mengklasifikasikan nasabah kredit yang baik atau buruk menggunakan algoritme FKNN. Manfaat Penelitian Hasil dari penelitian ini diharapkan dapat menjadi alternatif model untuk menganalisis proses penerimaan kredit, khususnya nasabah kartu kredit. Dengan demikian, jumlah kredit yang bermasalah dapat berkurang. Ruang Lingkup Penelitian Data yang dipakai pada penelitian ini adalah data sekunder nasabah kartu kredit Bank X pada periode waktu Atribut atau feature yang digunakan adalah atribut yang mempengaruhi proses analisis. Algoritme yang digunakan adalah FKNN. TINJAUAN PUSTAKA Kartu Kredit Kartu kredit adalah alat pembayaran dengan menggunakan kartu yang dapat digunakan untuk melakukan pembayaran atas kewajiban yang timbul dari suatu kegiatan ekonomi, termasuk transaksi pembelanjaan dan/atau untuk melakukan penarikan tunai, dimana kewajiban pembayaran pemegang kartu dipenuhi terlebih dahulu oleh acquirer atau penerbit, dan pemegang kartu berkewajiban untuk melakukan pembayaran pada waktu yang disepakati baik dengan pelunasan secara sekaligus (charge card) ataupun dengan pembayaran secara angsuran (BI 2012). Klasifikasi Klasifikasi merupakan proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep atau kelas-kelas data. Tujuan dari klasifikasi adalah membentuk model yang dapat digunakan untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui (Han dan Kamber 2001). Klasifikasi terdiri atas 2 tahap, yaitu pelatihan dan klasifikasi. Pada tahap pelatihan, dibentuk sebuah model domain permasalahan dari setiap data yang ada. Penentuan model tersebut berdasarkan analisis pada sekumpulan data pelatihan, yaitu data yang label kelasnya sudah diketahui. Pada tahap klasifikasi dilakukan prediksi kelas dari data pada data uji dengan menggunakan model yang telah dibuat pada tahap pelatihan.

15 3 Data Tidak Seimbang Data tidak seimbang merupakan suatu kondisi ketika sebuah himpunan data terdapat satu kelas yang memiliki jumlah data yang kecil dibandingkan jumlah data dari kelas yang lain. Kondisi tersebut dapat menimbulkan proses klasifikasi pada kelas minoritas menjadi kurang optimal, sedangkan kelas minoritas dianggap lebih penting dari kelas mayoritas. Sebagai contoh pada proses klasifikasi teks, pengenalan citra satelit untuk mendeteksi titik-titik tertentu, kecurangan transaksi, dan sebagainya (Kotsiantis et al. 2006). Sebagai upaya untuk mengatasi permasalahan yang ada pada proses klasifikasi data tidak seimbang, dapat dilakukan perubahan pada level algoritme dan level data. Perubahan pada level algoritme dilakukan dengan mengubah algoritme yang sudah ada atau dengan membuat algoritme baru. Perubahan pada level data dilakukan dengan resampling. Ada 2 cara teknik resampling, yaitu oversampling kelas minoritas dan undersampling kelas mayoritas. Oversampling dilakukan dengan cara memperbanyak kelas minoritas sehingga jumlahnya sama dengan kelas mayoritas. Teknik undersampling dilakukan dengan mengurangi jumlah kelas mayoritas sehingga jumlahnya sama dengan kelas minoritas (Kotsiantis et al. 2006). Undersampling dapat dilakukan dengan mengambil data mayoritas secara acak atau dengan memakai teknik tertentu, misalnya dengan clustering. Algoritme K-Means Algoritme k-means merupakan salah satu algoritme data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam beberapa cluster. Hal pertama yang dilakukan adalah memilih k obyek secara acak, yang masing-masing merupakan nilai rata-rata cluster atau centroid. Untuk masing-masing obyek yang tersisa, dihitung kemiripannya berdasarkan jarak antara obyek tersebut dengan centroid pada masing-masing cluster. Kemudian menghitung rata-rata baru untuk setiap cluster. Proses ini dilakukan sampai fungsi kriteria konvergen (Han dan Kamber 2001). Metode K-Fold Cross Validation Metode k-fold cross validation membagi data secara acak sejumlah k subset yang saling bebas dengan ukuran yang kira-kira sama. Setelah subset terbentuk, dilakukan pengulangan sebanyak k-kali untuk pelatihan dan pengujian. Pada masing-masing proses pengujian, digunakan 1 subset sebagai data uji, sedangkan subset lainnya sebagai data latih (Kohavi 1995). Fuzzy K-Nearest Neighbor FKNN merupakan pengembangan dari algoritme KNN yang sudah ada. FKNN menggunakan konsep logika fuzzy untuk menentukan derajat keanggotaan setiap kelas yang berbeda berdasarkan jarak yang didapatkan dari perhitungan KNN. Inti dari algoritme FKNN adalah memberikan derajat keanggotaan sebagai fungsi dari jarak vektor dari tetangga terdekatnya dan kelas yang memungkinkan (Keller et al. 1985).

16 4 Pada data yang digunakan terdapat 2 jenis tipe atribut, yaitu atribut rasio dan nominal. Pengukuran jarak pada data rasio dapat digunakan fungsi Euclidean yang ada pada persamaan berikut. ( ) Namun, penggunaan fungsi Euclidean untuk mengukur jarak data nominal tidak tepat karena meskipun dapat dinyatakan dalam bentuk angka, data nominal tidak memiliki urutan atau makna secara matematika sehingga tidak dapat dibandingkan besarnya. Untuk menghitung jarak nominal, fungsi yang digunakan adalah: { dengan: x = data uji y = data latih (Larose 2005) Untuk menggabungkan kedua jarak tersebut, diperlukan fungsi aggregate ketidaksamaan berat rata-rata yang diukur dari masing-masing fitur (Teknomo 2006). Fungsi yang digunakan sebagai berikut: dengan: S ij = jarak data uji dengan data latih k = jumlah variabel fitur = nilai ketidaksamaan antarobjek = bobot fitur, bernilai 1 untuk jarak rasio dan 0.5 untuk jarak nominal. Besarnya nilai pembobotan ini diberikan agar jarak nominal tidak terlalu mendominasi hasil perhitungan (Nurjayanti 2011). Setelah didapatkan nilai agregasi kedua jarak, perhitungan menurut konsep S ijk w ijk FKNN mulai dilakukan. Untuk mendapatkan derajat keanggotaan suatu data uji, digunakan fungsi: ( ) ( ) ( ) ( ) dengan: u(x,c n ) = derajat keanggotaan data x pada kelas c n k = jumlah tetangga terdekat yang digunakan m = bobot yang diberikan (pada penelitian ini nilai m adalah 2) u(x k,c n ) = derajat keanggotaan data dalam k tetangga terdekat pada kelas c n Bernilai 1 jika data latih x k merupakan anggota dari kelas c n atau 0 jika bukan (Keller et al. 1985).

17 5 Normalisasi Pada perhitungan untuk jarak rasio, atribut yang mempunyai rentang nilai besar akan mempengaruhi hasil dari perhitungan jarak Euclidean. Solusi yang dapat digunakan untuk mengatasi permasalahan tersebut adalah dilakukannya normalisasi (Larose 2005). Metode normalisasi yang dapat diterapkan adalah minmax normalization dengan mengikuti persamaan berikut: ( ) dengan X * adalah nilai hasil normalisasi, X nilai sebelum normalisasi, min(x) nilai minimun dari fitur, dan max(x) nilai maksimum dari fitur. Confusion Matrix Salah satu teknik untuk mengukur kemampuan dari algoritme klasifikasi pada kasus data tidak seimbang adalah dengan menggunakan confusion matrix. Confusion matrix berisi informasi mengenai klasifikasi aktual dengan hasil prediksi yang disajikan dalam bentuk tabel. Confusion matrix untuk dua kelas dapat dilihat pada Tabel 1. Tabel 1 Confusion matrix Kelas aktual Kelas hasil klasifikasi Kelas positif Kelas negatif Kelas positif TP FN Kelas negatif FP TN TP adalah jumlah dari kelas positif (kelas yang mempunyai jumlah data lebih sedikit) yang benar diklasifikasikan. FN adalah jumlah kelas positif yang salah diklasifikasikan ke dalam kelas negatif. FP adalah jumlah kelas negatif yang salah diklasifikasikan ke dalam kelas positif. TN adalah jumlah kelas negatif yang benar diklasifikasikan. Berdasarkan data yang didapatkan dari confusion matrix, akan dihitung (Weng dan Poon 2008): 1 Akurasi Akurasi adalah jumlah perbandingan data yang benar dengan jumlah keseluruhan data. Untuk menghitung akurasi, digunakan fungsi sebagai berikut: 2 Precision Precision digunakan untuk mengukur seberapa besar proporsi dari kelas data positif yang berhasil diprediksi dengan benar dari keseluruhan hasil prediksi kelas positif. Untuk menghitung precision, digunakan fungsi sebagai berikut:

18 6 3 Recall Recall digunakan untuk menunjukkan persentase kelas data positif yang berhasil diprediksi benar dari keseluruhan data kelas positif. Untuk menghitung recall, digunakan fungsi sebagai berikut: all 4 F-measure F-measure merupakan gabungan dari precision dan recall yang digunakan untuk mengukur kemampuan algoritme dalam mengklasifikasikan kelas minoritas. Untuk menghitung f-measure, digunakan fungsi sebagai berikut: all all METODE Penelitian ini dilakukan dalam beberapa tahapan. Alur tahapan penelitian yang dilakukan dapat dilihat pada Gambar 1. Pengadaan Data Pada tahap ini, dilakukan pembuatan proposal penelitian dan menghubungi pihak bank yang bersedia untuk bekerja sama dalam penelitian yang sedang dilakukan. Praproses Data Data yang sudah didapat kemudian diubah menurut keperluan algoritme dan jenis tipe atribut data itu sendiri. Data nominal diolah dengan menggunakan jarak nominal. Praproses data rasio dilakukan dengan normalisasi agar didapatkan range nilai antara 0 hingga 1 agar menghindari perbedaan range nilai yang terlalu besar. Pada saat praproses data, dilakukan teknik resampling. Oversampling dilakukan dengan 2 cara. Teknik oversampling yang pertama adalah dengan menduplikasi data minoritas hingga jumlahnya sama dengan data mayoritas. Teknik oversampling yang kedua dilakukan dengan cara membangkitkan data minoritas secara acak sehingga jumlahnya sama dengan data mayoritas. Data rasio didapatkan dengan membangkitkan data yang ada pada selang tiap atribut data minoritas. Data nominal didapatkan dengan membangkitkan data yang ada pada data minoritas mengikuti sebaran normal. Pada penelitian ini, keterkaitan data tidak diperhatikan. Undersampling dilakukan dengan 2 cara, yaitu undersampling acak dan undersampling dengan clustering. Undersampling secara acak dilakukan sebanyak 3 kali. Clustering dilakukan dengan metode k-means sebanyak 9 kali, dibagi menjadi 2 sampai 10 cluster. Agar data yang diambil tidak mengelompok pada suatu cluster tertentu, jumlah data yang diambil pada masing-masing cluster mengikuti fungsi berikut (Yen dan Lee 2009):

19 7 l Pembagian Data Data dibagi menjadi dua, yaitu data uji dan data latih. Pembagian data dilakukan secara acak dengan metode k-fold cross validation. Karena data yang digunakan cukup besar, pada metode ini melakukan proses folding sebanyak 10 kali untuk pelatihan dan pengujian dengan besar 10 adalah sejumlah iterasi yang ingin dilakukan. Pemilihan 10 fold bertujuan untuk mengoptimalkan hasil klasifikasi yang diperoleh. Pada setiap pengujian, 1 subset digunakan sebagai data uji, sedangkan subset yang lain digunakan sebagai data latih. Mulai Pengadaan Data Praproses Data Pembagian Data (10-fold cross validation) ) Data Uji Data Latih FKNN Analisa Hasil Klasifikasi Penerapan Model Terbaik Selesai Gambar 1 Tahapan penelitian

20 8 Klasifikasi dengan FKNN Teknik klasifikasi menggunakan FKNN berbasis sama dengan KNN, yaitu mencari jarak terdekat antara data yang akan dievaluasi dengan sejumlah k tetangga terdekatnya dalam data latih. Langkah-langkah untuk memodelkan prediksi menggunakan FKNN pada penelitian ini adalah sebagai berikut: 1 Perhitungan jarak Euclidean untuk data rasio. Perhitungan jarak dilakukan setelah data dinormalisasi. 2 Perhitungan jarak nominal dengan membandingkan data latih dengan data uji. Fitur nominal dilambangkan dengan angka agar mempermudah proses perbandingan. 3 Agregasi jarak yang telah didapatkan, yaitu dengan menggabungkan perolehan jarak rasio dan nominal. 4 Penentuan nilai k untuk menunjukkan berapa jumlah tetangga terdekat yang diinginkan. 5 Perhitungan derajat keanggotaan data pada masing-masing kelas. Kelas hasil klasifikasi ditentukan oleh derajat keanggotaan terbesar di antara 2 kelas yang dituju. Ilustrasi perhitungan FKNN selengkapnya dapat dilihat pada Gambar 2. Analisis Hasil Klasifikasi Untuk mengetahui keefektifan suatu algoritme dalam mengklasifiikasikan data, dilakukan perhitungan akurasi, precision, recall, dan f-measure. Semakin tinggi tingkat akurasi, precision, recall dan f-measure, maka algoritme semakin baik dalam melakukan klasifikasi. Penerapan Model Terbaik Setelah analisis hasil dilakukan, akan dibuat sistem yang mampu memprediksi kelas dari data baru. Berdasarkan hasil analisis akan didapatkan model data terbaik. Model data tersebut digunakan sebagai dasar pada proses prediksi data baru. Lingkungan Pengembangan Aplikasi yang dibangun pada penelitian ini menggunakan kode program yang ditulis dalam buku Prasetyo (2012). Kode program tersebut kemudian dimodifikasi sesuai keperluan. Program diimplementasikan menggunakan spesifikasi perangkat processor Intel Core i GHz, RAM kapasitas 2 GB, dan harddisk kapasitas 500 GB. Perangkat lunak yang digunakan ialah sistem operasi Windows 7 Professional, Matlab 7.7.0, dan Microsoft Excel. HASIL DAN PEMBAHASAN Pengadaan Data Data didapatkan dari penelitian sebelumnya yang melakukan penelusuran banyaknya unit dan lapisan tersembunyi jaringan saraf tiruan pada data tidak

21 9 Gambar 2 Ilustrasi perhitungan FKNN seimbang (Setiawati 2011). Terdapat 4413 data dan 14 atribut yang terkait dengan nasabah. Ada 3 jenis atribut, yaitu atribut rasio sebanyak 7 atribut, ordinal sebanyak 1 atribut, dan nominal sebanyak 6 atribut. Atribut data selengkapnya dapat dilihat pada Tabel 2. Untuk mempermudah proses klasifikasi, atribut ordinal dan nominal dikategorisasikan dalam bentuk angka. Keterangan lengkap atribut tersebut dapat dilihat pada Lampiran 1. Praproses Data Jumlah data setiap kelas berubah setelah dilakukan praproses data. Sebelum praproses, jumlah data sebesar 4413 dengan 839 data untuk kelas buruk dan 3574 data kelas baik. Data yang terdapat missing value tidak digunakan dalam proses klasifikasi. Selain itu, data yang mempunyai nilai fitur tidak valid seperti 0 atau 1 pada fitur pendapatan, -1 pada fitur masa kerja dan lama tinggal juga tidak digunakan. Banyaknya data setelah mengalami praproses data berkurang menjadi 3895 data. Dari hasil praproses didapatkan 636 data dengan kelas buruk dan 3259 data dengan kelas baik. Tabel 2 Atribut data Rasio Ordinal Nominal Usia Jumlah tanggungan Penghasilan Jumlah kartu kredit lain Presentase utang kartu kredit lain Lama kerja Lama tinggal Pendidikan Gender Status pernikahan Tipe perusahaan Jenis pekerjaan Status pekerjaan Kepemilikan rumah

22 10 Resampling Pada saat teknik oversampling diterapkan, jumlah data bertambah menjadi 6518 data. Pada saat teknik undersampling diterapkan, jumlah data berkurang menjadi 1272 data. Analisa Hasil Klasifikasi Pada penelitian ini, hasil yang diperoleh adalah akurasi, precision, recall, dan f-measure yang merupakan rata-rata dari 10-fold cross validation. Hasil dari cluster undersampling dan undersampling acak merupakan yang terbesar dari hasil 9 data cluster undersampling dan 3 undersampling acak. Akurasi yang paling besar didapatkan dari teknik oversampling duplikasi pada saat nilai tetangga terdekat adalah 1, yaitu sebesar 91.93%. Namun, nilai ini menurun saat jumlah tetangga terdekat ditingkatkan. Akurasi yang didapatkan dari data oversampling acak paling besar adalah 84.37% pada saat jumlah tetangga terdekat 4. Jumlah tetangga terdekat tidak begitu berpengaruh terhadap akurasi yang diperoleh. Akurasi yang didapatkan dari data asli paling besar adalah 79.05% pada saat jumlah tetangga terdekat adalah 5. Nilai ini naik meskipun tidak signifikan saat jumlah tetangga terdekat ditingkatkan. Akurasi yang didapatkan dari data cluster undersampling paling besar adalah 76.33% pada saat jumlah tetangga terdekat 5. Akurasi yang didapatkan dari data undersampling acak paling besar adalah 75.71% pada saat jumlah tetangga terdekat 4. Hasil akurasi keduanya tidak berbeda jauh pada saat jumlah tetangga terdekat adalah 1 sampai 5. Perbandingan hasil akurasi pada saat jumlah tetangga terdekat 1 sampai 5 untuk masing-masing data hasil resampling dan data asli dapat dilihat pada Tabel 3. Nilai selengkapnya dapat dilihat pada Lampiran 2. Namun, hasil akurasi tersebut belum dapat mengukur kemampuan algoritme dalam melakukan proses klasifikasi pada data minoritas. Sehingga, dihitung precision dan recall yang didapatkan dari hasil confusion matrix. Precision tertinggi dihasilkan oleh data hasil oversampling duplikasi, yaitu sebesar 86.12% pada saat jumlah tetangga terdekat 1. Namun, hasil tersebut menurun seiring dengan meningkatnya jumlah tetangga terdekat. Penurunan sangat drastis terjadi pada saat jumlah tetangga terdekat adalah 5, yaitu menjadi sebesar 50.36%. Berdasarkan Tabel 4, precision terbaik diperoleh pada proses uji ke-6 yaitu sebesar 88.23%. Confusion matrix untuk proses pengujian ke-6 dapat dilihat pada Tabel 5. Precision yang didapatkan dari data oversampling acak paling besar adalah 85.82% pada saat jumlah tetangga terdekat adalah 4. Precision yang didapatkan dari data asli paling besar adalah 27.17% pada saat jumlah tetangga terdekat adalah 4. Precision yang didapatkan dari data cluster undersampling paling besar adalah 78.27% pada saat jumlah tetangga terdekat adalah 5. Precision yang didapatkan dari data undersampling acak paling besar adalah 78.44% pada saat jumlah tetangga terdekat adalah 4. Hasil precision ini tidak berbeda jauh pada saat nilai K adalah 1 sampai 5. Perbandingan hasil precision pada jumlah tetangga terdekat 1 sampai 5 untuk masing-masing data hasil resampling dan data asli dapat dilihat pada Tabel 6. Nilai selengkapnya dapat dilihat pada Lampiran 3. Recall tertinggi masih dihasilkan oleh data hasil oversampling duplikasi, yaitu mencapai 100%. Namun, hasil tersebut menurun seiring dengan

23 meningkatnya jumlah tetangga terdekat. Penurunan sangat drastis terjadi pada saat jumlah tetangga terdekat adalah 5, yaitu menjadi sebesar 32.49%. Recall yang didapatkan dari data oversampling acak paling besar adalah 83.17% pada saat jumlah tetangga terdekat adalah 2. Recall yang didapatkan dari data asli paling besar adalah 22.75% pada saat jumlah tetangga terdekat adalah 1. Recall yang didapatkan dari data cluster undersampling paling besar adalah 75.85% pada saat jumlah tetangga terdekat adalah 4. Recall yang didapatkan dari data undersampling acak paling besar adalah 72.35% pada saat jumlah tetangga terdekat adalah 1. Hasil recall ini tidak berbeda jauh pada saat jumlah tetangga terdekat adalah 1 sampai 5. Perbandingan hasil recall pada jumlah tetangga terdekat adalah 1 sampai 5 untuk masing-masing data hasil resampling dan data asli dapat dilihat pada Tabel 7. Nilai recall selengkapnya dapat dilihat pada Lampiran 4. Dari hasil precision dan recall yang didapatkan, kemudian dihitung nilai f- measure untuk mengetahui kemampuan algoritme dalam mengklasifikasikan data minoritas secara keseluruhan. F-measure tertinggi masih dihasilkan oleh data Tabel 3 Nilai akurasi setiap model data percobaan Model data Akurasi tiap jumlah tetangga (k) (%) Data asli Oversampling duplikasi Oversampling acak Cluster undersampling Undersampling acak Tabel 4 Nilai precision setiap proses uji oversampling duplikasi saat tetangga terdekat 1 Pengujian ke- Precision (%) Tabel 5 Confusion matrix proses pengujian ke-6 Kelas hasil klasifikasi Kelas aktual Bad Good Bad Good

24 12 Tabel 6 Nilai precision setiap model data percobaan Model data Precision tiap jumlah tetangga (k) (%) Data asli Oversampling duplikasi Oversampling acak Cluster undersampling Undersampling acak Tabel 7 Nilai recall setiap model data percobaan Model data Recall tiap jumlah tetangga (k) (%) Data asli Oversampling duplikasi Oversampling acak Cluster undersampling Undersampling acak hasil oversampling duplikasi, yaitu mencapai 92.54%. Namun, hasil tersebut menurun seiring dengan meningkatnya jumlah tetangga terdekat. Penurunan sangat drastis terjadi pada saat jumlah tetangga terdekat adalah 5, yaitu menjadi sebesar 39.50%. F-measure yang didapatkan dari data oversampling acak paling besar adalah 84.04% pada saat jumlah tetangga terdekat adalah 4 dan 5. Hasil f- measure paling besar yang didapatkan dari data asli adalah 22.64% pada saat nilai jumlah tetangga terdekat adalah 1. F-measure yang didapatkan dari data cluster undersampling paling besar adalah 75.74% pada saat jumlah tetangga terdekat adalah 4. F-measure yang didapatkan dari data undersampling acak paling besar adalah 74.56% pada saat jumlah tetangga terdekat adalah 4. Perbandingan hasil f- measure pada jumlah tetangga terdekat adalah 1 sampai 5 untuk masing-masing data hasil resampling dan data asli dapat dilihat pada Tabel 8. Nilai f-measure selengkapnya dapat dilihat pada Lampiran 5. Selain menghasilkan akurasi, precision, recall, dan f-measure, algoritme FKNN mampu memberikan derajat keanggotaan pada masing-masing kelas. Derajat keanggotaan tersebut menjadi dasar algoritme untuk menentukan kelas hasil prediksi. Sebagai contoh pada Lampiran 6 hingga Lampiran 10 dapat dilihat derajat keanggotaan yang dihasilkan pada masing-masing nilai k saat Tabel 8 Nilai f-measure setiap model data percobaan Model data F-measure tiap jumlah tetangga (k) (%) Data asli Oversampling duplikasi Oversampling acak Cluster undersampling Undersampling acak

25 menggunakan data oversampling duplikasi. Pada saat tetangga terdekat 1, derajat keanggotaan masing-masing kelas hanya berupa angka 0 dan 1 karena hanya membandingkan 1 jarak tetangga. Pada saat jumlah tetangga lebih dari 1, mulai terlihat bahwa derajat keanggotaan yang dihasilkan semakin beragam. Dari hasil penjabaran di atas, dapat dilihat bahwa akurasi dari data asli cukup tinggi. Namun, hasil tersebut lebih didominasi oleh hasil klasifikasi data mayoritas. Hal tersebut dibuktikan dengan hasil f-measure yang rendah. Pada penelitian ini secara umum teknik resampling mampu meningkatkan nilai F- measure. Hasil yang diperoleh dari teknik oversampling acak lebih stabil daripada hasil yang diperoleh dari teknik oversampling duplikasi. Pada saat jumlah tetangga terdekat adalah 4 dan 5, hasil akurasi dan f-measure oversampling acak lebih bagus daripada teknik yang lain. Pada saat undersampling baik secara acak maupun berdasarkan cluster, hasil f-measure dan akurasi cenderung stabil pada saat jumlah tetangga terdekat ditingkatkan. Untuk lebih jelasnya, digambarkan dengan grafik pada Gambar 3 untuk akurasi dan Gambar 4 untuk f-measure. Pada saat digunakan teknik oversampling acak, hasil yang didapatkan lebih bagus dibandingkan hasil dari undersampling dan oversampling duplikasi pada jumlah tetangga terdekat adalah 4 dan 5. Hal ini disebabkan data yang dibangkitkan merupakan data yang diacak dari data minoritas. Hasil yang didapat dari oversampling, baik secara duplikasi maupun acak lebih bagus daripada teknik yang lain. Hal ini disebabkan konsep jarak yang ada pada algoritme KNN. Pada saat oversampling duplikasi, data minoritas diduplikasi sehingga jumlahnya sama dengan data mayoritas. Saat pengujian terdapat kemungkinan data yang diuji membandingkan jarak dengan dirinya sendiri yang ada pada data latih, sehingga hasil klasifikasi yang didapatkan lebih bagus. Undersampling terbukti berhasil meningkatkan f-measure dari data asli. Ketika menggunakan undersampling, perbandingan data buruk dengan baik seimbang. Dari hasil penelitian didapatkan bahwa teknik undersampling acak menghasilkan akurasi, precision, recall dan f-measure yang lebih rendah daripada undersampling yang dilakukan secara clustering. Pada saat teknik clustering diterapkan untuk pengambilan sampel data baik, jarak antara satu data dengan data yang lain sudah diukur kedekatannya. Oleh karena itu, pada saat proses klasifikasi diperoleh hasil yang stabil pada saat jumlah tetangga terdekat adalah 1 sampai Akurasi (%) 50 0 Data asli Oversampling duplikasi Oversampling acak Cluster Undersampling undersampling acak K = 1 K = 2 K = 3 K = 4 K = 5 Gambar 3 Grafik akurasi setiap model data percobaan

26 F-measure (%) 50 0 Data asli Oversampling duplikasi Oversampling acak Cluster undersampling Undersampling acak K = 1 K = 2 K = 3 K = 4 K = 5 Gambar 4 Grafik f-measure setiap model data percobaan Penerapan Model Terbaik Berdasarkan penelitian ini, didapatkan model terbaik berasal dari data hasil oversampling acak karena menghasilkan akurasi, precision, recall, dan f-measure yang stabil. F-measure terbaik dihasilkan pada saat jumlah tetangga adalah 4. Model terbaik tersebut digunakan sebagai dasar untuk pengujian data baru. Tampilan sistem untuk menguji data baru ada pada Lampiran 11. Pada saat dimasukkan data baru untuk diprediksi, sistem berhasil menampilkan kelas prediksi dan derajat keanggotaan untuk setiap kelas. Pada saat data pertama dimasukkan, sistem memprediksi data tersebut adalah kelas 1 dengan derajat keanggotaan sebesar Kemudian pada saat data kedua dimasukkan, sistem memprediksi data tersebut adalah kelas 2 dengan derajat keanggotaan sebesar Tampilan sistem pada saat menamplikan hasil prediksi ada pada Lampiran 12. Data baru yang diujikan dapat dilihat pada Tabel 9. Hasil prediksi sistem dapat dilihat pada Tabel 10. Perbandingan dengan Penelitian Sebelumnya Perbandingan metrik pengukuran pada penelitian Natasia (2013), Setiawati (2011), Aritonang (2006), dan penelitian ini diperlihatkan pada Tabel 11. Hasil penelitian yang dilakukan oleh Natasia (2013) dan Setiawati (2011) menunjukkan hasil f-measure yang rendah. Hal ini kemungkinan disebabkan pada kedua penelitian tersebut tidak mengubah data yang digunakan. Pada penelitian yang dilakukan oleh Aritonang (2006) yang menggunakan pendekatan pada level data, hasil yang didapatkan cukup bagus. Aritonang (2006) menggunakan algoritme VFI5 untuk mengklasifikasikan data hypothyroid yang merupakan data tidak seimbang. SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang telah dilakukan dapat disimpulkan bahwa: 1 Teknik resampling dengan oversampling dan undersampling dapat meningkatkan f-measure.

27 15 Tabel 9 Atribut data baru yang diuji beserta hasil prediksi Atribut Data 1 Data 2 Pendidikan 3 3 Gender 1 1 Status pernikahan 1 2 Tipe perusahaan 4 4 Status pekerjaan 1 1 Pekerjaan 3 4 Status rumah 0 1 Tanggunan 4 0 Pendapatan Banyaknya kartu kredit lain 3 3 Persentase utang kartu kredit lain 55 2 Usia Masa kerja Lama tinggal Penjelasan atribut ada pada Lampiran 1. Tabel 10 Hasil prediksi data uji Hasil prediksi Data 1 Data 2 Kelas 1 2 Derajat keanggotaan Kelas Kelas Tabel 11 Perbandingan metrik pengukuran dengan penelitian lain Data Model Akurasi Precision Recall F- measure Hypothyroid a VFI5 model Undersampling Debitur Backpropagation b VFI5 dengan semua atribut c FKNN data asli; K = FKNN oversampling duplikasi; K = FKNN oversampling acak; K = 4 FKNN cluster undersampling; K = 5 FKNN undersampling acak; K = a Aritonang (2006) b Setiawati (2011) c Natasia (2013)

28 16 2 Besarnya jumlah tetangga terdekat mempunyai pengaruh berbeda pada masingmasing data percobaan. Pada percobaan menggunakan data asli, meningkatnya jumlah tetangga terdekat meningkatkan nilai akurasi. Akurasi tertinggi terjadi pada saat jumlah tetangga terdekat adalah 5, yaitu sebesar 79.05%. Nilai ini lebih tinggi daripada akurasi yang dihasilkan pada saat menggunakan undersampling, tapi lebih rendah jika dibandingkan dengan akurasi yang dihasilkan oleh oversampling secara umum. Pada saat menggunakan oversampling duplikasi, meningkatnya jumlah tetangga terdekat menurunkan nilai akurasi, precision, recall, dan f-measure. Jumlah tetangga terdekat tidak berpengaruh signifikan pada saat digunakan oversampling acak dan undersampling. 3 F-measure paling tinggi dihasilkan saat menggunakan oversampling duplikasi, yaitu 92.54% pada saat jumlah tetangga terdekat 1. 4 Pada percobaan menggunakan data oversampling duplikasi menghasilkan f- measure untuk data minoritas cukup besar, yaitu 92.54%. Hasil ini lebih tinggi jika dibandingkan dengan percobaan menggunakan data oversampling acak yang menghasilkan f-measure 84.04%. 5 Pada percobaan menggunakan data cluster undersampling menghasilkan f- measure untuk data minoritas cukup besar, yaitu 75.74%. Hasil ini lebih tinggi jika dibandingkan dengan percobaan menggunakan data undersampling acak yang menghasilkan f-measure 74.56%. 6 Sistem berhasil memprediksi data baru dengan menggunakan model terbaik, yaitu oversampling acak dengan tetangga terdekat 4. Saran Pada penelitian selanjutnya diharapkan dapat membandingkan hasil klasifikasi FKNN yang didapatkan pada penelitian ini dengan teknik sampling yang lain, seperti synthetic minority oversampling technique dan bootstrap undersampling dengan memperhatikan keterkaitan antar-atribut. Selain itu, diharapkan juga untuk mencoba algoritme klasifikasi yang lain, seperti weighted KNN. DAFTAR PUSTAKA Aritonang R Klasifikasi imbalanced data menggunakan algoritme klasifikasi voting feature intervals [skripsi]. Bogor (ID): Institut Pertanian Bogor. [BI] Bank Indonesia Peraturan Bank Indonesia nomor 14/2/PBI/2012 tentang Perubahan Atas Peraturan Bank Indonesia nomor 11/11/PBI/2009 Tentang Penyelenggaraan Kegiatan Alat Pembayaran Dengan Menggunakan Kartu. Bank Indonesia. Jakarta. Han J, Kamber M Data Mining Concepts & Techniques. San Fansisco (US): Morgan Kaufmann. Keller JM, Gray MR, Givens JA A fuzzy k-nearest neigbor algorithm. IEEE Trans System Man Cybernet. 15(4): doi: /tsmc

29 Kohavi R A study of cross-validation and bootstrap for accuracy estimation and model selection. International Joint Conference on Artificial Intelligence [Internet]; 1995 Agu Quebec, Kanada. Quebec (CA). [diunduh 2013 Juli 16]. Tersedia pada: %20Learning/validation-1.pdf Kotsiantis S, Kanellopoulos D, Pintelas P Handling imbalanced datasets: a review. GESTS International Transactions on Computer Science and Engineering. 30(1): doi: Larose DT Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey (US). J Wiley. Liao TW. Classification of weld flaws with imbalanced class data. Expert System with Application. 35(3): doi: /j.eswa Natasia SR Klasifikasi debitur kartu kredit dengan pemilihan fitur menggunakan voting feature intervals 5 [skripsi]. Bogor (ID): Institut Pertanian Bogor. Nurjayanti B Identifikasi Shorea menggunakan k-nearest neighbor berdasarkan karakteristik morfologi daun [skripsi]. Bogor (ID): Institut Pertanian Bogor. Prasetyo E Data Mining: Konsep dan Aplikasi Menggunakan Matlab. Nikodemus WK, editor. Yogyakarta (ID): Andi Offset. Setiawati PA Penelusuran banyaknya unit dan lapisan tersembunyi jaringan saraf tiruan pada data tidak seimbang [skripsi]. Bogor (ID): Institut Pertanian Bogor. Teknomo K Similarity measurement [internet]. [diunduh 2013 Apr 3]. Tersedia pada: tutorial/similarity/. Weng GC, Poon J A new evaluation measure for imbalanced datasets. Di dalam: Roddick FJ, Li J, Christen P, Kennedy P, editor. Seventh Australian Data Mining Conference (AusDM 2008) [Internet]; 2008 Nov 27; Glenelg, Australia. Adelaide (AU). [diunduh 2013 Mei 21]. Tersedia pada: Yen SJ, Lee YS Cluster-based under-sampling approaches for imbalanced data distributions. Expert Systems with Applications. 36(3): doi: /j.eswa

30 18 Lampiran 1 Keterangan atribut Tipe atribut Atribut Keterangan Ordinal Pendidikan 1 = SMP/SMA 2 = Akademi 3 = S1/S2 Nominal Gender 1 = Pria 2 = Wanita Status pernikahan 1 = Lajang 2 = Menikah 3 = Bercerai Tipe perusahaan 1 = Kontraktor 2 = Conversion 3 = Industri berat 4 = Pertambangan 5 = Jasa 6 = Transportasi Status pekerjaan 1 = Permanen 2 = Kontrak Pekerjaan 1 = Conversion 2 = PNS 3 = Profesional 4 = Wiraswasta 5 = Perusahaan swasta Status rumah 0 = Bukan milik sendiri 1 = Milik sendiri Rasio Tanggunan Orang Pendapatan Rupiah per tahun Banyaknya kartu kredit lain Persentase utang kartu kredit lain Usia Dalam bulan Masa kerja Dalam bulan Lama tinggal Dalam bulan Kelas 1 = buruk 2 = baik

31 Lampiran 2 Nilai akurasi dalam % pada saat jumlah tetangga adalah 1 sampai 5 Model data Akurasi tiap jumlah tetangga (k) Data asli Oversampling duplikasi Oversampling acak cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling Undersampling acak Undersampling acak Undersampling acak Lampiran 3 Nilai precision dalam % pada saat jumlah tetangga 1 sampai 5 Model data Precision tiap jumlah tetangga (k) Data asli Oversampling duplikasi Oversampling acak cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling Undersampling acak Undersampling acak Undersampling acak

32 20 Lampiran 4 Nilai recall dalam % pada saat jumlah tetangga adalah 1 sampai 5 Model data Recall tiap jumlah tetangga (k) Data asli Oversampling duplikasi Oversampling acak cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling Undersampling acak Undersampling acak Undersampling acak Lampiran 5 Nilai f-measure dalam % pada saat jumlah tetangga 1 sampai 5 Model data F-measure tiap jumlah tetangga (k) Data asli Oversampling duplikasi Oversampling acak cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling cluster undersampling Undersampling acak Undersampling acak Undersampling acak

33 21 Lampiran 6 Contoh hasil klasifikasi data oversampling duplikasi saat k = 1 Kelas asli Kelas hasil uji Membership kelas 1 Membership kelas Lampiran 7 Contoh hasil klasifikasi data oversampling duplikasi saat k = 2 Kelas asli Kelas hasil uji Membership kelas 1 Membership kelas

34 22 Lampiran 8 Contoh hasil klasifikasi data oversampling duplikasi saat k = 3 Kelas asli Kelas hasil uji Membership kelas 1 Membership kelas Lampiran 9 Contoh hasil klasifikasi data oversampling duplikasi saat k = 4 Kelas asli Kelas hasil uji Membership kelas 1 Membership kelas

35 23 Lampiran 10 Contoh hasil klasifikasi data oversampling duplikasi saat k = 5 Kelas asli Kelas hasil uji Membership kelas 1 Membership kelas Lampiran 11 Tampilan sistem

36 24 Lampiran 12 Tampilan sistem saat menampilkan hasil prediksi

37 RIWAYAT HIDUP Penulis dilahirkan di Kediri, Jawa Timur, pada tanggal 29 Juni 1991 sebagai anak pertama dari pasangan Selam dan Sri Mardiari. Penulis merupakan lulusan SMA Negeri 1 Kediri ( ), SMP Negeri 1 Kepung ( ), dan SD Negeri Kepung 6 ( ). Pada tahun 2009, penulis diterima sebagai mahasiswa Ilmu Komputer Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Selama menjadi mahasiswa penulis aktif menjadi anggota Organisasi Mahasiswa Daerah KAMAJAYA. Penulis pernah menjadi panitia dalam acara BUGS 2009 yang diselenggarakan oleh BEM KM IPB dan IT TODAY 2011

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK AISYAH SYAHIDAH

KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK AISYAH SYAHIDAH KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK AISYAH SYAHIDAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI

PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU

KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Yuandri Trisaputra, Indriyani, Shellafuri Mardika Biru, Muhammad Ervan Departemen Ilmu Komputer, FMIPA,

Lebih terperinci

KLASIFIKASI DEBITUR KARTU KREDIT DENGAN PEMILIHAN FITUR MENGGUNAKAN VOTING FEATURE INTERVALS 5 SRI RAHAYU NATASIA

KLASIFIKASI DEBITUR KARTU KREDIT DENGAN PEMILIHAN FITUR MENGGUNAKAN VOTING FEATURE INTERVALS 5 SRI RAHAYU NATASIA KLASIFIKASI DEBITUR KARTU KREDIT DENGAN PEMILIHAN FITUR MENGGUNAKAN VOTING FEATURE INTERVALS 5 SRI RAHAYU NATASIA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KLASIFIKASI BAHAN PANGAN BERDASARKAN KANDUNGAN ZAT GIZI BAHAN PANGAN MENGGUNAKAN FUZZY K-NEAREST NEIGHBOR ANISAUL MUAWWANAH

KLASIFIKASI BAHAN PANGAN BERDASARKAN KANDUNGAN ZAT GIZI BAHAN PANGAN MENGGUNAKAN FUZZY K-NEAREST NEIGHBOR ANISAUL MUAWWANAH KLASIFIKASI BAHAN PANGAN BERDASARKAN KANDUNGAN ZAT GIZI BAHAN PANGAN MENGGUNAKAN FUZZY K-NEAREST NEIGHBOR ANISAUL MUAWWANAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

Sistem Pakar Identifikasi Varietas Ikan Mas (Cyprinus carpio) Berdasarkan Karakteristik Morfologi dan Tingkah Laku

Sistem Pakar Identifikasi Varietas Ikan Mas (Cyprinus carpio) Berdasarkan Karakteristik Morfologi dan Tingkah Laku Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 4 Nomor 1 halaman 6-13 ISSN: 2089-6026 Sistem Pakar Identifikasi Varietas Ikan Mas (Cyprinus carpio) Berdasarkan Karakteristik

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi 4 Perangkat keras berupa Notebook: Processor intel Core i3 2.2 GHz. RAM kapasitas 2. GB. Harddisk Kapasitas 5 GB. Monitor pada resolusi 1366 x 768 piksel. Merek Acer Aspire 475. Perangkat lunak berupa:

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 1, Januari 2018, hlm. 184-189 http://j-ptiik.ub.ac.id Klasifikasi Standar Produk Baja PT. Krakatau Steel (Persero)

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Chandra Purnamaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami No 36 A Surakarta cpurnamaningsih@gmail.com

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Jurnal Teknik Komputer Unikom Komputika Volume 3, No.2-2014 TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Selvia Lorena Br Ginting 1), Wendi Zarman

Lebih terperinci

ii

ii KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5 SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika Disusun

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Klasifikasi merupakan salah satu bidang kajian pada machine learning. Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep

Lebih terperinci

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.

Lebih terperinci

METODE PENELITIAN HASIL DAN PEMBAHASAN

METODE PENELITIAN HASIL DAN PEMBAHASAN 5. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi

Lebih terperinci

Bulu mata. Generalisasi= Jumlah pola dikenali dengan benar x 100% Jumlah total pola

Bulu mata. Generalisasi= Jumlah pola dikenali dengan benar x 100% Jumlah total pola Generalisasi Hasil penelitian ini diukur menggunakan nilai konvergen dan generalisasi. Nilai konvergen adalah tingkat kecepatan jaringan untuk mempelajari pola input yang dinyatakan dalam satuan iterasi

Lebih terperinci

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data Setelah dilakukan analisis clustering maka algoritme tersebut akan dibandingkan berdasarkan cluster yang terbentuk dari hasil analisis cluster-nya. Hasil perbandingan diharapkan dapat membuktikan bahwa

Lebih terperinci

SISTEM PAKAR IDENTIFIKASI VARIETAS IKAN MAS (Cyprinus carpio) BERDASARKAN KARAKTERISTIK MORFOLOGI DAN TINGKAH LAKU ASTERIKA PRAWESTI

SISTEM PAKAR IDENTIFIKASI VARIETAS IKAN MAS (Cyprinus carpio) BERDASARKAN KARAKTERISTIK MORFOLOGI DAN TINGKAH LAKU ASTERIKA PRAWESTI SISTEM PAKAR IDENTIFIKASI VARIETAS IKAN MAS (Cyprinus carpio) BERDASARKAN KARAKTERISTIK MORFOLOGI DAN TINGKAH LAKU ASTERIKA PRAWESTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA

EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2009 EKSPLORASI

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Siti Mutrofin 1, Arrie Kurniawardhani 2, Abidatul Izzah 3, Mukhamad Masrur 4 Universitas Pesantren Tinggi Darul Ulum

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

Lingkungan Pengembangan HASIL DAN PEMBAHASAN aturan 3--5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam

Lebih terperinci

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0 PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C.0 Rachma Fauzia Azhary, Isnandar Slamet, Supriyadi Wibowo Program Studi Matematika Fakultas Matematika dan Ilmu Pengetahuan

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Penelitian mengenai pengenalan wajah termotivasi oleh banyaknya aplikasi praktis yang diperlukan dalam identifikasi wajah. Pengenalan wajah sebagai salah satu dari teknologi

Lebih terperinci

PENGARUH INCOMPLETE DATA TERHADAP AKURASI VOTING FEATURE INTERVALS-5 (VFI5) ABSTRAK

PENGARUH INCOMPLETE DATA TERHADAP AKURASI VOTING FEATURE INTERVALS-5 (VFI5) ABSTRAK PENGARUH INCOMPLETE DATA TERHADAP AKURASI VOTING FEATURE INTERVALS-5 (VFI5) Atik Pawestri Sulistyo 1, Aziz Kustiyo 1, Agus Buono 2 1 Departemen Ilmu Komputer, Fakultas Matematika dan IPA Institut Pertanian

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm

Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm Universitas Sebelas Maret Bidikmisi Applicant s Classification using C4.5 Algorithm Muh. Safri Juliardi Program Studi Informatika Universitas Sebelas Maret Jl. Ir. Sutami No. 36 A Surakarta juliardi@student.uns.ac.id

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek)

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek) ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek) Meriska Defriani 1, Noviyanti 2 1 STT Wastukancana 2 Teknik Informatika,

Lebih terperinci

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017 Analisis Perbandingan Metode Over-Sampling Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADSYN-kNN) untuk Data dengan Fitur Nominal-Multi Categories Sri Rahayu 1, Teguh Bharata Adji

Lebih terperinci

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO ANALISIS PERBANDINGAN PROSES CLUSTER MENGGUNAKAN K- MEANS CLUSTERING DAN K-NEAREST NEIGHBOR PADA PENYAKIT DIABETES MELLITUS SKRIPSI RONNY BENEDIKTUS SIRINGORINGO 131421021 PROGRAM STUDI S1 ILMU KOMPUTER

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan

Lebih terperinci

Agus Alim Muin S.Kom, M.Kom

Agus Alim Muin S.Kom, M.Kom Technologia Vol 7, No.4, Oktober Desember 2016 245 PENERAPAN SELEKSI ATRIBUT WEIGHTS BY INFORMATION GAIN DAN SELECT BY WEIGHTS PADA ALGORITMA NAÏVE BAYES UNTUK PREDIKSI KOLEKTIBILITAS PEMBIAYAAN USAHA

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI Gunawan 1, Fandi Halim 2, Tony Saputra Debataraja 3, Julianus Efrata Peranginangin 4

Lebih terperinci

PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO)

PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO) PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO) Levina Fitri Rahmawati, Isnandar Slamet, dan Diari Indriati Program

Lebih terperinci

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik DAFTAR ISI PERNYATAAN... iii PRAKATA... vi DAFTAR ISI... viii DAFTAR GAMBAR... xi DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xv DAFTAR ALGORITMA... xvi DAFTAR LAMPIRAN... xvii INTISARI... xviii ABSTRACT...

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga

Lebih terperinci

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz Data yang pada awalnya berupa chanel stereo diubah ke dalam chanel mono. Kemudian data tersebut disimpan dengan file berekstensi WAV. Praproses Pada tahap ini dilakukan ekstraksi ciri menggunakan metode

Lebih terperinci

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING Moh Ahsan Universitas Kanjuruhan Malang ahsan@unikama.ac.id ABSTRAK. Universitas Kanjuruhan Malang

Lebih terperinci

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan sehingga dapat diproses dengan SOM. Pada tahap seleksi data, dipilih data perkembangan anak berdasarkan kategori dan rentang usianya. Kategori perkembangan tersebut merupakan perkembangan kognitif, motorik

Lebih terperinci

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4725 Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel Handling Imbalanced Data

Lebih terperinci

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine.

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine. ABSTRAK Klasifikasi dalam data mining adalah proses untuk menemukan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data atau konsep. Salah satu permasalahan klasifikasi adalah distribusi

Lebih terperinci

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Gede Aditra

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal) 1 KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal) Budi Utami Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula No. 5-11 Semarang-50131

Lebih terperinci

Implementasi Algoritme Fuzzy K-Nearest Neighbor untuk Penentuan Lulus Tepat Waktu (Studi Kasus : Fakultas Ilmu Komputer Universitas Brawijaya)

Implementasi Algoritme Fuzzy K-Nearest Neighbor untuk Penentuan Lulus Tepat Waktu (Studi Kasus : Fakultas Ilmu Komputer Universitas Brawijaya) Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 4, April 2018, hlm. 1726-1732 http://j-ptiik.ub.ac.id Implementasi Algoritme Fuzzy K-Nearest Neighbor untuk Penentuan

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

KLUSTERISASI DAN KLASIFIKASI PELANGGAN BERDASARKAN PENGGUNAAN DAYA LISTRIK DAN PERAMALAN KEBUTUHAN DAYA LISTRIK TAHUN 2015

KLUSTERISASI DAN KLASIFIKASI PELANGGAN BERDASARKAN PENGGUNAAN DAYA LISTRIK DAN PERAMALAN KEBUTUHAN DAYA LISTRIK TAHUN 2015 KLUSTERISASI DAN KLASIFIKASI PELANGGAN BERDASARKAN PENGGUNAAN DAYA LISTRIK DAN PERAMALAN KEBUTUHAN DAYA LISTRIK TAHUN 2015 YUANDRI TRISAPUTRA 1 & OKTARINA SAFAR NIDA 2 (SIAP 16) 1 DEPARTEMEN LMU KOMPUTER

Lebih terperinci

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA oleh NADYA AL FITRIANI M0111060 SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN Devi Sugianti Program Studi Sistem Informasi,STMIK Widya Pratama Jl. Patriot 25 Pekalongan Telp (0285)427816 email

Lebih terperinci

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor PENGENALAN KADAR TOTAL PADAT TERLARUT PADA BUAH BELIMBING BERDASAR CITRA RED-GREEN-BLUE MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS (PCA) SEBAGAI EKSTRAKSI CIRI DAN KLASIFIKASI K-NEAREST NEIGHBORHOOD (KNN)

Lebih terperinci

ABSTRACT. Keywords : Shorea, k-nearest Neighbour. iii

ABSTRACT. Keywords : Shorea, k-nearest Neighbour. iii ABSTRACT BRYAN NURJAYANTI. Identification Using k-nearest Neighbour Based on Morphological Characteristics of Leaves. Supervised by AZIZ KUSTIYO. Dipterocarpaceae is a group of tropical plants that is

Lebih terperinci

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL) KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL) Budi Utami 1, Yuniarsi Rahayu, 2 1,2 Program Studi Teknik Informatika, Fakultas Ilmu Komputer,

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen BAB IV EKSPERIMEN 4.1 Tujuan Eksperimen Terdapat beberapa hal yang menjadi tujuan eksperimen, yaitu: 1. Membandingkan performansi hasil eksperimen dengan hasil penelitian [LI05a], menggunakan dataset dan

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

IPTEK-KOM, Vol. 19 No.12, Juni 2017: ISSN

IPTEK-KOM, Vol. 19 No.12, Juni 2017: ISSN Implementasi Teknik Sampling untuk Mengatasi Imbalanced Data pada Penentuan Status Gizi Balita dengan Menggunakan Learning Vector Quantization Implementation of Sampling Techniques for Solving Imbalanced

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Salah satu persoalan lingkungan yang muncul hampir setiap tahun di Indonesia terutama pasca tahun 2000 adalah kebakaran hutan, termasuk di wilayah provinsi Riau. Kebakaran hutan

Lebih terperinci

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR Eko Prasetyo 1), Rifki Fahrial Zainal 2), Harunur Rosyid 3) 1), 2) Teknik Informatika Universitas Bhayangkara Surabaya Jl. A. Yani 114, Surabaya, 60231 3) Teknik

Lebih terperinci

Student Clustering Based on Academic Using K-Means Algoritms

Student Clustering Based on Academic Using K-Means Algoritms Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata marlon.leong@gmail.com

Lebih terperinci

Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra Penampang Daun Freycinetia

Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra Penampang Daun Freycinetia Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 2 Nomor 1 halaman 20-28 ISSN: 2089-6026 Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi

Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi ISSN: 2089-3787 1181 Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi Soegiarto 1, Bahar 2 Program Studi Teknik Informatika, STMIK Banjarbaru Jl. A. Yani Km. 33,3 Banjarbaru

Lebih terperinci

PENDUGAAN PARAMETER BEBERAPA SEBARAN POISSON CAMPURAN DAN BEBERAPA SEBARAN DISKRET DENGAN MENGGUNAKAN ALGORITME EM ADE HARIS HIMAWAN

PENDUGAAN PARAMETER BEBERAPA SEBARAN POISSON CAMPURAN DAN BEBERAPA SEBARAN DISKRET DENGAN MENGGUNAKAN ALGORITME EM ADE HARIS HIMAWAN PENDUGAAN PARAMETER BEBERAPA SEBARAN POISSON CAMPURAN DAN BEBERAPA SEBARAN DISKRET DENGAN MENGGUNAKAN ALGORITME EM ADE HARIS HIMAWAN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN

Lebih terperinci

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE Lutfi Hidayat Ramdhani¹, Hetti Hidayati², Mahmud Dwi Suliiyo³ ¹Teknik Informatika,, Universitas Telkom Abstrak K-Modes

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA Aseptian Nugraha, Acep Irham Gufroni, Rohmat Gunawan Teknik Informatika Fakultas

Lebih terperinci

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 3 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015 Definisi Set Data Set Data / Data Set / Himpunan Data Kumpulan

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

PENERAPAN ALGORITMA K-NEAREST NEIGHBORS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA STMIK SINAR NUSANTARA SURAKARTA

PENERAPAN ALGORITMA K-NEAREST NEIGHBORS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA STMIK SINAR NUSANTARA SURAKARTA ISSN : 2338-4018 PENERAPAN ALGORITMA K-NEAREST NEIGHBORS UNTUK KELULUSAN MAHASISWA PADA STMIK SINAR NUSANTARA SURAKARTA Agus Panoto ( ragilpanoto@gmail.com ) Yustina Retno Wahyu Utami ( yustina.retno@gmail.com

Lebih terperinci

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN 3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan

Lebih terperinci