TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge Discovery in Databases) : Penemuan pengetahuan dalam basis data Database Artificial intelligent Machine learning Data selection Pre-processing Cleaning Missing value Interpretation BMI ( Body Mass Index ) : Basis data : Kecerdasan buatan : Mesin pembelajaran : Pemilihan data : Sebelum pengolahan : Pembersihan : Informasi yang hilang : Interpretasi : Adalah ukuran yang digunakan untuk menilai proporsionalitas perbandingan antara tinggi dan berat seseorang. x
HAC (Hierarchical Agglomerative Clustering) Valid Inconsistent Task relevan data Knowledge Unsupervised Hierarchical Non hierarchical clustering Algoritma Partitional clustering Mean Open source dapat Data sampling Tools Explorer Knowledge flow Experimenter Simple Command line : Adalah sebuah metode hierarkis yang menciptakan komposisi hierarkis yang diterapkan pada objek data. : Sah : Tidak konsisten : Data tugas yang relevan : Pengetahuan : Tanpa arahan : Hirarki : Bukan pengelompokan hirarki : Algoritma pengelompokan partisi : Rata rata : Perangkat lunak yang kodenya dimodifikasi dengan bebas : Contoh data : Alat : Penjelajah : Arus pengetahuan : Orang yang melakukan percobaan : Mudah : Garis perintah xi
Data set Euclidean objek Euclidean distance Soft data Hard Normalization Score Standard deviation Decimal scaling New data Data selection CSV ( Comma Separated Values) Classification Visualization Association rules Regresi Download : Kumpulan data : Besarnya jarak suatu garis lurus yang menghubungkan antar : Jarak Euclidean : Data lunak : Keras : Normalisasi : Nilai : Deviasi standar : Penilaian decimal : Data baru : Pemilihan data : Adalah suatu format data dalam basis data di mana setiap record dipisahkan dengan tanda koma (,) atau titik koma(;). : Klasifikasi : Visualisasi :Aturan asosiasi : Suatu metode analisis statistik yang digunakan untuk melihat pengaruh antara dua atau lebih variabel : Unduh xii
Remove Choose Unsupervised Attribute Apply Start Distance Function Result list Visualize cluster assignment Save Clusterer visualize Arff viewer Drop out Square error Hard disk : Dihapus : Pilih : Tanpa pengawasan : Atribut : Terapkan : Mulai : Fungsi jarak : Daftar hasil : Memvisualisasikan tugas klaster : Simpan : Visualisasi hasil klaster : Tampilan arff : Dikeluarkan : Kuadrat kesalahan : Perangkat keras SSE ( Sum Of Squared Errors ) : Adalah ukuran perbedaan antara data dan model estimasi. ARFF (Attribute-Relation File Format ) : Adalah file yang digunakan Weka yang berisi satu atau lebih instances dari atribut xiii
DAFTAR ISI Halaman HALAMAN JUDUL... LEMBAR PENGESAHAN PEMBIMBING... LEMBAR PENGESAHAN PENGUJI... LEMBAR PERNYATAAN KEASLIAN... HALAMAN PERSEMBAHAN... HALAMAN MOTTO... KATA PENGANTAR... SARI... TAKARIR... DAFTAR ISI... DAFTAR TABEL... DAFTAR GAMBAR... DAFTAR LAMPIRAN... i ii iii iv v vi vii ix x xiv xvi xvii xix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah... 2 1.3 Batasan Masalah... 3 1.4 Tujuan Penelitian... 3 1.5 Manfaat Penelitian... 3 1.6 Metodologi Penelitian... 4 1.7 Sistematika Penulisan... 5 xiv
BAB II TINJAUAN PUSTAKA... 7 2.1 Penelitian Terdahulu... 7 2.2 Data Mining... 8 2.3 Clustering... 11 2.4 Algoritma K-Means... 11 2.5 Weka... 12 BAB III PEMODELAN... 14 3.1 Identifikasi Masalah... 14 3.2 Model Keputusan... 20 3.2.1 Pseudocode... 21 3.2.2 Diagram Alir... 23 BAB IV HASIL DAN PEMBAHASAN... 29 4.1 Metodologi Penelitian... 29 4.1.1 Metode Pengumpulan Data... 29 4.1.2 Studi Pustaka... 29 4.1.3 Metode Analisis Data... 29 4.2 Implementasi dengan Weka... 32 4.2.1 Normalisasi... 36 4.2.2 Clustering... 38 4.3 Hasil Implementasi... 46 4.4 Analisis Hasil Implementasi... 48 4.5 Hitung Nilai SSE... 55 4.6 Komputasi... 57 4.7 Pengguna... 57 BAB V PENUTUP... 59 5.1 Kesimpulan... 59 5.2 Saran... 59 DAFTAR PUSTAKA... 60 LAMPIRAN... 62 xv
DAFTAR TABEL Halaman Tabel 3.1 Tabel Data Mahasiswa... 16 Tabel 3.2 Tabel Perubahan Tahun Akademik... 17 Tabel 3.3 Tabel Normalisasi... 19 Tabel 3.4 Tabel Data Awal... 24 Tabel 3.5 Tabel Centroid Pada Iterasi Ke 0... 24 Tabel 3.6 Tabel Hitung Jarak... 26 Tabel 3.7 Tabel Hasil Perhitungan Jarak dan Pengelompokan Data... 26 Tabel 3.8 Tabel Centroid Pada Iterasi Ke 1... 26 Tabel 3.9 Tabel Hasil Perhitungan Jarak dan Pengelompokan Data iterasi 1... 27 Tabel 3.10 Tabel Centroid Pada Iterasi Ke 2... 27 Tabel 3.11 Tabel Hasil Perhitungan Jarak dan Pengelompokan Data iterasi 2... 27 Tabel 3.12 Tabel Centroid Pada Iterasi Ke 3... 28 Tabel 4.1 Tabel Contoh Data Mahasiswa... 30 Tabel 4.2 Tabel Data Setelah Dibersihkan... 31 Tabel 4.3 Tabel Data Mahasiswa... 33 Tabel 4.4 Tabel Cluster 0 Pengelompokan 4 cluster... 56 xvi
DAFTAR GAMBAR Halaman Gambar 2.1 Gambar Proses Data Mining... 9 Gambar 3.1 Gambar Diagram Alir Algoritma K-Means... 23 Gambar 4.1 Gambar Tampilan Weka... 32 Gambar 4.2 Gambar Tampilan Open File Weka... 34 Gambar 4.3 Gambar Tampilan Statistik Atribut... 35 Gambar 4.4 Gambar Tabel Sumber Data pada Weka... 36 Gambar 4.5 Gambar Menu Filter Untuk Normalisasi... 37 Gambar 4.6 Gambar Statistik Data Setelah Normalisasi... 37 Gambar 4.7 Gambar Tabel Hasil Normalisasi... 38 Gambar 4.8 Gambar Memilih Metode Clustering... 39 Gambar 4.9 Gambar Masukkan Jumlah Cluster... 40 Gambar 4.10 Gambar Menu Clustering Pada Weka... 40 Gambar 4.11 Gambar Pilihan Distance Function... 41 Gambar 4.12 Gambar Menentukan Jumlah Iterasi... 42 Gambar 4.13 Gambar Hasil Clustering... 43 Gambar 4.14 Gambar Tampilan Untuk Menyimpan File Hasil Cluster... 43 Gambar 4.15 Gambar Weka Clusterer Visualize... 44 Gambar 4.16 Gambar ArffViewer... 44 Gambar 4.17 Gambar Hasil Clustering 3 Cluster Dengan ARFF Viewer... 45 xvii
Gambar 4.18 Gambar Data Hasil Clustering 3 Cluster Sebelum Dan Setelah Normalisasi... 45 Gambar 4.19 Gambar Hasil Clustering 3 Cluster... 46 Gambar 4.20 Gambar Pengelompokan 4 cluster... 47 Gambar 4.21 Gambar Pengelompokan 5 cluster... 48 xviii
DAFTAR LAMPIRAN Halaman Lampiran 1 Tabel Hasil Clustering Dengan 3 Cluster... 62 Lampiran 2 Tabel Hasil Clustering Dengan 4 Cluster... 69 Lampiran 3 Tabel Hasil Clustering Dengan 5 Cluster... 75 xix