MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

BAB II LANDASAN TEORI

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

PENGGUNAAN ALGORITMA KLASIFIKASI DALAM DATA MINING

MODEL HEURISTIK. Capaian Pembelajaran. N. Tri Suswanto Saptadi

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Pada penelitian Rismawan dan Kusumadewi (2008) mengelompokkan

BAB II LANDASAN TEORI

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Algoritma Dasar. 4.1 Naive Bayes

SISTEM PEMBAGIAN KELAS KULIAH MAHASISWA DENGAN METODE K-MEANS DAN K-NEAREST NEIGHBORS UNTUK MENINGKATKAN KUALITAS PEMBELAJARAN

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB V PENUTUP. Menggunakan Metode Fuzzy C-Means Clustering, dapat diambil kesimpulan

PEMILIHAN TEMPAT KKN (KULIAH KERJA NYATA) DI KABUPATEN TULUNGAGUNG DENGAN METODE NAIVE BAYES SKRIPSI. Diajukan Guna Memenuhi Salah Satu Syarat

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier


TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

ALGORITMA NAÏVE BAYES UNTUK MELIHAT FAKTOR-FAKTOR YANG MEMPENGARUHI KULIT TERBAKAR

BAB IV HASIL DAN PEMBAHASAN

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

K NEAREST NEIGHBOR DALAM IMPUTASI MISSING DATA. Susanti, Shantika Martha, Evy Sulistianingsih INTISARI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

ALGORITMA k-nearest NEIGHBOR DALAM KLASIFIKASI DATA HASIL PRODUKSI KELAPA SAWIT PADA PT. MINAMAS KECAMATAN PARINDU

SISTEM PREDIKSI PENGUNDURAN DIRI PESERTA DIDIK MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER

BAB II TINJAUAN PUSTAKA

ANALISIS CLUSTER PADA DOKUMEN TEKS

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

SISTEM PENDUKUNG KEPUTUSAN UNTUK PENGELOMPOKAN NILAI AKADEMIK SISWA MENGGUNAKAN METODE K-MEANS UNTUK SISWA SDN LAKARSANTRI I/472 SURABAYA SKRIPSI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

Keoptimalan Naïve Bayes Dalam Klasifikasi

Pemanfaatan Algoritma FCM Dalam Pengelompokan Kinerja Akademik Mahasiswa

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. gizi mahasiswa. Metode yang digunakan dalam penelitian ini adalah metode

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

BAB I PENDAHULUAN Latar Belakang

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING

BAB IV ANALISA DAN PERANCANGAN

INTELEGENSI BUATAN. Mesin Pembelajaran (Machine Learning)

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

APLIKASI DATA MINING UNTUK MENGHASILKAN POLA KELULUSAN SISWA DENGAN METODE NAÏVE BAYES

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang dan Perumusan Masalah

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

BAB I PENDAHULUAN A. Latar Belakang

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

khazanah informatika 1 Program studi Informatika Universitas Muhammadiyah Surakarta Surakarta 1.

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

SISTEM KLASIFIKASI PENYAKIT DIABETES MELLITUS MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN)

BAB 2 LANDASAN TEORI

( ) ( ) (3) II-1 ( ) ( )

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition

BAB II TINJAUAN PUSTAKA

Bayesian Classifier. Bahan Kuliah Data Mining. Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala

BAB I PENDAHULUAN. Perguruan tinggi yang baik dipengaruhi oleh kualitas. mahasiswa di dalamnya. Mahasiswa merupakan objek

KLASIFIKASI RUMAH LAYAK HUNI DI KABUPATEN BREBES DENGAN MENGGUNAKAN METODE LEARNING VECTOR QUANTIZATION DAN NAIVE BAYES

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

KLASIFIKASI STATUS GIZI MENGGUNAKAN K-NEAREST NEIGHBOR INTISARI

ARTIKEL PENILAIAN PRESTASI KERJA PEGAWAI NEGERI SIPIL

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1 Abstract

UKDW BAB I PENDAHULUAN Latar Belakang

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

TINJAUAN PUSTAKA. Definisi Data Mining

Penerapan Metode Fuzzy C-Means dengan Model Fuzzy RFM (Studi Kasus : Clustering Pelanggan Potensial Online Shop)

Cross Industry Standard Process for Data Mining (CRISP-DM) Nama : Siti Maskuroh NIM : A Kel : A

BAB I PENDAHULUAN I - 1

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

OPTIMASI NAÏVE BAYES CLASSIFIER DENGAN MENGGUNAKAN PARTICLE SWARM OPTIMIZATION PADA DATA IRIS

Technologia Vol 7, No.3, Juli September OPTIMASI KLASIFIKASI PENILAIAN AKREDITASI LEMBAGA KURSUS MENGGUNAKAN METODE K-NN DAN NAIVE BAYES

MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP

Transkripsi:

1 MODEL DATA MINING N. Tri Suswanto Saptadi CAPAIAN PEMBELAJARAN Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 1

3 Definisi Mining : proses atau usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar yang telah ada. 4 Definisi Beberapa faktor dalam pendefinisian data mining: data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu objek dari data mining adalah data yang berjumlah besar atau kompleks tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat.

5 Definisi Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya. 6 Kategori dalam Data mining Classification Clustering Statistical Learning Association Analysis Link Mining Bagging and Boosting Sequential Patterns Integrated Mining Rough Sets Graph Mining 3

7 Classification Klasifikasi adalah suatu proses pengelompokan data dengan didasarkan pada ciriciri tertentu ke dalam kelas-kelas yang telah ditentukan pula. Dua metode yang cukup dikenal dalam klasifikasi, antara lain: Naive Bayes K Nearest Neighbours (knn) 8 Teorema Bayes: P(C X) = P(X C) P(C) / P(X) P(X) bernilai konstan utk semua klas P(C) merupakan frek relatif sample klas C Dicari P(C X) bernilai maksimum, sama halnya dengan P(X C) P(C) juga bernilai maksimum Masalah: menghitung P(X C) tidak mungkin! 4

9 Apabila diberikan k atribut yang saling bebas (independence), nilai probabilitas dapat diberikan sebagai berikut. P(x 1,,x k C) = P(x 1 C) x x P(x k C) Jika atribut ke-i bersifat diskret, maka P(x i C) diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai x i sebagai atribut ke i dalam kelas C. 10 Namun jika atribut ke-i bersifat kontinu, maka P(x i C) diestimasi dengan fungsi densitas Gauss. f (x) 1 e x dengan = mean, dan = deviasi standar. 5

11 Contoh: Untuk menetapkan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan. Ada 4 atribut yang digunakan, yaitu: harga tanah per meter persegi (C1), jarak daerah tersebut dari pusat kota (C), ada atau tidaknya angkutan umum di daerah tersebut (C3), dan keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4). 1 Tabel Aturan Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 Murah Dekat Tidak Ya Sedang Dekat Tidak Ya 3 Mahal Dekat Tidak Ya 4 Mahal Jauh Tidak Tidak 5 Mahal Sedang Tidak Tidak 6 Sedang Jauh Ada Tidak 7 Murah Jauh Ada Tidak 8 Murah Sedang Tidak Ya 9 Mahal Jauh Ada Tidak 10 Sedang Sedang Ada Ya 6

13 Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Harga tanah Jumlah kejadian Dipilih Probabilitas Ya Tidak Ya Tidak Murah 1 /5 1/5 Sedang 1 /5 1/5 Mahal 1 3 1/5 3/5 Jumlah 5 5 1 1 14 Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C) Harga tanah Jumlah kejadian Dipilih Probabilitas Ya Tidak Ya Tidak Dekat 3 0 3/5 0 Sedang 1 /5 1/5 Jauh 0 4 0 4/5 Jumlah 5 5 1 1 7

15 Probabilitas kemunculan setiap nilai untuk atribut Ada angkutan umum (C3) Harga tanah Jumlah kejadian Dipilih Probabilitas Ya Tidak Ya Tidak Ada 1 3 1/5 3/5 Tidak 4 4/5 /5 Jumlah 5 5 1 1 16 Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4) Harga tanah Jumlah kejadian Dipilih Probabilitas Ya Tidak Ya Tidak Jumlah 5 5 1/ 1/ 8

17 Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung: Likelihood Ya = 1/5 x /5 x 1/5 x 5/10 = /15 = 0,008 Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = /15 = 0,036 18 Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = 0,008 0,008 0,036 0,18. Probabilitas Tidak = 0,036 0,008 0,036 0,818. 9

19 Modifikasi data Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 100 Tidak Ya 00 1 Tidak Ya 3 500 3 Tidak Ya 4 600 0 Tidak Tidak 5 550 8 Tidak Tidak 6 50 5 Ada Tidak 7 75 15 Ada Tidak 8 80 10 Tidak Ya 9 700 18 Ada Tidak 10 180 8 Ada Ya 0 Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Ya Tidak 1 100 600 00 550 3 500 50 4 80 75 5 180 700 Mean () Deviasi standar () 1 168,8787 435 61,9637 10

1 Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C) Ya Tidak 1 0 1 8 3 3 5 4 10 15 5 8 18 Mean () Deviasi standar () 4,8 3,963 17, 6,3008 Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C = 17, C3 = Tidak, maka: f (C1 300 ya) 1 e (168,8787) 3001 (168,8787) 0,001. f (C1 300 tidak) 1 e (61.9637) 300435 (61.9637) 0,0013. f (C 17 ya) 1 e (3.963) 174,8 (3.963) 0,0009. f (C 17 tidak) 1 e (6,3008) 1717, (6,3008) 0,0633. 11

3 Sehingga: Likelihood Ya = (0,001) x (0,0009) x 4/5 x 5/10 = 0,000000756. Likelihood Tidak = (0,0013) x (0,0633) x /5 x 5/10 = 0,000016458. Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak = 0,00000075 6 0,0439. 0,00000075 6 0,00001645 8 0,00001645 8 0,9561. 0,00000075 6 0,00001645 8 4 K-Nearest Neighbor - 1 Konsep dasar dari K-NN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga terdekatnya dalam data pelatihan. Penghitungan jarak dilakukan dengan konsep Euclidean. Jumlah kelas yang paling banyak dengan jarak terdekat tersebut akan menjadi kelas dimana data evaluasi tersebut berada. 1

5 K-Nearest Neighbor - Algoritma Tentukan parameter K = jumlah tetangga terdekat. Hitung jarak antara data yang akan dievaluasi dengan semua data pelatihan. Urutkan jarak yang terbentuk (urut naik) dan tentukan jarak terdekat sampai urutan ke-k. Pasangkan kelas (C) yang bersesuaian. Cari jumlah kelas terbanyak dari tetangga terdekat tersebut, dan tetapkan kelas tersebut sebagai kelas data yang dievaluasi. Contoh 6 Clustering Clustering adalah proses pengelompokan objek yang didasarkan pada kesamaan antar objek. Tidak seperti proses klasifikasi yang bersifat supervised learning, pada clustering proses pengelompokan dilakukan atas dasar unsupervised learning. Pada proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya. Sedangkan pada proses clustering, proses pengelompokan kejadian dalam klas akan dilakukan secara alami tanpa mengidentifikasi klas-klas sebelumnya. 13

7 Clustering Suatu metode clustering dikatakan baik apabila metode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik. Metode tersebut akan menghasilkan cluster-cluster dengan objek-objek yang memiliki tingkat kesamaan yang cukup tinggi dalam suatu cluster, dan memiliki tingkat ketidaksamaan yang cukup tinggi juga apabila objek-objek tersebut terletak pada cluster yang berbeda. Untuk mendapatkan kualitas yang baik, metode clustering sangat tergantung pada ukuran kesamaan yang akan digunakan dan kemampuannya untuk menemukan beberapa pola yang tersembunyi. 8 K-Means Konsep dasar dari K-Means adalah pencarian pusat cluster secara iteratif. Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster. Proses clustering dimulai dengan mengidentifikasi data yang akan dicluster, x ij (i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel. 14

9 K-Means Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), c kj (k=1,...,k; j=1,...,m). Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan penghitungan jarak data ke-i (X i ) pada pusat cluster ke-k (C k ), diberi nama (d ik ), dapat digunakan formula Euclidean, yaitu: d ik m x ij ckj j1 30 K-Means Suatu data akan menjadi anggota dari cluster ke-j apabila jarak data tersebut ke pusat cluster ke-j bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster. Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster tersebut, dengan rumus: c kj p h1 p y hj ; y hj x ij cluster ke k 15

31 K-Means Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang. Hitung jarak setiap data ke pusat cluster. Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek. Hitung pusat cluster. Ulangi langkah - 4 hingga sudah tidak ada lagi data yang berpindah ke cluster yang lain. Contoh 3 Penentuan Jumlah Cluster Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal. Kauffman dan Rousseeuw (1990) memperkenalkan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. Misalkan kita sebut A sebagai cluster dimana data X i berada, hitung ai sebagai rata-rata jarak X i ke semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster selain A. 16

33 Penentuan Jumlah Cluster Hitung rata-rata jarak antara X i dengan data yang menjadi anggota dari C, sebut sebagai d(x i, C). Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai b i, b i = min(d(x i,c)) dengan CA. Silhoutte dari X i, sebut sebagai s i dapat dipandang sebagai berikut (Chih-Ping, 005): a i a i bi 1, bi si 0, a i bi bi a i bi 1, a i 34 Penentuan Jumlah Cluster Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, ~. s k Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal. 17