ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

ANALISIS MULTIVARIAT ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS) Oleh : Rizka Fauzia 1311 100 126 Dosen Pengampu: Santi Wulan Purnami S.Si., M.Si. PROGRAM STUDI SARJANA JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2014 1

1. CLUSTERING Pendahuluan Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan(kemiripan).clustering beda dengan group, kalau group berarti kelompok yang sama,kondisinya kalau tidak ya pasti bukan kelompoknya.tetapi kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean.aplikasinya cluster ini sangat banyak, karena hamper dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja. Manfaat Identifikasi obyek (Recognition) : Dalam bidang mage Processing, Computer Vision atau robot vision Decission Support System dan data mining Segmentasi pasar, pemetaan wilayah, Manajemen marketing dll. Prinsip dasar : Similarity Measures (ukuran kedekatan) Distances dan Similarity Coeficients untuk beberapa sepasang dari item Ecluidean Distance: d 2 2 2 ( x, y) ( x1 y1) ( x2 y2)... ( x p y p ) Atau : 2 d( x, y) x i yi p i 1 1 / 2 2

2. TINJAUAN PUSTAKA 2.1 Analisis Kelompok (Cluster Analisis) Analisis kelompok (Cluster analiysis) merupakan sebuah metode analisis untuk mengelompokan objek-objek pengamatan menjadi beberapa kelompok sehingga akan diperoleh kelompok dimana objek-objek dalam satu kelompok mempunyai banyak persamaan sedangkan dengan anggota kelompok yang lain mempunyai banyak perbedaan (Johnson dan Wichern, 2007). Prosedur pengelompokan pada dasarnya ada dua, yaitu pengelompokan dengan prosedur hierarki dan tak berhierarki. Pada penelitian ini metode yang dipakai adalah prosedur hierarki karena jumlah kelompok yang akan dibentuk belum ditentukan. 2.2 Analisis Cluster Hierarki Pada metode ini terdapat n objek dan k kelompok, tetapi kelompok yang akan terbentuk tidak ditentukan terlebih dahulu. Pembentukan kelompok dilakukan dengan pemotongan dendogram yang dihasilkan dari analisis. Dalam pembentukan kelompok ditentukan jarak antara dua objek yang nantinya digabungkan menjadi satu.single Linkage Method, Complete Linkage Method, Average Linkage Method, dan Ward`s Method merupakan merupakan metode hirarki, bagian dari metode agglomerative yang memiliki ukuran kemiripan yang berbeda saat pengklasteran. Single Linkage Method pengelompokannya didasarkan pada jarak terdekat antar cluster, Complete Linkage Method pengelompokannya didasarkan pada jarak terjauh antar cluster, Average Linkage Method pengelompokannya didasarkan pada jarak rata-rata antar cluster, sedangkan Ward`s Method pengklasteran didasarkan pada error sum of square (ESS) yang minimum (Johnson dan Wichern, 2007). Beberapa macam jarak yang biasa dipakai di dalam analisis cluster adalah sebagai berikut. 3

Tabel 2.1 Macam-Macam Jarak yang Digunakan No. Jarak Formula 1. Euclidean 2. Manhattan 3. Pearson 2.3 Analisis Cluster Nonhirarki Metode cluster nonhirarki diawali dengan proses penentuan jumlah cluster terlebih dahulu. Secara umum metode ini meminimumkan fungsi objektif atau kriteria optimal sehingga dapat mengatasi masalah optimasi untuk memenuhi kriteria optimal. Berdasarkan karakteristik datanya metode non-hirarki dibagi menjadi beberapa model, yaitu partitioning clustering, overlapping clustering dan model hybrid. Partitioning clustering merupakan metode rekontruktif yang berusaha meminimumkan fungsi objektif. Contoh dari partitioning clustering antara lain algoritma K-Means clustering dan Analisis Residual. Overlappingclustering biasanya digunakan ketika sejumlah data mengalami tumpang tindih (overlap) sehingga setiap data termasuk ke dalam beberapa cluster. Contoh dari overlapping clustering antara lain Fuzzy C-Means, Fuzzy Substractiveclustering dan Gaussian Mixture Model. Sedangkan model hybrid yaitu suatu metode clustering dimana metode tersebut menggabungkan karakteristik dari partitioning, overlapping, dan hirarki. (Johnson dan Wichern, 2007) 4

3. METODE K-MEANS Metode K-Means pertama diperkenalkan oleh James B MacQueen pada tahun 1967 dalam proceeding of the 5 th berkeley symposium on Mathematical Statistic and Probability. Dasar pengelompokkan dalam metode ini adalah menempatkan objek berdasarkan rata-rata cluster terdekat. Oleh karena itu, metode ini bertujuan untuk meminimumkan error akibat partisi n objek ke dalam k cluster. Error partisi disebut sebagai fungsi objektif. Misalkan X = {X i }, i = 1,2,...,n merupakan titik-titik dalam ruang berdimensi n (R n ) dan titik tersebut dikelompokkan ke dalam i cluster, C i, i = 1,2,..., k. Misalkan c i centroid dari cluster c i sehingga jumlah kuadrat antara c i dan titik di dalam cluster yaitu x i, didefinisikan sebagai berikut. 2 J ( ck ) xi ci ( ci xi ) (2.4) Prinsip dasar metode K-Means adalah meminimumkan jumlah kuadrat error dari seluruh i cluster adalah sebagai berikut. SSE k i 1 xi ci 2 ( ci xi) (2.5) (Hair dkk, 2010) 2.3.1 Komponen K-Means Algoritma K-Means memerlukan 3 komponen adalah sebagai berikut (Hair dkk, 2010). 1. Jumlah Cluster K K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah K harus ditentukan terlebih dahulu. Jumlah cluster dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah cluster K, terkadang jumlah cluster yang diinginkan tergantung pada subjektif seseorang. 2. Cluster Awal Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal (centroid awal). Oleh karena adanya pemilihan cluster awal yang berbeda ini maka kemungkinan besar solusi cluster yang dihasil akan berbeda pula. 5

3. Ukuran Jarak Dalam hal ini, ukuran jarak digunakan untuk menentukan observasi ke dalam cluster berdasarkan centroid terdekat. Ukuran jarak yang digunakan dalam metode K- Means adalah jarak Euclidean. 2.3.2 Algoritma K-Means Adapun algoritma K-Means dalam pembentukan cluster sebagai berikut. 1. Matriks data X = {x ij } berukuran nxp dengan i = 1,2,...,n, j = 1,2,...,p dan asumsikan jumlah cluster awal K 2. Tentukan pusat cluster 3. Menghitung jarak setiap objek ke setiap centroid dengan menggunakan jarak Euclidean atau dapat ditulis sebagai berikut. start Banyaknya cluster K Tentukan pusat Hitung jarak obyek ke pusat Kelompokkan obyek berdasar jarak minimum Ada obyek yang harus dipindah? ya tidak end Gambar 1. Flowchart algoritma K-Means d 2 ( xi, ci ) ( xi ci ) (2.6) 4. Setiap objek disusun ke centroid terdekat dan kumpulan objek tersebut akan membentuk cluster. 6

5. Menentukan centroid baru dari cluster yang baru terbentuk, dimana centroid baru itu diperoleh dari rata-rata setiap objek yang terlatak pada cluster yang sama. 6. Mengulang langkah 3, jika centroid awal dan baru tidak sama. (Hair dkk, 2010) Gambar 1 berikut menunjukkan diagram alir dari algoritma K-Means. 7

4. CONTOH PENGHITUNGAN DENGAN METODE K-MEANS Tabel 4.1 Daftar obyek yang akan diolah dalam clustering Obyek atribut1 (X): indeks atribut 2 (Y): ph berat Obat A 1 1 Obat B 2 1 Obat C 4 3 Obat D 5 4 2. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarak Euclid. Misalnya jarak obyek pupuk C=(4,3) ke centroid pertama adalah dan jaraknya dengan centroid kedua adalah. Hasil perhitungan jarak ini disimpan dalam bentuk matriks k x n, dengan k banyaknya cluster dan n banyak obyek. Setiap kolom dalam matriks tersebut menunjukkan obyek sedangkan baris pertama menunjukkan jarak ke centroid pertama, baris kedua menunjukkan jarak ke centroid kedua. Matriks jarak setelah iterasi ke-0 adalah sebagai berikut: 3. Clustering obyek : Memasukkan setiap obyek ke dalam cluster (grup) berdasarkan jarak minimumnya. Jadi obat A dimasukkan ke grup 1, dan obat B, C dan D dimasukkan ke grup 2. Keanggotaan obyek ke dalam grup dinyatakan dengan matrik, elemen dari matriks bernilai 1 jika sebuah obyek menjadi anggota grup. 8

4. Iterasi-1, menetukan centroid : Berdasarkan anggota masing-masing grup, selanjutnya ditentukan centroid baru. Grup 1 hanya berisi 1 obyek, sehingga centroidnya tetap. Grup 2 mempunyai 3 anggota, sehingga centroidnya ditentukan berdasarkan rata-rata koordinat ketiga anggota tersebut:. 5. Iterasi-1, menghitung jarak obyek ke centroid: selanjutnya, jarak antara centroid baru dengan seluruh obyek dalam grup dihitung kembali sehingga diperoleh matriks jarak sebagai berikut: 6. Iterasi-1, clustering obyek: langkah ke-3 diulang kembali, menentukan keanggotaan grup berdasarkan jaraknya. Berdasarkan matriks jarak yang baru, maka obat B harus dipindah ke grup 2. 7. Iterasi-2, menentukan centroid: langkah ke-4 diulang kembali untuk menentukan centroid baru berdasarkan keanggotaan grup yang baru. Grup 1 dan grup 2 masingmasing mempunyai 2 anggota, sehingga centroidnya menjadi dan 8. Iterasi-2, menghitung jarak obyek ke centroid : ulangi langkah ke-2, sehingga diperoleh matriks jarak sebagai berikut: 9

9. Iterasi-2, clustering obyek: mengelompokkan tiap-tiap obyek berdasarkan jarak minimumnya, diperoleh: Hasil pengelompokkan pada iterasi terakhir dibandingkan dengan hasil sebelumnya, diperoleh. Hasil ini menunjukkan bahwa tidak ada lagi obyek yang berpindah grup, dan algoritma telah stabil. Hasil akhir clustering ditunjukkan dalam Tabel 2. Tabel 4.2 Hasil clustering Obyek atribut1 (X): indeks atribut 2 (Y): ph Grup hasil berat Obat A 1 1 1 Obat B 2 1 1 Obat C 4 3 2 Obat D 5 4 2 Kelebihan dan Kelemahan algoritma K-means Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dengan catatan n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Biasanya, nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal. Hal yang dianggap sebagai kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai 10

penyimpangan-penyimpangan (noisy data dan outlier). Beberapa kelemahan algoritma K-means adalah: (1) sangat bergantung pada pemilihan nilai awal centroid, (2) tidak jelas berapa banyak cluster k yang terbaik, (3) hanya bekerja pada atribut numerik. Similarity dan Dissimilarity Memperhatikan input dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif. Algoritma K-means hanya dapat mengolah atribut numerik. Sebuah basis data, tidak mungkin hanya berisi satu macam type data saja, akan tetapi beragam type. Sebuah basis data dapat berisi data-data dengan type sebagai berikut: symmetric binary, asymmetric binary, nominal, ordinal, interval dan ratio. Berbagai macam atribut dalam basis data yang berbeda type harus diolah terlebih dahulu menjadi data numerik, sehingga dapat diberlakukan algoritma K-means dalam pembentukan clusternya. Pengukuran similarity dan dissimilarity dapat digunakan untuk pengolahan data tersebut Atribut yang berbeda tipe sama artinya dengan adanya ketidaksamaan (dissimilarity) antar atribut tersebut. Ketidaksamaan (dissimilarity) antara dua obyek dapat diukur dengan menghitung jarak antar obyek berdasarkan beberapa sifatnya. Hubungan dissimilarity antara 2 buah data obyek a=(a1,a2,,ap) dan b=(b1,b2,.,bp) dapat dinyatakan dengan pengukuran jarak antara 2 obyek tersebut. Beberapa sifat jarak (dissimilarity) adalah sebagai berikut d(a, b) 0, jarak kedua obyek selalu positif atau nol, d(a, a) = 0, jarak terhadap diri sendiri adalah nol, d(a, b) = d(b, a), jarak kedua obyek adalah simetri, d(a, b) d(a, c) + d(c, b), jarak memenuhi ketidaksamaan segitiga. Misalkan dissimilarity antara obyek i dan obyek j dinyatakan dengan d ij dan similarity dinyatakan dengan s ij. Hubungan antara relationship dissimilarity dengan similarity dinyatakan dengan s ij.=1- d ij, dengan similarity terbatas pada 0 dan 1 ([5]). Jika similarity bernilai satu (benar-benar sama), maka dissimilarity nol, dan jika similarity bernilai nol (sangat berbeda), dissimilarity bernilai satu. Setelah perhitungan jarak atau 11

dissimilarity dari setiap variabel, maka seluruh hasil dikumpulkan menjadi sebuah indeks similarity (atau dissimilarity) antara dua obyek ([5]). Selanjutnya hasil tersebut dapat diolah menjadi obyek-obyek yang akan dikelompokkan dalam cluster-cluster oleh algoritma K-means. 12

ANALISIS CLUSTER NON-HIERARKI K-MEANS CLUSTERING STUDI KASUS FAKTOR PERCERAIAN DI KABUPATEN/KOTA DI JAWA TIMUR DENGAN BANTUAN SPSS Variabel penelitian yang digunakan dalam praktikum ini dengan menggunakan data pengelompokan kabupaten / kota di jawa timur berdasarkan faktor-faktor penyebab perceraian tahun 2010 adalah sebagai berikut. Variabel X 1 (Moral) X 2 (Meninggalkan Kewajiban) X 3 (Kawin Dibawah Umur) X 4 (Penganiayaan) X 5 (Dihukum) X 6 (Cacat Biologis) X 7 (Sering Berselisih) Variabel Penelitian untuk Metode Analisis Cluster Penjelasan Persentase penyebab utama perceraian karena moral per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena poligami tidak sehat, krisis akhlak, dan cemburu terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena meninggalkan kewajiban per kabupaten/kota. Variabel ini diukur ber-dasarkan rasio jumlah perceraian karena kawin paksa, ekonomi, dan tidak tanggung jawab terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena kawin di bawah umur per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena kawin dibawah umur terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena penganiayaan per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena kekejaman mental dan kekejaman fisik terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena dihukum per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena dihukum terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena cacat biologis per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena cacat biologis terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena terus menerus berselisih per kabupaten/kota. Variabel ini diukur ber-dasarkan rasio jumlah perceraian karena politis, gangguan pihak ketiga, tidak ada keharmonisan terhadap total per-ceraian pada kabupaten/kota. 13

Karena jumlah data Kabupaten/Kota di Jawa Timur berdasarkan faktor perceraian banyak maka, berdasarkan teori akan lebih efisien jika menggunakan analisis cluster nonhierarki dengan metode K-Means. Hasil analisis yang diperoleh adalah sebagai berikut. 4.1 Pengelompokan Kabupaten/Kota dengan Menggunakan 2 cluster Dengam menggunakan analisis cluster non-herarki dapat ditemtukan jumalh cluster yang akan digunakan. Alternatif pertama yakni dengan menggunakan 2 cluster didapatkan hasil pengelompokan sebagai berikut. Tabel 4.3Jarak Pusat dengan 2 Cluster Variabel Cluster 1 2 Moral 31,84 1,39 Meninggalkan Kewajiban 1,80 68,74 Kawin Dibawah Umur 0,50 0,34 Penganiayaan 0,80 0,25 Dihukum 4,79 0,21 Cacat Biologis 0,50 0,21 Sering Berselisih 59,78 28,85 Berdasarkan Tabel 4.3, dapat diketahui jarak pusat yang dihasilkan sebelum dilakukan iterasi. Untuk cluster pertama, pada variabel (moral) didapatkan jarak pusatsebesar 31,84. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat sebesar 1,80. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,50. Pada variabel (penganiayaan didapatkan jarak pusatsebesar 0,80. Pada variabel (dihukum) didapatkan jarak pusatsebesar 4,79. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,50. Pada variabel (sering berselisish) didapatkan jarak pusatsebesar 59,78. Untuk cluster kedua, pada variabel (moral) didapatkan jarak pusatsebesar 1,39. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat 14

sebesar 68,74. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,34. Pada variabel (penganiayaan) didapatkan jarak pusatsebesar 0,25. Pada variabel (dihukum) didapatkan jarak pusatsebesar 0,21. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,21. Pada variabel (sering berselisish) didapatkan jarak pusatsebesar 28,85. Untuk mendeteksi berapa kali proses iterasi yang dilakukan dalam proses clustering dari 37 kasus yang diteliti pada 7 variabel di atas, dapat dilihat jumlah iterasi yang dihasilkan adalah sebagai berikut. Tabel 4.4 Jumlah Iterasi untuk 2 Cluster Iterasi Perubahan Jarak Pusat Cluster 1 2 1 30,158 23,995 2 1,898 0,753 3 1,623 0,624 4 1,365 0,657 5 1,273 0,667 6 0,000 0,000 Berdasarkan Tabel 4.4 di atas dapat menjelaskan bahwa proses clustering yang dilakukan pada data faktor perceraian di Provinsi Jawa Timur pada Tahun 2010 melalui 6 tahapan iterasi untuk mendapatkan cluster yang tepat. Iterasi pertama menghasilkan cluster pusat 1 sebesar 30,158 dan cluster pusat 2 adalah sebesar 223,995. Iterasi kedua menghasilkan cluster pusat 1 sebesar 1,898 dan cluster pusat 2 adalah sebesar 0,753. Iterasi ketiga menghasilkan cluster pusat 1 sebesar 1,623 dan cluster pusat 2 adalah sebesar 0,753. Iterasi keempat menghasilkan cluster pusat 1 sebesar 1,365 dan cluster pusat 2 adalah sebesar 0,657. Iterasi kelima menghasilkan cluster pusat 1 sebesar 1,273 dan cluster pusat 2 adalah sebesar 0,667. Sedangkan, pada iterasi keenam menghasilkan cluster pusat 1 sebesar 0,000 dan cluster pusat 2 adalah sebesar 0,000. 15

Hasil akhir dari proses clustering dengan menggunakan 2 clustersetelah dilakukan iterasi adalah sebagai berikut. Tabel 4.5Final Centersdengan 2 cluster Variabel Cluster 1 2 Moral 10,26 9,28 Meninggalkan Kewajiban 28,12 50,31 Kawin Dibawah Umur 0,49 0,62 Penganiayaan 1,06 1,29 Dihukum 0,97 0,45 Cacat Biologis 0,85 0,85 Sering Berselisih 58,25 37,20 Berdasarkan Tabel 4.5, dapat diketahui final jarak pusat clustering yang dihasilkan setelah dilakukan iterasi. Untuk cluster pertama, pada variabel (moral) didapatkan jarak pusatsebesar 10,26. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat sebesar 28,12. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,49. Pada variabel (penganiayaan didapatkan jarak pusatsebesar 1,06. Pada variabel (dihukum) didapatkan jarak pusatsebesar 0,97. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,85. Pada variabel (sering berselisish) didapatkan jarak pusatsebesar 58,25. Untuk cluster kedua, pada variabel (moral) didapatkan jarak pusatsebesar 9,28. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat sebesar 50,31. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,62. Pada variabel (penganiayaan) didapatkan jarak pusatsebesar 1,29. Pada variabel (dihukum) didapatkan jarak pusatsebesar 0,45. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,85. Pada variabel (sering berselisish) 16

didapatkan jarak pusatsebesar 37,20. Jarak antara jarak pusat final terdekat berdasarkan (Lampiran 3.) adalah sebesar 30,611. Berikut ini merupakan hasil pngelompokkan Kabupaten/Kota di Jawa Timur berdasarkan faktor penyebab perceraian pada tahun 2010. 17

Tabel 4.6 Hasil Pengelompokkan 2 cluster Cluster Anggota Total Cluster Bangil, Bangkalan, Kraksaan, Magetan, Malang (Kab), Malang 12 1 (Kota), Pamekasan, Pasuruan, Probolinggo, Sampang, Anggota Cluster 2 Situbondo, Surabaya Banyuwangi, Bawean, Blitar, Bojonegoro, Bondowoso, Gresik, Jember, Jombang, Kangean, Kediri (Kab), Kediri (Kota), Lamongan, Lumajang, Madiun (Kab), Madiun (Kota), Mojokerto, Nganjuk, Ngawi, Pacitan, Ponorogo, Sidoarjo, Sumenep, Trenggalek, Tuban, Tulungagung 25 Anggota Berdasarkan Taebl 4.6,dapat diketahui bahwa anggota cluster 1 adalah Bangil, Bangkalan, Kraksaan, Magetan, Malang (Kab), Malang (Kota), Pamekasan, Pasuruan, Probolinggo, Sampang, Situbondo, Surabaya. Sedangkan anggota cluster 2 adalah Banyuwangi, Bawean, Blitar, Bojonegoro, Bondowoso, Gresik, Jember, Jombang, Kangean, Kediri (Kab), Kediri (Kota), Lamongan, Lumajang, Madiun (Kab), Madiun (Kota), Mojokerto, Nganjuk, Ngawi, Pacitan, Ponorogo, Sidoarjo, Sumenep, Trenggalek, Tuban, Tulungagung. Analisis berikutnya merupakan analisis of variance (ANOVA) pada cluster 1 dan 2 yang bertujuan untuk mengetahui apakan variabel yang digunakan berkontribusi terhadap pembentukan cluster. Jika didapatkan p-value untuk masing-masing variabel kurang dari α=0,05 maka dapat dikatakan variabel tersebut signifikan atau berkontribusi terhadap pembentukan cluster. Hasil analisis keragaman pada 2 cluster adalah sebagai berikut. 18

Variabel Tabel 4.7Analisis Keragaman (ANOVA) dengan 2 Cluster Mean Square Cluster db Mean Square Error db F P-value Moral 7,831 1 36,274 35 0,216 0,645 Meninggalkan Kewajiban 3992,497 1 85,213 35 46,853 0,000 Kawin Dibawah Umur 0,139 1 0,349 35 0,400 0,531 Penganiayaan 0,443 1 0,979 35 0,452 0,506 Dihukum 2,128 1 0,569 35 30,738 0,061 Cacat Biologis 0,000 1 0,531 35 0,000 0,993 Sering Berselisih 3594,510 1 45,376 35 79,217 0,000 Berdasarkan Tabel 4.7, dapat diketahuiuntuk variabel (moral), (kawin dibawah umur), (penganiayaan), (dihukum), dan (cacat biologis) didapatkan p-value masing-masing sebesar 0,645; 0,531; 0,506; 0,061; 0,993 yang lebih besar dibandingkan α=0,05. Sehingga dapat disimpulkan variabel,,, dan tidak signifikan atau tidak berkontribusi terhadap pembentukan cluster. Sedangkan untuk variabel (meninggalkan kewajiban) dan (sering berselisih) menghasilkan p-value masing-masing sebesar 0,000 yang lebih kecil dibandingkan α=0,05. Sehingga dapat disimpulkan variabel dan signifikan atau berkontribusi terhadap pembentukan cluster. 19