ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

dokumen-dokumen yang mirip
Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

dengan Algoritma K Means

Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur

Lampiran 1 LAPORAN REALISASI DAU, PAD TAHUN 2010 DAN REALISASI BELANJA DAERAH TAHUN 2010 KABUPATEN/KOTA DI JAWA TIMUR (dalam Rp 000)

Pengelompokkan Kabupaten / Kota di Jawa Timur berdasarkan Faktor-Faktor penyebab Perceraian Tahun 2010

EVALUASI/FEEDBACK KOMDAT PRIORITAS, PROFIL KESEHATAN, & SPM BIDANG KESEHATAN

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 72 TAHUN 2012 TENTANG UPAH MINIMUM KABUPATEN / KOTA DI JAWA TIMUR TAHUN 2013

ANALISIS KELOMPOK METODE HIRARKI UNTUK PENGELOMPOKAN KOTA/KABUPATEN DI JAWA TIMUR BERDASARKAN INDIKATOR KETENAGAKERJAAN,,

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 68 TAHUN 2015 TENTANG UPAH MINIMUM KABUPATEN/KOTA DI JAWA TIMUR TAHUN 2016

PENGELOMPOKAN KABUPATEN / KOTA DI JAWA TIMUR BERDASARKAN FAKTOR-FAKTOR PENYEBAB PERCERAIAN TAHUN 2010

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 121 TAHUN 2016 TENTANG UPAH MINIMUM KABUPATEN/KOTA DI JAWA TIMUR TAHUN 2017

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 69 TAHUN 2009 TENTANG UPAH MINIMUM KABUPATEN / KOTA DI JAWA TIMUR TAHUN 2010

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 78 TAHUN 2013 TENTANG UPAH MINIMUM KABUPATEN/KOTA DI JAWA TIMUR TAHUN 2014

Jumlah Penduduk Jawa Timur dalam 7 (Tujuh) Tahun Terakhir Berdasarkan Data dari Dinas Kependudukan dan Pencatatan Sipil Kab./Kota

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 72 TAHUN 2014 TENTANG UPAH MINIMUM KABUPATEN/KOTA DI JAWA TIMUR TAHUN 2015

BAB IV HASIL DAN PEMBAHASAN

Grafik Skor Daya Saing Kabupaten/Kota di Jawa Timur

BAB II GAMBARAN UMUM INSTANSI. 2.1 Sejarah Singkat PT PLN (Persero) Distribusi Jawa Timur

Analisis Biplot pada Kabupaten/Kota di Provinsi Jawa Timur Berdasarkan Variabel-variabel Komponen Penyusun Indeks Pembangunan Manusia (IPM)

PENGELOMPOKKAN KABUPATEN/KOTA DI PROVINSI JAWA TIMUR BERDASARKAN INDIKATOR KEMISKINAN DENGAN METODE CLUSTER ANALYSIS

Universitas Negeri Malang Kata Kunci: cluster, single linkage, complete linkage, silhouette, pembangunan manusia.

BAB 3 METODE PENELITIAN. disajikan pada Gambar 3.1 dan koordinat kabupaten/kota Provinsi Jawa Timur disajikan

P E N U T U P P E N U T U P

ANALISIS KORESPONDENSI KABUPATEN/KOTA DI JAWA TIMUR BERDASARKAN PENYEBARAN PENYAKIT ISPA

BAB I PENDAHULUAN. A. Latar Belakang. Indonesia merupakan salah satu negara berkembang yang memiliki

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 72 TAHUN 2012 TENTANG UPAH MINIMUM KABUPATEN / KOTA DI JAWA TIMUR TAHUN 2013

INDEKS PEMBANGUNAN MANUSIA (IPM) KOTA PROBOLINGGO TAHUN 2016

PEMBANGUNAN PERPUSTAKAAN DESA/KELURAHAN DI JAWA TIMUR 22 MEI 2012

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 2 TAHUN 2014 TENTANG

DANA PERIMBANGAN. Lampiran 1. Data Dana Perimbangan

Analisis Pengelompokkan Berdasarkan Indikator Partisipasi Perempuan di Propinsi Jawa Timur

INDEKS PEMBANGUNAN MANUSIA (IPM) JAWA TIMUR TAHUN 2015

RINGKASAN PERMOHONAN PERKARA Registrasi Nomor 41/PHPU.D-VI/2008 Tentang Sengketa perselisihan hasil suara pilkada provinsi Jawa Timur

GUBERNUR JAWA TIMUR GUBERNUR JAWA TIMUR,

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 125 TAHUN 2008

Analisis Cluster Kabupaten/Kota Berdasarkan Pertumbuhan ekonomi Jawa Timur

Penerapan Hybrid Hierarchical Clustering Via Mutual Cluster dalam Pengelompokan Kabupaten di Jawa Timur Berdasarkan Variabel Sektor Pertanian

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

ANALISIS KELOMPOK DENGAN MENGGUNAKAN METODE HIERARKI UNTUK PENGELOMPOKAN KABUPATEN/KOTA DI JAWA TIMUR BERDASAR INDIKATOR KESEHATAN

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 5 TAHUN 2005 TENTANG

Pemodelan Angka Putus Sekolah Tingkat SLTP dan sederajat di Jawa Timur Tahun 2012 dengan Menggunakan Analisis Regresi Logistik Ordinal

BERITA RESMI STATISTIK BPS PROVINSI JAWA TIMUR

BAB 4 HASIL DAN PEMBAHASAN

KEPUTUSAN GUBERNUR JAWA TIMUR NOMOR 188/ 557 /KPTS/013/2016 TENTANG PENETAPAN KABUPATEN / KOTA SEHAT PROVINSI JAWA TIMUR TAHUN 2016

Pemetaan Kabupaten/Kota di Jawa Timur Menurut Jaminan Kesehatan dengan Metode Biplot

PEMERINTAH PROPINSI JAWA TIMUR PERATURAN DAERAH PROPINSI JAWA TIMUR NOMOR 2 TAHUN 2000 TENTANG

ANALISIS BIPLOT UNTUK PEMETAAN KARAKTERISTIK KEMISKINAN PADA KABUPATEN/KOTA DI JAWA TIMUR. Gangga Anuraga ABSTRAK

Muhammad Aqik Ardiansyah. Dra. Destri Susilaningrum, M.Si Januari Dr. Setiawan, MS

BAB IV GAMBARAN UMUM PROVINSI JAWA TIMUR. Provinsi Jawa Timur membentang antara BT BT dan

per km 2 LAMPIRAN 1 LUAS JUMLAH WILAYAH JUMLAH KABUPATEN/KOTA (km 2 )

BAB 4 ANALISA DAN PEMBAHASAN. faktor faktor yang mempengaruhi, model regresi global, model Geographically

SEMINAR TUGAS AKHIR 16 JANUARI Penyaji : I Dewa Ayu Made Istri Wulandari Pembimbing : Prof.Dr.Drs. I Nyoman Budiantara, M.

EVALUASI TEPRA KABUPATEN/KOTA PROVINSI JAWA TIMUR OKTOBER 2016

2. JUMLAH USAHA PERTANIAN

CLUSTER POTENSI SEKTOR PERIKANAN PADA PERAIRAN UMUM DI JAWA TIMUR TAHUN 2016

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 75 TAHUN 2015 TENTANG

PEMERINTAH PROPINSI JAWA TIMUR PERATURAN DAERAH PROPINSI JAWA TIMUR NOMOR 2 TAHUN 2000 TENTANG

BAB III METODE PENELITAN. Lokasi pada penelitian ini adalah Kabupaten/Kota Provinsi Jawa Timur.

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

Nomor : KT.304/ 689 /MJUD/XI/2014 Surabaya, 20 Nopember 2014 Lampiran : - Perihal : Awal Musim Hujan 2014/2015 Prov. Jawa Timur.

Kata kunci : Strategi T3, C-means, Fuzzy c-means

BAB IV GAMBARAN UMUM OBJEK PENELITIAN. sebuah provinsi yang dulu dilakukan di Indonesia atau dahulu disebut Hindia

BADAN PUSAT STATISTIK PROVINSI JAWA TIMUR

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel

Oleh : Nita Indah Mayasari Dosen Pembimbing : Dra. Ismaini Zain, M.Si

GUBERNUR JAWA TIMUR TIMUR

GUBERNUR JAWA TIMUR GUBERNUR JAWA TIMUR,

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

GUBERNUR JAWA TIMUR PERATURAN GUBERNUR JAWA TIMUR NOMOR 94 TAHUN 2016

INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA Seminar Hasil Tugas Akhir

Gambar 1. Analisa medan angin (streamlines) (Sumber :

SEMINAR HASIL TUGAS AKHIR. Presented by Rizky Amalia Yulianti Dosen Pembimbing : Dr. Vita Ratnasari, S.Si, M.Si

GUBERNUR JAWA TIMUR KEPUTUSAN GUBERNUR JAWA TIMUR NOMOR 188/359/KPTS/013/2015 TENTANG PELAKSANAAN REGIONAL SISTEM RUJUKAN PROVINSI JAWA TIMUR

VISITASI KE SEKOLAH/MADRASAH BADAN AKREDITASI NASIONAL SEKOLAH/MADRASAH

BAB II GAMBARAN UMUM INSTANSI. ditingkatkan saat beberapa perusahaan asal Belanda yang bergerak di bidang pabrik

BAB I PENDAHULUAN. masyarakat. Program dari kegiatan masing-masing Pemerintah daerah tentunya

EVALUASI PROGRAM KKBPK DATA MARET 2017 PERWAKILAN BADAN KEPENDUDUKAN DAN KELUARGA BERENCANA NASIONAL PROPINSI JAWA TIMUR,

JURUSAN STATISTIKA - FMIPA INSTITUT TEKNOLOGI SEPULUH NOPEMBER. Ayunanda Melliana Dosen Pembimbing : Dr. Dra. Ismaini Zain, M.

1.1. UMUM. Statistik BPKH Wilayah XI Jawa-Madura Tahun

BAB III METODE PENELITIAN. menggunakan metode statistik. Penelitian dengan pendekatan kuantitatif yang

BERITA RESMI STATISTIK

PENDAHULUAN 1. Latar Belakang

PERKIRAAN BIAYA (Rp) PENUNJUKAN LANGSUNG/ PEMBELIAN SECARA ELEKTRONIK PENGADAAN LANGSUNG

APLIKASI GENERALIZED VEHICLE ROUTING PROBLEM (GVRP) PADA MASALAH DISTRIBUSI

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

KABUPATEN / NO ORGANISASI PERANGKAT DAERAH ALAMAT KANTOR KOTA. Dinas PMD Kab. Trenggalek

BAB II GAMBARAN UMUM INSTANSI

Gambar 3.16 Layer Jalan Kali Jatim Gambar 3.17 Atribut Tabel Jalan Kali Gambar 3.18 Layer layanan TV Gambar 3.

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. mengurus dan mengatur keuangan daerahnya masing-masing. Hal ini sesuai


Lampiran 1. Tabel Durbin-Watson LAMPIRAN

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

UPAH MINIMUM KABUPATENIKOTA DI JA WA TlMUR TAHUN 2004

GUBERNUR JAWA TIMUR DENGAN RAHMAT TUHAN YANG MAHA ESA GUBERNUR JAWA TIMUR,

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

Pemodelan Angka Putus Sekolah Usia SMA di Jawa Timur dengan Pendekatan Regresi Spline Multivariabel

TABEL II.A.1. LUAS LAHAN KRITIS DI LUAR KAWASAN HUTAN JAWA TIMUR TAHUN

BAB III METODOLOGI PENELITIAN

Transkripsi:

ANALISIS MULTIVARIAT ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS) Oleh : Rizka Fauzia 1311 100 126 Dosen Pengampu: Santi Wulan Purnami S.Si., M.Si. PROGRAM STUDI SARJANA JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2014 1

1. CLUSTERING Pendahuluan Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan(kemiripan).clustering beda dengan group, kalau group berarti kelompok yang sama,kondisinya kalau tidak ya pasti bukan kelompoknya.tetapi kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean.aplikasinya cluster ini sangat banyak, karena hamper dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja. Manfaat Identifikasi obyek (Recognition) : Dalam bidang mage Processing, Computer Vision atau robot vision Decission Support System dan data mining Segmentasi pasar, pemetaan wilayah, Manajemen marketing dll. Prinsip dasar : Similarity Measures (ukuran kedekatan) Distances dan Similarity Coeficients untuk beberapa sepasang dari item Ecluidean Distance: d 2 2 2 ( x, y) ( x1 y1) ( x2 y2)... ( x p y p ) Atau : 2 d( x, y) x i yi p i 1 1 / 2 2

2. TINJAUAN PUSTAKA 2.1 Analisis Kelompok (Cluster Analisis) Analisis kelompok (Cluster analiysis) merupakan sebuah metode analisis untuk mengelompokan objek-objek pengamatan menjadi beberapa kelompok sehingga akan diperoleh kelompok dimana objek-objek dalam satu kelompok mempunyai banyak persamaan sedangkan dengan anggota kelompok yang lain mempunyai banyak perbedaan (Johnson dan Wichern, 2007). Prosedur pengelompokan pada dasarnya ada dua, yaitu pengelompokan dengan prosedur hierarki dan tak berhierarki. Pada penelitian ini metode yang dipakai adalah prosedur hierarki karena jumlah kelompok yang akan dibentuk belum ditentukan. 2.2 Analisis Cluster Hierarki Pada metode ini terdapat n objek dan k kelompok, tetapi kelompok yang akan terbentuk tidak ditentukan terlebih dahulu. Pembentukan kelompok dilakukan dengan pemotongan dendogram yang dihasilkan dari analisis. Dalam pembentukan kelompok ditentukan jarak antara dua objek yang nantinya digabungkan menjadi satu.single Linkage Method, Complete Linkage Method, Average Linkage Method, dan Ward`s Method merupakan merupakan metode hirarki, bagian dari metode agglomerative yang memiliki ukuran kemiripan yang berbeda saat pengklasteran. Single Linkage Method pengelompokannya didasarkan pada jarak terdekat antar cluster, Complete Linkage Method pengelompokannya didasarkan pada jarak terjauh antar cluster, Average Linkage Method pengelompokannya didasarkan pada jarak rata-rata antar cluster, sedangkan Ward`s Method pengklasteran didasarkan pada error sum of square (ESS) yang minimum (Johnson dan Wichern, 2007). Beberapa macam jarak yang biasa dipakai di dalam analisis cluster adalah sebagai berikut. 3

Tabel 2.1 Macam-Macam Jarak yang Digunakan No. Jarak Formula 1. Euclidean 2. Manhattan 3. Pearson 2.3 Analisis Cluster Nonhirarki Metode cluster nonhirarki diawali dengan proses penentuan jumlah cluster terlebih dahulu. Secara umum metode ini meminimumkan fungsi objektif atau kriteria optimal sehingga dapat mengatasi masalah optimasi untuk memenuhi kriteria optimal. Berdasarkan karakteristik datanya metode non-hirarki dibagi menjadi beberapa model, yaitu partitioning clustering, overlapping clustering dan model hybrid. Partitioning clustering merupakan metode rekontruktif yang berusaha meminimumkan fungsi objektif. Contoh dari partitioning clustering antara lain algoritma K-Means clustering dan Analisis Residual. Overlappingclustering biasanya digunakan ketika sejumlah data mengalami tumpang tindih (overlap) sehingga setiap data termasuk ke dalam beberapa cluster. Contoh dari overlapping clustering antara lain Fuzzy C-Means, Fuzzy Substractiveclustering dan Gaussian Mixture Model. Sedangkan model hybrid yaitu suatu metode clustering dimana metode tersebut menggabungkan karakteristik dari partitioning, overlapping, dan hirarki. (Johnson dan Wichern, 2007) 4

3. METODE K-MEANS Metode K-Means pertama diperkenalkan oleh James B MacQueen pada tahun 1967 dalam proceeding of the 5 th berkeley symposium on Mathematical Statistic and Probability. Dasar pengelompokkan dalam metode ini adalah menempatkan objek berdasarkan rata-rata cluster terdekat. Oleh karena itu, metode ini bertujuan untuk meminimumkan error akibat partisi n objek ke dalam k cluster. Error partisi disebut sebagai fungsi objektif. Misalkan X = {X i }, i = 1,2,...,n merupakan titik-titik dalam ruang berdimensi n (R n ) dan titik tersebut dikelompokkan ke dalam i cluster, C i, i = 1,2,..., k. Misalkan c i centroid dari cluster c i sehingga jumlah kuadrat antara c i dan titik di dalam cluster yaitu x i, didefinisikan sebagai berikut. 2 J ( ck ) xi ci ( ci xi ) (2.4) Prinsip dasar metode K-Means adalah meminimumkan jumlah kuadrat error dari seluruh i cluster adalah sebagai berikut. SSE k i 1 xi ci 2 ( ci xi) (2.5) (Hair dkk, 2010) 2.3.1 Komponen K-Means Algoritma K-Means memerlukan 3 komponen adalah sebagai berikut (Hair dkk, 2010). 1. Jumlah Cluster K K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah K harus ditentukan terlebih dahulu. Jumlah cluster dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah cluster K, terkadang jumlah cluster yang diinginkan tergantung pada subjektif seseorang. 2. Cluster Awal Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal (centroid awal). Oleh karena adanya pemilihan cluster awal yang berbeda ini maka kemungkinan besar solusi cluster yang dihasil akan berbeda pula. 5

3. Ukuran Jarak Dalam hal ini, ukuran jarak digunakan untuk menentukan observasi ke dalam cluster berdasarkan centroid terdekat. Ukuran jarak yang digunakan dalam metode K- Means adalah jarak Euclidean. 2.3.2 Algoritma K-Means Adapun algoritma K-Means dalam pembentukan cluster sebagai berikut. 1. Matriks data X = {x ij } berukuran nxp dengan i = 1,2,...,n, j = 1,2,...,p dan asumsikan jumlah cluster awal K 2. Tentukan pusat cluster 3. Menghitung jarak setiap objek ke setiap centroid dengan menggunakan jarak Euclidean atau dapat ditulis sebagai berikut. start Banyaknya cluster K Tentukan pusat Hitung jarak obyek ke pusat Kelompokkan obyek berdasar jarak minimum Ada obyek yang harus dipindah? ya tidak end Gambar 1. Flowchart algoritma K-Means d 2 ( xi, ci ) ( xi ci ) (2.6) 4. Setiap objek disusun ke centroid terdekat dan kumpulan objek tersebut akan membentuk cluster. 6

5. Menentukan centroid baru dari cluster yang baru terbentuk, dimana centroid baru itu diperoleh dari rata-rata setiap objek yang terlatak pada cluster yang sama. 6. Mengulang langkah 3, jika centroid awal dan baru tidak sama. (Hair dkk, 2010) Gambar 1 berikut menunjukkan diagram alir dari algoritma K-Means. 7

4. CONTOH PENGHITUNGAN DENGAN METODE K-MEANS Tabel 4.1 Daftar obyek yang akan diolah dalam clustering Obyek atribut1 (X): indeks atribut 2 (Y): ph berat Obat A 1 1 Obat B 2 1 Obat C 4 3 Obat D 5 4 2. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarak Euclid. Misalnya jarak obyek pupuk C=(4,3) ke centroid pertama adalah dan jaraknya dengan centroid kedua adalah. Hasil perhitungan jarak ini disimpan dalam bentuk matriks k x n, dengan k banyaknya cluster dan n banyak obyek. Setiap kolom dalam matriks tersebut menunjukkan obyek sedangkan baris pertama menunjukkan jarak ke centroid pertama, baris kedua menunjukkan jarak ke centroid kedua. Matriks jarak setelah iterasi ke-0 adalah sebagai berikut: 3. Clustering obyek : Memasukkan setiap obyek ke dalam cluster (grup) berdasarkan jarak minimumnya. Jadi obat A dimasukkan ke grup 1, dan obat B, C dan D dimasukkan ke grup 2. Keanggotaan obyek ke dalam grup dinyatakan dengan matrik, elemen dari matriks bernilai 1 jika sebuah obyek menjadi anggota grup. 8

4. Iterasi-1, menetukan centroid : Berdasarkan anggota masing-masing grup, selanjutnya ditentukan centroid baru. Grup 1 hanya berisi 1 obyek, sehingga centroidnya tetap. Grup 2 mempunyai 3 anggota, sehingga centroidnya ditentukan berdasarkan rata-rata koordinat ketiga anggota tersebut:. 5. Iterasi-1, menghitung jarak obyek ke centroid: selanjutnya, jarak antara centroid baru dengan seluruh obyek dalam grup dihitung kembali sehingga diperoleh matriks jarak sebagai berikut: 6. Iterasi-1, clustering obyek: langkah ke-3 diulang kembali, menentukan keanggotaan grup berdasarkan jaraknya. Berdasarkan matriks jarak yang baru, maka obat B harus dipindah ke grup 2. 7. Iterasi-2, menentukan centroid: langkah ke-4 diulang kembali untuk menentukan centroid baru berdasarkan keanggotaan grup yang baru. Grup 1 dan grup 2 masingmasing mempunyai 2 anggota, sehingga centroidnya menjadi dan 8. Iterasi-2, menghitung jarak obyek ke centroid : ulangi langkah ke-2, sehingga diperoleh matriks jarak sebagai berikut: 9

9. Iterasi-2, clustering obyek: mengelompokkan tiap-tiap obyek berdasarkan jarak minimumnya, diperoleh: Hasil pengelompokkan pada iterasi terakhir dibandingkan dengan hasil sebelumnya, diperoleh. Hasil ini menunjukkan bahwa tidak ada lagi obyek yang berpindah grup, dan algoritma telah stabil. Hasil akhir clustering ditunjukkan dalam Tabel 2. Tabel 4.2 Hasil clustering Obyek atribut1 (X): indeks atribut 2 (Y): ph Grup hasil berat Obat A 1 1 1 Obat B 2 1 1 Obat C 4 3 2 Obat D 5 4 2 Kelebihan dan Kelemahan algoritma K-means Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dengan catatan n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Biasanya, nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal. Hal yang dianggap sebagai kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai 10

penyimpangan-penyimpangan (noisy data dan outlier). Beberapa kelemahan algoritma K-means adalah: (1) sangat bergantung pada pemilihan nilai awal centroid, (2) tidak jelas berapa banyak cluster k yang terbaik, (3) hanya bekerja pada atribut numerik. Similarity dan Dissimilarity Memperhatikan input dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif. Algoritma K-means hanya dapat mengolah atribut numerik. Sebuah basis data, tidak mungkin hanya berisi satu macam type data saja, akan tetapi beragam type. Sebuah basis data dapat berisi data-data dengan type sebagai berikut: symmetric binary, asymmetric binary, nominal, ordinal, interval dan ratio. Berbagai macam atribut dalam basis data yang berbeda type harus diolah terlebih dahulu menjadi data numerik, sehingga dapat diberlakukan algoritma K-means dalam pembentukan clusternya. Pengukuran similarity dan dissimilarity dapat digunakan untuk pengolahan data tersebut Atribut yang berbeda tipe sama artinya dengan adanya ketidaksamaan (dissimilarity) antar atribut tersebut. Ketidaksamaan (dissimilarity) antara dua obyek dapat diukur dengan menghitung jarak antar obyek berdasarkan beberapa sifatnya. Hubungan dissimilarity antara 2 buah data obyek a=(a1,a2,,ap) dan b=(b1,b2,.,bp) dapat dinyatakan dengan pengukuran jarak antara 2 obyek tersebut. Beberapa sifat jarak (dissimilarity) adalah sebagai berikut d(a, b) 0, jarak kedua obyek selalu positif atau nol, d(a, a) = 0, jarak terhadap diri sendiri adalah nol, d(a, b) = d(b, a), jarak kedua obyek adalah simetri, d(a, b) d(a, c) + d(c, b), jarak memenuhi ketidaksamaan segitiga. Misalkan dissimilarity antara obyek i dan obyek j dinyatakan dengan d ij dan similarity dinyatakan dengan s ij. Hubungan antara relationship dissimilarity dengan similarity dinyatakan dengan s ij.=1- d ij, dengan similarity terbatas pada 0 dan 1 ([5]). Jika similarity bernilai satu (benar-benar sama), maka dissimilarity nol, dan jika similarity bernilai nol (sangat berbeda), dissimilarity bernilai satu. Setelah perhitungan jarak atau 11

dissimilarity dari setiap variabel, maka seluruh hasil dikumpulkan menjadi sebuah indeks similarity (atau dissimilarity) antara dua obyek ([5]). Selanjutnya hasil tersebut dapat diolah menjadi obyek-obyek yang akan dikelompokkan dalam cluster-cluster oleh algoritma K-means. 12

ANALISIS CLUSTER NON-HIERARKI K-MEANS CLUSTERING STUDI KASUS FAKTOR PERCERAIAN DI KABUPATEN/KOTA DI JAWA TIMUR DENGAN BANTUAN SPSS Variabel penelitian yang digunakan dalam praktikum ini dengan menggunakan data pengelompokan kabupaten / kota di jawa timur berdasarkan faktor-faktor penyebab perceraian tahun 2010 adalah sebagai berikut. Variabel X 1 (Moral) X 2 (Meninggalkan Kewajiban) X 3 (Kawin Dibawah Umur) X 4 (Penganiayaan) X 5 (Dihukum) X 6 (Cacat Biologis) X 7 (Sering Berselisih) Variabel Penelitian untuk Metode Analisis Cluster Penjelasan Persentase penyebab utama perceraian karena moral per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena poligami tidak sehat, krisis akhlak, dan cemburu terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena meninggalkan kewajiban per kabupaten/kota. Variabel ini diukur ber-dasarkan rasio jumlah perceraian karena kawin paksa, ekonomi, dan tidak tanggung jawab terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena kawin di bawah umur per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena kawin dibawah umur terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena penganiayaan per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena kekejaman mental dan kekejaman fisik terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena dihukum per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena dihukum terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena cacat biologis per kabupaten/kota. Variabel ini diukur berdasarkan rasio jumlah perceraian karena cacat biologis terhadap total perceraian pada kabupaten/kota. Persentase penyebab utama perceraian karena terus menerus berselisih per kabupaten/kota. Variabel ini diukur ber-dasarkan rasio jumlah perceraian karena politis, gangguan pihak ketiga, tidak ada keharmonisan terhadap total per-ceraian pada kabupaten/kota. 13

Karena jumlah data Kabupaten/Kota di Jawa Timur berdasarkan faktor perceraian banyak maka, berdasarkan teori akan lebih efisien jika menggunakan analisis cluster nonhierarki dengan metode K-Means. Hasil analisis yang diperoleh adalah sebagai berikut. 4.1 Pengelompokan Kabupaten/Kota dengan Menggunakan 2 cluster Dengam menggunakan analisis cluster non-herarki dapat ditemtukan jumalh cluster yang akan digunakan. Alternatif pertama yakni dengan menggunakan 2 cluster didapatkan hasil pengelompokan sebagai berikut. Tabel 4.3Jarak Pusat dengan 2 Cluster Variabel Cluster 1 2 Moral 31,84 1,39 Meninggalkan Kewajiban 1,80 68,74 Kawin Dibawah Umur 0,50 0,34 Penganiayaan 0,80 0,25 Dihukum 4,79 0,21 Cacat Biologis 0,50 0,21 Sering Berselisih 59,78 28,85 Berdasarkan Tabel 4.3, dapat diketahui jarak pusat yang dihasilkan sebelum dilakukan iterasi. Untuk cluster pertama, pada variabel (moral) didapatkan jarak pusatsebesar 31,84. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat sebesar 1,80. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,50. Pada variabel (penganiayaan didapatkan jarak pusatsebesar 0,80. Pada variabel (dihukum) didapatkan jarak pusatsebesar 4,79. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,50. Pada variabel (sering berselisish) didapatkan jarak pusatsebesar 59,78. Untuk cluster kedua, pada variabel (moral) didapatkan jarak pusatsebesar 1,39. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat 14

sebesar 68,74. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,34. Pada variabel (penganiayaan) didapatkan jarak pusatsebesar 0,25. Pada variabel (dihukum) didapatkan jarak pusatsebesar 0,21. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,21. Pada variabel (sering berselisish) didapatkan jarak pusatsebesar 28,85. Untuk mendeteksi berapa kali proses iterasi yang dilakukan dalam proses clustering dari 37 kasus yang diteliti pada 7 variabel di atas, dapat dilihat jumlah iterasi yang dihasilkan adalah sebagai berikut. Tabel 4.4 Jumlah Iterasi untuk 2 Cluster Iterasi Perubahan Jarak Pusat Cluster 1 2 1 30,158 23,995 2 1,898 0,753 3 1,623 0,624 4 1,365 0,657 5 1,273 0,667 6 0,000 0,000 Berdasarkan Tabel 4.4 di atas dapat menjelaskan bahwa proses clustering yang dilakukan pada data faktor perceraian di Provinsi Jawa Timur pada Tahun 2010 melalui 6 tahapan iterasi untuk mendapatkan cluster yang tepat. Iterasi pertama menghasilkan cluster pusat 1 sebesar 30,158 dan cluster pusat 2 adalah sebesar 223,995. Iterasi kedua menghasilkan cluster pusat 1 sebesar 1,898 dan cluster pusat 2 adalah sebesar 0,753. Iterasi ketiga menghasilkan cluster pusat 1 sebesar 1,623 dan cluster pusat 2 adalah sebesar 0,753. Iterasi keempat menghasilkan cluster pusat 1 sebesar 1,365 dan cluster pusat 2 adalah sebesar 0,657. Iterasi kelima menghasilkan cluster pusat 1 sebesar 1,273 dan cluster pusat 2 adalah sebesar 0,667. Sedangkan, pada iterasi keenam menghasilkan cluster pusat 1 sebesar 0,000 dan cluster pusat 2 adalah sebesar 0,000. 15

Hasil akhir dari proses clustering dengan menggunakan 2 clustersetelah dilakukan iterasi adalah sebagai berikut. Tabel 4.5Final Centersdengan 2 cluster Variabel Cluster 1 2 Moral 10,26 9,28 Meninggalkan Kewajiban 28,12 50,31 Kawin Dibawah Umur 0,49 0,62 Penganiayaan 1,06 1,29 Dihukum 0,97 0,45 Cacat Biologis 0,85 0,85 Sering Berselisih 58,25 37,20 Berdasarkan Tabel 4.5, dapat diketahui final jarak pusat clustering yang dihasilkan setelah dilakukan iterasi. Untuk cluster pertama, pada variabel (moral) didapatkan jarak pusatsebesar 10,26. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat sebesar 28,12. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,49. Pada variabel (penganiayaan didapatkan jarak pusatsebesar 1,06. Pada variabel (dihukum) didapatkan jarak pusatsebesar 0,97. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,85. Pada variabel (sering berselisish) didapatkan jarak pusatsebesar 58,25. Untuk cluster kedua, pada variabel (moral) didapatkan jarak pusatsebesar 9,28. Untuk variabel meninggalkan kewajiban) didaptakan jarak pusat sebesar 50,31. Pada variabel (kawin dibawah umur) didapatkan jarak pusatsebesar 0,62. Pada variabel (penganiayaan) didapatkan jarak pusatsebesar 1,29. Pada variabel (dihukum) didapatkan jarak pusatsebesar 0,45. Pada variabel (cacat biologis) didapatkan jarak pusatsebesar 0,85. Pada variabel (sering berselisish) 16

didapatkan jarak pusatsebesar 37,20. Jarak antara jarak pusat final terdekat berdasarkan (Lampiran 3.) adalah sebesar 30,611. Berikut ini merupakan hasil pngelompokkan Kabupaten/Kota di Jawa Timur berdasarkan faktor penyebab perceraian pada tahun 2010. 17

Tabel 4.6 Hasil Pengelompokkan 2 cluster Cluster Anggota Total Cluster Bangil, Bangkalan, Kraksaan, Magetan, Malang (Kab), Malang 12 1 (Kota), Pamekasan, Pasuruan, Probolinggo, Sampang, Anggota Cluster 2 Situbondo, Surabaya Banyuwangi, Bawean, Blitar, Bojonegoro, Bondowoso, Gresik, Jember, Jombang, Kangean, Kediri (Kab), Kediri (Kota), Lamongan, Lumajang, Madiun (Kab), Madiun (Kota), Mojokerto, Nganjuk, Ngawi, Pacitan, Ponorogo, Sidoarjo, Sumenep, Trenggalek, Tuban, Tulungagung 25 Anggota Berdasarkan Taebl 4.6,dapat diketahui bahwa anggota cluster 1 adalah Bangil, Bangkalan, Kraksaan, Magetan, Malang (Kab), Malang (Kota), Pamekasan, Pasuruan, Probolinggo, Sampang, Situbondo, Surabaya. Sedangkan anggota cluster 2 adalah Banyuwangi, Bawean, Blitar, Bojonegoro, Bondowoso, Gresik, Jember, Jombang, Kangean, Kediri (Kab), Kediri (Kota), Lamongan, Lumajang, Madiun (Kab), Madiun (Kota), Mojokerto, Nganjuk, Ngawi, Pacitan, Ponorogo, Sidoarjo, Sumenep, Trenggalek, Tuban, Tulungagung. Analisis berikutnya merupakan analisis of variance (ANOVA) pada cluster 1 dan 2 yang bertujuan untuk mengetahui apakan variabel yang digunakan berkontribusi terhadap pembentukan cluster. Jika didapatkan p-value untuk masing-masing variabel kurang dari α=0,05 maka dapat dikatakan variabel tersebut signifikan atau berkontribusi terhadap pembentukan cluster. Hasil analisis keragaman pada 2 cluster adalah sebagai berikut. 18

Variabel Tabel 4.7Analisis Keragaman (ANOVA) dengan 2 Cluster Mean Square Cluster db Mean Square Error db F P-value Moral 7,831 1 36,274 35 0,216 0,645 Meninggalkan Kewajiban 3992,497 1 85,213 35 46,853 0,000 Kawin Dibawah Umur 0,139 1 0,349 35 0,400 0,531 Penganiayaan 0,443 1 0,979 35 0,452 0,506 Dihukum 2,128 1 0,569 35 30,738 0,061 Cacat Biologis 0,000 1 0,531 35 0,000 0,993 Sering Berselisih 3594,510 1 45,376 35 79,217 0,000 Berdasarkan Tabel 4.7, dapat diketahuiuntuk variabel (moral), (kawin dibawah umur), (penganiayaan), (dihukum), dan (cacat biologis) didapatkan p-value masing-masing sebesar 0,645; 0,531; 0,506; 0,061; 0,993 yang lebih besar dibandingkan α=0,05. Sehingga dapat disimpulkan variabel,,, dan tidak signifikan atau tidak berkontribusi terhadap pembentukan cluster. Sedangkan untuk variabel (meninggalkan kewajiban) dan (sering berselisih) menghasilkan p-value masing-masing sebesar 0,000 yang lebih kecil dibandingkan α=0,05. Sehingga dapat disimpulkan variabel dan signifikan atau berkontribusi terhadap pembentukan cluster. 19