BAB III K-MEDIANS CLUSTERING

dokumen-dokumen yang mirip
BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB 2 LANDASAN TEORI

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

DAFTAR ISI. ABSTRAK... i. KATA PENGANTAR... ii. UCAPAN TERIMA KASIH... iii. DAFTAR ISI... vi. DAFTAR TABEL... x. DAFTAR GAMBAR...

BAB IV METODE PENELITIAN

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

DATA MINING DAN WAREHOUSE A N D R I

InfinityJurnal Ilmiah Program Studi Matematika STKIP Siliwangi Bandung, Vol 3, No.2, September 2014

PENERAPAN ALGORITMA K-MEANS UNTUK MENETAPKAN KELOMPOK MUTU KARET

ANALISIS GEROMBOL CLUSTER ANALYSIS

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Ruang lingkup analisis multivariat adalah terdiri dari analisis statistika

ARTIKEL PENILAIAN PRESTASI KERJA PEGAWAI NEGERI SIPIL

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

BAB III PEREDUKSIAN RUANG INDIVIDU DENGAN ANALISIS KOMPONEN UTAMA. Analisis komponen utama adalah metode statistika multivariat yang

BAB III DIVISIVE ANALISIS. Pada bab ini akan dipaparkan bagaimana konsep dari divisive analisis serta

Anisa Bella Fathia, Dewi Rachmatin, Jarnawi Afgani Dahlan, Departemen Pendidikan Matematika FPMIPA Universitas Pendidikan Indonesia

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB I PENDAHULUAN 1.1. Latar Belakang

Partitional clustering KLASTERING DENGAN METODE K-MEANS

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

ANALISIS KARAKTERISTIK POLA BELANJA KELUARGA DENGAN ANALISIS KLASTER

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN

PENGELOMPOKAN BIMBINGAN BELAJAR MENGGUNAKAN METODE CLUSTERING DI SMA NEGERI 1 CILAKU KABUPATEN CIANJUR

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

ANALISIS CLUSTER PADA DOKUMEN TEKS

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION

Pengenalan Pola. K-Means Clustering

KLASTERISASI KOMPETENSI GURU MENGGUNAKAN HASIL PENILAIAN PORTOFOLIO SERTIFIKASI GURU DENGAN METODE DATA MINING

BAB II LANDASAN TEORI

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

SEGMENTASI CITRA. thresholding

Tabel 6 Daftar peubah karakteristik

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Klasterisasi Wilayah Pemasaran berdasarkan Preferensi Konsumen terhadap PT. X

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

DAFTAR ISI... HALAMAN JUDUL... HALAMAN PENGESAHAN... HALAMAN PERNYATAAN... HALAMAN PERSEMBAHAN... PRAKATA... DAFTAR LAMBANG... DAFTAR GAMBAR...

PENGELOMPOKAN TINGKAT KELULUSAN MAHASISWA MENGGUNAKAN ALGORITMA K-MEANS

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

BAB 2 LANDASAN TEORI

BAB III PEMBAHASAN. survei yang dilakukan BPS pada 31 Oktober Langkah selanjutnya yang

PERBANDINGAN HASIL PENGGEROMBOLAN K-MEANS, FUZZY K- MEANS, DAN TWO STEP CLUSTERING. Lathifaturrahmah

BAB II TINJAUAN PUSTAKA

dengan Algoritma K Means

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN. Jenis penelitian yang digunakan dalam menyusun skripsi ini menggunakan

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

IMPLEMENTASI DATA MINING UNTUK PENGELOMPOKKAN DATA SISWA MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (STUDI KASUS : SMKN 1 KEDIRI) SKRIPSI

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

BAB II TINJAUAN PUSTAKA. Dalam bab ini akan dipaparkan beberapa teori pendukung yang digunakan dalam

SISTEM PEMBAGIAN KELOMPOK BIMBINGAN BELAJAR DENGAN METODE K-MEANS CLUSTERING

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

Bab 7 Analisa Kinerja Multi Parameter dengan Teknik Karakterisasi Beban kerja (Workload)

TINJAUAN PUSTAKA. Dalam proses pengumpulan data, peneliti sering menemukan nilai pengamatan

PENGELOMPOKAN PROVINSI DI INDONESIA BERDASARKAN PERSENTASE RUMAH TANGGA MENURUT KUALITAS FISIK AIR MINUM DENGAN MENGGUNAKAN K-MEANS CLUSTER

Analisis Cluster terhadap Tingkat Pencemaran Udara pada Sektor Industri di Sumatera Selatan

Penerapan Metode Clustering Dengan K-Means Untuk Memetakan Potensi Tanaman Padi Di Kota Semarang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

BAB I PENDAHULUAN Latar Belakang

BAB V PENUTUP. Menggunakan Metode Fuzzy C-Means Clustering, dapat diambil kesimpulan

BAB I PENDAHULUAN 1.1. Latar Belakang

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

PROSIDING ISSN: M-14 ANALISIS K-MEANS CLUSTER UNTUK PENGELOMPOKAN KABUPATEN /KOTA DI JAWABARAT BERDASARKAN INDIKATOR MASYARAKAT

ANALISIS KELOMPOK METODE HIRARKI UNTUK PENGELOMPOKAN KOTA/KABUPATEN DI JAWA TIMUR BERDASARKAN INDIKATOR KETENAGAKERJAAN,,

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

BAB II LANDASAN TEORI

BAB V KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN... 99

BAB II TINJAUAN PUSTAKA

khazanah informatika 1 Program studi Informatika Universitas Muhammadiyah Surakarta Surakarta 1.

Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur

BAB III METODE PENELITIAN O X 1 O O X 2 O

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku

BAB III METODOLOGI PENELITIAN. Metode yang digunakan dalam penelitian ini adalah metode eksperimen.

BAB II TINJAUAN PUSTAKA. dasarnya analisis gerombol akan menghasilkan sejumlah gerombol (kelompok).

STK511 Analisis Statistika. Pertemuan 13 Peubah Ganda

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

Clustering. Virginia Postrel

BAB III METODE PENELITIAN. pendekatan kuantitatif dengan metode komparasi. Kata komparasi dalam

Persentase guru SD adalah perbandingan antara jumlah

BAB III METODE PENELITIAN. kuantitatif dengan metode eksperimen semu (quasi eksperimen). Penelitian

PENGELOMPOKAN TINGKAT KEAMANAN WILAYAH JAWA TENGAH BERDASARKAN INDEKS KEJAHATAN DAN JUMLAH POS KEAMANAN DENGAN METODE KLASTERING K-MEANS

Jl. Raya Dukuhwaluh Purwokerto )

Transkripsi:

BAB III 3.1 ANALISIS KLASTER Analisis klaster merupakan salah satu teknik multivariat metode interdependensi (saling ketergantungan). Metode interdependensi berfungsi untuk memberikan makna terhadap seperangkat variabel atau membuat kelompokkelompok secara bersama-sama. Oleh karena itu, dalam analisis klaster tidak ada perbedaan antara variabel bebas dan variabel terikat. Menurut Sharma (Nuningsih, 2010:20), analisis klaster adalah teknik yang digunakan untuk menggabungkan observasi ke dalam kelompok atau klaster, sedemikian sehingga: 1. Setiap kelompok atau klaster homogen mempunyai karakteristik tertentu. Hal ini berarti bahwa observasi dalam setiap kelompok sama dengan observasi lain dalam satu kelompok yang sama; 2. Setiap kelompok seharusnya berbeda dari kelompok lain dengan karakteristik yang sama. Hal ini berarti bahwa observasi dalam kelompok yang satu seharusnya berbeda dari observasi dalam kelompok lain. Analisis klaster mengelompokkan objek ke dalam klaster dengan mencari kemiripan antar kumpulan data yang didasarkan pada beberapa ukuran jarak. Tujuannya adalah untuk menemukan pengelompokan yang optimal. Objek-objek yang memiliki kesamaan paling dekat akan mengelompok ke dalam satu klaster yang sama, di mana antara satu klaster dengan klaster yang lainnya memiliki heterogenitas yang tinggi (Rencher, 2002:451). 15

16 Dalam analisis klaster, pengelompokan dilakukan hanya berdasarkan informasi yang ada dalam data, sehingga data yang diolah harus menggambarkan karakteristik objek serta hubungannya. Pembentukan klaster didasarkan pada kuat atau tidaknya hubungan antar variabel. Suatu objek yang dimasukkan ke dalam suatu kelompok akan lebih berkorelasi dengan objek lain di dalam kelompoknya dibandingkan dengan objek lain yang berbeda kelompok. Oleh karena itu, semakin besar kesamaan objek dalam kelompok dan semakin besar perbedaan antar kelompok, maka klastering akan semakin baik (Tan et al, 2006:490). 3.2 METODE PENGELOMPOKAN Metode pengelompokan objek ke dalam klaster sangat beragam. Secara umum, terdapat dua metode pengelompokan dalam analisis klaster, yaitu metode hirarki (Hierarchical Clustering Method) dan metode non-hirarki (Nonhierarchical Clustering Method). Metode hirarki digunakan apabila belum ada jumlah klaster yang dipilih. Sedangkan metode non-hirarki digunakan untuk mengelompokkan n objek ke dalam k klaster, di mana k < n dan nilai k sudah ditentukan sebelumnya. 3.2.1 METODE HIRARKI Metode hirarki merupakan metode yang menyangkut dengan pembentukan struktur hirarki, struktur ini disebut juga diagram pohon atau dendogram. Metode ini menggunakan matriks jarak pada setiap tahapannya.

Nomor Observasi 17 Pada dasarnya, terdapat dua jenis prosedur pengklasteran hirarki, yaitu : 1. Metode Aglomeratif Masing-masing objek dalam metode aglomeratif pada awalnya dipandang sebagai klaster yang berbeda. Selanjutnya setiap dua klaster yang memiliki jarak paling kecil digabungkan ke dalam klaster yang baru. Proses ini berlanjut sampai semua objek terhimpun dalam satu klaster yang sama dan membentuk diagram pohon. Hal ini dapat digambarkan dalam diagram berikut. 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Tahapan ke- Gambar 3.1 Dendogram 2. Metode Divisif Metode divisif merupakan suatu proses pengklasteran yang arahnya kebalikan dari metode aglomeratif. Pada setiap tahapan dari metode ini, objek-objek yang paling tidak mirip akan dipisahkan dan ditempatkan pada klaster yang lebih kecil. Proses ini dilanjutkan sampai masing-masing objek akan membentuk klaster sendiri. Jika dilihat pada gambar 3.1, metode aglomeratif akan bergerak dari sisi kiri ke kanan, sedangkan dalam metode divisif bergerak dari kanan ke kiri.

18 3.2.2 METODE NON-HIRARKI Berbeda dengan metode hirarki, metode ini tidak melibatkan proses pembentukan diagram pohon. Metode ini diawali dengan menentukan banyaknya klaster yang diinginkan. Secara umum, algoritma dari teknik pengklasteran dengan metode non-hirarki adalah sebagai berikut: 1. Pilih centroid atau elemen awal pada klaster sebanyak k. 2. Masing-masing objek digabungkan ke dalam klaster dengan centroid terdekat. 3. Perbaharui centroid masing-masing klaster berdasarkan objek-objek yang terhimpun di dalamnya. 4. Ulangi langkah 2 dan 3 hingga centroid awal dan centroid akhirnya bernilai sama. Beberapa algoritma non-hirarki berbeda dalam aturan untuk memperoleh centroid klaster (seed) awal dan aturan yang digunakan untuk menempatkan kembali observasi. Salah satu aturan yang digunakan untuk memperoleh seed awal antara lain: 1. Pilih k observasi pertama dengan tidak ada data yang hilang sebagai centroid atau seed klaster awal. 2. Pilih observasi pertama dengan tidak ada data yang hilang sebagai seed klaster pertama, lalu seed klaster kedua dipilih dari observasi yang mempunyai jarak terjauh dari sebelumnya, dan seterusnya. 3. Pilih secara random k observasi dengan tidak ada data yang hilang sebagai pusat klaster atau seed. 4. Perbaiki seed yang dipilih dengan menggunakan aturan tertentu sehingga jarak seed tersebut sejauh mungkin. 5. Gunakan heuristic tentang identifikasi pusat klaster sehingga jarak pusat klaster tersebut sejauh mungkin. 6. Gunakan seed yang disediakan oleh peneliti.

19 Setelah seed diidentifikasi, klaster awal yang dibentuk akan menempatkan kembali n-k observasi sisanya ke dalam seed yang terdekat dengan observasi tersebut (Nuningsih, 2010: 23). 3.3 METODE K-MEANS K-Means merupakan metode pengklasteran secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Metode ini dikembangkan oleh James B Mac-Queen pada tahun 1967. K-Means merupakan metode pengelompokkan yang paling terkenal karena sederhana dan dapat digunakan dengan mudah di berbagai bidang. Dasar pengelompokan dalam metode ini adalah menempatkan objek berdasarkan rata-rata (mean) klaster terdekat. Pengelompokan data dengan metode ini bertujuan untuk meminimalisasikan fungsi objektif dalam proses pengelompokkan, yang pada umumnya meminimalkan varians didalam suatu kelompok dan memaksimalkan varians antar kelompok (Wu, 2012:2). 3.3.1 KOMPONEN K-MEANS Algoritma K-Means memerlukan 3 komponen yaitu: 1. Jumlah Klaster K Seperti yang telah dijelaskan sebelumnya, K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah k harus ditentukan terlebih dahulu. Jumlah klaster k dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah klaster k, karena terkadang penentuan jumlah klaster berdasarkan subjektifitas peneliti.

20 2. Klaster Awal Dalam hal ini, klaster awal yang dipilih berkaitan dengan centroid awal yang ditentukan. Beberapa pendapat dalam memilih klaster awal untuk metode K-Means adalah sebagai berikut: a. Berdasarkan Hartigan (1975), pemilihan klaster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi. b. Berdasarkan Rencher (2002), pemilihan klaster awal dapat ditentukan melalui pendekatan salah satu metode hirarki. c. Berdasarkan Teknomo (2007), pemilihan klaster awal dapat secara acak dari semua observasi. Oleh karena adanya pemilihan klaster awal yang berbeda, maka kemungkinan besar solusi klaster yang dihasilkan juga akan berbeda. 3. Ukuran Jarak Dalam hal ini, ukuran jarak digunakan untuk menempatkan observasi ke dalam klaster berdasarkan centroid terdekat. Ukuran jarak yang digunakan dalam metode K-Means adalah jarak Euclid (Anderson, 2005:166). 3.3.2 ALGORITMA K-MEANS Hartigan (1979) menggambarkan algoritma dari teknik pengklasteran dengan metode K-Means secara umum adalah sebagai berikut: 1. Diberikan k sebagai banyaknya klaster yang akan dibentuk. 2. Tentukan centroid (elemen pusat) awal pada setiap klaster.

21 3. Masing-masing observasi dihitung jaraknya ke setiap centroid menggunakan jarak Euclid atau dapat ditulis sebagai berikut: ( ) 4. Setiap observasi dikelompokkan berdasarkan jarak terdekat antara data dengan pusatnya. 5. Perbaharui centroid masing-masing klaster dengan cara menghitung nilai rata-rata (mean) dari observasi-observasi yang ada pada centroid yang sama. 6. Ulangi dari langkah 3, lakukan hingga centroid awal dan centroid akhirnya bernilai sama. 3.4 METODE K-MEDIANS Metode K-Medians adalah pengembangan dari metode K-Means. Keduanya menghasilkan k klaster yang dibentuk dengan mengukur jarak antara titik pusat dengan setiap objek, kemudian setiap objek dikelompokkan berdasarkan titik pusat terdekat. Kedua metode ini mempunyai beberapa perbedaan, salah satunya pada titik pusat klaster. Sesuai dengan namanya, K-Means menggunakan mean yang meminimalkan jarak 2-norm, dan K-Medians menggunakan median yang meminimalkan jarak 1-norm (Whelan, 2015:1). Pada dasarnya, mean adalah pengukuran yang sangat rentan terhadap pencilan. Sebuah pencilan yang bernilai ekstrim dapat menggeser rata-rata dari sebagian besar data yang kemudian menjadi tidak seimbang. Menurut Kaufmann & Rosseuw (1990) metode K-means akan lebih sensitif terhadap data yang mengandung pencilan karena menggunakan mean sebagai ukuran nilai tengahnya. Di sisi lain, median adalah statistik deskriptif yang cenderung lebih tahan terhadap outliers. Oleh karena itu, penggunaan metode K-Medians akan meminimalkan error pada klaster.

22 Diberikan n buah data, jarak antara objek ke-i, dan objek ke-j, dinotasikan dengan. Pada pemilihan median awal, didefinisikan sebagai variabel biner 0 dan 1, di mana jika objek ke-i dipilih sebagai median awal. Penempatan setiap objek ke-j ke salah satu median awal dituliskan sebagai, dengan bernilai 0 dan 1. Jika objek j ditempatkan ke klaster dimana objek sebagai median maka. Berdasarkan definisi di atas, maka: (3.1) dengan (3.2) (3.3) (3.4) { } (3.5) { } (3.6) Persamaan (3.1) menyatakan bahwa klaster yang terbentuk dengan menempatkan setiap objek ke median yang terdekat. Persamaan (3.2) menyatakan bahwa setiap objek ditempatkan pada sebuah median. Persamaan (3.3) menyatakan bahwa penempatan objek didasarkan pada sebuah median. Persamaan (3.4) menyatakan bahwa hanya terdapat sebuah objek yang akan dipilih sebagai median.

23 3.4.1 KOMPONEN K-MEDIANS yaitu: Sama seperti K-Means, algoritma K-Medians memerlukan 3 komponen 1. Jumlah Klaster K Tidak jauh berbeda seperti K-Means, karena K-Medians merupakan variasi dari metode K-Means, dan juga bagian dari metode non-hirarki sehingga dalam metode ini jumlah k harus ditentukan terlebih dahulu. Jumlah klaster k dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah klaster k, karena terkadang penentuan jumlah klaster berdasarkan subjektifitas peneliti. 2. Klaster Awal Sama halnya dengan K-Means, klaster awal yang dipilih dalam metode K- Medians berkaitan dengan centroid awal yang ditentukan. Beberapa pendapat dalam memilih klaster awal untuk metode K-Medians adalah sebagai berikut: a. Berdasarkan Hartigan (1975), pemilihan klaster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi. b. Berdasarkan Rencher (2002), pemilihan klaster awal dapat ditentukan melalui pendekatan salah satu metode hirarki. c. Berdasarkan Teknomo (2007), pemilihan klaster awal dapat secara acak dari semua observasi. Oleh karena adanya pemilihan klaster awal yang berbeda, maka kemungkinan besar solusi klaster yang dihasilkan juga akan berbeda.

24 3. Ukuran Jarak Dalam hal ini, ukuran jarak digunakan untuk menempatkan observasi ke dalam klaster berdasarkan centroid terdekat. Ukuran jarak yang digunakan dalam metode K-Medians adalah jarak Manhattan (Anderson, 2005:167). 3.4.2 ALGORITMA K-MEDIANS Secara umum, algoritma dari teknik pengklasteran dengan metode K- Medians adalah sebagai berikut: 1. Diberikan k sebagai banyaknya klaster yang akan dibentuk. 2. Tentukan centroid (elemen pusat) awal pada setiap klaster. 3. Masing-masing observasi dihitung jaraknya ke setiap centroid menggunakan jarak Manhattan atau dapat ditulis sebagai berikut: ( ) 4. Setiap observasi dikelompokkan berdasarkan jarak terdekat antara data dengan pusatnya. 5. Perbaharui centroid masing-masing klaster dengan cara menghitung nilai tengah (median) dari observasi-observasi yang ada pada centroid yang sama. 6. Ulangi dari langkah 3, lakukan hingga centroid awal dan centroid akhirnya bernilai sama.

25 3.5 INTERPRETASI KLASTER Interpretasi hasil klaster harus dapat menentukan variabel apa yang dapat digunakan untuk membedakan antara klaster yang satu dengan klaster yang lain, sehingga mampu memberikan nama untuk klaster yang terbentuk sesuai dengan variabel-variabel pembentuk klaster tersebut. Ukuran yang biasa digunakan sebagai ciri dari suatu klaster adalah nilai centroid. Dalam K-Means, centroid yaitu nilai ratarata dari variabel-variabel dalam suatu klaster. Sedangkan dalam K-Medians, centroid yaitu nilai tengah (median) dari variabel-variabel dalam suatu klaster. 3.6 VALIDASI KLASTER Dalam melakukan setiap proses analisis, perlu dilakukan pengujian atas kevalidan atau kesahihan suatu hasil analisis agar tidak memberikan keraguan dalam menentukan tindakan atau penanganan yang tepat terhadap suatu masalah yang sedang dianalisis, dengan alasan yang sama, dalam pengklasteran juga perlu dilakukan pengujian kevalidan banyaknya klaster yang ditentukan. Gordon (Yatskiv dan Gusarova, 2005:75) mengatakan bahwa terdapat 3 pendekatan utama dalam melakukan validasi klaster yaitu: 1. External test, dalam uji ini data dibagi menjadi dua bagian. Solusi klaster dari data hasil analisis klaster dibandingkan dengan solusi klaster dari data yang tidak diikutsertakan dalam analisis klaster tersebut. 2. Internal test, dalam uji ini solusi klaster digunakan untuk melihat kualitas klaster dengan cara membandingkan solusi klaster hasil metode hirarki dan metode non-hirarki.

26 3. Relative test, dalam uji ini beberapa solusi klaster yang berbeda dari data yang dibandingkan menggunakan algoritma yang sama dengan parameter yang berbeda. Pada dasarnya, validasi memberikan informasi tentang seberapa akurat jumlah klaster yang dipilih. Jumlah klaster yang terbantuk dikatakan baik apabila solusi klaster yang dihasilkan tidak jauh berbeda dengan hasil penentuan klaster awal berdasarkan pendekatan yang digunakan. Validasi yang paling sering digunakan dalam analisis klaster adalah dengan pendekatan internal test karena pendekatan ini lebih sederhana dan mudah digunakan. Oleh karena itu, dalam skripsi ini validasi dilakukan dengan pendekatan internal test. Selain lebih sederhana dan mudah digunakan, validasi dengan pendekatan internal test juga dipilih karena keterbatasan software yang ada.