LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

dokumen-dokumen yang mirip
DATA MINING DAN WAREHOUSE A N D R I

PRAKTIKUM 3 ANALISA CLUSTER

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

Jumlah persentase ini tidak harus persis seperti diatas tetapi bisa bervariasi tergantung di perusahaan mana metode ini diterapkan.

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

MATERI PRAKTIKUM PRAKTIKUM 3 ANALISA CLUSTER

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

ANALISIS PEUBAH GANDA ANALISIS GEROMBOL HAZMIRA YOZZA JURUSAN MATEMATIKA UNAND LOGO

BAB 2 TINJAUAN PUSTAKA DAN LANDASAN TEORI

Pengenalan Pola. Klasterisasi Data

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

BAB II LANDASAN TEORI

MATERI PRAKTIKUM PRAKTIKUM 3 ANALISA CLUSTER

BAB 2 LANDASAN TEORI

BAB III DIVISIVE ANALISIS. Pada bab ini akan dipaparkan bagaimana konsep dari divisive analisis serta

BAB IV METODE PENELITIAN

ANALISIS GEROMBOL CLUSTER ANALYSIS

Analisis Cluster dengan Average Linkage Method dan Ward s Method untuk Data Responden Nasabah Asuransi Jiwa Unit Link

BAB III K-MEDIANS CLUSTERING

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

ANALISIS KARAKTERISTIK POLA BELANJA KELUARGA DENGAN ANALISIS KLASTER

BAB III METODE PENELITIAN. Alasan memilih Ciputra Taman Dayu Pandaan dikarenakan Ciputra Taman Dayu

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

BAB II TINJAUAN PUSTAKA

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

JULIO ADISANTOSO - ILKOM IPB 1

III. METODE PENELITIAN

*Corresponding Author:

Bab 2 Tinjauan Pustaka 2.1 Penelitian Sebelumnya

IV. PERANCANGAN DAN IMPLEMENTASI

BAB II TINJAUAN PUSTAKA. penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis),

BAB 1 PENDAHULUAN 1.1. Latar Belakang

BAB 2 LANDASAN TEORI. setelah membandingkan kinerja atau hasil yang dirasakannya dengan. diharapkan konsumen dengan apa yang dirasakan konsumen ketika

BAB 2 TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

InfinityJurnal Ilmiah Program Studi Matematika STKIP Siliwangi Bandung, Vol 3, No.2, September 2014

BAB I PENDAHULUAN. 1.1 Latar Belakang

Pengelompokan Data dengan Metode...(Luh Joni Erawati Dewi)

UKDW BAB I PENDAHULUAN

STK511 Analisis Statistika. Pertemuan 13 Peubah Ganda

CLUSTERING DATA NON-NUMERIK DENGAN PENDEKATAN ALGORITMA K-MEANS DAN HAMMING DISTANCE STUDI KASUS BIRO JODOH

PENGELOMPOKAN KABUPATEN/KOTA DI KALIMANTAN BARAT BERDASARKAN INDIKATOR DALAM PEMERATAAN PENDIDIKAN MENGGUNAKAN METODE MINIMAX LINKAGE

BAB I PENDAHULUAN. 1.1 Latar Belakang. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB III PEMBAHASAN. survei yang dilakukan BPS pada 31 Oktober Langkah selanjutnya yang

Clustering. Virginia Postrel

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

PENGELOMPOKAN DESA/KELURAHAN DI KOTA DENPASAR MENURUT INDIKATOR PENDIDIKAN

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

Penggerombolan Sekolah Menengah Atas Berdasarkan Nilai Ujian Nasional Di Kota Manado

Bab 2 Tinjauan Pustaka

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB 2 TINJAUAN PUSTAKA

DAFTAR ISI. ABSTRAK... i. KATA PENGANTAR... ii. UCAPAN TERIMA KASIH... iii. DAFTAR ISI... vi. DAFTAR TABEL... x. DAFTAR GAMBAR...

ANALISIS KELOMPOK DENGAN MENGGUNAKAN METODE HIERARKI UNTUK PENGELOMPOKAN KABUPATEN/KOTA DI JAWA TIMUR BERDASAR INDIKATOR KESEHATAN

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

HI. KERANGKA TEORI. kelompok tersebut menimbulkan pengurangan dimensionalitas suatu tabel data,

Pengenalan Pola. K-Means Clustering

MODUL 6 ANALISIS CLUSTER

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

ANALISIS KELOMPOK METODE HIRARKI UNTUK PENGELOMPOKAN KOTA/KABUPATEN DI JAWA TIMUR BERDASARKAN INDIKATOR KETENAGAKERJAAN,,

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

Pengenalan Pola. Hierarchical Clustering

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

BAB II TINJAUAN PUSTAKA

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB III METODOLOGI PENELITIAN. Jenis penelitian yang digunakan dalam menyusun skripsi ini menggunakan

PENGELO MPOKAN KUALITAS UDARA AMBIEN MENURUT KABUPATEN/KOTA DI JAWA TENGAH MENGGUNAKAN ANALISIS KLASTER

BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data

Data Mining. Clustering. Oleh : Suprayogi

STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

HIERARCHICAL CLUSTER ANALYSIS TERHADAP PELANGGAN PASAR BERINGHARJO YOGYAKARTA

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

Aplikasi Multidimensional Scalling

TINJAUAN PUSTAKA Analisis Gerombol

Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

BAB II LANDASAN TEORI

PENGELOMPOKAN KELAS KEKUATAN PADA BEBERAPA JENIS KAYU BERDASARKAN SIFAT MEKANIK DENGAN MENGGUNAKAN ANALISIS GEROMBOL

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

UKDW BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

Anisa Bella Fathia, Dewi Rachmatin, Jarnawi Afgani Dahlan, Departemen Pendidikan Matematika FPMIPA Universitas Pendidikan Indonesia

Transkripsi:

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II CLUSTERING TUJUA PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan penelitian pasar. 2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari Analisis Cluster dalam Data Mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus-kasus yang dihadapinya. LA DASA TEORI 2.1 Clustering Concept Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data obyek. Tujuan dari pengelompokan sekumpulan data obyek ke dalam beberapa kelompok yang mempunyai karakteristik tertentu dan dapat dibedakan satu sama lainnya adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Model yang diambil diasumsikan bahwa data yang dapat digunakan adalah data yang berupa data interval, frekuensi dan biner. Set data obyek harus mempunyai peubah dengan tipe yang sejenis tidak campur antara tipe yang satu dengan lainnya. 2.2 Tujuan Analisis Cluster Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang

dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Tujuan analisis cluster di dalam pemasaran adalah sebagai berikut : 1. Membuat segmen pasar (segmenting the market) Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari. 2. Memahami perilaku pembeli Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko atau mall di mana para pembeli membeli barang yang dibutuhkan. 3. Mengenali peluang produk baru Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain, daripada merek dari klaster lain. 4. Mereduksi data. Analisis cluster digunakan sebagai suatu alat mereduksi data secara umum, untuk mengembangkan klaster atau sub-group dari data yang mudah dikelola dari kumpulan data asli, secara individual. 2.3 Prosedur Analisis Cluster Rumuskan Masalah Pilih Ukuran Jarak Pilih Prosedur Peng-cluster-an Penentuan Banyaknya Cluster Profilisasi Customer Menentukan segmentasi Pasar

Secara umum proses dimulai dengan merumuskan masalah pengklasteran dengan mendefinisikan variabel-variabel yang dipergunakan untuk dasar pengklasteran/pembentukan klaster. Kemudian pengambilan p pengukuran peubah pada n obyek pengamatan. Data tersebut dijadikan matriks data mentah berukuran m x p. Matrik tersebut ditransformasikan ke dalam bentuk matriks similaritas (kemiripan) berupa n x n yang dihitung berdasarkan pasangan-pasangan obyek p peubah. Konsep dasar pengukuran analisis cluster adalah konsep pengukuran jarak (distance) dan kesamaan (similarity). Distance adalah ukuran tentang jarak pisah antar obyek sedangkan similarity adalah ukuran kedekatan. Konsep ini penting karena pengelompokan pada analisis cluster didasarkan pada kedekatan. Pengukuran jarak (distance type measure) digunakan untuk data-data yang bersifat matriks, sedangkan pengukuran kesesuaian (matching type measure) digunakan untuk data-data yang bersifat kualitatif. 2.4 Teknik Pengukuran Jarak 1) Euclidean Distance Merupakan ukuran jarak antara dua item X dan Y. D(X, Y) = 2) Squared Euclidean Distance 2 (Xi Yi) Merupakan ukuran jarak antara dua item X dan Y. 3) Pearson Correlation 2 D(X, Y) = (Xi Yi) Korelasi antara vektor nilai : ZxiZ S(X, Y) = (N 1) yi di mana Z xi adalah nilai x yang telah distandarkan untuk item ke-i dan N adalah jumlah itemnya. 4) Chebychev 5) Block D(X,Y) = max X Y i i i D (X,Y) X i Y = i

6) Minkowski D(X,Y) p = 1 (absolute metric) = p = 2 (euclidian metric) 7) Chi-Square p [ X ] 1 p i Y i D(X, Y) = (Xi E(Xi)) E(Xi) 2 (Yi + E(Yi)) E(Yi) 2 8) Phi-Square 9) Hamming D(X, Y) 2 2 1 (Xi E(Xi)) (Yi E(Yi)) = + n E(Xi) E(Yi) k D(P,Q) = δ ( X pk. X qk ) k= 1 Dimana : δ ( X, X ) pk qk 1, = 0, if X pk lainnya X qk 2.5 Teknik Teknik dalam Analisis Cluster

METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki: 1) Agglomerative Methods Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu: a) Single linkage (nearest neighbor methods) Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau dua obyek lainnya akan membentu cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode ini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya. Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : A B C D E A 0.0 1.0 5.0 6.0 8.0 B 1.0 0.0 3.0 8.0 7.0 C 5.0 3.0 0.0 4.0 6.0 D 6.0 8.0 4.0 0.0 2.0 E 8.0 7.0 6.0 2.0 0.0 Langkah penyelesaiannya : 1. Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan A bergabung menjadi satu cluster.

2. Menghitung jarak antara cluster AB dengan obyek lainnya. D (AB)C = min {d AC, d BC }= d BC = 3.0 D (AB)D = min {d AD, d BD }= d AD = 6.0 D (AB)E = min {d AE, d BE }= d BE = 7.0 Dengan demikian terbentu matriks jarak yang baru AB C D E AB 0.0 3.0 6.0 7.0 C 3.0 0.0 4.0 6.0 D 6.0 4.0 0.0 2.0 E 7.0 6.0 2.0 0.0 3. Mencari obyek dengan jarak terdekat D dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu cluster. 4. menghitung jarak antara cluster dengan obyek lainnya. D (AB)C = 3.0 D (AB)(DE) = min {d AD, d AE, d BD, d BE } = d AD = 6.0 D (DE)C = min {d CD, d CE } = d CD = 4.0 5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C bergabung dengan cluster AB 6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal. b) Complete linkage (furthest neighbor methods) Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek. Contoh : Terdapat matriks jarak antara lima buah obyek yaitu : A B C D E A 0.0 1.0 5.0 6.0 8.0 B 1.0 0.0 3.0 8.0 7.0 C 5.0 3.0 0.0 4.0 6.0 D 6.0 8.0 4.0 0.0 2.0 E 8.0 7.0 6.0 2.0 0.0

Langkah penyelesaiannya : 1. Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung menjadi satu cluster. 2. Menghitung jarak antara cluster AB dengan obyek lainnya. D (AB)C = max {d AC, d BC }= d AC = 5.0 D (AB)D = max {d AD, d BD }= d BD = 8.0 D (AB)E = max {d AE, d BE }= d AE = 8.0 Dengan demikian terbentuk matriks jarak yang baru AB C D E AB 0.0 5.0 8.0 8.0 C 5.0 0.0 4.0 6.0 D 8.0 4.0 0.0 2.0 E 8.0 6.0 2.0 0.0 3. Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu cluster 4. Menghitung jarak antar cluster dengan obyek lainnya. D (AB)C = 5.0 D (AB)(DE) = max {d AD, d AE, d BD, d BE } = d AE = d BD = 8.0 D (DE)C = max {d CD, d CE } = d CE = 6.0 5. Maka terbentuklah matriks jarak yang baru, yaitu : AB C DE AB 0.0 5.0 8.0 C 5.0 0.0 6.0 DE 8.0 6.0 0.0 6. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C bergabung dengan cluster AB

7. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal. c) Average linkage methods ( between groups methods) Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya. Prinsip ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasangan obyek yang mungkin. Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : A B C D E A 0.0 1.0 5.0 6.0 8.0 B 1.0 0.0 3.0 8.0 7.0 C 5.0 3.0 0.0 4.0 6.0 D 6.0 8.0 4.0 0.0 2.0 E 8.0 7.0 6.0 2.0 0.0 Langkah penyelesaiannya : 1. Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat, yaitu 1,0 maka obyek A dan B bergabung menjadi satu cluster. 2. Menghitung jarak antara cluster AB dengan obyek lainnya d (AB)C = max {d AC, d BC } = d AC = 5,0 d (AB)D = max {d AD, d BD } = d BD = 8,0 d (AB)E = max {d AE, d BE } = d AE = 8,0 Dengan demikian terbentuk matriks jarak yang baru : AB C D E AB 0.0 5.0 8.0 8.0 C 5.0 0.0 4.0 6.0 D 8.0 4.0 0.0 2.0 E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung menjadi satu cluster. 4. Menghitung jarak antara cluster dengan obyek lainnya. d (AB)C = 4,0 d (AB)(DE) = 1/2{d AD, d AE, d BD, d BE } = 7,25 d (DE)C = 1/2{d CD, d CE, } = d CE = 5,00 Maka terbentuklah matrik jarak yang baru, yaitu : AB C DE AB 0.0 4.0 7.25 C 4.0 0.0 5.00 DE 7.25 5.0 0.00 5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C bergabung dengan clster AB. 6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal. d) Ward s error sum of squares methods Ward mengajukan suatu metode pembentukan cluster yang didasari oleh hilangnya informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur dengan jumlah total dari deviasi kuadrat pada mean cluster untuk tiap observasi. Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada. ESS = 2 X 1 ( ij nj Xij) Dengan X ij adalah nilai untuk obyek ke-i pada cluster ke-j. 2 e) Within groups methods f) Median methods g) Centroid methods

2) Divisive Methods Metode divisive berlawanan dengan metode agglomerative. Metode ini pertamatama diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan. a) Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group. Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : A B C D E A 0 12 9 32 31 B 12 0 9 25 27 C 9 9 0 23 24 D 32 25 23 0 9 E 31 27 24 9 0 Perhitungan : 1. Menghitung jarak rata-rata antar obyek A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25 B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75 C = ¼ (9+9+23+24) = 16.25 Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan dari group utama dan membentuk group splinter.

2. Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Obyek Jarak Rata-rata dengan Group Splinter (x) Jarak Rata-rata dengan Group Utama (y) x - y A 31 17.67-13.33 B 27 15.33-11.67 C 24 13.67-10.33 D 9 26.67 17.67 Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke group splinter. 3. Perhitungan jarak rata-rata Obyek Jarak Rata-rata dengan Group Splinter (x) Jarak Rata-rata dengan Group Utama (y) x - y A 31.5 10.5-21.0 B 26 10.5-15.5 C 23.5 9.0-14.5 Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter, maka komposisinya sudah stabil. METODE O -HIRARKI Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut. 1) Sequential Threshold Procedure Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar yang akan dijadikan nilai awal cluster, kemudian semua obyek yang ada didalam jarak terdekat dengan cluster ini akan bergabung lalu dipilih cluster kedua dan semua obyek yang mempunyai kemiripan dimasukkan dalam cluster ini. Demikian seterusnya hingga terbentuk beberapa cluster dengan keseluruhan obyek didalamnya.

2) Parallel Threshold Prosedure Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan pemilihan terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan penggabungan obyek ke dalamnya secara bersamaan. 3) Optimizing Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan krteria optimasi. Teknik partisi (Partitioning Methods) mencakup : K-Means Clustering Methods based on the trace Prosedur analisis cluster K-means digunakan untuk mengelompokkan sejumlah kasus besar yang lebih dari 200 dengan lebih efisien. Metode ini berdasarkan nearest centroid sorting, yaitu pengelompokan berdasarkan jarak terkecil antara kasus dengan pusat dari cluster. Teknik ini membutuhkan jumlah cluster yang ditentukan terlebih dahulu oleh pemakai. Untuk tujuan tersebut dapat menggunakan analisis hierarkikal dalam menentukan jumlah cluster. Teknik ini juga dapat digunakan untuk menempatkan data baru untuk dikelompokkan ke dalam cluster terdekat. Agar hasil cluster dapat digunakan dengan baik, maka sebaiknya dilakukan tahapan interpretasi dan validasi. Yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang membedakan masing-masing cluster sehingga kita dapat memberikan label pada masing-masing cluster tersebut. Dengan demikian perlu kiranya dispesifikasikan kriteria-kriteria yang mendasari kelompok-kelompok yang telah terbentuk. Pada tahap validasi dilakukan pengujian terhadap cluster yang telah terbentuk. Uji yang dapat dilakukan antara lain dengan membandingkan hasil yang telah diperoleh dengan algoritma yang berbeda. Sebagai contoh, apabila pertama kali kita menggunakan algoritma hierarkikal, maka kemudian dicoba dengan menggunakan algoritma nonhierarkikal dan kemudian dilihat apakah hasilnya mirip atau tidak. Dengan demikian kita sudah melakukan pengujian terhadap cluster yang kita bentuk.