PRAKTIKUM 3 ANALISA CLUSTER

dokumen-dokumen yang mirip
MATERI PRAKTIKUM PRAKTIKUM 3 ANALISA CLUSTER

MATERI PRAKTIKUM PRAKTIKUM 3 ANALISA CLUSTER

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB II LANDASAN TEORI

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB 2 LANDASAN TEORI

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

PERTEMUAN 14 DATA WAREHOUSE

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

BAB II LANDASAN TEORI

MODUL 6 ANALISIS CLUSTER

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB II LANDASAN TEORI

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

BAB II TINJAUAN PUSTAKA

Jumlah persentase ini tidak harus persis seperti diatas tetapi bisa bervariasi tergantung di perusahaan mana metode ini diterapkan.

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

BAB II LANDASAN TEORI

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

DATA MINING DAN WAREHOUSE A N D R I

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB II LANDASAN TEORI

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

ANALISIS GEROMBOL CLUSTER ANALYSIS

BAB III METODE PENELITIAN. Alasan memilih Ciputra Taman Dayu Pandaan dikarenakan Ciputra Taman Dayu

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

PENGELOMPOKAN KABUPATEN/KOTA DI KALIMANTAN BARAT BERDASARKAN INDIKATOR DALAM PEMERATAAN PENDIDIKAN MENGGUNAKAN METODE MINIMAX LINKAGE

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Implementasi Data Mining dengan Metode Klastering untuk Meramalkan Permintaan Pasar (Studi Kasus PT. Nutrifood Indonesia )

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Surmayanti 1, Hari Marfalino 2, Ade Rahmi 3 Fakultas Limu Komputer Universitas Putra Indonesia YPTK Padang

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

dengan Algoritma K Means

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

BAB 2 LANDASAN TEORI

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

BAB IV METODE PENELITIAN

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

BAB II LANDASAN TEORI

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

Pemilihan Distance Measure Pada K-Means Clustering Untuk Pengelompokkan Member Di Alvaro Fitness

BAB II TINJAUAN PUSTAKA

Penerapan Metode Fuzzy C-Means dengan Model Fuzzy RFM (Studi Kasus : Clustering Pelanggan Potensial Online Shop)

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

UKDW BAB I PENDAHULUAN

Pengenalan Pola. Klasterisasi Data

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN. Jenis penelitian yang digunakan dalam menyusun skripsi ini menggunakan

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

BAB III DIVISIVE ANALISIS. Pada bab ini akan dipaparkan bagaimana konsep dari divisive analisis serta

BAB III METODOLOGI PENELITIAN

PENDAHULUAN TINJAUAN PUSTAKA

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

Analisis Cluster Studi Kasus: Kabupaten Jepara Jawa Tengah

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. Universitas Sumatera Utara

BAB 2 TINJAUAN PUSTAKA

BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data

BAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut :

ANALISIS PEUBAH GANDA ANALISIS GEROMBOL HAZMIRA YOZZA JURUSAN MATEMATIKA UNAND LOGO

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

Nandang Arif Saefuloh, M.Pd. *) Universitas Islam Nusantara, Jl. Soekarno-Hatta No. 530, Bandung, Abstrak

IMPLEMENTASI METODE KLASTERING K-MEANS UNTUK MENGELOMPOKAN HASIL EVALUASI MAHASISWA. FEBRIZAL ALFARASY SYAM Dosen STMIK Dharmapala Riau ABSTRAK

BAB III K-MEDIANS CLUSTERING

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

KLASTERISASI PROSES SELEKSI PEMAIN MENGGUNAKAN ALGORITMA K-MEANS

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Transkripsi:

PRAKTIKUM 3 ANALISA CLUSTER Definisi Cluster Analisis cluster merupakan suatu teknik data mining yang digunakan untuk mengklasifikasikan obyek atau kasus (responden) ke dalam kelompok yang relatif homogen yang dinamakan cluster. Pola-pola dalam suatu Cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam Cluster yang lainnya. Metodologi Clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya. Tujuan Praktikum Cluster 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan menerapkan analisis Cluster 2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari analisis Cluster dalam data mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus yang dihadapi. Knowledge Discovery in Database (KDD) dan Data Mining Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar. (Turban et al, 2005 ). Knowledge discovery in database (KDD) adalah keseluruhan proses nontrivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti.istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk

menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996). 1. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. 2. Pre-processing/Cleaning Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 3. Transformation Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. 4. Data Mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Dalam modul ini kita menggunakan salah satu teknik data mining yaitu cluster. 5. Interpretation/Evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. Konsep Cluster Analisis Cluster merupakan salah satu teknik multivariat yang digunakan dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Di dalam pengclusteran setiap obyek hanya boleh masuk ke dalam satu cluster saja sehingga tidak terjadi tumpang tindih (overlapping atau interaction). Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu: 1. Tujuan Analisis Cluster 2. Desain Penelitian dalam Analisis Cluster 3. Asumsi-asumsi dalam Analisis Cluster 4. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) 5. Interpretasi terhadap Cluster.

6. Proses Validasi dan Pembuatan Profil (profiling) Cluster Penerapan analisis Cluster di dalam pemasaran adalah sebagai berikut : 1. Identifikasi obyek (Recognition) : Dalam bidang image Processing, Computer Vision atau robot vision 2. Decission Support System dan data mining Membuat segmen pasar (segmenting the market). Memahami perilaku pembeli. Mengenali peluang produk baru Tahap-tahap dalam Analisis Cluster Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu: Tahap Pertama : Tujuan Analisis Cluster Tujuan utama analisis Cluster adalah memisahkan suatu himpunan objek menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya. Sedangkan tujuan analisis Cluster secara khusus, antara lain: Penyederhanaan Data Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya. Identifikasi Hubungan (Relationship Identification) Hubungan antar objek diidentifikasi secara empiris. Struktur analisis Cluster yang sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak dinyatakan sebelumnya. Pemilihan pada Pengelompokan Variabel

Tujuan analisis Cluster tidak dapat dipisahkan dengan pemilihan variabel yang digunakan untuk menggolongkan objek ke dalam clucter-cluster. Cluster yang terbentuk merefleksikan struktur yang melekat pada data seperti yang didefinisikan oleh variabel-variabel. Pemilihan variabel harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional. Rasionalitas ini didasarkan pada teori-teori eksplisit atau penelitian sebelumnya. Variabelvariabel yang dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan dan secara spesifik harus sesuai dengan tujuan analisis Cluster. Tahap Kedua : Desain Penelitian dalam Analisis Cluster 2 hal penting dalam tahap ini adalah pendeteksian outlier dan mengukur kesamaan. Pendeteksian Outliers Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya. Outliers dapat terjadi karena: a. Observasi menyimpang yang tidak mewakili populasi b. Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan underrepresentation kelompok-kelompok dalam sampel Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dalam populasi sehingga kita akan memperoleh Cluster-Cluster yang tidak sesuai dengan struktur sebenarnya dari populasi tersebut dan tidak representatif. Mengukur Kesamaan antar Objek Konsep kesamaan adalah hal yang sangat penting dalam analisis Cluster. Kesamaan antar objek merupakan ukuran kedekatan antar objek. Kesamaan dapat diketahui dengan melakukan pengukuran jarak antar setiap individu. Ukuran jarak merupakan ukuran ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak yang pendek/kecil menunjukkan bahwa suatu objek makin mirip dengan objek lain.

Gambar 1. Ilustrasi Pengukuran jarak Metode untuk mengukur kesamaan obyek antara lain : 1). Euclidean Distance Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari segitiga ABC. ( ) ( ) ( ) ( ) 2). Squared Euclidean Distance Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j. ( ) ( ) ( ) ( ) 3). Chebychev D(X,Y) 4). City Block Distance D(X,Y) D(I,j) Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster Seperti hal teknik analisis lain,analisis Cluster juga menetapkan adanya suatu asumsi. Ada dua asumsi dalam analisis Cluster, yaitu : a. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi

Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin bahwa sampel yang diambil representatif terhadap populasi. b. Pengaruh Multikolinieritas Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis Cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama. Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) Ada dua proses penting yaitu algoritma Cluster dalam pembentukan Clusterdan menentukan jumlah Cluster yang akan dibentuk. Keduanya mempunyai implikasi substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.

Gambar 2. Algoritma Analisa Kluster Adapun metode pengelompokan dalam analisis Cluster meliputi : 1. Metode Non-Hirarkis. dimulai dengan menentukan terlebih dahulu jumlah Cluster yang diinginkan (dua,tiga, atau yang lain). Setelah jumlah Clusterditentukan, maka proses Cluster dilakukan dengan tanpa mengikuti proses hirarki. Metode ini biasa disebut K-Means Cluster. Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai dengan memilih sejumlah nilai Cluster awal sesuai dengan jumlah yang diinginkan dan kemudian obyek digabungkan ke dalam Cluster-Cluster tersebut. a. Sequential Threshold Procedure

Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar yang akan dijadikan nilai awal Cluster, kemudian semua obyek yang ada didalam jarak terdekat dengan Cluster ini akan bergabung lalu dipilih Cluster kedua dan semua obyek yang mempunyai kemiripan dimasukkan dalam Cluster ini. Demikian seterusnya hingga terbentuk beberapa Cluster dengan keseluruhan obyek didalamnya. b. Parallel Threshold Prosedure Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan pemilihan terhadap beberapa obyek awal Cluster sekaligus dan kemudian melakukan penggabungan obyek ke dalamnya secara bersamaan. c. Optimizing Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada penempatan obyek yang ditukar untuk Cluster lainnya dengan pertimbangan krteria optimasi. 2. Metode Hirarkis. Memulai pengelompokan dengan dua atau lebih obyek yang mempunyai kesamaan paling dekat. Kemudian dilanjutkan pada obyek yang lain dan seterusnya hingga Cluster akan membentuk semacam pohon dimana terdapat tingkatan (hirarki) yangjelas antar obyek, dari yang paling mirip hingga yang paling tidak mirip. Teknik hirarki (hierarchical methods) adalah teknik Clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Alat yang membantu untukmemperjelas proses hirarki ini disebut dendogram.

Teknik hirarki (hierarchical methods) adalah teknik Clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki: a. Agglomerative Methods Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk Clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan Cluster yang ada atau bersama obyek lain dan membentuk Cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu Cluster yang terdiri dari keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu: Single linkage (nearest neighbor methods) Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk Cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : a. Obyek ketiga akan bergabung dengan Cluster yang telah terbentuk, atau b. Dua obyek lainnya akan membentu Cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk Cluster tunggal. Pada metode ini jarak antar Cluster didefinisikan sebagai jarak terdekat antar anggotanya. Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :

Gambar 3. Matriks Antara 5 Buah Objek. Langkah penyelesaiannya : a). Mencari obyek dengan jarak minimum Menghitung jarak antara Cluster AB dengan obyek lainnya. D(AB)C = min {dac, dbc}= dbc = 3.0 D(AB)D = min {dad, dbd}= dad = 6.0 D(AB)E = min {dae, dbe}= dbe = 7.0 Dengan demikian terbentuk matriks jarak yang baru Gambar 4. Matriks 5 Buah Objek Dengan Jarak Baru b). Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung menjadi satu Cluster. c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0

D(AB)(DE) = min {dad, dae, dbd, dbe} = dad = 6.0 D(DE)C = min {dcd, dce} = dcd = 4.0 d). Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB e). Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal. Complete linkage (furthest neighbor methods) Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek. Contoh : Terdapat matriks jarak antara lima buah obyek yaitu : Gambar 5. Matriks Antara 5 Buah Objek. Langkah penyelesaiannya : a) Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung menjadi satu Cluster. b) Menghitung jarak antara Cluster AB dengan obyek lainnya d(ab)c = max {dac, dbc} = dac = 5,0 d(ab)d = max {dad, dbd} = dbd = 8,0 d(ab)e = max {dae, dbe} = dae = 8,0 Dengan demikian terbentuk matriks jarak yang baru :

Gambar 4. Matriks 5 Buah Objek Dengan Jarak Baru c) Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu Cluster d) Menghitung jarak antara Cluster dengan obyek lainnya. d(ab)c = 4,0 d(ab)(de) = 1/2{dAD, dae, dbd, dbe} = 7,25 d(de)c = 1/2{dCD, dce,} = dce = 5,00 Maka terbentuklah matrik jarak yang baru, yaitu : Gambar 5. Matriks Akhir e) Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB. f) Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal

Ward s error sum of squares methods Ward mengajukan suatu metode pembentukan Cluster yang didasari oleh hilangnya informasi akibat penggabungan obyek menjadi Cluster. Hal ini diukur dengan jumlah total dari deviasi kuadrat pada mean Cluster untuk tiap observasi. Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada. ESS ( ) Dengan Xij adalah nilai untuk obyek ke-i pada Cluster ke-j. b. Divisive Methods Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-tama diawali dengan satu Cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk Cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah Cluster yang diinginkan. Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke

groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group. Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : Gambar 6. Matriks Perbandingan 5 buah Objek Perhitungan : a) Menghitung jarak rata-rata antar obyek A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25 B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75 C = ¼ (9+9+23+24) = 16.25 Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan dari group utama dan membentuk group splinter. b) Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Gambar 7. Perhitungan Rata-Rata Group Utama Dengan Group Splinter

Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke group splinter. c) Perhitungan jarak rata-rata Gambar 7. Perhitungan Rata-Rata Group Utama Dengan Group Splinter Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter, maka komposisinya sudah stabil. Tahap Kelima : Interpretasi terhadap Cluster Tahap interpretasi meliputi pengujian tiap Cluster dalam term untuk menamai dan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian Cluster. Membuat profil dan interpretasi Cluster tidak hanya untuk memperoleh suatu gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada Cluster yang terbentuk, kedua, profil Cluster memberikan araha bagi penilainan terhadap signifikansi praktis. Namun demikian yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang membedakan masing-masing Cluster sehingga kita dapat memberikan label pada masing-masing Cluster tersebut. Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster 1. Proses validasi solusi Cluster Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis Cluster dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini

membandingkan solusi Cluster dan menilai korespondensi hasil. Terkadang tidak dapat dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan objek untuk analisis Cluster ganda. 2. Pembuatan Profil ( profiling) solusi Cluster Tahap ini menggambarkan karakteristik tiap Cluster untuk menjelaskan Cluster-Cluster tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu Cluster khusus.

Studi Kasus Metode Hierarki Fizi Shop merupakan toko yang bergerak dibidang retail. Pihak perusahaan ingin meningkatkan pelayanan terhadap konsumen yang berkunjung melalui web mereka. Dengan menyebarkan kuesioner, dan menggunakan Clustering, pihak perusahaan ingin mengetahui selera konsumen dan faktor faktor yang paling berpengaruh terhadap kemajuan bisnisnya. Berikut adalah hasil kuesioner yang telah dibagikan kepada 20 konsumen yang telah berkunjung ke toko. Data Kuesioner 2 : No Nama Perilaku Karyawan Komunikasi Pelayanan Kelengkapan Harga 1 Rino 1 1 1 2 4 2 Abdul 2 2 2 2 1 3 Viant 3 4 3 2 1 4 Aan 2 3 2 2 1 5 Romi 2 2 2 2 2 6 Ririn 2 2 2 1 1 7 Rahmawati 1 2 2 2 2 8 Okta 2 2 1 1 2 9 Andre 3 2 1 2 4 10 Niko 3 2 3 2 1 11 Ayuk 1 1 1 2 1 12 Wanti 2 2 2 1 1 13 Mey 4 3 2 1 2 14 Farah 3 3 3 2 1 15 Maryana 2 2 2 1 1 16 Sifa 2 2 2 1 1 17 Wulan 1 1 1 1 2 18 Ulfa 1 2 1 2 2 19 Syahdan 1 2 3 3 2 20 Awan 2 2 2 2 2

Data Kuesioner 1 : No Nama Jenis Kelamin Usia Profesi Intensitas Barang Biaya 1 Rino 1 2 1 2 3 5 2 Abdul 1 4 4 5 4 5 3 Viant 1 4 5 4 4 4 4 Aan 1 2 1 2 3 2 5 Romi 1 4 3 4 4 3 6 Ririn 2 3 1 5 2 5 7 Rahmawati 2 3 1 3 2 3 8 Okta 2 4 3 3 4 4 9 Andre 2 3 3 3 2 5 10 Niko 1 2 2 2 2 3 11 Ayuk 2 3 1 1 1 1 12 Wanti 2 4 5 5 5 5 13 Mey 2 4 5 5 5 5 14 Farah 2 4 4 4 4 4 15 Maryana 1 3 1 5 1 5 16 Sifa 2 2 5 1 5 1 17 Wulan 2 2 1 2 2 2 18 Ulfa 2 3 1 1 5 1 19 Syahdan 2 4 2 4 2 2 20 Awan 1 3 1 2 3 4

Lakukan prosedur pengclusteran dengan menggunakan metode hirarki dan non-hirarki! Tentukan berapa jumlah Cluster yang terbentuk, dan analisislah hasil profilisasi customernya! Langkah Penyelesaian : 1. Input Data - Variable View Di setiap variabel, atur values sesuai skala yang ada di kuesioner seperti gambar di bawah ini:

- Data View 2. Clustering Metode Hirarki a. Pilih analyze klik Classify lalu pilih Hierarchical Cluster

b. Variabel : Letakkan semua Variabel X Label case by : Letakkan nama responden Cluster : Case Display : statistic, plot c. Statistik : agglomeration schedule

d. Plots : klik Dendogram Icicle : none e. Method : Cluster Method Pilih nearest neighbor measure Interval pilih Squared Euqliden Distance

f. Klik save Cluster membership : none 3. Profilisasi Costumer a. Input Data - Variable View:

- Data View b. Pilih Analyze, klik Descriptive Statistic pilih crosstab

c. Rows : Letakkan semua variabel Y Columns : Cluster member d. Statistics : Correlation

e. Cells Counts : observed, Percentage : total f. Format Row order : ascending. 4. Penentuan Variabel yang harus ditingkatkan a. Input Data o Variable View:

o Data View:

b. Pilih Analyze, klik Descriptive Statistic pilih crosstab c. Rows : Letakkan semua variabel profil ( variable x ) Columns : Cluster member

d. Statistics : Correlation e. Cells Counts : observed, Percentage : total

f. Format Row order : ascending.

DAFTAR PUSTAKA Bertalya. 2009. Konsep Data Mining. Universitas Gunadarma. Fayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press. Susanto, Hery Tri. 2009. Cluster Analysis. Seminar Nasional Matematika dan Pendidikan Matematika. Yogyakarta: Universitas Negeri Yogyakarta. Turban, Efraim et al. 2005. Decision Support Systems and Intelligent Systems. Yogyakarta: Andi Offset Walpole, Ronald E. dan Myers, Raymond H. 1986. Ilmu Peluang dan Statistik Untuk Insinyur Dan Ilmuwan. Bandung: ITB Press.