dengan Algoritma K Means

dokumen-dokumen yang mirip
Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

CLUSTERING K- MEANS ANALYSIS. (Studi Kasus : Koleksi Perpustakaan) Warnia Nengsih 1) 1)

LAPORAN KEGIATAN PENELITIAN

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

ANALISIS CLUSTER PADA DOKUMEN TEKS

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

76 JURNAL ILMIAH SEMESTA TEKNIKA Vol. 18, No. 1, 76-82, Mei 2015

Implementasi Algoritma K-Means Dalam Keputusan Pemberian Beasiswa (Studi Kasus SMA Santo Bernadus Pekalongan) Artikel Ilmiah

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB 1 PENDAHULUAN 1.1. Latar Belakang

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

ANALISIS PENGELOMPOKAN JUMLAH PENUMPANG BUS TRANS JOGJA MENGGUNAKAN METODE CLUSTERING K-MEANS DAN AGGLOMERATIVE HIERARCHICAL CLUSTERING (AHC)

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

Penerapan K-Means Untuk Pengelompokan Pengguna Internet Berdasarkan Elapsed dan Byte Transferred

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

Klasterisasi Wilayah Pemasaran berdasarkan Preferensi Konsumen terhadap PT. X

PENDAHULUAN TINJAUAN PUSTAKA

Partitional clustering KLASTERING DENGAN METODE K-MEANS

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. Wiley & Sons, 2003, Hal : 1. 1 Poe Vidette, Klauer Patricia dan Brobst Stephen, Building A Data WareHouse for Decision Support

Penerapan Algoritma K-Means dalam Data Mining untuk Peminatan Jurusan Bagi Siswa Kelas X (Studi Kasus: SMA Negeri 29 Jakarta)

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA


PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

JULIO ADISANTOSO - ILKOM IPB 1

BAB 1 PENDAHULUAN Building A Data WareHouse for Decision Support Second Edition Data Mining : Concepts, Models, Methods, and Algorithms

BAB II KAJIAN PUSTAKA

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

BAB III K-MEDIANS CLUSTERING

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

BAB III ANALISA DAN PERANCANGAN

BAB 2 LANDASAN TEORI

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

Penggalian Informasi Potensial dari Basis Data di Perguruan Tinggi. Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

REKOMENDASI PEMBELIAN PERSONAL KOMPUTER DENGAN METODE RANKED CLUSTERING

Klasterisasi Data Kesehatan Penduduk untuk Menentukan Rentang Derajat Kesehatan Daerah dengan Metode K-Means

PENGELOMPOKAN DATA KORDINAT BTS MENGGUNAKAN k-means DAN VISUALISASI BERBASIS GOOGLE MAP

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN A. Latar Belakang

JURNAL KLASIFIKASI JENIS TANAMAN MANGGA BERDASARKAN TULANG DAUN MENGGUNAKAN METODE K-MEANS

BAB I PENDAHULUAN Latar Belakang

CLUSTERING MOTIVASI BELAJAR SISWA ELEARNING BERBASIS ALGORITMA K-MEANS

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

Clustering Data Ujian Tengah Semester (UTS) Data Mining Menggunakan Algoritma K-Means

Clustering. Virginia Postrel

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR

PENDAHULUAN TINJAUAN PUSTAKA

PENGELOMPOKAN MAHASISWA MENGGUNAKAN ALGORITMA K-MEANS

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem

PENERAPAN METODE CLUSTERING UNTUK MEMETAKAN POTENSI TANAMAN KEDELAI DI JAWA TENGAH DENGAN ALGORITMA FUZZY C- MEANS

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA

BAB I PENDAHULUAN. 1.1 Latar Belakang

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

Desain dan Implementasi Alat Participatory Environmental Sensing Untuk Meningkatkan Densitas Ketersediaan Data Lingkungan

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

BAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut :

BAB II TINJAUAN PUSTAKA

TEKNIK DATA MINING DAN DECISION SUPPORT SYSTEM UNTUK KEUNGGULAN BERSAING (Study Kasus Perusahaan TV Kabel )

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

Penerapan Metode Clustering Dengan K-Means Untuk Memetakan Potensi Tanaman Padi Di Kota Semarang

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

DATA MINING DAN WAREHOUSE A N D R I

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

DATA MINING DENGAN METODE CLUSTERING UNTUK PENGOLAHAN INFORMASI PERSEDIAAN OBAT PADA PUSKESMAS PANDANARAN SEMARANG

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

SISTEM PENDUKUNG KEPUTUSAN PEMASARAN PRODUK MENGGUNAKAN DATA MINING DENGAN K-MEANS CLUSTERING

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN. Dengan kemajuan teknologi informasi sekarang ini, kebutuhan akan

Student Clustering Based on Academic Using K-Means Algoritms

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

Transkripsi:

K Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan salah satu teknik yang digunakan dalam mengekstrak pola kecenderungan suatu data. Teknik ini ini digunakan dalam proses Knowledge discovery in database (KDD). Salah satu algoritma pembentukan cluster data adalah algoritma K Means. Algoritma bekerja dengan cara membagi data dalam k cluster. Setiap cluster ditentukan atas kedekatan jarak tiap tiap data dengan titik tengahnya (mean point). Sebuah basis data sangat mungkin berisi data non numerik, yang tidak dapat ditentukan titik tengahnya. Algoritma K Means dapat dipergunakan untuk pembentukan cluster dalam sebuah basis data yang besar dengan menerapkan aturan similarity dan dissimilarity terhadap data dalam basis data terlebih dahulu. Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K Means, Pendahuluan Dewasa ini pengolahan data elektronik telah menjadi kebutuhan yang sangat utama. Perkembangan pesat dalam teknologi informasi yang menjadikan semua informasi dapat disimpan dalam jaringan komputer telah membuat munculnya sistem basis data yang sangat besar. Dalam hitungan detik, data data dalam berbagai basis data akan senatiasa terbarukan, baik dikarenakan adanya update maupun penambahan data baru. Permasalahan yang kemudian muncul adalah bagaimana mengetahui informasi yang terdapat dalam basis data yang sangat besar. Knowledge discovery in Database (KDD) didefinisikan sebagai ekstraksi informasi potensial, implisit dan tidak dikenal dari sekumpulan data. Proses knowledge discovery melibatkan hasil dari proses data mining (proses Dipresentasikan dalam SEMNAS Matematika dan Pendidikan Matematika 2007 dengan tema Trend Penelitian Matematika dan Pendidikan Matematika di Era Global yang diselenggarakan oleh Jurdik Matematika FMIPA UNY Yogyakarta pada tanggal 24 Nopember 2007

Sri Andayani mengekstrak kecenderungan pola suatu data), kemudian mengubah hasilnya secara akurat menjadi informasi yang mudah dipahami. Ada beberapa macam pendekatan berbeda yang diklasifikasikan sebagai teknik pencarian informasi/pengetahuan dalam KDD. Ada pendekatan kuantitif, seperti pendekatan probabilistik and statistik. Beberapa pendekatan memanfaatkan teknik visualisasi, pendekatan klasifikasi seperti logika induktif, pencarian pola, dan analisis pohon keputusan. Pendekatan yang lain meliputi deviasi, analisis kecenderungan, algoritma genetik, jaringan syaraf tiruan dan pendekatan campuran dua atau lebih dari beberapa pendekatan yang ada. Pada dasarnya ada enam elemen yang paling esensial dalam teknik pencarian informasi/ pengetahuan dalam KDD ([7]), yaitu: (1) mengerjakan sejumlah besar data, (2) diperlukan efisiensi berkaitan dengan volume data, (3) mengutamakan ketepatan/keakuratan, (4) membutuhkan pemakaian bahasa tingkat tinggi, (5) menggunakan beberapa bentuk dari pembelajaran otomatis, dan (6) menghasilkan hasil yang menarik. Clustering Salah satu metode yang diterapkan dalam KDD adalah clustering. Clustering adalah membagi data ke dalam grup grup yang mempunyai obyek yang karakteristiknya sama ([1]). Garcia Molina et al. ([2]) menyatakan clustering adalah mengelompokkan item data ke dalam sejumlah kecil grup sedemikian sehingga masing masing grup mempunyai sesuatu persamaan yang esensial. Clustering memegang peranan penting dalam aplikasi data mining, misalnya eksplorasi data ilmu pengetahuan, pengaksesan informasi dan text mining, aplikasi basis data spasial, dan analisis web. Clustering diterapkan dalam mesin pencari di Internet. Web mesin pencari akan mencari ratusan dokumen yang cocok dengan kata kunci yang dimasukkan. Dokumen SEMNAS Matematika dan Pend. Matematika 2007

M 64: Pembentukan Cluster dalam... dokumen tersebut dikelompokkan dalam cluster cluster sesuai dengan katakata yang digunakan. Kategori clustering Tan, dkk.([4]) membagi clustering dalam dua kelompok, yaitu hierarchical and partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang seperti sebuah pohon berjenjang (hirarki). William ([8]) membagi algoritma clustering ke dalam kelompok besar seperti berikut: 1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria. 2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria. 3. Density based: pembentukan cluster berdasarkan pada koneksi dan fungsi densitas. 4. Grid based: pembentukan cluster berdasarkan pada struktur multiple level granularity 5. Model based: sebuah model dianggap sebagai hipotesa untuk masingmasing cluster dan model yang baik dipilih diantara model hipotesa tersebut. Algoritma K Means Algoritma K Means adalah algoritma clustering yang paling popular dan banyak digunakan dalam dunia industri [1]. Algoritma ini disusun atas dasar ide yang sederhana. Ada awalnya ditentukan berapa cluster yang akan dibentuk. Sebarang obyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagai titik tengah (centroid point) cluster. Algoritma K Means Matematika

Sri Andayani selanjutnya akan melakukan pengulangan langkah langkah berikut sampai terjadi kestabilan (tidak ada obyek yang dapat dipindahkan): 1. menentukan koordinat titik tengah setiap cluster, 2. menentukan jarak setiap obyek terhadap koordinat titik tengah, 3. mengelompokkan obyek obyek tersebut berdasarkan pada jarak minimumnya. Gambar 1 berikut menunjukkan diagram alir dari algoritma K Means. start Banyaknya cluster K Tentukan pusat Hitung jarak obyek ke pusat Kelompokkan obyek berdasar jarak minimum Berikut ini adalah ilustrasi penggunaan algoritma K means untuk menentukan cluster dari 4 buah obyek dengan 2 atribut, seperti ditunjukkan dalam Tabel 1. Clustering akan dilakukan untuk membentuk 2 cluster jenis obat berdasarkan atributnya ([6]). Ada obyek yang harus dipindah? ya Langkah langkah algoritma K means adalah sebagai berikut : 1. Pengesetan nilai awal titik tengah. end tidak Gambar 1. Flowchart algoritma K Means Misalkan obat A dan obat B masing masing menjadi titik tengah (centroid) dari cluster yang akan dibentuk. Tentukan koordinat kedua centroid tersebut,yaitu dan SEMNAS Matematika dan Pend. Matematika 2007

M 64: Pembentukan Cluster dalam... Tabel 1. Daftar obyek yang akan diolah dalam clustering Obyek atribut1 (X): indeks berat atribut 2 (Y): ph Obat A 1 1 Obat B 2 1 Obat C 4 3 Obat D 5 4 2. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarak Euclid. Misalnya jarak obyek pupuk C=(4,3) ke centroid pertama adalah dan jaraknya dengan centroid kedua adalah. Hasil perhitungan jarak ini disimpan dalam bentuk matriks k x n, dengan k banyaknya cluster dan n banyak obyek. Setiap kolom dalam matriks tersebut menunjukkan obyek sedangkan baris pertama menunjukkan jarak ke centroid pertama, baris kedua menunjukkan jarak ke centroid kedua. Matriks jarak setelah iterasi ke 0 adalah sebagai berikut: 3. Clustering obyek : Memasukkan setiap obyek ke dalam cluster (grup) berdasarkan jarak minimumnya. Jadi obat A dimasukkan ke grup 1, dan obat B, C dan D dimasukkan ke grup 2. Keanggotaan obyek ke dalam grup dinyatakan dengan matrik, elemen dari matriks bernilai 1 jika sebuah obyek menjadi anggota grup. Matematika

Sri Andayani 4. Iterasi 1, menetukan centroid : Berdasarkan anggota masing masing grup, selanjutnya ditentukan centroid baru. Grup 1 hanya berisi 1 obyek, sehingga centroidnya tetap. Grup 2 mempunyai 3 anggota, sehingga centroidnya ditentukan berdasarkan rata rata koordinat ketiga anggota tersebut:. 5. Iterasi 1, menghitung jarak obyek ke centroid: selanjutnya, jarak antara centroid baru dengan seluruh obyek dalam grup dihitung kembali sehingga diperoleh matriks jarak sebagai berikut: 6. Iterasi 1, clustering obyek: langkah ke 3 diulang kembali, menentukan keanggotaan grup berdasarkan jaraknya. Berdasarkan matriks jarak yang baru, maka obat B harus dipindah ke grup 2. 7. Iterasi 2, menentukan centroid: langkah ke 4 diulang kembali untuk menentukan centroid baru berdasarkan keanggotaan grup yang baru. Grup 1 dan grup 2 masing masing mempunyai 2 anggota, sehingga centroidnya menjadi dan SEMNAS Matematika dan Pend. Matematika 2007

M 64: Pembentukan Cluster dalam... 8. Iterasi 2, menghitung jarak obyek ke centroid : ulangi langkah ke 2, sehingga diperoleh matriks jarak sebagai berikut: 9. Iterasi 2, clustering obyek: mengelompokkan tiap tiap obyek berdasarkan jarak minimumnya, diperoleh: Hasil pengelompokkan pada iterasi terakhir dibandingkan dengan hasil sebelumnya, diperoleh. Hasil ini menunjukkan bahwa tidak ada lagi obyek yang berpindah grup, dan algoritma telah stabil. Hasil akhir clustering ditunjukkan dalam Tabel 2. Tabel 2. Hasil clustering Obyek atribut1 (X): indeks berat atribut 2 (Y): ph Grup hasil Obat A 1 1 1 Obat B 2 1 1 Obat C 4 3 2 Obat D 5 4 2 Kelebihan dan Kelemahan algoritma K means Algoritma K means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dengan catatan n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Biasanya, nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal ([8]). Matematika

Sri Andayani Hal yang dianggap sebagai kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan penyimpangan (noisy data dan outlier). Berkhin([1]) menyebutkan beberapa kelemahan algoritma K means adalah: (1) sangat bergantung pada pemilihan nilai awal centroid, (2) tidak jelas berapa banyak cluster k yang terbaik, (3) hanya bekerja pada atribut numerik. Similarity dan Dissimilarity Memperhatikan input dalam algoritma K Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif. Hal tersebut juga diungkapkan oleh Berkhin ([1]), bahwa algoritma K means hanya dapat mengolah atribut numerik. Sebuah basis data, tidak mungkin hanya berisi satu macam type data saja, akan tetapi beragam type. William ([8]) menyatakan sebuah basis data dapat berisi data data dengan type sebagai berikut: symmetric binary, asymmetric binary, nominal, ordinal, interval dan ratio. Sedangkan Pal dan Mitra menyebutkan sebuah basis data dapat berisi data data teks, simbol, gambar dan suara ([3]). Berbagai macam atribut dalam basis data yang berbeda type (dalam [5] disebut sebagai data multivariate, seperti nominal, ordinal, and kuantitatif) harus diolah terlebih dahulu menjadi data numerik, sehingga dapat diberlakukan algoritma K means dalam pembentukan clusternya. Pengukuran similarity dan dissimilarity dapat digunakan untuk pengolahan data tersebut ([5]). Atribut yang berbeda tipe sama artinya dengan adanya ketidaksamaan (dissimilarity) antar atribut tersebut. Ketidaksamaan (dissimilarity) antara dua obyek dapat diukur dengan menghitung jarak antar obyek berdasarkan beberapa sifatnya. Hubungan dissimilarity antara 2 buah data obyek SEMNAS Matematika dan Pend. Matematika 2007

M 64: Pembentukan Cluster dalam... a=(a1,a2,,ap) dan b=(b1,b2,.,bp) dapat dinyatakan dengan pengukuran jarak antara 2 obyek tersebut. Beberapa sifat jarak (dissimilarity) adalah sebagai berikut ([5] dan [8]): d(a, b) 0, jarak kedua obyek selalu positif atau nol, d(a, a) = 0, jarak terhadap diri sendiri adalah nol, d(a, b) = d(b, a), jarak kedua obyek adalah simetri, d(a, b) d(a, c) + d(c, b), jarak memenuhi ketidaksamaan segitiga. Misalkan dissimilarity antara obyek i dan obyek j dinyatakan dengan dij dan similarity dinyatakan dengan sij. Hubungan antara relationship dissimilarity dengan similarity dinyatakan dengan sij.=1 dij, dengan similarity terbatas pada 0 dan 1 ([5]). Jika similarity bernilai satu (benar benar sama), maka dissimilarity nol, dan jika similarity bernilai nol (sangat berbeda), dissimilarity bernilai satu. Setelah perhitungan jarak atau dissimilarity dari setiap variabel, maka seluruh hasil dikumpulkan menjadi sebuah indeks similarity (atau dissimilarity) antara dua obyek ([5]). Selanjutnya hasil tersebut dapat diolah menjadi obyek obyek yang akan dikelompokkan dalam cluster cluster oleh algoritma K means. Penutup K means adalah algoritma pembentukan cluster yang populer dan mengolah data numerik. Namun demikian, algoritma ini juga dapat digunakan untuk pembentukan cluster dari sebuah basis data yang atribut atributnya berasal dari tipe yang berbeda beda, dengan cara mengubah atribut atribut tersebut ke dalam indeks similarity atau dissimilarity. Referensi: [1] Berkhin, Pavel. Survey on clustering data mining techniques, http://www.ee.ucr.edu/~barth/ee242/clustering_survey.pdf Matematika

Sri Andayani [2] Garcia Molina, Hector; Ullman, JD., & Widom, Jennifer. 2002. Database systems the complete book, International edition. New Jersey, Prentice Hall. [3] Pal, Shankar K & Mitra, Pabitra. 2004. Pattern Recognition algorithms for data mining. CRC Press. [4] Tan, Pang Ning,; Steinbach,Michael; Kumar,Vipin. Data Mining Cluster Analysis: Basic Concepts and Algorithms. www users.cs.umn.edu/ ~kumar /dmbook/ 16k. [5] Teknomo, Kardi. Similarity Measurement http://people.revoledu.com/kardi/tutorial/similarity/index.html [6] Teknomo, Kardi. Numerical Example of K Means Clustering, http://people.revoledu.com/kardi/tutorial/kmean/numericalexample.htmn u [7] Wright, Peggy, Knowledge Discovery In Databases: Tools and Techniques, http://www.acm.org/crossroads/xrds5 2/kdd.html#11 [8] William, Graham, Data Mining Cluster, http://datamining.anu.edu.au/student/math3346_2005/ 050809 maths3346 clusters 2x2.pdf SEMNAS Matematika dan Pend. Matematika 2007