BAB 2 TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

BAB 2 LANDASAN TEORI

DATA MINING DAN WAREHOUSE A N D R I

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN

BAB II TINJAUAN PUSTAKA

STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract

KLASIFIKASI USAHA KECIL DAN MENENGAH (UKM) SEKTOR INDUSTRI DENGAN METODE FUZZY C-MEANS CLUSTERING WILAYAH KOTA CILEGON

BAB IV PENGOLAHAN DATA

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

MENENTUKAN NILAI AKHIR KULIAH DENGAN FUZZY C-MEANS

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

ALGORITMA FUZZY C-MEANS (FCM) UNTUK PENENTUAN NILAI CENTER RADIAL BASIS FUNCTION (RBF) PADA KLASIFIKASI DATA PENYAKIT KARIES GIGI

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

BAB II LANDASAN TEORI

Gambar 3.1 Contoh Citra yang digunakan

Penerapan Metode Fuzzy C-Means dengan Model Fuzzy RFM (Studi Kasus : Clustering Pelanggan Potensial Online Shop)

CLUSTERING LULUSAN MAHASISWA MATEMATIKA FMIPA UNTAN PONTIANAK MENGGUNAKAN ALGORITMA FUZZY C-MEANS

1. Pendahuluan. 2. Tinjauan Pustaka

BAB II LANDASAN TEORI. Pada bab ini akan dibahas mengenai teori-teori yang akan digunakan untuk menunjang dalam proses pembuatan tugas akhir ini.

Melihat Pengaruh Cuaca Terhadap Penyakit Demam Berdarah Di Banjarbaru menggunakan Fuzzy C-Means

Break Even Point Estimation Using Fuzzy Cluster(FCM)

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Break Even Point Estimation Using Fuzzy Cluster(FCM)

BAB III METODE PENELITIAN

Pemilihan Minat Topik Tugas Akhir Menggunakan Metode Fuzzy C-Means

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. Penelitian dengan menggunakan metode k-means dan metode fuzzy c-means

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

Klasifikasi Risiko Bahaya Kehamilan dengan Metode Fuzzy C-Means

PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB II TINJAUAN PUSTAKA

Pengelompokan Data Guru Untuk Pemilihan Calon Pengawas Satuan Pendidikan Menggunakan Metode Fuzzy C-Means dan Kohonen Self Organizing Maps

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA

BAB II LANDASAN TEORI

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB III PERANCANGAN SISTEM. pengetahuannya melalui buku-buku yang ada. Pihak perpustakaan harus. sesuai dengan kebutuhan dan anggaran yang disediakan.

Pengenalan Pola. K-Means Clustering

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI

KLUSTERING BERBASIS PROTOTIPE DENGAN METODE FUZZY C-MEANS

JULIO ADISANTOSO - ILKOM IPB 1

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

IMPLEMENTASI FUZZY C-MEANS UNTUK CLUSTERING PENDUDUK MISKIN (STUDI KASUS : KECAMATAN BANTUL) Abstrak

ANALISIS KINERJA ALGORITMA CLUSTERING FUZZY TSUKAMOTO DENGAN FUZZY C-MEANS

BAB 2 LANDASAN TEORI

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

IMPLEMENTASI PENGENALAN POLA UNTUK MENGEVALUASI HASIL PEMBELAJARAN DENGAN METODE FUZZY C-MEANS

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Bab 2 Tinjauan Pustaka

Clustering. Virginia Postrel

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

BAB III LANDASAN TEORI. 3.1 Metode GLCM ( Gray Level Co-Occurrence Matrix)

BAB III METODOLOGI PENELITIAN

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 2 TINJAUAN PUSTAKA

REDUKSI DIMENSI INPUT PADA JARINGAN SYARAF PCA-RBF DENGAN SINGULAR VALUE DECOMPOSITION

APLIKASI ALGORITMA FUZZY C-MEANS CLUSTERING UNTUK PENGELOMPOKKAN LULUSAN

BAB 2 LANDASAN TEORI

PEMBANGKITAN ATURAN FUZZY MENGGUNAKAN FUZZY C-MEANS (FCM) CLUSTERING UNTUK DIAGNOSA RISIKO PENYAKIT JANTUNG KORONER (PJK)

SIMULASI SISTEM PENDUKUNG KEPUTUSAN MENGGUNAKAN METODE KLUSTERING ALGORITMA FUZZY c-means

CLUSTERING GENDER BERDASARKAN NILAI MAKSIMUM MINIMUN AMPLITUDO SUARA BERBASIS FUZZY C-MEANS (FCM)

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB III PEMBAHASAN. FRBFNN, Arsitektur FRBFNN, aplikasi FRBFNN untuk meramalkan kebutuhan

BAB II LANDASAN TEORI

UKDW BAB I PENDAHULUAN

APLIKASI SISTEM REKOMENDASI TOPIK SKRIPSI PROGRAM STUDI TEKNIK INFORMATIKA DENGAN METODE SELF ORGANIZING MAP(SOM)

FUZZY-NEURO LEARNING VECTOR QUANTIZATION (FNLVQ)

PENGEMBANGAN ALGORITMA PENENTUAN TITIK AWAL DALAM METODE CLUSTERING ALGORITMA FUZZY C-MEANS

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

Sistem Pendukung Keputusan Pengadaan Buku Perpustakaan STIKOM Surabaya Menggunakan Metode Fuzzy C-Means Clustering

PENGKLASIFIKASIAN LULUSAN JURUSAN TEKNIK ELEKTRO BERDASARKAN NILAI IPK DENGAN METODE FUZZY CLUSTERING. M. Rodhi Faiz

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

PENDAHULUAN. 1.1 Latar Belakang

Enigma Journal of Infotmatic (ENJOI 2016) ISSN :

Analisis Kinerja Algoritma Fuzzy C-Means dan K-Means pada Data Kemiskinan

BAB III METODOLOGI PENELITIAN

BAB 2 LANDASAN TEORI

BAB III K-MEDIANS CLUSTERING

BAB II LANDASAN TEORI

BAB III ANALISA DAN PERANCANGAN SISTEM

PENGKLASIFIKASIAN MAHASISWA JURUSAN TEKNIK ELEKTRO YANG MENGIKUTI MATA KULIAH RANGKAIAN LISTRIK DENGAN METODE FUZZY CLUSTERING. M.

BAB I PENDAHULUAN Latar Belakang

SISTEM PENGAMBILAN KEPUTUSAN BERBASIS VISUALISASI DATA MULTIDIMENSI MENGGUNAKAN METODE FUZZY C-MEANS

IMPLEMENTASI ALGORITMA CLUSTERING ISMC DAN FCM (STUDI KASUS: JALUR PMB DI IT TELKOM BANDUNG)

BAB II LANDASAN TEORI

BAB III ANALISIS_DAN_PERANCANGAN_APLIKASI. Langkah ini dilakukan untuk mengetahui permasalahan-permasalahan yang

BAB II TINJAUAN PUSTAKA

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Transkripsi:

4 BAB 2 TINJAUAN PUSTAKA 2.1 Metode Clustering Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu wilayah yang sama dan data dengan karakteristik yang berbeda ke wilayah yang lain. Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki (Oliveira et al, 2007). Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam clustercluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM). 2.2 Clustering Dengan Pendekatan Partisi 2.2.1 K-Means Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means.

5 Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur sebagai berikut (Maimon et al, 2010): 1. Tentukan jumlah cluster 2. Alokasikan data secara random ke cluster yang ada 3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya 4. Alokasikan kembali semua data ke cluster terdekat 5. Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari sudut yang lain, ditemukan bahwa k-means clustering mempunyai beberapa kelemahan. 2.2.2 Mixture Modelling (Mixture Modeling) Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center, penggunaan distribusi statistik ini mengijinkan kita untuk (Hastie et al, 2010): 1. Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda 2. Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik dari masing-masing cluster 3. Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson, von-mises, Gamma dan Student t, juga

6 diterapkan untuk bisa mengakomodasi berbagai keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya. 2.3 Clustering dengan Pendekatan Hirarki Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster. Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data. Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa (Everitt et al, 2011). 2.3.1 Agglomerative Clustering Didalam agglomerative clustering dimulai dengan mewakili setiap data observasi dengan memasukkannya sebagai cluster tunggal. Kemudian mencari pasangan cluster yang berbeda. Pasangan cluster tersebut disatukan sehingga menjadi satu cluster yang kemudian pada langkah-langkah selanjutnya akan menghasilkan pengurangan jumlah cluster dan akhirnya menghasilkan hanya satu cluster yang mewakili semua data.

7 Untuk itu ukuran untuk menentukan ketidaksamaan setiap cluster harus ditentukan terlebih dahulu (Everitt et al, 2011). 2.3.1.1 Single Linkage Metode Single Linkage clustering(sl) sering juga disebut dengan nearest-neighbor tehnique dimana pencarian pasangan jarak untuk disatukan berdasarkan pengukuran jarak terdekat. Sebut saja G dan H adalah dua cluster yang akan disatukan. Ketidaksamaan jarak d(g,h) akan di hitung lalu dengan cara membandingkan setiap jarak anggota kelompok dari G i terhadap jarak setiap anggota kelompok dari H i kemudian mencari pasangan yang jaraknya terdekat. dd SSSS (GG, HH) = mmmmmm(dd iiii ); ii GG; ii HH (2.1) (Hastie et al, 2010) 2.3.1.2 Complete Linkage Pada metode Complete Linkage Agglomerative Clustering (CL) biasa disebut dengan metode furthest neighbor technique. Metode ini secara umum prosesnya hampir sama dengan metode single linkage tetapi pada pencarian pasangan, metode complete linkage mencari pasangan yang jaraknya terjauh dari nilai observasi. dd CCCC(GG, HH) = mmmmmm(dd iiii ); ii GG; ii HH (2.2) (Hastie et al, 2010) Metode ini didasarkan pada jarak maksimum. Pada metode ini juga mengelompokkan data pada jarak yang terjauh terlebih dahulu. Metode ini dikenal dengan nama tetangga terjauh. Sesuai dengan persamaan (2.2). Ketidak-samaan antara G, H adalah ketidak samaan antara dua titik pada kelompok yang bertentangan. Ketidak samaan d ij adalah jarak yang ditandai dengan warna dari kedua titik pada gambar dibawah ini.

8 Gambar 2.1 Jarak dua titik yang terjauh pada algoritma Agglomerative Clustering Complete Linkage. Hasil dari Algoritma Complete Linkage dibuat dalam sebuah dendogram yang biasa disebut diagram pohon. Setiap cabang akan bertemu dan disatukan. Selanjutnya proses ini akan memotong cabang tree dan kemudian d [CL] akan menghasilkan titik terjauh. Pada Gambar 2.2 tree akan di potong pada h=5. Gambar 2.2 Contoh Pemotongan cabang dendogram pada h=5 Hasil Algoritma Fuzzy C-Means yang menggunakan Complete Linkage sebagai algoritma yang menentukan titik pusat cluster akan menghasilkan nilai fungsi objektif objektif yang berbeda dan nilai tersebut akan di bandingkan dengan menggunakan grafik oleh Algoritma Fuzzy C-Means biasa dengan juga memperhitungkan jumlah perulangan yang didapat dan besar iterasi.

9 Dengan bobot dan parameter serta data yang sama di harapkan algoritma fuzzy c- means yang dikembangkan menghasilkan tingkat efisiensi dari segi waktu yang paling utama adalah jumlah iterasi atau perulangan untuk mencapai P t P t-1 < ξ lebih baik dari sebelumnya. Start Input jumlah cluster yang akan di bentuk Jumlah Cluster(n) = Jumlah Data (N) Hitung tingkat kemiripan antar cluster Tidak Jarak terjauh Antar Cluster? Y Gabungkan Cluster Terbentuk Cluster sebanyak k End Gambar 2.3 Flowchart algoritma Agglomerative Clustering Complete Linkage.

10 2.3.1.3 Pembuatan Centroid Data Pembuatan centroid data atau pusat data didasari pada paper multistage random sampling FCM Algorithm yang menyatakan bahwa sekelompok kecil vector dapat digunakan untuk mengaproksimasi pusat cluster keseluruhan sekelompok besar data (Cheng et al, 1998). Untuk itu pemilihan algoritma complete linkage yang mencari pusat cluster berdasarkan pasangan terjauh diharapkan tepat untuk memprediksi nilai pusat pusat cluster yang diteliti. Namun demikian pada algoritma complete linkage yang memilih pusat cluster dengan perbandingan maximum jarak A ke B akan mengakibatkan pusat cluster tersebut tetap condong pada jarak yang paling maximum sehingga pusat cluster tidak tepat untuk mewakili sekelompok nilai. Pada pemodelan pencarian pusat cluster menggunakan algoritma complete linkage diubah menjadi nilai tengah dari perbandingan dua jarak minimum dan maximum. VV iiii (AA, BB) = mmmmmm dd(aa, BB) 1 max (dd(aa, BB)) min (dd(aa, BB)). (2.3) 2 Sehingga perbandingan pusat cluster dengan nilai tengah terdapat pada gambar berikut ini: Gambar 2.4 Perbandingan pencarian pusat cluster, kiri Complete Linkage dan kanan Persamaan (2.3). Sedangkan untuk perhitungan jarak untuk pencarian fungsi keanggotaan baru pada algoritma C-Means ketika setelah melakukan proses inisialisasi titik awal. cc ss dd ii = XX iiii VV jjjj 2. (2.4) jj =1 kk=1

11 2.3.1.4 Average Linkage Ukuran yang menjadi tolak ukur ketidaksamaan untuk menyatukan kedua cluster tidak hanya berdasarkan kedekatan jarak maupun bedasarkan jarak terjauh. Pada metode lain terdapat metode Average Linkage atau disebut juga Group Average(GA) yang mencari pasangan dengan melihat rata-rata jarak setiap nilai observasinya. dd GGGG (GG, HH) = 1 NN GG NN ii HH dd iiii HH ii GG...(2.5) (Hastie et al, 2010) 2.3.2 Divisive Clustering Algoritma ini membagi satu cluster yang berisi banyak data menjadi beberapa cluster kecil. Divisive clustering memulai dengan memasukkan semua data kedalam satu cluster tunggal lalu membagi cluster yang ada menjadi dua anak-anak cluster hingga secara rekursif membagi menjadi N buah cluster untuk setiap nilai observasi. Sebagai pengukuran untuk melihat ketidaksamaan untuk setiap cluster adalah: dd GG = 1 NN ii HH dd iiii GG ii GG.(2.6) (Hastie et al, 2010) 2.4 Clustering Dengan Pendekatan Automatic Mapping 2.4.1 Self-Organising Map (SOM) Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling). Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip dengan K-Means dan

12 KNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut (Hastie et al, 2010): 1. Tentukan weight dari input data secara random 2. Pilih salah satu input data 3. Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU)) 4. Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus: Wv(t+1)=Wv(t) + Theta(v, t) x Alpha(t) x (D(t) Wv(t)) (2.7) (Hastie et al, 2010) Dimana: o o o o Wv(t): Weight pada saat ke-t Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan. Alpha (t): Learning Coefficient yang berkurang secara monotonic D(t): Input data 5. Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi

13 2.5 Clustering Dengan Pendekatan Berbasis Fuzzy 2.5.1 Fuzzy Clustering Means (Fuzzy C-Means) Fuzzy clustering adalah proses menentukan derajat keanggotaan, dan kemudian menggunakannya dengan memasukkannya kedalam elemen data kedalam satu kelompok cluster atau lebih. Hal ini akan memberikan informasi kesamaan dari setiap objek. Satu dari sekian banyaknya algoritma fuzzy clustering yang digunakan adalah algoritma fuzzy clustering c means. Vektor dari fuzzy clustering, V={v 1, v 2, v 3,, v c }, merupakan sebuah fungsi objektif yang di defenisikan dengan derajat keanggotaan dari data X j dan pusat cluster V j. Algoritma fuzzy clustering c means membagi data yang tersedia dari setiap elemen data berhingga lalu memasukkannya kedalam bagian dari koleksi cluster yang dipengaruhi oleh beberapa kriteria yang diberikan. Berikan satu kumpulan data berhingga. X= {x 1,, x n } dan pusat data. nn cc JJ mm (XX, UU, VV) = μμ iiii mm jj =1 ii=1 dd 2 (XX jj, VV ii ). (2.8) (Valarmathie et al, 2009) Dimana μ ij adalah derajat keanggotaan dari X j dan pusat cluster adalah sebuah bagian dari keanggotaan matriks [μ ij]. d 2 adalah akar dari Euclidean distance dan m adalah parameter fuzzy yang rata-rata derajat kekaburan dari setiap data derajat keanggotaan tidak lebih besar dari 1,0 (Valarmathie et al, 2009) Output dari Fuzzy C-Means merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Informasi ini dapat digunakan untuk membangun suatu fuzzy inference system.

14 2.5.2 Langkah Algoritma Fuzzy Clustering Means (FCM) Algoritma Fuzzy C-Means adalah sebagai berikut: 1. Input data yang akan dicluster X, berupa matriks berukuran n x m (n=jumlah sample data, m=atribut setiap data). X ij =data sample ke-i (i=1,2,,n), atribut kej (j=1,2,,m). 2. Tentukan : 1. Jumlah cluster = c 2. Pangkat = w 3. Maksimum iterasi = MaxIter 4. Error terkecil yang diharapkan = ξ 5. Fungsi obyektif awal = Po = 0 6. Iterasi awal = t = 0 3. Bangkitkan nilai acak μik, i=1,2,,n; k=1,2,,c sebagai elemen-elemen matriks partisi awal μik. μik adalah derajat keanggotaan yang merujuk pada seberapa besar kemungkinan suatu data bisa menjadi anggota ke dalam suatu cluster. Posisi dan nilai matriks dibangun secara random. Dimana nilai keangotaan terletak pada interval 0 sampai dengan 1. Pada posisi awal matriks partisi U masih belum akurat begitu juga pusat clusternya. Sehingga kecendrungan data untuk masuk suatu cluster juga belum akurat. QQ ii = cc kk=1 μμ iiii..(2.9) (Bezdek, 1981) Langkah selanjutnya lakukan normalisasi data dengan menggunakan persamaan berikut: μμ iiii = μμ iiii QQ ii (2.10) (Bezdek, 1981) 4. Hitung pusat Cluster ke-k: V kj,dengan k=1,2, c dan j=1,2, m. dimana X ij adalah variabel fuzzy yang digunakan dan w adalah bobot.

15 V kj n ik i= 1 = n w ( µ ) * X ) ( µ ik ) i= 1 w ij..... (2.11) (Das, 2013) 5. Fungsi objektif digunakan sebagai syarat perulangan untuk mendapatkan pusat cluster yang tepat. Sehingga diperoleh kecendrungan data untuk masuk ke cluster mana pada step akhir. 6. Hitung fungsi obyektif pada iterasi ke-t, P t P t = n c m 2 ( X ij Vkj ) ( µ ik ) i= 1 k= 1 j= 1 w... (2.12) (Bezdek, 1981) 7. Perhitungan fungsi objektif P t dimana nilai variabel fuzzy X ij di kurang dengan dengan pusat cluster V kj kemudian hasil pengurangannya di kuadradkan lalu masing-masing hasil kuadrad di jumlahkan untuk dikali dengan kuadrad dari derajat keanggotaan μ ik untuk tiap cluster. Setelah itu jumlahkan semua nilai di semua cluster untuk mendapatkan fungsi objektif P t. 8. Hitung perubahan matriks partisi: µ ik = m ( X ij Vkj ) c m ( X ij Vkj ) k= 1 j= 1 j= 1 2 2 1 w 1 1 w 1. (2.13) (Bezdek, 1981) Atau uu iiii = 1 2 dd mm 1 cc iiii jj =1 dd jjjj uuuuuuuuuu dd iiii = XX kk VV ii > 0, ii dddddd kk (2.14) (Bezdek, 1981)

16 9. Dengan: i=1,2, n dan k=1,2,..c. Untuk mencari perubahan matrik partisi μ ik,pengurangan nilai variabel fuzzy X ij di lakukan kembali terhadap pusat cluster V kj lalu dikuadradkan. Kemudian dijumlahkan lalu dipangkatkan dengan - 1/(w-1) dengan bobot, w=2 hasilnya setiap data dipangkatkan dengan -1. Setelah proses perhitungan dilakukan, normalisasikan semua data derajat keanggotaan baru dengan cara menjumlahkan derajat keanggotaan baru k=1, c, hasilnya kemudian dibagi dengan derajat keanggotaan yang baru. Proses ini dilakukan agar derajat keanggotaan yang baru mempunyai rentang antara 0 dan tidak lebih dari 1. 10. Cek kondisi berhenti, jika:( Pt Pt-1 < ξ) atau (t>maxiter) maka berhenti, jika tidak, t=t+1, ulangi langkah ke-4. 11. Harapan yang di inginkan adalah sesuai persamaan, dimana cc jj =1 uu iiii = 1, 1 ii nn (2.15)(Bezdek, 1981) uu iiii 0, 1 ii nn, 1 jj cc (2.16)

17 Start Input Data Inisialisasi w, maxiter, c, MinErr(ξ), P [0]= 0, t=0, n=numdata generate µ [n][c], Hitung Pusat Cluster V ij Hitung Fungsi Objektif P [t] Tidak Hitung Perubahan Matrix Partisi, µ [n][c] Baru P[t]-P[t-1]< ξ t=maxiter Ya Pusat Cluster V ij, Matrix baru µ ij End Gambar 2.5 Flowchart Fuzzy C-Means

18 2.6 Cluster Analysis Dalam cluster analisis pengelompokan objek dilakukan berdasarkan kesamaan dan ketidaksamaan. Setiap objek yang tergabung didalam satu kelompok atau lebih dalam Fuzzy c-means memiliki tingkat homogenitas yang tinggi dibandingkan objek lainnya. Untuk itu pengujian dapat dilakukan dengan melihat nilai variansi atau sebaran data. Variansi cluster dapat ditentukan dengan persamaan. nn cc VV 2 cc = 1 nn cc 1 (xx ii xx cc ) 2. (2.17) (wwwwwwww, 2006) ii=1 Berdasarkan persamaan 2.17 yang menghasilkan variansi setiap cluster, maka kepadatan suatu cluster bisa didapat dengan analisis variance within cluster, sesuai dengan persamaan 2.18. VV ww = 1 cc NN cc (nn 2 ii 1). VV ii. (2.18)(wwwwwwww, 2006) ii=1 Analisis yang lain adalah untuk melihat sebaran data antara cluster(variance between cluster) bisa dihitung dengan persamaan 2.19 dibawah ini. kk VV bb = 1 kk 1 nn ii(xx ii xx ). (2.19)(wwwwwwww, 2006) ii=1 Cluster dengan nilai V w minimum dapat merepresentasikan Internal Homogenity sehingga cluster tersebut lebih mendekati ideal. Sedangkan V b dengan nilai terbesat memaparkan External Homogenity. Pada persamaan selanjutnya dapat menyatakan batasan variansi. VV = VV ww VV bb. (2.20)(wwwwwwww, 2006)