Fakultas Teknologi Informasi Universitas Kristen Maranatha

Transkripsi

1 S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha 1

2 Agenda Clustering Requirement untuk clustering Tipe data dalam cluster analysis Interval-scale variable Binary variable Nominal variable Ordinal variable Ratio-scaled variable Partitioning clustering Hierarchical clustering 2

3 Clustering Cluster : Kumpulan objek yang sejenis/ berkarakter sama dalam1 cluster Kumpulan objektidaksejenis/berbeda dalamcluster lainnya. Cluster analysis Menemukan kemiripan antar data berdasarkan karakteristik yang ditemukan pada data, kemudian mengelompokkan data objek yang mirip ke dalam cluster Unsupervised learning: no predefined classes 3

4 Clustering Contoh penerapan umum : Bisnis : Menemukan grup customer dan target pemasaran. Biologi : menurunkan taksonomi tanaman dan hewan, mengkategorikan gen Web : mengklasifikasikan dokumen untuk information retrieval Dapat sebagai proses awal untuk algoritma lain seperti misalnya characterization atau classification 4

5 Quality: What Is Good Clustering? Metoda clusteringyang baik menghasilkan high quality clusters : high intra-class similarity low inter-classsimilarity Kualitas hasil clustering bergantung pada ukuran kemiripan yang dipakai dan implementasinya Kualitas clustering diukur juga dengan kemampuan untuk menemukan hidden pattern 5

6 Struktur Data dalam Cluster Analysis Data matrix (object by variable structure) Dissimilarity matrix (object by object structure) 6

7 Data matrix Menyatakan n object, misal orang, dengan p variable (= measurements atau attribute) mis. umur, tinggi, berat, gender, ras, dll. Strukturnya dapat dlm bentuk tabel relasional ataupun matriks n x p x x i1... x n x 1f... x if... x nf x 1p... x ip... x np 7

8 Dissimilarity matrix Menyimpan sekumpulan proximity yang tersedia untuk seluruh pasangan n object. Direpresentasikan dalam bentuk tabel nxn, dimana d(i,j) adalah difference atau dissimilarityantara object i dan j. Semakin dekat d(i,j) dengan 0, berarti object i dan j semakin dekat. 0 d(2,1) 0 d(3,1) d(3,2) 0 : : : : : : d(n,1) d(n,2)

9 Tipe data dalam Cluster Analysis Interval-scale variable Binary variable Nominal variable Ordinal variable Ratio-scaled variable Kombinasi tipe-tipe di atas. 9

10 Interval-scale variable Adalah pengukuran kontinyu untuk skala yang hampir linear. Mis. Berat & tinggi, koordinat lintang dan bujur (untuk meng-cluster rumah), dan temperatur udara. Perubahan satuan dapat mempengaruhi cluster analysis, mis. Dari meter inch Semakin kecil satuan ukurannya, range variable akan semakin besar, mengubah struktur clustering data perlu distandarkan 10

11 Interval-scale variable Menstandarkan data : data ukuran diubah ke variable yang tidak ada satuannya (unitless) dengan cara : 1. Menghitung mean absolute deviation, s f : s f = 1/n( x 1f -m f + x 2f -m f + + x nf -m f ) x 1f,, x nf : n pengukuran untuk variabel f. m f : nilai rata-rata variabel f. 2. Menghitung standardized-measurement/ z-score : Z if = x if m f s f 11

12 Interval-scale variable Dissimilarity dalam interval-scale variable dihitung berdasar jarak (distance) antara tiap pasang object. Beberapa pengukuran distance : Euclidean distance Manhattan distance Minkowski distance 12

13 Euclidean distance d(i,j) = x i1 x j1 2 + x i2 x j x ip x jp 2 i = (x i1,x i2,,x ip ) j= (x j1,x j2,,x jp ) i dan j adalah dua p-dimensional data object 13

14 Manhattan/city block distance d(i,j) = x i1 x j1 + x i2 x j2 + + x ip x jp i = (x i1,x i2,,x ip ) j= (x j1,x j2,,x jp ) i dan j adalah dua p-dimensional data object 14

15 Minkowski distance Merupakan generalisasi Euclidean dan Manhattan distance. d(i,j) = ( x i1 x j1 q + x i2 x j2 q + + x ip x jp q ) 1/q q : integer positif. Menyatakan Manhattan distance jika q = 1 Menyatakan Euclidean distance jika q = 2 15

16 Weighted Euclidean distance Tiap variable dapat diberi bobot sesuai tingkat kepentingannya. Euclidean distancenya dapat dihitung sbb : d(i,j) = w 1 x i1 x j1 2 + w 2 x i2 x j w p x ip x jp 2 Pembobotan juga dapat diaplikasikan pada Manhattan dan Minkowski distance 16

17 Binary variables Merupakan variabel yang memiliki 2 state, yaitu 0 dan 1. 0 = tidak ada, 1 = ada Misal, pada object pasien, terdapat variable perokok. 1 = pasien perokok, 0 = pasien bukan perokok. Binary variable jika diperlakukan seperti intervalscale variable hasil cluster salah. 17

18 Binary variable Menghitung dissimilarity : Dissimilarity matrix untuk binary variables yang berbobot sama. object j 1 0 jml 1 q r q+r object i 0 s t s+t jml q+s r+t p 18

19 Binary variable Symmetric binary variable : Kedua state-nya bernilai dan berbobot sama. Misal, variable gender. invariant similarity : hasil tdk berubah variable dikodekan secara berbeda. r+s d(i,j) = q+r+s+t 19

20 Binary variable Asymmetric binary variable : Jika hasil state tidak sama tingkat kepentingannya. Mis. Hasil test penyakit, positif/negatif. Hanya diambil hasil yang paling penting saja (biasanya yg terjarang) dan dikodekan sebagai 1 (ex. Positif HIV), sedang yg lain 0 (ex. Negatif HIV). Dengan 2 variable, 2 buah state 1 lebih penting dari 2 buah state 0, sehingga seringkali disebut monary (seperti hanya memiliki 1 state). noninvariant similarity. Menggunakan koefisien Jaccard, yaitu nilai t diabaikan. r+s d(i,j) = q+r+s 20

21 Binary variable name gender fever cough test-1 test-2 test-3 test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y Y N N N N : : : : : : : : : : : : : : : : Object-id : name Symmetric attribute : gender Assymetric : atribut lainnya Y dan P 1, N 0 Distance antarobject dihitung berdasar asymmetric variable. 21

22 Binary variable 0+1 d(jack,mary) = = d(jack,jim) = = d(jim,mary) = = Distance jim dan mary paling besar, dalam kasus ini berarti penyakitnya paling tidak sama. Jack dan mary sebaliknya. 22

23 Nominal variables Adalah generalisasi binary variable dalam hal variable ini dapat menampung lebih dari 2 state. Ex., variable warna_peta mempunyai 5 state merah, hijau, biru, kuning, hitam. State dinyatakan dalam huruf, simbol, atau integer 1,2,,M. Integer hanya untuk penunjuk data, tidak menunjukkan urutan tertentu. 23

24 Nominal variable Menghitung dissimilarity untuk nominal variable : p-m d(i,j) = p m adalah banyaknya i dan j yang state-nya sama. p adalah jumlah seluruh variable. Dapat dikodekan ke asymmetric binary variable. Ex. Object yang mempunyai warna kuning diset 1, sedangkan warna lainnya 0, dst untuk masing-masing warna. Koefisien dissimilarity dihitung dengan cara yang sama dengan binary variable. 24

25 Ordinal variable Discrete ordinal variable : seperti nominal variable, hanya saja state M yang bernilai ordinal diurutkan dalam urutan yang mempunyai arti. Continuous ordinal variable : sekumpulan data yang kontinyu dari suatu skala yang tidak diketahui. Yang penting adalah urutannya, bukan bobot / pengaruh/tingkat kepentingan urutan tersebut. Misal, rangking emas, perak, perunggu. Urutannya lebih penting daripada nilai ukuran sesungguhnya. 25

26 Ordinal variable Nilai ordinal variable dapat dipetakan ke ranking. Jika terdapat ordinal variable f yang mempunyai Mf state, state yang terurut menentukan ranking 1,, Mf. Menghitung dissimilarity antar objectnya seperti pada interval-scaled variable. 26

27 Ordinal variable Misalkan fadalah variable dari sehimpunan ordinal variable yang menjelaskan n object. 1. Nilai funtuk object ke-iadalah x if, dan f mempunyai Mf state yang terurut yang menyatakan ranking 1,, Mf. Gantikan tiap x if dengan ranking yang bersangkutan, r if Є {1,, Mf}. 2. Tiap ordinal variable dapat mempunyai bbrp state yg berbeda range variable dipetakan ke [0.0, 1.0] supaya bobotnya sama. r if dari object ke-idalam variable ke-fdiganti dengan z if 27

28 Ordinal variable Z if = r if 1 M f Dissimilarity dihitung menggunakan berbagai rumus distance yang ada pada interval-scaled variable, menggunakan z if untuk menyatakan nilai funtuk object ke-i. 28

29 Ratio-scaled variable Membuat pengukuran yang positif pada skala nonlinier, misal pada skala eksponensial yang menggunakan rumus : Ae Bt atau Ae -Bt. A dan B adalah konstanta positif. Ex. : pertumbuhan populasi bakteri. 29

30 Ratio-scaled variable Menghitung dissimilarity : Variable diperlakukan seperti interval-scale variable. Dapat mengakibatkan distorsi skala. Melakukan transformasi logaritmis pada ratio-scaled variable fyang mempunyai nilai x if untuk object i dengan rumus y if = log(x if ), kemudian y if diperlakukan sebagai nilai interval-scaled variable. Memperlakukan x if sebagai data continuous ordinal dan memperlakukan rankingnya sebagai nilai intervalscaled variable. 30

31 Variable bertipe campuran Menghitung dissimilarity antar object bertipe variable campuran : Mengelompokkan menurut jenis variable, lalu melakukan cluster analysis secara terpisah untuk tiap jenis variable. Memungkinkan jika analisis dapat menurunkan hasil yang kompatibel. Memproses seluruh tipe variable bersama-sama, melakukan 1 cluster analysis, misalnya dengan membentuk 1 dissimilarity matrix dengan skala interval [0.0,1.0] 31

32 Menghitung dissimilarity matrix pada mixed variable d( i, j) p f = 1 = p δ f = 1 ( f ) ij δ d ( f ) ij ( f ) ij δ ( f ) ij = 0 jika x if atau x jf tidak ada, atau X if =x jf = 0 dan variable f adalah asymmetric binary. Jika tidak, maka δ ( f ) ij = 1. 32

33 Menghitung dissimilarity matrix pada mixed variable Kontribusi variable f terhadap dissimilarity antara i ( f ) dan j, δ ij,dihitung tergantung dari tipenya: Jikaf adalahbinary ataunominal : ( f ) δ ij ( f ) ij = 0 jikaxif = xjf. Jikatidak, δ = 1. Jika f adalah interval-based : ( f ) if jf d = ij max x x dengan h adalah seluruh nonmissing h hf minh hf object untuk variable f. Jika f adalah ordinal atau ratio-scaled : Hitungranking r if dan sebagai interval-scaled x x z if = M r if 1 f 1 δ ij, danz if diperlakukan 33

34 Types of Clusterings Partitional Clustering A division data objects into non-overlapping subsets (clusters) such that each data object is in exactly one subset Hierarchical clustering A set of nested clusters organized as a hierarchical tree

35 Partitional Clustering Original Points A Partitional Clustering

36 Hierarchical Clustering p1 p3 p4 p2 p1 p2 p3 p4 Traditional Hierarchical Clustering Traditional Dendrogram p1 p3 p4 p2 p1 p2 p3 p4 Non-traditional Hierarchical Clustering Non-traditional Dendrogram

37 MetodePartitioning Metode Partitioning : Jika terdapat kpartisi yang akan dibuat, metode ini membuat partisi awal. Kemudian digunakan teknik relokasi secara iteratif untuk memperbaiki partisi dengan memindahkan object dari satu grup ke grup lain. Algoritma umum : 1. K-means Tiap cluster dinyatakan berdasar nilai mean object di dalam cluster. 2. K-medoids Tiap cluster dinyatakan berdasar satu object yang lokasinya berdekatan dengan inti cluster. 37

38 The K-MeansClustering Method Algoritma K-means diimplementasikan sbb: 1. Partisi objek ke dalam k himpunan yg tidak kosong 2. Hitung jarak setiap objek ke centroid dari cluster setiap partisi (centroid : titik pusat, mis. mean point) 3. Assign setiap objek ke dalam cluster berdasarkan jarak terdekat (minimum distance) 4. Kembali ke langkah 2, berhenti jika tidak ada perubahan cluster. 38

39 The K-MeansClustering Method Assign each objects to most similar center reassign Update the cluster means reassign K=2 Arbitrarily choose K object as initial cluster center Update the cluster means

40 Hierarchical Clustering Produces a set of nested clusters organized as a hierarchical tree Can be visualized as a dendrogram A tree like diagram that records the sequences of merges or splits

41 MetodeHierarchical Metode Hierarchical Membuat dekomposisi secara hierarkis dari suatu himpunan data object. Dapat terbagi menjadi : Aglomerative(bottom-up) Divisive (top-down) 41

42 Hierarchical Clustering Memakai distance matrix sbg kriteria clustering. Metoda ini tdk perlu jml. clusters ksebagai input, tapi perlu kondisi terminasi. Step 0 Step 1 Step 2 Step 3 Step 4 agglomerative a b c d e a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) 42

43 AGNES (AGglomerative NESting Sering disebut pendekatan bottom-up. Mulai dari tiap object yang terdapat dalam grup tertentu, kemudian object / grup object yang berdekatan bergabung, sampai seluruh grup bergabung menjadi satu (level teratas hirarki), atau sampai terjadi kondisi terminasi. 43

44 Agglomerative Clustering Algorithm More popular hierarchical clustering technique Basic algorithm is straightforward 1. Compute the proximity matrix 2. Let each data point be a cluster 3. Repeat 4. Merge the two closest clusters 5. Update the proximity matrix 6. Until only a single cluster remains Key operation is the computation of the proximity of two clusters Different approaches to defining the distance between clusters distinguish the different algorithms

45 Starting Situation Start with clusters of individual points and a proximity matrix p1 p2 p3 p4 p5... p1 p2 p3 p4 p5... Proximity Matrix

46 Intermediate Situation After some merging steps, we have some clusters C1 C1 C2 C3 C4 C5 C3 C4 C2 C3 C1 C4 Proximity Matrix C5 C2 C5

47 Intermediate Situation We want to merge the two closest clusters (C2 and C5) and update the proximity matrix. C3 C4 C1 C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 Proximity Matrix C2 C5

48 DIANA (DIvisive ANAlysis) Sering disebut pendekatan top-down. Mulai dari seluruh object di cluster yang sama, kemudian cluster dipisahkan menjadi cluster-cluster yang lebih kecil, sampai akhirnya tiap object ada di satu cluster, atau sampai terjadi kondisi terminasi. 48