Unverstas Padjadjaran, 3 November 00 (M.5) PEMBENTUKAN FAST ALGORITHM FUZZY C-MEANS CLUSTER DENGAN INDEKS VALIDITAS XIE DAN BENI (XB) DAN PROPORSI EIGEN VALUE DARI MATRIKS SIMILIARITY Anndya Aprlyant Pravtasar Emal: dejafu_008@yahoo.com ABSTRAK Dalam analss pengelompoan (cluster), banya elompo menjad suatu masalah yang berart. Beberapa penelt memlh banya elompo sesua dengan ebutuhan dalam peneltannya. Beberapa peneltan dalam analss cluster lebh mentberatan pada strutur dan metode pengelompoan yang terus berembang dar watu e watu. Metode terahr yang sedang dmnat adalah Fuzzy C-means Cluster. Fuzzy C-means Cluster melauan pengelompoan dengan prnsp memnmuman fungs objetf pengelompoannya dmana salah satu parameternya adalah fungs eanggotaan dalam fuzzy (sebaga pembobot) yang dsebut juga dengan fuzzer (Klawonn dan Höppner, 00). Maalah n selan mengaj metode pengelompoan dengan Fuzzy C-means Cluster juga aan memlh banya elompo deal dengan menggunaan ndes XB (Xe dan Ben). Untu jumlah obje yang besar, ndes XB aan dhtung sebanya obje yang delompoan, maa hal n tdalah efetf. Untu tu dcoba untu membatas banya elompo dengan menggunaan propors egen value dar matrs emrpan (smlarty). Dengan membatas banya elompo, perhtungan untu mendapatan elompo deal aan seman cepat. Hal n aan sangat berguna untu efsens algortma perhtungan ndes XB. Kata unc : analss pengelompoan, cluster, fuzzy c-means, ndes XB, propors, egen value, matrs emrpan, smlarty.. Pendahuluan Analss Cluster adalah salah satu analss data esplorator yang bertujuan untu menentuan elompo atau grup dar seelompo data. Awal mulanya metode n dembangan Staf Pengajar Jurusan Statsta, FMIPA, Unverstas Padjadjaran Bandung 38
Unverstas Padjadjaran, 3 November 00 dengan menemuan strutur pengelompoan dantara obje yang aan delompoan. Paradgma data clusterng mula banya dmnat berbaga alangan dan dtuls dalam berbaga paper dan jurnal (Shhab, 000). Analss cluster sempat dsebut sebaga prmary tool for socalled nowledge dscovery (Fayyad et al, 996) arena tngat temuan strutur dan metode yang berembang begtu pesat serng dengan perembangan paradgma lan dluar statst, sepert fenomena data mnng, ntellgent data analyss (Lu, 000), sampa mage processng yang saat n banya dtelt. Fatanya, arena menggunaan data yang besar dan algortma yang secara teratf menentuan pengelompoan, maa analss cluster meml epeaan aan ebutuhan yang tngg dalam omputas. Perembangan analss cluster dmula dar metode herarchcal yang secara gars besar membentu sebuah tree dagram yang basa dsebut dengan dendogram yang mendesrpsan pengelompoan berdasaran jara, graph-theortc melhat obje sebaga node pada networ terbobot, mxture models mengasumsan suatu obje dhaslan dar sala data yang berbedabeda, parttonal lebh denal dengan metode non-herarchy termasu ddalamnya adalah metode K-means cluster. Perembangan terahr dar analss cluster mempertmbangan tngat eanggotaan yang mencaup hmpunan fuzzy sebaga dasar pembobotan bag pengelompoan yang dsebut dengan fuzzy clusterng (Bezde, 98). Metode n merupaan pengembangan dar metode parttonal dengan pembobotan fuzzy yang memungnan pengelompoan dmana elompo data tda terdstrbus secara jelas. Sejalan dengan perembangan metode dalam analss cluster, penentuan jumlah elompo tetap dlauan secara subjetf. Metode herarch (sngle lnage, complete lnage dan average lnage) membuat cut off dar dendogram emudan menentuan jumlah elompo yang deal. Metode non-herarc atau parttonal menentuan terlebh dahulu jumlah cluster yang aan dbentu, termasu juga pembentuan elompo dalam Fuzzy C-means Cluster. Penentuan jumlah elompo basanya dsesuaan dengan tujuan peneltan. Suatu masalah emudan tmbul, bagamana jumlah elompo deal yang memnmuman fungs objetf sebaga dasar pengelompoan. Ja dlauan pemlhan jumlah elompo dar satu esatuan elompo besar sampa sebanya obje yang aan delompoan, maa penyelesaannya aan trval. Karena bagamanapun juga fungs objetf aan optmal saat jumlah elompo yang terbentu sama dengan jumlah obje yang delompoan. Hal n darenaan tngat emrpan (smlarty) yang tngg terhadap obje tu sendr. Oleh arena tu dcoba untu membatas jumlah pengelompoan berdasaran propors egen value dar matr orelas obje yang aan delompoan. Prnspnya hampr sama dengan prncpal omponen dan analss fator yang menggunaan propors egen value sebaga uuran ontrbus yang dapat dberan eta meredus dmens varable. Pembatasan jumlah pengelompoan n emudan dontrol dengan Indes XB (Xe dan Ben), dmana elompo hasl pemlhan dar propors egen value yang memasmuman Indes XB adalah uuran elompo yang terba. 39
Unverstas Padjadjaran, 3 November 00. Fuzzy C-Means Cluster Secara umum ten dar fuzzy cluster adalah memnmuman fungs objetf dmana parameter utamanya adalah fungs eanggotaan dalam fuzzy (membershp functon) yang dsebut juga dengan fuzzer (awonn dan Höppner, 00). Klawonn secara husus mendalam fuzzy clusterng sebaga metode yang ba untu dgunaan dalam pengelompoan data spasal dan mage analyss (Laboratorum of Data analyss and Pattern Recognton). Oleh arena tu sebagan besar referens dar tulsan n ddapatan dar jurnal peneltan Klawonn bersama penelt lannya. Fuzzy C-means cluster pertama al demuaan oleh Dunn (973) dan emudan dembangan oleh Bezde (98) yang banya dgunaan dalam pattern recognton. Metode n merupaan pengembangan dar metode non herar K-means Cluster, arena pada awalnya dtentuan dulu jumlah elompo atau cluster yang aan dbentu. Kemudan dlauan teras sampa mendapatan eanggotaan elompo tersebut. Metode n adalah metode yang palng dgemar arena merupaan metode yang palng robust (( Klawonn dan Höppner, 00) dan (Klawonn, 000)) dan memberan hasl yang smooth (halus) dengan tolerans relatf (Shhab, 000). Prnsp utama pengelompoan dengan fuzzy c-means cluster adalah memnmuman fungs objetf J FCM c N m P, U, X, c, m = ( u ) d ( x, p ) () = = ( ) dengan constrant atau fungs batasan c = u =, untu {,K,N}. () Keterangan: P dan U adalah varabel yang onds optmalnya dharapan, untu matrs U onds optmalnya berart onvergens eanggotaan elompo dalam FCM. X, c, m adalah parameter nput dar J FCM, dmana: c adalah jumlah cluster yang memenuh X (jumlah cluster yang dngnan, c< N ) m adalah tngat e-fuzzy-an dar hasl pengelompoan. Parameter n dsebut dengan fuzzer, nla dar m yang serng dpaa dan danggap yang palng halus adalah m= (Klawonn dan Höppner, 00) u adalah tngat eanggotaan yang merupaan elemen dar matrs U. N jumlah observas. d adalah jara observas yang dapat drumusan sebaga berut: d T ( x p ) = x p = ( x p ) A( x p ), (3) A 40
Ja A adalah matrs denttas maa d adalah jara Eucld. Prosdng Unverstas Padjadjaran, 3 November 00 Algortma pengelompoan Fuzzy C-means cluster dberan sebaga berut:. Menentuan c banya cluster atau elompo yang ngn dbuat.. Menentuan tngat e-fuzzy-an hasl pengelompoan (m). 3. Menghtung fuzzy cluster center (P) dengan persamaan () N u = p * = N = 4. Update anggota matrs U dengan persamaan * u = /( m ) c d j= d j m u x m (4) (5) 5. Bandngan nla eanggotaan dalam matrs U, ja U (+) - U () < ε maa sudah onvergen dan teras dhentan. Ja tda maa embal e langah 3. 3. Penentuan Banya Kelompo Penentuan banya elompo dalam Fuzzy C-Means Cluster ddasaran pada dua hal. Yang pertama adalah dengan membatas banya elompo yang terbentu melalu propors egen value matrs orelas dar obje yang aan delompoan. Yang edua adalah melauan ontrol dengan ndes XB. Tujuannya adalah untu mengetahu apaah benar banya elompo terba bsa ddapatan dantara banya cluster yang dbatas oleh propors egen value matrs orelas. Berut n adalah ulasan mengena propors egen value matrs orelas dan Indes XB. 3. Propors Egen Value Matrs Korelas Analss Egen adalah salah satu ten yang memberan rngasan strutur data yang drepresentasan oleh matrs orelas ataupun ovarans (Johnson dan Wchern, 00). Propors dar egen value menggambaran seberapa besar strutur data yang dapat dwal atau drepresentasan oleh matrs orelas atau ovarans tersebut. Dalam analss omponen utama dan analss fator, propors dar egen value memberan nterpretas mengena seberapa besar data dapat terwal dalam dmens yang telah dredus. 4
Unverstas Padjadjaran, 3 November 00 Pada asus pengelompoan dalam analss cluster, matrs yang dgunaan adalah matrs emrpan dar obje yang aan delompoan. Prnspnya adalah seman nla emrpan antara obje satu dengan yang lan mendeat, maa nla pengamatan antar obje tersebut meml banya esamaan (berart memungnan untu menjad satu elompo). Propors egen value untu lustras n berart memberan nformas besarnya tngat esamaan antar obje. Propors egen value 00 persen dberan oleh semua egen yang terbentu yang banyanya sama dengan banya obje yang delompoan. 3. Indes XB (Xe dan Ben) Sesua dengan namanya Indes XB dtemuan oleh Xe dan Ben yang pertama al demuaan pada tahun 99. Valdtas dalam FCM dtentuan oleh banya elompo optmum melalu perhtungan Indes valdtas. Formula dar Indes XB dberan pada (6). Formula n mrp dengan Separaton Index dengan nla m yang dapat berubah-ubah, oleh arena tu ndes n dapat dgunaan untu metode hard partton sepert K-means cluster maupun FCM. Krteranya banya elompo optmum dberan oleh nla XB yang mnmum. XB ( c) c N m ( u ) d( x, p) = = = (6) N mn, j p, p j Dengan c menyataan banya cluster, u adalah tngat eanggotaan, d adalah jara observas dengan pusat cluster, p adalah pusat cluster, N merupaan banya obje yang aan delompoan, mn, j, j p p menyataan jara mnmum antara pusat cluster p dan p j. Krtera banya cluster optmum dberan oleh ndes XB yang mnmum. 4. Analss efsens algortma dengan menggunaan notas Bg-O Efsens d dalam algortma sangat dpertmbangan arena suatu masalah dapat dselesaan dengan berbaga macam cara yang dalam hal n dsebut sebaga algortma (langah penyelesaan masalah). Algortma yang bagus adalah algortma yang efsen dmana algortma tersebut dataan bagus arena dnla dar aspe ebutuhan watu dan ruang membutuhan jumlah yang sedt. Notas Bg-O adalah notas matemata yang dgunaan untu menggambaran suatu fungs asmptot. Notas Bg-O serng dgunaan untu menjelasan berapa besar uuran dar suatu data mempengaruh penggunaan sebuah algortma dar sumber omputas. Notas Bg-O 4
Unverstas Padjadjaran, 3 November 00 juga basa dsebut sebaga notas Landau (Landau notaton), Bachman-Landau notaton, dan notas asmptot (Asmptot notaton). Notas Bg-O mempunya aplas pada dua buah bdang. Pada bdang matemata, notas tersebut basanya dgunaan untu menjelasan tahap ssa dar deret ta terhngga, hususnya pada deret asmptot. Pada bdang lmu omputer, notas n sangat berguna dalam analss dar omplestas algortma. 5. Pembentuan Fast Algorthm, Smulas dan Perhtungan Bg-O Algortma baru yang terbentu adalah sebuah elengapan algortma dengan menambahan batasan perulangan program yang tadnya sebanya obje (N) berurang menjad sebanya M (banyanya nla egen yang secara cepat membentu propors 00%). Perbandngan Algortma lama dan baru terdapat pada Tabel. Tabel. Perbandngan ALgortma lama dan baru Old Algorthm Fast Algorthm Tahap Persapan Pembentuan Matrs O (N ) emrpan Perhtungan Egen Value O (N ) Penentuan banyanya nla egen yang menghaslan propors 00% Tahap Clusterng Lauan dar sampa M O (N ) Tahap Clusterng Lauan dar sampa N Pembentuan O(( N ) h) Pembentuan Kelompo O(( M ) h) Kelompo Perhtugan Indes XB O ( N ) Perhtugan Indes XB O ( M ) Pencaran XB mnmum O ( N ) Pencaran XB mnmum O ( M ) Dengan: N: banya obje; : banya varable; M: banya nla egen yang jumlahan proporsnya 00%; h: banya teras dalam pembentuan elompo. Smulas dlauan untu melhat apaah benar bahwa nla XB mnmum dapat dperoleh dengan pembatasan perulangan program menggunaan banyanya nla egen dar 43
Unverstas Padjadjaran, 3 November 00 matrs smlarty yang proporsnya 00%, dan apaah algortma baru yang terbentu cuup efsen. Beberapa jens data smulas dbangtan dan dcar banya pengelompoan optmum menggunaan algortma lama dan baru. Haslnya dtamplan pada Tabel. Tabel. Smulas Data Data Krtera Old Algorthm Fast Algorthm Banya Obje (N) 3 3 Banya Varabel () 5 5 Smulas Banya nla egen (M) - 6 XB mnmum 5 5 Banya teras (h) 00 00 Bg-O O(4400) O(800) Banya Obje (N) 00 00 Banya Varabel () 0 0 Smulas Banya nla egen (M) - 7 XB mnmum 7 7 Banya teras (h) 00 00 Bg-O O(9800) O(00) Smulas 3 Smulas 4 Banya Obje (N) 7 7 Banya Varabel () 4 4 Banya nla egen (M) - XB mnmum 9 9 Banya teras (h) 300 300 Bg-O O(38400) O(400) Banya Obje (N) 90 90 Banya Varabel () 5 5 Banya nla egen (M) - 3 XB mnmum 8 8 Banya teras (h) 500 500 Bg-O O(44500) O(8500) Pada Tabel terlhat bahwa nla XB mnmum yang menggambaran banya elompo deal yang terbentu selalu berada pada range M. Hal n membutan bahwa pembatasan perulangan pada algortma FCM dapat dlauan dengan mencar banyanya nla egen yang membentu propors 00%. Selan tu dengan melauan pembatasan perulangan, maa algortma yang tercapa aan lebh efsen, hal n terlhat dengan nla Bg-O pada fast algorthm yang jauh lebh ecl dar pada old algorthm. 6. Kesmpulan 44
Unverstas Padjadjaran, 3 November 00 Penentuan jumlah cluster yang deal dapat dlauan dengan perhtungan ndes XB. Namun untu jumlah data yang besar, maa perhtungan ndes XB aan dlauan sampa jumlah pengelompoan masmum, yatu sebanya jumlah obje tu sendr. Hal n urang efsen, maa dreomendasan untu menentuan banyanya cluster yang mungn terbentu dengan memperhatan propors umulatf egen value matrs smlarty dar obje dalam pengelompoan. Referens : Bezde, James., 98. Pattern Recognton wth Fuzzy Objectve Functon Algorth, Plenum Press, New Yor. Calns and Harabasz, (974), A Dendrte Method for Cluster Analyss. Communcaton n Statstcs 3, -7. Dunn, J.C., (973), A Fuzzy Relatve of the ISODATA Process and Its Use n Detectng Compact well-separated Cluster, Journal of Cybernetc 3, 3-57. Fayyad, U, M., Patetsy-Saphro, G., Smth., (996). Advance and Knowledge dscovery and data mnng, Part.33, http://aaipress.com/advanceknowledgedsc-fayyadetal// Johnson, Wchern, (00), Appled Multvarate Statstcal Analyss, Prentce Hall, New Jersey. Klawonn, Fran., (000), Fuzzy Clusterng: Insght and a New Approach, Scence Journal, http://publc.rz.fh-wolfenbuettel.de/lawonn. Klawonn dand Höppner, (00), What s Fuzzy about Fuzzy Clusterng? Understandng and Improvng the Concept of the Fuzzer. Scence Journal, http://publc.rz.fhwolfenbuettel.de/lawonn. Klawonn dan Keller, (997), Fuzzy Clusterng and Fuzzy Rules, Scence Journal, http://publc.rz.fh-wolfenbuettel.de/lawonn. Klawonn dan Klementda, (997), Matematcal Analyss of Fuzzy Clasfers, Scence Journal, http://publc.rz.fh-wolfenbuettel.de/lawonn. Klawonn dan Kruse, (995), Clusterng Method n Fuzzy Control, Scence Journal, http://publc.rz.fh-wolfenbuettel.de/lawonn. Sharma, S, (996), Appled Multvarate Technques, John Wley and Sons, Inc, New Yor. Shhab, A.I., (000) Fuzzy Clusterng Algorthm and Ther Applcaton to Medcal Image Analyss. Dssertaton, Unversty of London, London. Pcert, Klawonn, dan Wngender., (997), Fuzzy Cluster Analyss for Identfcaton of Gene Regulaton Regon. Scence Journal, http://publc.rz.fh-wolfenbuettel.de/lawonn. Zadeh, Lotf. A., (965), Fuzzy Sets. Informaton Control, vol 8, 338-353. 45