Semnar Nasonal Tenolog Informas dan Multmeda 207 STMIK AMIKOM Yogyaarta, 4 Februar 207 ANALIS DATA WORLD DEVELOPMENT INDICATORS MENGGUNAKAN CLUSTER DATA MINING Sgt Kamseno ), Bara Satya 2) ), 2) Ten Informata STMIK AMIKOM Yogyaarta 3) Sstem Informas STMIK AMIKOM Yogyaarta Jl Rng road Utara, Condongcatur, Sleman, Yogyaarta 5528 Emal : sgt.@students.amom.com ), bara.satya@amom.ac.d 2) Abstra World Development Indcators merupaan sebuah database yang bers tentang trac records ndator - ndator yang mempengaruh perembangan suatu negara. Ada berbaga macam data yang tercatat dalam database tersebut, sepert nama negara, ode negara, sstem perdagangan yang dgunaan, ategor pendapatan, surve - surve, dan mash banya lag. Data tersebut dhmpun oleh World Ban sebaga salah satu organsas nternasonal yang berperan untu membantu negara berembang menad negara mau, hususnya dalam mengembangan eonom. Dalam peneltan n aan dbuat laster yang aan membag negara - negara d duna e dalam sebuah laster (elompo) menggunaan algortma DBSCAN. Klaster tersebut aan mewalan suatu negara termasu dalam laster negara mau, negara berembang, atau negara yang tertnggal soal perembangannya. Klastersas aan dlauan dengan melauan perbandngan ndator - ndator dmasng - masng negara yang emudan ndator tersebut d transformas menad nla - nla uanttatf. Perbandngan nla uanttatf dtentuan dengan nla eps (edeatan), seberapa deat nla uanttatf suatu negara dengan nla uanttatf negara lan. Setelah pebandngan nla eps dtentuan pula mnpts (mnmum ponts) yang aan menentuan edeatan - edeatan ponts laya menad sebuah laster. Klaster yang terbentu aan mempengaruh penamaan laster, dtentuan berdasaran rata - rata nla uanttatf negara d laster tersebut lebh ecl dar laster lan atau lebh besar dar laster dsetarnya. Evaluas laster dlauan setelah laster terbentu dengan metode Sllhouette Index. Metode n dlauan dengan mencar rata - rata ara atau emrpan laster. Kata unc:data mnng, clusterng, dbscan, sllhouette coeffcent, vsualsas cluster, algortma cluster. Pendahuluan Dataset world development ndcators bers record negara dduna, record tersebut bers system of trade, ncome group, currency, dan lan - lan. Dataset tersebut aan dolah dengan laster data mnng menggunaan algortma DBSCAN. Algortma DBSCAN aan mengolah record negara d dalam dataset tersebut yang aan delompoan berdasaran nla edeatan atau emrpan. Nla epadatan dtentuan dar masuan nla mnmum ponts dan epslon (ara), seberapa padat dan mrp data tersebut aan dbuat menad laster. Clusterng adalah suatu ten dalam data mnng yang dgunaan untu memasuan data e dalam grup yang bersesuaan tanpa pengetahuan yang mendalam tentang grup tersebut (Santosa, 2007). Clusterng n bertuuan untu memnmalsasan obectve functon yang dset dalam proses clusterng, yang pada umumnya berusaha memnmalsasan varas antar laster (Agusta, 2007). Sampa saat n, para lmuwan data (data scentes) terus melauan berbaga usaha untu melauan perbaan model laster dan menghtung umlah laster yang optmal sehngga dapat d haslan laster yang ba (Alfna, et al. 202). DBSCAN adalah algortma clusterng yang melhat bahwa sebuah laster merupaan daerah yang padat obye dan terpsah dar daerah yang meml tngat epadatan yang rendah (nose). DBSCAN dapat membentu daerah dengan bentu yang tda beraturan d dalam ruang data. Bagan pentng algortma n adalah epadatan obye dan hubungan antar obye yang dbentu dar obye yang berdeatan []. Konsep epadatan yang dmasud dalam DBSCAN adalah umlah data yang berada dalam radus Eps (ε) dar setap data. Ja umlah data dalam radus ε lebh dar atau sama dengan MnPts (umlah mnmal data dalam radus ε), data tersebut masu dalam ategor epadatan yang dngnan. Konsep epadatan sepert n melahran tga macam status dar setap data, yatu nt (core), batas (border), dan nose (nose) [2]. DBSCAN menyataan bahwa sebuah luster dapat dbentu a untu setap tt data, pada dalam radus tertentu Eps dar tt data tersebut terdapat mnmal mnpts tt obye. []. Sllhouette Coeffcent dgunaan untu memvaldas ba sebuah data, laster tunggal, atau bahan eseluruhan. Metode valdas laster yang menggabungan nla ohes dan separas. Menghtung nla sllhouette coeffcent sebuah data ada dua omponen a dan b. a adalah rata - rata ara data e- terhadap semua data lannya dalam satu laster, sedangan b ddapatan dengan menghtung rata - rata ara data e- terhadap semua data dar laster yang lan tda dalam satu laster dengan data e-, emudan 2.-2
Semnar Nasonal Tenolog Informas dan Multmeda 207 STMIK AMIKOM Yogyaarta, 4 Februar 207 dambl yang terecl ([Tan et al, 2006], [Petrovc, 2003]) [3]. Berut formula menghtung a : m a d{ x, xr } () m d ( x, x r r ) adalah perhtungan (eucldean uadrat) ara data e- dengan data e-r dalam satu laster, sedangan m adalah umlah data dalam laster e-. Berut formula untu menghtung b : b mn mn { d( x, x n )} r (2) n m n!,..., n r r! Untu mendapatan sllhouette coeffcent data e- manggunaan persamaan sebaga berut : b a max( a, b (3) ) Nla sllhouette coeffcent yang ddapat dalam rentang [-,+]. Nla sllhouette coeffcent yang mendeat menandaan bahwa data tersebut berada dalam laster yang tepat. Persamaan nla sllhouette coeffcent laster : m m Persamaan nla sllhouette coeffcent global : (4) (5) adalah umlah laster.[4] Berut n adalah representas dar nla sllhouette coeffcent [5] : Tabel 2.Representas Kauffman dan Rousseeuw (990) 2. Pem bah asan 2.. P engumpulan Data SC Representas 0.7 -.00 Ba 0.5-0.70 Sedang 0.26-0.50 Buru 0.25 Berada d laster lan Dataset dperoleh dar aggle dataset, salah satu platform terbesar yang meml ratusan dataset apapun. Sebelum dlauan clusterng analss dataset terlebh dahulu untu menentuan attrbut yang mempunya relas teruat. Dataset harus melalu tahap data selecton, data cleanng, data transformaton (nsalsas), cluster dan evaluas. Data selecton dlauan untu menghapus attrbut yang tda meml relas uat dengan attrbut yang lan. Setelah analss ddapat 3 attrbut dar tabel country yatu country, ncome group, dan latest trade data. Attrbut Country Income Group Lates Trade Data Tabel 3.Data Selecton Keterangan Nama negara Kategor pendapatan Tahun surve pendapatan Data cleanng menghapus atau memperba attrbut yang ml masuan yang tda relevan, osong, atau tda sesua dengan data yang lan. Data transformaton untu meng-nsalsas data yang sudah melalu tahap selecton dan cleanng. Tabel 4. Insalsas Country Country Insalsas Afganstan Albana 2 Algera 3 dst... dst... Zmbabwe 247 Tabel 5. Insalsas Income Group Income Group Freuens Hgh ncome : OECD 25 Hgh ncome : non OECD 34 Upper mddle ncome 3 Lower mddle ncome 32 Low ncome 5 none 0 Tabel 6.Insalsas Latest Trade Data Latest Trade Data Freuens 202-205 97 2008-20 3 2004-2007 3 2000-2003 2 none 32 2.2. Alur Penguan Langah - langah clusterng algortma DBSCAN yatu memasuan data yang sudah melalu tahap analss dan transformas data, selanutnya aan dlauan proses. Berut alurnya : 2.-22
Semnar Nasonal Tenolog Informas dan Multmeda 207 STMIK AMIKOM Yogyaarta, 4 Februar 207 Tabel 7.Sampel Data Income Group Latest Trade Data Country 4 5 2 4 5 3 4 4 5 3 5 6 7 8 5 5 9 5 5 0 Selanutnya nla - nla sampel data aan dpadatan dengan standard devas. Berut hasl pemadatan data : Tabel 8. Pemadatan Nla Data Sampel Gambar.Alur Penguan 2.3. Implementas Algortma DBSCAN Penguan dlauan dengan 0 data sampel yang dambl secara aca. Income Group Latest Trade Data Country -0.955-0.94 -.725 0.679.62 -.7 0.679.62 -.697 0.679-0.94 -.683.224 0.23 -.669-0.955-0.94 -.655-0.955-0.94 -.64-0.955-0.94 -.627.224.62 -.63 0.35.62 -.599 Data dalam tabel aan dlauan proses laster dengan nla epslon = 0.6 dan mnmum ponts = 2. N 0.6 ()={6,7,8}; N 0.6 (2)={3,9,0}; N 0.6 (3)={2,9,0}; N 0.6 (4)={}; N 0.6 (5)={}; N 0.6 (6)={,7,8}; N 0.6 (7)={,6,8}; N 0.6 (8)={,6,7}; N 0.6 (9)={2,3}; N 0.6 (0)={2,3}; Tabel 9.Sample Data hasl laster Income Latest Country Cluster Group Trade Data -0.955-0.94 -.725 0.679.62 -.7 2 0.679.62 -.697 2 0.679-0.94 -.683 nose.224 0.23 -.669 nose -0.955-0.94 -.655-0.955-0.94 -.64-0.955-0.94 -.627.224.62 -.63 2 0.35.62 -.599 2 2.-23
Semnar Nasonal Tenolog Informas dan Multmeda 207 STMIK AMIKOM Yogyaarta, 4 Februar 207 6 0-0 0 7 0 0-0 8 0 0 0 - a 0 0 0 0 2 2,642 2,642 2,642 2,642 Gambar 2.Hasl Klaster Data d Klaster 2 3 2,642 2,642 2,642 2,642 9 3,00 3,00 3,00 3,00 0 2,345 2,345 2,345 2,345 2.4. Evaluas Slhouette Coeffcent dgunaan untu melhat ualtas dan euatan laster, seberapa ba suatu obe dtempatan dalam suatu laster. Metode n merupaan gabungan dar metode coheson dan separaton. Tahapan perhtungan slhouette coeffcent. Perhtungan nla α untu data yang berada dalam laster sebaga berut : a a m r r r! d( x, x ) (6) m x ( d( x, x2) d( x, x3) d( x, 4) (7) 4 a (0 0 0) 0 (8) 3 Perhtungan nla b untu data yang berada dalam laster sebaga berut : b mn{ (2,659 2,659 2,659)} (9) 4 b mn( 2,659) 2,659 (0) Perhtungan nla sllhouette coeffcent untu data yang berada dalam laster sebaga berut : b a 2,659 0 () max{ a, b } max{(2,659,(0)} Tabel 0.Nla SC untu setap data dalam laster Data d Klaster Data e- ara 6 7 8-0 0 0 Rata - rata 2,660 2,660 2,660 2,660 b 2,660 2,660 2,660 2,660 Nla sllhouette coeffcent untu eseluruhan laster : m ( 2 3 4) m m (2) ( ) (3) 4 Tabel.Nla SC untu setap data dalam laster 2 Data e- ara 2 3 9 0 2-0 0,545 0,545 Data d 3 0-0,545 0,545 Klaster 2 9 0,545 0,545 -,090 0 0,545 0,545,090 - a 0,363 0,363 0,727 0,727 2,642 2,642 3,00 2,345 Data d 6 2,642 2,642 3,00 2,345 Klaster 7 2,642 2,642 3,00 2,345 8 2,642 2,642 3,00 2,345 Rata - rata 2,642 2,642 3,00 2,345 2.-24
Semnar Nasonal Tenolog Informas dan Multmeda 207 STMIK AMIKOM Yogyaarta, 4 Februar 207 b 2,642 2,642 3,00 2,345 0,863 0,863 0,759 0,690 2 (0,862 0,862 0,758 0,690) 0,793 (4) 4 ( 2) 2 ( 0,793) 0,896 2 (5) (6) 3. Kesmpulan Berdasaran hasl u coba dapat dtar beberapa esmpulan sebaga berut : a. Penerapan laster dengan data 0 negara menggunaan nla eps 0.6 dan mnpts 2 menghaslan 2 laster. 4 negara pada laster pertama, 4 negara pada laster edua dan terdetes 2 negara sebaga nose. Sedangan untu data 246 negara terbentu 4 laster. b. Nla global evaluas yang dhaslan dar penerapan laster dengan data 0 negara yatu 0,896 termasu ategor ba. Sedangan laster dengan data 246 negara yatu 0,068 termasu ategor buru. c. Pemberan nama untu setap laster dsesuaan dengan umlah laster yang dhaslan. Klaster dengan rata - rata data dengan nla besar maa termasu laster negara negara mau. Klaster edua termasu laster negara berembang dan seterusnya. Daftar Pustaa [] Kantardzc, Mehmed. Data Mnng: Concepts, Models, Methods, and Algorthms (2 nd ed.). Wley-IEEE Press. 20. [2] Pasetyo, Eo. Data Mnng Konsep dan Aplas menggunaan MATLAB. Yogyaarta : And, 202. [3] Hermawat, Faar Astut. Data Mnng. Yogyaarta : And, 2009. [4] Prasetyo, Eo. Data Mnng mengolah Data menad Informas menggunaan Matlab. Yogyaarta : And, 204 [5] Susanto, Eo Bud. Evaluas hasl Klaster pada Dataset Irs, Soybean-small, Wne menggunaan Algortma Fuzzy C-means dan K-means++. 206. Bodata Penuls Sgt Kamseno, mahasswa Jurusan Ten Informata STMIK AMIKOM Yogyaarta Bara Satya, menempuh D3 STMIK AMIKOM Yogyaarta Tahun 200, S STMIK AMIKOM Ygyaarta Tahun 2005 MAGISTER TEKNIK INFORMATIKA STMIK AMIKOM.Saat n menad Dosen d STMIK AMIKOM Yogyaarta. 2.-25
Semnar Nasonal Tenolog Informas dan Multmeda 207 STMIK AMIKOM Yogyaarta, 4 Februar 207 2.-26