Seminar Nasional Statistika I Institut Teknologi Sepuluh Nopember, 7 November 009 APLIKASI ANALISIS KLASTER PADA DATA SIMULASI INDEKS GEOMAGNET LOKAL John Maspupu Pusfatsainsa LAPAN, Jl. Dr. Djundjunan No. 133 Bandung 40173, Tlp. 060160 Pes. 106. Fax. 06014998 E-mail: john_mspp@yahoo.com Abstrak Makalah ini membahas suatu aplikasi analisis pengklasteran pada data simulasi indeks geomagnet lokal dari beberapa tempat observasi (stasion geomagnet-sg). Indeks geomagnet lokal yang dimaksud dalam pembahasan ini adalah indeks K. Perincian dari indeks K ini dapat dijelaskan sebagai berikut, untuk K = 0 atau 1 ditafsirkan sebagai tingkat gangguan geomagnet yang sangat rendah. Kemudian untuk K = atau 3 atau 4 ini mengindikasi tingkat gangguan geomagnet yang sedang. Selanjutnya untuk K = 5 atau 6 atau 7 atau 8 atau 9, ini berarti tingkat gangguan geomagnet yang sangat tinggi. Adapun tujuan pembahasan makalah ini adalah untuk mengklasifikasi frekuensi-frekuensi observasi atau selang-selang waktu pengamatan indeks K, ke dalam bentuk klaster-klaster yang relatif homogen, sesuai dengan pertimbangan empiris. Pada proses pengelompokkan ini, banyaknya klaster harus lebih sedikit daripada banyaknya frekuensi observasi semula. Namun tidak mengurangi sedikitpun informasi yang terkandung dalam data aslinya (data awal indeks K). Selain itu prosedur yang digunakan untuk merealisasi tujuan di atas ini adalah klaster hirarki (hierarchical clustering), disertai dengan ukuran jarak maupun tahapan metodenya, yaitu jarak yuklidian (Eucledean distance) dan metode Ward (Ward s method) serta metode pusat (centroid method). Hasil yang diperoleh dari aplikasi analisis klaster ini nantinya mempunyai kontribusi didalam analisa kondisi geomagnet lokal (tingkat gangguan geomagnet) di setiap klaster observasi indeks K. Kata kunci : observasi indeks K, Klaster hirarki, Jarak Yuklidian, Metode Ward dan pusat. 1. Pendahuluan Konsep pengklasteran adalah suatu bagian analisis interdependensi yang fokusnya pada objek pengamatan (bukan pada variabel observasi). Selain itu analisis klaster juga merupakan salahsatu teknik statistik multivariat yang digunakan untuk pengelompokkan objek-objek pengamatan, secara homogen atau relatif homogen dalam kelompoknya. Namun sangat heterogen diantara kelompok yang satu dengan lainnya. Selain itu publikasi 1
tentang analisis klaster ini dapat dibaca pada referensi [5], begitu juga peran analisis klaster ini telah diterapkan pada pengamatan dan penelitian data-data atmosfer ( lihat [] ). Selain itu beberapa aplikasi pengklasteran pernah dilakukan oleh Kalkstein dan kawan-kawannya dalam masalah-masalah yang berkaitan dengan iklim ataupun cuaca ( lihat [3] ). Pada tahun 1993, Cheng dan Wallace juga pernah mengaplikasikan analisis klaster pada data geopotensial untuk mengidentifikasi jenis-jenis aliran fluida di atmosfer ataupun di ruang antar planet ( lihat [1] dan [4] ). Oleh karena itu dengan mempertimbangkan beberapa referensi yang telah dikemukakan di atas, muncul pemikiran untuk mengaplikasikan analisis klaster ini pada data simulasi indeks geomagnet lokal. Dengan demikian tujuan pembahasan makalah ini adalah untuk mengklasifikasi frekuensi-frekuensi observasi atau selang-selang waktu pengamatan indeks K, ke dalam bentuk klaster-klaster yang relatif homogen, sesuai dengan pertimbangan fisis tertentu. Namun yang menjadi masalah adalah bagaimana proses pengklasteran ini dilakukan? Dan berapa banyak klaster yang cocok untuk kasus ini?. Kemudian infomasi seperti apa yang diperoleh dari hasil pengklasteran kasus ini?. Untuk menjawab semua permasalahan di atas ini, perlu disusun suatu metodologi yang tepat serta dapat memberikan solusi secara tuntas dan bermanfaat.. Metodologi Konsep yang digunakan dalam pembahasan makalah ini adalah menyangkut analisa klaster dengan pilihan prosedur dan ukuran jarak pada klaster hirarki (hierarchical clustering) dan jarak yuklidian (Eucledean distance). Sedangkan fokus metodenya pada metode Ward (Ward s method) dan metode pusat (centroid method). Jarak yuklidian maupun kedua metode di atas ini dapat dilihat pada referensi [6]. Selanjutnya tahapan analisis klaster ini dapat dijabarkan dalam beberapa langkah berikut : i). Kompilasi data pengamatan (data asli) dan tentukan variabel yang akan digunakan untuk pengklasteran, dengan syarat variabel yang dipilih harus dapat menyatakan kemiripan antar objek dan juga mempunyai relevansi dengan masalah riset tersebut. ii). Lakukanlah standarisasi data variabel asli dengan menggunakan variabel transformasi ij * = ij S j j, dalam hal ini 1 n n j ij i 1 S 1 n dan ), j = 1,...,K. j n i 1 ( ij j iii). Memilih ukuran jarak yang diperlukan untuk mengakses kemiripan objek-objek tersebut. Pada pembahasan kasus dalam makalah ini dipilih ukuran jarak
yuklidian(antara dua objek x i dan x j ) yang mengikuti formulasi berikut di bawah ini, K ( d ij wk xik xjk) dengan bobot jarak 1 k 1 1 3 wk, untuk setiap k = 1,,..., K. iv). Memilih prosedur pengklasteran, dalam hal ini telah ditentukan klaster hirarki dengan alur klasifikasi prosedurnya sebagai berikut : Hirarki Aturan aglomeratif Metode Ward dan pusat. Pengklasteran dengan aturan aglomeratif artinya dimulai dari setiap objek dalam suatu klaster yang terpisah. Kemudian klaster dibentuk dengan cara mengelompokkan objek- objek tersebut sehingga semakin bertambah banyak objek yang terlibat menjadi anggota klaster. Proses ini diteruskan sampai semua objek menjadi anggota dari suatu klaster tunggal. Selain itu tahapan metode Ward dan pusat dapat dijelaskan sebagai berikut : a. Bentuklah n klaster sesuai dengan n objek pengamatan dan hitung rata-rata klaster (cluster centroid) yaitu rata-rata variabel dari semua objek dalam setiap klaster dengan formulasi 1 K K i ij j 1, i = 1,..., n dan j = 1,..., K. Dalam hal ini K adalah banyaknya variabel dan n merupakan banyaknya objek (frekuensi observasi). b. Hitung jarak yuklidian dari setiap objek ke rata-rata klaster dengan formulasi ( sebagai berikut, ) ij i, i = 1,..., n dan j = 1,..., K. c. Jumlahkan jarak yuklidian untuk masing-masing klaster dengan formulasi sebagai K berikut, J i = ( ij i), i = 1,...,n. j 1 d. Hitung selisih dari jumlah jarak yuklidian antar masing-masing klaster yaitu J J ij i j dengan i j dan ji ij, i = 1,..., n ; j = 1,..., n. e. Untuk setiap tahap, gabungkan dua klaster menjadi satu klaster baru dengan urutan selisih ij yang terkecil. f. Hitung pusat variabel masing-masing klaster baru dengan formulasi sebagai berikut x gj x hj Gi, i = 1,..., n -1 dan j = 1,..., K. g. Hitung jarak diantara masing-masing klaster yaitu dgi, Gi 1, dgigi,,..., dgigi, n dengan formulasi d Gi Gi 1 Gi Gi 1, dan seterusnya. h. Gabungkan tiap dua klaster menjadi satu klaster baru lagi dengan urutan-urutan
d, yang terkecil., Gi 1 dgigi,,..., d Gi GiGi, n i. Kembali lagi ke langkah f), g), dan h). Proses ini diteruskan sampai diperoleh banyaknya klaster yang diinginkan. Dengan demikian untuk pembentukan klaster baru umumnya diperoleh dari salah satu cara berikut yaitu : dua objek digabung bersama (objek digabung dengan objek) atau satu objek digabung dengan klaster yang telah terbentuk sebelumnya, minimal klaster tersebut sudah memiliki dua anggota (klaster digabung dengan objek) atau dua klaster yang sudah terbentuk digabung bersama (klaster digabung dengan klaster). v).menentukan banyaknya klaster, sesuai dengan kasus atau masalah yang dihadapi. Sebenarnya tidak ada aturan baku untuk menentukan berapa banyak klaster secara eksak yang diperlukan. Namun demikian, beberapa petunjuk yang dapat digunakan sebagai pertimbangan, antara lain : a. Berdasarkan faktor empiris, praktis, teoritis atau konseptual, mungkin dapat disarankan berapa banyak klaster yang cocok untuk kasus-kasus yang dihadapi (misalnya 3 atau 4 atau 5 klaster) dan seterusnya. b.pada prosedur pengklasteran hirarki, jarak minimum untuk penggabungan klaster dapat digunakan sebagai kriteria. c. Pada prosedur pengklasteran non hirarki, rasio jumlah variansi dalam klaster dan jumlah variansi antar klaster dapat diplot melawan (versus) banyaknya klaster. Sehingga banyaknya klaster ditunjukkan oleh absis koordinat titik, di saat terjadinya suatu siku atau lekukan tajam pada hasil ploting tersebut. Selain itu perlu dicatat bahwa pemecahan banyaknya klaster yang menghasilkan klaster dengan satu objek tidak akan bermanfaat. vi). Interpretasi tentang profil klaster, dalam hal ini meliputi pengkajian nilai pusat. Nilai pusat dimaksud adalah rata-rata nilai objek yang terdapat dalam klaster pada setiap variabel. Nilai ini akan memberikan informasi pada setiap variabel dengan cara pemberian suatu nama atau label. Jika program komputasi pengklasteran ini, tidak mencetak informasi tentang pusat(centroid) maka dapat diperoleh melalui analisis diskriminan. 4
3. Hasil dan Pembahasan Data yang digunakan dalam pembahasan makalah ini adalah data simulasi indeks K dari beberapa lokasi SG (Stasion Geomagnet). Data-data ini diamati selama 0 selang waktu dengan pengertian tiap selang waktu adalah 3 jam dan ditabulasikan dalam tabel 1, sebagai berikut: Tabel 1. Data simulasi indeks K dari keenam lokasi stasion geomagnet Observasi Lokasi Lokasi Lokasi Lokasi Lokasi Lokasi ke- n SG 1 SG SG 3 SG 4 SG 5 SG 6 i1 i i3 i4 i5 i6 1. 6 4 7 3 3. 3 1 4 5 4 3. 7 6 4 1 3 4. 4 6 4 5 3 6 5. 1 3 6 4 6. 6 4 6 3 3 4 7. 5 3 6 3 3 4 8. 7 3 7 4 1 4 9. 4 3 3 6 3 10. 3 5 3 6 4 6 11. 1 3 3 5 3 1. 5 4 5 4 4 13. 1 5 4 4 14. 4 6 4 6 4 7 15. 6 5 4 1 4 16. 3 5 4 6 4 7 17. 4 4 7 5 18. 3 7 6 4 3 19. 4 6 3 7 7 0. 3 4 7 Misalkan variabel ij adalah data observasi ke-i di lokasi SG yang ke- j, i = 1,,..,0 dan j = 1,,...,6. Dalam hal ini variabel i1 merupakan indikasi kondisi geomagnet lokal di SG 1 dengan 5
tingkat gangguan umumnya sedang, namun masih terganggu dan kadangkala rendah. variabel i merupakan indikasi kondisi geomagnet lokal di SG dengan tingkat gangguan sering sedang, namun masih terganggu dan tidak pernah rendah. variabel i3 merupakan indikasi kondisi geomagnet lokal di SG 3 dengan tingkat gangguan umumnya sedang, namun masih terganggu dan kadangkala rendah. variabel i4 merupakan indikasi kondisi geomagnet lokal di SG 4 dengan tingkat gangguan sering sedang, namun masih terganggu dan tidak pernah rendah. variabel i5 merupakan indikasi kondisi geomagnet lokal di SG dengan tingkat gangguan umumnya sedang, namun masih sedikit terganggu dan kadangkala rendah. variabel i6 merupakan indikasi kondisi geomagnet lokal di SG 6 dengan tingkat gangguan sering sedang, namun masih terganggu dan tidak pernah rendah. Perlu diketahui bahwa variabel-variabel yang akan dianalisis secara pengklasteran lebih dahulu harus distandarisasi menjadi variabel standar seperti pada langkah ii) di bagian metodologi ( * x 0 dan * sx 1). Hasil dari standarisasi ini ditabulasikan dalam tabel. Tabel. Data simulasi indeks K dari tabel 1, yang telah distandarisasi Observasi Ke- n i * 1 i * i * 3 i * 4 i * 5 i * 6 1. 1,14-0,07 1,5-0,7-0,8-0,91. -0,98-0,78-1,47-0,06 0,88-0,3 3. 1,67-1,49 1,0-0,06-1,39-0,91 4. 0,08 1,35 0,03 0,59-0,6 1,11 5. -1,51-0,78-0,97-1,38 1,45-0,3 6. 1,14-0,07 1,0-0,7-0,6-0,3 7. 0,61-0,78 1,0-0,7-0,6-0,3 8. 1,67-0,78 1,5-0,06-1,39-0,3 9. -0,98-0,07-0,47-0,7 1,45-0,91 10. -0,45 0,64-0,47 1,5 0,31 1,11 6
11. -1,51-0,78-0,97-0,7 0,88-0,91 1. 0,61-0,07 0,5-0,06-0,8-0,3 13. -0,98-1,49-1,47 0,59 0,31-0,3 14. 0,08 1,35 0,03 1,5 0,31 1,78 15. 1,14 0,64 0,03-1,38-1,39-0,3 16. -0,45 0,64 0,03 1,5 0,31 1,78 17. 0,08-0,07 1,5-1,38-0,8 0,44 18. -0,45,06-0,97 1,5 0,31-0,91 19. 0,08 1,35-0,47 1,91-0,8 1,78 0. -0,98-1,49-0,97-0,06,0-1,58 Data simulasi indeks K yang telah distandarisasi ini, awalnya sudah terbentuk dalam dua puluh kelompok sesuai dengan banyaknya observasi dan masing-masing kelompok terdiri dari satu anggota (objek observasi). Kemudian dihitung jarak yuklidian antar masing-masing kelompok dan diseleksi, mulai dari urutan yang terkecil. Hasilnya dapat dilihat pada tabel 3. Tabel 3. Hasil seleksi perhitungan jarak yuklidian dari setiap pasang objek Kombinasi kelompok Tahap K 1 K Jarak yuklidian 1. 14 16 0, 89. 1 6 1,01 3. 3 8 1,10 4. 5 11 1,11 5. 13 1,1 6. 10 14 1,16 7. 7 1 1,3 8. 4 10 1,34 9. 1 7 1,35 10. 5 9 1,39 11. 5 1,61 1. 4 19 1,66 13. 1 3 1,8 7
14. 1 17 1,84 15. 9 0 1,86 16. 1 15 1,99 17. 4 18,57 18. 4 3,38 19. 1 4,1 Selanjutnya dihitung pusat variabel masing-masing kelompok baru yang terbentuk dari dua anggota (objek observasi). Hasilnya dapat dilihat pada tabel 4. Tabel 4. Pusat variabel masing-masing kelompok baru yang diperoleh dari tabel 3. Kelompok ke- n Objek observasi 1 3 4 5 6 1. 14 & 16 3,5 5,5 4 6 4 7. 1 & 6 6 4 6,5 3,5 3,5 3. 3 & 8 7,5 6,5 4 1 3,5 4. 5 & 11 1 3,5 5,5 3,5 5. & 13,5 1 4,5 4,5 4 6. 10 & 14 3,5 5,5 3,5 6 4 6,5 7. 7 & 1 5 3,5 5,5 3,5,5 4 8. 4 & 10 3,5 5,5 3,5 5,5 3,5 6 9. 1 & 7 5,5 3,5 6,5 3,5 3,5 10. 5 & 9 1,5 3,5,5,5 6 3,5 11. & 5 1,5 3 1,5 3 5,5 4 1. 4 & 19 4 6 3,5 6,5 6,5 13. 1 & 3 6,5 3 6,5 3,5 1,5 3 14. 1 & 17 5 4 7,5 4 15. 9 & 0 3,5,5 3,5 6,5,5 16. 1 & 15 6 4,5 5,5,5 1,5 3,5 17. 4 & 18 3,5 6,5 3 5,5 3,5 4,5 18. & 4 3 4,5,5 4,5 4 5 19. 1 & 4 3,5 4 3,5 3,5 3,5 8
Dari tabel 4 ini dihitung pula jarak diantara kelompok-kelompok yang terkait dengan anggota-anggota didalamnya. Hasil perhitungan ini ditabulasikan dalam tabel 5A, tabel 5B dan tabel 5C. Tabel 5A. Jarak diantara masing-masing kelompok untuk klaster I yang diperoleh dari tabel 4. Kelompok G 1 G 6 G 8 G 1 G 17 G 1 0 0,707 1,33 1,803,958 G 6 0 0,866 1,658,398 G 8 0 1,414 1,871 G 1 0,449 G 17 0 Dalam tabel 5A ini dipilih nilai minimum yang tidak nol menurut masing-masing baris yaitu 0,707 ; 0,866 ; 1,414 ; dan,449. Akibatnya akan terbentuk Klaster I sesuai kelompokkelompok yang terkait dengan nilai-nilai minimumnya yaitu (G 1,G 6 ), (G 6,G 8 ), (G 8,G 1 ) dan (G 1,G 17 ). Dengan demikian Klaster I terdiri dari 6 objek yaitu 4, 10, 14, 16, 18, dan 19. Atau ditulis Klaster I = [4, 10, 14, 16, 18,19]. Tabel 5B. Jarak diantara masing-masing kelompok untuk klaster II yang diperoleh dari tabel 4. Kelompok G 4 G 5 G 10 G 11 G 15 G 4 0,739 1,000 1,000,11 G 5 0 3,16,000 3,40 G 10 0 1,414 1,581 G 11 0,36 G 15 0 Dalam tabel 5B ini dipilih nilai minimum yang tidak nol menurut masing-masing baris yaitu 1,000 ;,000 ; 1,414 ; dan,36. Akibatnya akan terbentuk Klaster II sesuai kelompokkelompok yang terkait dengan nilai-nilai minimumnya yaitu (G 4,G 10 ), (G 5,G 11 ), (G 10,G 11 ) dan (G 11,G 15 ). Dengan demikian Klaster II terdiri dari 6 objek yaitu, 5, 9, 11, 13, dan 0. Atau ditulis Klaster II = [, 5, 9, 11, 13, 0]. Tabel 5C.Jarak diantara masing-masing kelompok untuk klaster III yang diperoleh dari tabel 4. 9
G G 3 G 7 G 9 G 13 G 14 G 16 G 0,549 1,658 0,707 1,658 1,414 1,581 G 3 0,958,549 1,118,784,915 G 7 0 1,33,345 1,936,06 G 9 0 1,658 1,4 1,871 G 13 0,398,179 G 14 0,000 G 16 0 Dalam tabel 5C ini dipilih nilai minimum yang tidak nol menurut masing-masing baris yaitu 0,707 ; 1,118 ; 1,33 ; 1,4 ;,179 dan,000. Akibatnya akan terbentuk Klaster III sesuai kelompok-kelompok yang terkait dengan nilai-nilai minimumnya yaitu (G,G 9 ), (G 3,G 13 ), (G 7,G 9 ), (G 9,G 14 ), (G 13,G 16 ) dan (G 14,G 16 ). Dengan demikian Klaster III terdiri dari 8 objek yaitu 1, 3, 6, 7, 8, 1, 15, dan 17. Atau ditulis Klaster III = [1, 3, 6, 7, 8, 1, 15, 17]. Perlu diketahui bahwa pemilihan nilai minimum pada tabel 5A, tabel 5B dan tabel 5C di atas dapat juga melalui masingmasing kolom. Selanjutnya dihitung nilai pusat dari masing-masing klaster tersebut dan hasilnya dicantumkan dalam tabel 6. Tabel 6. Nilai pusat yang diperoleh dari ketiga jenis klaster terakhir yaitu I, II, III Jenis Klaster i1 i i3 i4 i5 i6 III 5,750 3,65 6,000 3,15 1,750 3,875 II 1,667 3,000 1,833 3,500 5,500 3,333 I 3,500 5,833 3,333 6,000 3,500 6,000 4. Simpulan Dari tabel 6, dapat disimpulkan beberapa interpretasi tentang kalster-klaster tersebut sebagai berikut : Klaster III mempunyai nilai pusat yang tinggi di lokasi-lokasi SG 1 dan SG 3 (variabel-variabel i1 dan i3 ). Namun di pihak lain klaster ini mempunyai nilai pusat relatif rendah di lokasi SG 5 (variabel i5 ). Dengan demikian klaster III disebut sebagai kondisi geomagnet lokal dengan tingkat gangguan sedang dan masih terjadi badai-badai kecil, namun kadangkala tidak ada badai. Sebaliknya Klaster II mempunyai 10
nilai pusat relatif rendah di lokasi-lokasi SG 1 dan SG 3 (variabel-variabel i1 dan i3 ). Sedangkan di pihak lain klaster ini mempunyai nilai pusat yang tinggi di lokasi SG 5 (variabel i5 ). Sehingga dalam hal ini klaster II dapat disebut sebagai kondisi geomagnet lokal dengan tingkat gangguan sedang, namun hampir tidak ada badai. Selain itu Klaster I mempunyai nilai pusat yang tinggi di lokasi-lokasi SG, SG 4 dan SG 6 (variabel-variabel i, i4 dan i6 ). Dengan demikian klaster I dapat dikatakan sebagai kondisi geomagnet lokal dengan tingkat gangguan sering sedang, namun masih terjadi badai. Daftar Pustaka [1]. Cheng. And Wallace J.M., (1993)., Cluster analysis of the northern hemisphere wintertime height field, J. of the Atmospheric Sciences, 50, pp. 674 696. []. Gong and Richman (1995)., On the application of cluster analysis to growing season precipitation data in north America east of the Rockies, Journal of Climate, 8,pp. 897 931. [3]. Kalkstein et.al. (1987)., An evaluation of three clustering procedures for use in synoptic climatological classification, J. of Climate and Applied Meteorology, 6, pp. 717 730. [4]. Mo K.C. and Ghill M. (1988)., Cluster analysis of multiple planetary flow regimes, Journal of Geophysical Research, D93, pp. 1097 1095. [5]. Romesburg (1984)., Cluster analysis for Researchers, wadsworth / lifetime learning Publications, 334pp. [6].Wilks, D.S (006)., Statistical methods in the atmospheric sciences, AP ELSEVIER, Book Aid International Sabre Foundation, New- York. 11