STK511 Analisis Statistika Pertemuan 13 Peubah Ganda
13. Peubah Ganda: Pengantar Pengamatan Peubah Ganda Menggambarkan suatu objek tidak cukup menggunakan satu peubah saja Kasus pengamatan peubah ganda dijumpai di seluruh bidang terapan Perlu analisis lebih canggih dibandingkan analisis pada peubah tunggal (univariate) perlu sumberdaya lebih, dalam analisis anang kurnia (anangk@apps.ipb.ac.id) 2
13. Peubah Ganda: Pengantar Pengamatan Peubah Ganda Kaidah peluang yang berlaku sangat rumit penurunannya joint distribution, sehingga yang banyak berkembang hanya pada teknik eksplorasi Peubah yang sangat banyak menjadikan data berukuran lebih besar, sehingga muncul berbagai teknik pereduksian Peubah yang diamati tidak saling bebas (ada overlapping informasi antar peubah), sehingga diperlukan teknik-teknik penyusunan peubah baru seperti komponen utama dan peubah kanonik anang kurnia (anangk@apps.ipb.ac.id) 3
13. Peubah Ganda: Pengantar Pengamatan Peubah Ganda Struktur Data x1 E( x 1 ) 1 x2 x = E(x) = = = x p E( x p ) p var( x1 ) cov( x1, x2) cov( x1, xp) cov( x2, x1 ) var( x2) cov( x2, xp) cov( xp, x1) cov( xp, x2) var( xp) 11 12 1p 21 22 2 p p1 p2 pp anang kurnia (anangk@apps.ipb.ac.id) 4
Analisis Komponen Utama
13. Analisis Komponen Utama Analisis Komponen Utama Gugus peubah asal {X 1, X 2,, X p } Gugus KU {KU 1, KU 2,, KU p } Hanya dipilih k < p KU saja, namun mampu memuat sebagian besar informasi anang kurnia (anangk@apps.ipb.ac.id) 6
13. Analisis Komponen Utama Analisis Komponen Utama: Ilustrasi Untuk menceritakan bagaimana wajah pacar kita waktu SMA, tidak perlu disebutkan hidungnya mancung, kulitnya halus, rambutnya indah tergerai dan sebagainya. Tapi cukup katakan Pacar saya waktu SMA orangnya cantik. Kata cantik sudah mampu menggambarkan uraian sebelumnya. anang kurnia (anangk@apps.ipb.ac.id) 7
13. Analisis Komponen Utama Analisis Komponen Utama Gugus peubah asal {X 1, X 2,, X p } Gugus Komponen Utama {KU 1, KU 2,, KU p } KU 1 = a 1 x = a 11 x 1 + + a 1p x p Jika gugus peubah asal {X 1, X 2,, X p } memiliki matriks ragam peragam maka ragam dari komponen utama adalah 2 KU1 = a 1 a 1 = p p i1 j1 a i a 1 1 j ij Tugas kita adalah bagaimana mendapatkan vektor a 1 sehingga ragam di atas maksimum (vektor ini disebut vektor koefisien) anang kurnia (anangk@apps.ipb.ac.id) 8
13. Analisis Komponen Utama Analisis Komponen Utama Vektor a 1 merupakan vektor ciri matriks yang berpadanan dengan akar ciri paling besar. Kombinasi linear dari {X 1, X 2,, X p } berupa KU 1 = a 1 x = a 11 x 1 + + a 1p x p dikenal sebagai KU pertama dan memiliki ragam sebesar 1 = akar ciri terbesar KU 2, KU 3,. Disusun sedemikian sehingga terbesar berurut dan saling bebas dengan KU lainnya. anang kurnia (anangk@apps.ipb.ac.id) 9
13. Analisis Komponen Utama Ilustrasi Ilustrasi berikut menggunakan catatan waktu pada olimpiade Los Angeles tahun 1984 untuk berbagai nomor lari putri di cabang atletik. Ada tujuh nomor yang dicatat, yaitu lari 100 meter, 200 meter, 400 meter, 800 meter, 1500 meter, 3000 meter, dan marathon. Tiga nomor pertama catatan waktu dalam satuan detik, sedangkan empat nomor yang lain dalam menit. Data yang tersedia ada 55 negara peserta. anang kurnia (anangk@apps.ipb.ac.id) 10
13. Analisis Komponen Utama Ilustrasi: Matriks korelasi m100 m200 m400 m800 m1500 m3000 marathon m100 1.0000 0.9528 0.8350 0.7277 0.7163 0.7417 0.5423 m200 0.9528 1.0000 0.8572 0.7241 0.7029 0.7099 0.5444 m400 0.8350 0.8572 1.0000 0.8981 0.7757 0.7776 0.5507 m800 0.7277 0.7241 0.8981 1.0000 0.8260 0.8636 0.6545 m1500 0.7163 0.7029 0.7757 0.8260 1.0000 0.9031 0.6996 m3000 0.7417 0.7099 0.7776 0.8636 0.9031 1.0000 0.7966 marathon 0.5423 0.5444 0.5507 0.6545 0.6996 0.7966 1.0000 anang kurnia (anangk@apps.ipb.ac.id) 11
13. Analisis Komponen Utama Ilustrasi: Akar ciri Eigenvalue Difference Proportion Cumulative 1 5.53319890 4.81746883 0.7905 0.7905 2 0.71573007 0.35411502 0.1022 0.8927 3 0.36161505 0.15335511 0.0517 0.9444 4 0.20825995 0.11607781 0.0298 0.9741 5 0.09218213 0.04086896 0.0132 0.9873 6 0.05131317 0.01361245 0.0073 0.9946 7 0.03770072 0.0054 1.0000 6 5 4 3 2 1 0 1 2 3 4 5 6 7 anang kurnia (anangk@apps.ipb.ac.id) 12
13. Analisis Komponen Utama Ilustrasi: Berapa KU? Metode 1: Menggunakan 2 KU sudah mencapai proporsi keragaman 89.27% Metode 2: Hanya 2 KU yang memiliki akarciri lebih besar dari 0.7 Metode 3: Pada k = 2 terlihat gambar scree plot sangat curam di kiri tapi landai di kanan. Jadi 2 KU yang digunakan sudah mencukupi. anang kurnia (anangk@apps.ipb.ac.id) 13
13. Analisis Komponen Utama Ilustrasi: Vektor ciri Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 m100 0.378202 -.426104 0.359297 -.165099 -.331229 0.225902 0.598584 m200 0.376416 -.452874 0.363819 -.011005 0.175249 0.037974 -.698982 m400 0.391311 -.272232 -.325636 0.378804 0.371464 -.556664 0.274544 m800 0.390624 0.067673 -.512111 0.402954 -.250932 0.579870 -.137794 m1500 0.385043 0.230072 -.245359 -.680608 0.481480 0.195655 0.072641 m3000 0.395890 0.308242 -.074146 -.249112 -.615938 -.509888 -.203317 marathon 0.323383 0.621855 0.551857 0.376128 0.217762 0.056004 0.110204 anang kurnia (anangk@apps.ipb.ac.id) 14
13. Analisis Komponen Utama Contoh Aplikasi KU: Regresi Komponen Utama Analisis Hub antar Peubah Pemeriksaan Multikolinearitas Analisis KU Regresi KU dengan Peubah Respon Y Transformasi Regresi KU ke Peubah Baku Z Transformasi Regresi Z ke Peubah Asal X anang kurnia (anangk@apps.ipb.ac.id) 15
Analisis Geromnbol (Cluster)
13. Cluster Analysis Pengantar Tujuan analisis gerombol : Menggabungkan beberapa objek ke dalam kelompokkelompok berdasarkan sifat kemiripan atau sifat ketidakmiripan antar objek Objek dalam kelompok lebih mirip dibandingkan dengan objek antar kelompok Ketakmiripan antar objek diukur dengan jarak tertentu : jarak Euclid, Mahalanobis dll anang kurnia (anangk@apps.ipb.ac.id) 17
13. Cluster Analysis Pengantar Tujuan dari penggerombolan Kemiripan atau ketakmiripan seperti apa yang diharapkan berhubungan dengan pemilihan peubah Mengkuantifikasi ukuran kemiripan antar objek anang kurnia (anangk@apps.ipb.ac.id) 18
13. Cluster Analysis Metode Metode Grafik Plot Profil lot Andrew Plot Andrew termodifikasi Metode Penggerombolan Berhirarki Metode Penggerombolan tak Berhirarki anang kurnia (anangk@apps.ipb.ac.id) 19
13. Cluster Analysis Plot Profil Plot profil dari setiap pengamatan Pembakuan data sangat membantu Kelemahan : tidak efektif untuk data yang terlalu banyak pengamatan. Ilustrasi : Diperoleh hasil ujian untuk 7 mata ajaran yaitu Matematika, Fisika, Biologi, Sejarah Nasional, Pendidikan kewiraan, dan Kesenian. Ada 6 mahasiswa yang terlibat. anang kurnia (anangk@apps.ipb.ac.id) 20
13. Cluster Analysis Plot Profil anang kurnia (anangk@apps.ipb.ac.id) 21
13. Cluster Analysis Nilai Plot Profil 9 8 7 6 5 Mat Fis Bio Sej Kew Sos Seni Mata Ajaran Andi Benny Budi Ika Maya Ana anang kurnia (anangk@apps.ipb.ac.id) 22
13. Cluster Analysis Konsep Jarak anang kurnia (anangk@apps.ipb.ac.id) 23
13. Cluster Analysis Penggerombolan Berhirarki 1. Metode aglomeratif 2. Metode berhirarki divisif (pemisahan) Beberapa ukuran ketakmiripan antar gerombol : Pautan Tunggal Pautan Lengkap Pautan Centroid Pautan Median Pautan Rataan anang kurnia (anangk@apps.ipb.ac.id) 24
13. Cluster Analysis Penggerombolan Berhirarki Pautan Tunggal (Single Linkage = Nearest Neighbor) Jarak antar dua gerombol diukur dengan jarak terdekat antara sebuah objek dalam gerombol yang satu dengan sebuah objek dalam gerombol yang lain. h(br, Bs) = min { d(xi, xj); xi anggota Br, dan xj anggota Bs } anang kurnia (anangk@apps.ipb.ac.id) 25
13. Cluster Analysis Penggerombolan Berhirarki Pautan Lengkap (Complete Linkage = Farthest Neighbor) Jarak antar dua gerombol diukur dengan jarak terjauh antara sebuah objek dalam gerombol yang satu dengan sebuah objek dalam gerombol yang lain. h(br, Bs) = max { d(xi, xj); xi anggota Br, dan xj anggota Bs } anang kurnia (anangk@apps.ipb.ac.id) 26
13. Cluster Analysis Pautan Centroid (Centroid Linkage) Jarak antara dua buah gerombol diukur sebagai jarak Euclidean antara kedua rataan (centroid) gerombol. x x Penggerombolan Berhirarki Jika r dan s adalah vektor rataan (centroid) dari gerombol Br dan Bs, maka jarak kedua gerombol tersebut didefinisikan sebagai : Jarak yang baru didefinisikan sebagai : n r x n r r n n s s x s anang kurnia (anangk@apps.ipb.ac.id) 27
13. Cluster Analysis Penggerombolan Berhirarki Pautan Median (Median Linkage) Jarak antar gerombol didefinisikan sebagai jarak antar median, dan gerombol-gerombol dengan jarak terkecil akan digabungkan. Median untuk gerombol yang baru adalah Mbaru = m m r s 2 anang kurnia (anangk@apps.ipb.ac.id) 28
13. Cluster Analysis Penggerombolan Berhirarki Pautan Rataan (Average Linkage) Jarak antara dua buah gerombol, Br dan Bs didefinisikan sebagai rataan dari n r n s jarak yang dihitung antara x i anggota Br dan x j anggota Bs anang kurnia (anangk@apps.ipb.ac.id) 29
13. Cluster Analysis Penggerombolan Berhirarki: Ilustrasi Dari ilustrasi sebelumnya, digunakan konsep jarak Euclidian dan diperoleh matriks jarak sbb : anang kurnia (anangk@apps.ipb.ac.id) 30
13. Cluster Analysis Penggerombolan Berhirarki: Ilustrasi Dengan menggunakan konsep Single lingkage diperoleh hasil dalam bentuk dendogram sebagai berikut : anang kurnia (anangk@apps.ipb.ac.id) 31
13. Cluster Analysis Metode K rataan (k-means) Penggerombolan Tak Berhirarki Algoritmanya sbb : 1. Tentukan besarnya k, yaitu banyaknya gerombol, dan tentukan juga centroid di tiap gerombol. 2. Hitung jarak antara setiap objek dengan setiap centroid. 3. Hitung kembali rataan (centroid) untuk gerombol yang baru terbentuk. 4. Ulangi langkah 2 sampai tidak ada lagi pemindahan objek antar gerombol. anang kurnia (anangk@apps.ipb.ac.id) 32
13. Cluster Analysis Penggerombolan Tak Berhirarki: Ilustrasi Misalkan ada dua peubah X 1 dan X 2 yang tiap objeknya diberi nama A, B, C dan D. Datanya sebagai berikut: anang kurnia (anangk@apps.ipb.ac.id) 33
13. Cluster Analysis Penggerombolan Tak Berhirarki: Ilustrasi 1. Dikelompokkan ke dalam 2 kelompok. Centroid dipilih secara acak : c 1 = (2, 2) dan c 2 = (-1, -2). 2. Jarak yang digunakan jarak Euclidian. Memasukkan objek ke gerombol berpatokan pada jarak terdekat Diperoleh matriks jarak sbb : anang kurnia (anangk@apps.ipb.ac.id) 34
13. Cluster Analysis Penggerombolan Tak Berhirarki: Ilustrasi 3. Hitung centroid baru, rataan dari vektor masing-masing unsur. c 1 = (5, 3) c 2 = [(-1, 1) + (1, -2) + (-3, -2)]/3 = (-1, -1) Diperoleh matriks yang sbb : Diperoleh 2 gerombol : G 1 = {A} dan G 2 = {B, C, D}. anang kurnia (anangk@apps.ipb.ac.id) 35
Biplot
13. Biplot Pengantar Biplot diperkenalkan pertama kali oleh Gabriel (1971) sehingga sering disebut sebagai Gabriel s biplot. Metode ini tergolong dalam analisis eksplorasi peubah ganda yang ditujukan untuk menyajikan data peubah ganda dalam peta dua dimensi, sehingga perilaku data mudah dilihat dan diinterpretasikan. anang kurnia (anangk@apps.ipb.ac.id) 37
13. Biplot Definisi Biplot adalah teknik statistika deskriptif yang dapat disajikan secara visual guna menyajikan secara simultan n obyek pengamatan dan p peubah dalam ruang bidang datar, sehingga ciri-ciri peubah dan obyek pengamatan serta posisi relatif antar obyek pengamatan dengan peubah dapat dianalisis. (Jollife, 1986 & Rawlings 1988). anang kurnia (anangk@apps.ipb.ac.id) 38
13. Biplot Informasi yang Bisa Diambil 1. Hubungan antar peubah 2. Kemiripan relatif antar obyek pengamatan 3. Posisi relatif antar obyek pengamatan dengan peubah 4. Nilai peubah pada suatu objek anang kurnia (anangk@apps.ipb.ac.id) 39
13. Biplot Konsep Dasar Biplot merupakan teknik statistika deskriptif dimensi ganda yang mendasarkan pada penguraian nilai singular (PNS) atau Singular Value Decomposition (SVD). Misalkan suatu matriks data X berukuran nxp yang berisi n pengamatan dan p peubah yang dikoreksi terhadap nilai rataratanya dan berpangkat r, dapat dituliskan menjadi X = U L A anang kurnia (anangk@apps.ipb.ac.id) 40
13. Biplot Konsep Dasar Keterangan : matriks U dan A masing-masing berukuran (nxr) dan (pxr) sehingga U U = A A = I r L adalah matrik diagonal berukuran (rxr) dengan unsur-unsur diagonalnya adalah akar kuadrat dari akar ciri X X atau XX sehingga 1 2... r anang kurnia (anangk@apps.ipb.ac.id) 41
13. Biplot Konsep Dasar Kolom matris A adalah vektor ciri yang berpadanan dengan akar ciri dari matrik X X atau XX. Lajur-lajur matrik U dapat dihitung melalui : 1 a U i i i Dengan i adalah akar ciri ke-i dari matrik X X dan a i adalah lajur ke-i matrik A. anang kurnia (anangk@apps.ipb.ac.id) 42
nx r = n U r r L r r A p A = [a 1, a 2,,a r ] r 2 1 0 0 0 0 0 0 L r r a a a 1,..., 1, 1 U 2 2 1 1 13. Biplot Konsep Dasar: SVD anang kurnia (anangk@apps.ipb.ac.id) 43
13. Biplot Konsep Dasar: SVD X = U L L 1- A = G H Misalkan G = U L serta H = L 1- A Unsur ke-(i,j) matriks X dapat dituliskan sbb : X ij = g i h j dimana: i = 1,2,3,...,n j = 1,2,3,...,p dengan g i dan h j masing-masing merupakan baris-baris matriks G dan H Jika r(x)=2 maka g i dan h j digambarkan dalam ruang berdimensi 2 anang kurnia (anangk@apps.ipb.ac.id) 44
13. Biplot Konsep Dasar: SVD Jika = 1, maka G = UL dan H = A, sehingga diperoleh hubungan: X X = (GH )(GH ) = GH HG = GA AG = GG Jika = 0 maka G = U dan H = AL, sehingga diperoleh X X = (GH ) (GH ) = HG GH = HU UH = HH anang kurnia (anangk@apps.ipb.ac.id) 45
13. Biplot Informasi yang Bisa Diperoleh 1. Kedekatan antar obyek. Dua obyek dengan karakteristik sama akan digambarkan sebagai dua faktor yang posisi-nya berdekatan. 2. Keragaman peubah. Peubah dengan keragaman kecil digambarkan sebagai vektor yang pendek. Begitu pula sebaliknya. anang kurnia (anangk@apps.ipb.ac.id) 46
13. Biplot Informasi yang Bisa Diperoleh 3. Hubungan antar peubah : Jika sudut dua peubah < 90 0 maka korelasi bersifat positif Jika sudut dua peubah > 90 0 maka korelasi bersifat negatif Semakin kecil sudutnya, maka semakin kuat korelasinya. 4. Nilai peubah pada suatu obyek. Karakteristik suatu obyek bisa disimpulkan dari posisi relatifnya yang paling dekat dengan suatu peubah. anang kurnia (anangk@apps.ipb.ac.id) 47
13. Biplot Ilustrasi Ilustrasi berikut memberikan penerapan BIPLOT untuk menilai posisi relatif sembilan negara ASEAN menurut indikator pembangunan berkelanjutan (sustatinable development indicators). Ada 9 variabel yang dimasukkan. anang kurnia (anangk@apps.ipb.ac.id) 48
13. Biplot Ilustrasi anang kurnia (anangk@apps.ipb.ac.id) 49
13. Biplot Ilustrasi anang kurnia (anangk@apps.ipb.ac.id) 50
13. Biplot Ilustrasi Lain Biplot Analysis anang kurnia (anangk@apps.ipb.ac.id) 51
13. Diskriminan Prinsip Dasar Perusahaan penyedia jasa layanan kartu kredit harus mampu membuat fungsi diskriminan yang mampu memisahkan calon pemegang kartu yang potensial melakukan transaksi dan yang tidak (idle) berdasarkan data dalam formulir aplikasi. X mampu menjadi pembeda, tetapi Y tidak Y mampu menjadi pembeda, tetapi X tidak anang kurnia (anangk@apps.ipb.ac.id) 52
13. Diskriminan Prinsip Dasar X dan Y saja tidak mampu menjadi pembeda, tetapi kombinasi linearnya bisa Membutuhkan fungsi non-linear dari X dan Y untuk bisa membedakan anang kurnia (anangk@apps.ipb.ac.id) 53
Bersambung. anang kurnia (anangk@apps.ipb.ac.id) 54