BAB 2 LANDASAN TEORI. Analisis Komponen Utama (AKU, Principal Componen Analysis) bermula dari

BAB 2 LANDASAN TEORI 21 Analisis Komponen Utama 211 Pengantar Analisis Komponen Utama (AKU, Principal Componen Analysis) bermula dari tulisan Karl Pearson pada tahun 1901 untuk peubah non-stokastik Analisis ini kemudian ditetapkan menjadi peubah stokastik oleh Harold Hotelling pada tahun 1933 Analisis ini merupakan analisis tertua Perhitungan dalam analisis ini pada waktu tersebut merupakan pekerjaan yang sukar walaupun hanya menggunakan beberapa peubah Analisis ini baru berkembang penggunaannya setelah tersedianya fasilitas komputasi elektronik Satu buku yang khusus membahas AKU telah ditulis oleh Jolliffe 1986 Analisis komponen utama merupakan an atheoretic approach yang menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari mereduksi variabel asli/awal yang banyak sekali Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit akan tetapi masih mengandung informasi yang termuat dalam data asli/awal Variabel hasil mereduksi tersebut dinamakan faktor yang juga disebut komponen atau faktor komponen Secara teknis, analisis komponen utama merupakan suatu teknik mereduksi data multivariat (multivariable) yang mengubah (mentranformasi) suatu matriks data/asli menjadi suatu set kombinasi linier yang lebih sedikit akan tetapi menyerap sebagian besar jumlah varian dari data awal

9 Tujuan utamanya ialah menjelaskan sebanyak mungkin jumlah varian data asli dengan sedikit mungkin komponen utama yang disebut faktor Analisis Komponen Utama biasanya digunakan untuk : 1 Identifikasi peubah baru yang mendasari data peubah ganda 2 Mengurangi banyaknya dimensi himpunan peubah yang biasanya terdiri atas peubah yang banyak dan saling berkolerasi dengan mempertahankan sebanyak mungkin keragaman dalam himpunan data tersebut, dan 3 Menghilangkan peubah-peubah asal yang mempunyai sumbangan informasi yang relatif kecil Peubah baru yang dimaksud di atas disebut komponen utama yang mempunyai ciri sebagai berikut: 1 merupakan kombinasi linier peubah-peubah asal, 2 jumlah kuadrat koefisien dalam kombinasi linier tersebut berrnilai satu, 3 tidak berkorelasi, dan 4 mempunyai ragam berurut dari yang terbesar ke yang terkecil Peubah-peubah baru ini memanfaatkan informasi dari peubah-peubah asal dan nilai yang nantinya diperoleh dari masing-masing objek merupakan ordinat objek-objek tersebut dalam peubah baru yang merupakan suatu sumbu koordinat Tidak adanya korelasi antar peubah baru ini merupakan sifat yang diingikan karena peubah-peubah tersebut mengukur dimensi-dimensi yang berbeda dalam

10 data Ragam suatu peubah merupakan sifat yang penting yang digunakan dalam suatu analisis Makin beragam suatu peubah makin besar perannya dalam pemilahan antar objek Dari peubah-peubah baru tersebut yang terurut keragamannya, diharapkan beberapa peubah baru pertama akan dapat menjelaskan dengan baik keragaman yang ada dalam data asal Jika dua komponen utama pertama dari masing-masing objek digambar dalam diagram pencar maka akan diperoleh gambaran posisi objek dengan hampiran jarak Euclid dari objek asal AKU tidak selalu bermanfaat digunakan untuk mereduksi banyaknya peubah asal menjadi beberapa peubah baru yang dapat menjelaskan dengan baik keragaman data asal Bila tidak ada korelasi antara peubah asal, AKU tidak akan memberikan hasil yang diinginkan, karena peubah baru yang diperoleh hanyalah peubah asal yang ditata berdasarkan besar keragamannya Makin erat korelasi (baik positif maupun negatif) antar peubah, makin baik pula hasil yang diperoleh dari AKU Dalam analisis eksplorasi ini tidak ada anggapan tentang sebaran peubah acaknya, tidak ada hipotesis yang diuji, dan juga tidak ada model yang mendasarinya Bila pendekatan pearson dapat dikaitkan dengan masalah ruang vektor, yaitu mencari ruang vektor optimum, pendekatan Hotelling dapat dikaitkan dengan masalah peubah acak, yaitu peubah acak baru yang tertata keragamannya dan tidak berkorelasi, maka pendekatan lainnya ialah dari sisi komputasi Gourlay dan Watson 1973 menggunakan metode kuasa untuk memperoleh skor komponen utama suatu objek dengan sekuens penggunaan bergantian antara regresi linier sederhana dengan kalibrasi

11 212 Prosedur Andaikan X =(X 1,X 2,, X p ) merupakan vektor peubah acak asal yang diamati dengan matriks kovarian =[σ ij ], maka komponen utama pertama yang dilambangkan oleh Y 1 didefinisikan sebagai : Y 1 = a ij X j = a 1 X, yang memaksimumkan ragam Y 1, yaitu a 1 a 1, dengan kendala a 1 a 1 =1 Komponen utama kedua, dilambangkan oleh Y 2 didefinisikan sebagai : Y 1 = a 2 X, yang memaksimumkan ragam Y 2, dengan kendala a 2 a 2 = 1, dan tidak ada korelasi antara Y 1 dan Y 2 (kovarian Y 1 dan Y 2 yaitu a 1 a 2 = 0 yang nantinya akan berarti a 1 a 2 = 0) Komponen utama yang ketiga dilambangkan oleh Y 3 didefinisikan sebagai: Y 3 = a 3 X, yang memaksimumkan ragam Y 3, dengan kendala a 3 a 3 = 1, dan tidak ada korelasi antara Y 1 dan Y 3 (kovarian Y 1 dan Y 3 yaitu a 1 a 3 = 0 yang nantinya akan berarti a 1 a 3 = 0),dan tidak ada korelasi antara Y 2 dan Y 3 (kovarian Y 2 dan Y 3 yaitu a 2 a 3 = 0 yang nantinya akan berarti a 2 a 3 = 0) Demikian seterusnya untuk komponen utama ke-4 sampai yang ke-p Dengan menggunakan pengganda Lagrange diperoleh a 1,a 2,, a p sebagai eigenvektor yang berpandanan dengan eigenvalue λ 1 λ 2 λ p dari matriks kovarian Nilai eigenvalue ke-i merupakan komponen utama ke-i Karena

12 solusi bagi vektor a merupakan eigenvektor maka vektor ini tidak bersifat khas, misalnya penggandaanya dengan -1 juga akan merupakan solusinya Salah satu ukuran kesesuaian untuk memperoleh gambaran layak tidaknya penggunaan k komponen utama pertama yang digunakan untuk interpretasi atau analisis lanjutannya ialah persentase keragaman yang dapat dijelaskan oleh k komponen utama pertama tersebut, yaitu (λ 1 + λ 2 + + λ k )/(λ 1 + λ 2 + + λ p )x100%; dimana λ 1 + λ 2 + + λ k merupakan eigenvalue, matriks yang ditata dari yang terbesar ke yang terkecil Makin besar nilai ukuran kesesuaian tersebut, makin layak k komponen utama pertama tersebut digunakan Ada peneliti yang menggunakan petunjuk praktis untuk menggunakan k komponen utama pertama bila keragaman yang dapat dijelaskannya 80% Bila matriks kovarian yang digunakan merupakan matriks korelasi, banyak peneliti dibidang sosial yang mengabaikan komponen utama yang berpadanan dengan eigenvalue yang kurang dari 1 Interpretasi dari peubah baru yang diperoleh, komponen utama, kadangkala mudah, kadang sukar, bahkan kadangkala dapat pula meragukan Chatfield dan Collins 1980 memberikan contoh kemungkinan tersebut Tidak ada jaminan bahwa komponen utama ini mudah diinterpretasikan selain bahwa komponenkomponen utama ini merupakan peubah-peubah baru (dengan segala sifat yang diinginkan) yang diharapkan dapat mereduksi banyaknya peubah-peubah asal Tampaknya pemahaman masalah yang dihadapi dan penggunaan informasi dalam data asal misalnya matriks korelasi akan dapat membantu upaya pengambilan simpulan yang layak Untuk menginterpretasikan komponen utama ke-i biasanya digunakan unsur-unsur dalam eigenvektor a i, yang bernilai relatif besar (baik positif maupun negatif) yang digunakan untuk memperoleh peubah-peubah asal

13 yang relatif berperan dalam menentukan komponen utama ini dan kemudian mencoba untuk menginterpretasikannya Dalam beberapa program kemasan komputer, untuk membandingkan unsurunsur eigenvektor sebagai koefisisen dari peubah asal yang terkait pada komponen utama, maka diberikan sebagai hasilnya ialah eigenvektor yang sudah digandakan dengan value dari eigenvalue padanannya Penggandaan ini dapat dikaitkan dengan bobot pentingnya suatu komponen utama Bila digunakan matriks korelasi dalam analisis ini maka besaran unsur-unsur tersebut merupakan korelasi antara peubah asal dengan komponen utamanya Hasil analisis ini, misalnya penggambaran objek yang disajikan dalam ruang berdimensi rendah, katakanlah 3 dimensi, dapat pula digunakan untuk melihat pengelompokan antar objek, dengan ukuran kedekatan yang merupakan pendekatan jarak Euclid dari objek-objek asal dengan menggunakan semua peubah asal yang diamati Bila suatu komponen utama mempunyai eigenvalue = 0, berarti peubah baru ini tidak memiliki keragaman, atau peubah baru ini merupakan suatu konstanta, maka ada keterkaitan linier antar peubah yang diamati Bila nilai (p-1) peubah asal diketahui maka nilai peubah lainnya akan dapat diperoleh Dalam bidang sosial ekonomi yang umumnya mengamati banyak peubah, hal ini digunakan untuk melihat adanya kolinieritas ganda dari peubah yang diamati, yang digunakan untuk menghilangkan peubah yang tidak memberikan tambahan informasi setelah ada peubah lainnya

14 22 Matriks 221 Defenisi Matriks adalah suatu kumpulan angka-angka, sering disebut elemen-elemen yang disusun secara teratur menurut baris dan kolom sehingga berbentuk persegi panjang, dimana panjang dan lebarnya ditunjukkan oleh banyaknya kolom dan baris serta dibatasi tanda [ ] atau ( ) Sebuah matriks dinotasikan dengan simbol huruf besar seperti A mxn, X, atau Z dan sebagainya Sebuah matriks yang berukuran m baris dan n kolom dengan a ij dapat dituliskan sebagai berikut : a 11 a 12 a 1n a 21 a 22 a 2n A mxn = a m1 a m2 a mn atau juga dapat ditulis : A =[a ij ] i =1, 2, m; j =1, 2,, n Contoh : [ ] a11 a A 2x3 = 12 a 13 a 21 a 22 a 23 Disebut matriks A dengan 2 baris dan 3 kolom Jika A sebuah matriks, kita gunakan a ij untuk menyatakan elemen yang terdapat didalam baris i dan kolam j dari A Dalam contoh ini i =1, 2 dan j =1, 2, 3 atau dapat ditulis A =[a ij ]; i =1, 2; j =1, 2, 3

15 222 Operasi Matriks Perkalian skalar Defenisi : Jika A =[a ij ] adalah matriks mxn dan r adalah suatu skalar, maka hasil kali A dari r adalah B =[b ij ] matriks mxn dengan b ij = ra ij (1 i m, 1 j n) contoh : A= 4A= 4 [ ] 2 7 9 3 dengan diberikan r = 4 maka [ ] 2 7 9 3 = [ 8 ] 28 36 12 Perkalian Matriks Definisi : Jika A =[a ij ] adalah matriks mxp dan B =[b ij ] adalah matriks pxn maka hasil kali dari matriks A dan matriks B yang ditulis dengan AB adalah C matriks mxn Secara matematik dapat ditulis sebagai berikut : C ij = a i1 b 1j + a i2 b 2j + + a i1 b 1j = p k=1 a ikb kj Penjumlahan Matriks Jika A = [a ij ] adalah matriks mxp dan B = [b ij ] adalah matriks mxp maka penjumlahan matriks dari matriks A dan matriks B yang ditulis dengan C =[c ij ]=a ij + b ij Pengurangan Matriks Jika A =[a ij ] adalah matriks mxp dan B =[b ij ] adalah matriks mxp maka

16 pengurangan matriks dari matriks A dan matriks B yang ditulis dengan C =[c ij ] dimana c ij = a ij b ij (i =1, 2,, m; j =1, 2,, n) Teorema Jika A =[a ij ] adalah matriks nxn yang mengandung sebaris bilangan nol, maka A =0 Contoh : A 3x3 = [ ] 1 2 3 2 1 4 A =0 0 0 0 Matriks Segitiga Matriks A =[a ij ] suatu matriks bujur sangkar dikatakan segitiga bawah (lower tringular) jika a ij = 0 untuk i<jdan matriks A =[a ij ] suatu matriks bujur sangkar dikatakan segitiga atas (upper tringular) jika a ij = 0 untuk i>j Contoh : 5 0 0 0 1 2 4 1 1 2 0 0 0 1 3 1 Segitiga bawah A= 3 1 3 0, Segitiga atas B= 0 0 2 5 2 1 4 1 0 0 0 5 Teorema Jika A adalah matriks segitiga nxn, maka A adalah hasil kali elemen-elemen pada diagonal utama, yakni A = a 11 a 22 a nn Contoh : 2 7 3 8 0 3 7 5 A 4x4 = 0 0 6 7, A = (2)( 3)(6)(1) = 36 0 0 0 1

17 Teorema : jika A adalah sembarang matriks kuadrat, maka A = A t Teorema : jika A dan B adalah matriks kuadrat yang ordonya sama, mka AB = A B Contoh : A 2x2 = 23 AB = 23 [ ] 3 1 2 1, B 2x2 = [ ] 1 3 5 8, AB 2x2 = [ ] 2 17 3 14 A B = (1)( 23) = sehingga det (AB) = det (A) det (B) 23 Eigenvalue dan Eigenvektor Definisi Jika A adalah matriks nxn, maka vektor tak nol X didalam R n dinamakan eigenvektor dari A jika AX adalah kelipatan skalar dari X; yakni, AX = λx Untuk suatu skalar λ Skalar λ dinamakan nilai eigen(eigenvalue) dari A dan X dikatakan eigenvektor yang bersesuaian dengan λ Untuk mencari nilai eigen matriks A yang berukuran nxn: a 11 a 12 a 1n a 21 a 22 a 2n A nxn =, a n1 a n2 a nn 1 0 0 0 1 0 I nxn =, 0 0 1

18 X 1 X 2 X = X n AX = λx, X 0 AX = λix λix AX =0 (λi A)X =0 X 0 λi A =0 untuk memperoleh nilai λ λi A =0 λ a 11 a 1n =0 a n1 λ a nn f(λ) =a 0 λ n + a 1 λ n 1 + + a n 1 λ + a n =0 n buah akar λ 1,λ 2,, λ n Jika eigenvalue λ n adalah substitusi pada persamaan (λi A)X = 0, maka solusi dari eigenvektor X n adalah (λ n I A)X n =0 Definisi Misalkan A =[a ij ] matriks nxn Determinan λ a 11 a 12 a 1n a 21 λ a 22 a 2n f(λ) =det(λi n A) = a n1 a n2 λ a nn Dikatakan karakteristik polinom dari A, persamaan

19 f(λ) =det(λi n A) =0 dikatakan persamaan karakteristik dari A Definisi Matriks kuadrat A dinamakan didiagonalisasi (diagonalizable) jika terdapat matriks P yang dapat dibalik sehingga P 1 AP diagonal, matriks P dikatakan mendiagonalisasi B Teorema : Jika A adalah matriks nxn, maka pernyataan-pernyataan berikut ekivalen satu sama lain 1 A dapat didiagonalisasi 2 A mempunyai n vektor eigen bebas linier 24 Matriks Korelasi Misalnya pada persamaan : Y = β 0 + β 1 X 1 + + β p X P + ɛ persamaan tersebut dinyatakan sebagai : Y =(β 0 + β 1 X1 + β 2 X2 + + β p XP )+β 1 (X 1 X 1 )+β 2 (X 2 X 2 )+ + β p (X p X p )+ɛ dengan X j,j =1, 2,, p adalah nilai tengah yang dihitung dari data Persamaan dapat ditulis : Y = β 0 + β 1(X 1 X 1 )+β 2 (X 2 X 2 )+ + β p (X p X p )+ɛ dimana

20 β 0 = β 0 + β 1 X 1 + β 2 X 2 + + β p X P ) jika β 0 = Ȳ, Y β 0 = β 1 (X 1 X 1 )+β 2 (X 2 X 2 )+ + β p (X p X p )+ɛ matriks X t X untuk model ini adalah : S 11 S 12 S 1p X t S 21 S 22 S 2p X= S p1 S p2 S pp dengan S ij = n (xiu x i )(x ju x j ),i=1, 2, nj =1, 2, p kemudian bagi setiap peubah dengan jumlah kuadrat terkoreksinya, dan namakan peubah barunya : z ij = x ij x j, Sjj S ij = n i=1 (x ij x j ) 2 dan yi = x i ȳ, Syy S yy = n i=1 (y i ȳ) 2 i =1, 2,, n dan j =1, 2,, p ini akan mengubah model diatas kedalam bentuk baru : y1s yy 1/2 = β 1 S 1/2 11 Z 1 + β 2 S 1/2 22 + + β p Spp 1/2 + ɛ atau y 1 = b 1 Z 1 + b 2 Z 2 + + b p Z p + ɛ

21 dengan b j = β j ( Sjj S yy ) 1/2, j =1, 2, p melalui metode kuadrat terkecil, nilai dugaan parameter ˆb pada persamaan diatas dapat ditentukan yaitu : ˆb =(Z t Z) 1 Z t Y matriks Z t Z merupakan matriks korelasi yaitu : 1 r 12 r 13 r 1p r 21 1 r 23 r 2p Z t Z= r 31 r 32 1 r 3p r p1 r p2 r p3 1 dengan r ij = n i=1 ( ) xui x i Sii ( x uj x j ), Sjj hubungan antara koefisien antara regresi data awal ( ˆβ j ) dengan koefisien regresi yang dibakukan ˆb j adalah : ˆβ j = ˆb j ( Syy S jj ) 1/2, j =1, 2,, p dan ˆβ0 =ȳ p j=1 ˆβ j x j dengan ȳ dan x merupakan nilai rata-rata dari y dan nilai rata-rata dari x