ABSTRAK PENYEDERHANAAN PEMETAAN STRUKTUR KETERGANTUNGAN VARIABEL MENGGUNAKAN TEKNIK PRINSIPAL KOMPONEN Mike Susmikanti *) PENYEDERHANAAN PEMETAAN STRUKTUR KETERGANTUNGAN VARIABEL MENGGUNAKAN TEKNIK PRINSIPAL KOMPONEN. Struktur pengamatan dari banyak variabel dapat dianalisis dengan perhitungan korelasi. Analisa struktur ketergantungan masing-masing variabel dilakukan, agar dapat memetakan aturan pasti untuk variabel-variabel yang bersangkutan. Persoalan yang dijumpai dalam salah satu aplikasi pengolahan citra mengenai struktur ketergantungan variabel apabila pengamatan variabel bebas yang satu berkoresponden dengan variabel lain sebanyak k variabel dan n pengamatan. Pemetaan struktur ketergantungan variabel akan lebih kompleks yaitu struktur dalam dimensi-n dengan subruang dimensi-k. Dalam persoalan penyederhanaan struktur tersebut, disarankan menggunakan tehnik prinsipal komponen yang metodologinya didasarkan pada rata-rata taksiran bidang dengan orthogonal least square yang kemudian dikembangkan untuk alasan lebih umum dengan struktur analisa korelasi. Komputasi analisis eigen dan singular value decomposition dilakukan untuk membentuk suatu dekomposisi serupa terhadap data pengamatan. Singular value decomposition merupakan tahapan pertama dalam analisis prinsipal komponen. Komputasi selanjutnya, membentuk vektor prinsipal komponen yang akan digunakan untuk pemetaan lokasi dalam ruang dimensi yang lebih sederhana. ABSTRACT The Simplification of the Mapping of Variable Dependence Structure Using Component Principle Technique. Observation structure of many variables can be analyzed using correlation calculation. The analysis of dependence variable structure of each variable is done in order to be able to map a certain rule for the dependence variable. A problem we meet in one of the applications of image processing concerning variable dependence structure when one independent variable observation corresponds with k variables in n observations. The mapping of variable dependence structure will be more complex, i.e. structure in n-dimensions with a subspace of k-dimensions. In the problem of the structure simplification, it is recommended to use component principle technique where its methodology is based on the average of fitting planes by orthogonal least square, but developed for partical purpose of analyzing correlation structures. The eigenanalysis computation and singular value decomposition used to develop a similar decomposition for observations data. Singular value decomposition is the first step then used in component principle analyses. The next computation, developed the component principle vector wich will be used for location mapping in more simply dimension space. *) Pusat Pengembangan Teknologi Informasi dan Komputasi
Pendahuluan Struktur pengamatan dari banyak variabel dapat dianalisis dengan menggunakan korelasi parsial dan korelasi ganda untuk menganalisa struktur ketergantungan dari populasi dengan banyak variabel bebas yang mempunyai sebaran normal. Analisis korelasi parsial diperlukan untuk memutuskan yang mana variabel yang berkorelasi dan yang mana variabel yang konstan. Sedangkan korelasi ganda mengharapkan bahwa satu variabel menjadi tidak bebas terhadap beberapa atau semua variabel yang lain. Pilihan analisis tergantung pada keadaan alamiah dari variabel-variabel tersebut dan informasi eksternal lain. Kesimpulan kita untuk dapat menggambarkan tentang struktur ketidakbebasan variabel tergantung berdasarkan pilihan tersebut diatas. Persoalan yang dijumpai dalam aplikasi pengolahan citra adalah apabila pengamatan variabel yang satu berkoresponden dengan pengamatan pada variabel-variabel lain. Apabila terdapat k variabel bebas yang mempengaruhi dengan n pengamatan, maka pemetaan struktur ketergantungan variabel akan lebih kompleks yaitu struktur dalam ruang dimensi-n dengan subruang dimensi-k. Untuk keperluan hal tersebut yaitu dalam persoalan penyederhanaan struktur disarankan menggunakan tehnik prinsipal komponen. Analisis struktur ketergantungan variabel berdasarkan pada taksiran secara statistik dari koefisien fungsi. Metodologi Tehnik prinsipal komponen didasarkan atas taksiran rata-rata bidang (orthogonal least square) yang selanjutnya dikembangkan untuk alasan lebih umum dengan struktur analisa korelasi. 2
Dekomposisi matriks Prinsipal komponen dari pengamatan banyak variabel mempunyai distribusi multivariat dengan rata-rata dalam bentuk vektor (terdiri dari beberapa komponen) dan matrikss kovarian. Asumsi bahwa rata-rata dan matriks kovarian ada. Taksiran dari matriks kovarian dinyatakan sebagai sampel matriks kovarian. Matriks data dinyatakan sebagai X n x p, n menyatakan banyak pengamatan bebas dan p adalah banyak variabel tidak bebas. X T X merupakan matriks order p x p yang simetris dan bujur sangkar. Secara matematik, matriks yang tidak mempunyai rank penuh p, mempunyai akar ciri atau akar karakteristik berbeda. ë 2 i adalah akar ciri dan ë i merupakan akar yang positif dari akar ciri disebut nilai-singular (singular value). Z i adalah kolom-kolom atau vektor ciri-vektor ciri. Rank dari matriks kovarian didefinisikan dengan r, dimana r p dengan akar ciriakar ciri q yaitu ë 2 1 >.. > ë 2 q. Sebelumnya nilai X ij ditransformasi ke nilai standar x ij = (X ij xj )/s j, apabila data pengamatan dari masing-masing variabel bebas mempunyai satuan yang berbeda. Matriks Z = (z 1, z 2,, z n ) dinyatakan sebagai matriks dari vektor ciri, yang memenuhi Z T Z = I. Jika L merupakan matriks diagonal, maka dekomposisi dari suatu matriks X T X adalah ZLZ T = Σë 2 i (z i z T i ). 3
Singular Value Decomposition Singular Value Decomposition merupakan tahap pertama dalam analisis prinsipal komponen. Analisis digunakan untuk membentuk dekomposisi serupa yang disebut dengan singular value decomposition. Jika X suatu matriks data dengan order n x p dimana n > p. X T X merupakan matriks simetris kuadrat dengan order p x p yang ingin dicari akar cirinya, maka X T X = ZLZ T (1), L adalah matriks dengan unsur-unsur akar ciri dan Z matriks vektor ciri. XX T adalah matriks simetris kuadrat dengan order n x n. Rank dari X T X paling banyak adalah p sehingga akan terdapat paling banyak p akar ciri yang tidak nol. Pada prinsipnya akar ciri yang diperoleh dari matriks XX T adalah sama seperti akar ciri pada matriks X T X. Terdapat (n-p) akar ciri dan (n-p) vektor kolom yang diabaikan. Apabila U menyatakan matriks dari vektor ciri yang berkoresponden dengan p akar ciri seperti dalam matriks X T X. Setiap vektor ciri u i mempunyai order n x 1 yang memenuhi persamaan berikut; XX T = ULU T (2) 4
Dari persamaan (1) dan (2) diperoleh; X = UL 1/2 Z T (3) Bentuk persamaan (3) adalah singular value decomposition dari matriks X. L 1/2 adalah matriks diagonal dengan unsur-unsurnya adalah nilai-singular dari matriks X T X. Adapun L 1/2 L 1/2 = L. Unsur-unsur matriks L 1/2 dinyatakan dengan ë i yang merupakan nilai-nilai singular, dengan memperhatikan vektor kolom matriks U dan vektor-vektor singular Z. Jika L 1/2 adalah suatu matriks diagonal, maka singular value decomposition yang dinyatakan dengan X merupakan matriks rank-1 sebagai berikut; p X = i= 1 ë i u i z i T (4) Apabila akar ciri diurutkan dari terbesar sampai dengan yang terkecil, maka matriks yang pertama yaitu matriks rank-1 adalah matrik terbaik yang mendekati X. Jumlah dua matriks pertama adalah matriks rank-2 yang terbaik sebagai pendekatan X dan seterusnya. Pendekatan taksiran terbaik untuk urutan pertama yang diberikan dalam hal ini merupakan perbandingan dari nilai akar ciri pertama ë 1 atau kuadrat dari nilai singular terhadap jumlah akar ciri seluruhnya. Jadi pendekatan rank-1 merupakan kecocokan 2 terbaik dari ë i / Σë 2 i, sedangkan pendekatan rank-2 merupakan kecocokan terbaik dari (ë 2 1 + ë 2 2 ) / Σ ë 2 i, dan seterusnya. 5
Analisis Prinsipal Komponen Dalam analisis prinsipal komponen suatu matriks data X; dengan menggunakan hasil X = UL 1/2 Z T dimana Z T Z = I, maka dapat dibentuk suatu matriks berikut; W n x p = XZ = UL 1/2 (5) Kolom pertama dari Z adalah vektor ciri pertama dari X T X. Koefisien dalam vektor ciri pertama mendefinisikan fungsi linier dari kolom X (variabel asli) yang dinyatakan dalam kolom pertama W. Kolom kedua W diperoleh dengan menggunakan vektor ciri kedua dari X T X dan seterusnya. W T W = L, W adalah suatu matriks dengan order n x p yang tidak sama dengan X, bersifat bahwa semua kolom-kolomnya adalah ortogonal. Sedangkan L adalah suatu matriks diagonal demikian sehingga semua unsur diluar diagonal utamanya, yaitu penjumlahan dari perkalian antar kolom W adalah nol. Jumlah kuadrat dari kolom ke i matriks W adalah ë 2 i, yang merupakan unsur diagonal ke i dari matriks L. Jadi jika X adalah suatu matriks n x p dengan n pengamatan dan p variabel, tiap kolom dari W adalah variabel baru yang didefinisikan sebagai transformasi linier dari variabel bebas. Kolom-kolom W adalah komponen prinsipal atau disebut dengan nilainilai prinsipal komponen. Prinsipal komponen pertama dari sample variabel yang kompleks X 1,,X p adalah komposisi linier yang dinyatakan dengan; 6
Y 1 = a 11 X 1 +.+ a p1 Xp (6) dimana koefisien a i1 adalah unsur-unsur dari vektor ciri ë 2 1 yang berhubungan dengan akar ciri terbesar pada matriks kovarian. Koefisien a i1 adalah unik demikian sehingga a T 1 a 1 = 1. Transformasi adalah kumpulan variabel ortogonal demikian sehingga prinsipal komponen pertama menghitung kemungkinan terbesar jumlah dari total sebaran, yang diukur dengan ë 2 1. Prinsipal komponen kedua adalah komposisi linier; Y 2 = a 12 X 1 +.+ a p2 X p (7) yang memenuhi batasan a T 2 a 2 = 1 dan a T 1 a 2 = 0. Prinsipal komponen kedua menghitung kemungkinan terbesar jumlah sisa sebaran ë 2 2 dan seterusnya. Total sebaran adalah jumlah dari semua akar ciri, yang sama dengan jumlah kuadrat variabel bebas tr(x T X) = tr(w T W) = Σ ë 2 i. Pembahasan Untuk persoalan berikut, Matriks X adalah data hasil pengamatan yang telah distandarisasi untuk beberapa variabel bebas dikarenakan variabel tersebut mempunyai satuan ukuran yang berbeda. Adapun variabel yang diamati antara lain menunjukkan rata- 7
rata temperatur minimum per hari (X 1 ), rata-rata temperatur maksimum per hari (X 2 ), total turun hujan (X 3 ) dan tingkat total pertumbuhan perhari (X 4 ) dalam enam lokasi. X = 0.178146 0.449895-0.147952-0.057369-0.782003 0.359312-0.523245-0.209298 0.300866 0.065406-0.327028 0.693299 0.059117 0.777976-0.210455 0.120598-0.210455-0.536780-0.060996 0.301186-0.053411-0.057203-0.732264 0.602687 X T = 0.178146-0.523245 0.059117-0.060996 0.449895-0.209298 0.777976 0.301186-0.147952 0.300866-0.210455-0.053411-0.057369 0.065406 0.120598-0.782003-0.327028-0.210455-0.057203-0.732264 0.359312 0.693299-0.536780 0.602687 X T X = 0.998548 0.269761 0.355201 0.924051 0.269761 0.998613-0.551228 0.605416 0.355201-0.551228 0.997106 0.065675 0.924051 0.605416 0.065675 0.998487 Dari persamaan X T X = ZLZ T, diperoleh matriks vektor ciri z; Z = X T X = - 0.595070-0.451961-0.004737-0.664531-0.336091 0.540861-0.768597-0.061411 0.382671-0.658070-0.639161 0.109450 0.621689 0.264850-0.026619-0.736647 dan matriks akar ciri L yang merupakan matriks diagonal; 8
L = 2.2381743 1.5455732 0.2056628 0.0033438 Matrix diagonal untuk nilai-nilai singular L 1/2 ; 1.4960529 L 1/2 = 1.2432108 0.4535006 0.0578253 0.31229 0.21701 - XX T = - 0.03364-0.21701 0.93961 0.19228-0.30783 0.03691 0.06336-0.66628 0.36628-0.21892-0.19228-0.30783 0.15852 0.00570 0.09975 0.23578-0.03364 0.03691 0.00570 0.02512 0.03984-0.07405 0.06336-0.66628 0.09975 0.03984 1.29838-0.83545-0.36628-0.21892 0.23578-0.07405-0.83545 1.25883 Dari persamaan X T X = ULU T, diperoleh matrix U yang merupakan matriks vektor ciri dari XX T ; U = - 0.113663 0.251616 0.007953-0.027975-0.735647 0.617857-0.309165-0.707546 0.302703-0.027685 0.235133 0.506076 0.811484-0.340303-0.276186-0.325302-0.066051 0.198051 0.255465-0.322151 0.565478 0.355789-0.483383-0.388517 9
Pendekatan rank-1 yang dinyatakan dengan variabel X 1 memberikan pendekatan terbaik untuk X dimana X 1 = ë 1 u 1 z T 1. Kolom pertama dari U yaitu u 1 dan kolom pertama dari Z yaitu z 1 serta nilai singular pertama ë 1 = 1.4960529 memberikan nilai X 1 sebagai berikut; - 0.113663 0.251616 0.007953 X 1 = (1.490529) - 0.027975-0.735647 0.617857 (- 0.595070-0.336091 0.382671 0.621689 ) X 1 = 0.100816-0.223176-0.007054 0.024813 0.652496-0.548020 0.056940-0.126048-0.003984 0.014014 0.368525-0.309518-0.064831 0.143517 0.004536-0.015956-0.419600 0.352415-0.105325 0.233159 0.007370-0.025923-0.681684 0.572534 Kecocokan terbaik dari X 1 terhadap X diukur dengan ë 2 1 / Σë 2 i = (1,49053) 2 /4 = 2,238/4 = 0,56; atau jumlah kuadrat dari perbedaan diantara unsur-unsur X dengan X 1. Berarti terdapat 44% selisih kecocokan dari total jumlah kuadrat unsur-unsur dalam X. Hal ini bukanlah merupakan pendekatan yang baik. Pendekatan rank-2 dari X diperoleh dengan menambahkan matriks X 1 dengan T matriks X 2 = ë 2 u 2 z 2 10
X 2 = (1.2432108) - 0.309165-0.707546 0.302703-0.027685 0.235133 0.506076 (- 0.336091 0.540861-0.768597-0.061411 ) X 2 = 0.129179 0.295635-0.126479 0.011568-0.098246-0.211455-0.207884-0.475757 0.203539-0.018616 0.158104 0.340288 0.295416 0.676080-0.289241 0.026454-0.224676-0.483570 0.023604 0.054019-0.023110 0.002114-0.017952-0.038637 X 1 + X 2 = 0.229995 0.072460-0.133533 0.036381 0.554250-0.759475-0.150944-0.601805 0.199555-0.004601 0.526629 0.030770 0.230584 0.819597-0.284705 0.010497-0.644276-0.131155-0.081722 0.287178-0.015741-0.023809-0.699636 0.533897 Pendekatan X dengan matriks rank-2 yang dinyatakan dengan matriks X 1 +X 2 adalah (ë 2 1 +ë 2 2 )/ Σëi 2 = ((1,4905) 2 + (1,2432)) 2 /4 = 0,948 = 0,95. Berarti terdapat selisih kecocokan sebesar 5% diantara X dengan (X 1 + X 2 ). Hal ini sudah merupakan pendekatan yang baik. Jadi Jumlah kuadrat dari semua unsur dalam X adalah Σë 2 i. Jumlah kuadrat dari semua unsur dalam (X 1 + X 2 ) adalah (ë 2 1 + ë 2 2 ), dan jumlah kuadrat dari semua unsur dalam {X-(X 1 +X 2 )} adalah (ë 3 2 + ë 4 2 ). Jumlah kuadrat dari masing-masing prinsipal 11
2 komponen (akar ciri) pertama adalah ë 1 = 2,2407, dan jumlah kuadrat untuk prinsipal 2 2 2 komponen kedua, ketiga dan keempat masing-masing ë 2 = 1,5498, ë 3 = 0,2062, ë 4 = 0.0034 (gambar-1). Keseluruhan nilai akar ciri berjumlah 4. Dengan cara yang sama diperoleh nilai proporsi berturut-turut untuk ë 2 i adalah 0,56; 0,387; 0,052 dan 0,001 dan nilai kumulatifnya adalah 0,56; 0,947; 0,999 dan 1,000 (tabel-1). Walaupun untuk pendekatan matriks rank-3 akan memperoleh kecocokan yang lebih baik, tetapi untuk pendekatan rank-2 sudah cukup baik. Selanjutnya setelah tahap pertama dengan dekomposisi melalui nilai singular maka dilakukan analisis prinsipal komponen. Vektor prinsipal komponen diperoleh dengan persamaan; atau W = UL 1/2 W = XZ. Diperoleh matriks W sebagai berikut; 0.17005 0.37643 0.01190 W = 0.04185 1.10057 0.92435 0.38436 0.87963 0.37632 0.03442 0.29232 0.62916 0.36801 0.15433 0.12525 0.14752 0.02995 0.08982 0.01477 0.01863 0.03270 0.02057 0.02795 0.02246 12
Secara geometri, nilai kecocokan terbaik 0,95 yang diperoleh memberi arti bahwa 95% penyebaran titik dalam empat dimensi secara kenyataan hanya mengandung dua dimensi atau titik-titik dalam empat dimensi dapat didekati pada suatu bidang. Berarti hanya 5% penyebaran yang hilang jika dimensi ketiga dan keempat diabaikan dan mudah interpertasinya dalam plot data. Setiap vektor data dalam X merupakan suatu vektor dalam ruang dimensi-6 dan empat vektor yang didefinisikan sebagai sub-ruang dimensi-4. Vektor-vektor ini tidak ortogonal. Empat vektor dalam W, yang merupakan vektor prinsipal komponen adalah fungsi linier dari vektor-vektor aslinya dan mereka berada dalam ruang vektor dimensi-4. Vektor-vektor prinsipal komponen adalah ortogonal dan didefinisikan demikian sehingga vektor prinsipal komponen mempunyai kemungkinan terbesar. Arah sumbu prinsipal komponen pertama merupakan sumbu utama dengan absis nilai unsur w 1 yang berpasangan dengan nilai unsur w 2 sebagai sumbu kedua atau ordinat yang keseluruhannya membentuk elipsoida (gambar-2). Variabilitas diantara enam lokasi dalam rata-rata temperatur minimum, rata-rata temperatur maksimum, total hujan turun dan total tingkat pertumbuhan dapat disederhanakan dengan hanya memandang dua dimensi (atau variabel) yang didefinisikan oleh prinsipal komponen pertama dan prinsipal komponen kedua (gambar-2). Komponen prinsipal pertama terutama merefleksikan rata-rata temperatur. Komponen prinsipal kedua merupakan suatu ukuran dari total hujan turun dikurangi sebaran diantara temperatur maksimum dan minimum. 13
Akar ciri 2,2407 1,5498 0,2062 0,0034 Proporsi 0,56 0,387 0,052 0,001 Nilai Kumulatif 0,56 0,948 0,999 1,000 Tabel-1 : Analisis Ciri Matrik Korelasi 2 Akar ciri 1 0 1 2 3 4 Nomer Komponen Gambar-1 : Nilai akar ciri untuk masing-masing komponen 1.0 0.5 Prinsipal komponen-2 x Lokasi-5 x Lokasi-3 x Lokasi-6 W 2 0 x Lokasi-4 14
- 0.5 x Lokasi-1-1.0 x Lokasi-2-1.0-0.5 0 0.5 1.0 W 1 Prinsipal komponen-1 Gambar-2 : Dua prinsipal komponen yang pertama dari data rata-rata temperatur minimum, rata-rata temperatur maksimum, total hujan turun dan tingkat pertumbuhan per hari untuk enam lokasi. Kesimpulan 1. Pengamatan dengan banyak variabel bebas yang berkoresponden, dapat disederhanakan struktur ketergantungannya dalam dimensi-2 menggunakan tehnik prinsipal komponen berdasarkan taksiran kuadrat terkecil pada bidang. 15
2. Pembentukan matriks akar ciri dan vektor ciri sangat diperlukan dalam tehnik prinsipal komponen untuk membentuk dekomposisi data pengamatan yang serupa. 3. Single value decomposition digunakan sebagai tahap pertama dalam tehnik prinsipal komponen. Daftar Pustaka 1. Graybill, Franklin A., Introduction to Matrices with Applications in Statistics, Wadsworth Publishing Company, Inc., Belmont, California (1969) 2. Morisson, Donald F., Multivariate Statistical Methods, McGraw-Hill Int. Book Company, Tokyo, Japan (1981) 3. Rawlings, John O., Applied Regression Analysis: A Research Tool, Wadsworth & Brooks/Cole Advanced Books & Software, Pacific Grove, California (1988) 16