MODUL I ANALISIS KOMPONEN UTAMA

dokumen-dokumen yang mirip

BAB III ANALISIS FAKTOR. berfungsi untuk mereduksi dimensi data dengan cara menyatakan variabel asal

BAB 2 LANDASAN TEORI

TINJAUAN PUSTAKA Analisis Gerombol

ANALISIS FAKTOR (FACTOR ANALYSIS)

Penggunaan Analisis Faktor (Factor Analysis) dengan Aplikasi Program SPSS 11.5

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

BAB II TINJAUAN PUSTAKA. dari variabel-variabel yang saling berkorelasi. Analisis peubah ganda dapat

Bab 4 ANALISIS FAKTOR TEORITIS DAN APLIKATIF

TINJAUAN PUSTAKA. Dalam proses pengumpulan data, peneliti sering menemukan nilai pengamatan

BAB 2 TINJAUAN PUSTAKA

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

Bab 2 LANDASAN TEORI

Bab 4 ANALISIS FAKTOR DENGAN SPSS

PENERAPAN ANALISIS KOMPONEN UTAMA DALAM PENENTUAN FAKTOR DOMINAN YANG MEMPENGARUHI PRESTASI BELAJAR SISWA (Studi Kasus : SMAN 1 MEDAN)

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

FAKTOR FAKTOR YANG MEMENGARUHI MINAT MAHASISWA ASAL LUAR BALI KULIAH DI FMIPA UNIVERSITAS UDAYANA BALI

BAB III PEREDUKSIAN RUANG INDIVIDU DENGAN ANALISIS KOMPONEN UTAMA. Analisis komponen utama adalah metode statistika multivariat yang

BAB V ANALISIS DATA PENELITIAN. responden. Data deskriptif ini nantinya dapat menggambarkan keadaan ataupun

BAB 2 TINJAUAN PUSTAKA

MODUL 3 ANALISIS FAKTOR

aljabar geo g metr me i

TINJAUAN PUSTAKA Analisis Biplot Biasa

BAB II TINJAUAN PUSTAKA

BAB IV ANALISIS HASIL

STK511 Analisis Statistika. Pertemuan 13 Peubah Ganda

BAB III ANALISIS KORELASI KANONIK ROBUST DENGAN METODE MINIMUM COVARIANCE DETERMINAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB. IX ANALISIS REGRESI FAKTOR (REGRESSION FACTOR ANALYSIS)

IV METODE PENELITIAN 4.1. Lokasi dan Waktu penelitian 4.2. Data dan Metode Pengambilan Sampel

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI

BAB III KALMAN FILTER DISKRIT. Kalman Filter adalah rangkaian teknik perhitungan matematika (algoritma)

Pendahuluan. 0 Analisis interaksi antarvariabel 0 Interdependence 0 Deteksi multikolinearitas

ASUMSI MODEL SEM. d j

BAB II TINJAUAN PUSTAKA. Dalam bab ini akan dipaparkan beberapa teori pendukung yang digunakan dalam

(2.1) keterangan: i = Banyaknya faktor yang terbentuk; (i=1,2,3,...,k)

Analisis Komponen Utama (Principal component analysis)

BAB III PEMBAHASAN. Analisis cluster merupakan analisis yang bertujuan untuk. mengelompokkan objek-objek pengamatan berdasarkan karakteristik yang

BAB 2 LANDASAN TEORI

Analisis Faktor Terhadap Resiko Kejadian Diare pada Anak Balita di Kota Ambon

Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur

Analisis Regresi 2. Multikolinier & penanganannya

BAB 2 LANDASAN TEORI. 2.1 Faktor - Faktor yang Mempengaruhi Hasil Produksi Kentang

SILABUS PERKULIAHAN METODE STATISTIKA MULTIVARIAT 3 SKS KODE :

BAB II LANDASAN TEORI. metode kuadrat terkecil (MKT), outlier, regresi robust, koefisien determinasi,

BAB II TINJAUAN PUSTAKA. konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma

BAB III. Model Regresi Linear 2-Level. Sebuah model regresi dikatakan linear jika parameter-parameternya bersifat

Masalah Overdispersi dalam Model Regresi Logistik Multinomial

TINJAUAN PUSTAKA Spesifikasi Model Berbagai model dalam pemodelan persamaan struktural telah dikembangkan oleh banyak peneliti diantaranya Bollen

MODUL 5 ANALISIS DISKRIMINAN

Abstract. Abstrak. Keywords : Principal Component Analysis, Agriculture Production and Plantation

PEMODELAN PRINCIPAL COMPONENT REGRESSION DENGAN SOFTWARE R

BAB III MINIMUM VOLUME ELLIPSOID PADA ANALISIS KOMPONEN UTAMA ROBUST. Pada bab ini akan dikaji bahasan utama yaitu pencilan dan analisis

BAB VI ANALISIS FAKTOR-FAKTOR PENENTU KEPUTUSAN HUTANG

BAB II TINJAUAN PUSTAKA. satu peubah prediktor dengan satu peubah respon disebut analisis regresi linier

Resume Regresi Linear dan Korelasi

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. Untuk menguji apakah alat ukur (instrument) yang digunakan memenuhi

BAB 4 HASIL PENELITIAN

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

BAB III METODE PENELITIAN. September). Data yang dikumpulkan berupa data jasa pelayanan pelabuhan, yaitu

TINJAUAN PUSTAKA. dianalisis dan hasilnya ditransformasi menjadi matriks berukuran??

Analisis Regresi 2. Multikolinier & penanganannya

Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier. The Use of Gaussian PCA Kernel in Solving Non Linier Multivariate Plot

BAB IV PENGOLAHAN DATA

OUTPUT ANALISIS FAKTOR SPSS 23

TINJAUAN PUSTAKA. Gambar 1 Diagram kotak garis

3.1. Hal-Hal Tentang Analisis Faktor

BAB III METODE PENELITIAN. kuantitatif adalah sebagai penelitian yang menekankan pada pengujian teori-teori

Pengenalan Pola. Klasterisasi Data

BAB 2 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA = (2.2) =

Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil

BAB ΙΙ LANDASAN TEORI

BAB 2 LANDASAN TEORI

BAB II KAJIAN TEORI. Sebuah Matriks adalah susunan segi empat siku-siku dari bilangan-bilangan.

Analisis Peubah Ganda

II. TINJAUAN PUSTAKA

PERBANDINGAN KINERJA BEBERAPA METODE KLASIFIKASI HASIL REDUKSI DATA BERDIMENSI TINGGI

Komputasi Statistika dengan Software R

Penerapan Analisa Faktor dalam Membentuk Faktor Laten yang Mempengaruhi Prestasi Mahasiswa di Jurusan Matematika FMIPA Universitas Sriwijaya

PERBANDINGAN ANALISIS FAKTOR KLASIK DAN ANALISIS FAKTOR ROBUST UNTUK DATA INFLASI KELOMPOK BAHAN MAKANAN DI JAWA TENGAH

BAB II TINJAUAN PUSTAKA. Dalam bab ini dibahas tentang matriks, metode pengganda Lagrange, regresi

BAB II LANDASAN TEORI

Skala pengukuran dan Ukuran Pemusatan. Ukuran Pemusatan

KAJIAN METODE BERBASIS MODEL PADA ANALISIS CLUSTER DENGAN PERANGKAT LUNAK MCLUST

3. Berapa pengeluaran anda setiap membeli sepatu? a. < Rp b. Rp Rp c. > Rp

DAFTAR ISI. ABSTRAK... i. KATA PENGANTAR... ii. UCAPAN TERIMA KASIH... iii. DAFTAR ISI... vi. DAFTAR TABEL... x. DAFTAR GAMBAR...

BAB 2 LANDASAN TEORI

MK. PERENCANAAN LINGKUNGAN ANALISIS PEUBAH GANDA MULTIVARIATE ANALYSIS

METODE PENELITIAN. A. Variabel Penelitian dan Definisi Operasional. Untuk memperjelas dan memudahkan pemahaman terhadap variabelvariabel

HASIL DAN PEMBAHASAN

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI. Analisis Komponen Utama (AKU, Principal Componen Analysis) bermula dari

BAB III METODE SERVQUAL. Secara umum alur penelitian yang dilakukan, disajikan pada diagram berikut. start

MENGATASI MULTIKOLINEARITAS MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS (PCA)

BAB II KAJIAN PUSTAKA. dicatat, atau diobservasi sepanjang waktu secara berurutan. Periode waktu dapat

BAB 4 ANALISIS DAN BAHASAN

ANALISIS FAKTOR-FAKTOR PENYEBAB KEMISKINAN DI PROVINSI JAWA TIMUR DENGAN METODE EKSPLORATORI KOMPONEN UTAMA

BAB 4 PEMBAHASAN HASIL PENELITIAN

BAB 4 HASIL DAN PEMBAHASAN. Penentuan sampel yang telah ditentukan sebelumnya lewat rumus Slovin

Transkripsi:

MODUL I ANALISIS KOMPONEN UTAMA 1. Analisis Komponen Utama Analisis komponen utama digunakan untuk menjelaskan struktur matriks varianskovarians dari suatu set variabel melalui kombinasi linier dari variabel-variabel tersebut. Secara umum komponen utama dapat berguna untuk reduksi dan interpretasi variabel-variabel. Misalkan saja terdapat p buah variabel yang terdiri atas n buah objek. Misalkan pula bahwa dari p buah variabel tersebut dibuat sebanyak k buah komponen utama (dengan k <= p) yang merupakan kombinasi linier atas p buah variabel tersebut. k komponen utama tersebut dapat menggantikan p buah variabel yang membentuknya tanpa kehilangan banyak informasi mengenai keseluruhan variabel. Umumnya analisis komponen utama merupakan analisis intermediate yang berarti hasil komponen utama dapat digunakan untuk analisis selanjutnya. Dalam bentuk matematis, katakan saja bahwa Y merupakan kombinasi linier dari variabel-variabel X 1, X 2,, X p yang dapat dinyatakan sebagai dengan Y = W 1 X 1 + W 2 X 2 + + W p X p W i X i Y adalah bobot atau koefisien untuk variabel ke i adalah variabel ke i adalah kombinasi linier dari variabel X Secara prinsip pembentukan komponen utama merupakan pembentukan kombinasi linier dari variabel-variabel yang diamati. Dalam analisis komponen utama ditentukan suatu metode untuk mendapatkan nilai-nilai koefisien atau bobot dari kombinasi linier variabel-variabel pembentuknya dengan ketentuan sebagai berikut Bertho Tantular - 1

a) Ada sebanyak p komponen utama, yaitu sebanyak variabel yang diamati dan setiap komponen utama adalah kombinasi linier dari variabel-variabel tersebut b) Setiap komponen utama saling ortogonal (tegak lurus) dan saling bebas. c) Komponen utama dibentuk berdasarkan urutan varians dari yang terbesar hingga yang terkecil, dalam arti sebagai berikut komponen utama pertama (KU 1 ) merupakan kombinasi linier dari seluruh variabel yang diamati dan memiliki varians terbesar komponen utama kedua (KU 2 ) merupakan kombinasi linier dari seluruh variabel yang diamati yang bersifat ortogonal terhadap KU 1 dan memiliki varians kedua terbesar komponen utama ketiga (KU 3 ) merupakan kombinasi linier dari seluruh variabel yang diamati yang bersifat ortogonal baik terhadap KU 1 maupun KU 2, dan memiliki varians ketiga terbesar : komponen utama ke p (KU p ) merupakan kombinasi linier dari seluruh variabel yang diamati yang bersifat ortogonal terhadap KU 1, KU 2,, KU (p-1) dan memiliki varians yang terkecil. Untuk mendapatkan koefisien komponen utama secara bersamaan dapat menggunakan salah satu cara berikut ini dekomposisi eigen value dan eigen vector dari matriks korelasi atau kovarians dari variabel-variabel yang diamati. Dalam hal ini eigen value merupakan varians setiap komponen utamanya dan eigen vector merupakan koefisien-koefisien komponen utamanya dekomposisi nilai singular dari matriks data yang berukuran n x p. Interpretasi dari komponen utama adalah bahwa komponen utama tersebut merupakan suatu sistem sumbu baru dalam ruang vektor berdimensi banyak peubah yang diamati. Melalui komponen utama salib-salib sumbu tersebut telah diubah skalanya dan dirotasi hingga memiliki sifat varians yang terurut semakin kecil dan ortogonal. Bertho Tantular - 2

Apabila varians dari variabel-variabel yang diamati mempengaruhi besarnya bobot atau koefisien kompomnen utamanya maka analisis komponen utama dapat dilakukan menggunakan matriks varians-kovarians. Secara sederhana varians merupakan suatu informasi dari variabel yang diamati yang berarti apabila sebuah variabel memiliki pengamatan yang semua nilainya sama maka variabel tersebut tidak memiliki informasi yang dapat membedakan antar pengamatan. Komponen utama adalah himpunan variabel baru yang merupakan kombinasi linier dari variabel-variabel yang diamati. Komponen utama memiliki sifat varians yang semakin mengecil, sebagian besar variasi (keragaman atau informasi) dalam himpunan variabel yang diamati cenderung berkumpul pada beberapa komponen utama pertama, dan semakin sedikit informasi dari variabel asal yang terkumpul pada komponen utama terakhir. Hal ini berarti bahwa komponen-komponen utama pada urutan terakhir dapat diabaikan tanpa kehilangan banyak informasi. Dengan cara ini analisis komponen utama dapat digunakan untuk mereduksi variabel-variabel. Untuk keperluan reduksi variabel tentu harus ditentukan berapa banyak komponen utama yang mesti diambil. Ada beberapa cara untuk menentukan berapa banyak komponen utama yang harus diambil diantaranya adalah menggunakan scree plot. Banyak komponen yang diambil adalah pada titik kurva tidak lagi menurun tajam atau mulai melandai. menggunakan proporsi kumulatif varinas terhadap total varians Telah dijelaskan bahwa antar komponen utama bersifat ortogonal yang artinya bahwa setiap komponen utama merupakan wakil dari seluruh variabel asal sehingga komponenkomponen utama tersebut dapat dijadikan pengganti variabel asal apabila analisis terhadap variabel tersebut membutuhkan ortogonalitas, Dalam analisis regresi linier multipel memerlukan suatu syarat tidak adanya multikolinieritas antara variabel-variabel bebasnya. Apabila ternyata dalam data terdapat multikolinieritas maka komponen utama dapat digunakan sebagai pengganti variabel-variabel bebas dalam model regresi tersebut. Dalam analisis komponen utama diperoleh beberapa ukuran-ukuran berikut Bertho Tantular - 3

1. Nilai total varians merupakan informasi dari seluruh variabel asal yang dapat dijelaskan oleh komponen-komponen utamanya 2. proporsi varians komponen utama ke k terhadap total varians menunjukkan besarnya persentase informasi variabel-variabel asal yang terkandung dalam komponen utama ke-k 3. Nilai koefisien korelasi antara komponen utama dengan variabelnya 2. Analisis Komponen Utama dalam R (a) Fungsi princomp Analisis Komponen Utama dalam software R dapat dianalisis menggunakan fungsi princomp. Fungsi princomp menganalisis komponen utama dari data berupa matriks numerik dan menghasilkan nilai-nilai berupa suatu objek dalam kelas princomp. Penjelasan mengenai syntax dan penggunaan fungsi princomp adalah sebagai berikut > fit_pca <- princomp(x,...) atau > fit_pca <- princomp(formula, data = NULL, subset, na.action,...) atau > fit_pca <- princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, subset = rep(true, nrow(as.matrix(x))),...) Keterangan: formula: data: adalah formula untuk variabel numerik tanpa melibatkan variabel respon data yang digunakan berupa data frame meliputi variabel-variabel dalam formula Sebagai default diambil variabel dari environment(formula). subset: sebuah vektor yang digunakan untuk memilih baris (pengamatan) dari matriks X Bertho Tantular - 4

na.action: hilang sebuah fungsi yang mengindikasikan apa yang akan dilakukan apabila ada data x: adalah matriks numerik atau data frame yang berisi data yang digunakan untuk analisis komponen utama cor: untuk variabel bernilai TRUE apabila yang digunakan matriks korelasi dan bernilai FALSE matriks kovarians (matrix korelasi hanya dapat digunakan apabila tidak ada konstanta) scores: FALSE bernilai TRUE untuk menampilkan setiap nilai komponen utamanya dan bernilai untuk tidak menampilkan setiap nilai komponen utamanya. covmat: Biasanya digunakan apabila inputnya adalah matriks kovarians atau matriks korelasi. bernama cov.wt atau cov.mve atau 'cov.mcd yang diperoleh dari pajet MASS. Nilai-nilai yang dapat ditampilkan hasil analisis fungsi princomp adalah sebagai berikut sdev: simpangan baku (standard deviation) dari komponen utamanya loadings: matriks variabel loading yaitu matriks yang kolom-kolomnya berupa eigen vector. center: rata-rata yang digunakan. scale: n.obs: scores: na.action: transformasi dari tiapvariabel. banyak pengamatan. nilai-nilai komponen utamanya bila ada penanganan data hilang Bertho Tantular - 5

Perintah-perintah berikut digunakan untuk menampilkan hasil analisis summary(fit_pca) loadings(fit_pca) plot(fit_pca,type="lines") fit_pca$scores untuk menampilkan nilai varians untuk menampilkan nilai loadings untuk membuat scree plot untuk menampilkan nilai komponen utama Dalam fungsi princomp analisis komponen utama menggunakan nilai eigen dari matriks korelasi atau matriks varians-kovarians. Analisis komponen utama yang menggunakan dekomposisi nilai singular dari matriks X berada dalam fungsi lain yaitu prcomp. Fungsi print dapat digunakan untuk menampilkan hasil analisis dan fungsi plot dapat digunakan untuk menampilkan screeplot. Contoh Kasus 1 : Jolicoeur dan Mosimann mempelajari mengenai hubungan antara ukuran dan bentuk sejenis kura-kura. Pada penelitiannya mereka mengambil sampel sebanyak 24 kura-kura jantan dan 24 kura-kura betina dan diukur panjang, lebar dan tinggi kura-kura tersebut. (data diambil dari Johnson & Wichern, 2002 halaman 339) Sebelum melakukan analisis dengan definisikan variabel X 1 = length, X 2 = width, X 3 = height dan X 4 = sex kemudian input dulu data tersebut menggunakan software R sebagai berikut > x1<c(98,103,103,105,109,123,123,133,133,133,134,136,138,138,141,147,149,153,155, 155,158,159,162,177,93,94,96,101,102,103,104,106,107,112,113,114,116,117,117, 119,120,120,121,125,127,128,131,135) > x2<c(81,84,86,86,88,92,95,99,102,102,100,102,98,99,105,108,107,107,115,117,115,1 18,124,132,74,78,80,84,85,81,83,83,82,89,88,86,90,90,91,93,89,93,95,93,96,95, 95,106) Bertho Tantular - 6

> x3<c(38,38,42,42,44,50,46,51,51,51,48,49,51,51,53,57,55,56,63,60,62,63,61,67,37, 35,35,39,38,37,39,39,38,40,40,40,43,41,41,41,40,44,42,45,45,45,46,47) > x4<-rep(c( F, M ),each=24) Lakukan transformasi sederhana terhadap data (x1, x2 dan x3) tersebut menggunakan log sebagai berikut > y1<-log(x1) > y2<-log(x2) > y3<-log(x3) > y<-data.frame(y1,y2,y3) > Y<-y[25:48,] Analisis data kura-kura jantan menggunakan fungsi princom() sebagai berikut > fit_pca<-princomp(y, cor=false) > summary(fit_pca) Importance of components: Comp.1 Comp.2 Comp.3 Standard deviation 0.1494402 0.02394526 0.01856994 Proportion of Variance 0.9605077 0.02466069 0.01483157 Cumulative Proportion 0.9605077 0.98516843 1.00000000 Terlihat dari proporsi varians kumulatif Komponen pertama dapat menjelaskan 96% total varians dan bila ditambahkan komponen kedua menjadi 98%. Artinya apabila kita hanya mengambil satu komponen saja yaitu komponen pertama sudah mencukupi. Nilai simpangan baku (standard deviation) pada baris pertama hasil diatas diperoleh dari akar positif nilai eigen (eigen value) matriks kovarians dari log(y1), log(y2) dan log(y3). Bertho Tantular - 7

> loadings(fit_pca) Loadings: Comp.1 Comp.2 Comp.3 y1 0.683-0.159 0.713 y2 0.510-0.594-0.622 y3 0.523 0.788-0.324 Comp.1 Comp.2 Comp.3 SS loadings 1.000 1.000 1.000 Proportion Var 0.333 0.333 0.333 Cumulative Var 0.333 0.667 1.000 Nilai-nilai loading yang ditampilkan pada hasil di atas adalah nilai vektor eigen dari matriks kovarians log(y 1 ), log(y 2 ) dan log(y 3 ). Fungsi komponen utamanya adalah sebagai berikut KU 1 = 0.683 log(y 3 ) + 0.510 log(y 3 ) + 0.523 log(y 3 ) KU 2 = -0.159 log(y 3 ) - 0.594 log(y 3 ) + 0.788 log(y 3 ) KU 3 = 0.713 log(y 3 ) - 0.622 log(y 3 ) - 0.324 log(y 3 ) Untuk membuat dan menampilkan scree plot dilakukan dengan cara sebagai berikut > plot(fit_pca,type="lines") Bertho Tantular - 8

Dari scree plot tersebut terlihat bahwa kurva mulai landai pada titik comp 2 artinya bahwa dengan satu komponen saja sudah mencukupi untuk mewakili ketiga variabel tersebut Menampilkan nilai (score) komponen utama > fit_pca$scores Comp.1 Comp.2 Comp.3 25-0.268473390 0.0610685037 0.0004066149 26-0.263344980-0.0157244390-0.0066858875 27-0.236045707-0.0341210935-0.0074276738 28-0.119923476 0.0141251769-0.0366922244 29-0.120728388-0.0149572760-0.0286045130 30-0.152592781-0.0089082112 0.0169793685 31-0.106039296 0.0165711616-0.0083826652 32-0.093027430 0.0135333730 0.0051929344 33-0.106371042-0.0012452738 0.0278503862 34-0.006575259-0.0167441765-0.0071889505 35-0.006268452-0.0114497088 0.0061739765 36-0.011979592 0.0008012246 0.0267516989 37 0.060886922 0.0280465362-0.0125896593 Bertho Tantular - 9

38 0.041862973-0.0108766303 0.0089785626 39 0.047500815-0.0174403631 0.0021060793 40 0.070171264-0.0330572711 0.0006647271 41 0.040553932-0.0277470963 0.0419820919 42 0.112788083 0.0212894116-0.0162796865 43 0.105004626-0.0293536649-0.0085075394 44 0.152416632 0.0324987788 0.0055238164 45 0.179458559 0.0111082110-0.0029094996 46 0.179473590 0.0160774637 0.0091929735 47 0.206783903 0.0297129498 0.0185740872 48 0.294468494-0.0232075863-0.0351090182 Contoh Kasus 2: Data berikut mengenai rates of return dari lima saham perusahaan yaitu Allied Chemical, du Pont, Union Carbide, Exxon dan Texaco yang berada di pasar saham New York yang diambil pada periode 1975 hingga Desember 1976. Berdasarkan nilai penutupan pada hari Jum'at rates of return didefiniskan sebagai Harga penutupan Jum' at ini Harga penutupan Jum' at sebelumnya rates of return= Harga penutupan Jum' at sebelumnya Diasumsikan bahwa pengamatan saling bebas dalam hal ini adalah minggu dan saham perusahaan adalah variabelnya yang saling berkorelasi. Dari data sebanyak 100 minggu diperoleh vektor rata-ratanya adalah x '=[0.0054, 0.0048,0.0057,0.0063,0.0037] dan matriks korelasinya adalah Bertho Tantular - 10

0.577 0.509 0.387 0.462 0.577 1.000 0.599 0.389 0.322 R=[1.000 ] 0.509 0.599 1.000 0.436 0.426 0.387 0.389 0.436 1.000 0.523 0.462 0.322 0.426 0.523 1.000 R merupakan matriks varians-kovarians dari matriks pengamatan yang sudah dibakukan. (Johnson dan Wichern, 2002) Dalam kasus ini yang diketahui adalah matriks kovarians atau matriks korelasi maka fungsi princomp digunakan dengan cara sebagai berikut # Input matriks R dengan cara sebagai berikut > r<c(1,.577,.509,.387,.462,.577,1,.599,.389,.322,.509,.599,1,.436,.426,.387,.389,.436,1,.523,.462,.322,.426,.523,1) > R<-matrix(r, 5, 5) > R [,1] [,2] [,3] [,4] [,5] [1,] 1.000 0.577 0.509 0.387 0.462 [2,] 0.577 1.000 0.599 0.389 0.322 [3,] 0.509 0.599 1.000 0.436 0.426 [4,] 0.387 0.389 0.436 1.000 0.523 [5,] 0.462 0.322 0.426 0.523 1.000 # Nilai eigen value dan eigen vector dapat diperoleh > eigen(r)$value [1] 2.8567110 0.8091637 0.5396752 0.4515001 0.3429499 Bertho Tantular - 11

> eigen(r)$vector [,1] [,2] [,3] [,4] [,5] [1,] -0.4636052 0.2403390 0.6117054-0.3866346-0.4512622 [2,] -0.4571078 0.5093047-0.1781895-0.2064744 0.6762233 [3,] -0.4701756 0.2604483-0.3350565 0.6624447-0.4000072 [4,] -0.4214588-0.5256649-0.5407628-0.4720060-0.1755986 [5,] -0.4212245-0.5819699 0.4351755 0.3824388 0.3850245 # Analisis menggunakan fungsi princomp > fit_pca2<-princomp(covmat=r, cor=true, n.obs=100) > summary(fit_pca2) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 1.6901808 0.8995353 0.7346259 0.67193757 0.58561928 Proportion of Variance 0.5713422 0.1618327 0.1079350 0.09030002 0.06858999 Cumulative Proportion 0.5713422 0.7331749 0.8411100 0.93141001 1.00000000 dari hasil perhitungan tersebut terlihat bahwa proporsi varians untuk komponen 1 baru mencapai 57% dan apabila diambil dua komponen proporsi varians mencapai 73%. > loadings(fit_pca2) Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 [1,] -0.464 0.240 0.612-0.387-0.451 [2,] -0.457 0.509-0.178-0.206 0.676 [3,] -0.470 0.260-0.335 0.662-0.400 [4,] -0.421-0.526-0.541-0.472-0.176 [5,] -0.421-0.582 0.435 0.382 0.385 Bertho Tantular - 12

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 SS loadings 1.0 1.0 1.0 1.0 1.0 Proportion Var 0.2 0.2 0.2 0.2 0.2 Cumulative Var 0.2 0.4 0.6 0.8 1.0 Nilai loading yang diperoleh hasilnya sama dengan nilai eigen vektor. Nilai loading ini digunakan sebagai koefisien dari fungsi komponen utamanya. (2) Fungsi prcomp Selain menggunakan fungsi princomp analisis komponen utama juga dapat menggunakan fungsi prcomp. Fungsi prcomp menganalisis komponen utama menggunakan dekomposisi nilai singular (singular value decomposition atau svd) dari matriks data berbeda dengan fungsi princomp yang menggunakan nilai eigen dari matriks varians-kovarians. Fungsi print dapat digunakan untuk menampilkan hasil analisis dan fungsi plot dapat digunakan untuk menampilkan screeplot. Berikut penjelasan syntax dan pengunaannya. > prcomp(x,...) atau > prcomp(formula, data = NULL, subset, na.action,...) atau > prcomp(x, retx = TRUE, center = TRUE, scale. = FALSE, tol = NULL,...) keterangan: formula: data: adalah formula untuk variabel numerik tanpa melibatkan variabel respon data yang digunakan berupa data frame meliputi variabel-variabel dalam formula Sebagai default diambil variabel dari environment(formula). subset: sebuah vektor yang digunakan untuk memilih baris (pengamatan) dari matriks X Bertho Tantular - 13

na.action: sebuah fungsi yang mengindikasikan apa yang akan dilakukan apabila ada data hilang x: adalah matriks numerik atau data frame yang berisi data yang digunakan untuk analisis komponen utama retx: center: scale: tol: berisi nilai logical (TRUE atau FALSE) yang mengindikasikan rotasi variabel yang akan digunakan berisi nilai logical (TRUE atau FALSE) yang mengindikasikan pemusatan data terhadap rata-ratanya. berisi nilai logical (TRUE atau FALSE) yang mengindikasikan variabel yang dibakukan berisi nilai yang mengindikasikan batas bawah komponen mana yang harus diabaikan. Komponen diabaikan apabila nilai simpangan bakunya kurang dari atau sama dengan nilai tol. Nilai-nilai yang dapat ditampilkan hasil analisis fungsi princomp adalah sebagai berikut sdev: Nilai simpangan baku dari komponen utamanya. Yaitu akar dari nilai eigen matriks varians-kovarians atau matriks korelasinya melalui perhitungan nilai singular matriks data.rotation: adalah matriks variabel loading. Yaitu matriks yang kolom-kolomnya merupakan nilai-nilai eigen matriks varians-kovarians. x: adalah nilai dari data yang telah dirotasikan. Nilai ini akan ada apabila fungsi retx bernilai TRUE. center, scale: adalah nilai pemusatan dan pembakuan yang digunakan berikut Penggunaan fungsi prcomp dapat dilakukan pada contoh kasus 1 dengan cara sebagai Bertho Tantular - 14

> fit_pca<-prcomp(y, rex=true, tol=0.1) > summary(fit_pca) Importance of components: PC1 PC2 PC3 Standard deviation 0.153 0.0245 0.0190 Proportion of Variance 0.961 0.0247 0.0148 Cumulative Proportion 0.961 0.9852 1.0000 > fit_pca$x PC1 PC2 PC3 25-0.268473390 0.0610685037-0.0004066149 26-0.263344980-0.0157244390 0.0066858875 27-0.236045707-0.0341210935 0.0074276738 28-0.119923476 0.0141251769 0.0366922244 29-0.120728388-0.0149572760 0.0286045130 30-0.152592781-0.0089082112-0.0169793685 31-0.106039296 0.0165711616 0.0083826652 32-0.093027430 0.0135333730-0.0051929344 33-0.106371042-0.0012452738-0.0278503862 34-0.006575259-0.0167441765 0.0071889505 35-0.006268452-0.0114497088-0.0061739765 36-0.011979592 0.0008012246-0.0267516989 37 0.060886922 0.0280465362 0.0125896593 38 0.041862973-0.0108766303-0.0089785626 39 0.047500815-0.0174403631-0.0021060793 40 0.070171264-0.0330572711-0.0006647271 41 0.040553932-0.0277470963-0.0419820919 42 0.112788083 0.0212894116 0.0162796865 43 0.105004626-0.0293536649 0.0085075394 44 0.152416632 0.0324987788-0.0055238164 45 0.179458559 0.0111082110 0.0029094996 Bertho Tantular - 15

46 0.179473590 0.0160774637-0.0091929735 47 0.206783903 0.0297129498-0.0185740872 48 0.294468494-0.0232075863 0.0351090182 Dengan cara ini menghasilkan nilai skor komponen utama yang sama dengan cara sebelumnya. Nilai proporsi varians untuk tiap komponen utama juga bernilai sama dengan cara sebelumnya. Selain menggunakan fungsi princomp dan prcomp analisis komponen utama juga dapat dilakukan dengan fungsi principal. Tetapi fungsi principal ini hanya dapat dilakukan apabila telah diinstallkan paket psych. Paket psych dapat diunduh secara gratis di CRAN (http://cran.rproject.org/). Bertho Tantular - 16

MODUL II ANALISIS FAKTOR 1. Analisis Faktor Analisis Faktor adalah suatu cara menjelaskan suatu set variabel berdasarkan dimensi yang lebih umum. Pada dasarnya analisis faktor bertujuan untuk memudahkan interpretasi melalui struktur pola hubungan atau untuk mereduksi variabel. Hal ini dilakukan dengan cara mengidentifikasi struktur yang terdapat dalam set variabel yang terobservasi. Secara umum ada tiga kegunaan utama dari Analisis Faktor yaitu: Eksplorasi (disebut Eksploratory factor analysis (EFA)) yaitu membentuk variabel baru yang diperoleh melalui reduksi variabel Konfirmasi (disebut Confirmatory Factor Analysis (CFA)) yaitu menguji struktur variabel yang dihipotesiskan berdasarkan banyaknya faktor yang signifikan dan besarnya faktor loading Alat Pengukur (model measurment) yaitu pembentukan indeks-indeks yang akan digunakan sebagai pengamatan baru dalam analisa selanjutnya Misalkan terdapat satu set variabel dengan banyak variabel adalah p dan ternyata antar variabel tersebut mempunyai tingkat korelasi yang tinggi. Dimungkinkan ada satu atau lebih variabel yang tidak terobservasi (disebut sebagai variabel laten) yang merupakan penyebab p variabel di atas. Keberadaan variabel yang tak terobservasi yang mampu menjelaskan variabel yang teramati merupakan pembahasan dalam Analisis Faktor. Dengan demikian pada intinya Analisis Faktor menjelaskan hubungan struktur kovarians dari variabel yang teramati dengan variabel yang tidak teramati. Analisis Faktor dapat dirumuskan dalam suatu model persamaan linier. Misalkan vektor acak X dengan p komponen memiliki rata-rata μ dan matriks covariance Σ. Maka dapat dibentuk model persamaan faktornya adalah Bertho Tantular - 17

X 1 μ 1 = l 11 F 1 + l 12 F 2 + + l 1m F m + ε 1 X 2 μ 2 = l 21 F 1 + l 22 F 2 + + l 2m F m + ε 2 : : : : X p μ p = l p1 F 1 + l p2 F 2 + + l pm F m + ε p dengan: μ i = rata-rata variabel asal ke i ε i = spesifik faktor ke i F j = Common faktor ke j. l ij disebut loading dari peubah asal ke i pada faktor ke j. Atau dalam bentuk matriks menjadi (X μ) = L F + ε (px1) (pxm) (mx1) (px1) Asumsi yang digunakan dalam analisis faktor adalah: Data berasal dari populasi yang berdistribusi normal univariat Dalam set data terdapat multikolinieritas dapat diuji dengan menggunakan Uji Bartlett. E(F) = 0, E(e) = 0 Cov(F) = E(FF ) = I Cov(e) = E(e e ) = Ψ = diag(ψ 1,., Ψ p ) F dan ε saling bebas, Cov (ε, F) = E (ε, F ) = 0 Koefisien l ij disebut loading dari variabel asal ke i pada faktor ke j, maka matriks L adalah matriks factor loading dan F 1, F 2,., F m, ε 1, ε 2,. ε p adalah tidak terobservasi. Bertho Tantular - 18

Berikut adalah hal-hal yang perlu dilakukan dalam analisis faktor Mengidentifikasikan struktur Menentukan jumlah faktor (scree plot, eigen values, proporsi varians) Menduga parameter (factor loading dan sistematik varians) - Metode Komponen Utama - Metode Kemungkinan Maksimum - Metode Kuadrat Terkecil Rotasi faktor (ortogonal: varimax, quartimax, equimax; oblique: oblimax, quartimin, oblimin) Interpretasi faktor (eigen values, explained variances, factor scores, koefisien faktor) 2. Analisis Faktor dalam R Analisis Faktor dalam software R dapat dianalisis melalui fungsi factanal(). Fungsi factanal() adalah analisis ekstraksi faktor menggunakan metode kemungkinan maksimum. Dalam software R, penjelasan tentang model analisis faktor adalah sebagai berikut x = Λ f + e dengan x adalah vektor berukuran (p x 1), Λ adalah matriks loading berukuran (p x k), f adalah vektor skor faktor berukuran (k x 1) dan e adalah galat berukuran (p X 1). Dalam model ini tidak ada komponen yang terobservasi kecuali x. Asumsi yang mendasari model ini adalah bahwa faktor tidak saling berkorelasi, dan bahwa galat saling bebas dengan varians phi yang disebut uniquenesses. Kemudian dalam analisi faktor model bagi matriks varians-kovarians x adalah Σ = Λ ' Λ + Ψ i Apabila dilakukan rotasi terhadap data maka Λ dapat digantikan dengan GΛ untuk setiap Bertho Tantular - 19

matriks G yang ortogonal. Input data berupa matriks varians-kovarians dapat digunakan dalam analisis faktor. Selain itu matriks data X juga dapat digunakan atau berupa formula yang menyatakan model konstruk dalam bentuk matriks sehingga dapat diperoleh dari matriks data tersebut matriks varians-kovariansnya. Yang perlu diperhatikan dalam hal ini adalah bahwa semua nilai-nilai dalam variabel-variabel yang terlibat harus numerik. Dalam analisis menggunakan fungsi factanal, matriks varians-kovarians dikonversi menjadi matriks korelasi. Model fit diperoleh dengan mengoptimasi fungsi log likelihood dibawah asumsi uniquenesses berdistribusi multivariat normal. Nilai uniquenesses secara teknis berada dalam interval [0, 1], tetapi apabila nilainya mendekati nol akan menjadi masalah, dan optimalisasi berakhir dengan batas bawah 0.005. Nilai faktor skor hanya dapat diperoleh apabila yang digunakan adalah matriks data. Metode yang digunakan adalah metode regresi dari Thomson (1951) dan metode weighted least squares (WLS) dari Bartlett (1937). Kedua metode ini menaksir nilai skor F. Metode Thomson menaksir F dengan model sebagai berikut F= ' 1 X dan kemudian menggantikan nilai-nilai parameter dengan penaksirnya. Prinsip Metode Bartlett adalah meminimumkan jumlah kuadrat galat yang sudah dibakukan atau diboboti. Uraian berikut ini adalah penjelasan syntax dan cara penggunaannya. > factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA, subset, na.action, start = NULL, scores = c("none", "regression", "Bartlett"), rotation = "varimax", control = NULL,...) Keterangan: Bertho Tantular - 20

x: berupa formula atau matriks numerik dari objek factors: data: covmat: juga banyak faktor yang digunakan. adalah data frame yang digunakan apabila x berupa formula. adalah matriks varians-kovarians dalam hal ini matriks korelasi termasuk matriks varians-kovarians. n.obs: banyaknya pengamatan dari data, opsi ini digunakan apabila opsi covmat adalah matriks kovarians. subset: Spesifikasi pengamatan yang digunakan. Digunakan apabila opsi x digunakan sebagai matriks data atau formula. na.action: opsi untuk data hilang, digunakan apabila opsi 'x' berupa formula start: dengan nilai default NULL adalah matriks yang berisi nilai awal dengan tiap kolom merupakan set awal uniquenesses. scores: metode weighted nilai skor. Ada dua tipe yaitu "regression" bila menggunakan Thompson, dan "Bartlett" bila menggunakan metode Bartlett's least-squares rotation: tipe rotasi yang digunakan, secara default bernilai "none" Nilai-nilai hasil analisis faktor menggunakan fungsi factanal loadings: ke menampilkan matriks loading faktor yang terurut dari besar kecil berdasarkan jumlah kuadrat loading.. uniquenesses: correlation: criteria: menampilkan nilai uniquenesses. menampilkan matriks korelasi yang digunakan. hasil dari optimalisasi yaitu nilai -2 log-likelihood dan informasi iterassi yang digunakan factors: dof: The argument factors. menampilkan nilai derajat kebebasan model analisis faktor Bertho Tantular - 21

method: scores: n.obs: metode yang digunakan (dalam hal ini adalah "mle"). menampilkan matriks faktor skor banyak pengamatan. STATISTIC, PVAL: menampilkan nilai signifikansi statistik uji dan p-value. Dalam analisis faktor ada banyak variasi penggunaannya sehingga sulit bagi kita untuk membandingkan output dari program yang berbeda-beda. Bagaimanapun metode optimalisasi dalam analisis faktor menggunakan maximum likelihood cukup sulit. Syntax berikut adalah contoh pengunaannya > fit <- factanal(dataku, factors=banyak_faktor, rotation="varimax") > print(fit, digits=2, cutoff=.3, sort=true) # Output analisis faktor > load <- fit$loadings # Menampilkan loading factor > plot(load,type="n") # plot faktor 1 dan faktor 2 > text(load,labels=names(mydata),cex=.7) # menambahkan nama variabel Contoh Kasus 1 Dalam suatu studi consumer-preference diambil sampel acak dari sejumlah konsumen. Kepada mereka ditanyakan mengenai 5 atribut dari sebuah produk baru. Respon dari konsumen menggunakan skala 7 semantik differensial, yang hasilnya telah dihitung menjadi matriks korelasi berikut ini (Johnson & Wichern, 2002 halaman 487) Atribut (Variabel) 1 2 3 4 5 Taste 1 0.02 0.96 0.42 0.01 Good buy for money 0.02 1 0.13 0.71 0.85 Flavor 0.96 0.13 1 0.5 0.11 Suitable for snack 0.42 0.71 0.5 1 0.79 Provides lots energy 0.01 0.85 0.11 0.79 1 Bertho Tantular - 22

Lakukan analisis faktor terhadap matriks korelasi dari 5 variabel tersebut Sebelum menganalisis data tersebut perlu diinputkan dulu matriks korelasinya dengan cara sebagai berikut > mc<matrix(c(1,.02,.96,.42,.01,.02,1,.13,.71,.85,.96,.13,1,.5,.11,.42,.71,.5,1,.7 9,.01,.85,.11,.79,1), 5, 5) > mc [,1] [,2] [,3] [,4] [,5] [1,] 1.00 0.02 0.96 0.42 0.01 [2,] 0.02 1.00 0.13 0.71 0.85 [3,] 0.96 0.13 1.00 0.50 0.11 [4,] 0.42 0.71 0.50 1.00 0.79 [5,] 0.01 0.85 0.11 0.79 1.00 Kemudian analisis faktor menggunakan perintah sebagai berikut > fit<-factanal(factors=2, covmat=mc) > fit Call: factanal(factors = 2, covmat = mc) Uniquenesses: [1] 0.028 0.237 0.040 0.168 0.052 Loadings: Factor1 Factor2 [1,] 0.985 Bertho Tantular - 23

[2,] 0.873 [3,] 0.131 0.971 [4,] 0.817 0.405 [5,] 0.973 Factor1 Factor2 SS loadings 2.396 2.078 Proportion Var 0.479 0.416 Cumulative Var 0.479 0.895 The degrees of freedom for the model is 1 and the fit was 0.0233 Dari output diatas terlihat bahwa Faktor 1 beranggotakan variabel 2, variabel 4 dan variabel 5 sedangkan variabel 1 dan variabel 3 berada pada Faktor 2. 3. Menentukan Banyak Faktor Hal yang penting dalam analisis faktor adalah menentukan berapa banyak faktor yang mesti diambil. Beberapa metode dapat digunakan untuk menentukan banyak faktor, misalnya menggunakan kriteria nilai eigen, proporsi varians dan secara grafis menggunakan screeplot. Untuk itu dalam software R disediakan paket nfactors. Fungsi yang digunakan dalam paket ini adalah nscree, uraian berikut adalah penjelasan mengenai syntax dan contoh penggunaannya Fungsi nscree dalam software R adalah suatu fungsi untuk menganalisis banyaknya komponen atau faktor dalam analisis faktor eksplanatori. Fungsi ini berguna untuk memberikan informasi mengenai banyak faktor melalui aturan Kaiser dan analisis paralel. > nscree(eig=null, x=eig, aparallel=null, cor=true, model="components", criteria=null,...) Keterangan: eig: adalah parameter berupa eigenvalues yang akan dianalisis Bertho Tantular - 24

x: adalah input dapat berupa vektor eigenvalues, atau matriks korelasi atau kovarians dari data (data frame) aparallel: hasil dari analisis paralel. Cor berniilai TRUE apabila yang digunakan matriks korelasi dan 'FALSE' apabila yang digunakan matriks kovarians model: criteria: bernilai "components atau "factors" bernilai numerik. Hasil analisis yang dapat ditampilkan dari paket nfactors Components Components$noc Components$naf : berupa data frame yang berisi banyaknya komponen atau faktor yang didasarkan atas aturan yang berbeda : Banyaknya komponen atau faktor berdasarkan koordinat optimal (oc) : Banyaknya komponen atau faktor berdasarkan acceleratoin factor (af) Components$npar.analysis : Banyaknya komponen atau faktor berdasarkan koordinat analisis paralel Components$nkaiser : Banyaknya komponen atau faktor berdasarkan aturan Kaiser Analysis : Berupa Data frame berisi vektor yang berkaitan dengan aturan yang berbeda Analysis$Eigenvalues : Menampilkan nilai eigen Analysis$Prop Analysis$Cumu Analysis$Pred.eig Analysis$OC : Nilai proporsi varians yang dihitung dari nilai eigen : proporsi kumulatif dari varians yang dihitung dari nilai eigen : prediksi nilai eigen dari setiap koordinat garis regresi optimal : nilai koordinat optimal (oc) Analysis$Acc.factor : nilai Acceleration factor _af_ Analysis$AF : nilai kritis acceleration factor _af_ Bertho Tantular - 25

Secara umum contoh penggunaan paket nfactors untuk data pada Contoh kasus 1 dengan banyak pengamatan adalah 200 dapat dilihat pada syntax berikut ini # Menentukan banyak faktor yang diekstraksi > library(nfactors) > ev <- eigen(mc) # get eigenvalues > ap <- parallel(subject=200,var=5,rep=100,cent=.05) > ns <- nscree(ev$values, ap$eigen$qevpea) > plotnscree(ns) Bertho Tantular - 26

Dari gambar diatas diperoleh hasil bahwa banyak faktor yang dapat diambil adalah 2 berdasarkan analisis paralel. Berdasarkan metode acceleration factor (AF) banyak faktor yang dapat diambil adalah 1. Hal ini sesuai dengan output yang dapat ditampilkan diantaranya sebagai berikut > ns$components noc naf nparallel nkaiser 1 0 1 2 3 > ns$analysis Eigenvalues Prop Cumu Par.Analysis Pred.eig OC Acc.factor AF 1 1.1171429 0.2392734 0.2392734 1 1.1405741 NA (< AF) 2 1.0352471 0.2217327 0.4610062 1 1.0635482-0.004563809 3 0.9487875 0.2032145 0.6642207 1 0.9776396-0.013875043 4 0.8484528 0.1817245 0.8459452 1 NA -0.028852103 5 0.7192661 0.1540548 1.0000000 1 NA NA Fungsi Alternatif untuk Analisis Faktor dalam R (1) Fungsi factor.pa dalam Paket psych Fungsi lain untuk analisis faktor adalah factor.pa( ) yang terdapat pada Paket psych. Dalam fungsi ini menyertakan analisis faktor menggunakan principal axis. Dari sekian banyak metode analisis faktor pendekatan konvensional adalah principal axes melalui dekomposisi nilai eigen dari matriks korelasi dipeorleh nilai komunalitas dari tiap variabel dan ditaksir n faktor pertama. Nilai komunalitas ini dimasukkan ke dalam diagonal matriks dan prosedur diulang hingga jumlah diagonal tidak berubah. Metode lain adalah menggunakan Metode kuadrat terkecil untuk memperoleh nilai solusi residual minimum (disebut minres). Variasi dari minres digunakan dalam kuadrat terkecil diboboti (weighed least squares). Metode penaksiran lainnya adalah metode kemungkinan maksimum. Metode ini bisa diperoleh dari fungsi fa atau factanal yang telah dijelaskan sebelumnya. Bertho Tantular - 27

Metode Principal axes dapat digunakan pada saat metode kemungkinan maksimum tidak mencapai konvergen. Masalah dalam analisis faktor adalah mencari penaksir terbaik bagi komunalitas. Apabila Squared Multiple Correlation (SMC) digunakan untuk tiap variabel akan diperoleh nilai komunalitas yang underestimate. Algoritma yang digunakan tidak mencoba untuk menemukan solusi terbaik (seperti dalam kriteria kemungkinan maksimum) tetapi cukup dengan mencapai konvergen dengan cepat melalui dekomposisi nilai eigen. Pendekatan yang berbeda adalah solusi yang diperoleh dari minimum residual (minres) merupakan metode kuadrat terkecil yang tidak diboboti (unweighted least squares). Fungsi optim digunakan dan disesuaikan dengan elemen-elemen matriks korelasi untuk meminimumkan kuadrat residu. Metode minres dan pa dapat digunakan pada saat metode maksimum likelihood tidak mencapai konvergen dan dapat digunakan apabila matriks input singular. Setidaknya solusi yang diperoleh dari metode minres lebih mirip dengan metode kemungkinan maksimum dibandingkan solusi dari metode pa. Secara umum solusi dari metode minres dan WLS mengikuti ide dari fungsi factanal. Metode weighted least squares (WLS) memberikan bobot dari matriks residu dengan 1 dibagi diagonal invers matriks korelasi. Metode generalized least squares (GLS) memberikan bobotmatriks residual dengan invers matriks korelasi. Beberapa metode rotasi dalam analisis faktor yang dapat digunakan adalah varimax meliputi Varimax, quartimax, bentlert dan geomint berupa rotasi ortogonal, dan oblique meliputi "promax", "oblimin", "simplimax", "bentlerq, dan "geominq" atau "cluster". Uraian berikut adalah penjelasan mengenai syntax dan contoh penggunaannya > fa(r,nfactors=1,n.obs = NA, rotate="oblimin", scores=false, residuals=false, SMC=TRUE, covar=false,missing=false,impute="median",min.err = 0.001, max.iter = 50,symmetric=TRUE,warnings=TRUE,fm="minres",alpha=.1,...) > factor.pa(r, nfactors=1, residuals = FALSE, rotate = "varimax",n.obs = NA, scores = FALSE,SMC=TRUE, missing=false,impute="median",min.err = 0.001, digits = 2, max.iter = 50,symmetric=TRUE,warnings=TRUE,fm="pa") Bertho Tantular - 28

> factor.minres(r, nfactors=1, residuals = FALSE, rotate = "varimax",n.obs = NA, scores = FALSE,SMC=TRUE, missing=false,impute="median",min.err = 0.001, digits = 2, max.iter = 50,symmetric=TRUE,warnings=TRUE,fm="minres") > factor.wls(r,nfactors=1,residuals=false,rotate="varimax",n.obs = NA, scores=false,smc=true,missing=false,impute="median", min.err =.001, digits=2, max.iter=50,symmetric=true,warnings=true,fm="wls") Keterangan: r Nfactors n.obs : adalah matriks korelasi atau matriks data mentah. : adalah banyak faktor yang akan diekstrak, nilai defaultnya adalah satu : banykanya pengamatan yang digunakan. Opsi ini berlaku apabila input adalah matriks korelasi. Dan digunakan untuk mencari statistik goodness of fit statistics. Rotate residuals scores SMC covar missing impute : berisi metode rotasi meliputi "none", "varimax", "quartimax", "bentlert", dan "geomint" untuk rotasi ortogonal. "promax", "oblimin", "simplimax", "bentlerq, dan "geominq" or "cluster". Nilai default untuk opsi ini adalah oblimin : Matriks residual yang akan ditampilkan : bernilai TRUE untuk menampilkan nilai taksiran factor scores : benilai TRUE apabila menggunakan squared multiple correlations : bernilai TRUE bila yang digunakan matriks kovarians, bernilai FALSE bila yang digunakan matriks korelasi : Bernilai TRUE apabila akan mengganti data hilang dengan rata-rata atau median. Opsi ini digunakan apabila opsi scores bernilai TRUE. : digunakan untuk mengganti data hilang. Opsi ini bernilai "median" untuk mengganti dengan median atau "mean" untuk mengganti dengan rata-rata. Bertho Tantular - 29

min.err digits max.iter symmetric warnings fm alpha : adalah nilai batas untuk iterasi. Iterasi berhenti pada saat perubahan komunalitas lebih kecil dari nilai min.err : berapa banyak digit output yang digunakan : Nilai maksimum iterasi : bernilai TRUE atau FLASE : bernilai TRUE untuk menampilkan peringatan apabila terlalu banyak faktor yang akan diekstrak : metode faktorisasi bernilai "minres" untuk minimum residual (OLS), bernilai wls" untuk weighted least squares (WLS), gls" untuk generalized weighted least squares (GLS), "pa" untuk principal factor dan "ml" untuk maximum likelihood. : adalah nilai alpha untuk selang kepercayaan RMSEA Hasil-hasil yang dapat ditampilkan adalah sebagai berikut: values e.values communality Rotation n.obs loadings fit : menampilkan nilai eigen dari common faktor : menampilkan nilai eigen dari matriks asli : menampilkan nilai taksiran komunalitas setiap item. Nilai ini merupakan jumlah kuadrat loading faktor untuk item tersebut. : menampilkan rotasi yang digunakan : menampilkan banyak pengamatan yang digunakan : menampilkan nilai loading : How well does the factor model reproduce the correlation matrix. This is just (sum(r^2ij - sum(r*^2ij))/sum(r^2ij (See VSS, ICLUST, and principal for this fit statistic. fit.off Dof : how well are the off diagonal elements reproduced? : derajat kebebasan dari model yang digunakan. Nilai ini merupakan Bertho Tantular - 30

banyaknya nilai korelasi pengamatan dikurangi banyaknya parameter. Dituliskan dalam rumus matematika adalah sebagai berikut dof = n n 1 q q 1 nq 2 2 dengan n adalah banyaknya pengamatan q banyaknya faktor objective STATISTIC : menampilkan fungsi objektif. : Nilai statistik chi kuadrat yang didasarkan atas fungsi objektif. Apanila dituliskan dalam rumus matematika adalah sebagai berikut = 2 n 1 2 p 5 2 q 6 3 f dengan n adalah banyak pengamatan p adalah banyak variabel q adalah banyak faktor f adalah fungsi objektif Phi : interfactor correlation. communality.iterations: menampilkan taksiran komunalitas dari tiap iterasi (Hanya digunakan pada metode principal axis) Residual BIC R2 r.scores : menampilkan matriks korelasi residual setelah model faktor digunakan : menampilkan nilai Bayesian Information Criterion : Nilai R 2 multiple antara faktor dengan penaksir factor score. Menggunakan nilai ini dapat diketahui korelasi minimum antara dua faktor dengan rumus 2R 2-1 : nilai korelasi dari penaksir factor score weights : pembobot yang digunakan Bertho Tantular - 31

valid score.cor : nilai koefisien validitas : matriks korelasi dari penaksir faktor score dengan pembobot berdasarkan matriks loading. Syntax berikut adalah contoh analisis faktor menggunakan principal axis dengan fungsi factor.pa() # Principal Axis Factor Analysis library(psych) fit <- factor.pa(dataku, nfactors=3, rotation="varimax") fit # print results dataku rfactors rotation adalah data yang digunakan (raw data atau matriks kovarians/korelasi). banyak faktor yang diekstraksi rotasi yang digunakan dalam hal ini "varimax" or "promax". (2) Paket FactoMineR Paket FactoMineR meliputi beragam fungsi tambahan dalam analisis faktor eksploratori. Dalam Paket ini menyertakan analisis faktor untuk variabel kualitatif maupun kuantitatif. Dalam paket ini juga menyertakan grafik untuk analisis faktor secara otomatis. Fungsi yang digunakan adalah PCA dan contoh penggunaan paket FactoMineR secara sederhana. # PCA Variable Factor Map library(factominer) result <- PCA(mydata) # grafik digambarkan secara otomatis Paket nfactors, psych dan FactoMineR tidak disertakan secara default dalam software tetapi dapat diunduh secara gratis pada the Comprehensive R Archive Network (CRAN) di alamat http://cran.r-project.org/. Bertho Tantular - 32

MODUL III ANALISIS KORELASI KANONIK 1. Pendahuluan Analisis korelasi kanonik berguna untuk mengidentifikai dan kuantifikasi asosiasi antara dua set variabel. Analisis korelasi kanonik tercurah pada korelasi antara kombinasi linier dari suatu set variabel dengan kombinasi linier set variabel lainnya. Pasangan-pasangan kombinasi linier disebut sebagai variabel kanonik sedangakn korelasinya disebut korelasi kanonik. Korelasi kanonik mengukur kekuatan asosiasi antara dua set variabel. 2. Korelasi Kanonik dalam R Analisis Korelasi Kanonik dalam software R dapat dianalisis melalui Paket CCA yang dapat diunduh pada the Comprehensive R Archive Network (CRAN) di alamat http://cran.rproject.org/. Setelah itu install paket tadi di software R kemudian loading dengan perintah > library(cca) Adapun syntax untuk analisis korelasi kanonik adalah sebagi berikut > cc( X, Y) X Y adalah set variabel yang pertama berukuran n x p adalah set variabel yang kedua berukuran n x q Contoh Data berikut mengenai studi nutrisi dari tikus. Data diperoleh dari Pascal Martin dari the Toxicology and Pharmacology Laboratory (French National Institute for Agronomic Research). Data ini sudah disertakan dalam paket CCA dengan nama nutrimouse sehingga kita tinggal Bertho Tantular - 33

mempergunakannya saja. Dari data nutrimouse ingin dikorelasikan gen dengan lipid dari tikus. Berikut adalah syntax yang digunakan > data(nutrimouse) # menggunakan data nutrimouse > X=as.matrix(nutrimouse$gene[,1:10]) # set variabel pertama yaitu gen > Y=as.matrix(nutrimouse$lipid) # set variabel kedua yaitu lipid > res.cc=cc(x,y) # korelasi kanonik > plot(res.cc$cor,type="b") # plot korelasi > plt.cc(res.cc) Output dari syntax tersebut adalah Bertho Tantular - 34

Untuk menampilkan seluruh output gunakan syntax berikut > res.cc # Menampilkan seluruh output > res.cc$cor # Menampilkan nilai korelasi kanoniknya > res.cc$xcoef # Menampilakn penaksir koefisien bagi variabel X > res.cc$ycoef # Menampilakn penaksir koefisien bagi variabel Y > res.cc$scores # Menampilkan koordinat bagi variat kanonik Bertho Tantular - 35

MODUL IV ANALISIS DISKRIMINAN 1. Pendahuluan Analisis Diskriminan adalah suatu teknik mutivariat yang terkonsentrasi pada pemisahan secara tegas suatu set objek atau pengamatan dan menenpatkan suatu objek atau pengamatan baru ke dalam kelompok yang telah didefinisikan sebelumnya. Tujuan analisis diskriminan sendiri adalah untuk menduga keanggotaan objek atu pengamatan dalam suatu kelompok melalui fungsi dari variabel-variabel yang diukur pada objek tersebut. Fungsi pembentuk kelompok tersebut merupakan sebuah model yang linier terhadap variabel maupun terhadap koefisiennya. yaitu Model linier yang mendasari analisis diskriminan mempunyai setidaknya tiga asumsi 1. antar objek atau pengamatan harus saling bebas 2. variabel-variabel penjelas harus memiliki distribusi normal multivariat 3. banyaknya pengamatan harus lebih besar dari banyaknya variabel 2. Analisis Diskriminan dalam R Analisis Diskriminan dalam software R dapat dianalisis melalui Paket MASS. Secara default paket MASS telah disertakan dalam installasi awal software R sehingga kita tinggal mengaktifkannya dengan perintah > library(mass) Paket MASS telah meliputi fungsi analisis diskriminan linier dan kuadratik. Penggunaan analisis diskriminan menggunakan software R akan dijelaskan melalui ilustrasi berikut ini: Dalam rangka mengatur penangkapan Ikan Salmon, sangat diinginkan bisa mengidentifikasi Bertho Tantular - 36

apakah ikan yang tertangkap berasal dari Alaska atau Kanada. Ikan Salmon mempunyai ciri khas dalam perkembangan pertumbuhannya. Ikan salmon lahir di air tawar kemudian tumbuh dewasa di air laut. Untuk keperluan tersebut lima puluh Ikan Salmon diambil dari masingmasing tempat, dan pertumbuhan diameternya diukur ketika ikan-ikan itu hidup di air tawar dan ketika hidup di air laut, selain itu dibedakan pula terhadap jenis kelaminnya. Tujuannya adalah untuk mengetahui apakah ikan yang tertangkap di kemudian hari berasal dari Alaska atau dari Kanada. (Johnson & Wichern 2002 halaman 607). Untuk keperluan analisis untuk jenis kelamin diberi kode 1 untuk ikan jantan dan 2 untuk ikan betina. Deskripsi Data Untuk menampilkan deskripsi dari data salmon lakukan perintah-perintah berikut: > salmon<-read.csv("salmon.csv") > str(salmon) 'data.frame': 100 obs. of 4 variables: $ Ikan.Salmon: Factor w/ 2 levels "Alaska","Kanada": 1 1 1 1 1 1 1 1 1 1... $ AirTawar : int 108 131 105 86 99 87 94 117 79 99... $ AirLaut : int 368 355 469 506 402 423 440 489 432 403... $ JK : int 2 1 1 2 1 2 1 2 2 1... > alaska<-c(mean(salmon$airtawar[1:50]),sd(salmon$airtawar[1:50]) ) > kanada<-c(mean(salmon$airtawar[51:100]),sd(salmon$airtawar[51:100])) > sdes<-data.frame(alaska,kanada) > row.names(sdes)=c("rata-rata","simp.baku") > sdes alaska kanada Rata-rata 98.38000 137.46000 Simp.Baku 16.14335 18.05797 > alaska<-c(mean(salmon$airlaut[1:50]),sd(salmon$airlaut[1:50]) ) > kanada<-c(mean(salmon$airlaut[51:100]),sd(salmon$airlaut[51:100])) Bertho Tantular - 37

> sdes2<-data.frame(alaska,kanada) > row.names(sdes2)=c("rata-rata","simp.baku") > sdes alaska kanada Rata-rata 429.66000 366.62000 Simp.Baku 37.40436 29.88747 Secara deskriptif terlihat bahwa rata-rata diameter pertumbuhan ikan salmon di Alaska lebih kecil dibandingkan dengan di Kanada. Pengujian Asumsi Normalitas Multivariat Secara umum ada dua pendekatan untuk menguji distribusi data Normal Multivariat yaitu menggunakan metode grafik (Q-Q Plot) dan menggunakan pengujian hipotesis (Uji Mshapiro). Baris-baris perintah berikut adalah pengujian distribusi normal multivariat untuk kedua metode # Metode Grafik QQ-Plot > salmon2<-data.frame(salmon$airtawar, salmon$airlaut) > X <- as.matrix(salmon2) # membentuk matriks n x p > center <- colmeans(x) # titik pusat > n <- nrow(x) > p <- ncol(x) > cov <- cov(x) > d <- mahalanobis(x,center,cov) # Menghitung Jarak Mahalanobis > qqplot(qchisq(ppoints(n),df=p),d,main="qq-plot untuk Data Salmon", + ylab="jarak Mahalanobis") > abline(a=0,b=1) Bertho Tantular - 38

# Pengujian Hipotesis Shapiro library(mvnormtest) mshapiro.test(m) # input M harus matriks Dari grafik data terlihat agak melenceng untuk jarak data yang cukup besar yang mengindikasikan data tidak berdistribusi normal multivariat. Fungsi Diskriminan Linier Fungsi lda() dalam paket MASS dapat digunakan untuk analisis diskriminan linier. Fungsi ini didasarkan pada variabel-variabel yang terpusat tetapi bukan nilai baku. Uraian berikut adalah penjelasan mengenai penggunaan fungsi lda. > lda(x,...) Bertho Tantular - 39

atau > lda(formula, data,..., subset, na.action) atau > lda(x, grouping, prior = proportions, tol = 1.0e-4, method, CV = FALSE, nu,...) > lda(x, grouping,..., subset, na.action) keterangan: formula : adalah model atau fungsi yang digunakan. Contoh G ~ x1 + x2 +... dalam hal ini G adalah variabel respon berupa data nominal yang menjelaskan kelompok dan x1, x2, adalah variabelnya. data x grouping prior tol na.action method CV : berupa data frame dari variabel-variabel yang digunakan dalam formula : berupa matriks atau data frame dari variabel-variabel penjelas. Opsi ini digunakan apabila formula tidak didefinisikan : suatu faktor yang mendefinisikan kelompok dari tiap pengamatan Opsi ini digunakan apabila formula tidak didefinisikan : adalah fungsi peluang prior dari keanggotaan kelompok. : nilai toleransi yang digunakan apabila diperoleh matriks singular. Variabel dan kombinasi linier varians unit variabel yang nilainya kurang dari Nilai kuadrat tol berguna akan ditolak atau dikeluarkan. : suatu fungsi untuk penanganan data hilang : bernilai "moment" untuk penaksir baku bagi rata-rata dan varianas, "mle untuk penaksir kemungkinan maksimum, "mve" untuk digunakan dalam cov.mve, atau "t" untuk penaksir robust berdasarkan distribusi t. : bernilai TRUE untuk menampilkan cross-validation. Nu : derajat bebas untuk metode "t". Bertho Tantular - 40

Hasil yang dapat ditampilkan adalah sebagai berikut prior means scaling svd n call : prior probabilities yang digunakan. : rata-rata kelompok. : menampilkan matriks yang mentransformasikan pengamatan menjadi fungsi diskriminan. : menampilkan dekomposisi nilai singular yaitu ratio simpangan baku antar kelompok dengan simpangan baku dalam kelompok. Kuadrat dari nilai ini adalah nilai statistik F. : banyak pengamatan yang digunakan. : fungsi yang dihasilkan. Untuk analisis diskriminan linier data Ikan salmon dapat menggunakan perintah-perintah berikut > library(mass) > fit <- lda(ikan.salmon ~ AirTawar + AirLaut, data=salmon, na.action="na.omit") Call: lda(ikan.salmon ~ AirTawar + AirLaut, data = salmon, na.action = "na.omit") Prior probabilities of groups: Alaska Kanada 0.5 0.5 Group means: AirTawar AirLaut Alaska 98.38 429.66 Kanada 137.46 366.62 Bertho Tantular - 41

Coefficients of linear discriminants: LD1 AirTawar 0.04458572 AirLaut -0.01803856 Praktikum Analisis Data Multivariat II Menggunakan Software R Kemudian apabila ingin mengetahui akurasi dari analisis diskriminan yang telah dibuat lakukan prosedur berikut ini # Menampilkan tabel keanggotaan sebenarnya dan hasil prediksi > fit <- lda(ikan.salmon ~ AirTawar + AirLaut, data=salmon, na.action="na.omit",cv=t) > ct <- table(salmon$ikan.salmon, fit$class) > ct Alaska Kanada Alaska 44 6 Kanada 1 49 # Menentukan persentase ketepatan keanggotaan untuk tiap kategori > diag(prop.table(ct, 1)) Alaska Kanada 0.88 0.98 # Menentukan Total persentase ketepatan keanggotaan > sum(diag(prop.table(ct))) [1] 0.93 Secara umum kekeliruan dalam klasifikasi sebesar 7% cukup kecil. Artinya hanya sekitar 7 dari 100 ekor Ikan Salmon Alaska yang diklasifikasikan sebagai Ikan Salmon Kanada dan Ikan Salmon Kanada yang diklasifikasikan sebagai Ikan Salmon Alaska. Bertho Tantular - 42

Fungsi Diskriminan Kuadratik Untuk memperoleh fungsi diskriminan kuadratik dapat melalui fungsi qda( ) atau lda( ). Fungsi diskriminan kuadratik tidak mengasumiskan homogenitas matriks varians-kovarians. Kedua fungsi ini ada didalam paket MASS. Uraian berikut adalah penjelasan mengenai penggunaan fungsi qda. > qda(x,...) atau > qda(formula, data,..., subset, na.action) atau > lda(x, grouping, prior = proportions, tol = 1.0e-4, method, CV = FALSE, nu,...) > qda(x, grouping,..., subset, na.action) keterangan: formula : adalah model atau fungsi yang digunakan. Contoh G ~ x1 + x2 +... dalam hal ini G adalah variabel respon berupa data nominal yang menjelaskan kelompok dan x1, x2, adalah variabelnya. data x grouping : berupa data frame dari variabel-variabel yang digunakan dalam formula : berupa matriks atau data frame dari variabel-variabel penjelas. Opsi ini digunakan apabila formula tidak didefinisikan : suatu faktor yang mendefinisikan kelompok dari tiap pengamatan Opsi ini digunakan apabila formula tidak didefinisikan Bertho Tantular - 43

prior tol na.action method CV Nu : adalah fungsi peluang prior dari keanggotaan kelompok. : nilai toleransi yang digunakan apabila diperoleh matriks singular. Variabel dan kombinasi linier varians unit variabel yang nilainya kurang dari Nilai kuadrat tol berguna akan ditolak atau dikeluarkan. : suatu fungsi untuk penanganan data hilang : bernilai "moment" untuk penaksir baku bagi rata-rata dan varianas, "mle untuk penaksir kemungkinan maksimum, "mve" untuk digunakan dalam cov.mve, atau "t" untuk penaksir robust berdasarkan distribusi t. : bernilai TRUE untuk menampilkan cross-validation. : derajat bebas untuk metode "t". Hasil yang dapat ditampilkan adalah sebagai berikut prior means scaling svd n call Ldet Lev class posterior : prior probabilities yang digunakan. : rata-rata kelompok. : menampilkan matriks yang mentransformasikan pengamatan menjadi fungsi diskriminan. : menampilkan dekomposisi nilai singular yaitu ratio simpangan baku antar kelompok dengan simpangan baku dalam kelompok. Kuadrat dari nilai ini adalah nilai statistik F. : banyak pengamatan yang digunakan. : fungsi yang dihasilkan. : menampilkan vektor setengah log determinan matriks dispersi. : menampilkan tingkatan dari faktor kelompok : menampilkan mapping klasifikasi : menampilkan distribusi posterior Berikut contoh penggunaan analisis diskriminan kuadratik dengan banyak kelompok adalah 3 dan banyak variabel adalah 4 dan ketiga kelompok mempunyai nilai peluang prior yang sama Bertho Tantular - 44

> library(mass) > fit <- qda(g ~ x1 + x2 + x3 + x4, data=na.omit(mydata), prior=c(1,1,1)/3)) Menggambarkan Hasil Semua pengamatan dapat diplot kedalam sebuah gambar dua dimensi dengan mengambil dua fungsi diskriminan pertama # Menggambarkan Histogram kedua kategori plot(fit) # fit from qda Menggambarkan scatterplot bagi kedua variabel untuk memperlihatkan keanggotaan kedua kategori. Fungsi partimat( ) dalam paket klar dapat menggambarkan hasil dari fungsi Bertho Tantular - 45

diskriminan linier dua variabel. Perintah-perintah berikut adalah langkah-langlahnya # Grafik Eksplorasi untuk Analisis Diskriminan Linier > library(klar) > partimat(ikan.salmon ~ AirTawar + AirLaut, data=salmon, method="lda") Selain itu juga bisa dibuat scatterplot dengan menggunakan warna untuk masing-masing kategori. Untuk itu gunakan perintah-perintah berikut ini. # Scatterplot > pairs(salmon[c("airtawar","airlaut")], main="plot Analisis Diskriminan Ikan Salmon", pch=22, bg=c("red", "blue")[unclass(salmon$ikan.salmon)]) Bertho Tantular - 46