Principal Component Analysis Siana Halim. Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

dokumen-dokumen yang mirip
Factor Analysis Siana Halim. Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

MENGATASI MULTIKOLINEARITAS MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS (PCA)

Penggunaan Analisis Faktor (Factor Analysis) dengan Aplikasi Program SPSS 11.5

Pendahuluan. 0 Analisis interaksi antarvariabel 0 Interdependence 0 Deteksi multikolinearitas

Analisis Regresi: Regresi Linear Berganda

3. Dasar-dasar Manipulasi Data

PENERAPAN ANALISIS KOMPONEN UTAMA DALAM PENENTUAN FAKTOR DOMINAN YANG MEMPENGARUHI PRESTASI BELAJAR SISWA (Studi Kasus : SMAN 1 MEDAN)

Analisis Faktor Terhadap Resiko Kejadian Diare pada Anak Balita di Kota Ambon

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI

Jurusan Statistika, FST, Institut Sains & Teknologi AKPRIND Yogyakarta

SIMULASI DAMPAK MULTIKOLINEARITAS PADA KONDISI PENYIMPANGAN ASUMSI NORMALITAS

Minggu XI ANALISIS KOMPONEN UTAMA. Utami, H

ANALISIS FAKTOR RESIKO PADA KEJADIAN BERAT BADAN BAYI LAHIR DI BAWAH NORMAL DI RSUP H. ADAM MALIK MEDAN

KAJIAN FAKTOR PENYEBAB PENDERITA HIPERTENSI DENGAN MENGGUNAKAN ANALISIS FAKTOR DI KOTAMADYA MEDAN (Studi Kasus : RSUP H.

Bab 4 ANALISIS FAKTOR TEORITIS DAN APLIKATIF

S 10 Studi Simulasi Tentang Penerapan Grafik Pengendali Berdasarkan Analisis Komponen Utama (Principal Component Analysis)

JURNAL GAUSSIAN, Volume 2, Nomor 2, April 2013, Halaman Online di:

TE Teknik Numerik Sistem Linear

STK 511 Analisis statistika. Materi 7 Analisis Korelasi dan Regresi

BAB IV ANALISIS HASIL

BAB III METODE PENELITIAN. kuantitatif merupakan metode untuk menguji teori-teori tertentu dengan cara

III. METODOLOGI PENELITIAN

Minggu II STATISTIKA MULTIVARIATE TERAPAN

IDENTIFIKASI FAKTOR PENDORONG PERNIKAHAN DINI DENGAN METODE ANALISIS FAKTOR

Bab II. Tinjauan Pustaka

Metode Regresi Ridge dengan Iterasi HKB dalam Mengatasi Multikolinearitas

GEOGRAPHICALLY WEIGHTED REGRESSION PRINCIPAL COMPONENT ANALYSIS (GWRPCA) PADA PEMODELAN PENDAPATAN ASLI DAERAH DI JAWA TENGAH

BAB 2 PENGENALAN IRIS, PENENTUAN LOKASI IRIS, DAN PEMBUATAN VEKTOR MASUKAN

BAB 2 TINJAUAN PUSTAKA

STRUCTURAL EQUATION MODELING - PLS. SPSS for Windows

METODOLOGI PENELITIAN

PENERAPAN METODE GENERALIZED RIDGE REGRESSION DALAM MENGATASI MASALAH MULTIKOLINEARITAS

PERBANDINGAN MODEL ARIMA DAN MODEL REGRESI DENGAN RESIDUAL ARIMA DALAM MENERANGKAN PERILAKU PELANGGAN LISTRIK DI KOTA PALOPO

ANALISIS FAKTOR YANG MEMPENGARUHI TINGKAT PRODUKSI PADI SAWAH DI KABUPATEN PADANG LAWAS

Analisis Komponen Utama (Principal component analysis)

TUGAS STATISTIK MULTIVARIATE. Disusun oleh: Lina Dianati Fathimahhayati 10/306097/PTK/6867

PERBANDINGAN REGRESI KOMPONEN UTAMA DAN ROBPCA DALAM MENGATASI MULTIKOLINEARITAS DAN PENCILAN PADA REGRESI LINEAR BERGANDA

Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier. The Use of Gaussian PCA Kernel in Solving Non Linier Multivariate Plot

Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB III METODE PENELITIAN

IV. METODE PENELITIAN

BAB 2 LANDASAN TEORI. Analisis Korelasi adalah metode statstika yang digunakan untuk menentukan tingkat

BAB III ANALISIS FAKTOR. berfungsi untuk mereduksi dimensi data dengan cara menyatakan variabel asal

BAB III METODE PENELITIAN. B. Populasi dan Teknik Pengambilan Sampel. Sampling Jenuh, yaitu teknik Sampling yang semua anggota populasi

BAB III METODE PENELITIAN

BAB 4 HASIL DAN PEMBAHASAN

METODE PENELITIAN. Lokasi dan Waktu Penelitian. Metode Pengumpulan Data

HASIL DAN PEMBAHASAN

TE Teknik Numerik Sistem Linear. Bidang Studi Teknik Sistem Pengaturan Jurusan Teknik Elektro - FTI Institut Teknologi Sepuluh Nopember

III. METODE PENELITIAN

GEOGRAPHICALLY WEIGHTED REGRESSION PRINCIPAL COMPONENT ANALYSIS (GWRPCA) PADA PEMODELAN PENDAPATAN ASLI DAERAH DI JAWA TENGAH ABSTRACT

aljabar geo g metr me i

PENERAPAN REGRESI LINIER MULTIVARIAT PADA DISTRIBUSI UJIAN NASIONAL 2014 (Pada Studi Kasus Nilai Ujian Nasional 2014 SMP Negeri 1 Sayung)

MULTI KOLLINIERITAS DALAM REGRESI MULTIPLE LOGISTIK. Hery Tri Sutanto Jurusan Matematika MIPA Unesa Surabaya. Abstrak

BAB 2 LANDASAN TEORI

KORELASI. Alat hitung koefisien korelasi Pearson (data kuantitatif dan berskala rasio) Kendall, Spearman (data kualitatif dan berskala ordinal)

ANALISIS FAKTOR TERHADAP DATA PENGGUNAAN WEB PERSONAL DOSEN ITS DAN PERBANDINGAN TERHADAP PENCAPAIAN IPK DAN LAMA STUDI MAHASISWA

BAB III METODE PENELITIAN. penelitian ini adalah metode kuantitatif. Metode ini disebut metode kuantitatif

BAB 2 LANDASAN TEORI. Pengertian kriminalitas menurut para ahli adalah sebagai berikut:

BAB III FUZZY QUANTIFICATION THEORY II

ANALISIS KOMPONEN UTAMA DENGAN MENGGUNAKAN MATRIK VARIAN KOVARIAN YANG ROBUST

ANALISIS RAGAM SKOR KOMPONEN UTAMA PADA PERCOBAAN RESPONS-GANDA. Bahriddin Abapihi 1)

BAB 2 LANDASAN TEORI. bebas X yang dihubungkan dengan satu peubah tak bebas Y.

Aplikasi System Dynamic pada Model Perhitungan Indikator Millennium Development Goals (MDGs)

Pertemuan 3 & 4 INTERPRETASI GEOMETRI DAN GENERALISASI VARIANS. Interpretasi Geometri pada Sampel. Generalisasi varians

BAB 2 LANDASAN TEORI. Regresi pertama kali dipergunakan sebagai konsep statistik pada tahun 1877 oleh Sir francis

PERBANDINGAN REGRESI RIDGE DAN PRINCIPAL COMPONENT ANALYSIS DALAM MENGATASI MASALAH MULTIKOLINEARITAS

METODE PENELITIAN. Perumusan Indikator Wilayah yang Layak Dicadangkan untuk Kawasan Produksi Beras

BAB VI ANALISIS FAKTOR-FAKTOR PENENTU KEPUTUSAN HUTANG

(2.1) keterangan: i = Banyaknya faktor yang terbentuk; (i=1,2,3,...,k)

ANALISIS FAKTOR (FACTOR ANALYSIS)

ANALISIS FAKTOR ANALISIS FAKTOR

ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN METODE PARTIAL LEAST SQUARES

ANALISIS STATISTIK FAKTOR-FAKTOR YANG MEMPENGARUHI INDEKS PRESTASI MAHASISWA

2.1 Pengertian Regresi

PERBANDINGAN KINERJA BEBERAPA METODE KLASIFIKASI HASIL REDUKSI DATA BERDIMENSI TINGGI

BAB III PEMBAHASAN. Analisis cluster merupakan analisis yang bertujuan untuk. mengelompokkan objek-objek pengamatan berdasarkan karakteristik yang

BAB V ANALISIS DATA PENELITIAN. responden. Data deskriptif ini nantinya dapat menggambarkan keadaan ataupun

KNM XVI 3-6 Juli 2012 UNPAD, Jatinangor

OPTIMASI KUAT TEKAN DAN DAYA SERAP AIR DARI BATAKO YANG MENGGUNAKAN BOTTOM ASH DENGAN PENDEKATAN RESPON SERENTAK

Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil

BAB II TINJAUAN PUSTAKA. dari variabel-variabel yang saling berkorelasi. Analisis peubah ganda dapat

PENENTUAN KOEFISIEN KORELASI KANONIK DAN INTERPRETASI FUNGSI KANONIK MULTIVARIAT

BAB 1 PENDAHULUAN Latar Belakang

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

MK. PERENCANAAN LINGKUNGAN ANALISIS PEUBAH GANDA MULTIVARIATE ANALYSIS

Bab 7 Analisa Kinerja Multi Parameter dengan Teknik Karakterisasi Beban kerja (Workload)

Kombinasi Regresi Tak Bias Ridge dengan Regresi Komponen Utama untuk Mengatasi Masalah Multikolinieritas

KAJIAN PENGARUH NOISE DALAM ANALISIS KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH YANG BERKORELASI FAJRIANZA ADI NUGRAHANTO

BAB IV PEMBAHASAN HASIL PENELITIAN

BAB. IX ANALISIS REGRESI FAKTOR (REGRESSION FACTOR ANALYSIS)

BAB VI PENUTUP. bab sebelumnya, maka kesimpulan dari penelitian ini adalah:

BAB III METODOLOGI PENELITIAN

ANALISIS FAKTOR FAKTOR YANG MEMPENGARUHI KEBERHASILAN SISWA SEKOLAH MENENGAH PERTAMA DI KECAMATAN DEMAK

BAB IV ANALISIS DAN PEMBAHASAN

BAB IV ANALISIS DATA DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN

3 METODOLOGI. 3.1 Lokasi dan Waktu Penelitian

Transkripsi:

Principal Component Analysis Siana Halim Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

Pendahuluan Sebuah analis keuangan ingin menentukan sehat tidaknya sebuah departement keuangan pada sebuah industri. Dalam penelitian awal telah diidentifikasikan terdapat sejumlah rasio keuangan (kirakira ada 120 variabel) yang dapat digunakan untuk analisa di atas. Tentu saja, tidaklah mudah untuk menginterpretasikan 120 buah informasi untuk menentukan apakah departement keuangan tsb dalam keadaan sehat atau tidak. Apa yang harus dilakukannya? Tugas pertama dari analysis tersebut tentunya adalah menyederhanakan/mereduksi ke-120 rasio menjadi beberapa index saja (misalnya 3), ),yang mana index tersebut merupakan kombinasi linear dari seluruh rasio awal (120 rasio).

Pendahuluan Manajer marketing berkeinginan untuk membangun sebuah model regresi untuk menentukan forecast dari sales. Namun demikian, ternyata variable-variable yang seharusnya independent ternyata saling berkorelasi (multicollinearity). Dalam model regresi adanya multicollinearity dapat menyebabkan standard error dari estimasi parameter sangat tinggi, dan model regressi yang dihasilkan menjadi tidak stabil. Apa yang harus dilakukan oleh manager tersebut? Akanlah sangat membantu, bila marketing manajer tersebut membangun variable baru yang merupakan kombinasi linear dari variable-variable lama, sedemikian hingga variable- variable baru tersebut tidak saling berkorelasi. Variablevariable baru ini dapat digunakan untuk membangun model regresi yang dikehendakinya.

Bagaimana Caranya? Gunakan Principal Component Analysis (PCA). PCA adalah sebuah teknik untuk membangun variablevariable baru yang merupakan kombinasi linear dari variable-variable asli. Jumlah maximum dari variablevariable baru ini akan sama dengan jumlah dari variable lama, dan variable-variable baru ini tidak saling berkorelasi satu sama lain.

Secara Geometri X1 X2 Observasi Original Mean Original Mean Corrected Corrected 1 16 8 8 5 2 12 4 10 7 x x * 1 = cosθ x1 + sin θ x * 2 = sinθ x1 + cos 2 θ x 3 13 5 6 3 Dicari θ optimum s.d.h variance x * 1 4 11 3 2-1 maximum dan x 2 * orthogonal (saling 5 10 2 8 5 tegak lurus) dengan x * 1 6 9 1-1 -4 7 8 0 4 1 θ = 43.261 2 8 7-1 6 3 9 5-3 -3-6 10 3-5 -1-4 11 2-6 -3-6 12 0-8 0-3 * 1 =.728 x1 0. 685 x 0 + x * 2 =.685x1 0. 728 x 0 + x 2 2 S = 23.091 16.455 1 0.746 R = 16.455 21.091 0.746 1

Secara Geometri Mean Corrected Data New Variables Observasi X1 X2 X1* X2* 1 8 5 9.253-1.841 2 4 7 7.710 2.356 3 5 3 5.697-1.242 4 3-1 1.499-2.784 5 2 5 4.883 2.271 6 1-4 -2.013-3.598 7 0 1 0.685 0.728 8-1 3 1.328 2.870 9-3 -6-6.297-2.313 10-5 -4-6.382 0.514 11-6 -6-8.481-0.257 12-8 -3-7.882 3.298 Mean 0 0 0.000 0.000 38.576 0 SS 424.334 61.666 S = 0 61.666 R 1 = 0 0 1 Variance 38.576 5.606

Objective dari PCA Dalam PCA Variable-variable baru disebut sebagai principle component dan nilai-nilai bentukan dari varible ini disebut sebagai principle component score. Variable yang baru merupakan kombinasi linear dari variable-variable asli. Variable baru pertama berhubungan dengan variance maximum dari data. Variable baru kedua menunjukkan variance maximum yang belum terhitung pada variable pertama Variable baru ketiga menunjukkan variance maximum yang belum terhitung pada kedua variable pertama Variable baru ke-p menunjukkan variance maximum yang belum terhitung pada p-1 variable terdahulu. Seluruh p variable baru tidak berkorelasi.

Loadings Loadings adalah korelasi antara variable asli dengan variable baru. Loadings memberikan indikasi variable original mana yang sangat penting atau mempengaruhi pembentukan variable baru Semakin tinggi nilai Loading maka variable lama ybs semakin memiliki pengaruh terhadap pembentukan variable baru. Loading dapat pula dihitung dengan menggunakan rumus sbb: l ij = w s ij j L ij adalah loading dari variable ke-j untuk principal component ke-i, w ij adalah bobot dari variable ke-j terhadap principal component ke-i, λ i adalah nilai eigen dari principal component ke-i dan s j adalah standard deviasi dari variable ke-j λ i

Hal-hal yang berhubungan dengan PCA 1. Adakah effect dari type data (misalnya mean corrected ataupun data yang telah di-standard-kan) terhadap PCA? 2. Apakah PCA merupakan teknik yang memadai? 3. Berapakah jumlah Principal Component yang harus dipilih? 4. Bagaimana menginterpretasikan t ik PCA? 5. Bagaimana penggunaan dari Principal Component Scores?

1. Adakah effect dari type data (misalnya mean corrected ataupun data yang telah di-standard-kan) terhadap PCA? Secara umum, bobot yang dibebankan /diberikan pada sebuah variable dipengaruhi oleh variance relative dari variable, karena itu data seharusnya distandardkan s.d.h. variance untuk setiap variable menjadi sama (yaitu satu). Namun demikian, pilihan antara memproses data awal dengan mean corrected atau data yang distandardkan a a juga tergantung pada faktor-faktor lain. Sebagai contoh, jika tidak ada alasan yang memaksa seorang pengambil keputusan untuk menganggap sebuah variable ibl lbih lebih penting dari variable ibl yangli lain maka analisa akan lebih baik jika kita menggunakan data yang distandardkan. Namun demikian bila, ada alasan bahwa variance dari suatu variable menunjukkan tingkat kepentingan dari variable tersebut, maka analisa akan lebih baik jika kita menggunakan mean corrected data.

2.Apakah PCA merupakan teknik yang memadai? Jika objective dari analisa data adalah membangun kombinasi linear yang tidak saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tidak ada artinya dan sebaiknya dihindari. d i Jika objective dari analisa data adalah untuk mengurangi jumlah variable (principle component) yang merupakan kombinasi linear dari variable-variable asli, maka jumlah principle component harus kurang dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila data dapat direpresentasikan dalam beberapa buah principle component tanpa menghilangkan informasi secara substansial (without a substantial loss of information)

3. Berapakah jumlah Principal Component yang harus dipilih? Jika data yang digunakan adalah data yang sudah distandardkan, gunakan aturan nilai eigen yang lebih dari satu untuk menentukan jumlah principal component Plot prosentase dari variance pada tiap principal component dan lihatlah pada siku pada plot tersebut (scree plot). ) Aturan ini dapat digunakan untuk mean-corrected data ataupun data yang telah distandardkan. Gunakan komponen-komponen yang secara statistik signifikan.

4. Bagaimana menginterpretasikan PCA? Gunakan nilai Loading untuk menginterpretasikan PCA. Semakin tinggi nilai loading dari suatu variable maka variable tersebut memiliki pengaruh dalam pembentukan principle component score dan sebaliknya. Secara tradisional, nilai loading yang dianggap sebagai nilai cutoff adalah 0.5.

5. Bagaimana penggunaan dari Principal Component Scores? Nilai principal component scores dari dua variable baru (principal component) utama, dapat digunakan sebagai input variable untuk data clustering. Secara umum scores dari principal component juga dapat digunakan sebagai input variable untuk analisa regressi dan analisa diskriminant (discriminant analysis) Keuntungan menggunakan principal component score adalah variable-variable baru ini tidak saling berkorelasi sehingga masalah multicolinearity dapat dihindari.