IDENTIFIKASI DAN PENANGANAN PENGARUH PENCILAN PADA ANALISIS KOMPONEN UTAMA WIDYA NINGSIH

Transkripsi

1 IDENTIFIKASI DAN PENANGANAN PENGARUH PENCILAN PADA ANALISIS KOMPONEN UTAMA WIDYA NINGSIH DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 21

2 ABSTRAK WIDYA NINGSIH. Identifikasi dan Penanganan Pengaruh Pencilan pada Analisis Komponen Utama. Dibimbing oleh I MADE SUMERTAJAYA dan UTAMI DYAH SYAFITRI. Analisis komponen utama (AKU) merupakan salah satu alat kunci dalam analisis statistika peubah ganda. Analisis tersebut bertujuan membentuk beberapa komponen yang masing-masing mengandung keragaman maksimal dari data yang tidak dijelaskan oleh komponen lain. Metode klasik komponen utama sangat dipengaruhi oleh kehadiran pencilan karena AKU didasarkan pada matriks kovarian yang sensitif terhadap pencilan. Pengaruh keberadaan pencilan mampu diakomodasi dengan menggunakan metode AKU yang kekar terhadap data pencilan. Metode yang dipakai adalah Robust Principle Component Analysis (ROBPCA) atau Analisis Komponen Utama Kekar (AKU-K). AKU-K menggabungkan konsep projection pursuit dan penduga kovarian Minimum Covariance Deteminant (MCD). Penelitian ini bertujuan untuk membandingkan hasil analisis komponen utama metode klasik (AKU) dengan metode kekar (AKU-K), baik pada saat data mengandung pencilan maupun tidak. Proses pembandingan dilakukan menggunakan data simulasi. Hasil simulasi menunjukkan bahwa analisis komponen utama metode AKU-K lebih baik daripada AKU klasik. Pada metode klasik, pengaruh pencilan ditunjukkan oleh akar ciri komponen utama pertama meningkat seiring dengan peningkatan proporsi pencilan sehingga proporsi keragaman kumulatif data yang mampu dijelaskan komponen utama pertama semakin besar. Vektor ciri komponen utama pertama pun didominasi oleh peubah dengan keragaman besar. Sedangkan metode AKU-K mampu mengatasi pengaruh kehadiran pencilan pada data. Akar ciri komponen utama pertama tidak terpengaruh besarnya pencilan sehingga proporsi keragaman kumulatif data yang mampu dijelaskan komponen pertama cenderung stabil. Vektor ciri komponen pertama metode AKU-K memberikan interpretasi yang sama dengan AKU saat tidak ada pencilan. Kata kunci: analisis komponen utama, pencilan, metode kekar, projection pursuit, MCD

3 IDENTIFIKASI DAN PENANGANAN PENGARUH PENCILAN PADA ANALISIS KOMPONEN UTAMA WIDYA NINGSIH Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 21

4 Judul Skripsi Nama NRP : Identifikasi dan Penanganan Pengaruh Pencilan pada Analisis Komponen Utama : Widya Ningsih : G Menyetujui : Pembimbing I, Pembimbing II, Dr. Ir. I Made Sumertajaya, M.Si Utami Dyah Syafitri, S.Si, M.Si NIP NIP Mengetahui : Ketua Departemen, Dr. Ir. Hari Wijayanto, MS NIP Tanggal Lulus :

5 KATA PENGANTAR Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Sholawat dan salam terpanjat kepada Nabi Muhammad S.A.W yang telah menunjukkan cahaya kebenaran. Karya ilmiah ini berjudul Identifikasi dan Penanganan Pengaruh Pencilan pada Analisis Komponen Utama. Semoga karya ilmiah ini dapat memperkaya pengetahuan pada bidang Statistika. Terimakasih penulis ucapkan kepada: 1. Bapak Dr. Ir. I Made Sumertajaya, M.Si dan Ibu Utami Dyah Syafitri, S.Si, M.Si selaku pembimbing, yang dengan sabar memberikan bimbingan, pengarahan, saran dan ilmu kepada penulis. 2. Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku penguji luar yang telah memberi arahan dan saran kepada penulis. 3. Ibu, Bapak, kakak-kakak Wiwit Nurlestari dan Widya Ningrum, serta adik Weny Puspitasari. Terimakasih selalu menguatkan dan mendukung penulis sehingga terselesainya karya ilmiah ini. 4. Nur Andi Setiabudi, terimakasih atas waktu, bantuan, dan dukungan yang selalu diberikan kepada penulis. 5. Yani Suryani, terimakasih atas ide-ide dan diskusi yang membuka wawasan penulis. Nurhidayah, Isna Husniyati, Lola Netty, Megawati, Firdaus Hamdani, Fadli Hakim, Marina Febriyanti, Dian Mustika, terimakasih atas bantuan, saran dan semangat selama penyelesaian karya ilmiah ini. 6. Teman-teman STK42, keluarga besar Statistics Centre, keluarga besar KSR PMI Unit I IPB. Terimakasih telah membagi banyak ilmu, pengalaman, semangat, dan kepercayaan. 7. Pakde Ir. Sudarjo dan Bude Siti Nurhadi Sulistyo atas dukungan finansialnya kepada penulis untuk tetap kuliah. Semoga karya ilmiah ini bermanfaat. Bogor, Februari 21 Widya Ningsih

6 RIWAYAT HIDUP Penulis dilahirkan di Tegal pada tanggal 14 Juni 1987 dari pasangan Bapak Sriwitono dan Ibu Siti Nurhadi Setyowati. Penulis merupakan putri ketiga dari empat bersaudara. Tahun 25 penulis lulus dari SMA Negeri 1 Tegal dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB. Penulis memilih mayor Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan, penulis menjadi asisten mata kuliah Fisika pada tahun ajaran 25/26, mata kuliah Metode Statistika pada semester ganjil tahun ajaran 27/28 dan tahun ajaran 28/29, serta Metode Penarikan Contoh pada semester genap tahun ajaran 28/29. Pada tahun 28 penulis memenangi kompetisi nasional Statistika Ria sebagai juara III. Penulis mengikuti praktek lapang di PT. Mars Indonesia pada bulan Februari-April 29. Selain itu, penulis aktif menjadi anggota Korps Sukarela PMI Unit I IPB (KSR PMI Unit I IPB), Ikatan Mahasiswa Tegal (IMT), Himpunan Profesi Gamma Sigma Beta (GSB), dan Serambi Ruhiyah Mahasiswa FMIPA (SERUM-G). Penulis menerima beasiswa Bantuan Belajar Mahasiswa periode Juli-Desember 26, SPP++ periode Januari-Juni 27, dan Peningkatan Prestasi Akademik.

7 DAFTAR ISI Halaman DAFTAR TABEL... vii DAFTAR GAMBAR... vii DAFTAR LAMPIRAN... vii PENDAHULUAN Latar Belakang... 1 Tujuan... 1 TINJAUAN PUSTAKA Analisis Komponen Utama (AKU)... 1 Pencilan... 1 Analisis Komponen Utama Kekar (AKU-K)... 2 Analisis Komponen Utama dengan Projection Pursuit... 2 Minimum Covariance Determinant (MCD)... 2 BAHAN DAN METODE Bahan... 3 Metode... 3 HASIL DAN PEMBAHASAN Karakteristik Data... 4 Analisis Komponen Utama... 5 Analisis Komponen Utama Kekar... 6 Perbandingan AKU dengan AKU-K... 6 KESIMPULAN DAN SARAN Kesimpulan... 8 Saran... 8 DAFTAR PUSTAKA... 8 LAMPIRAN... 1 vi

8 DAFTAR TABEL Halaman 1. Deskripsi Tiap Peubah Indikator Pencemaran Udara Ringkasan Hasil Analisis Komponen Utama pada Berbagai Proporsi Pencilan Ringkasan Hasil Metode AKU-K pada Berbagai Proporsi Pencilan Keragaman Tiap Peubah pada Berbagai Proporsi Pencilan Koefisien Kombinasi Linear Dua Komponen Utama Pertama pada Data Contoh... 7 DAFTAR GAMBAR Halaman 1. Plot Quantil Chi-Square Data Indikator Pencemaran Udara Proporsi Kumulatif Dua Komponen Utama Pertama Akar Ciri Komponen Utama Pertama... 7 DAFTAR LAMPIRAN Halaman 1. Skema Algoritma AKU-K Script Pembangkitan Data dengan Software Matlab (R26a) Nilai Korelasi Antar Peubah Indikator Pencemaran Udara Jarak Mahalanobis Data Contoh Identifikasi Jumlah Pencilan pada Data Koefisien Kombinasi Linear Komponen Utama Pertama dan Kedua pada Berbagai Proporsi Pencilan Metode Analisis Komponen Utama Klasik (AKU) Koefisien Kombinasi Linear Komponen Utama Pertama dan Kedua pada Berbagai Proporsi Pencilan Metode Analisis Komponen Utama Kekar (AKU-K) vii

9 1 PENDAHULUAN Latar Belakang Analisis komponen utama (AKU) merupakan salah satu teknik pereduksian dimensi data. Data yang direduksi saling berkorelasi satu sama lain. Pembahasan mengenai teknik ini banyak ditemukan pada analisis peubah ganda karena AKU sering digunakan sebagai analisis antara untuk analisis lainnya, seperti analisis regresi, analisis gerombol, dan sebagainya. AKU menjadi populer karena tiga hal, yaitu AKU memiliki kombinasi linear dengan mean square error optimal dalam meringkas serangkaian vektor berdimensi tinggi menjadi rangkaian vektor berdimensi rendah dan kemudian membentuknya kembali. Kedua, parameter model dapat dihitung secara langsung dari data. Ketiga, peringkasan dan penghilangan mudah dioperasikan untuk menunjukkan parameter model (Chen 22). Meskipun memiliki beberapa keunggulan, model AKU memiliki beberapa kelemahan. Fokus utama pada penelitian ini adalah bahwa algoritma AKU masih didasarkan pada asumsi bahwa data tidak mengandung pencilan (Chen 22). AKU klasik akan sangat dipengaruhi oleh kehadiran pencilan karena AKU dibentuk berdasarkan pada matriks kovarian yang juga sangat sensitif terhadap keberadaan data pencilan (Hubert et al. 25). Kelemahan AKU terhadap kehadiran pencilan menyebabkan perkembangan AKU selanjutnya dipengaruhi oleh kebutuhan akan metode AKU yang kekar (robust) terhadap pencilan. Beragam metode dikembangkan untuk membentuk AKU tersebut. Robust Principle Component Analysis atau Analisis Komponen Utama Kekar (AKU-K) merupakan salah satu metode yang dikembangkan oleh Hubert et al. pada tahun 24. AKU-K menggabungkan konsep Projection Pursuit yang dikenalkan oleh Li dan Chen (1985) dengan penduga kovarian yang kekar, yaitu Minimum Covariance Determinant (MCD). Metode inilah yang diterapkan pada penelitian ini. Tujuan Penelitian ini bertujuan untuk membandingkan hasil analisis komponen utama metode klasik (AKU) dengan metode kekar (AKU-K), baik pada saat data mengandung pencilan maupun tidak. Perbandingan dikhususkan pada struktur komponen utama pertama. TINJAUAN PUSTAKA Analisis Komponen Utama (AKU) Analisis komponen utama adalah metode analisis peubah ganda yang bertujuan memperkecil dimensi peubah asal sehingga diperoleh peubah baru (komponen utama) yang tidak saling berkorelasi, tetapi menyimpan sebagian besar informasi yang terkandung pada peubah asal (Jollife 22). Misalkan X 1, X 2,..., X p adalah peubah acak yang menyebar menurut sebaran tertentu dengan vektor nilai tengah µ dan matriks peragam Σ. Komponen utama merupakan kombinasi linier terboboti dari peubah-peubah asal yang mampu menerangkan data secara maksimum. Komponen utama ke-j dari p peubah dapat dinyatakan sebagai Y j = aij x1 + a2 j x a pj x p = a' x dan keragaman komponen utama ke-j adalah : Var ( Yj ) = λ j ; j = 1, 2,..., p λ 1, λ 2,..., λ p adalah akar ciri yang diperoleh dari persamaan Σ λi = dimana λ 1 λ 2... λ p. Vektor ciri a sebagai pembobot dari transformasi linear peubah asal diperoleh dari persamaan (Σ λ j I)a j = ; j = 1, 2,..., p Total keragaman komponen utama adalah λ 1 + λ λ p = tr(σ) dan persentase total keragaman data yang mampu diterangkan oleh λ komponen utama ke-j adalah j 1 %. tr( Σ) Korelasi antara peubah ke-i dengan komponen utama ke-j dinyatakan sebagai ai λ j rx y = dengan λ j adalah akar ciri i j si matriks peragam S (penduga Σ) dan s i adalah simpangan baku peubah ke-i. Pencilan Barnet dan Lewis (1994) mengindikasikan bahwa sebuah pengamatan yang terpencil, atau pencilan, adalah pengamatan yang terlihat menyimpang secara nyata dari anggota lain dimana contoh tersebut diambil. Pencilan merupakan pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data. Dengan cara yang sama, Johnson (1998) mendefinisikan pencilan sebagai suatu pengamatan pada rangkaian data yang terlihat tidak konsisten terhadap sisaan dari data tersebut., Pencilan menurut Hawkins (198), dalam Ben-Gal (25), merupakan suatu pengamatan yang menyimpang cukup jauh

10 2 dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari sebaran data yang berbeda. Identifikasi data pencilan pada data peubah ganda umumnya menggunakan jarak Mahalanobis. Pengamatan ke-i didefinisikan sebagai pencilan apabila jarak Mahalanobis kuadrat lebih besar dari nilai chi-square pada p peubah (Johnson 1998). Penggunaan jarak Mahalanobis untuk mengidentifikasi pencilan peubah ganda tidak maksimal jika data mengandung lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh masking dan swamping (Barnett & Lewis 1994). Masking terjadi pada saat pengamatan pencilan tidak terdeteksi sebagai pencilan karena adanya pencilan lain yang berdekatan. Swamping terjadi saat pengamatan bukan pencilan teridentifikasi sebagai pengamatan pencilan. Analisis Komponen Utama Kekar (AKU-K) Hubert et al. (25) mengembangkan metode Robust Principle Component Analysis (ROBPCA) atau Analisis Komponen Utama Kekar (AKU-K) dengan menggabungkan konsep projection-pursuit (PP) dengan penduga kovarian yang kekar, yaitu MCD (Minimum Covariance Deteminant). PP digunakan untuk mereduksi dimensi awal. Kemudian, penduga MCD digunakan pada ruang data berdimensi lebih rendah tersebut. Algoritma AKU-K secara garis besar terdiri dari empat tahap sebagai berikut: 1. Memilih ½ < α < 1 untuk mendapatkan nilai h = max{αn,[(n + p + 1)/2]}. 2. Menghitung keterpencilan (outlyingness) setiap data x i dengan rumus Stahel-Donoho sebagai berikut: t t a x i µ ˆ MCD ( a X) O( x i ) = maxp t a R SMCD ( a X) µˆ dan S MCD MCD adalah penduga nilai tengah dan simpangan baku MCD. h pengamatan dengan nilai keterpencilan terkecil dihitung vektor nilai tengah ( ˆµ ) 1 dan matriks kovariannya (S ). 3. Matriks kovarian S didekomposisi sehingga diperoleh komponen utamanya. Sebanyak k komponen utama pertama dipilih dan semua data diproyeksikan pada subruang berdimensi-k yang direntang oleh k vektor ciri pertama sehingga diperoleh X n,k. 4. Pada X n,k dari langkah 3, dihitung kembali penduga nilai tengah ( ˆµ ) dan matriks 2 kovarian MCD (S 1 ) menggunakan algoritma FAST-MCD yang diadaptasi. Komponen utama akhir adalah vektor ciri dari matriks kovarian tersebut (S 1 ). Algoritma AKU-K secara lengkap dapat dilihat pada Lampiran 1. Analisis Komponen Utama dengan Projection-Pursuit Metode projection-pursuit (PP) bertujuan untuk mendapatkan struktur pada data peubah ganda dengan memproyeksikannya pada subruang berdimensi lebih rendah (Huber 1985). PP tepat digunakan untuk menganalisis data dengan jumlah peubah yang besar. Subruang berdimensi rendah dipilih dengan memaksimumkan indeks proyeksi tertentu. AKU berdasarkan PP dikembangkan oleh Li dan Chen (1985) dan telah dikenalkan oleh Huber (1985). Seperti AKU klasik, metode ini mencari suatu arah dengan penyebaran maksimal data diproyeksikan di dalamnya. Pada metode AKU klasik, digunakan penduga ragam sebagai indeks proyeksi. Untuk menghasilkan komponen utama yang kekar, indeks proyeksi diganti dengan penduga kovarian yang kekar S n. Untuk barisan pengamatan x 1,..., x n R, vektor ciri ke-k didefinisikan sebagai t t a k = arg max S n ( a x1,..., a xn ) a = 1, a a1,..., a ak 1 dimana akar ciri ke-k didefinisikan sebagai 2 t t λ k = Sn( ak x1,..., ak xn). Skor komponen utama selanjutnya merupakan proyeksi dari pengamatan dalam vektor ciri. Penduga kovarians kekar dapat diambil dari dekomposisi spektral: C S n = p k = 1 λ a a t k k k Minimum Covariance Determinant MCD (Minimum Covariance Determinant) merupakan penduga yang sangat kekar untuk menduga parameter nilai tengah dan matriks kovarian (Rousseeuw & Driessen 1999). MCD bertujuan mendapatkan h pengamatan dari n objek yang memiliki determinan matriks kovarian terkecil, dimana h bilangan bulat terkecil dari (n + p + 1)/2. Oleh karena itu, terdapat nc h kombinasi yang harus ditemukan untuk mendapatkan penduga MCD. Untuk n kecil, penduga MCD cepat ditemukan. Namun, jika n besar, kombinasi subsampel yang harus ditemukan untuk mendapatkan penduga MCD menjadi sangat banyak. Keterbatasan tersebut menghantarkan pada penemuan algoritma FAST-MCD oleh

11 3 Rousseeuw dan Driessen (1999). Algoritma FAST-MCD secara garis besar adalah sebagai berikut: 1. Ditentukan h, dimana (n + p + 1)/2 h n atau h = (n + p + 1)/2 atau h =.75n. n merupakan banyaknya pengamatan. 2. Diambil sejumlah himpunan bagian dari data secara acak. Himpunan bagian tersebut berukuran (p + 1) dan diperbesar hingga mencapai h menggunakan C-step. 3. Dalam setiap h bagian yang terambil, dilakukan dua C-step. C-step melakukan perhitungan penduga nilai tengah ˆµ dan penduga matriks kovarians ˆΣ dari h pengamatan, kemudian menghitung jarak dari tiap titik sebagai: ˆ 1 d x ) = ( x ˆ µ )' Σ ( x ˆ µ ). ˆ ( ) ( ˆ µ, Σ i i i Himpunan h baru dibentuk dari h pengamatan dengan jarak terkecil. 4. Untuk 1 himpunan bagian h dengan determinan matriks kovarian terkecil, dilakukan C-step hingga konvergen dan himpunan bagian terakhir disimpan dalam H Penduga nilai tengah µˆ MCD dan matriks kovarians Σˆ diperoleh dari H MCD 1 dengan determinan matriks kovarian terkecil. 6. Selanjutnya, dilakukan tahap pembobotan. n n ˆ µ 1 = w i xi / wi i= 1 i= 1 n n ' S 1 = w i ( xi T1 )( xi T1 ) / wi 1 i= 1 i= 1 dimana )(i) 2 χ p,.975 1, jika d ( µˆ, Σˆ w i = MCD MCD, lainnya 7. Terakhir, komponen utama didefinisikan sebagai k vektor ciri dari S 1 yang bersesuaian dengan k akar ciri terbesar dari S 1. BAHAN DAN METODE Bahan Data yang digunakan untuk penelitian ini diperoleh dari contoh data dan data simulasi. Contoh data diperoleh dari Applied Multivariate Statistical Analysis (Johnson & Wichern 1998). Data tersebut merupakan data hasil 42 pengukuran peubah pencemaran udara yang dicatat pada pukul 12 siang di daerah Los Angeles pada hari yang berbeda. Ketujuh peubah yang dipakai sebagai indikator pencemaran udara sebagai berikut: X1= Kecepatan angin X2= Radiasi panas X3= CO X4= NO X5= NO 2 X6= O 3 X7= HC Sedangkan data simulasi merupakan hasil pembangkitan bilangan acak normal ganda dengan nilai korelasi tertentu. Metode Penelitian ini dilakukan dengan langkahlangkah sebagai berikut: 1. Menyiapkan data, yaitu data contoh dan data acak normal ganda dengan parameter berbeda dari data contoh, serta memberikan beberapa proporsi pencilan. Jumlah peubah yang dibangkitkan sebanyak tujuh buah, sedangkan jumlah pengamatan yang digunakan sebanyak 42 objek. Proporsi pencilan yang diberikan adalah % (tanpa pencilan), 1%, 5%, 1%, dan 15%. 2. Melakukan AKU untuk setiap data pada langkah Melakukan interpretasi hasil AKU yang diperoleh dari langkah Membandingkan hasil AKU antara data tanpa pencilan dengan data yang mengandung pencilan pada langkah 2. Struktur AKU yang dibandingkan adalah akar ciri komponen utama pertama, proporsi kumulatif komponen utama pertama, dan koefisien kombinasi linear komponen utama pertama. Perbandingan mencakup identifikasi proporsi pencilan yang mulai memberikan perbedaan struktur dan perbandingan keragaman yang dijelaskan komponen utama pertama. 5. Melakukan AKU-K untuk setiap data pada langkah 1 dengan nilai h disesuaikan dengan jumlah pencilan pada data. Misal, apabila proporsi pencilan sebesar 1%, maka h =.99n atau h = 41 untuk n = Melakukan interpretasi hasil AKU-K pada langkah Membandingkan hasil AKU-K antara data tanpa pencilan dengan data yang mengandung pencilan pada langkah Membandingkan hasil AKU dan AKU-K pada langkah 2 dan 5. Langkah-langkah dalam penyiapan data adalah sebagai berikut: 1. Penyiapan data contoh: 1.1. Mentransformasi setiap peubah menjadi peubah acak normal baku. Transformasi normal baku dilakukan

12 4 karena adanya perbedaan satuan pengukuran antar peubah Memastikan tidak adanya pencilan pada data dengan mengidentifikasi adanya pencilan pada data. Pengidentifikasian pencilan dilakukan dengan membandingkan jarak kuadrat Mahalanobis tiap pengamatan D 2 i untuk setiap pengamatan pada matriks data X 2 2 dengan χ p, 1 α (α =.1). Jika D i > 2 p, 1 α χ, maka x i atau pengamatan ke-i dianggap pencilan (i = 1, 2,..., 1). t 1 Di = ( x µ ) Σ ( x µ ) µ merupakan vektor nilai tengah X, sedangkan Σ matriks kovarian dari X berdimensi p p. 2. Penyiapan data simulasi: 2.1. Membangkitkan peubah acak normal ganda X dengan parameter berbeda dari data contoh atau X N (µ, Σ). Proses pembangkitkan peubah acak tersebut dilakukan dengan algoritma sebagai berikut: a. Membangkitkan Y N(, 1) sebanyak n atau 42 kali. b. Mengulangi langkah a sebanyak p atau 7 kali sehingga diperoleh 7 peubah acak Y berukuran 42 yaitu Y 1, Y 2,..., Y 7. c. Menentukan nilai µ dan Σ. µ merupakan vektor nilai tengah dan Σ merupakan matriks kovarian berdimensi p p. d. Mencari matriks A yang bersesuaian dengan Σ = AA. Penguraian matriks Σ untuk mendapatkan matriks A dilakukan dengan dekomposisi Cholesky. e. Membangkitkan X N (µ, Σ) dari masing-masing peubah acak Y pada b melalui transformasi x = µ + Ay sehingga diperoleh 7 peubah acak X berukuran 42 yang saling berkorelasi, yaitu X 1, X 2,..., X Peubah acak X 1, X 2,..., X 7 membentuk matriks data berdimensi 42 7 yaitu X yang akan dipakai sebagai data pencilan. 3. Penyiapan dataset: Membentuk matriks data yang akan dipakai dengan memberikan beberapa pencilan pada data contoh sebanyak εn dari data contoh. ε adalah proporsi pencilan yang diberikan, yaitu tanpa pencilan (%), 1%, 5%, 1%, dan 15%. Sedangkan n merupakan banyaknya pengamatan. 4. Melakukan identifikasi pencilan pada dataset yang telah dibentuk untuk memastikan proporsi pencilan yang dikandung masing-masing data. Pengolahan data dilakukan dengan software Matlab (R26a) dan Microsoft Excel 27. Script pembangkitan dan penyiapan data dapat dilihat pada Lampiran 2. Sedangkan AKU-K dilakukan menggunakan program Matlab pada situs dan HASIL DAN PEMBAHASAN Karakteristik Data Data contoh merupakan data pengamatan tujuh peubah pencemaran udara dengan rataan masing-masing peubah ditunjukkan pada Tabel 1. Besarnya korelasi antar peubah dapat dilihat pada Lampiran 3. Lampiran 3 menunjukkan bahwa terdapat korelasi yang signifikan antara peubah radiasi panas dan O 3 pada taraf 5%. Hubungan antara radiasi panas dan O 3 bernilai positif (.319) sehingga peningkatan radiasi panas menyebabkan peningkatan O 3, dan sebaliknya. CO memiliki korelasi positif yang signifikan pada taraf 5% terhadap NO, NO 2, dan O 3. Nilai korelasi antara CO dengan ketiga peubah tersebut masing-masing sebesar.52,.557, dan.411. Selain itu, terdapat pula hubungan yang signifikan antara NO 2 dan HC pada taraf 5% dengan korelasi sebesar.448. Korelasi antara peubah-peubah tersebut tidak besar, tetapi cukup kuat dibuktikan dengan nilai-p yang signifikan pada taraf.5. Tabel 1 Deskripsi Tiap Peubah Indikator Pencemaran Udara Peubah Rataan Standar Deviasi X X X X X X X Plot Quantil Chi-Square pada Gambar 1 menunjukkan pola yang mengikuti garis lurus atau linear sehingga data tersebut dapat dikatakan menyebar normal ganda. Karena

13 5 Tabel 2 Ringkasan Hasil Analisis Komponen Utama pada Berbagai Proporsi Pencilan Akar Ciri Proporsi Kumulatif Proporsi Pencilan Komponen % % % % % % % % % % Determinan Matriks Kovarian Proporsi Pencilan % 1% 5% 1% 15% Determinan data mendekati normal, proses identifikasi pencilan data contoh dapat dilakukan dengan jarak Mahalanobis. Dengan menggunakan 2 titik kritis χ 7,.1, suatu pengamatan disebut pencilan apabila jarak Mahalanobis terhadap nilai tengah melebihi nilai kritis tersebut. Lampiran 4 menunjukkan bahwa tidak ada pencilan pada data contoh. Hal tersebut dikarenakan semua pengamatan memiliki jarak Mahalanobis tidak melebihi d i 2 (i) χ 2 p((n-i+1/2)/n) Gambar 1 Plot Quantil Chi-Square Data Indikator Pencemaran Udara Data contoh yang digunakan merupakan data yang tidak mengandung pencilan. Oleh karena itu, diperlukan data pencilan untuk proses simulasi. Data pencilan dibangkitkan dengan vektor rataan berbeda dari data contoh, yaitu µ = [ 1 1 ]. Sedangkan besarnya korelasi antar peubah dibangkitkan menggunakan korelasi peubah data contoh. Selanjutnya, data dianalisis menggunakan AKU dan AKU-K. Proses awal sebelum dilakukan AKU dan AKU-K adalah pengidentifikasian jumlah pencilan pada masing-masing data pada proporsi pencilan berbeda. Lampiran 5 menunjukkan bahwa jarak Mahalanobis D i hanya mampu mengidentifikasi adanya pencilan pada data dengan proporsi pencilan 1%. Pada data pencilan 1%, proporsi pencilan yang teridentifikasi sama dengan persentase pencilan yang diberikan. Pada saat proporsi pencilan ditingkatkan, tidak ada pengamatan teridentifikasi sebagai pencilan. Hal ini dikarenakan pengaruh masking. Adanya pencilan telah merubah vektor nilai tengah dan matriks kovarian data sehingga mempengaruhi perhitungan jarak Mahalanobis. Analisis Komponen Utama Analisis komponen utama dilakukan pada data contoh setelah dilakukan transformasi masing-masing peubah ke normal baku karena adanya perbedaan satuan antar peubah. Hasil analisis komponen utama pada data contoh (pencilan %) menunjukkan bahwa dua komponen utama pertama hanya mampu menerangkan 53.18% keragaman data. Analisis komponen utama dengan menggunakan matriks kovarian sebagai dasar analisis menghasilkan akar ciri pertama sebesar dan mampu menerangkan keragaman data sebesar.3338 atau 33.38%. Komponen utama kedua memiliki nilai akar ciri sebesar dan menghasilkan proporsi keragaman kumulatif sebesar.5318 atau 53.18% keragaman data.

14 6 Tabel 3 Ringkasan Hasil Metode AKU-K pada Berbagai Proporsi Pencilan Akar Ciri Proporsi Kumulatif Proporsi Pencilan Komponen % % % % % % % % % % Analisis komponen utama pada data dengan pencilan 1% menunjukkan bahwa dua komponen utama pertama telah mampu menerangkan keragaman data sebesar.715 atau 71.5% (Tabel 2). Pada data dengan pencilan 5%, proporsi kumulatif data yang mampu diterangkan dua komponen pertama menjadi sebesar 83.88%. Proporsi kumulatif dua komponen pertama terus meningkat hingga mencapai 87.6% pada pencilan 1% dan 9.28% pada pencilan 15%. Proporsi kumulatif data yang diterangkan kedua komponen pertama meningkat karena adanya peningkatan akar ciri kedua komponen pertama. Kedua komponen pertama merupakan komponen yang mengandung keragaman data terbesar sehingga akar cirinya terpengaruh besarnya keragaman data. Akar ciri hasil AKU pada data pencilan akan meningkat, meskipun pencilan yang diberikan kecil (1%). Hal tersebut terjadi karena data dengan pencilan memiliki keragaman lebih tinggi daripada data tanpa pencilan. Keragaman data meningkat seiring dengan peningkatan proporsi pencilan sebagaimana ditunjukkan oleh peningkatan determinan matriks kovarian data pada Tabel 2. Determinan atau keragaman umum merupakan suatu cara menginformasikan semua ragam dan peragam dalam satu bilangan skalar (Johnson 1998). Analisis Komponen Utama Kekar AKU-K pada data contoh (pencilan %) menghasilkan dua komponen utama pertama yang menerangkan 53.5% keragaman data. Akar ciri komponen pertama bernilai dan memiliki proporsi kumulatif sebesar 33.1%. Komponen kedua memiliki akar ciri sebesar dan menghasilkan proporsi kumulatif sebesar 53.5% keragaman data. Hasil AKU-K pada Tabel 3 menunjukkan bahwa pada data pencilan 1%, proporsi kumulatif keragaman data yang mampu diterangkan dua komponen pertama sebesar 57.21%. Pada data dengan pencilan 5%, dua komponen pertama menerangkan 52.56% keragaman data. Proporsi kumulatif data yang diterangkan oleh dua komponen pertama cenderung stabil meskipun proporsi pencilan ditingkatkan, yaitu sebesar 53.17% pada pencilan 1% dan 53.97% pada pencilan 15%. Kestabilan proporsi kumulatif tersebut dikarenakan akar ciri kedua komponen pertama juga stabil. Kestabilan hasil dikarenakan AKU-K melakukan perhitungan matriks kovarian tidak dari semua data, tetapi dari h pengamatan dengan nilai keterpencilan terkecil. Proporsi Kumulatif Perbandingan AKU dengan AKU-K % 1% 5% 1% 15% Proporsi Pencilan AKU AKU-K Gambar 2 Proporsi Kumulatif Dua Komponen Utama Pertama

15 7 AKU dan AKU-K menghasilkan struktur komponen utama yang tidak jauh berbeda pada data contoh (pencilan %). Proporsi keragaman kumulatif antar kedua metode relatif sama pada data tersebut. Pada data dengan pencilan, proporsi keragaman kumulatif yang mampu diterangkan dua komponen pertama hasil AKU semakin meningkat seiring peningkatan pencilan, sedangkan hasil AKU-K tetap stabil (Gambar 2). Peningkatan juga terjadi pada akar ciri komponen pertama yang dihasilkan AKU, sedangkan akar ciri metode AKU-K cenderung stabil (Gambar 3). Akar Ciri Komponen Pertama % 1% 5% 1% 15% Proporsi Pencilan AKU AKU-K Gambar 3 Akar Ciri Komponen Utama Pertama Tabel 4 Keragaman Tiap Peubah pada Berbagai Proporsi Pencilan Proporsi Pencilan % 1% 5% 1% 15% X X X X X X X Vektor ciri atau koefisien kombinasi linier dua komponen utama metode AKU maupun AKU-K pada data contoh memiliki struktur yang mirip. Perbedaan tanda menggambarkan perbedaan arah vektor. Pada data pencilan, AKU menghasilkan vektor ciri komponen pertama yang didominasi peubah dengan keragaman besar. Tabel 4 menunjukkan bahwa peubah X2 (radiasi panas) dan X6 (O 3 ) memiliki keragaman lebih tinggi dibanding peubah lainnya sehingga terlihat pada Lampiran 6 bahwa koefisien untuk kedua peubah tersebut pada komponen pertama (KU1) lebih besar dibanding peubah lainnya pada semua data pencilan. Beberapa peubah selain X2 dan X6 mengalami perubahan keragaman karena proses simulasi dilakukan dengan mengganti semua nilai pada suatu baris pengamatan dengan nilai dari data pencilan. Oleh karena itu, tidak hanya nilai pada peubah X2 dan X6 yang terganti atau nilai-nilai pada peubah lain juga berbeda dari nilai data contoh, meskipun memiliki nilai tengah yang sama. Metode AKU-K menghasilkan dua komponen pertama dengan struktur koefisien berbeda pada tiap data pencilan (Lampiran 7). Pada data pencilan 1% dan 15%, struktur koefisien KU1 hasil metode AKU-K akan mirip dengan hasil AKU untuk data contoh (pencilan %). Akan tetapi, pada data pencilan 5% dan 1%, metode AKU-K menghasilkan struktur koefisien KU1 berbeda dari hasil AKU data contoh. Perbedaan struktur koefisien komponen utama tersebut akan menyebabkan interpretasi komponen yang berbeda. Tabel 5 Koefisien Kombinasi Linear Dua Komponen Utama Pertama pada Data Contoh AKU AKU-K KU1 KU2 KU1 KU2 X X X X X X X Komponen utama pertama hasil AKU pada data contoh ditunjukkan pada Tabel 5. Komponen tersebut memiliki nilai yang positif untuk X2 hingga X7, sedangkan X1 bernilai negatif. Komponen tersebut merupakan pengaruh ketujuh peubah tersebut pada kadar pencemaran di udara. X3 hingga X7 ( CO, NO, NO 2, O 3, dan HC) merupakan polutan yang ada di udara sehingga kelima peubah tersebut memiliki efek yang sama terhadap kadar pencemaran udara. Semakin tinggi kadar polutan, makin tinggi pula kadar pencemaran udara. X2 atau radiasi panas berperan membantu pembentukan polutan sekunder. Sedangkan X1 atau kecepatan angin

16 8 berpengaruh negatif terhadap kadar pencemaran di udara. Angin menyebabkan ketidakstabilan atmosfer sehingga polutan lebih terdispersi dan menurunkan kadar pencemaran di udara. Pengamatan dengan nilai skor komponen pertama yang tinggi menunjukkan pengamatan dengan kadar pencemaran tinggi. Struktur komponen utama pertama hasil AKU-K pada data contoh sama seperti komponen pertama hasil AKU, tetapi memiliki tanda berbeda. Interpretasi komponen tersebut adalah pengaruh ketujuh peubah terhadap kadar tercemarnya udara. Pengamatan dengan nilai skor komponen utama pertama tinggi dan positif menunjukkan pengamatan dengan kadar pencemaran yang rendah atau tingkat udara bersih tinggi, dan sebaliknya. Komponen utama kedua baik AKU maupun AKU-K memiliki nilai yang tinggi pada peubah X2 dan X6. Oleh karena itu, komponen tersebut diartikan sebagai hubungan antara radiasi panas dan ozon (O 3 ). Ozon merupakan polutan sekunder yang terbentuk dengan bantuan radiasi surya sehingga makin rendah intensitas radiasi yang diterima, makin sedikit jumlah ozon yang terbentuk, dan sebaliknya. Pengamatan dengan nilai skor komponen kedua yang tinggi menunjukkan pengamatan dengan kadar ozon tinggi. Lampiran 7 menunjukkan bahwa komponen pertama pada data pencilan 5% dengan metode AKU-K dicirikan oleh nilai koefisien yang tinggi pada X3 dan X5. Komponen tersebut merupakan hubungan antara CO dan NO 2. Interpretasi tersebut jelas berbeda dibanding interpretasi AKU data contoh. KESIMPULAN DAN SARAN Kesimpulan Analisis komponen utama metode AKU-K menunjukkan hasil yang lebih baik daripada AKU klasik. AKU klasik sangat dipengaruhi oleh kehadiran pencilan sehingga keberadaan pencilan akan memberikan hasil yang berbeda jauh dari hasil sebenarnya, meskipun proporsi pencilan yang diberikan sangat kecil. Akar ciri komponen utama pertama meningkat seiring dengan peningkatan proporsi pencilan sehingga proporsi keragaman kumulatif data yang mampu dijelaskan komponen utama pertama semakin besar. Vektor ciri komponen utama pertama didominasi oleh peubah dengan keragaman besar. Sedangkan metode AKU-K mampu mengatasi pengaruh kehadiran pencilan pada data. Akar ciri komponen utama pertama tidak terpengaruh besarnya pencilan sehingga proporsi keragaman kumulatif data yang mampu dijelaskan komponen pertama cenderung stabil. Vektor ciri komponen pertama metode AKU-K memberikan interpretasi yang sama dengan AKU saat tidak ada pencilan. Saran Pembobotan pengamatan merupakan salah satu bagian dalam algoritma FAST-MCD yang digunakan pada metode AKU-K. Suatu pengamatan diberi bobot satu apabila jarak relatifnya terhadap nilai tengah penduga MCD lebih besar daripada nilai kritisnya, dan diberi bobot nol jika sebaliknya. Pada penelitian selanjutnya, masih perlu dilakukan pengkajian mengenai penggunaan pembobot selain satu dan nol. DAFTAR PUSTAKA Arya PS Air Pollution Meteorology and Dispersion. Oxford: Oxford University Press. Barnett V, Lewis T Outliers in Statistical Data. Chichester: John Wiley & Sons, Ltd. Ben-Gal I. 25. Outlier Detection. Di dalam: Maimon O, Rokach L. Data Mining and Knowledge Discovery Handbook. New York: Springer US. Chen H. 22. Principal Component Analysis with Missing Data and Outliers. ttutorial/tutorialrpca.pdf [15 Apr 29]. Croux C, Ruiz-Gazen A. 25. High Breakdown Estimators for Principal Components: the Projection-Pursuit Approach Revisited. Journal of Multivariate Analysis. 95: Engelen S, Hubert M, Vanden-Branden K. 25. A Comparison of Three Procedures for Robust PCA in High Dimensions. Austrian Journal of Statistics. 34: Huber PJ Projection Pursuit. The Annals of Statistics. 13: Hubert M, Engelen S. 27. Fast Cross Validation of High-Breakdown Resampling Methods for PCA. Computational Statistics and Data Analysis. 51: Hubert M, Rousseeuw PJ, Aelst S van. 28. High-Breakdown Robust Multivariate Methods. Statistical Science. 23:

17 9 Hubert M, Rousseeuw PJ, Vanden-Branden K. 25. ROBPCA: A New Approach to Robust Principal Component Analysis. Technometrics. 47: Johnson RA, Wichern DW Applied Multivariate Statistical Analysis. 4 th Ed. New Jersey: Prentice Hall, Inc. Jolliffe IT. 22. Principal Component Analysis. 2 nd Ed. New York: Springer- Verlag, Inc. Morgan BJT Element of Simulation. London: Chapman and Hall. Rousseeuw PJ, Driessen K van A Fast Algorithm for the Minimum Covariance Determinant Estimator. Technometrics. 41:

18 LAMPIRAN

19 11 Lampiran 1 Skema Algoritma AKU-K Mulai X n,k = [x * 1, x * 2,, x * n ] X = k+1 bagian dari X n,k Ambil 1 H 1 dengan det(s 1 ) kecil Definisikan X = [x 1, x 2,, x n ] h max{αn,[(n+p+1)/2]} dengan ½ < α < 1 t t a xi µ ˆMCD( a X) O(x i) maxp t a R S ( a X) MCD H = [x(o 1 ), x(o 2 ),, x(o h )] dimana O 1 O 2 O h O n ˆµ vektor nilai tengah dari H S matriks kovarian dari H Dekomposisi spektral S : S P L P d ˆµ vektor nilai tengah dari x i * S matriks kovarian dari x i * dimana i H * 1 * ( x ) ( ˆ )' ( ˆ i xi µ S xi ) x i * X n,k ( ˆ µ, So ) µ H 1 = [x(d 1 )*, x(d 2 )*,, x(d h )*] dimana d 1 d 2 d h d n ˆµ vektor nilai tengah dari H 1 1 S 1 matriks kovarian dari H 1 det(s 1 ) = det(s )? tidak S S 1 ya d ˆµ vektor nilai tengah dari X S matriks kovarian dari X H 1 = [x(d 1 )*, x(d 2 )*,, x(d h )*] dimana d 1 d 2 d h d n ˆµ vektor nilai tengah dari H 1 1 S 1 matriks kovarian dari H 1 d * 1 * ( x ) ( ˆ )' ( ˆ i xi µ S xi ) ( ˆ µ, S o ) µ x i * X n,k det(s 1 ) < det(s 2 )? ya S 3 S 1, ˆµ ˆµ 3 1 * 1 * ( x ) ( ˆ )' ( ˆ i xi µ 3 S3 xi 3) x i * X n,k ( ˆ µ 3, S3 ) µ tidak ya d * 1 * ( x ) ( ˆ )' ( ˆ i xi µ 1 S1 xi 1) x i * X n,k ( ˆ µ 1, S1) µ H 2 = [x(d 1 )*, x(d 2 )*,, x(d h )*] dimana d 1 d 2 d h d n ˆµ vektor nilai tengah dari H 2 2 S 2 matriks kovarian dari H 2 det(s 2 ) = det(s 1 )? S 3 S 2, S 2 S 1 tidak ˆµ ˆµ 3 2 Dekomposisi spektral S 4 : S 4 P 2 L 2 P 2 T n,k (X n,r 1 ' n ˆµ ) P 4 2 X n,k (X n,r 1 ' n ˆµ ) P 1 r,k Keterangan. Diulang 25 kali ) n n µ 4 w i x i / w i i = 1 i = 1 n n ) ) ' S4 w i xi µ 4 xi µ 4 / wi 1 i= 1 i= 1 ( )( ) Stop 11

20 12 Lampiran 2 Script Pembangkitan Data dengan Software Matlab (R26a) function [X]=mvn(mu,sigma,n) %Fungsi ini membentuk matriks data yang terdiri dari p variabel dengan mu %dan sigma (korelasi) tertentu. %Input: %mu = vektor berukuran 1xp %sigma = matriks ragam peragam berukuran pxp (matriks definit positif) %n = banyaknya pengamatan %p = banyaknya variabel %Output: %X = matriks data %Membangkitkan bilangan acak menyebar normal(,1) sebanyak p m=size(sigma); p=m(1); for i=1:n Y(i,:)=normrnd(,1,[1 p]);%y matriks berukuran n x p end %Dekomposisi Cholesky sigma=aa a=chol(sigma);%sigma=a'a %Membangkitkan data M = mu(ones(n,1),:);%membangkitkan matriks vektor nilai tengah (nxp) Xt=M'+a'*Y'; X=Xt'; %==================================================================== function z=new(x,y,a) %Fungsi ini menghasilkan matriks baru yang merupakan gabungan dari matriks %x dan y dimana baris ke-p pada x diganti dengan baris ke-p pada y. %Banyaknya baris yg diganti sebesar a% pengamatan. %Banyaknya pengamatan adalah jumlah baris pada x maupun y. %Banyaknya baris dan kolom pada x dan y harus sama. %Input: %x = Matriks data awal %y = Matriks data kontaminan %a = Besarnya proporsi pencilan yang digunakan untuk mengganti data awal %Output: %z = Matriks gabungan sx=size(x); %Mencari dimensi dari matriks x n=sx(1); m=ceil((a/1)*n); z=x; for i=1:m rp=randperm(n); p=rp(1); z(p,:)=y(p,:); %Proses penggantian data end b=cb(z,x); %Mengecek jumlah baris yang terganti %Melakukan penggantian lagi jika jumlah data yang terganti kurang dari %yang seharusnya if b<m s=m-b; for k=1:s rp=randperm(n);p=rp(1); if z(p,:)==y(p,:) k=k-1; else z(p,:)=y(p,:);

21 13 end end end b=cb(z,x); %Melakukan penggantian lagi jika jumlah data yang terganti lebih dari %yang seharusnya if b>m s=m-b; for k=1:s rp=randperm(n);p=rp(1); if z(p,:)==y(p,:) z(p,:)=x(p,:); end end end %==================================================================== function b=cb(x,y) %Fungsi ini menghitung jumlah baris pada matriks x dan y yang berbeda %Input: %x,y = matriks data yang dibandingkan %Output: %b = jumlah baris yang berbeda sx=size(x); rx=sx(1); b=; for i=1:rx if x(i,:)==y(i,:) b=b+; else b=b+1; end end %==================================================================== Lampiran 3 Nilai Korelasi Antar Peubah Indikator Pencemaran Udara X1 X2 X3 X4 X5 X6 X7 X1 r 1. nilai-p. X2 r nilai-p.523. X3 r nilai-p X4 r ** 1. nilai-p X5 r ** nilai-p X6 r *.411 ** nilai-p X7 r ** nilai-p Keterangan. * Korelasi signifikan pada taraf nyata.5. **Korelasi signifikan pada taraf nyata.1.

22 14 Lampiran 4 Jarak Mahalanobis Data Contoh Pengamatan Jarak Pengamatan Jarak Pengamatan Jarak Lampiran 5 Identifikasi Jumlah Pencilan pada Data Proporsi Pencilan % 1% 5% 1% 15% Jumlah Data Pencilan Jumlah Pencilan Teridentifikasi 1 Lampiran 6 Koefisien Kombinasi Linear Komponen Utama Pertama dan Kedua pada Berbagai Proporsi Pencilan Metode Analisis Komponen Utama Klasik (AKU) Proporsi Pencilan Peubah 1% 5% 1% 15% KU1 KU2 KU1 KU2 KU1 KU2 KU1 KU2 X X X X X X X

23 15 Lampiran 7 Koefisien Kombinasi Linear Komponen Utama Pertama dan Kedua pada Berbagai Proporsi Pencilan Metode Analisis Komponen Utama Kekar (AKU-K) Peubah Proporsi Pencilan 1% 5% 1% 15% KU1 KU2 KU1 KU2 KU1 KU2 KU1 KU2 X X X X X X X