PEBANDINGAN METODE ROBUST MCD-LMS, MCD-LTS, MVE-LMS, DAN MVE-LTS DALAM ANALISIS REGRESI KOMPONEN UTAMA Sear Wulandari, Nur Salam, dan Dewi Anggraini Program Studi Matematia Universitas Lambung Mangurat Jl. A. Yani Km 36,800 Kampus Unlam Banjarbaru ABSTRAK Regresi omponen utama (Principal Component Regression) merupaan teni statisti yang digunaan untu analisis regresi dengan olinieritas. Teni robust pada regresi omponen utama sangat diperluan jia termuat outlier didalam data. Pada penelitian ini dilauan ombinasi antara Analisis Komponen Utama (PCA) Robust: Minimum Covariant determinant (MCD) dan Minimum Volume Ellipsoid (MVE) dengan Metode Regresi Robust: Least Median Square (LMS) dan Least Trimmed Square (LTS), emudian membandingan tingat resistensi metode MCD-LMS, MCD-LTS, MVE-LMS, MVE-LTS terhadap outlier dengan membandingan nilai Bias dan MSE (Means Square Error) pada beberapa uuran sampel dan persentase outlier yang berbeda. Hasil yang diperoleh menunjuan bahwa metode MCD-LMS lebih bai dari pada metode MCD-LTS, MVE-LMS, dan MVE-LTS arena memilii nilai Bias dan MSE yang minimum. Kata Kunci: Regresi Robust, MCD, MVE, LMS, LTS. ABSTRACT Principal Component Regression (PCR) is one of the widely used statistical techniques for regression analysis with colinearity. A robust technique on CR required is when data contains outlier is urgently needed. In this research we consider combination between Robust Principal Ccomponent Analysis (PCA): Minimum Covariance Determinant (MCD) and Minimum Volume Ellipsoid (MVE) with Robust Regression methods: Least Median Square (LMS), and Least Trimmed Square (LTS), then compare resistance level of MCD-LMS, MCD-LTS, MVE-LMS and MVE-LTS through the bias and the mean square error on some samples size and outlier s percentage. The result shows that the MCD-LMS perform better than MCD-LTS, MVE-LMS, and MCD- LTS. Keywords: Robust Regression, MCD, MVE, LTS, LMS. 1. PENDAHULUAN Regresi omponen utama (RKU) merupaan salah satu metode yang digunaan untu mengatasi masalah multiolinearitas. Metode ini mengatasi multiolinearitas dengan cara membentu omponen-omponen utama yang saling bebas dari variabel bebasnya. Selanjutnya omponen-omponen utama yang terbentu diregresian dengan peubah respon. Dalam analisis omponen utama lasi, perhitungannya didasaran pada matris ovarian (S). 57
Matris ovarian ini aan optimal jia data berasal dari suatu distribusi normal multivariat, tetapi sangat sensitif terhadap adanya outlier (pencilan), terutama jia data mengandung outlier yang estrim yang mengaibatan distribusi data menjadi sangat menjulur (heavy tailed distribution), pada asus seperti ini S aan ehilangan efisiensinya [1]. Untu mengatasi masalah outlier diperluan suatu metode penduga yang resisten terhadap outlier yang disebut sebagai metode Robust. Metode Robust bagi S yang digunaan adalah metode Minimum Covariance Determinant (MCD) dan metode Minimum Volume Elipsoid (MVE). Selanjutnya hasil omponenomponen utama Robust yang terbentu diregresian dengan peubah respon menggunaan metode OLS (Ordinary Least Square). Metode OLS dienal sebagai metode penduga terbai dalam analisis regresi, namun metode ini sangat pea terhadap adanya penyimpangan asumsi pada data. Jia data tida memenuhi salah satu asumsi regresi maa penduga OLS tida lagi efisien. Salah satu asumsi penting dalam analisis regresi yang beraitan dengan inferensia model adalah asumsi sebaran normal (normalitas). Asumsi normalitas seringali dilanggar saat data mengandung outlier. Jia terdapat outlier dalam data, maa bentu sebaran data tida lagi simetri tetapi cenderung menjulur e arah outlier sehingga melanggar asumsi normalitas. Dalam asus seperti ini, analisis regresi Robust merupaan metode yang laya untu digunaan. Sampai saat ini berbagai metode Robust untu analisis regresi terus berembang dan digunaan dalam berbagai bidang, diantaranya adalah Least Median Square (LMS) dan Least Trimmed Square (LTS). Metode LMS menduga oefisien regresi dari data yang mengandung Outlier dengan meminimuman min median e, sedangan metode LTS dengan median dari uadrat galatnya i melauan analisis regresi uadrat terecil min e i terhadap sebaran data yang sudah terpotong (trimmed). Berdasaran uraian diatas, penelitian ini aan membandingan tingat resistensi antara metode MCD-LMS, MCD-LTS, MVE-LMS dan MVE-LTS sebagai metode RKU Robust dengan menggunaan nilai Bias dan MSE (Means Square Error) pada beberapa uuran sampel dan persentase outlier.. TINJAUAN PUSTAKA.1 Data Outlier Outlier ialah data yang tida mengiuti pola umum model atau lebih jauh dari rata-rata sisaannya (error).. Bias Bias penduga dari suatu parameter pada simulasi data didefinisian sebagai jumlah selisih dari penduga parameter pada data yang terdapat outlier dengan penduga parameter pada data yang tanpa outlier, dibagi dengan banyanya perulangan. Hal ini dinotasian sebagai beriut: m 1 ( s) (0) Bias( ) m, =1,, 3 (.1) s1 []. 58
.3Means Square Error (MSE) Nilai MSE penduga pada simulasi data adalah jumlah selisih uadrat dari penduga parameter pada data yang terdapat outlier dengan penduga parameter pada data yang tanpa outlier, dibagi dengan banyanya perulangan. Hal ini dinotasian sebagai beriut: []. m 1 MSE( ) m s1 ( s) (0), =1,, 3 (.).4 Metode Minimum Covariance Determinant (MCD) Misalan X = { x 1,, x n } merupaan suatu himpunan sampel dari n pengamatan dalam R dengan h n/, maa aan ditentuan subhimpunan J* beruuran h sedemiian sehingga: J * min det S, (.3) J & J x1,.., xn J h dimana S J adalah matris ovarians berdasaran pada x i dengan i J. Penduga MCD diberian oleh : [3]. 1 x, (.4) * x J i h * ij 1 S S * xi ' xi, (.5) J h * ij.5 Metode Minimum Volume Ellipsoid (MVE) Minimum Volume Ellipsoid merupaan salah satu metode robust yang dapat digunaan untu mendetesi terdapatnya outlier. Pendetesian outlier merupaan langah penting dalam analisis data, arena aan sangat berpengaruh terhadap pendugaan. Terdapatnya satu outlier saja pada data dapat mengaburan efe nyata atau menyataan tida ada efe dalam pengambilan esimpulan. Untu mengatasi masalah outlier ini Rousseeuw memperenalan metode robust yang resisten terhadap adanya outlier, yaitu Metode Minimum Volume Ellipsoid (MVE) [4]..6 Regresi Komponen Utama Tahap pertama pada prosedur regresi omponen utama yaitu menghitung omponen utama yang merupaan ombinasi linear dari beberapa peubah X, dan tahap edua adalah peubah ta-bebas diregresian pada omponen utama dalam sebuah model regresi linear. Bentu persamaan regresi dalam bentu peubah asli X dapat ditulis sebagai: Y = β 0 + β 1 X 1 + β X + + β p X p (.6) 59
Peubah baru (K) sebagai omponen utama adalah hasil transformasi dari peubah asal (X) yang modelnya dalam bentu matris adalah K = A X, dan omponen e-j ditulis: K j = a 1j X 1 + a j X + + a pj X p, atau K j = a j x, (.7) dengan vetor pembobot a j diperoleh dengan memasimuman eragaman omponen utama e-j, yaitu: S y = a j S a j, (.8) dengan endala a j a j = 1 serta a h a j = 0, untu h j. Vetor pembobot a j diperoleh dari matris peragam Σ yang diduga dengan matris S, yaitu: S 1 n 1 n i1 ( x i x)( x i x)', (.9) Misalan diberian notasi K 1, K, K m sebagai banyanya omponen utama dan Y sebagai peubah ta-bebas, maa model regresi omponen utama dapat ditulis sebagai: Y = w 0 + w 1 K 1 + w K + + w m K w + ε, (.10).7 Metode Least Median Square (LMS) Metode Least Median Square (LMS) merupaan salah satu jenis regresi robust. Algortma ini meminimuman median dari uadrat residu untu mendapatan oefisien regresi, yaitu: e min median y y, i 1,,3 n min median i i i..., (.11).8 Metode Least Trimmed Square (LTS) Metode Least Trimmed Squares merupaan salah satu metode penasiran parameter model regresi yang Robust terhadap ehadiran nilai outlier dengan memangas data outlier terlebih dahulu sebelum diproses dalam penasiran parameter. Kemudian hasil pemangasan digunaan untu mendapatan parameter dengan meminimalisasi jumlah uadrat residunya. h h min min ( ) (3n p 1) ei, yi yi h n i1 i1 4 (.1) 3. METODE PENELITIAN Metode yang digunaan dalam penelitian ini bersifat studi literatur, yaitu mengumpulan bahan atau materi yang beraitan dengan topi penelitian dan melauan simulasi data dengan menjalanan program maro simulasinya menggunaan perangat luna SAS (Statistial Analysis System). 60
4. Hasil dan Pembahasan 4.1 Simulasi Data Pada peneliian ini dilauan simulasi data dengan banyanya sampel secara eseluruhan sebanya 3000 sampel, yaitu ombinasi 3 uuran sampel (n = 0, 100 dan 00) dengan 5 jenis persentase outlier (5%, 10%, 15%, 0%, dan 5%), serta melauan perulangan sebanya 00 ali. 4. Perbandingan Nilai Bias dan MSE Dari hasil perhitungan yang dilauan dengan menggunaan program statisti SAS, maa didapatan nilai Bias dan nilai MSE eempat metode yang diproses dengan fungsi CALL yang disajian pada Tabel.1 dan Tabel, sebagai beriut: Tabel 1. Nilai Perbandingan Bias pada setiap persentase outlier (p) dan uuran sampel (n) N % outlier BIAS MCD-LMS MCD-LTS MVE-LMS MVE-LTS 5 0.40611 0.875 0.895579 0.851144 0 10 0.08841 0.40568 0.5868438 0.115413 15 0.5459741 0.573448 0.7736965 0.1706505 0 0.343 0.1545703 0.45071 0.9651375 5 0.38455 1.014899 0.65008 0.704695 5 0.375541 0.1419311 0.847831 0.91651 100 10 0.33863 0.1409138 0.538935 0.16559 15 0.1307667 0.17174 0.1099079 0.7196663 0 0.0856148 0.01745 0.375161 0.101108 5 0.4573 0.357398 0.008044 0.33071 5 0.1449731 0.0850971 0.1678687 0.098668 00 10 0.1543644 0.8450 0.533483 0.4449 15 0.1771534 0.3005856 0.4976848 0.100183 0 0.15193 0.4069505 0.096056 0.1980781 5 0.360963 0.433643 0.155888 0.13764 Berdasaran tabel hasil perhitungan untu uuran data 0 dan persentase outlier 5 %, nilai bias MCD-LMS 0.40611, nilai bias MCD-LTS 0.875, MVE-LMS 0.895579 dan MVE-LTS 0.851144. Untu persentase outlier 10% nilai bias MCD-LMS 0.08841, MCD-LTS 0.40568, MVE-LMS 0.5868438, MVE-LTS 0.115413. Untu persentase outlier 15% nilai bias MCD-LMS 0.5459741, MCD-LTS 0.573448, MVE-LMS 0.7736965, MVE-LTS 0.1706505. Untu persentase outlier 0% nilai bias MCD-LMS 0.343, MCD-LTS 61
0.1545703, MVE-LMS 0.45071, MVE-LTS 0.9651375. Untu persentase outlier 5% nilai bias MCD-LMS 0.38455, MCD-LTS 0.014899, MVE-LMS 0.65008, MVE-LTS 0.704695. Tabel. Nilai Perbandingan MSE pada setiap persentase outlier (p) dan uuran sampel (n) N % outlier MSE MCD-LMS MCD-LTS MVE-LMS MVE-LTS 5 0.1871799 0.875 1.08396 0.80513 0 10 0.01856 0.40568 0.3947104 0.07195 15 0.381478 0.3383103 0.87939 0.048091 0 0.1540165 0.041714 0.81343 1.0584961 5 0.070771 1.477918 0.407034 0.5171149 5 0.1774176 0.078497 0.9875951 0.116448 100 10 0.1003554 0.075954 0.0913589 0.0611763 15 0.009813 0.036905 0.01451 0.6378067 0 0.007515 0.063531 0.1408097 0.0147666 5 0.090014 0.1357883 0.0800948 0.109845 5 0.0370406 0.0088453 0.0369071 0.016664 00 10 0.078838 0.1115916 0.3843337 0.17198 15 0.033465 0.1156163 0.961968 0.0313 0 0.091037 0.1888398 0.0613696 0.0733689 5 0.1658019 0.817163 0.040433 0.004416 Berdasaran tabel hasil perhitungan untu uuran data 0 dan persentase outlier 5 %, nilai MSE MCD-LMS 0.1871799, nilai MSE MCD-LTS 0.875, MVE-LMS 1.08396 dan MVE-LTS 0.80513. Untu persentase outlier 10% nilai MSE MCD-LMS 0.01856, MCD-LTS 0.40568, MVE-LMS 0.3947104, MVE-LTS 0.07195. Untu persentase outlier 15% nilai MSE MCD-LMS 0.381478, MCD-LTS 0.3383103, MVE-LMS 0.87939, MVE-LTS 0.048091. Untu persentase outlier 0% nilai MSE MCD-LMS 0.1540165, MCD-LTS 0.41714, MVE-LMS 0.81343, MVE-LTS 1.0584961. Untu persentase outlier 5% nilai MSE MCD-LMS 0.070771, MCD-LTS 1.477918, MVE-LMS 0.407034, MVE-LTS 0.5171149. 6
4.3 Plot Bias dan MSE Nilai Bias dugaan oefisien regresi metode MCD-LMS, MCD-LTS, MVE- LMS, dan MVE-LTS yang diperoleh dengan menggunaan program SAS disajian dalam bentu grafi dengan uuran data 0, 100, 00 dan dengan persentase outlier (5%, 10%, 15%, 0%, 5%), sebagai beriut: Gambar 1. Plot Bias pada n = 0, n = 100, dan n = 00 Dari gambar 1 terlihat bahwa metode MCD-LMS dengan garis berwarna hijau mempunyai nilai bias relatif lebih ecil dibandingan dengan metode MCD-LTS, MVE-LMS dan MVE-LTS. Nilai MSE dugaan oefisien regresi metode MCD-LMS, MCD-LTS, MVE- LMS, dan MVE-LTS yang diperoleh dengan menggunaan program SAS yang disajian dalam bentu grafi, sebagai beriut: Gambar. Plot MSE pada n = 0, n = 100, dan n = 00 Dari gambar menunjuan bahwa metode MCD-LMS yang digambaran oleh garis berwarna hijau menunjuan Nilai MSE yang relatif paling ecil dibandingan dengan metode lainnya. 63
4.4 Perbandingan Tingat Resistensi Metode Robust Berdasaran nilai dugaan oefisien regresi dari 3000 sampel, nilai bias dan MSE yang diperoleh dari metode MCD-LMS, MCD-LTS, MVE-LMS, MVE-LTS terlihat bahwa metode MCD-LMS menghasilan nilai Bias dan MSE yang relatif lebih ecil. Semain besar uuran sampel semain ecil juga nilai Bias dan MSE yang diperoleh oleh semua metode. Nilai Bias dan MSE yang disajian dalam bentu tabel juga terlihat bahwa metode MCD-LMS yang ditunjuan oleh garis berwarna hijau relatif lebih ecil dibandingan dengan metode yang lainnya. 5. Kesimpulan Berdasaran hasil dan pembahasan dapat disimpulan bahwa metode MCD- LMS memberian hasil yang lebih bai dibandingan dengan metode MCD-LTS, MVE-LMS dan MVE-LTS diarenaan perbandingan nilai Bias dan MSE pada metode MCD-LMS lebih ecil dibandingan dengan metode MCD-LTS, MVE- LMS dan MVE-LTS. DAFTAR PUSTAKA [1]. Oja, H. 00. Robust And Nonparametric Multivariate Methods. Department of Mathematic and Statistics University of Jyväsylä. Finland. []. Pison, G., Rousseeuw, P. J., P. Filzmoser, & C. Croux. 001. Robust Factor Analysis. Academic Press. http://www.elsevier.com/locate/jmva.pdf. Diases tanggal 15 Februari 010. [3]. Critchley F., Schyns,M., & Haesbroec, G. 003. Smooth Optimization for the MCD estimator. International Conference On Robust Statistics, Wed 16 July, Belgium. [4]. Rousseeuw, R. J., & Leroy, A.M. 1987. Robust Regression and Outlier Detection. New Yor:Wiley. 64