RIDGE REGRESSION Kelompok 2: Umi Salamah (05.4934) Evi Wahyu P (06.5049) Fandi Kusuma (06.5052) Imelda Lestari (06.5089) Mulatsih Mahambari (06.5144) Rina Nopita M (06.5192) Yogo Aryo Jatmiko (06.5256)
Multikolinieritas (1) Adalah keadaan dimana X dan Y yang lain memiliki hubungan. Cara mendiagnosa : Informal Diagnostic Adanya serious multikolinearitas : Ø Terjadi perubahan besar dalam koefisien regresi perkiraan ketika sebuah variabel ditambah atau dikurangi. Ø Hasil yang tidak signifikan dalam test individu koefisien regresi untuk variabel independen yang penting. Ø Tanda aljabar yang berlawanan untuk koefisien regresi perkiraan dengan teori atau pengalaman sebelumnya. Ø Koefisien korelasi sederhana yang besar antara pasangan variabel independen. Ø Confidence Interval yang lebar untuk koefisien regresi dari variabel independen yang penting.
Multikolinieritas (2) Formal Diagnostic Dengan melihat nilai Variance Inflation Factor(VIF). VIF mengukur seberapa besar varians dari penduga parameter meningkat besarnya dibandingkan dengan jika variable bebasnya tidak berkolerasi. Rumus untuk menentukan nilai VIF yaitu : dimana adalah koefisien determinasi berganda ketika X k diregresikan dengan p-2 variabel X lainnya dalam model. Jika nilai VIF > 10, maka data mengalami multikolinieritas. Salah satu cara mengatasi multikolinieritas adalah dengan metode ridge regression.
Ridge Regression(1) Ridge regression merupakan suatu metode untuk mengatasi permasalahan multikolinearitas dengan memodifikasi metode least square dengan tidak mempermasalahkan estimator bias dari koefisien regresi. Ridge regression ini dapat digunakan saat biasnya kecil dengan presisi yang lebih baik daripada estimator yang unbiased, karena estimator dengan bias kecil tersebut mempunyai peluang yang lebih besar untuk mendekati nilai parameternya.
Ridge Regression(2) Transformasi korelasi pada OLS Ridge Regression Persamaan Normal Model Regresi yang di transformasi
Ridge Regression(3) Persaman Normal pada OLS dapat dirumuskan dengan: Jika semua variable ditransformasikan dengan transformasi korelasi, model regresinya akan ditransformasi menjadi : Dan persamaan normalnya menjadi: Dengan rxx adalah matriks korelasi dari variable bebas dan rxy adalah vector dari koefisien korelasi sederhana antara variable tak bebas dan tiap variable bebas.
Ridge Regression(4) Penduga ridge regression yang terstandarisasi dibentuk dengan memasukkan suatu nilai bias konstan pada persamaan OLS. Formulanya adalah: Dengan b R adalah vector dari koefisien ridge regression yang terstandarkan. Dan I adalah matriks identitas berukuran (p-1) x (p-1), dengan p = banyaknya parameter. Dengan demikian, solusi dari persamaan normal dengan koefisien ridge regression yang terstandarisasi adalah
Ridge Regression(5) Model regresi yang sudah ditransformasi kemudian dikembalikan menjadi bentuk awal, yaitu Yang diestimasi menjadi : Batasan dalam ridge regression adalah penentuan nilai bias konstan (c) yang didasarkan pada subjektifitas atau pendapat peneliti.
Ridge Regression(6) Nilai c dapat juga ditentukan dengan menggunakan sebuah grafik yang disebut ridge trace. Grafik ini menggambarkan penduga koefisien ridge regression sebagai fungsi dari c. Nilai c dipilih pada saat penduga koefisien ridge regression menjadi stabil dengan c yang minimum. Hal ini disebabkan semakin betambah nilai c, maka bias akan semakin besar. Pada ridge regression terdapat konstanta c yang nilainya 0. Jika c=0 ridge regression akan sama dengan OLS yang distandarkan. Saat c>0 koefisien ridge regression akan bias namun lebih stabil dibandingkan dengan OLS
Contoh Soal Table 1. contains data for a study of the relation of amount of body fat (Y) to several possible explanatory, independent variables, based on a sample of 20 healthy females 25-34 years old. The possible independent variables are triceps skinfold thickness (X 1 ), thigh circumference (X 2 ), and midarm circumference (X 3 ).
Subject (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Table 1. example Data of the X variable for body fat Triceps Skinfold Thickness (X 1 ) 19.5 24.7 30.7 29.8 19.1 25.6 31.4 27.9 22.1 25.5 31.1 30.4 18.7 19.7 14.6 29.5 27.7 30.2 22.7 25.2 Thigh Circumference (X 2 ) 43.1 49.8 51.9 54.3 42.2 3.9 58.5 52.1 49.9 53.5 56.6 56.7 46.5 44.2 42.7 54.4 55.3 58.6 48.2 51.0 Midarm Circumference (X 3 ) 29.1 28.2 37.0 31.1 30.9 23.7 27.6 30.6 23.2 24.8 30.0 28.3 23.0 28.6 21.3 30.1 25.7 24.6 27.1 27.5 Body Fat (Y 1 ) 11.9 22.8 18.7 20.1 12.9 21.7 27.1 25.4 21.3 19.3 25.4 27.2 11.7 17.8 12.8 23.9 22.6 25.4 14.8 21.1
Hasil Pengerjaan Dengan NCSS Correlation Matrix Section Triceps Thigh Midarm body_fat Triceps 1.000000 0.923843 0.457777 0.843265 Thigh 0.923843 1.000000 0.084667 0.878090 Midarm 0.457777 0.084667 1.000000 0.142444 body_fat 0.843265 0.878090 0.142444 1.000000 Least Squares Multicollinearity Section Independent Variance R-Squared Variable Inflation Vs Other X's Tolerance Triceps 708.8429 0.9986 0.0014 Thigh 564.3434 0.9982 0.0018 Midarm 104.6060 0.9904 0.0096 Since some VIF's are greater than 10, multicollinearity is a problem.
Standardized Ridge Regression Coefficients Section k Triceps Thigh Midarm 0.000000 4.2637-2.9287-1.5614 0.001000 2.0348-0.9408-0.7087 0.002000 1.4407-0.4113-0.4813 0.003000 1.1653-0.1661-0.3758 0.004000 1.0063-0.0248-0.3149 0.005000 0.9028 0.0670-0.2751 0.006000 0.8300 0.1314-0.2472 0.007000 0.7760 0.1791-0.2264 0.008000 0.7343 0.2158-0.2103 0.009000 0.7012 0.2448-0.1975 0.010000 0.6742 0.2684-0.1870 0.020000 0.5463 0.3774-0.1369 0.020000 0.5463 0.3774-0.1369 0.030000 0.5004 0.4134-0.1181 0.040000 0.4760 0.4302-0.1076 0.050000 0.4605 0.4392-0.1005 0.060000 0.4494 0.4443-0.0952 0.070000 0.4409 0.4471-0.0909 0.080000 0.4341 0.4486-0.0873 0.090000 0.4283 0.4491-0.0841 0.100000 0.4234 0.4490-0.0812 0.200000 0.3914 0.4347-0.0613 0.300000 0.3703 0.4154-0.0479 0.400000 0.3529 0.3966-0.0376 0.500000 0.3377 0.3791-0.0295 0.600000 0.3240 0.3629-0.0229 0.700000 0.3116 0.3481-0.0174 0.800000 0.3001 0.3344-0.0129 0.900000 0.2896 0.3218-0.0091 1.000000 0.2798 0.3101-0.0059 Variance Inflation Factor Section k Triceps Thigh Midarm 0.000000 708.8429 564.3434 104.6060 0.001000 125.7309 100.2740 19.2810 0.002000 50.5592 40.4483 8.2797 0.003000 27.1750 21.8376 4.8562 0.004000 16.9816 13.7247 3.3628 0.005000 11.6434 9.4759 2.5799 0.006000 8.5033 6.9764 2.1185 0.007000 6.5013 5.3827 1.8238 0.008000 5.1472 4.3046 1.6238 0.009000 4.1887 3.5413 1.4817 0.010000 3.4855 2.9813 1.3770 0.020000 1.1026 1.0805 1.0105 0.020000 1.1026 1.0805 1.0105 0.030000 0.6257 0.6969 0.9235 0.040000 0.4528 0.5553 0.8814 0.050000 0.3705 0.4859 0.8531 0.060000 0.3244 0.4454 0.8306 0.070000 0.2956 0.4189 0.8111 0.080000 0.2761 0.3998 0.7934 0.090000 0.2621 0.3852 0.7769 0.100000 0.2515 0.3735 0.7614 0.200000 0.2053 0.3078 0.6342 0.300000 0.1838 0.2686 0.5385 0.400000 0.1676 0.2383 0.4634 0.500000 0.1540 0.2137 0.4033 0.600000 0.1423 0.1930 0.3544 0.700000 0.1319 0.1755 0.3140 0.800000 0.1227 0.1604 0.2802 0.900000 0.1145 0.1473 0.2516 1.000000 0.1071 0.1358 0.2273
Ridge vs. Least Squares Comparison Section for k = 0.020000 Regular Regular Stand'zed Stand'zed Ridge L.S. Independent Ridge L.S. Ridge L.S. SE SE Variable Coeff's Coeff's Coeff's Coeff's Intercept -7.403425 117.0847 Triceps 0.555353 4.334092 0.5463 4.2637 0.1272458 3.015511 Thigh 0.3681445-2.856848 0.3774-2.9287 0.1208832 2.582015 Midarm -0.1916269-2.18606-0.1369-1.5614 0.1677828 1.595499 R-Squared 0.7726 0.8014 Sigma 2.6534 2.4800 Ridge Regression Coefficient Section for k = 0.020000 Stand'zed Independent Regression Standard Regression Variable Coefficient Error Coefficient VIF Intercept -7.403425 Triceps 0.555353 0.1272458 0.5463 1.1026 Thigh 0.3681445 0.1208832 0.3774 1.0805 Midarm -0.1916269 0.1677828-0.1369 1.0105
Analysis of Variance Section for k = 0.020000 Sum of Mean Prob Source DF Squares Square F-Ratio Level Intercept 1 8156.761 8156.761 Model 3 382.739 127.5797 18.1204 0.000021 Error 16 112.6505 7.040655 Total(Adjusted) 19 495.3895 26.07313 Mean of Dependent 20.195 Root Mean Square Error 2.653423 R-Squared 0.7726 Coefficient of Variation 0.1313901
Ridge Trace Standardized Betas 6.00 3.50 1.00-1.50 Variables Triceps Thigh Midarm -4.00 10-4 10-3 10-2 10-1 10 0 K
Variance Inflation Factor Plot 10 3 10 2 Variables Triceps Thigh Midarm VIF 10 1 10 0 10-1 10-4 10-3 10-2 10-1 10 0 K