Analisis Regresi Linier ( Lanjutan )
Outline - Regresi Berganda - Pemeriksaan Regresi : Koef. Determinasi Standar Error Interval Kepercayaan Uji Hipotesis :t test, F test, - Pelanggaran Asumsi : Multicollinearity Heteroscedasticity Otokorelasi
Regresi Berganda Apakah Konsumsi hanya dipengaruhi oleh Pendapatan saja? Ada beberapa variabel lain yang berpengaruh, seperti jumlah anggota keluarga, umur anggota keluarga, selera pribadi, dan sebagainya. Bila dianggap variabel lain perlu diakomodasikan dalam menganalisis konsumsi, maka Regresi Sederhana dikembangkan menjadi Regresi Berganda.
MODEL Y i = β 0 + β 1 X 1i + β X i + β 3 X 3i +...+ β k X ki + u i observasi) i = 1,,3,..., N (banyaknya Contoh Aplikasi: Y i = β 0 + β 1 X 1 + β X + β 3 X 3 + u i Y : X 1 : X : X 3 : Konsumsi Pendapatan Umur Jumlah tanggungan
Pemeriksaan Regresi Koefisien Determinasi Standard Error Koefisien Interval Kepercayaan Uji Hipotesis: Uji t Uji F
Pemeriksaan Regresi Standard Error Prinsip OLS: meminimalkan error. Oleh karena itu, ketepatan dari nilai dugaan sangat ditentukan oleh standard error dari masing masing penduga. Adapun standard error dirumuskan sebagai berikut: Se= Υ Υ n = = SST SSR Υ b ΧΥ = MSE n n
Pemeriksaan Regresi Oleh karena σ merupakan penyimpangan yang terjadi dalam populasi, yang nilainya tidak diketahui, maka σ biasanya u diduga berdasarkan data sampel. Adapun penduganya i = adalah sebagai berikut : u i s = N u i = Y Yˆ ( i i 1/ ) Berdasar formula: error yang minimal akan mengakibatkan standar error koefisien yang minimal pula. Berapa batasannya standar error disebut besar atau kecil?
Pemeriksaan Regresi Sulit ditentukan secara absolut. Data jutaan rupiah tentunya akan memiliki standar error yang lebih besar dibanding ratusan rupiah. Digunakan dengan membuat rasio dengan koefisien regresi. Rasio inilah yang menjadi acuan pada Uji t.
Interval Kepercayaan β j Apa yang dimaksud Interval kepercayaan? Untuk apa? Formulasi: b j ± t α / s.e(b j ) atau P(b j t α / s.e(b j ) β j b j + t α / s.e(b j ))= 1 α
Interval Kepercayaan β j b 1 = 0,10 dan s.e (b 1 ) = 0,009. Banyaknya observasi (n) = 10; Banyaknya parameter yang diestimasi (k) = ; Dengan demikian derajat bebas = 10 = 8; dan tingkat signifikansi 1 α = 95 %. Dari tabel t 0,05 dengan derajat bebas = 8, diperoleh nilai t =,306. Maka interval kepercayaan untuk β 1 adalah : ( 0,10 ±,306 (0,009) ) atau (0,0810 ; 0,134) Artinya: Nilai β 1 terletak antara 0,0810 dan 0,134 dengan peluang sebesar 95%.
Uji Hipotesis Uji t Pengujian koefisien regresi secara individu. H 0 : β j = 0 H 1 : β j 0; j = 0, 1,..., k koefisien slop. Untuk regresi sederhana: (1) H 0 : β 0 = 0 () H 0 : β 1 = 0 H 1 : β 0 0 H 1 : β 1 0; Uji t didefinisikan sebagai berikut: k adalah t = b j β j s. e b j β j akan diuji apakah sama dengan 0 t = b j s.e b j
Uji t Nilai t dibandingkan dengan nilai t tabel. Bila ternyata, setelah dihitung t > t α /,df, maka nilai t berada dalam daerah penolakan, sehingga hipotesis nol (β j = 0) ditolak pada tingkat kepercayaan (1 α ) x100%. Dalam hal ini dapat dikatakan bahwa β j statistically significance.
Uji Hipotesis Uji F Diperuntukkan guna melakukan uji hipotesis koefisien (slop) regresi secara bersamaan. H 0 : β = β 3 = β 4 =...= β k = 0 H 1 : Tidak demikian (paling tidak ada satu slop yang 0) Dimana: k adalah banyaknya variabel bebas. Regresi sederhana: H 0 : β 1 = β = β 3 = 0 H 1 : Tidak demikian (paling tidak ada satu slop yang 0) Pengujian: ANOVA (Analysis of Variance).
Uji F Observasi: Y i = β 0 + β 1 X i + e i Regresi: Ŷ i = b 1 + b X i (catatan: Ŷ i merupakan estimasi dari Yi). Bila kedua sisi dikurangi maka: Selanjutnya kedua sisi dikomulatifkan: Y Y Y = Y Y + e i ( Y Y ) ( Y i = i Y + ei ) ( Y Y ) = ( Y Y ) + e i i i i SST SSR SSE SST : Sum of Squared Total SSR: Sum of Squared Regression
Uji F Tabel ANOVA Sumber Sum of Square df Mean Squares F Hitung Regresi SSR k MSR = SSR/k F = MSR Error SSE n k 1 MSE= SSE/(n k 1) MSE Total SST n 1 Dimana df adalah degree of freedom, k adalah jumlah variabel bebas (koefisien slop), dan n jumlah observasi (sampel). Bandingkan F Hit dengan F α (k,n k 1)
Asumsi asumsi dasar OLS Pendugaan OLS akan bersifat BLUE (Best Linier Unbiased Estimate) jika memenuhi 3 asumsi utama, yaitu: Tidak ada multikolinieritas Tidak mengandung Heteroskedastisitas Bebas dari otokorelasi
BLUE jika: Penduga bersifat linear Dan efisien ( tak bias dan varians minimum)
Multikolinieritas Multikolinieritas: adanya hubungan linier antara regressor. Misalkan terdapat dua buah regressor, X 1 dan X. Jika X 1 dapat dinyatakan sebagai fungsi linier dari X, misal : X 1 = γ X, maka ada kolinieritas antara X 1 dan X. Akan tetapi, bila hubungan antara X 1 dan X tidak linier, misalnya X 1 = X atau X 1 = log X, maka X 1 dan X tidak kolinier.
Ilustrasi Y i = β 0 + β 1 X 1 + β X + β 3 X 3 + u i Y : Konsumsi X 1 : Total Pendapatan X : Pendapatan dari upah X 3 : Pendapatan bukan dari upah Secara substansi: total pendapatan (X 1 ) = pendapatan dari upah (X ) + pendapatan bukan dari upah (X 3 ). Bila model ini ditaksir menggunakan Ordinary Least Square (OLS), maka β i tidak dapat diperoleh, karena terjadi perfect multicollinearity. Tidak dapatnya β diperoleh karena ( XT X ) 1, tidak bisa dicari.
Data Perfect Multikolinieritas X 1 1 16 19 3 9 X 48 64 76 9 116 X 3 51 65 8 96 118 Nilai nilai yang tertera dalam tabel menunjukan bahwa Antara X1 dan X mempunyai hubungan: X = 4X1. Hubungan seperti inilah yang disebut dengan perfect multicollinearity.
Akibat Multikolinieritas Varians besar (dari taksiran OLS) Interval kepercayaan lebar (variansi besar Standar Error besar Interval kepercayaan lebar) R tinggi tetapi tidak banyak variabel yang signifikan dari uji t. Terkadang taksiran koefisien yang didapat akan mempunyai nilai yang tidak sesuai dengan substansi, sehingga dapat menyesatkan interpretasi.
Kesalahan Interpretasi Interpretasi dari persamaan regresi ganda secara implisit bergantung pada asumsi bahwa variabel-variabel bebas dalam persamaan tersebut tidak saling berkorelasi. Koefisien-koefisien regresi biasanya diinterpretasikan sebagai ukuran perubahan variabel terikat jika salah satu variabel bebasnya naik sebesar satu unit dan seluruh variabel bebas lainnya dianggap tetap. Namun, interpretasi ini menjadi tidak benar apabila terdapat hubungan linier antara variabel bebas (Chatterjee and Price, 1977).
Ilustrasi Konsumsi (Y) 40 50 65 90 85 100 110 135 140 160 Pendapatan (X 1 ) 50 65 80 110 100 10 140 190 10 0 Kekayaan (X ) 500 659 856 1136 103 134 1456 1954 19 67
Ilustrasi Model: Y = 1,8 1,414X 1 + 0,0 X SE (4,696) (1,199) (0,117) t (,76) ( 1,179) (1,71) R = 0,98 R relatif tinggi, yaitu 98,%. Artinya? Uji t tidak signifikan. Artinya? Koefisien X1 bertanda negatif. Artinya?
Ilustrasi: Model dipecah Dampak Pendapatan pada Konsumsi Y = 14,148 + 0,649X 1 SE (5,166) (0,037) t (,739) (17,659) R = 0,975 R tinggi, Uji t signifikan, dan tanda X 1 positif. Dampak Kekayaan pada Konsumsi Y = 13,587 + 0,0635X SE (4,760) (0,003) t (,854) (19,80) R = 0,979 R tinggi, Uji t signifikan, dan tanda X positif. X 1 dan X menerangkan variasi yang sama. Bila 1 variabel saja cukup, kenapa harus dua?
Mendeteksi Multikolinieritas 1. Membandingkan R dan nilai t stat R cukup tinggi (0,7 1,0) tetapi uji tnya untuk masing masing koefisien regresinya menunjukkan tidak signifikan. Tingginya nilai R merupakan syarat yang cukup (sufficient) akan tetapi bukan merupakan syarat yang penting untuk terjadinya multikorelineartitas, sebab pada R yang rendah (<5%) bisa juga terjadi multikolinearitas.
. Menggunakan Matriks Korelasi antara variabel independent. Jika korelasi antara variable independent kuat ( > 0.70 ) menjadi dugaan adanya multikolinearitas
3. VIF (Variance Inflation Factor) dan Tolerance Value (TOL) R j VIF j = 1 1 R j k adalah banyaknya variabel bebas ; j = 1,,,k adalah koefisien determinasi antara variabel bebas ke j dengan variabel bebas lainnya. Batas nilai VIF adalah 10. Oleh karena itu, dapat disimpulkan bahwa kolinieritas tidak ada jika nilai VIF dibawah batas nilai tersebut
VIF ini mempunyai hubungan dengan Tolerance (TOL), dimana hubungannya adalah sebagai berikut: TOL j = 1 VIF = 1 R j Variabel bebas dinyatakan tidak multikolinieritas jika TOL tidak melebihi 0.10
4. Meregresikan variabel independent X dengan variabel independent variabelvariabel lain, kemudian dihitung R nya yaitu dengan uji F (uji signifikansi). Jika F* adalah F hitung maka : Jika F* > F tabel, artinya Ho ditolak; H1 diterima ada multikolinearitas Jika F* < F tabel, artinya Ho diterima; H1 diterima tidak ada multikolinearitas
Mengatasi multikolinieritas Melihat informasi sejenis yang ada ( teori ekonomi atau penelitian sebelumnya) Kombinasi cross section dan time series Tidak mengikutsertakan salah satu variabel yang kolinier Banyak dilakukan. Hati hati, karena dapat menimbulkan specification bias yaitu salah spesifikasi kalau variabel yang dibuang merupakan variabel yang sangat penting. Mentransformasikan variabel : first difference method Mencari data tambahan
Heteroskedastisitas Variasi Error tidak konstan. Umumnya terjadi pada data cross section. Misal data konsumsi dan pendapatan, atau data keuntungan dan asset perusahaan Pelanggaran homoskedastis membuat penduga OLS tetap tak bias dan konsisten, tetapi tidak lagi efisien
Pola Data Heteroskedastis 10 100 80 60 40 0 0 0 0 40 60
Penyebab Adanya error learning model ( kesalahanjam praktek) Discretionary yang lebih besar untuk kasus income yang besar (konsumsi pendapatan) Teknik pendataan yang semakin baik ( kesalahan kemajuan teknik )
Data Heteroskedastisitas Fakta: hubungan positif antara X dan Y, dimana nilai Y meningkat searah dengan nilai X. semakin besar nilai variabel bebas (X) dan variabel bebas (Y), semakin jauh koordinat (x,y) dari garis regresi (Error/residual makin membesar) besarnya variasi seiring dengan membesarnya nilai X dan Y. Atau dengan kata lain, variasi data yang digunakan untuk membuat model tidak konstan.
Pemeriksaan Heteroskedastisitas 1. Metode Grafik Prinsip: memeriksa pola residual (ui ) terhadap taksiran Y i. Langkah langkah: Run suatu model regresi Dari persamaan regresi, hitung ui Buat plot antara ui dan taksiran Y i
Pola Grafik u i, Pengamatan: 1.Tidak adanya pola yang sistematis..berapapun nilai Y prediksi, residual kuadratnya relatif sama. 3.Variansi konstan, dan data homoskedastis. i
Pola Adanya Heteroskedastisitas u i u i Pola sistematis i i
. Uji Park Prinsip: memanfaatkan bentuk regresi untuk melihat adanya heteroskedastisitas dimana u i adalah suatu fungsi yang menjelaskan Xi Langkah langkah yang dikenalkan Park: 1. Run regresi Y i = α 0 + β 0 X i + u i. Hitung ln u i 3. Run regresi ln u i = α + β ln X i + v i 4. Lakukan uji t. Bila β signifikan, maka ada heteroskedastisitas dalam data.
Ilustrasi Sales man X Y Sales man X Y Sales man X Y 1 10 11 15 80 1 3 180 3 15 1 17 90 33 185 3 4 0 13 18 95 3 34 190 4 5 5 14 19 100 4 37 05 5 7 35 15 0 105 5 39 15 6 8 40 16 10 6 40 0 7 10 50 17 3 15 7 4 30 8 11 60 18 5 135 8 43 35 9 1 65 19 7 145 9 44 40 10 13 70 0 30 160 30 45 45 Y = rata rata bonus (dalam ribuan rupiah) X = rata rata sepatu terjual (dalam unit)
Ilustrasi Y = 3,1470 + 5,5653 X SE (0,0305) R = 0,999 slope signifikan: Bila sepatu terjual naik 1 unit, maka bonus akan naik Rp.5.563. Apakah ada heteroskedastisitas? Run regresi, didapat: ln u i = 6,0393,1116 ln X i SE (0,0090) R = 0,9995 Menurut uji t, β signifikan sehingga dalam model penjualan sepatu vs bonus di atas ada heteroskedastisitas.
3. Uji Goldfeld Quandt Metode Goldfeld Quandt sangat populer untuk digunakan, namun agak merepotkan, terutama untuk data yang besar. Langkah langkah pada metode ini: Urutkan nilai X dari kecil ke besar Abaikan beberapa pengamatan sekitar median, katakanlah sebanyak c pengamatan. Sisanya, masih ada (N c) pengamatan Lakukan regresi pada pengamatan 1, dan hitung SSE 1 Lakukan regresi pada pengamatan dan hitung SSE. Hitung df Lakukan uji F > F hit = SSE / SSE1 BilaF hit > F tabel, kita tolak hipotesis yang mengatakan data mempunyai variasi yang homoskedastis > terjadi hetero
Ilustrasi Ada 30 pengamatan penjualan sepatu dan bonus. Sebanyak 4 pengamatan yang di tengah diabaikan sehingga tinggal 13 pengamatan pertama (Kelompok I) dan 13 pengamatan kedua (Kelompok II). Regresi berdasarkan pengamatan pada kelompok I: Y = 1,798 + 5,4199 X R = 0,9979 RSS1 = 819,66 df1 = 11 Regresi berdasarkan pengamatan pada kelompok II: Y = 0,833 + 5,5110 X R = 0,9941 RSS = 354397,6 df = 11
Ilustrasi λ= RSS /df = 354397,6/11 RSS 1 /df 1 819,66/11 = 1,5706 Dari tabel F, didapat F =,8 sehingga λ > F Kesimpukan: ada heteroskedastisitas dalam data
Mengatasi heteroskedastisitas 1. Transformasi dengan Logaritma Transformasi ini ditujukan untuk memperkecil skala antar variabel bebas. Dengan semakin sempitnya range nilai observasi, diharapkan variasi error juga tidak akan berbeda besar antar kelompok observasi. Keuntungan tambahan berupa interpretasi elastisita Adapun model yang digunakan adalah: Ln Y j = β 0 + β 1 Ln X j + u j
. Metode Generalized Least Squares (GLS) Perhatikan model berikut : Y j = β 1 + β X j + u j dengan Var (u j ) = σ j Masing masing dikalikan 1 s j Y j s j =β 1 1 s j +β X j s j u j s j Maka diperoleh transformed model sebagai berikut : Y i * = β 1 * + β X i * + u i *
GLS Kita periksa dulu apakah ui* homoskedastis? E(u i * ) = E u i σ = 1 E u i σ i = 1 σ i σ i =1 i konstan
Transformasi Oleh karena mencari σ j hampir tidak pernah diketahui, maka biasanya digunakan asumsi untuk mendapat nilai σ j. Asumsi ini dapat dilakukan dengan mentransformasikan variabel. Ada beberapa jenis, yaitu: 1 1. Transformasi dengan X j Asumsi: σ j = E u j =σ X j Akibat transformasi, model menjadi: Y j X j =β 0 1 X j +β 1 u j X j atau dapat ditulis dengan: Y i * = β 0 X* + β 1 + v i
Transformasi Apakah sudah homoskedastis? Perhatikan bukti berikut: E(v i ) = E u j X j. Transformasi dengan = 1 X j 1 X i E u j = 1 X j Asumsi: σ j = E u j =σ X j σ X j =σ konstan 3. Transformasi dengan E(Yi), dimana E(Yi) = β 1 + β X Asumsi: σ j = E u j =σ [ E Y j ]
Otokorelasi Otokorelasi: korelasi antara variabel itu sendiri, pada pengamatan yang berbeda waktu atau individu. Umumnya kasus otokorelasi banyak terjadi pada data time series Kondisi sekarang dipengaruhi waktu lalu. Tapi pada data cross section juga mungkin terjadi E (ui uj) menjadi tidak = 0 Akibat yang ditimbulkan penaksir menjadi tidak efisien
Penyebab Inersia Bias Spesifikasi : ada variabel penting yang di exclude Fenomena cobweb Adanya lag
Mendeteksi Otokorelasi 1. Grafik Pola Autokorelasi ui ui * * ** * * * * * * * * * ** * * * Waktu/X * ** Waktu/X * * * Gambar nomor (1) menunjukan adanya siklus, sedang nomor () menunjukan garis linier. Kedua pola ini menunjukan adanya otokorelasi.
. Uji Durbin Watson ( Uji d) Statistik Uji d= N t= u t u t 1 N t=1 u t Dalam Paket Program SPSS/EViews Sudah dihitungkan
Aturan main menggunakan uji Durbin Watson : Bandingkan nilai d yang dihitung dengan nilai d L dan d U dari tabel ( melihat jumlah observasi dan variabel bebas) dengan aturan berikut : Bila d < d L tolak H 0 ; Berarti ada korelasi yang positif atau kecenderungannya ρ = 1 Bila d L d d U kita tidak dapat mengambil kesimpulan apa apa Bila d U < d < 4 d U jangan tolak H 0 ; Artinya tidak ada korelasi positif maupun negatif Bila 4 d U d 4 d L kita tidak dapat mengambil kesimpulan apa apa Bila d > 4 d L tolak H 0 ; Berarti ada korelasi negatif
Gambar aturan main menggunakan uji Durbin Watson Tidak tahu Tidak tahu Korelasi positif Tidak ada korelasi Korelasi negatif 0 dl du 4 du 4 dl 4
Mengatasi Otokorelasi: Metode Pembedaan Umum (Generalized Differences) Yt = β 0 + β 1 X t + u t dan u t = ρ u t 1 + v t Untuk waktu ke t 1: Y t 1 = β 0 + β 1 X t 1 + u t 1 Bila kedua sisi persamaan dikali dengan ρ, maka: ρ Y t 1 = ρ β 0 + ρ β 1 X t 1 + u ρ t 1 Sekarang kita kurangkan dengan persamaan Model Y t ρ Y t 1 = (β 0 ρ β 0 ) + β 1 (X t ρ X t 1 ) + (u t ρ u t 1 ) Persamaan tersebut dapat dituliskan sebagai: Y t * = β 0 (1 ρ) + β 1 X t * + v t Dimana: Y t * = Y t ρ Y t 1 dan X t * = X t ρ X t 1 Idealnya kita harus dapat mencari nilai ρ. Tapi dalam banyak kasus, diasumsikan ρ = 1, sehingga: Yt* = Yt Yt 1 Xt* = Xt Xt 1
Pemilihan Model 1. R Adjusted Perhatikan Model: (i) LABA = 5053,71 + 0,049 KREDIT; R = 80,6% (ii) LABA = 45748,484 + 0,0106 ASET + 0,0081 KREDIT; R = 87,4%. Model manakah yang lebih baik ditinjau dari koefisien determinasi nya?. Sekarang kita perhatikan kembali formula untuk menghitung R R = SSR SST =1 SSE SST =1 u i Y i Y
R Adjusted SST sama sekali tidak dipengaruhi oleh jumlah variabel bebas, karena formulasinya hanya memperhitungkan variabel terikat SSE dipengaruhi oleh variabel bebas, dimana semakin banyak variabel bebas, maka nilai SSE cenderung semakin kecil, atau paling tidak tetap. SSE kecil, maka nilai SSR akan besar. Akibat kedua hal tersebut, maka semakin banyak variabel bebas yang dimasukkan dalam model, maka nilai R akan semakin besar. R =1 u i / n k Y i Y / n 1
Pemilihan Model. Akaike Information Criterion (AIC) AIC=e k/n u i n =e k/n SSE n ln AIC= k n ln RSS n Bila kita membandingkan dua buah regresi atau lebih, maka model yang mempunyai nilai AIC terkecil merupakan model yang lebih baik.
Ilustrasi LABA = 5053,71 + 0,049 KREDIT; SSE = 3,8E+1 LABA = 5860,461 + 0,013 ASET; SSE =,1E+1 LABA = 45748,484 + 0,0106 ASET + 0,0081 KREDIT; SSE =,17E+1 = ln AIC k i n ln RSS n = x 50 ln 3,8E1 =4, 9868 50 = ln AIC k ii n ln RSS n = x 50 ln,1e1 =4, 5409 50 = ln AIC k iii n ln RSS n = x3 50 ln,17e1 =4, 6137 50
Pemilihan Model 3. Schwarz Information Criterion (SIC) SIC =n k/n u i n =n k/n SSE n ln SIC= k n ln n+ ln RSS n Sama dengan AIC, model yang mempunyai nilai SIC terkecil merupakan model yang lebih baik.
Ilustrasi = ln SIC k i n ln n+ ln RSS n = 50 ln50ln 3,8 E+1 =5,06 50 = ln SIC k ii n ln n+ ln RSS n = 50 ln50ln,1e1 =4, 6 50 = ln SIC k iii n ln n+ ln RSS n = 3 50 ln50ln,17 E+ 1 =4,73 50