LECTURE NOTES #12 ENDOGENITAS

LECTURE NOTES #12 ENDOGENITAS I. Pendahuluan Salah satu asumsi yang perlu dipertahankan agar kita dapat memperoleh estimator tidak bias dari suatu persamaan regresi dengan OLS adalah tidak adanya korelasi antara variabel bebas dengan residual, atau Cov(x,u)=0. Namun demikian dalam praktek empiris asumsi ini sangat mungkin tidak terpenuhi. Terdapat dua penyebab utama mengapa pelanggaran asumsi ini terjadi, yakni 1. Omitted Variable, yang terjadi jika kita tidak memasukkan suatu variabel kedalam model (dan seharusnya ia ada). Akibatnya ketika y dan x bervariasi maka u juga bervariasi pada arah yang dapat diduga. 2. Simultaneity, yang terjadi akibat adanya variabel penjelas yang seharusnya bersama dengan variabel tergantung nilainya ditentukan melalui suatu system. Hal ini terjadi ketika regresor dan salah satu/beberapa regresan dipengaruhi oleh satu/lebih variabel yang tidak ada pada model regresi (diluar model). Kedua pelanggaran asumsi ini masuk dalam masalah yang disebut endogenitas. Akibat adanya endogenitas adalah estimator yang diperoleh menjadi bias dan tidak konsisten (bahkan dengan meningkatkan jumlah sample). Permasalahan ini perlu diatasi dengan teknik khusus diantaranya Instrumental Variabel (IV), Two Stage Least Squares (2SLS) dan Indirect Least Squares (ILS). II. Implikasi Endogenitas Untuk menunjukkan bias yang timbul akibat mengestimasi model dengan masalah endogenitas dapat ditunjukkan dengan model permintaanpenawaran sederhana suatu komoditas sbb: qt = α1pt + εt; α1 > 0 q = β p + β y + v; β < 0, β > 0 t 1 t 2 t t 1 2 1) 2) Persamaan 1 adalah fungsi supply dan persamaan 2 adalah fungsi demand. Kedua persamaan ini disebut dengan behavioural equation karena menunjukkan perilaku suatu agen ekonomi. Persamaan 1 dan 2 adalah suatu contoh klasik dari simultanitas. Kita dapat menyelesaikan system persamaan diatas dalam 2 variabel endogen (yakni q t dan p t ) sebagai fungsi dari parameter, variabel eksogen dan error term sbb: 1

β v e p = y + = π y + u 2 t t t t 11 t 1t α1 β1 α1 β1 αβ α v β e q = y + = π y + u 1 2 1 t 1 t t t 21 t 2t α1 β1 α1 β1 3) 4) Jika kita mengestimasi persamaan 1 dengan OLS tanpa memperhatikan kenyataan bahwa nilainya ditentukan didalam suatu system (persamaan 3 dan 4), maka kita akan memperoleh hasil yang bias. Hal ini dapat dilihat dari estimator α 1 sbb α ptε t 1 2 pt pq p( α p + ε ) α p pε 2 t t t 1 t t 1 t t t 1 = = = + 2 2 2 2 pt pt pt pt = α + 5) Komponen dengan error term disebelah kanan persamaan 5 tidak akan bernilai nol bahkan secara asimtotik. Hal ini disebabkan karena E(p t ε t ) 0. Dari persamaan 3 diketahui bahwa p t adalah fungsi dari ε t sehingga covariansnya tidak akan sama dengan nol. III. Masalah Identifikasi (Order Condition) Jika masalah simultanitas/endogenitas terjadi maka diperlukan suatu teknik yang memungkinkan estimasi parameter persamaan 1 dan 2 secara tidak bias. Sebelum pembahasan kepada teknik yang relevan perlu terlebih dahulu ditentukan apakah parameter dimaksud memang dapat diestimasi. Tidak semua masalah simultanitas dapat diselesaikan. Salah satu necessary condition adalah terdapatnya kondisi teridentifikasi (identified). Dalam bahasa sederhananya kondisi identified diperoleh jika kita memiliki cukup banyak informasi/data yang memungkinkan estimasi suatu parameter model. Ketersediaan informasi ini dapat berwujud sebagai kecukupan jumlah variabel eksogen dan terdapatnya instrumen variabel. Sebagai gambaran permasalahan indetifikasi, kita dapat mengilustrasikannya pada model permintaan-penawaran yang telah diuraikan sebelumnya. Dalam praktek empiris data yang dimiliki sebenarnya adalah data posisi ekuilibrium, dimana demand bertemu dengan supply. Dengan demikian tanpa adanya informasi tambahan baik 2

dari sisi demand maupun supply maka tidak mungkin bagi kita untuk memulihkan fungsi demand dan supply dari data ekuilibrium dimaksud. Grafik 1. Identifikasi fungsi demand Jika kita memiliki suatu variabel eksogen pada fungsi supply misalnya tingkat upah, maka dengan menggunakan nilai berbagai tingkat upah (yang lain konstan, ceteris paribus) kita dapat mendeteksi fungsi demand. Pada grafik 1 dapat dilihat peningkatan upah akan menggeser kurva supply keatas sehingga kita dapat memperoleh kurva demand. Dalam kondisi ini fungsi demand dapat dikatakan teridentifikasi. Pada model permintaan dan penawaran yang ada, fungsi supply dapat dikatakan terindetifikasi karena kita memiliki shifting variabel pada fungsi demand yakni y (penghasilan) namun demikian fungsi demand adalah tidak teridentifikasi (under identified) karena kita tidak memiliki variabel penggeser pada fungsi supply. Dengan demikian kita dapat mengestimasi parameter pada fungsi supply (α 1 ) tetapi tidak parameter fungsi demand. Dalam kasus dua persamaan simultan, permasalahan identifikasi seperti diatas dapat diatasi dengan memasukkan paling tidak satu shifting variable (disebut juga variabel eksogen) kedalam masing-masing fungsi permintaan dan penawaran. Shifting variabel ini tidak boleh sama, karena kita kembali tidak dapat mengidentifikasi masing-masing kurva. Seandainya kita memasukkan variabel suku bunga kedalam fungsi demand dan juga supply, maka dengan mengubah suku bunga tidak hanya kurva demand yang bergerak tetapi juga supply sehingga proses identifikasi menjadi gagal. Syarat ini disebut dengan order condition. Hal ini dapat digeneralisir untuk suatu system persamaan yang lebih kompleks (terdiri dari 3 atau lebih variabel endogen). Syarat pertama yang diperlukan tentunya system ini memenuhi kaidah matematis penyelesaian system persamaan linear (lihat Chiang & Wright, 2005). Orde condition selanjutnya dapat ditentukan dengan melihat apakah satu persamaan 3

memiliki jumlah variabel eksogen yang dikeluarkan (excluded) yang sama dengan atau lebih besar dari pada variabel endogen yang ada disisi sebelah kanan. Sebagai contoh misalnya kita akan mengestimasi parameter suatu model IS- LM, sbb Y = C( Y) + I( r) + G+ NX( e) C = c + cy 0 1 I = αr NX = βe M = my + m r 1 2 r = r + θ ( e e) f 5) Sistem ini dapat disederhanakan menjadi Y = c + cy + αr+ G+ βe 0 1 M = my + m r 1 2 r = r + θ ( e e) f 6) 7) 8) Ini adalah suatu system dengan 3 variabel endogen (Y,r dan e) serta 5 variabel eksogen(m, c0,g,r f,dan e ). Persamaan 1 adalah teridentifikasi karena jumlah variabel eksogen yang dikeluarkan yakni e dan r f adalah sama dengan jumlah variabel endogen disebelah kanan (yakni r dan e). Persamaan 2 adalah teridentifikasi karena jumlah variabel eksogen yang dikeluarkan (5 buah) lebih besar dari variabel endogen sisi sebelah kanan (2 buah). Demikian juga persamaan 3, ia adalah identified. Jika order condition terpenuhi dalam kondisi strict (lebih besar) maka persamaan disebut dengan overidentified. IV. Teknik Estimasi Permasalahan endogenitas tidak selalu diturunkan dari teori ekonomi seperti yang telah diuraikan diatas. Omitted variable juga menyebabkan permasalahan endogenitas. Disini perubahan variabel y tidak hanya disebabkan oleh variabel bebas x, namun dengan berubahnya y, x juga mungkin berubah. Terkait dengan omitted variabel, hal ini terjadi karena adanya korelasi antara variabel x dan error term (u). Jika permasalahan endogenitas disebabkan hal semacam ini maka metoda Instrumental Variabel (IV) akan dapat digunakan. 4

IV.a. Instrumental Variable (IV) Misalnya kita akan mengestimasi hubungan antara upah yang diperoleh (log(wage)) dengan pendidikan (duc) dan variabel kapasitas kerja (abil), sbb: log( wage) = β + β educ + β abil + e 9) 0 1 2 Selanjut asumsikan kita tidak dapat memperoleh proxy yang baik untuk abil, sehingga diputuskan untuk menggabungkannya dengan error term., atau log( wage) = β + β educ + u 10) 0 1 Jika educ dan abil tidak berhubungan maka estimator OLS yang diperoleh adalah tidak bias. Sebaliknya jika kedua variabel ini berhubungan, maka memasukkan secara eksplisit variabel abil akan menyebabkan estimator yang diperoleh bersifat bias. Kita dapat tetap menggunakan persamaan 10 dengan menggunakan suatu instrumental variabel terhadap educ. Suatu instrumental variabel adalah suatu variabel lain, sebut saja sebagai z, dimana ia memenuhi asumsi 1. z adalah tidak berkorelasi terhadap u Cov(, z u ) = 0 11) 2. z adalah berkorelasi dengan x (dalam contoh ini berarti educ). Cov(, z x) 0 12) Perhatikan bahwa IV bukan proxy variabel terhadap abil. Sebaliknya ia justru tidak boleh berkorelasi dengan abil, karena abil sekarang telah digabungkan dengan error term (u). Dengan demikian proxy yang baik untuk abil justru bukan kandidat IV yang baik. Beberapa kandidat IV yang dapat dipertimbangkan pada contoh ini misalnya pendidikan ayah/ibu, lokasi rumah dari tempat pendidikan, kuartal kelahiran, dsb. Dapat dilihat bahwa variabel-variabel tersebut memiliki korelasi dengan educ tetapi tidak/kurang berkorelasi dengan u. Wooldrige (2005) menyarankan agar dalam pemilihan IV agar dilakukan berdasarkan auxiliary regression antara variabel bebas (educ) dengan kandidat IV. IV terpilih dilakukan berdasarkan tingkat signifikansi dan model fit tertinggi. Jika kita menggunakan IV sebagai penggati regressor semula maka perlu diperhatikan adanya perubahan dalam perhitungan statistik inferensi. Dengan asumsi 11, 12 dan homokedastisitas maka varians dari β 1 adalah 5

var( β ) = 2 σ 1 2 2 nσ x ρxz, 13) dimana sebagai penduga tak bias dari σ 2, kita dapat menggunakan residual kuadrat model semula, atau 1 n 2 2 ˆ = uˆ i ; n 2 i= 1 σ uˆ = y ˆ β ˆ β x; i = 1,..., n i i 0 1 i 14) Sedangkan penduga bagi σ x 2 adalah varians dari data x dan ρ 2 x,z diperoleh dari koefisien determinasi regresi x terhadap z. Perhatikan bahwa kita tidak dapat menggunakan statistik R 2 pada perhitungan IV. Hal ini disebabkan ketika x dan u berkorelasi maka, varians dari tidak dapat didekomposisi menjadi varians x dan varians residual, sehingga statistik R 2 tidak memiliki arti sesuai yang dikehendaki. Penggunaan teknik IV dalam kerangka multiple regression memiliki nama dan teknik khusus yang disebut dengan Two Stage Least Squares (2SLS). Kita akan membahasnya pada bagian tersendiri. Contoh 1 Kita menggunakan data dari Mroz.raw. Disini kita mencoba mengestimasi hubungan antara tingkat upah (log(wage)) terhadap pendidikan. Terdapat banyak sekali variabel yang berpengaruh terhadap tingkat upah sehingga model yang hanya memasukkan variabel pendidikan sebagai penjelas sangat mungkin sekali mengalami omitted variabel (dan berarti endogenitas). Untuk mengatasi hal ini kita akan menggunakan variabel pendidikan ayah sebagai IV bagi educ. Untuk pembanding pertama kita akan melakukan regresi tanpa IV (hanya OLS), dengan hasil sbb Dependent Variable: LOG(WAGE) Method: Least Squares Date: 06/29/08 Time: 20:26 Sample: 1 753 IF WAGE<>NA Included observations: 428 C -0.185197 0.185226-0.999843 0.3180 EDUC 0.108649 0.014400 7.545125 0.0000 6

R-squared 0.117883 Mean dependent var 1.190173 Adjusted R-squared 0.115812 S.D. dependent var 0.723198 S.E. of regression 0.680032 Akaike info criterion 2.071309 Sum squared resid 197.0010 Schwarz criterion 2.090276 Log likelihood -441.2600 F-statistic 56.92891 Durbin-Watson stat 1.984707 Prob(F-statistic) 0.000000 Tabel 1. Print Output Hasil Regresi Contoh 1 Metoda OLS Dapat dilihat pada tabel 1, return terhadap pendidikan adalah hampir sebesar 11% (1 tahun peningkatan pendidikan akan meningkatkan upah sebesar 11%). Teknik IV pada Eviews dapat diterapkan dengan mengklik window estimate, pilih metoda TSLS (Two Stage Least Squares) dan masukkan fatheduc sebagai instrument. Hasil yang diperoleh adalah Dependent Variable: LOG(WAGE) Method: Two-Stage Least Squares Date: 06/29/08 Time: 20:31 Sample: 1 753 IF WAGE<>NA Included observations: 428 Instrument list: FATHEDUC C 0.441103 0.446102 0.988795 0.3233 EDUC 0.059173 0.035142 1.683850 0.0929 R-squared 0.093438 Mean dependent var 1.190173 Adjusted R-squared 0.091310 S.D. dependent var 0.723198 S.E. of regression 0.689390 Sum squared resid 202.4601 Durbin-Watson stat 1.968194 Second-stage SSR 221.9799 Tabel 2. Print Output Hasil Regresi Contoh 1 Metoda IV Dapat dilihat disini return terhadap pendidikan turun menjadi 6%. Mengingat model OLS sangat mungkin mengalami masalah omitted variabel maka nilai yang diperoleh melalui IV dapat dikatakan lebih valid. IV.b. Two Stage Least Squares (2SLS) Kita dapat menggeneralisir kesimpulan diatas untuk kasus regresi berganda k variabel dimana paling tidak terdapat satu variabel penjelas adalah bersifat endogen (berkorelasi dengan error term). Hal yang dilakukan adalah menambah variabel eksogen baru diluar yang sudah ada untuk menjadi IV bagi variabel endogen. Sebagai ilustrasi perhatikan model regresi berikut: 7

y = + y + z + + z + u 15) 1 β0 β1 2 β2 1... βk 1 k 1 i Disini kita menotasikan y sebagai variabel endogen dan z sebagai variabel eksogen. Kita mengasumsikan bahwa y 2 adalah berkorelasi dengan u i, sehingga ia adalah endogen. Estimasi persamaan 15 dengan menggunakan OLS akan menghasilkan hasil yang bias dan tidak konsisten untuk itu kita menggunakan IV. Selanjutnya misalkan kita dapat memperoleh variabel eksogen baru z k yang berkorelasi terhadap y 2 tetapi tidak dengan u. Dengan demikian kita dapat menyusun suatu reduced form, sbb y2 = π 0 + π1z1+ π2z2 +... + πkzk + v2 16) Persamaan 16 disebut dengan reduced form, karena ia menunjukkan variabel endogen sebagai fungsi dari seluruh variabel eksogen. Agar z k valid sebagai IV bagi y 2 maka koefisien π k harus signifikan pada test dua arah. Catatan: kita tidak terlalu memperhatikan tingkat signifikansi dari koefisien lainnya (π j j=1,,k-1). Asumsi lainnya yang perlu diperhatikan adalah bahwa tidak terdapar kolinearitas sempurna dari variabel z. Perhatikan bahwa dalam persamaan 16 kita telah memiliki suatu IV sebagai bentuk multiple instruments (setiap variabel eksogen adalah IV bagi dirinya sendiri). Dalam bentuk seperti ini maka IV bagi y2 disebut dengan estimator Two Stage Least Squares (2SLS). Sesuai namanya estimasi dengan teknik ini dilakukan dalam dua tahap. Pertama, kita meregresikan variabel endogen terhadap seluruh variabel eksogen yang telah ada dan minimal satu variabel eksogen lain. Kedua kita meregresikan model awal (persamaan 15) dengan fitted value y 2 (dari persamaan 16) sebagai IV. Dengan cara ini maka estimator yang diperoleh adalah tidak bias dan konsisten. Catatan: dalam praktek kita tidak melakukan tahap-tahap ini secara manual, prosedur rutin biasanya telah tersedia pada software statistik (termasuk) Eviews. Pelaksanaan secara manual akan menghasilkan estimator yang salah. Prosedur 2SLS juga digunakan untuk mengestimasi parameter pada suatu system persamaan simultan. Dengan syarat suatu persamaan adalah teridentifikasi, maka prosedur 2SLS dilaksanakan dengan (1) estimasi reduced form setiap variabel endogen dengan seluruh variabel eksogen yang ada pada system dan (2) gunakan fitted value pada langkah pertama sebagai IV variabel endogen terkait. 8

Contoh 2. Romer (1993) menyusun suatu model inflasi yang menunjukkan bahwa semakin terbuka suatu negara maka inflasinya akan semakin rendah. Namun demikian keputusan untuk membuka diri terhadap dunia internasional juga tergantung seberapa baik kinerja kebijakan khususnya inflasi. Dengan demikian kita memiliki suatu system persamaan simultan sbb: inf = β + α open + β log( pcinc) + u 10 1 11 1 open = β + α inf + β log( pcinc) 20 2 21 + β log( land) + u 21 2 17) 18) Perhatikan bahwa hanya persamaan 17 yang teridentifikasi, sedangkan persamaan 18 adalah unidentified. Terdapat 2 variabel eksogen dan salah satunya (yakni log(land)) dapat digunakan sebagai IV bagi α 1. Sesuai dengan prosedur 2SLS, maka pertama kita melakukan auxiliary regression terhadap IV. Dengan menggunakan data yang disediakan pada file openness.raw maka diperoleh hasil sbb: Dependent Variable: OPEN Method: Least Squares Date: 06/30/08 Time: 08:51 Sample: 1 114 Included observations: 114 C 117.0845 15.84830 7.387829 0.0000 LOG(PCINC) 0.546481 1.493240 0.365970 0.7151 LOG(LAND) -7.567103 0.814216-9.293727 0.0000 R-squared 0.448668 Mean dependent var 37.07895 Adjusted R-squared 0.438734 S.D. dependent var 23.75353 S.E. of regression 17.79559 Akaike info criterion 8.621741 Sum squared resid 35151.80 Schwarz criterion 8.693746 Log likelihood -488.4392 F-statistic 45.16536 Durbin-Watson stat 2.147425 Prob(F-statistic) 0.000000 Tabel 3. Prosedur 2SLS Contoh 2 tahap 1. Disini kita memperoleh t statistik adalah sangat signifikan (=-9.29). Dengan demikian log(land) adalah valid sebagai IV bagi open. Dengan 9

menggunakan rutin 2SLS yang ada pada Eviews maka hasil estimasi yang diperoleh adalah Dependent Variable: INF Method: Two-Stage Least Squares Date: 06/30/08 Time: 08:55 Sample: 1 114 Included observations: 114 Instrument list: LOG(PCINC) LOG(LAND) C 26.89934 15.40120 1.746575 0.0835 OPEN -0.337487 0.144121-2.341690 0.0210 LOG(PCINC) 0.375825 2.015081 0.186506 0.8524 R-squared 0.030876 Mean dependent var 17.26404 Adjusted R-squared 0.013415 S.D. dependent var 23.99731 S.E. of regression 23.83581 Sum squared resid 63064.20 Durbin-Watson stat 2.092030 Second-stage SSR 61903.21 Tabel 4. Prosedur 2SLS Contoh 2 tahap 2. Dapat dilihat pada tabel 4, koefisien openness menunjukkan tanda yang sesuai dengan hipotesis model dan ia juga signifikan pada α=5%. V. Pengujian Endogenitas dan Overidentifying Restriction Seluruh uraian diatas menunjukkan bahwa kita telah mengasumsikan atau mengetahui struktur endogenitas yang ada pada data. Dalam praktek sering kali hal ini tidak dimungkinkan. Kita memiliki serangkaian variabel (dan data sampelnya) namun tidak mengetahui struktur endogenitas yang ada. Kita mengetahui bahwa variabel x 1 mempengaruhi x 2 tetapi tidak tahu apakah x 2 juga mempengaruhi x 1 (yang berarti ada endogenitas). Kita perlu menguji endogenitas karena penggunaan IV (dan 2SLS) yang tidak tepat akan menghasilkan estimator yang tidak efisien (memiliki varians yang besar). Dengan kata lain jika kita memiliki model seperti persamaan 15 yang sebenarnya y 2 adalah murni eksogen dan kita mengestimasinya dengan menggunakan IV atau 2 SLS maka statistical power dari model akan rendah. Salah satu teknik pengujian yang umum digunakan adalah yang diusulkan oleh Hausman (1978). Pengujian ini dilakukan dengan langkah-langkah sbb: 10

1. Misalnya kita memiliki model sbb: y y z z u 1 = β0 + β1 2 + β2 1+... + βk 1 k 1+ i 19) Dimana y 2 diduga endogen. Kita memiliki informasi variabel eksogen z j, j=1,,k-1 sehingga yang perlu dilakukan adalah mencari minimal satu variabel eksogen lain untuk menjadi IV bagi y 2. 2. Asumsikan kita telah memperoleh variabel dimaksud, maka kemudian lakukan regresi reduced form y = π + π z + π z +... + πkzk + v 2 0 1 1 2 2 2 20) 3. Gunakan residual yang diperoleh dari estimasi persamaan 20 ( ) sebagai variabel baru pada persamaan 19 dan estimasi dengan OLS. ˆv 2 y1 = β0 + β1y ˆ 2 + β2z1+... + βk 1zk 1+ δ1v2 + error 21) 4. Gunakan test 2 arah untuk menguji apakah δ 1 adalah signifikan. Jika signifikan maka dapat disimpulkan bahwa y2 adalah endogen. 5. Kita juga dapat menggunakan kerangka pengujian berganda (F test) untuk melihat apakah dua atau lebih regresor adalah bersifat endogen. Hal ini adalah generalisasi langsung dari prosedur diatas dimana untuk setiap regresor yang diduga endogen bentuk reduced form. Residual dari reduced form yang relevan kemudian dimasukkan dalam persamaan structural (persamaan 19) dan lakukan pengujian bahwa δ 1 = = δh=0 dimana h adalah indeks variabel yang diduga endogen. Kondisi lain yang sering ditemui dalam penelitian empiris dengan kondisi endogenitas adalah overidentification. Overidentification terjadi ketika suatu persamaan memiliki variabel eksogen (yang tidak ada pada persamaan atau IV) lebih banyak dari variabel endogen disisi sebelah kanan. Bound, Jaeger dan Baker 9995) menunjukkan penggunaan 2SLS dalam kondisi seperti ini memungkinkan terjadinya bias. Secara intuitif penggunaan banyak IV untuk suatu variabel endogen akan meningkatkan probabilitas variabel endogen tersebut untuk berkorelasi dengan error pada persamaan strukturalnya. Dengan demikian dapat dikatakan bahwa kita memerlukan jumlah instrumen yang tepat untuk membentuk suatu IV bagi variabel endogen tertentu. Cara ini bersifat trial and error namun demikian terdapat suatu pengujian untuk menduga apakah IV yang digunakan telah memadai. Pengujian ini disebut dengan overidentifying restriction test. 11

Wooldrige (2005) megusulkan suatu kerangka kerja yang sederhana untuk menguji hal ini, yakni 1. Estimasi persamaan structural dengan 2SLS dan peroleh residualnya (sebut saja ). û 1 2. Regresikan û terhadap seluruh variabel eksogen, dan peroleh nilai R 2 1 (sebut saja R 12 ). 3. Dengan hipotesis null bahwa seluruh IV adalah tidak berkorelasi dengan u 1, maka 2 2 nr1 χ q 22) dimana q adalah jumlah variabel eksogen dari luar model (IV) dikurangi jumlah variabel endogen. 4. Jika nilai statistik uji melebihi nilai kritis pada α=5%, maka kita akan menolak H 0 dan mengatakan bahwa paling tidak ada satu IV yang tidak eksogen. Contoh 3. Dengan menggunakan data Mroz.raw kita akan menguji apakah variabel educ adalah bersifat endogen. Disini kita akan menggunakan variabel exper, exper 2, motheduc dan fatheduc sebagai IV. Regresi IV akan memberikan hasil sbb Dependent Variable: EDUC Method: Least Squares Date: 06/30/08 Time: 09:38 Sample: 1 753 IF WAGE<>NA Included observations: 428 C 9.102640 0.426561 21.33958 0.0000 EXPER 0.045225 0.040251 1.123593 0.2618 EXPER^2-0.001009 0.001203-0.838572 0.4022 MOTHEDUC 0.157597 0.035894 4.390609 0.0000 FATHEDUC 0.189548 0.033756 5.615173 0.0000 R-squared 0.211471 Mean dependent var 12.65888 Adjusted R-squared 0.204014 S.D. dependent var 2.285376 S.E. of regression 2.038967 Akaike info criterion 4.274378 Sum squared resid 1758.575 Schwarz criterion 4.321797 12

Log likelihood -909.7168 F-statistic 28.36041 Durbin-Watson stat 1.939888 Prob(F-statistic) 0.000000 Tabel 5. Pengujian Endogenitas (Regresi Reduced Form) Kita simpan residual dari regresi ini sebagai variabel v 2, dengan mengetikkan series v 2 =resid pada command window. Persamaan struktural yang ingin diestimasi adalah regresi atas log(wage) terhadap educ, exper dan exper 2. Hasil yang diperoleh dengan memasukkan variabel v 2 pada persamaan struktural adalah Dependent Variable: LOG(WAGE) Method: Least Squares Date: 06/30/08 Time: 09:40 Sample: 1 753 IF WAGE<>NA Included observations: 428 C 0.048100 0.394575 0.121904 0.9030 EDUC 0.061397 0.030985 1.981499 0.0482 EXPER 0.044170 0.013239 3.336272 0.0009 EXPER^2-0.000899 0.000396-2.270623 0.0237 V2 0.058167 0.034807 1.671105 0.0954 R-squared 0.162350 Mean dependent var 1.190173 Adjusted R-squared 0.154429 S.D. dependent var 0.723198 S.E. of regression 0.665016 Akaike info criterion 2.033602 Sum squared resid 187.0701 Schwarz criterion 2.081022 Log likelihood -430.1908 F-statistic 20.49611 Durbin-Watson stat 1.931343 Prob(F-statistic) 0.000000 Tabel 6. Pengujian Endogenitas (Persamaan Struktural) Dapat dilihat dari tabel 6 bahwa t statistik adalah sebesar 1.67 dengan p value 9,5%. Dengan menggunakan α=10%, kita dapat mengatakan bahwa educ adalah bersifat endogen. Selanjutnya kita juga dapat menguji apakah penggunaan motheduc dan fatheduc sebagai IV adalah tidak bias (tidak mengalami masalah overidentfying restriction). Ingat bahwa kita memiliki satu variabel endogen namun 2 IV (motheduc dan fatheduc) yang berarti persamaan regresi yang dimiliki adalah overidentified. 13

Sesuai prosedur yang telah diuraikan diatas, maka hal pertama yang dilakukan adalah estimasi persamaan structural dengan seluruh IV. Hasil regresi diberikan sbb: Dependent Variable: LOG(WAGE) Method: Two-Stage Least Squares Date: 06/30/08 Time: 09:47 Sample: 1 753 IF WAGE<>NA Included observations: 428 Instrument list: EXPER EXPER^2 MOTHEDUC FATHEDUC C 0.048100 0.400328 0.120152 0.9044 EDUC 0.061397 0.031437 1.953024 0.0515 EXPER 0.044170 0.013432 3.288329 0.0011 EXPER^2-0.000899 0.000402-2.237993 0.0257 R-squared 0.135708 Mean dependent var 1.190173 Adjusted R-squared 0.129593 S.D. dependent var 0.723198 S.E. of regression 0.674712 Sum squared resid 193.0200 Durbin-Watson stat 1.945659 Second-stage SSR 212.2096 Tabel 7. Pengujian Overidentifying Restriction (Persamaan Struktural) Simpan residual dari persamaan ini sebagai series u. Kemudian lakukan regresi auxiliary u terhadap seluruh variabel eksogen sbb: Dependent Variable: U Method: Least Squares Date: 06/30/08 Time: 09:49 Sample: 1 753 IF WAGE<>NA Included observations: 428 C 0.010964 0.141257 0.077618 0.9382 EXPER -1.83E-05 0.013329-0.001376 0.9989 EXPER^2 7.34E-07 0.000398 0.001842 0.9985 MOTHEDUC -0.006607 0.011886-0.555804 0.5786 FATHEDUC 0.005782 0.011179 0.517263 0.6052 R-squared 0.000883 Mean dependent var -1.05E-16 Adjusted R-squared -0.008565 S.D. dependent var 0.672337 S.E. of regression 0.675210 Akaike info criterion 2.064029 Sum squared resid 192.8495 Schwarz criterion 2.111448 14

Log likelihood -436.7021 F-statistic 0.093496 Durbin-Watson stat 1.946859 Prob(F-statistic) 0.984495 Tabel 8. Pengujian Overidentifying Restriction (Auxiliary Regression) Dapat dilihat pada tabel 8, nilai R 1 2 adalah sebesar 0.0009 sehingga nilai statistik uji adalah nr 12 = 428(0.0009)=0.3852. Nilai χ 2 dengan df=1 (2 IV-1 variabel endogen) adalah 3.84 dengan demikian hipotesis null seluruh IV adalah tidak berkorelasi dengan u 1 dapat diterima. Penggunaan motheduc dan fatheduc adalah valid. 15