MODEL LIMITED DEPENDENT VARIABEL

dokumen-dokumen yang mirip
Gambar 4.1. Alur Pikir Model Variabel Penentu Mitra Utama pada Kantor Pelayanan Utama Tipe A Direktorat Jenderal Bea dan Cukai Tanjung Priok Jakarta

LAMPIRAN Langkah-Langkah Pemilihan Model Regresi Data Panel

Model Regresi Linier Berganda (Masalah Inferensi)

TOPIK LANJUTAN MODEL REGRESI LINIER

Model Regresi Linier Berganda Dengan Variabel Kualitatif

Lampiran 1. Jumlah Deposito, Suku Bunga Deposito, dan Inflasi di Indonesia Tahun

BAB 2 MODEL REGRESI LINIER

BAB IV HASIL DAN ANALISIS

KUISIONER. 2. Berapa besar nilai Modal kerja yang diperlukan untuk produksi setiap bulan?

Lampiran 1. Data Regresi. 71 Universitas Sumatera Utara

BAB IV HASIL DAN ANALISIS. bentuk deret waktu (time series) selama 17 tahun, yaitu tahun Data

BAB IV HASIL DAN ANALISIS. sekunder dalam bentuk deret waktu (time series) pada periode

PERSEPSI PENGUSAHA DAN PEKERJA UMKM TERHADAP PROGRAM JAMINAN SOSIAL NASIONAL 1. Abstraksi

1) Kriteria Ekonomi Estimasi model dikatakan baik bila hipotesis awal penelitian terbukti sesuai dengan tanda dan besaran dari penduga.

BAB IV HASIL DAN PEMBAHASAN. Belanja Daerah tahun sekarang pada kabupaten/kota di propinsi Sumatera Utara

LECTURE NOTES #12 ENDOGENITAS

BAB IV ANALISIS HASIL DAN PEMBAHASAN. Uji akar akar unit yang bertujuan untuk menganalisis data time series

Penerimaan Pajak dan Pengeluaran Pemerintah kota Tebing Tinggi Tahun (juta rupiah)

BAB IV HASIL DAN ANALISIS. sekunder dalam bentuk deret waktu (time series) selama 15 tahun pada periode

BAB V HASIL ANALISIS DAN PEMBAHASAN

PENGARUH INDEKS PEMBANGUNAN MANUSIA DAN PRODUK DOMESTIK REGIONAL BRUTO TERHADAP TINGKAT PENGANGGURAN TERBUKA PROVINSI DKI JAKARTA TAHUN

BAB 4 ANALISIS DAN PEMBAHASAN

MASALAH-MASALAH DALAM MODEL REGRESI LINIER

Lampiran 2 Penduduk Menurut Status Pekerjaan Utama (jiwa)

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

REGRESI LINIER SEDERHANA

BULAN

UJIAN TENGAH SEMESTER TAHUN AKADEMIK 2016/2017 FAKULTAS EKONOMI DAN BISNIS

Lampiran 1. Penawaran Bawang Merah di Sumatera Utara Tahun (Ton) Januari Februari

Lampiran 1 Data Penyerapan Tenaga Kerja, PDRB, Pengeluaran Pemerintah, dan Upah Riil Kabupaten/Kota di Provinsi Sumatera Barat tahun

Daftar Perusahaan yang Menjadi Sampel Penelitian

DAFTAR PUSTAKA. Halim Abdul, (2002). Akuntansi Sektor Publik. Salemba Empat, Jakarta.

BAB IV HASIL DAN ANALISIS

SCALE:C(7)

BAB V HASIL PENELITIAN DAN PEMBAHASAN

ECONOMIC MODEL FROM DEMAND SIDE: Evidence In Indonesia

BAB IV ANALISIS DAN PEMBAHASAN

BAB XI UJI HIPOTESIS

Lampiran 1 : Pemilihan Bank Melalui Kriteria Berdasarkan Purposive Sampling

LECTURE NOTES #7 MULTIKOLINEARITAS DAN AUTOKORELASI

BAB XII INTERPRETASI HASIL OLAH DATA

RISET ITU MUDAH. Salah satu contoh pertanyaan yang mungkin muncul di benak kita adalah:

BAB IV HASIL DAN PEMBAHASAN

LAMPIRAN 1 TABEL RESPONDEN No. y x1 x2 x

Statistika Ekonomi dan Bisnis

Bandung, 31 Desember Tim Peneliti

BAB IV ESTIMASI DAN ANALISIS MODEL

BAB IV HASIL PENGUJIAN. Oleh karena itu, penelitian ini menggunakan uji hipotesis untuk membuktikan adanya

Lampiran 1. Metodologi Penelitian. Regresi Panel Data Bentuk umum data panel, baik yang pooling atau kombinasi, adalah :

BAB III METODOLOGI PENELITIAN. pola sejumlah data, kemudian menyajikan informasi tersebut dalam bentuk yang

Kredit (Y) Pendapatan (x1) Usia (x3) Modal Kerja (x2) Universitas Sumatera Utara

Lampiran 1 Anggaran Belanja Daerah Kabupaten/Kota Provinsi Sumatera Utara Tahun (dalam jutaan rupiah)

BAB 4 ANALISA DAN PEMBAHASAN

DAFTAR PERTANYAAN UJI KELAYAKAN CALON ANGGOTA (UK)

MODEL AUTOREGRESSIVE (AR) ATAU MODEL UNIVARIATE

BAB IV STUDI KASUS. Indeks merupakan daftar harga sekarang dibandingkan dengan

Pusat Statistik. Adapun data yang telah di olah terdapat terdapat pada tabel 6.1

BAB V HASIL DAN PEMBAHASAN. atau tidak dalam penelitian ini jarque-berra dimana hasilnya dapat. ditunjukkan dari nilai probabilitas Jarque-Berra.

BAB V HASIL PENELITIAN DAN PEMBAHASAN. sekunder deret waktu (time series) mulai dari Januari 2013 sampai

BAB 4 HASIL DAN PEMBAHASAN

BAB IV HASIL DAN ANALISIS

BAB IV ANALISA HASIL DAN PEMBAHASAN. Sebagaimana telah diketahui bahwa tujuan dari skripsi ini adalah untuk mengetahui

(Data Mentah) Data Penerimaan Asli Daerah Sektor Pariwisata Kabupaten Lombok Timur, Jumlah Kunjunga Wisatawan dan Jumlah Objek Wisata

BAB V HASIL DAN PEMBAHASAN

Penjualan Pasokan Penjualan Pasokan Penjualan Pasokan

BAB IV HASIL DAN PEMBAHASAN

TIME SERIES DENGAN K-STAT &EVIEWS

PEMODELAN REGRESI HECKIT UNTUK KONSUMSI SUSU DI PROVINSI JAWA TENGAH

Lampiran 1. Pertumbuhan Pendapatan Asli Daerah (PAD) pada Kabupaten/Kota di Provinsi Sumatera Utara Tahun (%)

LAPORAN AKHIR ANALISIS KEBIJAKAN ANALISIS ELASTISITAS HARGA PUPUK TERHADAP PRODUKTIVITAS PADI

BAB IV HASIL DAN ANALISIS. Dalam penelitian ini data yang digunakan adalah data sekunder

Lampiran 1. Data Penelitian

Hasil Regresi Data Panel

LAMPIRAN 1. Total Fertility Rate (TFR) Provinsi di Indonesia

BAB IV HASIL DAN ANALISIS. dilakukan untuk mengetahui seberapa pengaruh variabel-variabel independen

Pertemuan 4-5 ANALISIS REGRESI SEDERHANA

BAB IV ANALISIS DAN PEMBAHASAN. Penelitian ini menggunakan data dari tiga variabel independen serta dua

BAB 1V HASIL DAN PEMBAHASAN. Skripsi ini meneliti mengenai analisis faktor-faktor yang mempengaruhi

BAB IV HASIL DAN PEMBAHASAN. Penelitian ini bertujuan untuk menguji pengaruh debt to equity ratio. sampel penelitian dengan rincian sebagai berikut :

Produktivitas Padi, Luas Panen dan Produksi Padi di Kabupaten Deli Serdang,

BAB 4 ANALISIS DAN PEMBAHASAN. Tabel 4.1 Statistik Deskriptif Deskriptif Rata-rata Standar Deviasi

BAB III METODE PENELITIAN. Objek penelitian merupakan salah satu faktor yang tidak dapat dipisahkan dari

Lampiran I. INDENTITAS RESPONDEN PETANI NILAM DI KABUPATEN PAKPAK BHARAT No Nama

LAMPIRAN. Lampiran 1. Daftar Sampel Perusahaan Makanan dan Minuman

BAB 4 ANALISA DAN PEMBAHASAN

Surat Keterangan Perubahan Judul

Lampiran 1 Daftar Populasi Sampel Penelitian

BAB IV. Analisis Data. 4.1 Gambaran Umum dan Depskriptif Obyek Penelitian

ANALISIS FAKTOR FAKTOR YANG MEMPENGARUHI TERHADAP JUMLAH PENDUDUK MISKIN DI PROVINSI KALIMANTAN SELATAN ( ) JURNAL

BAB IV METODELOGI DAN DATA

LAMPIRAN. Lampiran 1 Data Penelitian

BAB IV HASIL DAN PEMBAHASAN

BAB V PENUTUP. adanya pengaruh penurunan volatilitas pada underlying spot market di. Indonesia karena keberadaan kontrak futures indeks LQ45 Futures,

HASIL REGRESSION MODEL GLS FIXED EFFECT MODEL (FEM) VARIABEL TERIKAT : BELANJA DAERAH (Y1)

BAB IV HASIL ANALISIS DAN PEMBAHASAN. yang dapat diperoleh dari pasar uang atau bisa juga dari pasar valas.

BAB I PENDAHULUAN A. LATARBELAKANG

PENGARUH POTENSI PERTUMBUHAN PAJAK PENERAN GAN JALAN TERHADAP EFEKTIVITAS PENERIMAAN PAJAK DAERAH PADA KABUPATEN GORONTALO DAN KOTA GORONTALO

ANALISIS PENGARUH PERTUMBUHAN EKONOMI TERHADAP TINGKAT PENGANGGURAN DI KOTA MEDAN TAHUN

BAB IV HASIL DAN PEMBAHASAN

BAB IV ANALISIS HASIL DAN PEMBAHASAN

Transkripsi:

LECTURE NOTES #10 MODEL LIMITED DEPENDENT VARIABEL I. Pendahuluan Model regresi linier yang telah dibahas sebelumnya adalah menggunakan variabel tergantung yang bersifat numeris dan diasumsikan dapat mengambil nilai apa saja (unbounded). Asumsi yang terakhir ini pada beberapa penelitian dapat bersifat kurang realistis. Penelitian dengan variabel tergantung yang bersifat kualitatif (kategorik) misalnya keputusan membeli atau tidak suatu produk yang dikaitkan dengan serangkaian variabel bebas (demografis, daya beli dan psikologis). Dalam hal ini nilai regresand hanyalah 1 (jika beli) dan 0 (jika tidak). Model regresi yang digunakan untuk data semacam ini disebut model binary response diantaranya model linear probability, logit dan probit. Sifat variabel tergantung lain yang memberikan hambatan bagi penerapan OLS adalah count data. Disini nilai variabel response harus bersifat integer dan non negatif. Variabel semacam ini misalnya adalah frekuensi kunjungan, jumlah anak, pembelian kendaraan bermotor, dsb. Regresi Poisson dapat mengakomodasikan variabel semacam ini. Jika nilai variabel tergantung adalah kontinu tetapi hanya terbatas pada range tertentu juga merupakan hambatan bagi penerapan OLS secara langsung. Variabel semacam ini misalnya Indeks Prestasi, persentase kepesertaan pensiun, nilai TOEFL, dsb. Data yang dimiliki disebut censored jika nilai variabel tergantung dibatasi. Model untuk mengatasi masalah ini disebut censored regression. Akhirnya suatu kualifikasi terhadap OLS juga diberikan pada data yang bersifat truncated. Masalah truncated terjadi jika ada satu atau lebih sub sample (dengan porsi yang substansial) yang diperoleh melalui teknik non random sampling. Seluruh teknik yang dipergunakan untuk mengatasi permasalahan yang disebut diatas termasuk pada kelas Limited Dependent Variable Model, atau disingkat LDV. II. Binary Response Regression Berbeda dengan regresi yang telah dipelajari sebelumnya intrepretasi hubungan antara variabel dependen dan bebas pada model binary response adalah bersifat probabilistic. Dengan kata lain jika kita menotasikan y=1 sebagai terjadinya suatu event (dan y=0, bukan event tersebut), maka regresi OLS y = β + β x + β x + + β x + u 1) 0 1 1 2 2... k k 1

harus diintrepretasikan sebagai probabilitas terjadinya y=1, given x j bernilai tertentu, atau P y = x = + x + x + + x 2) ( 1 ) β0 β1 1 β2 2... βk k Jika kita menggunakan Linear Probability Model (LPM), maka persamaan 2 diestimasi dari data dengan menggunakan teknik OLS. Seluruh prosedur dan intrepretasi yang dilakukan adalah sama dengan yang telah dipelajari sebelumnya. Model ini memiliki 2 kelemahan. Pertama, ada pembatasan yang bersifat adhoc. Ini terjadi apabila fitted value dari variabel response lebih dari 1, maka ia dianggap 1 dan sebaliknya jika dibawah 0, maka akan dianggap 0 (1 dan 0 adalah batas atas dan batas bawah dari nilai variabel respon). Dengan demikian fitted value=1.50 adalah dianggap sama dengan fitted value=1.05, sama-sama memiliki probabilitas terjadinya y= 1. Kelemahan lain adalah model ini mengalami heterokedastisitas (melanggar asumsi Gauss-Markov). Meskipun demikian model ini tetap banyak digunakan dan cukup valid terutama jika nilai dari variabel bebas adalah terdistribusi disekitar ratarata (tidak terlalu menyebar). Contoh 1. Misalnya kita ingin mengestimasi kemungkinan seseorang berada pada angkatan kerja (inlf) berdasarkan serangkaian variabel (nwifeinc, educ, exper, exper 2, age, kidslt6 dan kidsge6). Dengan menggunakan data Mroz.raw maka dapat diperoleh hasil sbb Dependent Variable: INLF Method: Least Squares Date: 06/20/08 Time: 08:31 Sample: 1 753 Included observations: 753 Variable Coefficient Std. Error t-statistic Prob. C 0.585519 0.154178 3.797683 0.0002 NWIFEINC -0.003405 0.001448-2.350840 0.0190 EDUC 0.037995 0.007376 5.151194 0.0000 EXPER 0.039492 0.005673 6.961866 0.0000 EXPER^2-0.000596 0.000185-3.226959 0.0013 AGE -0.016091 0.002485-6.476014 0.0000 KIDSLT6-0.261810 0.033506-7.813888 0.0000 KIDSGE6 0.013012 0.013196 0.986077 0.3244 R-squared 0.264216 Mean dependent var 0.568393 2

Adjusted R-squared 0.257303 S.D. dependent var 0.495630 S.E. of regression 0.427133 Akaike info criterion 1.147124 Sum squared resid 135.9197 Schwarz criterion 1.196251 Log likelihood -423.8923 F-statistic 38.21795 Durbin-Watson stat 0.493840 Prob(F-statistic) 0.000000 Tabel 1. Print Output Regresi Contoh 1. Salah satu intrepretasi yang dapat diberikan disini misalnya pada koefisien educ. Koefisien ini bernilai 0.038 dengan kata lain dengan meningkatnya pendidikan sebesar 10 tahun maka probabilitas ia berada pada angkatan kerja akan meningkat sebesar 0.38 poin, secara grafis Grafik 1. Model LPM Contoh 1. Seperti yang telah diuraikan diatas salah satu kelemahan utama dari LPM adalah adanya batas atas dan bawah yang bersifat adhoc. Model yang dapat mengatasi ini adalah model yang menggunakan fungsi kumulatif densitas atau suatu fungsi asimtotik (antara 0 dan 1) pada fungsi obyektifnya. Salah satu model semacam ini adalah model logit dan probit. Dalam bentuk umum model dengan fungsi yang bersifat khusus ini dapat ditulis sebagai ( β0 β1 1 β2 2 β ) ( β ) P( y = 1 x) = G + x + x +... + kxk = G +xβ 3) 0 dimana xβ menunjukkan term perkalian vector untuk meringkas β j x j. Pada model logi G(.) adalah fungsi logistic, yakni 3

( ) G z z e = 1 + e z 4) Sedangkan pada model probit G(.) adalah fungsi densitas kumulatif normal, yakni ( ) G z =Φ ( z) = φ( v) dv dimana φ( z) = (2 π) e z 2 1/2 ( z /2) 5) Dapat ditunjukkan disini bahwa baik fungsi 4 maupun 5 adalah asimtotik kearah 0 dan 1 (G(z) 0 ketika z - dan G(z) 0 ketika z ). Sebagai ilustrasi grafik 2, menunjukkan suatu fungsi logistik. Grafik 2. Fungsi Logistik Kita dapat menurunkan suatu model logit atau probit melalui variabel laten, yang ditentukan sebagai 0 [ ] y* = β + xβ + e, y = 1 y* > 0 Persamaan 6 menunjukkan bahwa y=1 jika y*>0. 6) Seperti biasa perhatian kita terutama adalah apa dampak dari perubahan satu/lebih variabel bebas terhadap variabel tergantung. Hal ini dapat dihitung sbb: 4

px ( ) x j = g( β + xβ) β 0 dimana dg gz ( ) = ( z) dz j 7) Jika x j adalah variabel dummy (misalnya 0 dan 1), dampak parsial terjadinya perubahan variabel tersebut dari nol ke satu dapat dihitung sebagai ( β0+ β1 1+... + βj +... + βk k) ( β0+ β1 1+... + βk k) G x x G x x 8) Karena sifat G(z) yang non linier maka estimasi parameter model logit dan probit dilakukan melalui prosedur Maximum Likelihood Estimation (MLE), lihat appendiks untuk derivasi. Uji signifikansi pada parameter dilakukan dengan melihat nilai p value yang dibandingkan dengan α (level of significance) yang digunakan pada hipotesis null dua arah. Sedangkan untuk overall significance, kita menggunakan likelihood ratio statistics (LR statistics). Statistik LR dapat dihitung dengan formula berikut LR = 2( l l ) 9) ur 0 Dimana λ ur dan λ 0 adalah nilai log likelihood masing-masing untuk fungsi unrestricted (model lengkap) dan restricted (hanya intersep). Nilai log likelihood umumnya adalah negatif dimana λ ur lebih tidak negatif dari λ 0 (λ ur λ 0 ). Nilai LR mengikuti distribusi χ 2 dengan df = k. Untuk menilai kelaikan suai (goodness of fit) dari model ini dapat digunakan dua criteria, yakni a. Percent Correctly Predicted, yang menunjukkan persentase prediksi yang benar dengan threshold/cut off tertentu (biasanya 0.5). Disini semua nilai P(x)>0.5 akan dikategorikan sebagai prediksi yang benar dan jumlahnya akan dibandingkan dengan jumlah sample (sebagai suatu persentase). b. Pseudo R-Squared (Mc Faden, 1974). Ini adalah suatu ukuran yang analog dengan R2 pada estimasi OLS yang biasa. Adapun formula yang digunakan adalah 5

2 ur Pseudo R = 1 l l 0 10) Contoh 2. Masih dengan menggunakan data Mroz.raw disini kita akan melakukan reestimasi dengan menggunakan model logit dan probit. Estimasi logit dapat dilakukan dengan mengakses menu quick/estimate equation/pilih methods binary. Untuk model logit hasil diberikan pada tabel 2 sedangkan model probit diberikan pada tabel 3. Dependent Variable: INLF Method: ML - Binary Logit (Quadratic hill climbing) Date: 06/20/08 Time: 09:36 Sample: 1 753 Included observations: 753 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-statistic Prob. C 0.425452 0.860370 0.494500 0.6210 NWIFEINC -0.021345 0.008421-2.534620 0.0113 EDUC 0.221170 0.043440 5.091442 0.0000 EXPER 0.205870 0.032057 6.422001 0.0000 EXPER^2-0.003154 0.001016-3.104093 0.0019 AGE -0.088024 0.014573-6.040232 0.0000 KIDSLT6-1.443354 0.203585-7.089692 0.0000 KIDSGE6 0.060112 0.074790 0.803749 0.4215 Mean dependent var 0.568393 S.D. dependent var 0.495630 S.E. of regression 0.425963 Akaike info criterion 1.088354 Sum squared resid 135.1762 Schwarz criterion 1.137481 Log likelihood -401.7652 Hannan-Quinn criter. 1.107280 Restr. log likelihood -514.8732 Avg. log likelihood -0.533553 LR statistic (7 df) 226.2161 McFadden R-squared 0.219681 Probability(LR stat) 0.000000 Obs with Dep=0 325 Total obs 753 Obs with Dep=1 428 Tabel 2. Print Output Regresi Contoh 2 (Model Logit). Dependent Variable: INLF 6

Method: ML - Binary Probit (Quadratic hill climbing) Date: 06/20/08 Time: 09:38 Sample: 1 753 Included observations: 753 Convergence achieved after 4 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-statistic Prob. C 0.270077 0.508593 0.531027 0.5954 NWIFEINC -0.012024 0.004840-2.484327 0.0130 EDUC 0.130905 0.025254 5.183485 0.0000 EXPER 0.123348 0.018716 6.590348 0.0000 EXPER^2-0.001887 0.000600-3.145205 0.0017 AGE -0.052853 0.008477-6.234656 0.0000 KIDSLT6-0.868329 0.118522-7.326288 0.0000 KIDSGE6 0.036005 0.043477 0.828142 0.4076 Mean dependent var 0.568393 S.D. dependent var 0.495630 S.E. of regression 0.425945 Akaike info criterion 1.087124 Sum squared resid 135.1646 Schwarz criterion 1.136251 Log likelihood -401.3022 Hannan-Quinn criter. 1.106050 Restr. log likelihood -514.8732 Avg. log likelihood -0.532938 LR statistic (7 df) 227.1420 McFadden R-squared 0.220581 Probability(LR stat) 0.000000 Obs with Dep=0 325 Total obs 753 Obs with Dep=1 428 Tabel 3. Print Output Regresi Contoh 2 (Model Probit). Perhatikan bahwa nilai estimasi parameter pada model LPM, logit dan probit adalah berbeda dan mereka tidak dapat diperbandingkan. Agar dapat diperbandingkan untuk itu Wooldridge (2005) menyarankan suatu rule of thumb untuk konversi. Hal ini dilakukan dengan membagi koefisien model logit dengan angka 4 dan 2.5 pada model probit agar dapat diperbandingkan dengan parameter LPM. Sebagai contoh pada koefisien variabel kidslt6, melalui estimasi model logit diperoleh angka 0.361 ( -1.443/4 ) dan 0.347 ( -0.868/2.5) untuk model probit sedangkan model LPM memberikan hasil 0.262. Dengan demikian model logit dan probit memberikan nilai koefisien yang lebih besar (secara absolut) daripada model LPM. Ukuran Pseudo R 2 bagi model logit dan probit adalah masing-masing 0.220 dan 0.221 yang lebih rendah dari LPM (=0.264). Percent Correctly Predicted dapat diakses melalui window output, pilih view/expectation- 7

prediction table dan isi 0.50 sebagai cut off. Untuk model logit hasil yang diperoleh adalah tabel 4 sedangkan model probit pada tabel 5. Dependent Variable: INLF Method: ML - Binary Logit (Quadratic hill climbing) Date: 06/20/08 Time: 10:16 Sample: 1 753 Included observations: 753 Prediction Evaluation (success cutoff C = 0.5) Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 207 81 288 0 0 0 P(Dep=1)>C 118 347 465 325 428 753 Total 325 428 753 325 428 753 Correct 207 347 554 0 428 428 % Correct 63.69 81.07 73.57 0.00 100.00 56.84 % Incorrect 36.31 18.93 26.43 100.00 0.00 43.16 Total Gain* 63.69-18.93 16.73 Percent Gain** 63.69 NA 38.77 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 190.18 134.82 325.00 140.27 184.73 325.00 E(# of Dep=1) 134.82 293.18 428.00 184.73 243.27 428.00 Total 325.00 428.00 753.00 325.00 428.00 753.00 Correct 190.18 293.18 483.35 140.27 243.27 383.54 % Correct 58.52 68.50 64.19 43.16 56.84 50.94 % Incorrect 41.48 31.50 35.81 56.84 43.16 49.06 Total Gain* 15.36 11.66 13.25 Percent Gain** 27.02 27.02 27.02 Tabel 4. Percent Prediction Correct (Model Logit). Dependent Variable: INLF Method: ML - Binary Probit (Quadratic hill climbing) Date: 06/20/08 Time: 10:34 Sample: 1 753 Included observations: 753 Prediction Evaluation (success cutoff C = 0.5) 8

Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 205 80 285 0 0 0 P(Dep=1)>C 120 348 468 325 428 753 Total 325 428 753 325 428 753 Correct 205 348 553 0 428 428 % Correct 63.08 81.31 73.44 0.00 100.00 56.84 % Incorrect 36.92 18.69 26.56 100.00 0.00 43.16 Total Gain* 63.08-18.69 16.60 Percent Gain** 63.08 NA 38.46 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 189.60 134.11 323.71 140.27 184.73 325.00 E(# of Dep=1) 135.40 293.89 429.29 184.73 243.27 428.00 Total 325.00 428.00 753.00 325.00 428.00 753.00 Correct 189.60 293.89 483.48 140.27 243.27 383.54 % Correct 58.34 68.67 64.21 43.16 56.84 50.94 % Incorrect 41.66 31.33 35.79 56.84 43.16 49.06 Total Gain* 15.18 11.83 13.27 Percent Gain** 26.70 27.40 27.05 Tabel 5. Percent Prediction Correct (Model Probit). Percent Correctly Predicted untuk LPM dilakukan secara manual, dan diperoleh hasil 73.4. Dengan demikian dilihat dari kriteria ini, model logit adalah yang terbaik. III. Poisson Regression Poisson Regression digunakan ketika regresan memiliki sifat count variabel, ia hanya dapat mengambil nilai non negative integer value (0,1,2, ). Contoh variabel semacam ini misalnya jumlah anak dari seorang wanita, berapa kali seorang ditahan dalam setahun, jumlah paten yang diajukan, dsb. Model regresi Poisson adalah berbentuk eksponensial, yakni E y x x e β β β β 0 1 1 2 2 (,..., ) + x + x +... + kxk 1 k = 11) Dengan mengambil nilai log terhadap sisi sebelah kanan dan kiri persamaan 11, maka masing-masing parameter dapat diintrepretasikan sebagai log( E( y x,..., x )) = β + β x + β x +... + β x 1 k 0 1 1 2 2 k k % ΔE( y x) (100 β ) Δx j j 9

Dengan kata lain koefisien regresi akan diintrepretasikan sebagai persentase perubahan variabel tergantung akibat perubahan 1 unit variabel bebas. Model persamaan 11 adalah bersifat non linier lebih lanjut distribusi dari variabel tergantung (y) adalah non normal (yakni Poisson Distribution). Dengan demikian diperlukan suatu teknik khusus untuk melakukan estimasi terhadap parameter model. Disini digunakan Quasi Maximum Likelihood Estimation (QMLE). Kita tidak akan menguraikan bagaimana estimasi dilakukan karena sangat kompleks dan diluar pembahasan, lihat Wooldridge, 1999 bab 19. Contoh 3. Dengan menggunakan data Crime1.raw kita akan mengestimasi hubungan antara frekuensi seseorang ditahan dengan berbagai variabel demografis, efektivitas pengadilan, dsb. Dengan menggunakan model Poisson Regression yang dapat diakses pada menu quick/estimate equation/pada drop down window pilih count diperoleh hasil pada tabel 6. Dependent Variable: NARR86 Method: ML/QML - Poisson Count (Quadratic hill climbing) Date: 06/23/08 Time: 07:06 Sample: 1 2725 Included observations: 2725 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-statistic Prob. C -0.599589 0.067250-8.915807 0.0000 PCNV -0.401571 0.084971-4.725971 0.0000 AVGSEN -0.023772 0.019946-1.191831 0.2333 TOTTIME 0.024490 0.014750 1.660318 0.0969 PTIME86-0.098558 0.020695-4.762515 0.0000 QEMP86-0.038019 0.029024-1.309897 0.1902 INC86-0.008081 0.001041-7.762374 0.0000 BLACK 0.660838 0.073834 8.950290 0.0000 HISPAN 0.499813 0.073927 6.760931 0.0000 BORN60-0.051029 0.064052-0.796677 0.4256 R-squared 0.076988 Mean dependent var 0.404404 Adjusted R-squared 0.073928 S.D. dependent var 0.859077 S.E. of regression 0.826712 Akaike info criterion 1.657806 Sum squared resid 1855.574 Schwarz criterion 1.679495 12) 10

Log likelihood -2248.761 Hannan-Quinn criter. 1.665646 Restr. log likelihood -2441.921 Avg. log likelihood -0.825233 LR statistic (9 df) 386.3197 LR index (Pseudo-R2) 0.079102 Probability(LR stat) 0.000000 Tabel 6.Model Poisson Regression Contoh 3. Sebagai ilustrasi koefisien black=0.66 dengan benchmark kulit putih maka parameter ini berarti dengan mengasumsikan hal lain konstan, orang kulit hitam memiliki 66% frekuensi penahanan yang lebih tinggi dibandingkan orang kulit putih. IV. Censored Regression Model censored regression dilakukan ketika karena satu hal kita harus membatasi nilai yang dapat diambil oleh suatu variabel dependen. Sebagai contoh dalam penelitian yang bersifat survey terhadap variabel pengeluaran per bulan dimana variabel ini dijadikan bersifat kategorik. Kuesioner tentunya tidak akan mencantumkan setiap pilihan jumlah pengeluaran yang jelas biasanya akan ada batas atas dan batas bawah. Batas atas terjadi misalnya dalam kuesioner terdapat pilihan lebih dari 5 juta per bulan (right censoring) dan dibawah 1 juta per bulan (left censoring). Begitu seorang responden memilih opsi ini kita tidak akan mengetahui dengan akurasi yang baik pengeluaran yang sebenarnya, ia mungkin memiliki pengeluaran 5,5 juta tetapi bisa juga 100 juta. Tentu saja implikasi analisis dari dua data semacam ini sangat berbeda tetapi kita telah mengabaikannya. Sebagai contoh suatu (right) censored regression dapat dimodelkan sebagai y x u u x c Normal w 2 i = β0 + iβk + i; i i, i (0, σ ) = min( y, c ) i i i 13) dimana c i adalah batas atas. Dengan demikian nilai variabel y adalah mana yang lebih kecil y i atau c i. Parameter regresi dapat diestimasi dengan menggunakan teknik MLE, dimana observasi yang disensor diharapkan memiliki probabilitas sebagai berikut: Contoh 4. [ x β σ ] f ( wxi, ci) = 1 Φ ( ci i )/ ; w= ci 1 = φ[ ( w xiβ) / σ] ; w< ci σ 14) 11

Dengan menggunakan data Recid.raw dilakukan estimasi durasi (dalam bulan) seorang residivis yang telah bebas untuk kembali ditangkap. Durasi tentu saja tidak mungkin negatif dengan demikian ia adalah left censored dititik nol sedangkan durasi ditangkap kembali dapat mencapai beberapa tahun kemudian sehingga perlu suatu batas atas (disini digunakan 70 bulan). Berbagai variabel digunakan untuk menjelaskan durasi diantaranya lama kepesertaan pelatihan kerja dipenjara (wrkprg), sudah berapa kali masuk penjara (priors), total waktu dipenjara (tserved), dsb. Hasil regresi terhadap 1445 sampel diperoleh pada tabel 7. Dependent Variable: LOG(DURAT) Method: ML - Censored Normal (TOBIT) (Quadratic hill climbing) Date: 06/23/08 Time: 08:22 Sample: 1 1445 Included observations: 1445 Left censoring (value) series: 0 Right censoring (value) series: 70 Convergence achieved after 3 iterations Covariance matrix computed using second derivatives Coefficient Std. Error z-statistic Prob. C 3.567525 0.138174 25.81901 0.0000 WORKPRG 0.007993 0.049024 0.163040 0.8705 PRIORS -0.060028 0.009208-6.518902 0.0000 TSERVED -0.009377 0.001303-7.197627 0.0000 FELON 0.178753 0.058497 3.055778 0.0022 ALCOHOL -0.263500 0.059903-4.398816 0.0000 DRUGS -0.089668 0.055023-1.629647 0.1032 BLACK -0.179162 0.047511-3.770965 0.0002 MARRIED 0.135223 0.055522 2.435496 0.0149 EDUC 0.005333 0.009941 0.536425 0.5917 AGE 0.001332 0.000225 5.912596 0.0000 Error Distribution SCALE:C(12) 0.877626 0.016408 53.48774 0.0000 R-squared 0.108747 Mean dependent var 3.745150 Adjusted R-squared 0.101906 S.D. dependent var 0.925045 S.E. of regression 0.876645 Akaike info criterion 2.600005 Sum squared resid 1101.269 Schwarz criterion 2.643818 Log likelihood -1866.503 Hannan-Quinn criter. 2.616357 Avg. log likelihood -1.291698 Left censored obs 8 Right censored obs 0 12

Uncensored obs 1437 Total obs 1445 Tabel 7.Model Censored Regression Contoh 4. Intrepretasi pada model censored regressi0n adalah sama seperti Poisson regression, sebagai contoh koefisien priors bernilai 0.06 dengan demikian peningkatan 1 unit frekuensi masuk penjara akan mengurangi durasi sebesar 6% (lebih cepat ditangkap 6%). V. Sample Selection Correction Dalam operasional penelitian kita mungkin menghadapi kasus dimana suatu non random sampling harus ditempuh. Hal ini dapat terjadi secara tidak sengaja, misalnya setelah melakukan rekapitulasi data diketahui bahwa missing data atau informasi yang ada tidak dapat dipercaya untuk suatu interval nilai variabel (misalnya pengeluaran). Dalam hal ini data disebut bersifat truncated. Mengeluarkan data ybs akan berpotensi menimbulkan bias karena pola data defect yang tidak random. Grafik 2 menunjukkan bias yang mungkin timbul karena truncated data. Grafik 2. Bias yang terjadi ketika data adalah truncated. Contoh lain yang biasa disebut incidental truncation adalah pada penelitian ketenaga kerjaan. Kita tertarik untuk mengamati berapa gaji yang diinginkan seseorang dikaitkan dengan berbagai variabel misalnya pendidikan, usia, pengalaman, dsb (fungsi wage offer). Penelitian yang biasa dilakukan akan menggunakan mereka yang telah bekerja, bagaimana mereka yang belum (sedang menganggur)?. Tidak memasukkan observasi dari golongan ini akan menimbulkan bias pada penelitian. Kita mengetahui bahwa OLS akan tetap tidak bias dan konsisten jika permasalahan truncated data bisa diatas dengan exogenous sample 13

selection. Dengan teknik ini resampling dilakukan kembali pada data yang ada dengan cara yang random pada variabel bebas. Hal ini tidak dapat dilakukan ketika masalah adalah bersifat incidental truncation. Kita telah mengabaikan suatu sub populasi yakni mereka yang berada pada fase menganggur. Heckman (1976) telah mengajukan saran untuk mengatasi masalah ini (disebut dengan metoda Heckit). Adapun langkah-langkah yang dilakukan adalah 1. Misalnya kita akan mengestimasi suatu model regresi y terhadap serangkaian variabel bebas x, sbb y = xβ + u; E( u x) = 0 [ zγ v ] s= 1 + 0 15) 16) Dimana s=1 jika kita dapat mengobservasi y dan nol jika tidak. 2. Disini kita mengasumsikan bahwa set variabel bebas x adalah subset dari z (dengan kata lain setiap x j adalah elemen dari z tetapi terdapat beberapa elemen z yang tidak termasuk pada x). Error term v diasumsikan tidak tergantung pada z (dan dengan demikian x). 3. Error term u dipengaruhi oleh v melalui permasalahan sample selection (adanya observasi yang secara sistematis tidak dapat diperoleh datanya), dan diharapkan bersifat linier, atau Euv ( ) = ρv E( y zs, ) = xβ + ρevzs (, ) 17) 4. Dapat ditunjukkan bahwa jika s=1 maka E(v z,s) adalah Mills inverse rasio dan dapat diestimasi sebagai λ(zγ) dengan teknik probit atau Ps ( = 1 z) =Φ( zγ ) 18) 5. Jika data yang dimiliki mengalami sample selection problem dan dengan demikian perlu diperbaiki dengan menggunakan model Heckitt (persamaan 17) maka hal ini dapat dilihat dari pengujian dua arah terhadap ρ. Jika ρ adalah signifikan secara statistik maka data memang mengalami masalah sample selection dan estimator dari Hekcitt lebih diinginkan. Contoh 5. Sebagai ilustrasi Heckman Procedure, kita kembali menggunakan data Mroz.raw. Perhatikan bahwa hanya 428 elemen sample yang berstatus pekerja pada data, dengan demikian data yang dimiliki memenuhi criteria 14

truncated. Selanjutnya kita asumsikan bahwa wage offer hanya dipengaruhi oleh educ, exper dan exper 2 (persamaan 15). Sedangkan estimasi persamaan 18, diasumsikan meliputi variabel wage offer ditambah nwifeinc, age, kidslt6 dan kidsge6. Estimasi model probit pada seluruh sample diperoleh hasil pada tabel 8. Perhatikan kita perlu mentransformasikan variabel wage menjadi s dengan menotasikan 0 bagi wage=na (non working woman) dan 1 bagi working woman. Hal ini dilakukan pada menu quick/generate series dan isikan s=wage<>na. Dependent Variable: S Method: ML - Binary Probit (Quadratic hill climbing) Sample: 1 753 Included observations: 753 Variable Coefficient Std. Error z-statistic Prob. C 0.270077 0.508593 0.531027 0.5954 NWIFEINC -0.012024 0.004840-2.484327 0.0130 EDUC 0.130905 0.025254 5.183485 0.0000 EXPER 0.123348 0.018716 6.590348 0.0000 EXPER^2-0.001887 0.000600-3.145205 0.0017 AGE -0.052853 0.008477-6.234656 0.0000 KIDSLT6-0.868329 0.118522-7.326288 0.0000 KIDSGE6 0.036005 0.043477 0.828142 0.4076 Mean dependent var 0.568393 S.D. dependent var 0.495630 S.E. of regression 0.425945 Akaike info criterion 1.087124 Sum squared resid 135.1646 Schwarz criterion 1.136251 Log likelihood -401.3022 Hannan-Quinn criter. 1.106050 Restr. log likelihood -514.8732 Avg. log likelihood -0.532938 LR statistic (7 df) 227.1420 McFadden R-squared 0.220581 Probability(LR stat) 0.000000 Obs with Dep=0 325 Total obs 753 Obs with Dep=1 428 Tabel 8.Heckman Procedure Tahap 1. Bentuk series baru, dengan mengetikkan pada command window, series v=resid. Series ini adalah inverse mills rasio dan estimasi hanya pada sample dimana s=1, menghasilkan model koreksi sample (Hekcman procedure) yang diinginkan (persamaan 17). Dependent Variable: LOG(WAGE) Method: Least Squares Sample: 1 753 IF WAGE<>NA 15

Included observations: 428 Variable Coefficient Std. Error t-statistic Prob. C -0.547839 0.308838-1.773872 0.0768 EDUC 0.108225 0.015682 6.901252 0.0000 EXPER 0.042620 0.016343 2.607849 0.0094 EXPER^2-0.000833 0.000440-1.893434 0.0590 V 0.024819 0.227322 0.109180 0.9131 R-squared 0.156844 Mean dependent var 1.190173 Adjusted R-squared 0.148871 S.D. dependent var 0.723198 S.E. of regression 0.667198 Akaike info criterion 2.040154 Sum squared resid 188.2998 Schwarz criterion 2.087574 Log likelihood -431.5929 F-statistic 19.67165 Durbin-Watson stat 1.959921 Prob(F-statistic) 0.000000 Tabel 9. Heckman Procedure Tahap 2. Perhatikan disini nilai koefisien ˆλ, adalah sangat kecil sehingga dapat dikatakan bahwa kita tidak memiliki sample selection problem. Hipotesis null ρ=0 tidak dapat ditolak. Dengan membandingkan dengan teknik OLS tanpa penyesuaian apapun terlihat bahwa koefisien dan tingkat signifikansi tidak banyak berubah. Sehingga tidak ada alasan yang cukup kuat untuk memilih estimator yang diperoleh dari Prosedur Heckman. Dependent Variable: LOG(WAGE) Method: Least Squares Date: 06/23/08 Time: 09:18 Sample: 1 753 IF WAGE<>NA Included observations: 428 Variable Coefficient Std. Error t-statistic Prob. C -0.522041 0.198632-2.628179 0.0089 EDUC 0.107490 0.014146 7.598332 0.0000 EXPER 0.041567 0.013175 3.154906 0.0017 EXPER^2-0.000811 0.000393-2.062834 0.0397 R-squared 0.156820 Mean dependent var 1.190173 Adjusted R-squared 0.150854 S.D. dependent var 0.723198 S.E. of regression 0.666420 Akaike info criterion 2.035509 Sum squared resid 188.3051 Schwarz criterion 2.073445 Log likelihood -431.5990 F-statistic 26.28615 Durbin-Watson stat 1.960988 Prob(F-statistic) 0.000000 Tabel 10. Print Out OLS Contoh 5. 16