LECTURE 9 REGRESI LOGISTIK & DISKRIMINAN DR. MUDRAJAD KUNCORO, M.Soc.Sc Fakultas Ekonomi & Pascasarjana UGM Outline: Multinomial Regresi Binary Logistik Analisis Diskriminan Perbandingan multinomial, binary, dan diskriminan
ANALISIS REGRESI LOGISTIK Tidak memiliki asumsi normalitas atas variabel bebas yang digunakan dalam model Variabel bebas bisa variabel kontinyu, diskrit, dan dikotomis Distribusi respon atas variabel terikat diharapkan nonlinear Jenis: binary logistic regression multinomial logistic regression
STUDI KASUS WANITA KARIR VS IBU RT Studi kasus mengenai probabilitas wanita karir dan ibu rumah tangga (Tabachnick, 1996: bab 12) Pertanyaan yang hendak dijawab adalah: apakah status pekerjaan (wanita karir versus ibu rumah tangga) dapat dijelaskan oleh empat variabel perilaku (ATTHOUSE, ATTMAR, ATTROLE, dan CONTROL) Keempat variabel penjelas tersebut adalah: ATTHOUSE= perilaku terhadap pekerjaan di dalam rumah. ATTMAR=perilaku terhadap status pernikahan. ATTROLE= perilaku terhadap perannan/hak wanita. CONTROL= kemampuan mengendalikan diri (locus of control).
Tahapan Estimasi Regresi Logistik Multinomial (1)
Tahapan Estimasi (2)
Hasil Output SPSS Dari hasil overall classification result untuk regresi logistik multinomial ternyata kurang baik. Persentase kebenaran klasifikasi untuk ibu RT bahagia dan ibu RT tidak bahagia yang di bawah 50 %, yaitu 23.1% dan 3.9%, menunjukkan banyak salah klasifikasi untuk ibu RT bahagia dan tidak bahagia. Oleh karenanya, kita perlu melakukan klasifikasi ulang dan menggunakan regresi logistik binari. Model Fitting Information Model Intercept Only Final -2 Log Likelihood Chi-Square df Sig. 884.175 836.411 47.764 8.000 Chi square signifikan pada derajat 1% dengan nilai 47,8. artinya model dengan hanya intercept berbeda secara statistik dibandingkan dengan model yang memasukkan semua variabel prediktor. Classification Observed wanita karir ibu RT bahagia ibu RT tidak bahagia Overall Percentage Predicted ibu RT ibu RT tidak Percent wanita karir bahagia bahagia Correct 213 25 2 88.8% 98 30 2 23.1% 63 10 3 3.9% 83.9% 14.6% 1.6% 55.2%
Tahapan Estimasi Binary Logistic Regression Klasifikasi ulang: Mengubah values pada workstat 1 wanita karir,, 2 Ibu 2 RT bahagia,, 3 Ibu RT tidak bahagia, dan values pada status 3 wanita karir dan 4 Ibu RT
Tahapan Estimasi dengan Logit (1)
Tahapan Estimasi Binary Logistic Regression (2)
Tahapan Estimasi Binary (3)
Output Estimasi Regresi Logistik Binari Omnibus Tests of Model Coefficients Step 1 Observed Step 1work status Chi-square df Sig. Step 22.781 4.000 Block 22.781 4.000 Model 22.781 4.000 Classification Table a Ibu RT Overall Percentage a. The cut value is.500 wanita karir Predicted work status Percentage Ibu RT wanita karir Correct 96 110 46.6 69 171 71.3 59.9 Pengujian dengan model penuh dengan 4 variabel bebas dibanding model hanya dengan konstanta terbukti secara statistik dapat dipercaya. Ini terlihat dari Chi-Square(4, N=440)=22.78 yang signifikan dengan p<,001 artinya model dengan hanya intercept berbeda secara statistik dibandingkan dengan model yang memasukkan semua variabel prediktor. Kemampuan prediksi model ini lumayan bagus. Tingkat sukses total 60%, dengan 46.6% ibu RT dan 71.3% wanita karir telah mampu diprediksi secara benar
Output Estimasi Binary Regresi Correlation Matrix Step 1 Constant ATTHOUSEATTROLE ATTMAR CONTROL Constant 1.000 -.618 -.726 -.036 -.414 ATTHOUSE -.618 1.000.313 -.230 -.113 ATTROLE -.726.313 1.000 -.036 -.016 ATTMAR -.036 -.230 -.036 1.000 -.165 CONTROL -.414 -.113 -.016 -.165 1.000 Step 1 a ATTHOUS ATTROLE ATTMAR CONTRO Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) Lower Upper -.032.023 1.826 1.177.969.925 1.014 -.070.016 19.851 1.000.932.904.962.014.012 1.345 1.246 1.014.991 1.038 -.055.077.506 1.477.947.814 1.101 3.423.978 12.255 1.000 30.656 5.0% C.I.for EXP(B a. Variable(s) entered on step 1: ATTHOUSE, ATTROLE, ATTMAR, CONTROL.
Output Estimasi Binary Logistik Matriks korelasi menunjukkan tidak adanya multikolinearitas yang serius antarvariabel bebas, sebagaimana terlihat dari nilai korelasi antarvariabel bebas yang di bawah 0,8. Hasil di atas juga menyajikan koefisien regresi, statistik Wald, odds ratio, serta interval dengan keyakinan 95% atas odds ratio untuk masing-masing variabel bebas. Menurut kriteria Wald, hanya variabel perilaku terhadap peranan wanita yang dapat diandalkan untuk memprediksi status pekerjaan wanita. Ini terlihat dari nilai z sebesar 19.8 dengan p<0,01. Odds ratio 0,93 menunjukkan adanya sedikit perubahan dalam kemungkinan bekerja atas dasar satu unit perubahan perilaku terhadap peranan wanita.
ANALISIS DISKRIMINAN - Semua variabel independen merupakan variabel yang kontinyu dan berdistribusi normal - Tujuan utama: diskriminasi: Pembedaan grup dicapai dengan fungsi diskriminan klasifikasi: mengklasifikan individu/obyek ke dalam grup terpisah berdasarkan sejumlah variabel bebas
Studi tentang Kluster Industri Michael E. Porter Innovation: Location Matters (2001) Competing Across Locations (1998) On Competition (1998) The Role of Geography in the Process of Innovation and the Sustainable (1998) Competitive Advantage of Firms (1998) Clusters and the New Economics of Competition (1998) Mudrajad Kuncoro Analisis Spasial & Regional: Studi Aglomerasi dan Kluster Industri Indonesia (2002) Why Manufacturing Industry Persisted to Cluster Spatially in Java?, Gadjah Mada International Journal of Business (2003), 5(2) Regional Clustering Of Indonesia s Manufacturing Industry: A Spatial Analysis with Geographic Information System (GIS), Gadjah Mada International Journal of Business (2001), 3(3)
Kasus IKRT di Jawa Sebagai contoh aplikasi analisis diskriminan akan disajikan studi empiris mengenai industri kecil dan rumah tangga (IKRT) di Jawa (Kuncoro, 2000) Pertanyaan penelitian yang hendak dijawab adalah: Apakah sentra-sentra IKRT di Jawa merupakan industrial district dengan ciri-ciri yang menonjol? Untuk memudahkan analisis, kita mengklasifikasikan sentra-sentra industri dan non-sentra industri Di = di1 RURAL + di2 WAGES + di3 SKILL + di4 STEP + di5age + di6 POP + di7 UNPAIDW + di8 PRODUCTIVITY Variabel: proporsi daerah perdesaan (RURAL) upah rata-rata (WAGES) jumlah tenaga terdidik dengan pendidikan minimum SMU (SKILL) proporsi perusahaan yang terlibat dalam program Bapak Angkat (STEP) rata-rata umur perusahaan (AGE) jumlah penduduk (POP) proporsi pekerja keluarga (UNPAIDW) produktivitas tenaga kerjada (PRODUCTIVITY)
Tahapan Estimasi Diskriminan
Tahapan Estimasi Diskriminan define range min: 0, max: 1
Tahapan Estimasi Diskriminan klik statistics
Tahapan Estimasi Diskriminan klik classify
Output Estimasi Diskriminan Original a. Count % Industrial clusters Non-industrial clusters Industrial clusters Non-industrial clusters Industrial clusters Classification Results a 86.4% of original grouped cases correctly classified. Predicted Group Membership Non-industrial Industrial clusters clusters Total 52 6 58 8 37 45 89.7 10.3 100.0 17.8 82.2 100.0 Secara umum model diskriminan ini mampu mengalokasikan secara benar lebih dari 86% kasus. Tabel diatas menyajikan ringkasan klasifikasi dari model tsb, yang hanya gagal mengalokasikan 6 kabupaten ke dalam non-sentra industri dan 8 kasus untuk sentra industri. Akibatnya, keanggotan grup secara benar telah diprediksi sebesar 89.7% untuk non-sentra industri dan 82.2% untuk sentra industri.
Output Estimasi Diskriminan Wilks' Lambda Test of Function( 1 Wilks' Lambda Chi-square df Sig..407 87.312 8.000 Tabel diatas memperlihatkan chi-square yang tinggi dan signifikan pada derajat kepercayaan 1% yaitu sebesar 87.312. Artinya model dengan hanya intercept berbeda secara statistik dibandingkan dengan model yang memasukkan semua variabel prediktor
Output Estimasi Diskriminan Average wages Family workers proportion Rural proportion Productivity of labour Age of firm Step father proportion Number of skilled workers Population Structure Matrix Function 1.667 -.659 -.656.558 -.319.232.054.041 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. upah merupakan variabel terbaik untuk memprediksi lokasi IKRT di sentra industri dan non-sentra industri. Koefsien untuk upah yang positif menunjukkan bahwa semakin tinggi upah semakin besar kemungkinan IKRT mengelompok di sekitar sentra industri Proporsi tenaga kerja keluarga dan proporsi yang tinggal di perdesaan memiliki daya prediksi yang kurang lebih sama dengan tanda negatif. Tanda koefisien yang negatif menunjukkan bahwa semakin rendah proporsi pekerja keluarga dan proporsi pedesaan dalam suatu kabupaten maka akan mendorong IKRT untuk mengelompok di seputar sentra industri.
HOMEWORK 1.Untuk kasus studi wanita: a. coba anda lakukan estimasi dengan model diskriminan, baik dengan 3 klasifikasi (workstat) dan 2 klasifikasi (STATUS), dengan menggunakan prediktor yang sama. b. Bandingkan hasil estimasi dengan diskriminan dan regresi logistik. c. Interpretasikan hasil berdasarkan model yang menurut anda paling baik. 2.Untuk kasus IKRT di Jawa: a. Bandingkan hasil estimasi model diskriminan dengan 2 klasifikasi daerah (D) dan 3 klasifikasi (GROUP3). b. Bandingkan hasil estimasi dengan diskriminan dan regresi logistik.