STK511 Analisis Statistika Pertemuan 10 Analisis Korelasi & Regresi (1)
Analisis Hubungan Jenis/tipe hubungan Ukuran Keterkaitan Skala pengukuran peubah Pemodelan Keterkaitan anang kurnia (anangk@apps.ipb.ac.id) 2
Relationship vs Causal Relationship Tidak semua hubungan (relationship) berupa hubungan sebab-akibat Penentuan suatu hubungan bersifat sebab-akibat memerlukan well-argued position dari bidang ilmu terkait anang kurnia (anangk@apps.ipb.ac.id) 3
Skala Pengukuran Data/Variabel Categorical Numeric Nominal Ordinal Interval Ratio Hanya nama/lambang Ordered: A>B>C>D>E Hanya mengukur selisih tidak mampu mengukur Nisbah/rasio Mampu Mengukur Nisbah/rasio anang kurnia (anangk@apps.ipb.ac.id) 4
Ditentukan oleh: 1. Skala pengukuran data/peubah 2. Jenis hubungan antar peubah Causal relationship Y Relationship Numerik Kategorik Numerik Kategorik X Numerik Kategorik Numerik Regresi Linier ANOVA Kategorik Alat Analisis Pola Hubungan Korelasi PEARSON, SPEARMAN Tabel Ringkasan Korelasi Biserial Regresi Logistik, Diskriminan, Classification and Regression Tree, anang Neural kurnia (anangk@apps.ipb.ac.id) Network Tabel Ringkasan Korelasi Biserial SPEARMAN (ordinal), CHI SQUARE Korelasi Tetrachoric Regresi Logistik Classification and Regression Tree Neural Network
Hubungan Keterkaitan Peubah Secara Linier Analisis Korelasi
Peubah kontinu 10. Analisis Korelasi & Regresi Koefisien Korelasi (linier) tidak menggambarkan hubungan sebab akibat nilainya berkisar antara -1 dan 1 tanda (+) / (-) arah hubungan (+) searah; (-) berlawanan arah Peubah kontinu anang kurnia (anangk@apps.ipb.ac.id) 7
Koefisien korelasi (linier) anang kurnia (anangk@apps.ipb.ac.id) 8
Pola hubungan peubah vs koefisien korelasi anang kurnia (anangk@apps.ipb.ac.id) 9
Parametrik vs Nonparametrik LINEAR RELATIONSHIP TREND RELATIONSHIP RANK CORRELATION PEARSON CORRELATION SPEARMAN CORRELATION anang kurnia (anangk@apps.ipb.ac.id) 10
Parametrik vs Nonparametrik Pearson correlation Spearman correlation r S S xy xy x S S x xy S y ( x i ( x x)( y i n 1 x) n 1 2 i y) dan S y ( y i n 1 y) 2 R = peringkat dari X S = peringkat dari Y = rataan peringkat X = rataan peringkat Y anang kurnia (anangk@apps.ipb.ac.id) 11
Parametrik vs Nonparametrik 20 16 12 8 4 Pearson: r p = 0.95 Spearman: r s = 1 0 0 2 4 6 anang kurnia (anangk@apps.ipb.ac.id) 12
Pengujian Korelasi Ho : tidak ada Korelasi ( = 0) H1 : Ada korelasi ( 0) Statistik uji : t r n 2 1 r 2, db = n-2 Hipotesis nol lebih umum(ho : = p) : z z( r) z( p) 1/( n 3) z( r) 1 (1 r) ln( ) 2 (1 r) anang kurnia (anangk@apps.ipb.ac.id) 13
PENDAPATAN 10. Analisis Korelasi & Regresi Ilustrasi: Hubungan antara usia dengan pendapatan 220 200 Correlations: Usia, Pendapatan 180 160 Pearson correlation of Usia and Pendapatan = 0.693 P-Value = 0.000 140 120 100 52 56 60 64 68 72 76 USIA anang kurnia (anangk@apps.ipb.ac.id) 14
Analisis Regresi Linier
Regresi Linier Mendapatkan model hubungan antar peubah Menduga nilai suatu peubah berdasarkan nilai peubah lainnya Menganalisis hubungan/pengaruh antara satu atau lebih peubah numerik terhadap sebuah peubah numerik lain Model Umum Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k + e Y peubah respon X peubah bebas b 0,, b k koefisien regresi anang kurnia (anangk@apps.ipb.ac.id) 16
Regresi Linier Pengertian regresi : 1. Tempat kedudukan nilai tengah dari peubah Y (peubah respon) untuk berbagai nilai atau selang nilai peubah X (peubah bebas). membentuk garis atau kurva 2. Usaha mengepas suatu fungsi atau kurva terhadap pencaran titik-titik pada sistem salib sumbu X-Y. jika data terbatas, hanya ada beberapa nilai Y untuk setiap nilai X anang kurnia (anangk@apps.ipb.ac.id) 17
Regresi Linier Plot antara umur vs berat badan Plot antara kelembaban ruang penyimpanan vs kandungan air bahan anang kurnia (anangk@apps.ipb.ac.id) 18
Regresi Linier : tujuan Deskripsi data: penyarian data dan pembandingan Gambaran hubungan sebab akibat: X menyebabkan Y dengan kontrol yang baik terhadap faktor lain Peningkatan ketelitian dalam pembandingan: ANCOVA Prediksi: memperkirakan nilai Y berdasarkan nilai X tertentu, diperlukan hubungan sebab akibat yang cukup tepat Penyusunan model dugaan: pola hubungan antara peubah penjelas dengan peubah respon. anang kurnia (anangk@apps.ipb.ac.id) 19
Model Regresi Model Linier peubah respon merupakan kombinasi linier dari parameter-parameter Regresi Linier Sederhana Y i = 0 + 1 X i + i Regresi Linier Berganda Y i = 0 + 1 X 1i + + k X ki + i Regresi Polynomial Y i = 0 + 1 X i + 2 X 2 i + i Model Non Linier peubah respon bukan merupakan kombinasi linier dari parameter-parameter Model Cobb-Douglas Y i = 0 L i 1 K i 2 anang kurnia (anangk@apps.ipb.ac.id) 20
Analisis Regresi Linier Sederhana Perhatikan hubungan linier Y dengansatu X berdasarkan model Y i = 0 + 1 X i + i 0 adalah nilai Y ketika X = 0, sedangkan 1 adalah perubahan nilai Y untuk setiap perubahan 1 satuan X. anang kurnia (anangk@apps.ipb.ac.id) 21
Penduga OLS (ordinary least squares) Mencari penduga koefisien regresi sehingga jumlah kuadrat dari residual (error) sekecil-kecilnya. Meminimumkan e 2 Merupakan penduga yang bersifat tak bias dan terbaik (minimum variance) jika error bersifat independently and identically distributed (iid). anang kurnia (anangk@apps.ipb.ac.id) 22
Sedikit tentang OLS anang kurnia (anangk@apps.ipb.ac.id) 23
SALDO 10. Analisis Korelasi & Regresi Ilustrasi Model hubungan antara besarnya saldo di bulan tertentu dengan jumlah nasabah dari berbagai kantor cabang suatu bank 1,200 1,000 Persamaan Regresi Linier Y 349.79 0.093 X 800 600 Konstanta/intersep Nilai Y saat X=0 400 200 0 2,000 4,000 6,000 8,000 10,000 Slope: Besar perubahan Y akibat kenaikan satuan X JMLNASABAH anang kurnia (anangk@apps.ipb.ac.id) 24
Ilustrasi Regression Analysis: Saldo versus Jumlah Nasabah The regression equation is Saldo = 350 + 0.0929 Jumlah Nasabah Predictor Coef SE Coef T P Constant 349.79 61.81 5.66 0.000 Jumlah Nasabah 0.09286 0.01705 5.44 0.000 S = 162.079 R-Sq = 67.9% R-Sq(adj) = 65.6% Analysis of Variance Source DF SS MS F P Regression 1 778763 778763 29.65 0.000 Residual Error 14 367774 26270 Total 15 1146537 anang kurnia (anangk@apps.ipb.ac.id) 25
Uji dan Kebaikan Model Regresi Bagaimana Pengujian terhadap model regresi?? parsial (per koefisien) uji-t bersama uji-f (Anova) Bagaimana menilai kesesuaian model?? R 2 Koef. Determinasi (% keragaman Y yang mampu dijelaskan oleh X) anang kurnia (anangk@apps.ipb.ac.id) 26
Uji Hipotesis H 0 : 1 =0 vs H 1 : 1 0 ANOVA (Analysis of Variance) Uji F n i1 ( y i y) 2 n i1 ( yˆ i y) 2 n i1 ( y i yˆ i ) 2 JK total = JK regresi + JK error Keragaman total = keragaman yang dapat dijelaskan oleh model + keragaman yang tidak dapat dijelaskan oleh model Anova Sumber db JK KT F Regresi 1 JKR KTR KTR/KTE Error n - 2 JKE KTE Total n - 1 JKT F ~ F (1,n-2) anang kurnia (anangk@apps.ipb.ac.id) 27
Uji Hipotesis H 0 : 1 =0 vs H 1 : 1 0 Uji Parsial Statistik uji: t s hit b 1 b s b 1 1 s, s ( y yˆ ) i 2 ( xi x) n 2 i 2 Selang kepercayaan: b t s 1 /1,( n2) b 1 anang kurnia (anangk@apps.ipb.ac.id) 28
Kebaikan Model Dilihat dari nilai koefisien determinasi (R 2 ) merupakan ukuran seberapa besar keragaman dari peubah respon (y) dapat dijelaskan oleh model (peubah penjelas (x)) Nilainya antara 0-100%, semakin mendekati 100% maka semakin bagus 2 R 2 R adj SSR SST SSE / dfe 1 1 SST / dft MSE MST anang kurnia (anangk@apps.ipb.ac.id) 29
Ilustrasi Regression Analysis: Saldo versus Jumlah Nasabah The regression equation is Saldo = 350 + 0.0929 Jumlah Nasabah Predictor Coef SE Coef T P Constant 349.79 61.81 5.66 0.000 Jumlah Nasabah 0.09286 0.01705 5.44 0.000 S = 162.079 R-Sq = 67.9% R-Sq(adj) = 65.6% R 2 =67.9 artinya keragaman dari total saldo dapat diterangkan oleh besarnya jumlah nasabah sebesar 67.9% sedangkan sisanya diterangkan oleh faktor lain anang kurnia (anangk@apps.ipb.ac.id) 30
Asumsi Model Regresi Nilai mean dari peubahpeubah Y dimodelkan secara akurat oleh fungsi linier dari peubah-peubah X. Istilah galat acak,, diasumsikan menyebar normal dengan nilai tengah nol dan memiliki ragam yang konstan, 2. Galat bersifat independen/saling bebas anang kurnia (anangk@apps.ipb.ac.id) 31
Diagnostik Model Melakukan pengecekan terhadap asumsi dapat dilakukan melalui evaluasi residual Konsep Analisis Residual dalam Regresi anang kurnia (anangk@apps.ipb.ac.id) 32
Pemeriksaan Pelanggaran Asumsi Diagnostic Plots Plot antara Standardized Residuals vs Predicted Values Plot Peluang Normal (normal probability plot) dari Residual Histogram Residual Uji Formal anang kurnia (anangk@apps.ipb.ac.id) 33
Pemeriksaan Pelanggaran Asumsi Heterogen Homogen anang kurnia (anangk@apps.ipb.ac.id) 34
Pemeriksaan Pelanggaran Asumsi Masih terlihat pola, tidak linear? Terlihat acak sisaannya anang kurnia (anangk@apps.ipb.ac.id) 35
Pemeriksaan Pelanggaran Asumsi Tidak normal Normal anang kurnia (anangk@apps.ipb.ac.id) 36
Bersambung. anang kurnia (anangk@apps.ipb.ac.id) 37