Pertemuan 8 STATISTIKA INDUSTRI 2 TIN 4004 Outline: Regresi Linier Sederhana dan Korelasi (Simple Linier Regression and Correlation) Referensi: Montgomery, D.C., Runger, G.C., Applied Statistic and Probability for Engineers, 5 th Ed. John Wiley & Sons, Inc., 2011. Walpole, R.E., Myers, R.H., Myers, S.L., Ye, K., Probability & Statistics for Engineers & Scientists, 9 th Ed. Prentice Hall, 2012. Introduction to Linier Regression Introduction to Linier Regression Dasar: studi mengenai hubungan dua atau lebih variabel Deterministik linier: Single variable: Y = β 0 + β 1 x Multiple variable: Y = β 0 + β 1 x 1 + β 2 x 2 Y : Dependent Variable / responses x : Independent Variable / regressors β 0 = intercept β 1 = slope Introduction to Linier Regression Kondisi nyata: sangat jarang terjadi deterministik linier Contoh: Konsumsi energi rumah tangga, dipengaruhi oleh ukuran rumah Pemakaian BBM, dipengaruhi berat muatan ANALISA REGRESI: Pertama kali digunakan oleh Sir Francis Galton, untuk studi keterkaitan tinggi seorang ayah dan anak laki-laki-nya. Tool statistik yang digunakan untuk memodelkan dan mengeksplorasi hubungan antara variabel yang nondeterministik Digunakan untuk melakukan peramalan / prediksi, optimasi 1
Karl Gauss: mengusulkan cara estimasi β 0 dan β 1, sehingga meminimasi sum of square deviasi vertikal Estimasi β 0 dan β 1 pada SLR: ϵ : random error; dengan mean = 0, σ 2 tidak diketahui n : jumlah observasi Variansi (σ 2 ) titik observasi: variasi error pada persamaan regresi linier σ 2 diestimasikan dengan s 2 Berdasarkan data tabel di atas (pengaruh hydrocarbon terhadap purity / kemurnian udara): Hitung s 2 nya! 2
Estimasikan persamaan garis regresi untuk data pada tabel di bawah ini (hitung pula estimasi variansi errornya). Misalnya X adalah persentase kenaikan biaya periklanan dan Y adalah persentase kenaikan hasil penjualan. Berapakah besarnya ramalan persentase kenaikan penjualan jika biaya iklan dinaikkan menjadi 15%? Tentukan variansi (kesalahan baku) regresi linier yang terbentuk. X (%) Y (%) 1 2 2 4 4 5 5 7 7 8 9 10 10 12 Menggunakan Uji-t Dilakukan untuk menduga nilai parameter model regresi dan membentuk confidence intervals Asumsi ϵ berdistribusi normal Pengujian yang dilakukan: T hitung: H 0 : β 1 = β 10 s 2 vs H 1 : β 1 β 10 H 1 : β 1 > β 10 H 1 : β 1 < β 10 H 0 : β 1 = β 10 H 1 : β 1 β 10 H 1 : β 1 > β 10 H 1 : β 1 < β 10 H 0 : β 1 = 0 H 1 : β 1 0 H 0 : β 0 = β 00 H 1 : β 0 β 00 β 00 : konstanta Daerah penolakan: t 0 > t α,n 2 t 0 < t α,n 2 Degree of freedom = n 2 β 10 : konstanta T hitung: H 0 : β 1 = 0 H 1 : β 1 0 vs T 0 = β 1 s 2 S xx Daerah penolakan: H 0 : β 0 = β 00 vs T hitung: β 0 β 00 T 0 = s 2 n 1 x 2 i (ns xx ) Daerah penolakan: H 1 : β 0 β 00 H 1 : β 0 > β 00 H 1 : β 0 < β 00 Degree of freedom = n 2 t 0 > t α,n 2 t 0 < t α,n 2 Degree of freedom = n 2 3
H 0 : β 1 = 0 vs H 1 : β 1 0 Jika H 0 diterima, artinya tidak ada hubungan linier antara x dan Y. Jika H 0 diterima, artinya x sedikit mempengaruhi variasi nilai Y, dengan estimator terbaik untuk Y oleh setiap nilai x adalah y = Y. (gambar a) Jika H 0 diterima, memang benar antara x dan Y tidak ada hubungan linier. (gambar b) H 0 : β 1 = 0 vs H 1 : β 1 0 Jika H 0 ditolak, artinya x memilik pengaruh pada variabilitas nilia Y. Jika H 0 ditolak, artinya terdapat cukup hubungan linier antara x dan Y. (gambar a) Jika H 0 ditolak, artinya terdapat hubungan linier antara x dan Y, namun lebih tepat digambarkan dengan hubungan polynomial yang lain (gambar b). : Lakukan uji hipotesa pada parameter slope tidak sama dengan nol untuk model regresi linier pengaruh hydrocarbon terhadap purity / kemurnian udara di atas (diketahui α = 0,01). Pendugaan Interval Koefisien Regresi (Slope & Intercept) Berdasarkan data tabel pengaruh hydrocarbon terhadap purity / kemurnian udara, carilah dugaan interval slope-nya: Jika menggunakan confidence interval (tingkat kepercayaan) 95%, maka: σ 2 = s 2 = n i=1(y i y) 2 β 1 S xy = 1,18 n 2 Confidence Interval Tentukan interval dari parameter intercept dan slope pada biaya periklanan dan kenaikan penjualan berikut, dengan α = 5% atau tingkat keyakinan 95% dan jelaskan artinya! X (%) Y (%) 1 2 2 4 4 5 5 7 7 8 9 10 10 12 4
Peramalan (Prediction) Terhadap Rata-rata Respon (Y) Berdasarkan data tabel pengaruh hydrocarbon terhadap purity / kemurnian udara, carilah interval prediksi untuk Y, dengan x 0 = 1,00% Sebelumnya telah diperoleh persamaan regresi Sehingga = 89,23 Interval prediksi Y: Peramalan (Prediction) terhadap Single Respon (Y) Berdasarkan data tabel pengaruh hydrocarbon terhadap purity / kemurnian udara, carilah interval prediksi untuk Y, dengan x 0 = 1,00% Sebelumnya telah diperoleh persamaan regresi Sehingga y 0 = 89,23 Interval prediksi Y: To reflect error of precdict future observed response Prediction Dengan menggunakan data dari tabel biaya iklan dan kenaikan penjualan (di atas), Buatlah: a. Ramalan interval untuk individu Y, jika biaya iklan dinaikkan menjadi 15% dengan tingkat keyakinan 99%! b. Ramalan interval untuk rata-rata E(Y), jika biaya iklan dinaikkan menjadi 15% dengan tingkat keyakinan 99%! Correlation Analisa korelasi: Menggambarkan hubungan antara variable X dan Y Jika nilai X besar maka nilai Y besar, dan sebaliknya. Contoh: X = fasilitas belajar, Y = prestasi siswa. Jika nilai X besar maka nilai Y kecil, dan sebaliknya. Contoh: X = usia pakai mobil, Y = nilai jual mobil. Note: Korelasi tidak secara otomatis menunjukkan adanya hubungan kausalitas / sebab akibat atau timbal balik Contoh: tinggi badan menyebabkan berat badanya bertambah, tetapi berat badannya bertambah belum tentu menyebabkan tinggi badannya bertambah. kemiskinan dengan kebodohan kebersihan dengan kesehatan 5
Scatter Diagram of Correlation Correlation Analisa korelasi: Population coefficient correlation = ρ Menggunakan sample coefficient correlation 31 Disebut juga Pearson product-moment correlation coefficient. r bernilai antara -1 dan +1. Hati-hati dalam mengintrepertasikan nilai r. Nilai r = 0.3 dan r = 0.6, bukan berarti hubungan X dan Y kedua 2x lipat X dan Y pertama. Correlation Sample coefficient of determination Hitung koefisien korelasinya dan intrepertasikan. Menunjukkan proporsi total variasi pada nilai variabel Y yang dapat digambarkan secara linier oleh variabel X Nilai korelasi 0.6, berarti terdapat 36% variasi nilai Y dalam sample yang dipengaruhi secara linier oleh nilai X Pertemuan 9 - Persiapan Materi Regresi linier berganda dan korelasi Regresi nonlinier 6