Komputasi Statistika dengan Software R Analisis Korelasi (Sesi 13) Zulhanif
Analisis Korelasi Korelasi menyatakan keeratan hubungan antara suatu variabel dengan variabel lainnya. Korelasi dalam populasi biasa disimbolkan dengan ρ (rho) sedangkan dalam sampel disimbolkan dengan r.
Nilai Korelasi Nilai korelasi -1 < r < 1 Nilai positif menyatakan hubungan yang berbanding lurus Nilai negatif menyatakan hubungan yang berbanding terbalik Nilai nol (0) berarti tidak ada hubungan Semakin mendekati 1 (atau -1) berarti semakin erat
Jenis Korelasi Korelasi sangat bergantung pada skala pengukuran yang digunakan oleh data. Korelasi Pearson digunakan untuk data kontinu berskala minimal interval Korelasi Spearman digunakan untuk data diskrit atau kontinu Korelasi Tau Kendall digunakan untuk data berskala minimal ordinal
Korelasi dalam R cor(x, use=..., method=...) x adalah data yang akan dikorelasikan (berupa matriks atau data frame) use= (optional) adalah penanganan apabila ada data hilang method= (optional) menyatakan jenis korelasi yang digunakan (pearson, spearman atau kendall)
Korelasi dalam R cor(x, use=..., method=...) x adalah data yang akan dikorelasikan (berupa matriks atau data frame) use= (optional) adalah penanganan apabila ada data hilang method= (optional) menyatakan jenis korelasi yang digunakan (pearson, spearman atau kendall)
Jenis Korelasi Lainnya Polychoric digunakan apabila semua variabel berskala ordinal Polyserial digunakan apabila salah satu variabel berskala ordinal sedangkan variabel lainnya berskala interval Dalam R digunakan paket polychor.
Pengujian Korelasi Adakalanya nilai korelasi sampel perlu diuji keberartiannya Pengujian koefisien korelasi dalam R menggunakan paket Hmisc dengan syntax: rcorr(x, type=...) x adalah matrix atau data frame type= hanya untuk Pearson dan Spearman
Contoh 1 Suatu studi dilakukan untuk melihat hubungan waktu bangun (X) dengan tingkat kekeliruan dalam pekerjaan (Y). Diambil sampel sebanyak 10 orang dan diukur lamanya waktu bangun dan banyaknya melakukan kesalahan, yang hasilnya sebagai berikut
Data Contoh 1 X 8 8 12 12 16 16 20 20 24 24 Y 8 6 6 10 8 14 14 12 16 12 Berapa koefisien korelasinya? Berapa koefisien korelasinya? n i i n i i n i i i y y x x y y x x r 1 2 1 2 1 ) ( ) ( ) )( (
Penyelesaian > x <- c(8, 8, 12, 12, 16, 16, 20, 20, 24, 24) > y <- c(8, 6, 6, 10, 8, 14, 14, 12, 16, 12) > plot (x,y) > abline(lm(y~x), col= red ) > cor(x,y, method= pearson ) > library(hmisc) > rcorr(x,y, type= pearson )
Pengujian Koef Korelasi
Spearman X=c(106,86,100,101,99,103,97,113,112,110) Y=c(7,0,27,50,28,29,20,12,6,17)
Contoh 2 Seorang peneliti ingin melihat hubungan antara tingkat pendidikan dengan status jabatan seseorang, yang hasilnya sebagai berikut: Pendidikan 2 5 1 7 9 10 3 8 Jabatan 5 7 8 1 3 6 2 4 Berapa koefisien korelasinya?
Penyelesaian > x <- c(2, 5, 1, 7, 9, 10, 3, 8) > y <- c(5, 7, 8, 1, 3, 6, 2, 4) > cor(x,y, method= spearman ) > cor(x,y, method= kendall ) > library(hmisc) > rcorr(x,y,type= spearman )
x <- c(2, 5, 1, 7, 9, 10, 3, 8) y <- c(5, 7, 8, 1, 3, 6, 2, 4) cor(x,y, method="spearman") cor(x,y, method="kendall") library(hmisc) rcorr(x,y,type="pearson") tsta=( 0.175757575)*(8^(0.5))/(1- ( 0.175757575)^2)^(0.5) 2*pt(tsta,8)
Tugas Seorang peneliti tengah meneliti hubungan antara biaya yang dikeluarkan untuk iklan (x) dengan nilai penjualan (y), dikumpulkan data biaya iklan dan hasil penjualan (halaman berikut) Bagaimanakah tingkat hubungan antara biaya iklan dengan penjualan Apakah hubungan kedua variabel tersebut nyata.
Data No Biaya Hasil No Biaya Hasil 1 50 85 7 60 90 2 40 40 8 30 42 3 25 35 9 52 60 4 50 65 10 40 52 5 40 75 11 52 80 6 20 44 12 35 51
Analisis Regresi Analisis Regresi adalah suatu analisis yang menyatakan hubungan fungsional antara sebuah variabel tak bebas dengan satu atau lebih variabel bebas
Model Regresi Y i = β 0 + β 1 X i + ε i ; i = 1,2,..., n Y adalah variabel tak bebas i X i adalah variabel bebas β 0 adalah koefisien intersep β 1 adalah koefisien slope ε i adalah galat
Contoh Data berikut menggambarkan hasil pengamatan mengenai banyak orang yang datang (X) dan banyak orang yang berbelanja (Y) disebuah toko selama 30 hari. (Sudjana, 2002) Asumsi antar pengamatan saling bebas Data dapat diunduh pada e-learning statistika dengan nama file toko.csv
Plot Data Plot data untuk model regresi menggunakan diagram pencar (scatterplot) antara variabel bebas (X) pada sumbu horizontal dan variabel tak bebas (Y) pada sumbu vertikal.
Plot Data dalam R Gunakan perintah plot > plot(x,y, pch=20) Tambahkan baris berikut untuk membuat garis regresinya > abline(lm(y~x),col="red")
Plot Data
Statistik Deskriptif Beberapa statistik yang diperlukan dalam analisis regresi adalah Jumlah X dan Y Jumlah kuadrat X dan Y Jumlah XY Rata-rata X dan Y
Statistik Deskriptif dalam R > sum(x);sum(y) [1] 1105 [1] 1001 > sum(x^2);sum(y^2) [1] 41029 [1] 33599 > sum(x*y) [1] 37094 > mean(x);mean(y) [1] 36.83333 [1] 33.36667
b1=(sum(x*y)- (sum(x)*sum(y)/length(x)))/(sum(x^2)- (sum(x))^2/length(x)) b0=mean(y)-b1*mean(x)
Taksiran Koefisien Regresi Koefisien Regresi dapat ditaksir menggunakan rumus sehingga diperoleh nilai koefisien intersep dan arah (slope) Nilai taksiran ini dapat digunakan untuk menghitung nilai prediksi bagi Y. Koefisien intersep menyatakan nilai Y pada X = 0 (rata-rata Y) Koefisien arah (slope) menyatakan penambahan (+) atau penurunan (-) nilai Y
Menghitung Taksiran Regresi > lm(y~x, toko) Call: lm(formula = y ~ x, data = toko) Coefficients: (Intercept) x 8.2437 0.6821
Galat Baku Penaksir Galat baku penaksir (standard error) adalah akar kuadrat varians sampling dari penaksir koefisien regresi Galat baku ini digunakan untuk pengujian Galat baku ini digunakan untuk pengujian hipotesis keberartian koefisien regresi
Pengujian Koefisien Regresi Koefisien regresi yang sudah ditaksir perlu diuji keberartiannya Untuk koefisien intersep pengujian memberikan arti apakah garis regresi melewati titik pusat (0,0) Untuk koefisien arah (slope) pengujian untuk melihat apakah variabel bebas mempunyai pengaruh terhadap variabel tak bebas
Hasil Pengujian > fit<-lm(y~x, toko) > summary(fit) Call: lm(formula = y ~ x, data = toko) Residuals: Min 1Q Median 3Q Max -2.7983-0.7303 0.2017 0.8954 2.4734
Hasil Pengujian Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 8.24368 2.62501 3.140 0.00396 ** x 0.68207 0.07098 9.609 2.30e-10 *** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.286 on 28 degrees of freedom Multiple R-squared: 0.7673, Adjusted R-squared: 0.759 F-statistic: 92.34 on 1 and 28 DF, p
Analisis Varians Digunakan untuk menguji independensi antara variabel bebas (X) dengan Variabel tak bebas (Y) Dari Analisis varians dapat pula dihitung koefisien determinasi yang menyatakan fit tidaknya model yang ditentukan.
> anova(fit) Analysis of Variance Table Analisis Varians Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 152.670 152.670 92.335 2.304e-10 *** Res 28 46.296 1.653 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1
Latihan Suatu telaah dilakukan untuk mengevaluasi sejauh mana pengaruh biaya yang dikeluarkan untuk iklan terhadap hasil penjualan, dikumpulkan data biaya iklan dan hasil penjualan (halaman berikut) Jika diasumsikan hubungan antara biaya iklan Jika diasumsikan hubungan antara biaya iklan dengan hasil penjualan dapat dinyatakan sebagai persamaan linier sederhana, dugalah persamaan garis tersebut apakah biaya iklan memberikan pengaruh yang nyata terhadap hasil penjualan