Pemodelan Data Cacahan (Count Data) dalam GLM Dr. Kusman Sadik, M.Si Sekolah Pascasarjana Departemen Statistika IPB Semester Genap 2017/2018
Pendahuluan Pada model linear klasik, seperti regresi linear, memerlukan asumsi bahwa peubah respon y menyebar Normal. Pada kenyataanya banyak ditemukan bahwa peubah respon y tidak menyebar Normal. Misalnya menyebar Binomial, Poisson, Gamma, Eksponensial, dsb. Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 2
Tiga Komponen dalam GLM 1. Komponen Acak (Random Component) Komponen acaknya adalah peubah respon y. Dalam GLM, peubah respon diasumsikan mempunyai sebaran yang termasuk ke dalam keluarga eksponensial (exponential family), yaitu : 3
lanjutan 2. Komponen Sistematik (Systematic Component) Komponen sistematik adalah kombinasi linear dari kovariat x 1, x 2,, x p. Sehingga dapat dituliskan sebagai berikut: i = ( i x i ) i disebut juga sebagai penduga linear (linear predictor), i adalah konstanta. 4
lanjutan 3. Fungsi Hubung (Link Function) Yaitu fungsi yang menghubungkan antara komponen acak dengan komponen sistematik. Misalkan E(y i ) = i, selanjutnya dapat dibuat hubungan sebagai berikut : g( i ) = i = ( i x i ) g(.) disebut sebagai fungsi hubung. Fungsi ini harus bersifat terdiferensialkan monoton (monotonic differentiable) 5
Normal Binomial Multinomial Sebaran Keluarga Eksponensial Poisson Gamma Eksponensial Negatif Binomial Dsb. 6
Fungsi Hubung Natural/Kanonik Sebaran y Normal Binomial Gamma Poisson Multinomial Negatif Binomial Inverse Gaussian Fungsi Hubung Identitas Logit Invers Log Logit Kumulatif Log Invers Kuadrat 7
8 Pendugaan Parameter Metode Fisher Scoring L(,y) adalah fungsi kemungkinan (likelihood), I disebut matrik informasi Fisher. Maka penduga secara iteratif adalah sebagai berikut : s r r r y L E y L U ), ( ; ), ( 2 I 1) ( 1) ( 1) ( ) ( 1) ( ˆ ˆ k k k k k U β I β I 1) ( 1) ( 1) ( ) ( ) ( ˆ ˆ k k k k U I β β -
Pengukuran Kelayakan Model Kelayakan model (goodness of fit) pada GLM dapat diukur berdasarkan Deviance (D). Deviance adalah dua kali perbedaan antara log likelihood nilai aktual dengan log likelihood nilai dugaan. Nilai deviance dapat digunakan sebagai statistik uji mengenai kelayakan model. Deviance merupakan peubah acak yang sebarannya mendekati sebaran 2. 9
Sebaran asimptotik bagi deviance (D) adalah 2 (n-p) dimana n adalah banyaknya data, sedangkan p adalah banyaknya parameter dalam model. 10
Uji hipotesis untuk vektor r p = [ r : p-r ] H o : r = 0 H 1 : r 0 11
Peubah Respon Poisson Respon yang diukur (y) berupa banyaknya kejadian selama selang waktu tertentu atau dalam luas area tententu. Misalnya, banyaknya pengunjung mal per hari, banyaknya bakteri dalam kultur biakan, dsb. Peubah respon y yang demikian disebut menyebar Poisson 12
Karakteristik Sebaran Keluarga Eksponensial 13
14
GLM untuk Sebaran Poisson 15
16
17
Model Log-Linear 18
Masalah Overdispersi 19
Studi Kasus McCullagh dan Nelder (hlm. 204) 20
Data 21
Pemodelan 22
23
Implementasi dalam Program R : Syntax ## 6.3.2. A study of wave damage to cargo ships ## McCullagh dan Nelder (hlm.204) shipku <- read.csv(file='1-data.ship.accident.mccullagh.csv', header=true) tipe <- factor(shipku[,2]) # Kategorik tahun <- factor(shipku[,4]) # Kategorik periode <- factor(shipku[,6]) # Kategorik service <- shipku[,7] # Kontinu incidents <- shipku[,8] # Kontinu ## Menentukan kategori pembanding tipe tahun periode <- relevel(tipe, ref="a") <- relevel(tahun, ref="1960-64") <- relevel(periode, ref="1960-74") data.frame(tipe,tahun,periode,service,incidents) 24
## We model the rate of damage incidents per month of service, so ## log(service) is an offset. ## We expect overdispersion, so we fit by quasi-likelihood using ## the quasipoisson family. ## The number of damage incidents must be zero for any observation ## with zero aggregated months of service (whether they corrspond ## to "necessarily empty" or "accidentally empty cells." These ## "observations" are not useful in fitting the model, and so are ## omitted using the subset argument. model <- glm(incidents ~ tipe + tahun + periode, offset = log(service), family = quasipoisson("link"=log), subset = (service!= 0)) summary(model) 25
Keluaran Program R: (1) > data.frame(tipe,tahun,periode,service,incidents) tipe tahun periode service incidents 1 A 1960-64 1960-74 127 0 2 A 1960-64 1975-79 63 0 3 A 1965-69 1960-74 1095 3 4 A 1965-69 1975-79 1095 4 5 A 1970-74 1960-74 1512 6 6 A 1970-74 1975-79 3353 18 7 A 1975-79 1960-74 0 0 8 A 1975-79 1975-79 2244 11... 37 E 1970-74 1960-74 1157 5 38 E 1970-74 1975-79 2161 12 39 E 1975-79 1960-74 0 0 40 E 1975-79 1975-79 542 1 26
Keluaran Program R: (2) Deviance Residuals: Min 1Q Median 3Q Max -1.6768-0.8293-0.4370 0.5058 2.7912 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -6.40590 0.28276-22.655 < 2e-16 *** tipeb -0.54334 0.23094-2.353 0.02681 * tipec -0.68740 0.42789-1.607 0.12072 tiped -0.07596 0.37787-0.201 0.84230 tipee 0.32558 0.30674 1.061 0.29864 tahun1965-69 0.69714 0.19459 3.583 0.00143 ** tahun1970-74 0.81843 0.22077 3.707 0.00105 ** tahun1975-79 0.45343 0.30321 1.495 0.14733 periode1975-79 0.38447 0.15380 2.500 0.01935 * ---------------- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for quasipoisson family taken to be 1.691028) Null deviance: 146.328 on 33 degrees of freedom Residual deviance: 38.695 on 25 degrees of freedom 27
Contoh Topik Riset dalam Jurnal 28
Contoh 1: 29
Contoh 2: 30
Contoh 3: 31
Contoh 4: 32
Contoh 5: 33
Contoh 6: 34
Contoh 7: 35
Pustaka Utama McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, 2 nd. C&H. Dobson and Barnett. (2008). An Introduction to Generalized Linear Models, New York: C&H, 3rd ed. Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. New Jersey: Wiley. 36
Pustaka Tambahan Jiang, J. (2007). Linear and Generalized Linear Mixed Models and Their Applications, Springer. McCulloch, C.E. and Searle, S.R. (2001) Generalized, Linear, and Mixed Models, Wiley Pawitan, Y. (2001) In All Likelihood. Oxford. Lee, Y., Nelder, J.A. and Pawitan, Y. (2006). Generalized Linear Models with Random Effects. C&H. 37
Materi ini bisa di-download di: kusmansadik.wordpress.com 38
39