MODEL REGRESI ZERO INFLATED GENERALIZED POISSON

dokumen-dokumen yang mirip
LANDASAN TEORI. menyatakan hubungan antara variabel respon Y dengan variabel-variabel

ESTIMASI PARAMETER MODEL REGRESI COM-POISSON UNTUK DATA TERSENSOR KANAN MENGGUNAKAN METODE MAKSIMUM LIKELIHOOD. Oleh DIAN ANGGRAENI NIM.

ESTIMASI PARAMETER MODEL REGRESI POISSON TERGENERALISASI TERBATAS DENGAN METODE MAKSIMUM LIKELIHOOD

BAB I PENDAHULUAN. yang mendapat perhatian dari masyarakat internasional. Menurut data World

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Masalah Overdispersi dalam Model Regresi Logistik Multinomial

BAB I PENDAHULUAN 1.1 Latar Belakang

ESTIMASI PARAMETER MODEL REGRESI ZERO-INFLATED POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Model Regresi Zero Inflated Poisson Pada Data Overdispersion

BAB I PENDAHULUAN. Pada bab ini akan dibahas mengenai latar belakang tema yang diambil dalam

ESTIMASI PARAMETER MODEL REGRESI M-KUANTIL MENGGUNAKAN METODE ITERATIVE REWEIGHTED LEAST SQUARE (IRLS)

Kajian Generalisasi Distribusi Binomial yang Bertipe COM-Poisson dan Sifat-Sifatnya

APLIKASI MODEL REGRESI POISSON TERGENERALISASI PADA KASUS ANGKA KEMATIAN BAYI DI JAWA TENGAH TAHUN 2007

Pengujian Overdispersi pada Model Regresi Poisson (Studi Kasus: Laka Lantas Mobil Penumpang di Provinsi Jawa Barat)

PENERAPAN REGRESI ZERO-INFLATED NEGATIVE BINOMIAL (ZINB) UNTUK PENDUGAAN KEMATIAN ANAK BALITA

DEFICIENCY PENAKSIR PARAMETER PADA DISTRIBUSI GAMMA

BAB III PERLUASAN MODEL REGRESI COX PROPORTIONAL HAZARD DENGAN VARIABEL TERIKAT OLEH WAKTU

E-Jurnal Matematika Vol. 5 (4), November 2016, pp ISSN:

ESTIMASI PARAMETER MODEL MIXTURE AUTOREGRESSIVE (MAR) MENGGUNAKAN ALGORITMA EKSPEKTASI MAKSIMISASI (EM)

PENERAPAN REGRESI POISSON DAN BINOMIAL NEGATIF DALAM MEMODELKAN JUMLAH KASUS PENDERITA AIDS DI INDONESIA BERDASARKAN FAKTOR SOSIODEMOGRAFI

BAB III MODEL REGRESI BINOMIAL NEGATIF UNTUK MENGATASI OVERDISPERSI PADA MODEL REGRESI POISSON

REGRESI LOG-LOGISTIK UNTUK DATA TAHAN HIDUP TERSENSOR TIPE I. oleh NANDA HIDAYATI M

PERBANDINGAN KEPEKAAN UJI KENORMALAN UNIVARIAT PADA KATEGORI MOMEN MELALUI SIMULASI MONTE CARLO

MODEL REGRESI POISSON YANG DIPERUMUM UNTUK MENGATASI OVERDISPERSI PADA MODEL REGRESI POISSON

PEMODELAN REGRESI BINOMIAL NEGATIF UNTUK MENGATASI OVERDISPERSION PADA REGRESI POISSON

BAB I PENDAHULUAN 1.1. Latar Belakang dan Permasalahan

BAB I PENDAHULUAN. 1.1 Latar belakang

RATA-RATA KUADRAT SESATAN PENDUGA REGRESI DENGAN KOMBINASI LINIER DUA VARIABEL BANTU PADA SAMPEL ACAK SEDERHANA

JURNAL SAINS DAN SENI POMITS Vol. 3, No.2, (2014) ( X Print)

BAB I PENDAHULUAN. mengetahui fenomena yang akan terjadi pada periode mendatang akan

Kata Kunci Overdispersi, regresi Zero-Inflated Generalized Poisson (ZIGP), Tetanus Neonatorum.

ANALISIS PEUBAH RESPONS KONTINU NON NEGATIF DENGAN REGRESI INVERSE GAUSSIAN SKRIPSI

BAB II KAJIAN TEORI. Analisis survival atau analisis ketahanan hidup adalah metode yang

E-Jurnal Matematika Vol. 3 (3), Agustus 2014, pp ISSN:

ESTIMASI PARAMETER MODEL REGRESI ZERO ADJUSTED INVERSE GAUSSIAN (ZAIG) UNTUK MENENTUKAN BESAR KLAIM

PENDUGA RASIO PADA PENGAMBILAN SAMPEL ACAK SEDERHANA MENGGUNAKAN KOEFISIEN REGRESI, KURTOSIS, DAN KORELASI

BAB II TINJAUAN PUSTAKA. diperhatikan adalah jangka waktu dari awal pengamatan sampai suatu event

BAB I PENDAHULUAN. sewajarnya untuk mempelajari cara bagaimana variabel-variabel itu dapat

Penerapan Hurdle Negative Binomial pada Data Tersensor

BAB II LANDASAN TEORI. landasan pembahasan pada bab selanjutnya. Pengertian-pengertian dasar yang di

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II TINJAUAN PUSTAKA

NILAI EIGEN DAN VEKTOR EIGEN MATRIKS TERREDUKSI DALAM ALJABAR MAKS-PLUS BESERTA APLIKASINYA

PENERAPAN HURDLE NEGATIVE BINOMIAL PADA DATA TERSENSOR

ESTIMASI PARAMETER MODEL SEEMINGLY UNRELATED REGRESSION DENGAN METODE GENERALIZED LEAST SQUARE

Oleh FATMA JULITA M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

II. LANDASAN TEORI. beberapa konsep dan teori yang berkaitan dengan penduga parameter distribusi GB2

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI ANGKA KEMATIAN BAYI DI JAWA TENGAH MENGGUNAKAN REGRESI GENERALIZED POISSON DAN BINOMIAL NEGATIF

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PERAMALAN JUMLAH WISATAWAN GROJOGAN SEWU MENGGUNAKAN MODEL REGRESI RUNTUN WAKTU DENGAN EFEK VARIASI KALENDER

Prosiding Statistika ISSN:

ESTIMASI-MM PADA REGRESI ROBUST (Studi Kasus Produksi Kedelai di Indonesia Tahun 2010)

ANALISIS PEUBAH RESPONS KATEGORIK DENGAN MODEL REGRESI ORDINAL

PEMODELAN JUMLAH KEMATIAN AKIBAT DIFTERI DI PROVINSI JAWA TIMUR DENGAN REGRESI BINOMIAL NEGATIF DAN ZERO-INFLATED POISSON SKRIPSI

ESTIMASI FUNGSI PENGHALUS PADA REGRESI ISOTONIK ADITIF DENGAN METODE KUADRAT TERKECIL. oleh YULIANA SITI NURAINI M

PENDETEKSIAN KRISIS KEUANGAN DI INDONESIA MENGGUNAKAN GABUNGAN MODEL VOLATILITAS DAN MARKOV SWITCHING BERDASARKAN INDIKATOR HARGA MINYAK

BAB III REGRESI SPASIAL DENGAN PENDEKATAN GEOGRAPHICALLY WEIGHTED POISSON REGRESSION (GWPR)

MODEL REGRESI DATA TAHAN HIDUP TERSENSOR TIPE III BERDISTRIBUSI EKSPONENSIAL SKRIPSI

PROBABILITAS PUNCAK EPIDEMI MODEL RANTAI MARKOV DENGAN WAKTU DISKRIT SUSCEPTIBLE INFECTED SUSCEPTIBLE (SIS)

BAB III. Model Regresi Linear 2-Level. Sebuah model regresi dikatakan linear jika parameter-parameternya bersifat

Regresi Poisson dan Penerapannya Untuk Memodelkan Hubungan Usia dan Perilaku Merokok Terhadap Jumlah Kematian Penderita Penyakit Kanker Paru-Paru

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

ANALISIS TAHAN HIDUP DATA TERSENSOR TIPE II MENGGUNAKAN MODEL DISTRIBUSI WEIBULL PADA PENDERITA HEPATITIS C

BAB I PENDAHULUAN 1.1. Latar Belakang Permasalahan

BAB II TINJAUAN PUSTAKA. Dalam bab ini dibahas tentang matriks, metode pengganda Lagrange, regresi

BAB 1 PENDAHULUAN. ii Bagaimana rata-rata atau nilai tengah dibuat oleh Stimulan eksternal.

MODEL REGRESI DATA TAHAN HIDUP TERSENSOR TIPE III BERDISTRIBUSI EKSPONENSIAL. Jln. Prof. H. Soedarto, S.H., Tembalang, Semarang.

PENENTUAN WAKTU PRODUKSI TERCEPAT PADA SISTEM MESIN PRODUKSI JAMU DI PT. PUTRO KINASIH DENGAN ALJABAR MAX-PLUS

oleh FAIFAR NUR CHAYANINGTYAS M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

Oleh FATMA JULITA M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

BAB II TINJAUAN PUSTAKA. (b) Variabel independen yang biasanya dinyatakan dengan simbol

PENDUGAAN ANGKA PUTUS SEKOLAH DI KABUPATEN SEMARANG DENGAN METODE PREDIKSI TAK BIAS LINIER TERBAIK EMPIRIK PADA MODEL PENDUGAAN AREA KECIL SKRIPSI

PERBANDINGAN RAMALAN MODEL TARCH DAN EGARCH PADA NILAI TUKAR KURS EURO TERHADAP RUPIAH

PEMODELAN JUMLAH KEMATIAN AKIBAT DIFTERI DI PROVINSI JAWA TIMUR DENGAN REGRESI BINOMIAL NEGATIF DAN ZERO-INFLATED POISSON

KONSEP DASAR TERKAIT METODE BAYES

PENGUJIAN KESAMAAN BEBERAPA MODEL REGRESI NON LINIER GEOMETRI (Studi Kasus : Data Emisi CO 2 dan Gross Nation Product di Malaysia, Bhutan, dan Nepal)

PEMODELAN JUMLAH KEMATIAN BAYI DI KOTA PADANG TAHUN 2013 DAN 2014 DENGAN PENDEKATAN REGRESI BINOMIAL NEGATIF

BAGAN KENDALI ZERO INFLATED POISSON ADRIAN MATANDUNG. Pembimbing 1. Dr. Erna Tri Herdiani, M.Si, 2. Dr. La Podje Talangko, M.Si.

Distribusi Weibull Power Series

BAB 2 LANDASAN TEORI

BAB 1 PENDAHULUAN Latar Belakang

MODEL PERSEDIAAN FUZZY DENGAN PENGURANGAN BIAYA PEMESANAN DAN KENDALA TINGKAT LAYANAN

PROSES POISSON MAJEMUK DAN PENERAPANNYA PADA PENENTUAN EKSPEKTASI JUMLAH PENJUALAN SAHAM PT SRI REJEKI ISMAN Tbk

E-Jurnal Matematika Vol. 2, No.2, Mei 2013, ISSN:

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

PERBANDINGAN REGRESI ZERO INFLATED POISSON (ZIP) DAN REGRESI ZERO INFLATED NEGATIVE BINOMIAL (ZINB) PADA DATA OVERDISPERSION

PENENTUAN PETA KEMISKINAN JAWA TENGAH DENGAN MENGGUNAKAN METODE SMALL AREA ESTIMATION

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

FAKTOR-FAKTOR YANG MEMPENGARUHI ANGKA PENDERITA GIZI BURUK PADA BALITA DI PAPUA TAHUN 2015 DENGAN METODE REGRESI ZERO INFLATED POISSON (ZIP)

Bab 2 LANDASAN TEORI

Pemodelan Data Cacahan (Count Data) dalam GLM. Dr. Kusman Sadik, M.Si Sekolah Pascasarjana Departemen Statistika IPB Semester Genap 2017/2018

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

PERBANDINGAN PENYELESAIAN SISTEM OREGONATOR DENGAN METODE ITERASI VARIASIONAL DAN METODE ITERASI VARIASIONAL TERMODIFIKASI

PENAKSIRAN PARAMETER MODEL REGRESI POISSON DENGAN METODE EXACT GENERALIZED ESTIMATING EQUATIONS (EGEE) UNTUK MULTIPLE-RANDOM EFFECTS

METODE TRANSFORMASI DIFERENSIAL FRAKSIONAL UNTUK MENYELESAIKAN MASALAH STURM-LIOUVILLE FRAKSIONAL

BAB 2 LANDASAN TEORI

Transkripsi:

MODEL REGRESI ZERO INFLATED GENERALIZED POISSON Oleh WICAKSONO CAHYO NUGROHO NIM. M0106067 SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2012 i

SKRIPSI ESTIMASI PARAMETER MODEL REGRESI COM-POISSON MENGGUNAKAN METODE QUASI LIKELIHOOD yang disiapkan dan disusun oleh WICAKSONO CAHYO NUGROHO NIM. M0106067 dibimbing oleh Pembimbing I Pembimbing II Drs. Sugiyanto, M.Si Drs. Tri Atmojo K, M.Sc., Ph.D NIP. 19611224 199203 1 003 NIP. 19630826 198803 1 002 telah dipertahankan di depan Dewan Penguji pada hari Selasa, 15 Mei 2012 dan dinyatakan telah memenuhi syarat. Anggota Tim Penguji Tanda Tangan 1. Dra. Respatiwulan, M.Si 1.... NIP. 19680611 199302 2 001 2. Drs. Siswanto, M.Si 2.... NIP. 19670813 199203 1 002 Disahkan oleh Fakultas Matematika dan Ilmu Pengetahuan Alam Dekan Ketua Jurusan Matematika Prof. Ir.Ari Handono Ramelan, M.Sc., (Hons)., Ph.D. Irwan Susanto, DEA. NIP. 19610223 198601 1 001 NIP. 19710511 199512 1 001 ii

ABSTRAK Wicaksono Cahyo Nugroho, 2012. MODEL REGRESI ZERO INFLATED GENERALIZED POISSON. Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret. Model regresi Poisson secara umum telah banyak digunakan untuk menganalisis data cacah dengan mean sampel dan variansi sampel sama yang biasa disebut equidispersi. Sering kali data cacah memperlihatkan nilai variansi lebih besar dari mean yang biasa disebut overdispersion atau variansi lebih kecil dari mean yang disebut underdispersion. Masalah lain yang muncul dalam data cacah adalah frekuensi nol yang lebih banyak, kedua masalah ini menyebabkan estimasi parameter yang dihasilkan kurang tepat. Pada kondisi tersebut salah satu model yang tepat digunakan adalah model regresi zero inflated generalized Poisson (ZIGP). Tujuan dari penelitian ini adalah mengkonstruksi bentuk model regresi ZIGP, dan menentukan estimasi parameter dari model regresi ZIGP menggunakan maximum likelihood estimator (MLE). Kesimpulan yang diperoleh dari penelitian ini adalah (1) model regresi zero inflated generalized Poisson (ZIGP) adalah ( ) dengan, dan, dan (2) estimasi parameter model regresi zero inflated generalized Poisson (ZIGP) menggunakan MLE menghasilkan persamaan non linier. Kata kunci: Overdispersion, underdispersion, maximum likelihood estimator. iii

ABSTRACT Wicaksono Cahyo Nugroho, 2012. ZERO INFLATED GENERALIZED POISSON REGRESSION MODEL. Faculty of Mathematics and Natural Sciences, Sebelas Maret University. Commonly Poisson regression model is widely used to analyze count data with same mean and variance samples, that usually called equidispersion. The count data is often shows the variance larger or smaller than mean, they are called overdispersion and underdispersion respectively. Another problems that emerged in the count data with excess zeros, both of these problems led to so parameter that estimated is not appropriate. In that condition, one of the appropriate model is zero inflated generalized Poisson regression model. The purposes of this research is to reconstruct ZIGP regression model and to determine the parameter estimaton of ZIGP regression model using menggunakan maximum likelihood estimator (MLE). The conclusions of this research are (1) zero inflated generalized Poisson (ZIGP) is ( ) with and, and (2) the parameter estimation of zero inflated generalized Poisson regression model (ZIGP) using MLE has non linear equation as the result. Keyword : Overdispersi, underdispersi, maximum likelihood estimator. iv

MOTO Tanah yang digadaikan bisa kembali dalam keadaan lebih berharga, tetapi kejujuran yang pernah digadaikan tidak pernah bisa ditebus kembali Kebaikan tidak bernilai selama diucapkan akan tetapi bernilai sesudah dikerjakan Keberhasilan hanya akan diperoleh dari ketekunan dan keikhlasan v

PERSEMBAHAN Karya ini saya persembahkan untuk Bapak, Ibu dan Adikku tercinta atas doa, kasih sayang dan do a yang diberikan. Yuniar Dwi Nur Rahmasari atas dukungan, semangat dan keceriannya saat menemani penulis dalam menyusun skripsi ini vi

KATA PENGANTAR Segala puji bagi Allah SWT, yang telah melimpahkan rahmat dan karunia- Nya dan memberikan kekuatan dan kemudahan kepada penulis sehingga dapat menyelesaikan skripsi ini dengan baik. Terselesaikannya skripsi ini tidak lepas dari bimbingan dan motivasi dari berbagai pihak. Untuk itu penulis menyampaikan ucapan terima kasih kepada 1. Bapak Drs. Sugiyanto, M.Si sebagai Dosen Pembimbing I atas kesediaan dan kesabaran dalam memberikan bimbingan, nasehat serta pengarahan dalam penyusunan skripsi ini, 2. Bapak Drs. Tri Atmojo K, M.Sc., Ph.D sebagai Dosen Pembimbing II atas kesediaan dan kesabaran memberikan bantuan serta bimbingan dalam penulisan skripsi ini, 3. Ardy Yudha dan Mas Rizky Magta yang telah membantu dan memberi semangat penulis menyeleseikan skripsi ini, 4. Seluruh teman-teman matematika angkatan 2006 yang telah menemani berjuang menyeleseikan skripsi ini, 5. Semua pihak yang turut membantu kelancaran penulisan skripsi ini. Semoga penulisan skripsi ini dapat bermanfaat bagi pembaca. Surakarta, Mei 2012 Penulis vii

DAFTAR ISI JUDUL... i PENGESAHAN... ii ABSTRAK... iii ABSTRACT... iv MOTTO... v PERSEMBAHAN... vi KATA PENGANTAR... vii DAFTAR ISI...viii DAFTAR TABEL... x I. PENDAHULUAN 1 1.1 Latar Belakang Masalah... 1 1.2 Perumusan Masalah... 3 1.3 Tujuan Penelitian... 4 1.4 Manfaat Penelitian... 4 II. LANDASAN TEORI 5 2.1 Tinjauan Pustaka... 5 2.2 Teori-Teori Penunjang... 7 2.2.1 Konsep Dasar Statistik... 7 2.2.2 Teori Dasar Matriks... 8 2.2.3 Keluarga Distribusi Eksponensial... 9 2.2.4 Fungsi Link... 9 2.2.5 Distribusi Poisson... 9 2.2.6 Model Regresi Poisson... 11 2.2.7 Model Regresi Generalized Poisson... 12 2.2.8 Model Regresi Zero Infalted Poisson... 14 2.2.9 Pendeteksian Overdispersi dan Underdispersi... 15 2.2.10 Metode Maksimum Likelihood... 15 2.3 Kerangka Pemikiran... 18 viii

III. METODE PENELITIAN 19 IV. PEMBAHASAN 20 4.1 Model Regresi Zero Inflated Generalized Poisson... 20 4.2 Estimasi Parameter Model Regresi Zero Infalted Generalized Poisson Menggunakan Maximum Likelihood Estimator (MLE)... 22 4.3 Uji Ketepatan Model Regresi ZIGP... 27 4.4 Contoh Kasus... 28 4.4.1 Pendeteksian Overdispersi atau Underdispersi... 29 4.4.2 Model Regresi Zero Inflated Generalized Poisson Pada Klaim Asuransi Untuk Kecelakaan Bermotor di Perusahaan Asuransi di Kota Kendari Dengan Seluruh Variabel Independen... 30 4.4.3 Model Regresi Zero Inflated Generalized Poisson Pada Klaim Asuransi untuk Kecelakaan Bermotor di Perusahaan Asuransi di Kota Kendari dengan Seluruh Variabel Independen Berpengaruh... 30 4.4.4 Uji Kecocokan Model... 32 V. PENUTUP 33 5.1 Kesimpulan... 33 5.2 Saran... 33 DAFTAR PUSTAKA 34 LAMPIRAN 35 ix

DAFTAR TABEL 2.1 Daftar fungsi link untuk beberapa distribusi...9 4.1 Data lama perawatan sesuai jumlah klaim yang diajukan, usia dan jenis kelamin korban kecelakaan... 29 4.2 Nilai statistik deviance (D )... 30 4.3 Nilai estimasi parameter model regresi zero inflated generalized Poisson dengan seluruh variabel independen... 30 4.4 Nilai estimasi parameter model regresi ZIGP dengan variabel independen berpengaruh Variabel yang Berpengaruh...31 x

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Metode statistika merupakan pendekatan yang dapat digunakan untuk memperoleh hasil penelitian, metode ini meliputi masalah mengumpulkan, mengolah, menyajikan, menganalisa dan menginterpretasikan data. Salah satu metode yang digunakan adalah analisis regresi. Analisis regresi adalah suatu metode statistika yang menyatakan pola hubungan antar dua variabel yaitu variabel independen dan variabel dependen. Variabel independen merupakan variabel yang tidak dipengaruhi oleh variabel lain, sedangkan variabel dependen merupakan variabel yang masih dipengaruhi oleh nilai variabel independen. Analisis regresi bertujuan mencari pola hubungan antara variabel independen dan variabel dependen yang kemudian pola hubungan tersebut dirumuskan dalam suatu model tertentu, sehingga dapat dilakukan suatu prediksi nilai variabel dependen dengan diketahui suatu nilai variabel independennya, Sembiring (1995). Dalam aplikasinya banyak penelitian menggunakan variabel tak bebas yang berupa data cacah, termasuk pada pembahasan skripsi ini penulis juga menggunakan data cacah. Menurut Fahrmeir dan Tuts (1994), data cacah adalah data yang dihitung sebagai jumlah kejadian dalam interval waktu tertentu. Misalnya data banyaknya kecelakaan, banyaknya kelahiran, banyaknya kematian dalam waktu satu tahun. Salah satu model regresi yang digunakan untuk menyatakan pola hubungan antara variabel tak bebas dengan variabel bebas yang berupa data cacah adalah model regresi Poisson. Menurut Simon dalam Putri (2007), data berdistribusi Poisson mempunyai tiga masalah yang menyebabkan model regresi linier tidak dapat digunakan, yaitu 1. distribusi Poisson adalah menceng (skew), sedangkan model regresi linier mengasumsikan distribusi dari sesatan adalah simetrik, 2. parameter distribusi Poisson adalah non negatif, sedangkan pada model regresi linier terdapat kemungkinan nilai commit perkiraan to user yang dihasilkan negatif, 1

2 3. distribusi Poisson mempunyai variabel yang akan naik seiring dengan naiknya mean, sedangkan model regresi linier mengasumsikan mean dan variansi konstan. Penggunaan analisis data yang tidak sesuai dengan kondisi data tidak saja akan menghasilkan suatu kesimpulan atau inferensi yang tidak bermanfaat (meaningless) tetapi dalam kondisi tertentu bahkan banyak yang menyesatkan (misleading). Untuk itu diperlukan suatu analisis yang sesuai dengan data. Salah satu model regresi yang sesuai untuk menyajikan permasalahan di atas adalah model regresi Poisson. Model regresi Poisson merupakan model regresi dengan variabel dependennya dalam bentuk cacah dan tidak bernilai negatif. Model regresi ini digunakan untuk memodelkan banyaknya kemunculan dari suatu kejadian sebagai fungsi dari sejumlah variabel independen, misalnya banyaknya kunjungan dokter, munculnya suatu penyakit, jumlah koloni dari bakteri dapat dimodelkan dengan menggunakan model regresi Poisson. Model regresi Poisson banyak digunakan untuk menganalisis data cacah dengan mean dan variansi dari sampel sama. Pada kenyataannya seringkali data cacah itu memperlihatkan perbedaan variansi dan mean sampel yaitu variansi sampel lebih besar dari mean sampel yang sering disebut overdispersi atau variansi sampel lebih kecil dari mean sampel yang sering disebut underdispersi, Ismail & Jemain (2005). Banyak model atau metode statistika yang telah diperkenalkan oleh para ahli untuk mengatasi masalah overdispersi dan underdispersi. Salah satu model yang dapat mengatasi masalah tersebut adalah model regresi generalized Poisson (GP), model GP merupakan model perluasan dari model regresi Poisson, Famoye et al. (2004). Model GP yang digunakan Famoye et al. (2004), dalam pemodelan data kecelakaan kendaraan ternyata lebih tepat menggambarkan keadaan data dibanding model Poisson. Penelitian tentang model regresi GP juga telah dilakukan oleh Anwani (2010). Konsep pembentukan model regresi GP ini didasarkan pada distribusi generalized Poisson yang dapat menjelaskan sejumlah data cacah yang memperlihatkan sifat overdispersi. 2

3 Model regresi GP dapat mengatasi masalah overdispersi tetapi tidak dapat mengatasi masalah zero inflated atau kasus dengan data yang ada terlalu banyak mengandung nilai nol. Oleh karena itu diperlukan suatu model yang dapat menangani masalah tersebut. Salah satu model regresi yang dapat menangani masalah zero inflated adalah model regresi zero inflated Poisson (ZIP), Lambert (1992). Pada tahun 2007 penelitian tentang model ini telah dilakukan oleh Putri. Model regresi ZIP merupakan model yang dapat digunakan pada data cacah dengan frekuensi nol lebih banyak. Akan tetapi, model ZIP ini kurang tepat untuk mengatasi masalah overdispersi atau underdispersi. Sehingga diperlukan suatu model alternatif lain yang tepat untuk mengatasi permasalahan tersebut. Salah satunya adalah memodelkan data cacah tersebut ke dalam model regresi zero inflated generalized Poisson (ZIGP). Menurut Famoye dan Singh (2006) model regresi ZIGP merupakan perluasan dari model regresi Poisson dan merupakan model gabungan dari model regresi ZIP dan model regresi GP. Konsep pembentukan model regresi ZIGP berdasarkan dari distribusi zero inflated generalized Poisson. Sehingga model regresi ZIGP ini dapat diterapkan pada data cacah yang menunjukkan sifat overdispersi atau underdispersi serta mempunyai frekuensi nol yang lebih banyak. Dalam skripsi ini dibahas mengenai konsep pembentukan model regresi zero inflated generalized Poisson yang didasarkan pada distribusi zero inflated generalized Poisson serta mengestimasi parameter-parameter dari model regresi zero inflated generalized Poisson menggunakan metode maksimum likelihood. 1.2 Perumusan Masalah Berdasarkan latar belakang masalah, dapat dirumuskan permasalahan sebagai berikut 1. Bagaimana bentuk model regresi zero inflated generalized Poisson. 2. Bagaimana estimasi parameter dari model regresi zero inflated generalized Poisson menggunakan MLE. 3

4 1.3 Tujuan Penelitian Berdasarkan perumusan masalah, maka tujuan dari penelitian ini adalah sebagai berikut 1. Menentukan bentuk model regresi zero inflated generalized Poisson. 2. Mengestimasi parameter dari model regresi zero inflated generalized Poisson menggunakan MLE. 1.4 Manfaat Penelitian Manfaat yang dapat diperoleh dari penulisan skripsi ini secara teoritis dapat menambah pengetahuan tentang model regresi untuk data cacah yang menunjukkan sifat overdispersi maupun underdispersi, serta pengetahuan tentang metode estimasi parameter pada model regresi zero inflated generalized Poisson. Secara praktis, diharapkan dapat menentukan model yang sesuai dengan tipe data yang ada dan dapat menganalisis data sehingga menghasilkan suatu kesimpulan yang bermanfaat. 4

BAB II LANDASAN TEORI Pada bagian pertama dari bab ini diberikan tinjauan pustaka yang berisi penelitian-penelitian sebelumnya yang mendasari penelitian ini. Untuk mendukung penulisan skripsi ini, penulis menyajikan teori-teori penunjang pada bagian kedua yang berisi definisi-definisi sebagai dasar pengertian untuk mempermudah pembahasan selanjutnya. Kerangka pemikiran yang menjelaskan alur pemikiran dalam penulisan skripsi ini diberikan pada bagian ketiga. 2.1 Tinjauan Pustaka Distribusi Poisson memberikan suatu model yang realistis untuk berbagai macam fenomena random selama nilai dari variabel random Poisson adalah bilangan cacah, banyak fenomena random untuk suatu data cacah dari beberapa respon (variabel yang diteliti) merupakan suatu calon untuk pemodelan yang mengasumsikan distribusi Poisson. Misalkan suatu data cacah mungkin berupa jumlah kecelakaan lalu lintas tiap minggu, jumlah panggilan telepon per jam dalam suatu perusahaan yang masuk lewat operator, banyaknya kerusakan per unit dari beberapa material, jumlah aliran listrik tiap satuan panjang kabel, dan lainlain. Suatu ciri dari distribusi Poisson adalah mean sama dengan variansi. Pada prakteknya, kadang-kadang ditemukan suatu kondisi dengan variansi data lebih besar dibanding mean. Kondisi seperti ini disebut overdispersi, dan model regresi Poisson yang dihasilkan akan menjadi tidak sesuai. Selain itu akan menghasilkan estimasi parameter yang bias (Ridout, dkk, 2001). Famoye, dkk (2004) mengaplikasikan model regresi GP pada data kecelakaan automobil dengan kovariannya/variabel penjelas antara lain faktor demografi, kebiasaan mengendarai dari riwayat kesehatan. Dalam penelitiannya, Famoye, dkk (2004) menunjukkan bahwa model GP lebih tepat menggambarkan data dibanding model Poisson. Model regresi GP dapat diaplikasikan juga dalam bidang lain misal bidang ekonomi commit yang to telah user dilakukan oleh Ismail dan Jemain 5

6 (2005) dengan variabel penelitiannya adalah banyaknya klaim bermotor di Malaysia. Masalah lainnya pada regresi Poisson adalah jika terdapat banyak data yang bernilai nol, sehingga lebih banyak data nolnya dibanding regresi Poisson yang akan diprediksi. Jika hal ini terjadi, maka akan menyebabkan regresi Poisson menjadi tidak tepat menggambarkan data yang sebenarnya. Model ZIP banyak digunakan dalam berbagai disiplin ilmu karena fleksibilitasnya (Lam, dkk, 2006). Lambert (1992) menggunakan model ini dalam bidang manufaktur. Xue, dkk (2004) dan Lam, dkk (2006) juga meneliti model ZIP dalam bidang kesehatan dengan variabel respon banyaknya hari terganggunya aktivitas primer yang disebabkan karena sakit pada individu berusia 18 60 tahun dalam periode 4 minggu. Kemudian Beedy, dkk (2007) menggunakannya untuk pemodelan perilaku seksual dalam hubungannya dengan HIV. Model ZIP hanya menyelesaikan masalah data yang banyak nol nya saja (zero inflated) pada data cacah, model ini kurang tepat masalah overdispersi atau underdispersi. Banyak para peneliti yang kemudian pada akhirnya beralih dari model ZIP ke ZINB, seperti Ridout, dkk (1988) yang meneliti tentang pemodelan untuk perkembangbiakan tunas apel. Martin, dkk (2005) dalam pemodelan data bakteri ekoli. Sedangkan Giufrida (2001) dan Taimela, dkk (2007) langsung menggunakan model ZINB dalam pemodelan masalah kesehatan di kalangan pekerja. Model ZINB merupakan model regresi untuk mengatasi masalah overdispersi dan zero inflated berdasarkan pada distribusi binomial negatif, tetapi dalam penghitungan estimasi parameternya iterasi sering gagal konvergen (Famoye dan Singh, 2006). Pada tahun 2006, Famoye dan Sings mengaplikasikan model regresi zero inflated generalized Poisson (ZIGP) untuk memodelkan data kekerasan dalam rumah tangga dengan struktur data yang terlalu banyak bernilai nol. Model regresi ZIGP merupakan model untuk kasus data respon yang bersifat cacah. Model ini dapat mengatasi masalah dengan terdapat banyak data yang bernilai nol dan terjadi overdispersi. Menurut Famoye dan Singh (2006), model ZIGP merupakan gabungan antara model ZIP dengan model GP.

7 2.2 Teori - Teori Penunjang Pada bagian ini diberikan definisi dan teori yang mendukung dalam mencapai tujuan penulisan. Berikut ini diberikan gambaran singkat mengenai konsep dasar statistik, teori dasar matriks, keluarga distribusi eksponensial, distribusi Poisson, fungsi link, distribusi Poisson, model regresi Poisson, model ZIP dan model GP sebagai dasar pembentukan model ZIGP, pendeteksian overdispersi dan underdispersi, metode maximum likelihood estimator (MLE), dan metode Newton-Raphson. 2.2.1 Konsep Dasar Statistik Konsep dasar statistik yang digunakan sebagai pendukung dalam penulisaan skripsi ini adalah ruang sampel, fungsi densitas probabilitas, variabel random, fungsi distribusi kumulatif, harga harapan dan variansi yang di didefinsikan oleh Bain dan Engelhardt, (1992). Definisi 2.2.1. Ruang sampel merupakan himpunan semua kejadian yang mungkin dari suatu eksperimen yang dinotasikan dengan S. Definisi 2.2.2. Suatu variabel random Y adalah suatu fungsi yang memetakan setiap hasil yang mungkin pada ruang sampel S dengan suatu bilangan real x sehingga. Definisi 2.2.3. Jika himpunan suatu nilai yang mungkin dari variabel random Y adalah himpunan terhitung atau himpunan terhingga tak terhitung maka Y disebut variabel random diskrit. Fungsi [ ], merupakan probabilitas untuk masing-masing nilai y disebut fungsi densitas probabilitas diskrit. Definisi 2.2.4. Fungsi distribusi kumulatif dari variabel random Y terdefinisi untuk setiap bilangan real y oleh [ ] Variabel random Y disebut variabel random diskrit jika terdapat f(y) sehingga fungsi distribusi kumulatif dapat dinyatakan sebagai

8 Definisi 2.2.5. Jika X adalah suatu variabel random diskrit dengan fungsi densitas probabilitas f(x), maka harga harapan dari X dinyatakan sebagai Definisi 2.2.6. Jika X adalah suatu variabel random berukuran n, maka variansi X dinyatakan sebagai [ ] 2.2.2 Teori Dasar Matriks Berikut ini merupakan definisi matriks menurut Anton (1992). Definisi 2.2.7. Sebuah matriks adalah sebuah persegi dari bilangan-bilangan. Bilangan-bilangan di dalam persegi disebut entri dalam matriks [ ] Dengan n baris dan n kolom disebut matriks persegi order n dan entri-entri disebut diagonal utama dari matriks A. Definisi 2.2.8. Jika A adalah sembarang matriks berukuran mxn maka transpose A dinotasikan dengan A T merupakan matriks berukuran nxm yang dihasilkan dengan mengubah baris dan kolom dari matriks A sehingga kolom pertama dari A T adalah baris pertama dari A, kolom kedua dari A T adalah baris kedua dari A, dan seterusnya. Definisi 2.2.9. Jika A adalah matriks persegi dan jika matriks B mempunyai ukuran yang sama dengan matriks A dan berlaku AB = BA = I, maka A dikatakan invertible dan B disebut inverse A. 2.2.3 Keluarga Distribusi Eksponensial Menurut Mc Cullagh dan Nelder (1983), suatu fungsi probabilitas yang tergantung pada suatu parameter dari suatu variabel random dikatakan termasuk dalam keluarga distribusi eksponensial apabila dapat dituliskan sebagai

9 [ ] (2.1) dengan adalah parameter kanonik dan adalah parameter dispersi. Harga harapan dan variansi dari distribusi keluarga eksponensial dengan rumus dan. Salah satu anggota keluarga distribusi eksponensial adalah distribusi Poisson. 2.2.4 Fungsi Link Menurut Mc Cullagh dan Nelder (1983), fungsi link adalah suatu fungsi yang menghubungkan fungsi prediktor linier dengan mean respons. Suatu fungsi link dikatakan fungsi link kanonik bila parameter kanoniknya sama dengan fungsi link-nya, yaitu dengan adalah parameter kanonik. Fungsi link kanonik untuk beberapa distribusi disajikan dalam Tabel 1. Tabel 2.1 Daftar fungsi link untuk beberapa distribusi Distribusi Fungsi link kanonik Normal Poisson Binomial [ ] Gamma 2.2.5 Distribusi Poisson Distribusi Poisson sering digunakan untuk memodelkan jumlah kemunculan dari suatu kejadian, seperti jumlah bencana alam pada suatu daerah tiap tahun. Menurut Bain dan Engelhardt (1992) jika variabel random diskrit Y berdistribusi Poisson dengan parameter maka variabel random Y mempunyai fungsi densitas probabilitas, (2.2)

10 Distribusi Poisson termasuk dalam keluarga distribusi eksponensial, hal ini ditunjukkan dengan membawa persamaan (2.2) ke persamaan (2.1) [ ] ( [ ] ) dengan Karena distribusi Poisson merupakan anggota distribusi keluarga eksponensial, maka dapat ditentukan nilai mean dan variansinya yaitu, sehingga pada distribusi Poisson berlaku. Distribusi Poisson merupakan distribusi diskrit. Untuk nilai yang kecil maka distribusinya sangat menceng dan untuk nilai yang besar akan lebih mendekati distribusi normal. Untuk kasus yang jarang terjadi maka nilai akan kecil. Distribusi Poisson adalah suatu distribusi yang paling sederhana dalam pemodelan data yang berupa data cacah, tetapi bukan satu-satunya. Menurut Lam, dkk (2006) distribusi Poisson sering digunakan dalam pemodelan kasus yang jarang terjadi (rare event), seperti pemodelan tentang kecelakaan, peperangan atau epidemi. Peristiwa terganggunya aktivitas seseorang karena sakit pada usia dewasa terutama yang masih aktif bekerja atau melakukan kegiatan primer lainnya (sekolah, mengurus rumah tangga atau kegiatan seharihari lainnya) dapat dikatakan merupakan suatu peristiwa yang jarang, karena pada usia tersebut terutama kalangan usia muda cenderung masih melakukan aktivitas secara normal walaupun sakit. 2.2.6 Model Regresi Poisson Dalam berbagai eksperimen, seringkali data cacah yang merupakan objek penelitian dipengaruhi oleh sejumlah variabel penjelas (explanatory). Untuk mengetahui pola hubungan antara commit kedua variabel to user tersebut, maka dapat digunakan

11 suatu model regresi yang didasarkan pada distribusi Poisson. Jika suatu variabel random mempunyai tipe diskrit dan menyatakan banyaknya kejadian dalam interval tertentu (waktu, area, dan lain-lain), maka variabel random tersebut berdistribusi Poisson. Regresi Poisson merupakan suatu bentuk analisis regresi yang digunakan untuk memodelkan data yang berbentuk cacah. Model regresi Poisson digunakan untuk memodelkan banyaknya kemunculan dari suatu kejadian dalam interval waktu tertentu tertentu. Pada regresi Poisson diasumsikan bahwa variabel dependen Y yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen. atau dengan kata lain, Salah satu tujuan dari analisis regresi adalah untuk menentukan pola hubungan antara variabel respon dengan variabel penjelas. Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk atau Karena nilai, maka digunakan fungsi link atau untuk menghubungkan dengan fungsi linier sehingga hubungan antara dan menjadi tepat. Dengan demikian model regresi Poisson dapat ditulis dalam bentuk dengan merupakan parameter yang tidak diketahui dalam model dan perlu diestimasi. Dalam distribusi mengasumsikan bahwa nilai mean sama dengan nilai variansinya. Ismail & Jemain (2005) menyatakan seringkali data cacah memperlihatkan variansi sampel lebih besar dari mean sampel (overdispersi) atau variansi sampel lebih kecil dari mean sampel (underdispersi), sehingga

12 penggunaan model regresi Poisson tidak sesuai. Selain itu akan menghasilkan estimasi parameter yang bias. Masalah lainnya pada regresi Poisson adalah jika terdapat banyak data yang bernilai nol, sehingga lebih banyak data nolnya dibanding regresi Poisson yang akan diprediksi. Jika hal ini terjadi, maka akan menyebabkan regresi Poisson menjadi tidak tepat menggambarkan data yang sebenarnya. 2.2.7 Model Regresi Generalized Poisson Pengembangan dari distribusi Poisson pertama kali diperkenalkan oleh Consul (1992) yang dikenal sebagai generalized Poisson distribution (GPD). Bentuk distribusi ini umumnya digunakan untuk menjelaskan sejumlah data cacah yang memperlihatkan sifat-sifat overdispersi atau underdispersi. Analisis regresi merupakan salah satu metode statistik yang bertujuan menentukan untuk menentukan pola hubungan antara variabel dependen dan variabel independen, kemudian pola hubungan tersebut dirumuskan ke dalam suatu model sehingga dapat dilakukan suatu prediksi nilai variabel dependen dengan diketahui nilai variabel independen. Model regresi generalized Poisson (GP) merupakan suatu model yang sesuai untuk data cacah dengan terjadi pelanggaran asumsi mean sampel sama dengan variansi sampel pada disribusi Poisson, atau dengan kata lain jika terjadi overdispersi atau underdispersi. Model regresi generalized Poisson merupakan salah satu metode regresi yang sering digunakan untuk menginterpretsikan pola hubungan antara variabel dependen dengan variabel independen ke dalam suatu bentuk model. Model regresi generalized Poisson adalah perluasan dari regresi Poisson, dengan dalam model regresi ini variabel dependen berupa bentuk cacah misalnya dan seterusnya. Jelas bahwa variabel dependen tidak dapat bernilai negatif. Pada model regresi ini, dapat dimanfaatkan untuk memodelkan banyaknya suatu kejadian atau laju suatu kejadian yang menjadi pusat perhatian, sebagai fungsi dari sejumlah variabel independen. Laju dari klaim asuransi serta banyaknya klaim yang datang merupakan contoh dari peristiwa yang dapat dimodelkan dengan model regresi generalized Poisson.

13 Model regresi GP merupakan terapan dari generalized liniar model (GLM). Pada GLM, variabel dependen tidak harus berdistribusi normal dan untuk uji hipotesisnya variansi tidak harus homogen/konstan. Model GP mengasumsikan bahwa komponen randomnya berdistribusi generalized Poisson. Misal, merupakan variabel respon. Famoye dkk (2004) mendefinisikan distribusi GP sebagai { (2.3) Mean dan variansi persamaan (2.3) adalah sebagai berikut dan. Jika maka model regresi GP akan menjadi regresi Poisson. Jika, maka model GP merepresentasikan data cacah yang overdispersi, dan jika underdispersi. Analisis regresi mempunyai tujuan menentukan pola hubungan antara variabel dependen dan variabel independen maka persamaan dapat dinyatakan sebagai atau (2.4) Nilai dari pada persamaan (2.4) dapat bernilai real, sehingga memungkinkan munculnya nilai negatif. Sebagaimana diketahui bahwa ekspetasi dari distribusi generalized Poisson, haruslah bernilai positif, sehingga perlu dilakukan transformasi sedemikian sehingga bentuk hubungan antara dan menjadi tepat. Solusi yang dilakukan adalah dengan mengambil logaritma natural dari nilai. Hasil dari log ini kemudian akan digunakan untuk mencari hubungannya terhadap, yaitu Fungsi disebut sebagai fungsi link, yaitu fungsi yang menghubungkan dengan fungsi linier. Oleh sebab itu, model regresi generalized Poisson dapat ditulis dalam bentuk atau, commit to. user

14 2.2.8 Model Regresi Zero Inflated Poisson Tidak semua data cacah cocok menggunakan model Poisson, salah satunya adalah data cacah yang menunjukkan overdispersi disebabkan oleh frekuensi nol yang besar muncul dalam distribusi, maka disarankan digunakan model regresi zero inflated Poisson (ZIP) (Lambert, 1992). Famoye dan Singh (2006) memperkirakan proporsi data yang bernilai nol adalah sekitar 63,7 persen. Lambert (1992) mendefinisikan model regresi ZIP sebagai { dengan parameter dan yang memenuhi dengan X dan Z adalah matrik kovarian dalam hal ini terdiri dari variabelvariabel penjelas yang masing-masing mempengaruhi mean Poisson dengan parameter, dan mempengaruhi probabilitas dengan parameter. Kovarian-kovarian yang mempengaruhi mean Poisson dapat sama dengan kovarian-kovarian yang mempengaruhi probabilitas. Jika kovariankovarian yang sama mempengaruhi p dan, maka akan mengurangi banyaknya parameter dengan berpikir bahwa p merupakan fungsi dari, contohnya peluang seseorang untuk terganggu atau tidaknya aktivitas karena sakit dipengaruhi oleh rata-rata banyaknya gangguan aktivitas. Pada aplikasinya, informasi mengenai bagaimana berhubungan dengan sangatlah sedikit. Jika demikian maka dan dengan adalah suatu ukuran parameter yang tidak diketahui dan merupakan bilangan Real yang menyatakan secara tidak langsung bahwa, sehingga model ZIP ini dilambangkan sebagai ZIP. Mean dan variansi ZIP dan

15 [ ]. 2.2.9 Pendeteksian Overdispersi dan Underdispersi Kategori lain yang digunakan untuk mendeteksi adanya overdispersi dan underdispersi adalah nilai deviance. Bentuk statistik deviance adalah Jika hasil bagi antara nilai statistik D terhadap derajat bebasnya atau statistik terhadap derajat bebasnya lebih besar dari 1, maka indikasi bahwa telah terjadi overdispersi pada model regresi Poisson. Sedangkan jika nilai hasil bagi lebih kecil dari 1 maka diidentifikasi telah terjadi underdispersi. 2.2.10 Metode Maksimum Likelihood Suatu variabel random dari suatu distribusi yang memiliki fungsi densitas probabilitas, dengan merupakan suatu parameter yang tidak diketahui dan adalah ruang parameter. Karena variabel random saling independen, maka fungsi densitas probabilitas bersama dari adalah Menurut Bain dan Engelhardt (1992) fungsi likelihood didefinisikan sebagai fungsi densitas probabilitas bersama dari yang dapat dianggap sebagai fungsi dari. Fungsi likelihood dapat dituliskan sebagai berikut Pada metode estimasi maksimum likelihood, estimasi dari diperoleh dengan menemukan nilai yang memaksimumkan fungsi likelihood. Maka disebut estimator maksimum likelihood (MLE) dari. Mencari nilai yang

16 memaksimumkan fungsi akan memberikan hasil yang sama dengan mencari nilai yang memaksimumkan. Baik atau dapat digunakan untuk mencari nilai. Nilai yang memaksimumkan dapat diperoleh dengan mencari solusi dari persamaan. Jika pada proses estimasi parameter didapatkan persamaan terakhir yang non-linier maka tidak mudah untuk memperoleh estimasi tersebut, sehingga diperlukan suatu metode iterasi untuk menyelesaikan persamaan non-linier tersebut. Salah satunya dengan menggunakan metode Newton-Raphson. 2.2.11 Metode Newton-Raphson Menurut Famoye, dkk (2006) metode Newton-Raphson merupakan metode numerik untuk menyelesaikan persamaan non-linier secara iteratif seperti menyelesaikan persamaan likelihood yang mencari lokasi untuk memaksimalkan suatu fungsi. Jika pada proses estimasi parameter didapatkan persamaan terakhir yang non-linier maka tidak mudah untuk memperoleh estimasi parameter tersebut, sehingga diperlukan metode Newton-Raphson untuk menyelesaikan persamaan non-linier tersebut. Dasar dari metode inilah pendekatan deret Taylor linier Perluasan dari bentuk orde-1, diperoleh Jika merupakan nilai awal dari maka dapat dimisalkan dan dengan, begitu juga untuk G dan H sehingga diperoleh iterasi Newton-Raphson sebagai berikut : dengan indeks t menyatakan ukuran iterasi. Langkah-langkah dari Newton-Raphson sebagai berikut, 1. Menentukan estimasi awal commit dari yaitu to user

17 2. ( ) ( ) ( ) merupakan derivatif pertama dari pada 3. ( ) ( ) misalkan ( ) dan ( ) maka 4. Estimator diiterasi terus sampai diperoleh selisih antara dan nilainya sangat kecil atau dapat dituliskan. Metode Newton-Raphson dapat diperluas untuk menyelesaikan sistem persamaan dengan lebih dari satu parameter, misalnya iterasinya sebagai berikut dengan ( ) dan sehingga diperoleh dengan dan. 2.3 Kerangka Pemikiran Model regresi Poisson adalah model regresi yang digunakan untuk menyata-kan hubungan antara variabel respon variabel prediktor dengan variabel respon berupa data cacah yang berdistribusi Poisson, distribusi Poisson termasuk dalam keluarga distribusi eksponensial sehingga dapat dengan mudah ditentukan mean dan variansi sampelnya. Model regresi Poisson mengasumsikan nilai mean

18 dan variansi sampelnya sama, sehingga penggunaan model regresi Poisson pada data cacah kadang tidak cocok karena data terkadang menunjukkan sifat overdispersi ataupun underdispersi. Dalam kenyataannya banyak dijumpai data cacah yang memiliki banyak nilai nol, dan mengandung sifat overdispersi ataupun underdispersi maka penggunaan model regresi Poisson menjadi tidak sesuai. Sehingga diperlukan model regresi yang dapat mengatasi masalah ini, model regresi yang lebih cocok adalah model regresi ZIGP. Model regresi ZIGP merupakan gabungan model regresi ZIP dan GP. Model regresi ZIP merupakan suatu model yang cocok untuk kasus dengan responnya bersifat cacah dan banyak yang bernilai nol. Sedangkan model regresi generalized Poisson (GP) merupakan suatu model yang cocok untuk kasus dengan terjadi pelanggaran asumsi mean sampel sama dengan variansi sampel pada disribusi Poisson. Untuk membentuk model tersebut dari distribusi zero inflated generalized Poisson dibutuhkan fungsi link agar hubungan fungsi prediktor linier dengan mean respons sesuai. Estimasi parameter model regresi Poisson tergeneralisasi dilakukan dengan metode maximum likelihood estimator (MLE) yang didalamnya melibatkan metode iterasi Newton-Raphson.

BAB III METODE PENELITIAN Pada penelitian ini, metode yang digunakan adalah studi literatur dengan mengacu pada sumber-sumber pustaka statistika, dan dengan cara mempelajari karya-karya ilmiah yang telah dihimpun dari hasil penelitian para pakar baik yang tersajikan pada seminar maupun yang telah dimuat di dalam situs web, jurnal, disertasi ataupun buku yang berkaitan dengan model regresi zero inflated generalized Poisson. Dengan metode tersebut dapat menjelaskan bentuk model regresi zero inflated generalized Poisson dan estimasi parameternya dilakukan dengan metode maksimum likelihood (MLE) yang didalamnya melibatkan metode iterasi Newton-Raphson dalam penyeleseiannya. Adapun langkah-langkah dalam penulisan skripsi ini sebagai berikut 1. Mengestimasi parameter model Regresi ZIGP dengan metode MLE, dilakukan langkah-langkah berikut a) Menetapkan model regresi b) Menetapkan parameter yang akan diestimasi, yaitu c) Membuat fungsi likelihood dan log likelihood-nya berdasarkan model regresi d) Mengestimasi parameter dengan memaksimumkan fungsi log likelihood yang diperoleh di atas menggunakan algorithma Newton-Raphson. 2. Pengujian Hipotesis model regresi ZIGP menggunakan GLRT dengan hipotesis-hipotesis sebagai berikut Pengujian kesesuaian model, yaitu uji parameter dispersi (ZIGP tidak sesuai) (ZIGP sesuai). 3. Menerapkan model regresi zero inflated generalized Poisson pada klaim asuransi untuk kecelakaan kendaraan bermotor di perusahaan asuransi di kota Kendari. 19

BAB IV PEMBAHASAN 4.1 Model Regresi Zero Inflated Generalized Poisson Model ZIGP merupakan salah satu model yang dapat digunakan untuk data respon yang bersifat cacah. Model ini dapat mengatasi masalah dengan terdapat banyak data yang bernilai nol (zero inflation) dan terjadi overdispersi (Czado dan Min, 2006 ; Famoye dan Singh, 2006). Famoye dan Singh (2006) mendefinisikan fungsi densitas probabilitas ZIGP sebagai gabungan dari fungsi densitas probabilitas ZIP dan GP, sehingga fungsi densitas probabilitas model regresi ZIGP dapat dituliskan sebagai berikut, { ( ) (4.1) ( ), adalah baris dari matriks kovariat X, dan adalah vektor kolom parameter k-dimensi, sehingga dan memenuhi dan dimana adalah baris dari matriks kovariat Z, dan adalah vektor kolom parameter m-dimensi. Jika matriks kovariat yang sama mempengaruhi maupun ( X = Z ), maka dapat ditulis sebagai fungsi dari sehingga diperoleh dan. Dari persamaan (4.1) diperoleh ( ) dan sehingga didapat ( ) (4.2) (4.3) 20

21 dan. (4.4) Menurut Famoye dan Singh (2006), jika Y variabel random berdistribusi zero inflated generalized Poisson maka nilai mean dan variansi sampelnya adalah ( ) ( ) [ ] ( )[ ]. Analisis regresi mempunyai tujuan menentukan pola hubungan antara variabel dependen dan variabel independen, sehingga persamaan (4.1) dapat dituliskan dalam bentuk Nilai dari ( ). dapat bernilai real, artinya dapat bernilai poistif atau negatif. Padahal ekspektasi dari distribusi ZIGP haruslah bernilai positif sehingga diperlukan transformasi sedemikian sehingga bentuk hubungan dan tepat. Menurut Consul dan Famoye (1992) yang dapat digunakan adalah dengan mengambil nilai logaritma natural dari yang dituliskan sebagai berikut, dengan merupakan fungsi link, yaitu fungsi yang menghubungkan dengan fungsi linier sebagai berikut, dengan. Sehingga model regresi ZIGP dapat dituliskan dalam bentuk. ( ) Model ZIGP akan menjadi model GP ketika dan ketika akan menjadi ZIP. Pada tahun 2006, Famoye dan Singh mengaplikasikan model regresi ZIGP untuk memodelkan data kekerasan dalam rumah tangga dengan struktur data yang terlalu banyak bernilai nol.

22 4.2 Estimasi Parameter Model Regresi Zero Inflated Generalized Poisson Menggunakan Maximum Likelihood Estimastor (MLE) Metode estimasi yang digunakan untuk mengestimasi parameter model regresi ZIGP adalah metode maksimum likelihood. Metode maksimum likelihood merupakan suatu metode estimasi parameter yang memaksimumkan fungsi likelihood. Estimasi dengan metode ini dapat digunakan jika distribusi dari data diketahui. Langkah pertama dari metode maksimum likelihood adalah menentukan fungsi densitas probabilitas bersama dari beberapa model regresi Poisson. Misalkan dengan mengasumsikan merupakan sekumpulan variabel random Poisson yang independen. Substitusi persamaan (4.2), (4.3) dan (4.4) ke dalam persamaan (4.1), maka akan diperoleh [ ] { (4.5) dengan demikian fungsi likelihoodnya adalah [ ] { (4.6) dengan [ ] [ ] dan fungsi log likelihoodnya adalah Untuk, [ ]. Untuk,. Dengan demikian fungsi log likelihood untuk Model ZIGP dapat ditulis [ ]

23 (4.7) dengan dan ( ) Persamaan (4.10) diturunkan terhadap, sehingga diperoleh [ ] [ ]. ( ( )) [ ( ) ( ( ) ( ) )] ( ( ) ( ) ) [ ( ) ( ) ]. dengan ( ( )) ( ) ( ). [ ( ) ( ( ) ( ) )] ( )[ ] ( ). ( ( ) ) ( ( ) ( ) ( ) ) ( ( ) ( ( )) ( ). ) [ ( ) ( ) ] ( ( ) ( ( )) ). Sehingga derivatif pertama terhadap sebagai berikut [ ] ( ) [ ( ) ( )]

24 ( [ ]( ( ) )) ( ). [ ] ( ), dengan. (4.8) [ ]. dengan. [ ]. Sehingga derivatif pertama terhadap sebagai berikut [ ] ( ). (4.9) ( ) [ ] dengan.

25 [ ] ( ) [ ( )].. [ ]. sehingga derivatif pertama terhadap sebagai berikut ( ) [ ( )] ( ( ) ). ( ) [ ( )] ( ( ) ). (4.10) Persamaan (4.8), (4.9) dan (4.10) merupakan persamaan non-linier. Pada persamaan (4.8), (4.9) dan (4.10) diturunkan terhadap ternyata derivatifnya masih mengandung parameter lain yang belum diketahui dan perlu diestimasi. Sehingga untuk mengestimasi kedua parameter ini dilakukan secara bersamaan dengan menggunakan suatu metode iterasi yang disebut metode Newton-Raphson. Metode Newton-Raphson merupakan metode numerik untuk menyelesaikan persamaan non-linier secara iteratif. Pada metode Newton- Raphson dibutuhkan derivatif pertama dan kedua fungsi log likelihoodnya. Misalkan didefinisikan matriks G dan H sebagai dan [ ] [ ] G merupakan turunan pertama dari fungsi log-likelihood dan H merupakan turunan kedua dari fungsi log-likelihood disebut matriks Hessian. Derivatif pertama dari fungsi log likelihood ditunjukkan oleh persamaan (4.8), (4.9) dan (4.10). Derivatif partial kedua dari fungsi log Likelihood diperoleh sebagai berikut

26 [ ] [ [ ]( ( ) ) ] [ ]. ( ) ( ) [ ( )] ( ). { } { ( ) [ ] }. { ( ) [ ] [ ] [ ] }. [ ] ( )[ ] [ ( )]. ( ) [ ( )]. ( )[ [ ( )]] [ ( )] { }.

27 sehingga estimasi parameter dan menggunakan metode iterasi Newton- Raphson sebagai berikut ( ) (4.11) Persamaan (4.11) akan terus berulang sehingga diperoleh nilai dan yang konvergen, yaitu jika nilai dan nilai nilainya sangat kecil. mendekati, begitu juga dengan mendekati mendekati atau nilai, dan 4.3 Uji Ketepatan Model Regresi ZIGP Menurut Famoye dan Singh (2006), model regresi ZIGP akan menjadi model regresi ZIP ketika parameter. Oleh karena itu untuk melihat kesesuaian model ZIGP, dilakukan pengujian hipotesis sebagai berikut (4.12) Penolakan menunjukkan bahwa model regresi ZIP tidak tepat digunakan, sehingga dalam situasi seperti ini model regresi ZIGP lebih tepat digunakan dibandingkan model regresi ZIP. Untuk menyelesaikan uji hipotesis pada (4.12) perlu diperhatikan parameter dari model regresinya. Jika diketahui, untuk menguji ketepatan model regresi ZIGP adalah statistik uji deviance. Statistik uji deviance merupakan logaritma dari rasio likelihood. Statistik uji deviance (D) dapat ditulis sebagai [ ( ) ( ) ] [ ( ) ( )] [ ( ) ( )] ( ) [ ( { ( ) ( ) ( )] ( ) } )

28 ( ( ) [ ( )] { ( ) }) { ( ( )) [ ( )]} { [ ( ( ))] ( ) [ ( ) ]} (4.13) Nilai statistik uji (4.13) mendekati distribusi chi-square dengan derajat bebas, dengan p menyatakan jumlah total parameter yang diestimasi. Model Regresi ZIGP tepat digunakan jika nilai, dengan sama dengan tingkat signifikansi. 4.4 Contoh Kasus Pada contoh kasus ini akan dimodelkan hubungan antara tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan bermotor dengan faktor-faktor yang diduga berpengaruh terhadap tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan bermotor. Oleh karena itu tingkat cacat yang terlihat pada lamanya perawatan yang kemudian dihitung berdasarkan kejadian dilapangan menjadi variabel dependen. Variabel lama perawatan adalah diskrit dan bernilai ketika korban tersebut sudah sembuh total setelah periode cacat fungsional sementara. Asuransi kecelakaan motor pada umumnya menangani tiga jenis klaim, yaitu kerusakan kendaraan karena kecelakaan atau kesalahan sendiri (Own Damage atau OD), terjadinya luka-luka pihak ketiga (Third Party Bodily Injury atau TPBI), dan kerusakan properti pihak ketiga (Third Party Property Damage atau TPPD). Dalam penelitian ini, akan disajikan aplikasi numerik dari model regresi zero inflated generalized Poisson pada data TPBI klaim asuransi untuk kecelakaan Kendaraan bermotor commit di Perusahaan to user Asuransi di Kota Kendari. Tabel

29 4.1 memberikan gambaran lama perawatan sesuai jumlah klaim yang diajukan, usia dan jenis kelamin korban kecelakaan. Tabel 4.1. Data lama perawatan sesuai jumlah klaim yang diajukan, usia dan jenis kelamin korban kecelakaan No. Lama Perawatan (Hari) Jumlah Klaim Usia Jenis Kelamin 1 0 1 30 1 2 1 3 50 1 3 2 1 24 1 4 5 1 45 0 5 0 1 22 0 6 0 1 20 1 7 0 1 22 0 8 1 1 11 1 267 2 0 16 1 268 2 1 17 1 269 0 1 37 1 270 0 1 24 1 4.4.1 Pendeteksian Overdispersi atau Underdispersi Sebelum dilakukan penentuan model, terlebih dahulu dilakukan pendeteksian terjadinya overdispersi atau underdispersi. Dari output Sofware R 2.14.1 pada Lampiran 3, memberikan hasil estimasi untuk nilai deviance pada regresi Poisson yang disajikan pada Tabel 4.2. Tabel 4.2. Nilai statistik deviance (D ) Value DF Value/DF Null deviance 359,54 269 1,34 Residual deviance 338,42 266 1,27 Dari hasil perhitungan nilai deviance dibagi dengan derajat bebas diperoleh nilai 1,27, nilai ini lebih dari 1, sehingga dapat disimpulkan bahwa data cacah yang dianalisis mengalami masalah overdispersi. Terjadinya overdispersi menyebabkan model regresi Poisson yang telah diperoleh menjadi tidak tepat untuk digunakan.

30 4.4.2 Model Regresi Zero Inflated Generalized Poisson Pada Klaim Asuransi Untuk Kecelakaan Kendaraan Bermotor di Perusahaan Asuransi di Kota Kendari dengan Seluruh Variabel Independen Model regresi zero inflated generalized Poisson adalah ( ) Pada contoh kasus ini variabel independennya adalah usia, jenis kelamin dan jumlah klaim. Sehingga model regresi zero inflated generalized Poissonnya ( ) dengan (4.16) dan Estimasi parameter model regresi zero inflated generalized Poisson pada lampiran 3, memberikan nilai yang disajikan pada Tabel 4.3 Tabel 4.3 Nilai estimasi parameter model regresi zero inflated generalized Poisson dengan seluruh variabel independen Variabel Estimasi Parameter Intercept -0,26487 0,1845 USIA 0,01342 0,0163 JENIS_KELAMIN 0,14708 0,1239 JUMLAH_KLAIM 0,10025 0,4566-2,18170 0,9730-8,19127 0,0034 Dengan memasukkan nilai estimasi pada Tabel 4.3 ke persamaan (4.16), maka estimasi model regresi zero inflated generalized Poissonnya adalah ( ) dengan (4.17) ( menyatakan tingkat kecelakaan yang dipengaruhi oleh usia, jenis kelamin dan jumlah klaim, dan ( ( menyatakan probabilitas tidak terjadinya tingkat kecelakaan yang dipengaruhi oleh usia, jenis kelamin dan jumlah commit klaim. to user

31 Dari Tabel 4.3, hanya variabel usia yang signifikan karena nilai probabilitas yang kurang dari. Sehingga variabel yang masuk dalam model hanya USIA. 4.4.3 Model Regresi Zero Inflated Generalized Poisson Pada Klaim Asuransi untuk Kecelakaan Bermotor di Perusahaan Asuransi di Kota Kendari dengan Seluruh Variabel Independen Berpengaruh Setelah diketahui bahwa variabel independen yang memiliki pengaruh signifikan terhadap model adalah usia dan jenis kelamin, selanjutnya akan dilakukan estimasi parameter model yang mengandung variabel independen berpengaruh saja. Nilai estimasi parameter pada lampiran 5, memberikan nilai yang disajikan pada Tabel 4.4. Tabel 4.4. Nilai estimasi parameter model regresi ZIGP dengan variabel independen berpengaruh. Variabel Estimasi Parameter Intercept -0,06735 0,6983 USIA 0,01641 0,0019-1,88220 0,0010-6,51272 0,8883 Berdasar nilai estimasi pada Tabel 4.4, maka estimasi model regresi zero inflated generalized Poissonnya adalah ( ) dengan (4.18) ( ) menyatakan tingkat kecelakaan yang dipengaruhi oleh usia dengan ( ) ( ) menyatakan probabilitas tidak terjadinya tingkat kecelakaan yang dipengaruhi oleh usia dan jenis kelamin. Berdasarkan estimasi model (4.18), tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan commit bermotor user dipengaruhi oleh usia sebesar

32 0,01641, artinya setiap kenaikan 1 satuan unit usia akan menjadikan rata-rata tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan bermotor menjadi sebesar kali lebih besar dan probabilitas terjadinya tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan bermotor dipengaruhi oleh usia sebesar. 4.4.4 Uji Kecocokan Model Untuk menguji kecocokan regresi zero inflated generalized Poisson dengan data, digunakan statistik uji deviance dan Pearson chi-square dengan hipotesis adalah Tingkat signifikansi yang digunakan adalah 0,05, akan ditolak jika nilai deviance lebih besar dari tabel chi-square ( ). Dari output software R 2.14.1 Didapat nilai deviance, maka ditolak artinya terdapat kecocokan model yang digunakan dengan data atau model yang digunakan tepat.

BAB V PENUTUP 5.1 Kesimpulan Dari pembahasan yang telah dilakukan, dapat diambil kesimpulan sebagai berikut, 1. Model regresi zero inflated generalized Poisson adalah ( ) dengan dan. 2. Estimasi parameter model regresi zero inflated generalized Poisson menggunakan MLE menghasilkan persamaan non-linier, sehingga untuk mengestimasi parameter dilakukan bersamaan dengan menggunakan metode Newton-Raphson. 5.2 Saran Pada penelitian ini, hanya dibahas tentang estimasi parameter model regresi ZIGP dengan menggunakan metode maksimum likelihood. Oleh karena itu, kepada pembaca yang tertarik mengembangkan skripsi ini disarankan untuk meneliti estimasi parameter model regresi ZIGP dengan menggunakan metode quasi likelihood dan bayesian, sehingga nanti hasilnya dapat dibandingkan untuk menentukan metode yang terbaik. 33