BAB I PENDAHULUAN 1.1 Latar Belakang Analisis regresi merupakan salah satu metode statistika yang luas penggunaanya dalam berbagai bidang dan telah diterapkan untuk berbagai jenis pengujian serta penelitian. Analisis regresi merupakan metode sederhana untuk menginvestigasi hubungan antar variabel. Hubungan tersebut digambarkan pada bentuk persamaan atau model yang menghubungkan variabel respon dengan satu atau lebih variabel prediktor (Chatterje dan Hadi, 2006). Analisis regresi terdiri atas beragam metode dan salah satu yang telah dikenal luas dalam bidang statistika adalah regresi Poisson. Model regresi Poisson merupakan salah satu model regresi yang variabel responnya berbentuk count atau cacah. Jika bentuk regresi linear klasik bertumpu pada eror yang berdistribusi normal, berbeda halnya dengan regresi Poisson. Regresi Poisson termasuk salah satu analisa yang digunakan untuk data yang mengandung eror di luar distribusi normal yaitu pada distribusi keluarga eksponensial. Regresi dari keluarga eksponensial memiliki model khusus yang merupakan pengembangan dari model linear klasik yaitu Generalized Linear Model (GLM). Terdapat tiga komponen utama pada GLM yaitu variabel dependen merupakan variabel random dengan distribusi yang berasal dari keluarga eksponensial, variabel independen bersifat linear, dan terdapat link function atau fungsi yang menjadi penghubung ekspektasi dari variabel respon dengan variabel prediktor. Regresi Poisson umumnya digunakan pada data yang bersifat cacah (count data) seperti jumlah peristiwa yang terjadi pada waktu tertentu. Sebagai contoh yaitu kedatangan pembeli pada suatu konter supermarket, peristiwa gempa bumi pada wilayah tertentu, dan lain sebagainya. Data cacah ini banyak terdapat di 1
2 berbagai sektor sehingga penggunaan regresi Poisson dapat secara luas dimanfaatkan. Pada regresi Poisson, efek dari variabel prediktor terhadap variabel respon dimodelkan melalui parameter μ. Nilai dari variabel respon Y merupakan integer non-negatif berupa 0,1,2,3 dan seterusnya. Regresi Poisson ini mempunyai kemiripan dengan regresi logistik yang juga memiliki variabel respon yang bersifat diskrit. Namun, pada regresi Poisson responnya tidak dibatasi oleh nilai tertentu seperti yang terdapat pada regresi logistik. Model-model statistika yang diperoleh dari sebuah data harus dievaluasi menggunakan kriteria-kriteria tertentu untuk menentukan model terbaik yang akan dipilih, tak terkecuali data dengan variabel respon berdistribusi Poisson. Diantara kriteria-kriteria tersebut salah satunya yakni pengukur kekuatan prediksi modelmodel regresi (measures of predictive power). Kekuatan prediksi ini sangat penting untuk melihat seberapa kuat hubungan diantara variabel respon dan variabel prediktor dari masing-masing model yang dibentuk. Pengukuran dari kekuatan prediksi ini biasanya dilakukan dengan melihat nilai koefisien korelasi R, koefisien determinasi R 2, dan Akaike Information Criterion (AIC). Tetapi masing-masing ukuran kekuatan prediksi model tersebut mempunyai keterbatasan dalam situasi tertentu, terutama ukuran yang paling umum digunakan yaitu AIC. Keterbatasan yang dimiliki oleh AIC adalah ketidakmampuan dalam menentukan model terbaik walaupun diperoleh suatu model dengan nilai AIC yang terkecil. Selain itu, tidak dapat ditentukan apakah suatu model cocok dengan data yang diberikan hanya dengan melihat nilai AIC. Sebagai perbandingan, apabila didapatkan R bernilai 0,9 maka disimpulkan bahwa model cocok dengan data. Namun AIC tidak dapat digunakan untuk menyimpulkan hal tersebut. Karena kekurangan-kekurangan ini maka dikembangkan suatu teori yang menggunakan koefisen korelasi regresi atau Regression Correlation Coefficient (RCC) sebagai pengukur kekuatan daya prediksi suatu model regresi pada GLM secara umum dan regresi Poisson secara khusus. RCC merupakan nilai populasi yang digambarkan sebagai korelasi antara variabel respon dan nilai ekpektasi bersyarat dari variabel respon.
3 RCC memenuhi beberapa syarat untuk ukuran kekuatan daya prediksi antara lain interpretabilitas yaitu mempunyai kekuatan diskriminan yang meyakinkan, aplikatif atau dapat diaplikasikan terhadap berbagai jenis GLM, konsisten yang berarti mampu dibandingkan untuk data set yang berbeda, serta afinitas yaitu tidak bertentangan dengan ukuran daya prediksi yang lain. Maka RCC dapat menjadi alternatif dalam mengukur kekuatan prediksi suatu model dan digunakan sebagai kriteria dalam memilih model terbaik. 1.2 Tujuan Penelitian Tujuan yang ingin dicapai dari penelitian ini adalah : 1. mengetahui dan mempelajari koefisen korelasi regresi (RCC) lebih lanjut terutama penerapannya pada regresi Poisson untuk mengukur kekuatan prediksi suatu model; 2. melakukan estimasi pada koefisien korelasi regresi (RCC) untuk mencari estimator terbaik bagi koefisien korelasi regresi dalam konteks GLM; 3. mengaplikasikan metode koefisien korelasi regresi untuk model regresi Poisson agar diperoleh model terbaik dalam menyelesaikan suatu permasalahan tertentu sekaligus mengukur kecocokan model regresi Poisson terhadap data. 1.3 Manfaat Penelitian Manfaat dari penelitian ini : 1. memperluas pengetahuan dalam bidang statistika pada umumnya dan analisis regresi pada khususnya terutama mengenai koefisien korelasi regresi untuk model regresi Poisson; 2. memperkenalkan metode koefisien korelasi regresi untuk mengukur kekuatan prediksi suatu model yang digunakan sebagai salah satu kriteria dalam memilih model terbaik; 3. memperoleh estimator terbaik bagi koefisien korelasi regresi sehingga dapat digunakan untuk melakukan pengukuran kekuatan prediksi dari suatu model regresi Poisson.
4 1.4 Pembatasan Masalah Dalam penelitian ini permasalahan dibatasi berdasarkan latar belakang serta kajian-kajian yang mendukung agar penelitian ini sesuai dengan tujuan yang akan dicapai. Penelitian ini difokuskan untuk mencari estimasi parameter terbaik bagi koefisien korelasi regresi yaitu korelasi antara variabel respon dan ekspektasi bersyarat dari variabel respon. Langkah selanjutnya menerapkan estimator tersebut pada model regresi Poisson sehingga dapat diperoleh pengukur kekuatan prediksi untuk GLM. 1.5 Tinjauan Pustaka Penulisan skripsi ini didasarkan pada beberapa buku dan jurnal yang membahas mengenai GLM secara umum dan koefisien korelasi regresi secara khusus. Melalui jurnal yang dipublikasikan pada tahun 1972 berjudul Generalized Linear Models, Nelder dan Wedderburn memperkenalkan GLM dan teknik Iterative Weighted Least Square (IWLS) yang digunakan untuk memperoleh estimasi maksimum likehood dari parameter dengan observasi yang berdistribusi eksponensial. Kemudian GLM dibahas lebih lanjut dalam buku McCullagh dan Nelder yang diterbitkan pada tahun 1998 berjudul Generalized Linear Model (second edition) yang luas membahas mengenai bentuk GLM termasuk salah satunya adalah mengenai regresi Poisson. Penjelasan dan pembahasan tersebut terus berlanjut hingga tahun 2008 dimana Dobson dan Barnett mempublikasikan buku yang merupakan pengembangan GLM berjudul An Introduction to Generalized Linear Models yang juga menjadi salah satu referensi dalam penulisan ini. Awal mula dilakukan penelitian mengenai koefisien korelasi regresi di tahun 2000 oleh Zheng dan Agresti melalui jurnal yang berjudul Summarizing The Predictive Power of A Generalized Linear Model. Jurnal tersebut menjelaskan langkah pengukuran untuk kekuatan prediksi GLM dan salah satu langkah yang dibahas adalah koefisien korelasi regresi. Berdasarkan jurnal tersebut, maka dilakukan penelitian lebih rinci mengenai koefisien korelasi regresi. Penelitian ini dikembangkan oleh Takahashi dan Kurosawa dengan karya tulis yang
5 dipublikasikan pada tahun 2015 berjudul Regression Correlation Coefficient for a Poisson Regression Model yang kemudian menjadi referensi utama dalam penulisan ini. 1.6 Metode Penelitian Metode penelitian yang digunakan dalam skripsi ini adalah studi literatur melalui sumber-sumber resmi seperti jurnal dan buku yang mencakup teori-teori berkaitan dengan tema penelitian yang diperoleh baik melalui perpustakaan maupun media digital. Penulisan skripsi ini didukung oleh perangkat lunak untuk melakukan analisis data yaitu R versi 3.13. 1.7 Sistematika Penulisan Skripsi ini disusun dengan sistematika penulisan sebagai berikut : BAB I PENDAHULUAN Bab pendahuluan ini berisi mengenai latar belakang permasalahan yang diangkat dalam penelitian ini, tujuan penulisan, manfaat penulisan, pembatasan masalah, tinjauan pustaka, metode penelitian, dan sistematika penulisan. BAB II DASAR TEORI Bab ini membahas mengenai teori-teori yang berkaitan dengan tema penulisan skripsi dan metode pada pembahasan permasalahan yang yaitu antara lain variabel random, ekspektasi, variansi, kovariansi, korelasi, matriks, vektor, distribusi keluarga eksponensial, analisis regresi, Generalized Linear Models, model regresi Poisson, dan sebagainya.
6 BAB III KOEFISIEN KORELASI REGRESI PADA MODEL REGRESI POISSON Bab ini berisi pembahasan permasalahan utama dari penelitian yang dilakukan yaitu mengenai koefisien korelasi regresi dan penerapannya terhadap model regresi Poisson yang diharapkan dapat menjadi alternatif dalam pengukuran kekuatan prediksi model regresi Poisson. BAB IV STUDI KASUS Metode yang telah dibahas pada bab sebelumnya yakni koefisien korelasi regresi untuk model regresi Poisson diaplikasikan melalui studi kasus dalam bab ini. Data yang digunakan dalam studi kasus yaitu mengenai kematian bayi yang terjadi di Indonesia pada tahun 2012 yang dipengaruhi oleh variabel penduduk miskin, banyak sarana kesehatan dengan Pelayanan Obstetrik dan Neonatal Emergensi Dasar (PONEK), serta persalinan ditolong oleh tenaga kesehatan. BAB V PENUTUP Bab penutup berisikan kesimpulan yang diperoleh dari pembahasan pada bab-bab sebelumnya serta saran untuk pengembangan penelitian lebih lanjut, baik secara umum dalam konteks ilmu statistika maupun secara khusus yakni mengenai tema yang dibahas pada skripsi ini.