BAB I PENDAHULUAN 1.1 Latar Belakang Banyak cabang ilmu statistika yang digunakan dalam berbagai bidang, contohnya seperti ekonometri, biostatistika, psikometri, dan masih banyak yang lain. Ekonometri merupakan cabang ilmu dari bidang ekonomi yang memadukan ilmu ekonomi, matematika dan statistika. Dalam ekonometri peran statistika sangat penting yakni mengestimasi parameter yang ada dalam model ekonometri tersebut. Biostatistika dalam ilmu di bidang medis kedokteran seperti patologi, epidemologi juga digunakan untuk mengestimasi parameter. Analisis statistika yang sering digunakan dalam ekonometri, biostatistika, psikometri dan ilmu bidang lain adalah analisis regresi. Analisis regresi digunakan untuk memodelkan berbagai permasalahan dalam bentuk matematis, dimana persamaan dalam regresi tersebut menjelaskan bagaimana hubungan antara variabel dependen atau biasa dikenal dengan respon dengan variabel independen atau prediktor. Tujuan lain dari analisis regresi adalah mengestimasi nilai dari variabel dependen berdasarkan nilai variabel independen yang diketahui. Selain itu juga dapat digunakan untuk menentukan variabel independen mana yang berkontribusi banyak dalam menentukan nilai dari variabel dependen. Salah satu metode yang digunakan untuk menduga parameter-parameter dalam persamaan regresi adalah metode Ordinary Least Square (OLS). Secara matematis penentuan parameter regresi ini dengan cara meminimumkan jumlah kuadrat dari residualnya (Walpole, 1995). Metode OLS menghasilkan penduga yang memenuhi syarat-syarat sebagai penduga yang baik yakni memenuhi Best, Linear, Unbiased Estimator (BLUE) jika semua asumsi klasik yang berkaitan dengan residual terpenuhi. Namun pada kenyataannya asumsi normalitas dan homoskedastisitas seringkali tidak terpenuhi ketika terdapat data pencilan atau 1
2 outlier. Jika terdapat pencilan, maka data tidak berbentuk simetris sehingga nilai mean menjadi sangat peka dengan adanya outlier tersebut sehingga metode OLS kurang tepat digunakan. Biasanya peneliti akan melakukan transformasi data dengan maksud agar asumsi normalitas dan homoskedastisitas terpenuhi. Namun pada akhirnya meskipun telah dilakukan transformasi data sering kali parameter yang dihasilkan masih bias. Dengan adanya fenomena tersebut maka berkembanglah metode baru yaitu Median Regression dengan pendekatan Least Absolute Deviation (LAD) yang dikembangkan dengan mengganti pendekatan rata-rata pada OLS menjadi median. Namun disini metode median regression hanya dapat melihat dua kelompok data yang dibagi pada nilai tengahnya saja dan ketika terdapat data yang berbentuk lonceng tidak simetris atau titik pusat data bukan terletak pada mediannya melainkan terletak pada potongan kuantil tertentu, maka metode ini juga dirasa kurang tepat untuk digunakan. Selanjutnya dikembangkan metode regresi kuantil yang tidak membutuhkan asumsi galat dalam model dan estimatornya bersifat tegar (robust) terhadap pencilan (outlier) pada variabel dependen. Pendekatan regresi kuantil yaitu dengan memisahkan atau membagi data yang dicurigai ada perbedaan nilai taksiran pada kuantil-kuantil tertentu. Lebih lanjut regresi kuantil sudah mulai berkembang dengan cepat dan sangat populer bukan lagi di bidang ekonometri namun juga di ilmu sosial, kedokteran dan kesehatan. Metode penduga parameter untuk regresi kuantil juga dikembangkan dengan penalized likelihood dengan menggunakan alat Least Absolute Shrinkage Selection Operator (LASSO), Smoothly Clipped Absolute Deviation (SCAD), Adaptive Lasso dan lain sebagainya. Dengan menggambungkan metode Lasso dan Adaptive Lasso nantinya dapat menghasilkan regresi yang robust dengan penduga parameter yang BLUE dan lebih mengecilkan galat dari model regresi kuantil. Dalam penarikan sampel, biasanya diperoleh informasi parameter yang akan diestimasi. Jika informasi tersebut dimasukkan dalam analisis data, maka metode estimasi yang digunakan tidak memungkinkan untuk memasukkan
3 informasi tersebut. Oleh karena itu diperlukan metode estimasi yang dapat melibatkan parameter yang akan diestimasi. Analisis fleksibel bayesian telah diperkenalkan dan dikembangkan oleh Bayes. Metode fleksibel bayesian dalam mengestimasi parameter memanfaatkan informasi awal dan bentuk distribusi awal (prior) dari suatu populasi. Informasi ini kemudian digabungkan dengan informasi dari sample. Dalam hal ini peneliti harus menentukan distribusi prior dari parameter yang ditaksir. Distribusi prior dapat berasal dari data penelitian sebelumnya atau berdasarkan intuisi peneliti. Dugaan penentuan distribusi parameter sangatlah subyektif (Hogg dan Craig, 1978). Setelah informasi data digabungkan dengan informasi prior, maka didapatkan distribusi posterior yang nantinya akan menjadi parameter regresi. Secara analitik, memperoleh marginal posterior merupakan hal yang sulit. Dalam model yang rumit, mengintegralkan parameter dari distribusi posterior bersama atau menentukan kenormalan dari distribusi posterior secara umum adalah hal yang sangat sulit dan tak mungkin dilakukan. Metode bayesian mengatatasi permasalahan ini dengan menggunakan bantuan algoritma MCMC (Markov Chain Monte Carlo) yaitu Gibbs sampling. Dengan bantuan algoritma ini dengan mudah mendapatkan distribusi posterior bahkan dalam kasus yang kompleks. 1.2 Pembatasan Masalah Pembatasan masalah sangat diperlukan dalam penulisan skripsi ini agar terfokus pada suatu poin saja dan tidak terjadi penyimpangan dari tujuan semula. Model regresi kuantil terpenalti memiliki ruang lingkup yang sangat luas untuk dibahas. Oleh karena itu dalam skripsi ini hanya akan dibahas estimasi model regresi kuantil terpenalti dengan alat LASSO dan adaptive LASSO dengan menggunakan metode fleksibel bayesian dan dengan algoritma Markov Chain Monte Carlo (MCMC) Gibbs sampling serta terbatas pada model regresi kuantil dengan hubungan linear dengan melibatkan semua variabel independen yang sudah terbukti secara teoritis.
4 1.3 Tujuan Penulisan Berdasarkan latar belakang dan batasan masalah diatas, maka tujuan penulisan skripsi ini adalah sebagai berikut : 1. Mempelajari perkembangan analisis regresi khususnya regresi kuantil terpenalti. 2. Mempelajari metode estimasi OLS dan fleksibel bayesian untuk mengestiamsi parameter pada model regresi kuantil terpenalti. 3. Mempelajari penerapan algoritma MCMC Gibbs sampling dalam estimasi model regresi kuantil terpanalti dengan metode fleksibel bayesian. 4. Mengaplikasikan regresi kuantil terpenalti dengan fleksibel bayesian untuk menganalisis hubungan korelasi antara prostate spesific antigen dengan sejumlah tindak klinis pada pria yang hendak menerima prostatektomi radikal. 1.4 Tinjauan Pustaka Model regresi merupakan model yang paling sering digunakan dalam bidang ekonometri. Regresi kuantil dikenalkan oleh Koenker dan Basset pada tahun 1978. Regresi ini dikembangkan karena ada beberapa kekurangan yang belum bisa tercover dari regresi linear sederhana. Regresi ini berguna untuk menganalisis sejumlah data yang bentuknya tidak simetris dan juga berguna jika distribusi tidak homogen. Regresi kuantil adalah regresi yang tegar (robust) terhadap data pencilan (outlier). Pada tahun 2001 Keming Yu dan Rana A. Moyeed mempopulerkan metode bayesian pada regresi kuantil. Mereka memperkenalkan gagasan regresi kuantil menggunakan fungsi likelihood yang didasarkan pada asymmetric laplace distribution. Penggunaan distribusi ini merupakan cara alami dan efektif untuk pemodelan regresi kuantil bayesian. Yu dan Moyeed juga memperkenalkan regresi kuantil bayesian menggunakan algoritma MCMC untuk inferensi posteriornya. Dalam metodenya mereka menggunakan algoritma MetropolisHasting untuk menganalisis kuantil bayesian.
5 Lebih lanjut Reich, et al pada tahun 2010 memperkenalkan metode fleksibel bayesian untuk regresi kuantil. Dikatakan fleksibel karena metode ini tidak mengharuskan asumsi parametrik atau tidak mengharuskan bentuk distribusi residual. Kemudian seiring berkembangnya ilmu banyak peneliti yang mengembangkan regresi kuantil dengan menggunakan penalized likelihood dalam mengestimasi parameternya salah satunya adalah Tibshirani pada tahun 1996. Ia memperkenalkan seleksi variabel dengan penalized likelihood dengan LASSO (least absolute shrinkage selection operator), SCAD (Smoothly clipped absolute deviation), Adaptive LASSO dan lain-lain. Pada tahun 2010 Li, et al mengenalkan Bayesian Regularized Quantile regression dengan menggunakan penalti LASSO, group LASSO dan net penalti. Alhamzawi, et al pada tahun 2011 juga mengenalkan Bayesian Adaptive Lasso Quantile Regresion. Dan tahun 2012 Alkenani, et al memperkenalkan Penalized Flexibel Bayesian Quantile Regression dengan LASSO dan Adaptive LASSO dengan asumsi distribusi galat infinite mixture of Gaussian Densities. Pada tahun 2002, Thionas mengembangkan regresi kuantil Bayesian dengan algoritma Gibbs sampling. Selanjutnya tahun 2009, Hiedo Kozumi dan Kobayashi mengembangkan regresi kuantil Bayesian dengan metode MCMC dengan bantuan algoritma Gibbs Sampling yang berdasarkan pada mixture representation dari asymmetric laplace distribution. Mereka memaparkan dengan algoritma tersebut dengan mudah menemukan densitas dari posterior. Pada Tahun 2013, Rahim Alhamzawi menyempurnakan tulisan sebelumnya dalam bentuk tesis yang juga membahas regresi kuantil bayesian, selain itu pada tahun yang sama Annisa Hanif dalam skripsinya membahas regresi kuantil dengan menggunakan estimasi bayesian. Hanif menggunakan metode MCMC dengan algoritma Gibbs sampling. 1.5 Metode Penulisan Metode yang digunakan dalam penulisan skripsi ini adalah studi literatur yang didapat dari perpustakaan, buku-buku, jurnal-jurnal, dan situs-situs internet yang berhubungan dengan tema skripsi ini. Pengerjaan skripsi ditunjang oleh
6 perangkat lunak (software) SPSS 16, Eviews 6.0, R 3.0.0 dengan package lmtest, quantreg, MCMCpack dan bayesqr untuk mencari nilai estimasi parameter regresi kuantil terpenalti dengan metode fleksibel bayesian. 1.6 Sistematika Penulisan Skripsi ini disusun dengan sistematika penulisan sebagai berikut: BAB I PENDAHULUAN Bab ini berisi tentang latar belakang penulisan skripsi, pembatasan masalah dalam skripsi, tujuan yang ingin dicapai dalam penulisan, tinjauan pustaka, metode penulisan yang digunakan, dan sistematika penulisan yang memberikan arah dan tujuan penulisan skripsi ini. BAB II DASAR TEORI Bab ini membahas tentang dasar-dasar teori penunjang yang mendasari dan mendukung pembahasan regresi kuantil terpenalti dengan metode fleksibel bayesian. BAB III PEMBAHASAN Bab ini akan membahas pokok tema skripsi penjabaran tenteng regresi kuantil terpenalti serta penerapan metode fleksibel bayesain dan penggunaan algoritma Gibbs sampling. BAB IV STUDI KASUS Bab ini menjelaskan studi kasus yang dilakukan, estimasi parameter dengan metode OLS, dan fleksibel bayesian pada regresi kuantil terpenalti. Data yang digunakan adalah data sekunder yang bersumber dari sebuah jurnal biostatistika. Data menunjukkan hubungan korelasi antara prostate spesific antigen dengan sejumlah tindak klinis pada pria yang hendak menerima prostatektomi radikal. BAB V PENUTUP Bab ini membahas tentang kesimpulan dari materi yang telah dibahas dari skripsi ini. Serta saran atas kekurangan dari hasil pembahasan yang bisa diberikan sebagai bahan acuan untuk penelitian lanjutan.