(R.14) MEODE MINIMUM COVARIANCE DEERMINAN PADA ANALISIS REGRESI LINIER BERGANDA DENGAN KASUS PENCILAN Dini Aderlina, Firdaniza, Nurul Gusriani Jurusan Matematika FMIPA Universitas Padjadjaran Jl. Raya Bandung-Sumedang km 21 Jatinangor dini_aderlina@yahoo.com Abstrak Salah satu metode yang digunakan untuk memodelkan regresi linier berganda pada data yang mengandung pencilan adalah regresi robust. Regresi robust adalah metode yang digunakan untuk mengatasi penyimpangan terhadap asumsi-asumsi klasik. Salah satu metode robust untuk mengatasi penyimpangan asumsi pencilan adalah Minimum Covariance Determinant (MCD). Prinsip MCD adalah menggunakan sebagian data yang mempunyai determinan kovariansi terkecil untuk menentukan pembobotan, identifikasi pencilan dan mengestimasi parameter. Metode ini dapat menghasilkan model yang lebih presisi dibanding dengan MK. Pada paper ini akan ditunjukkan resistensi terhadap pencilan pada metode MCD menggunakan simulasi data dengan ukuran pengamatan sebanyak 30, 50, 100 dan 150 data serta persentase pencilan sebanyak 10%, 20%, 30% dan 40%. Kata Kunci: regresi, pencilan, robust, MK, MCD 1. PENDAHULUAN Dalam analisis regresi linier berganda yang mengandung data pencilan, pendeteksian tidak dapat dilihat hanya dengan menggunakan diagram pencar (scatter plot). Beberapa metode untuk mendeteksi hal ini adalah DFFIS, Cook s Distance, Leverage Values (Soemartini, 2007) dan menggunakan matriks rata-rata dan matriks kovarians yaitu jarak mahalanobis. Akan tetapi metode-metode ini kurang maksimal bila pengamatan mengandung lebih dari satu data pencilan. Hal ini disebabkan metode jarak mahalanobis tidak dapat mengatasi masking dan swamping effect. Dalam Suryana (2008) dijelaskan bahwa masking effect merupakan pengaruh pada data pencilan yang terjadi pada saat data pencilan tidak terdeteksi sebagai pencilan karena adanya data pencilan lain yang berdekatan sedangkan swamping effect merupakan pengaruh pada kumpulan data yang terjadi saat data yang bukan pencilan terdeteksi sebagai data pencilan. Masking dan swamping effect dapat diatasi dengan penaksir robust untuk vektor rata-rata dan matriks kovariansi, sehingga didapat jarak mahalanobis robust. Penaksir robust merupakan penaksir yang ajeg terhadap penyimpangan asumsi. Salah satu metode penaksir robust yang dapat mengukur jarak dan mendeteksi titik pencilan adalah penaksir minimum covariance determinant. 208
Rousseuw (2004) menjelaskan bahwa penaksir M yang dikemukakan Huber pada tahun 1973 tidak dapat mengatasi pencilan pada ruang-x sehingga dikembangkanlah metode LMS. Metode LMS memiliki proses yang sangat lama dalam menaksir parameter sehingga dikembangkan metode LS. Kelemahan metode LS adalah tidak dapat mendeteksi seluruh pencilan. Metode robust lain yang dapat mengatasi pencilan di ruang- X, mendeteksi seluruh pencilan dan memberikan proses yang relatif cepat adalah regresi minimum covariance determinant (MCD) (Rousseuw, 2004). Metode ini dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar terhadap pencilan (Rousseeuw, 2004). Prinsip metode MCD adalah menggunakan vektor rata-rata dan matriks kovariansi yang didapat dari penaksir MCD untuk menentukan bobot dari setiap data, sehingga didapat taksiran parameter model MCD. Paper ini akan membahas tentang pengidentifikasian pencilan, pembobotan data, dan penentuan parameter analisis regresi berganda dengan menggunakan penaksir robust, yaitu penaksir MCD. Hasil yang diperoleh kemudian dibandingkan dengan metode MK. Akan ditunjukkan juga bahwa metode ini memiliki ketahanan terhadap pencilan dengan membandingkan nilai-nilai bias,mse, dan 2 R yang diperoleh metode MK dan MCD. 2. LANDASAN EORI 2.1 Analisis Regresi Linier Model persamaan analisis regresi linier berganda secara umum dapat ditulis dalam notasi matriks sebagai berikut ; Y = Xβ + ε (1) dimana Y = vektor variabel tak bebas (n 1) X = matriks variabel bebas (n p) β = vektor parameter (p 1) ε = vektor error (n 1) p = k + 1, k = jumlah variabel bebas, n = jumlah data Jumlah kolom matriks X sebesar k + 1 disebabkan oleh adanya variabel X semu yang dimasukkan ke dalam model yang bernilai 1 untuk setiap Y. Sehingga bentuk X sebagai berikut : 1 x x x 1 x x x X 1 x x x 11 12 1k 21 22 2k n1 n2 nk (2) 209
Metode klasik yang digunakan untuk menaksir parameter model adalah metode kuadrat terkecil (MK) yang mempunyai prinsip meminimumkan jumlah kuadrat residu. aksiran parameter untuk model MK adalah : ˆ -1 β = (X X) XY (3) 2.2 Pencilan Pengamatan yang dikategorikan sebagai pencilan harus dilihat berdasarkan sebaran datanya, maka penyebab pencilan itu dapat diketahui, apakah berdasarkan penyimpangan oleh variabel bebasnya (X) atau berdasarkan variabel tak bebasnya (Y), atau bahkan berdasarkan keduanya. Penyimpangan oleh variabel bebas atau leverage point sangat sukar dideteksi sejak awal karena dalam scatter plot tidak dapat terlihat dan membentuk efek masking. (Suryana, 2008) Pada umumnya untuk mengidentifikasi pencilan, dapat digunakan jarak kuadrat mahalanobis yaitu : denga 1 2 MD d X V X C X V X (4) x11 x21 xn1 x 12 x22 x n2 X x1k x2 k xnk 1 C = invers matriks kovariansi k k X = matriks rata-rata tiap baris X Nilai jarak mahalanobis untuk setiap pengamatan didapat dari matriks diagonal utama persamaan (4). k Suryana (2008) menjelaskan pengamatan diidentifikasikan sebagai pencilan jika memenuhi ketentuan sebagai berikut : 2 2 MD( i ) 1 d > C ( p ) (5) 2 2 dengan : C ( p) p,(1 ), C( p ) merupakan batas pencilan = taraf signifikansi Penggunaan jarak mahalanobis tidak lagi maksimal untuk mengidentifikasi pencilan jika terdapat lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh masking dan swamping. 210
Pengaruh masking dan swamping keduanya dapat diatasi dengan menggunakan penaksir robust untuk vektor rata-rata dan matrik kovariansi sehingga dihasilkan jarak kuadrat mahalanobis robust. 2.3 Penaksir Robust Penaksir yang robust terhadap pencilan merupakan penaksir yang ajeg terhadap adanya pencilan atau tidak peka bila terjadi penyimpangan data sehingga hasil taksiran terhadap parameter model tidak akan mendekati nilai yang sebenarnya. Dalam Kristian (2010) dijelaskan bahwa tujuan penaksir robust yaitu : i. Menghasilkan taksiran yang sama baiknya dengan taksiran MK (pada saat residualnya berdistribusi normal dan terbebas dari kesalahan). ii. Menghasilkan taksiran yang baik ketika terdapat kondisi (i) tidak terpenuhi. Dalam penaksir robust dikenal jarak robust dan residu robust. Jarak robust merupakan modifikasi dari jarak mahalanobis, yaitu menggantikan matriks vektor rata-rata dan matriks kovarians metode klasik dengan matriks rata-rata dan kovarians metode robust. Jarak robust diperoleh dengan rumus sebagai berikut: d = X - V X C X - V X (6) 2-1 RD RD RD RD dengan : C X RD 1 RD = invers matriks kovariansi jarak robust k k = matriks rata-rata tiap baris X jarak robust k Residu robust merupakan error yang diperoleh dari regresi robust. Berdasarkan jarak robust dapat dikategorikan titik leverage yang lebih dapat dipercaya daripada jarak mahalanobis. Kristian (2010) menjelaskan titik leverage dapat dideteksi dengan jarak robust dengan syarat sebagai berikut : 2 2 0 jika d RD C ( p) Leverage (7) 1 untuk lainnya Berdasarkan Hubert et al (2008), dari residu robust dapat diketahui titik pencilan dengan kriteria standardized residual, sebagai berikut : dimana : e i = residual e i 1 C( q) s (8) s = C( q ) = MSE, s = simpangan baku ei, dengan q = jumlah variabel tak bebas 2 q,(1 ) 211
3. MINIMUM COVARIANCE DEERMINAN (MCD) Metode MCD merupakan penaksir robust untuk rata-rata dan matriks kovarians dengan mencari sebagian data yang mempunyai kovarians minimum yang digunakan untuk mengidentifikasi pencilan, menentukan jarak dan residu robust yang akan digunakan untuk pembobotan data dan penentuan parameter regresi. yaitu : Metode MCD mencari himpunan bagian data dari matriks dengan n k X sejumlah h pengamatan, h = (n + k + 1)/2 (9) Berdasarkan persamaan (9) maka terdapat kombinasi pengamatan matriks himpunan bagian data dari matriks pengamatan berikut : Diperoleh matriks himpunan bagian data X sejumlah a, dengan a didefinisikan sebagai n a C h (10) H b sebagai berikut : H b x11 x21 xh 1 x12 x22 x h2 x1k x2k xhk (11) dengan b 1,..., a Kemudian untuk setiap H, sebut sebagai b H l diperoleh nilai matriks rata-rata t l dan b matriks kovarians C l sebagai berikut : dengan 1.. tl Hb V (12) h b b 1 Cl H V tl H V tl (13) h V adalah matriks yang berukuran h 1, sebagai berikut : V 1 1 1 Dari persamaan (13) dapat diketahui nilai det( C l ). Untuk l 1 jika det( C ) 0 1 (14) maka dengan menggunakan persamaan (4) dapat diketahui nilai jarak mahalanobis. Nilai jarak 212
mahalanobis yang diperoleh kemudian diurutkan dari nilai terkecil, diambil nilai sebanyak h. Identifikasi nomor pengamatan h pengamatan, dengan elemen matriksnya berupa d MD terpilih. Bentuk matriks berdasarkan identifikasi nomor pengamatan. Sebut matriks l l 1. dmd X baru sebanyak pengamatan pada variabel X X baru, sebagai Dengan persamaan (12) dan (13) didapat nilai t l dan C l dari matriks kemudian didapat nilai determinannya. Bandingkan nilai det( C l ) dan det( ) 1. det( C ) det( C ) -1 C l, jika : -1 Hb l dengan Hb l yang baru, l l,dengan menggunakan persamaan (4) didapat kembali nilai jarak mahalanobis yang baru, kemudian bentuk 2. det( C ) det( C ) data -1 X baru sehingga didapat matriks Hb l baru. l l, pengolahan data dilakukan dari awal lagi, dengan himpunan bagian Hb selanjutnya, sehingga didapat nilai determinan Hb lainnya. Bandingkan seluruh nilai determinan matriks kovariansi yang didapat dari himpunan bagian data bagian data yang didapat H b, kemudian pilih yang bernilai minimum. Definisikan matriks himpunan H b yang memiliki nilai determinan minimum sebagai HMCD disebut sebagai tmcd dan C MCD. H MCD. Nilai t l dan C l Berdasarkan Huberts et al (2008), diketahui matriks kovarians ˆ dari variabel X dan variabel Y sebagai berikut : ˆ ˆ ˆ XX YX ˆ ˆ XY YY (15) dengan : ˆ XX = matriks varians-kovarians dari X k k ˆYX = matriks kovarians dari X dan Y k 1 ˆYY = nilai varians Y Setelah mendapat nilai matriks kovarians ˆ dapat diketahui nilai kovarians dari error,yaitu : ˆ ˆ ˆ β ˆ β ˆ (16) YY MCD XX MCD dengan ˆ ˆ ˆ MCD xx XY 213
Huberts et al (2008) menjelaskan bahwa bobot 1, jika d ei MCD ` w dengan berikut: ii 0, lainnya ˆ C( q) 1 ˆ ˆ ˆ ˆ i MCD i MCD i MCD d e e e e ˆ i MCD = residual dari parameter MCD n 1 wii dirumuskan dengan ketentuan berikut : (17) Berdasarkan persamaan (17) dapat dibentuk matriks W berukuran n n sebagai w w w w w w W w w w 11 12 1n 21 22 2n n1 n2 nn (18) dengan entri matriks w i j = 0, dimana i j Berdasarkan penjelasan di atas jelas bahwa metode regresi MCD merupakan salah satu penerapan dari pembobotan robust. Pembobotan robust merupakan suatu alternatif untuk memperoleh taksiran parameter yang peka terhadap pencilan. Sehingga regresi MCD dimodelkan dengan persamaan sebagai berikut : 3.1 Simulasi Data 1 θˆ X WX X WY (19) MCD Resistensi metode MCD terhadap pencilan dapat ditunjukkan dengan menggunakan simulasi data. Simulasi data adalah data yang diperoleh dari pembangkitan data dalam hal ini dengan membangkitkan e i yang berdistribusi N (0,1). Selanjutnya data ini dianalisis dengan menggunakan metode regresi MCD dan MK kemudian dibandingkan. Proses ini dilakukan berulang kali sehingga diharapkan menghasilkan suatu pola yang dapat memberikan kesimpulan mengenai metode yang diteliti. 4. HASIL DAN PEMBAHASAN Dari data simulasi diperoleh nilai bias, MSE dan koefisien determinasi. Nilai bias untuk setiap ukuran pengamatan dan persentase pencilan digambarkan dengan grafik berikut : 214
Gambar 2.1 Grafik Bias Untuk Semua Ukuran dan Persentase Pencilan Dari grafik terlihat bahwa garis metode MK selalu berada di bawah garis metode MCD pada saat pencilan 0% atau tidak terdapat pencilan pada data. erlihat juga ketika pencilan muncul dalam data, maka garis metode MCD selalu berada di bawah garis metode MK. Hal ini menunjukkan bahwa metode MCD memiliki bias yang relatif kecil dibanding metode MK. Nilai MSE untuk setiap ukuran pencilan dan ukuran pengamatan dapat dilihat dalam grafik berikut : Gambar IV.2 Grafik MSE ˆ 3 untuk Semua Ukuran Pengamatan dan Persentase Pencilan Berdasarkan grafik terlihat bahwa nilai MSE( ˆ 3 untuk data yang tidak mengandung pencilan dengan metode MCD dan MK sama baiknya, garis metode MK hanya sedikit dibawah metode MCD untuk setiap ukuran pengamatan. Akan tetapi ketika data sudah mengandung pencilan, garis metode MK selalu berada jauh di atas metode MCD. Hal ini menunjukkan nilai rata-rata error yang besar dihasilkan oleh metode MK. Nilai koefisien determinasi untuk setiap ukuran pengamatan dan persentase pencilan terlihat dalam grafik berkut : 215
Gambar 2.3 Grafik Koefisien Determinasi untuk Semua Ukuran Pengamatan dan Persentase Pencilan Berdasarkan grafik terlihat bahwa garis metode MCD selalu lebih besar dari garis metode MK untuk setiap ukuran pengamatan dan persentase pencilan. Ini menunjukkan bahwa metode MCD memiliki garis regresi sampel yang lebih mendekati sebagian besar data dibandingkan metode MK. Berdasarkan rangkaian penjelasan tersebut, dapat terlihat bahwa nilai bias dan MSE yang dihasilkan oleh metode MCD lebih kecil dibandingkan dengan MK serta nilai koefisien determinasi yang dihasilkan MCD lebih besar dari MK untuk setiap ukuran pengamatan dan ukuran pencilan. erlihat juga bahwa nilai rata-rata estimasi perameter yang dihasilkan oleh metode MCD lebih mendekati nilai yang sebenarnya dibandingkan dengan metode MK. 5. KESIMPULAN Berdasarkan analisis dan pembahasan pada bab IV, maka dapat disimpulkan sebagai berikut : Dari simulasi data, dengan pengulangan sebanyak 10 kali dan ukuran pengamatan masing-masing sebanyak 30, 50, 100, dan 150, menunjukkan bahwa regresi MK tidak dapat mengestimasi model dengan baik bila terdapat pencilan dalam data. Hal ini ditunjukkan oleh rata-rata hasil estimasi parameter model yang cukup jauh menyimpang dari dari nilai yang sebenarnya serta rata-rata MSE dan bias yang selalu jauh lebih besar dibandingkan yang dihasilkan regresi MCD. 216
6. DAFAR PUSAKA Hubert, Mia. et al. 2008. High-Breakdown Robust Multivariate Methods. Statistical Science, (Online), Vol. 23, No. 1, (http: //arxiv.org/pdf/0808.0657, diakses 18 April 2011). Kristian, Yuddy. 2010. Estimasi Parameter Model dalam Regresi Linier Berganda dengan Metode Least rimmed Squares (LS). esis. Bandung : Program Pascasarjana UNPAD BANDUNG. Rousseeuw, P.J. et al. 2004. Robust Multivariate Regression.echnometrics, (Online),Vol.46, No. 3, (ftp://ftp.win.ua.ac.be/pub/preprints/04/robmul04.pdf diakses 10 April 2011) Soemartini. 2007. Pencilan (Outlier), (online), (http:// resources.unpad.ac.id/unpadcontent/.../oulier(pencilan).pdf, diakses 27 April 2011). Suryana. 2008. Perbandingan Kinerja Penaksir Robust MCD dan MWCD dalam Analisis Diskriminan Kuadratik. esis. Surabaya: Program Magister IS SURABAYA. 217