PENDETEKSIAN OUTLIER PADA REGRESI LOGISTIK DENGAN MENGGUNAKAN TEKNIK TRIMMED MEANS Sarimah Mahasiswa Program Studi S1 Matematika Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Riau Kampus Bina Widya, Pekanbaru 28293 sarimah399@gmailcom ABSTRACT This article discusses the outlier of logistic regression The estimator is obtained through maximum likelihood method Then numerical approach of Newton-Raphson method is applied Furthurmore the coefficient of determination R 2 is evaluated to interprete the dependent variables which are explained by the independent variables The next step is the outlier detection by trimming of outlier estimate data in the side X, this technique is an idea from trimmed means Trimming of data affects the regression model and upgrade the coefficient of determination R 2 Keywords: Logistic regression model, outlier, trimmed means, maximum likelihood method, Newton-Raphson method, coefficient of determination R 2 ABSTRAK Artikel ini membahas outlier pada regresi logistik Parameter regresi logistik ditaksir menggunakan metode maksimum likelihood dan selanjutnya dilakukan pendekatan secara numerik yaitu metode Newton-Raphson Selanjutnya dihitung nilai koefisien determinasi R 2 untuk mengetahui pengaruh variabel independen terhadap variabel dependen Langkah berikutnya adalah pendeteksian outlier pada arah X dengan melakukan trimming pada data yang diduga outlier, teknik ini merupakan ide dari trimmed means Trimming data mempengaruhi model regresi dan meningkatkan nilai koefisien regresi R 2 Kata kunci: Model regresi logistik, outlier, trimmed means, metode maksimum likelihood, metode Newton-Raphson, koefisien determinasi R 2 1
1 PENDAHULUAN Analisis regresi merupakan suatu metode yang digunakan untuk menelaah hubungan antara sepasang variabel atau lebih Variabel-variabel tersebut dibedakan menjadi dua bagian yakni variabel respon yang dinotasikan dengan Y dan variabel prediktor dengan notasi X Regresi logistik merupakan salah satu dari analisis regresi Hosmer dan Lemeshow [7, h 6-7] menjelaskan bahwa perbedaan regresi logistik dengan regresi linier adalah pada variabel respon, dimana regresi logistik mempunyai variabel respon berupa data kategori, sedangkan regresi linier mempunyai variabel respon berupa skala interval Regresi logistik digunakan untuk menganalisis kasuskasus penelitian dengan tujuan untuk mencari pola hubungan antara sekumpulan variabel prediktor dengan suatu variabel respon bertipe kategori atau kualitatif secara simultan Masalah yang sering muncul dalam analisis regresi logistik juga adalah ditemukannya satu atau beberapa titik data berada jauh dari pola data pada umumnya atau biasa disebut sebagai outlier Keberadaan outlier dalam data dapat mempengaruhi kesimpulan akhir dari model persamaan regresi logistik, oleh karena itu pendeteksian outlier menjadi sangat penting Cara pendeteksian outlier untuk regresi logistik merupakan salah satu topik yang akhir-akhir ini sering dikaji di bidang statistika komputasi, seperti yang dilakukan oleh Adnan dan Avery [1], Syaiba dan Habshah [6] dan Imon [8] Dalam artikel ini, pendeteksian outlier menggunakan trimmed means pada regresi logistik untuk data respon biner yang merupakan tinjauan dari sebagian laporan penelitian yang ditulis oleh Adnan dan Avery [1] 2 LANDASAN TEORI Hubungan antara variabel prediktor X dan variabel respon Y dapat dinyatakan dalam suatu persamaan regresi Jika terdapat n pengamatan variabel X dan variabel Y, maka Myers dan Milton [10, h81] menjelaskan dalam bukunya bahwa model persamaan regresi linier dengan k variabel prediktor dapat ditulis dalam bentuk: y i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik + ϵ i, i = 1, 2,, n; n k + 1, (1) persamaan (1) dapat disingkat menjadi y i = k β p x ip + ϵ i, i = 1, 2,, n (2) p=0 Persamaan (2) disebut dengan model regresi linier dengan variabel prediktor sebanyak k, x ip adalah nilai variabel prediktor X ke-p untuk pengamatan ke-i, ϵ i 2
adalah error ke-i dan y i adalah nilai variabel respon Y ke-i Persamaan (2) dapat dinyatakan dengan notasi matriks berikut: Y = Xβ + ϵ, dengan Y merupakan vektor respon yang berukuran n 1, X merupakan matriks berukuran n (k + 1), β merupakan vektor parameter berukuran (k + 1) 1 yang akan ditaksir dan ϵ merupakan vektor error berukuran n 1 Model regresi logistik didefinisikan oleh Agresti [2, h 165] dan dinotasikan sebagai berikut: π i = exp(β 0 + β 1 x i1 + β 2 x i2 + + β k x ik ) 1 + exp(β 0 + β 1 x i1 + β 2 x i2 + + β k x ik ), (3) dengan menggunakan transformasi logit, yang dinyatakan dalam bentuk [ ] πi η i = ln, 1 π i persamaan (3) dapat tulis sebagai berikut: η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik (4) Nilai Y pada regresi logistik bernilai 0 atau 1, sehingga regresi logistik mengikuti distribusi binomial Misalkan variabel random Y i menyatakan fenomena banyaknya sukses dari n i percobaan dimana peluang sukses (π i ) adalah sama di semua percobaan, Dobson [5, h 53] menyatakan fungsi kepadatan peluang (fkp) sebagai berikut: ( ) ni f(y; π) = π y i i (1 π i) n i y i, y i = 1, 2,, n, (5) y i Metode maksimum likelihood merupakan metode yang digunakan untuk menaksir parameter sedemikian hingga penaksir yang diperoleh memaksimumkan fungsi likelihood Berikut ini diberikan definisi dari fungsi likelihood Definisi 1 [3, h 293] Fungsi likelihood adalah fungsi densitas bersama dari n variabel random Y 1, Y 2,, Y n dievaluasi dengan y 1, y 2,, y n dan dinyatakan dalam bentuk f(y 1, y 2,, y n ; β) yang menunjukkan sebagai fungsi likelihood Jika y 1, y 2,, y n ditetapkan, maka fungsi likelihood adalah fungsi dari parameter β dan dinotasikan dengan L(β) Jika Y 1, Y 2,, Y n menyatakan suatu sampel random dari f(y i ; β), maka L(β) = f(y 1 ; β)f(y 2 ; β) (y n ; β) Penaksir yang diperoleh disebut penaksir maksimum likelihood, berikut diberikan definisi penaksir maksimum likelihood 3
Definisi 2 [3, h 294] Diberikan L(β) = f(y 1, y 2,, y n ; β), β Ω, menjadi fungsi kepadatan peluang bersama Y 1, Y 2,, Y n Untuk suatu himpunan yang diberikan yaitu (y 1, y 2,, y n ), suatu nilai β di dalam Ω pada L(β) adalah suatu nilai penaksir maksimum likelihood dari β Dengan β adalah suatu nilai dari β yang memenuhi f(y 1, y 2,, y n ; β) = max β Ω f(y 1, y 2,, y n ; β) Bartle dan Sherbert [4, h 188] menyatakan bahwa setiap fungsi dapat didekati dengan polinomial Teorema yang menggunakan polinomial adalah teorema Taylor Teorema 3 [4, h 188] Misalkan n N, I = [a, b] dan f : I R sedemikian hingga f dan f, f, f,, f (n) kontinu pada I dan f (n+1) ada pada (a, b) Jika x 0 I maka untuk sebarang x I terdapat suatu titik c di antara x dan x 0, sehingga f(x) =f(x 0 ) + f (x 0 )(x x 0 ) + f (x 0 ) 2! + f (n+1) (c) (n + 1)! (x x 0) (n+1) Polinom Taylor orde dua berdasarkan Teorema 3 adalah (x x 0 ) 2 + + f (n) (x 0 ) (x x 0 ) n n! P n (x) f(x 0 ) + f (x 0 )(x x 0 ) + f (x 0 ) (x x 0 ) 2 (6) 2! 3 PENAKSIRAN PARAMETER REGRESI LOGISTIK MENGGUNAKAN METODE MAKSIMUM LIKELIHOOD Langkah pertama adalah mendefinisikan fungsi likelihood dari L(β), fungsi likelihood dari persamaan (5) berdasarkan Definisi 1 adalah: n L(β) = f(y i ; β), L(β) = n ( ni y i ) π y i i (1 π i) n i y i (7) Selanjutnya untuk mendapatkan taksiran maksimum likelihood dari parameter β (β 0, β 1, β 2,, β k ) yaitu β ( β 0, β 1, β 2,, β k ) sebagaimana pada Definisi 2 digunakan bentuk logaritma natural dari fungsi likelihood dari persamaan (7), yaitu: ln L(β) = ln L(β) = { y i ln π i + (n i y i ) ln(1 π i ) + ln { ( ) πi y i ln + n i ln(1 π i ) + ln 1 π i ( ni y i ( ni )}, y i )} (8) 4
Berdasarkan persamaan (4), persamaan (8) dapat disederhanakan menjadi { ( )} ni ln L(β) = y i η i + n i ln (1 + exp(η i )) + ln (9) Selanjutnya persamaan (9) diselesaikan menggunakan Metode Newton-Raphson dengan pendekatan polinomial Taylor pada persamaan (6) dengan menghitung derivatif pertama dan kedua terhadap β p dari persamaan (9) Derivatif pertama persamaan (9) terhadap β p dengan menggunakan aturan rantai yaitu: dengan ln L(β) β p = ( ) ln L(β) π i η i, π i η i β p ln L(β) π i = y i { yi n } i y i, (10) π i 1 π i ( π dari persamaan (4) diketahui bahwa η i = ln i 1 π i ), η i = ln π i ln(1 π i ) sehingga η i = 1 + 1, π i π i 1 π i π i =π i (1 π i ) (11) η i Karena η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, maka η i β p = x ip (12) Dari persamaan (10), (11) dan (12) diperoleh ln L(β) β p = ln L(β) β p = ( yi n ) i y i π i (1 π i )x ip, π i 1 π i (y i n i π i ) x ip (13) Derivatif kedua dari persamaan (8) yaitu: 2 ln L(β) β p β p = β p ( ln L(β β p ) (14) Dengan mensubstitusikan persamaan (13) ke persamaan (14) diperoleh 5
2 ln L(β) β p β p 2 ln L(β) β p β p = n (y i n i π i ) x ip, β p = x ip x ip n i π i (1 π i ) (15) Misalkan derivatif pertama dari ln L(β) terhadap β p dinotasikan dalam bentuk vektor q berukuran p 1, sehingga matriks q dapat ditulis sebagai berikut: q = n (y ix i0 n i π i x i0 ) n (y ix i1 n i π i x i1 ) n (y ix ik n i π i x ik ), x 10 x 20 x n0 x 11 x 21 x n1 = x 1k x 2k x nk y 1 y 2 y n x 10 x 11 x 1k x 20 x 21 x 2k x n0 x n1 x nk n 1 π 1 n 2 π 2 n n π n q =X T Y X T n i π i (16) Misalkan n i π i = µ sehingga matriks q pada persamaan (16) dapat ditulis menjadi, q = X T (Y µ) (17) Misalkan derivatif kedua dari ln L(β) terhadap β p dinotasikan menjadi matriks W berukuran p p, maka derivatif kedua dari ln L(β) seperti pada persamaan (15) dapat ditulis dalam bentuk matriks W yaitu: n x n i0n i π i (1 π i ) x i0 x n i0n i π i (1 π i ) x i1 x n i0n i π i (1 π i ) x ik W = x n i1n i π i (1 π i ) x i0 x n i1n i π i (1 π i ) x i1 x i1n i π i (1 π i ) x ik n x n ikn i π i (1 π i ) x i0 x n ikn i π i (1 π i ) x i1 x ikn i π i (1 π i ) x ik Matriks W dapat ditulis menjadi W = X T VX (18) dengan V = n 1 π 1 (1 π 1 ) 0 0 0 n 2 π 2 (1 π 2 ) 0 0 0 n n π n (1 π n ) dan matriks X seperti pada persamaan (16) Menggunakan perluasan deret Taylor persamaan (6) metode Newton-Raphson dapat ditulis dalam bentuk 6
Q (β) g(β ) + q T (β β ) + Kemudian dengan menyelesaikan Q (β) = q + W (β β ) = 0, β diperoleh q + W (β β ) =0, ( ) 1 (β β ) T W (β β ), (19) 2 β =β W 1 q Apabila iterasi sebanyak (t + 1) dilakukan, maka rumus penaksiran parameter β pada iterasi ke (t+1) dilambangkan sebagai β (t+1) yaitu β (t+1) = β (t) W (t) 1 q (t) (20) Dengan mensubstitusikan persamaan (17) dan (18) ke persamaan (20), persamaan (20) dapat ditulis sebagai berikut: β (t+1) = β (t) + [ (X T VX) ] 1 X T (Y ˆµ) (21) Proses iterasi ini berjalan sampai tidak ada perubahan secara esensi di antara elemen-elemen β dari satu iterasi ke iterasi lain Pada tahap ini, penaksir maksimum likelihood sudah dapat dikatakan konvergen 4 PENDETEKSIAN OUTLIER PADA REGRESI LOGISTIK DENGAN MENGGUNAKAN TEKNIKTRIMMED MEANS Trimmed means mengestimasi lokasi pada data yang mengandung outlier Dengan trimmed means dalam data yang mengandung outlier, seolah-olah membuang data yang terbesar dan data terkecilnya Secara umum, misalkan t [0, 1/2] dan m = [(n 1)t] dengan [] menunjukkan bagian bulatnya, t trimmed means didefinisikan oleh Maronna et al [9, h 31] sebagai x t = 1 n 2m n m i=m+1 x (i), (22) dengan x (i) merupakan statistik terurut Selanjutnya trimmed means digunakan sebagai konsep dasar trimming data, dengan melakukan trimming data sebanyak t persen, maka data pada variabel X dipotong atau dihilangkan sebanyak 2t n data pengamatan 5 SIMULASI DAN ANALISIS DATA Data yang digunakan dalam artikel ini adalah data simulasi yang dibangkitkan dengan menggunakan program R versi 325 Banyak data (n) yang dibangkitkan 7
adalah 100 data pengamatan Variabel X dibangkitkan dari data berdistribusi normal sebanyak 90% dan data berdistribusi uniform 10%, nilai acak variabel dependen (Y ) dibangkitkan dari data berdistribusi binomial Tahapan selanjutnya adalah menaksir parameter regresi, koefisien determinasi R 2 digunakan untuk mengetahui besarnya pengaruh variabel independen X terhadap variabel dependen Y, kemudian trimming data dilakukan berdasarkan t = 5%, langkah selanjutnya menaksir kembali parameter regresi logistik untuk data yang telah dilakukan trimming Untuk melihat karakteristik sebaran data dilakukan plot data variabel X hasil plot data ditampilkan pada Gambar 31 Gambar 1: Satter Plot X Dari scatter plot pada Gambar 31 dapat dilihat data yang diduga sebagai outlier yaitu 5 data terbesar dan 5 data terkecil, yaitu data ke X 2, X 13, X 22, X 92, X 100, X 1, X 3, X 6, X 40, X 97 Hasil analisis regresi logistik terhadap data simulasi adalah sebagai berikut: π = exp( 185935 + 002235X) 1 + exp( 185935 + 002235X), nilai R 2 adalah 0037225, artinya 37% variabel X berpengaruh terhadap variabel Y Selanjutnya dengan mengambil t = 5% trimming data sebanyak 10 data, 5 data terkecil dan 5 data terbesar setelah data diurutkan hasil analisis regresi logistik untuk data yang telah dilakukan trimming adalah sebagai berikut: π = exp( 246529 + 002989X) 1 + exp( 246529 + 002989X), dengan nilai R 2 sebesar 004512, artinya sebesar 45% variabel X berpengaruh 8
sebesar 45% terhadap variabel Y 4 KESIMPULAN Berdasarkan pembahasan yang telah dikemukakan sebelumnya, dapat disimpulkan bahwa outlier dapat menyebabkan model menjadi salah, oleh karena itu setalah dilakukan trimming pada data pengamatan akan berpengaruh pada model regresi dan juga nilai koefisien determinasinya Pada data simulasi yang dibangkitkan dengan menggunakan program R versi 325, data yang telah dilakukan trimming mempengaruhi model regresi dan nilai koefisien determinasi R 2, nilai R 2 meningkat sebesar 08% untuk data yang telah dilakukan trimming Kesimpulannya adalah trimming pada data simulasi ini dapat digunakan untuk mendeteksi outlier dan mempengaruhi model regresi logistik Ucapan Terimakasih Penulis mengucapkan terimakasih kepada dosen Pembimbing Drs Sigit Sugiarto, MSi yang telah memberikan arahan dalam penulisan artikel ini 9
DAFTAR PUSTAKA [1] A Adnan dan P J Avery, Goodness-of-fit test and outlier detection in taste-panel experiments, Proceeding the 6 th ISSM, 395-398, Manchester, 2001 [2] A Agresti, Categorical Data Analysis, John Wiley and Sons, New York, 2002 [3] L J Bain dan M Engelhardt, Introduction to Probability and Mathematical Statistics, Second Edition, Wardsworth Publishing Company, Belmont, 1991 [4] R G Bartle dan D R Sherbert, Introduction to Real Analysis, Third Edition, John Wiley and Sons, New York, 1999 [5] A J Dobson, Introduction To Generalized Linear Models, Second Edition, Chapman and Hall, New York, 2002 [6] BA Syaiba, and M Habshah, Robust logistic diagnostic for the identification of high leverage points in logistic regression model, Journal of Applied Sciences, 23 (2010), 3042-3050, [7] D W Hosmer dan S Lemeshow, Applied Logistic Regression, Second Edition, John Wiley and Sons, New York, 2000 [8] A H M R Imon, Identification of high leverage points in logistic regression, Pakistan Journal of Statistics, 22 (2006), 147-156 [9] R A Maronna, R D Martin dan V J Yohai, Robust Statistics: Theory and Method, John Wiley and Son, West Sussex, 2006 [10] R H Myers dan J S Milton, A First Course in the Theory Linear Statistical Models, PWS-KENT, Boston, 1991 10