Jural UJMC, Volume 3, Nomor, Hal. 9-6 pissn : 460-3333 eissn : 579-907X REGRESI NONPARAMETRIK MENGGUNAKAN METODE ROBUST DAN CROSS-VALIDATION (STUDI KASUS MAHASISWA STIA MUHAMMADIYAH SELONG) Rata Yuiarti, Widya Hartati, STIA Muhammadiyah Selog, yuiarti.edu@gmail.com Abstract This paper is about compariso of estimatio regressio fuctio betwee oparametric regressio kerel usig Nadaraya Watso estimator with simple liear regressio. I additio, a log-time case study was give i obtaiig the first job. The data used are fresh graduate studet, of Public Admiistratio departemet i STIA Muhammadiyah Selog graduate 06. I this case we will see the relatio betwee Cumulative Achievemet Idex (X) with log waitig time to get the job (Y). The software statistics with the help of software applicatios R. For the selectio of the best model is by Cross-Validatio. I this paper, give the theory ad prove about crossvalidatio method are described. Ad the, this paper describes the Robust method if there is outlier. Keywords: oparametric regressio kerel, estimator Nadaraya-Watso, cross validatio, outlier, ad Robust. Abstrak Peelitia ii tetag perbadiga hasil estimasi fugsi regresi atara model regresi oparametrik kerel megguaka estimator Nadaraya Watso dega regresi liear sederhaa. Selai itu diberika studi kasus lama waktu tuggu dalam medapatka pekerjaa pertama. Data yag yag diguaka adalah data mahasiswa fresh graduate Program Studi Admiistrasi Publik STIA Muhammadiyah Selog agkata 06. Dalam hal ii aka dilihat hubuga atara Ideks Prestasi Kumulatif (X) dega lama waktu tuggu medapat pekerjaa (Y). Adapu software statistik dega batua aplikasi software R. Utuk pemiliha model terbaik yaitu dega metode Cross-Validatio (Validasi Silag). Pada peelitia ii diuraika teori da pembuktia tetag metode cross validatio. Selai itu, pada paper ii dijelaska tetag metode Robust jika terdapat pecila. Kata kuci: regresi oparametrik kerel, estimator Nadaraya-Watso, cross validatio, outlier, da Robust Pedahulua Aalisis regresi dega pedekata parametrik diguaka apabila formulasi hubuga atara variabel prediktor X da variabel respo Y diketahui. Namu, apabila formulasi hubuga atara variabel prediktor X da variabel respo Y tidak diketahui maka alteratif lai yag dapat diguaka adalah dega pedekata oparametrik [9]. Estimasi fugsi regresi oparametrik dilakuka berdasarka data pegamata. Data aka mecari betuk estimasiya sediri tapa dipegaruhi oleh subjektivitas dari peeliti, sehigga pedekata regresi oparametrik memiliki fleksibilitas yag tiggi []. Agar pedekata oparametrik ii meghasilka estimasi m yag masuk akal, maka hal yag harus
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga diperhatika adalah asumsi bahwa m memiliki derajat kemulusa (smoothig), kurva regresi diasumsika termuat dalam suatu ruag fugsi mulus yag berdimesi tak higga yag mempuyai turua yag kotiu atau dapat diitegralka secara kuadrat. Pemiliha ruag fugsi tersebut biasaya dimotivasi oleh sifat kemulusa (smoothess) yag diasumsika dimiliki oleh fugsi regresi. Ada beberapa tekik smoothig dalam regresi oparametrik atara lai histogram, estimator splie, estimator kerel, deret fourier, deret orthogoal, k-nn, da estimator wavelet [4]. Diatara metode-metode pedekaa oparametrik tersebut, estimator kerel merupaka metode yag aka diguaka dalam peelitia ii. Estimasi dega pedekata kerel tergatug pada dua parameter yaitu badwidth da fugsi kerel. Cross-validatio merupaka cotoh metode yag dapat diguaka utuk medapatka model kurva regresi terbaik. Berdasarka uraia diatas pada peelitia ii aka dibahas megeai teori da pembuktia tetag cross validatio. Selai itu, diberika perbadiga hasil estimasi fugsi regresi megguaka pedekata parametrik, da pedekata oparametrik. Serta bagaimaa megguaka regresi Robust apabila terdapat outlier. Metode Peelitia Peelitia tetag estimasi fugsi regresi oparametrik dega megguaka metode Robust da cross-validatio ii dilakuka dega studi kepustakaa. Peelitia ii dimulai dega mecari da meetuka jural yag aka dijadika baha acua, megumpulka jural jural lai yag releva dega materi dalam jural acua, mempelajari buku-buku pedukug yag berkaita dega topik permasalaha peelitia yaitu teori regresi oparametrik, fugsi kerel da sifat-sifatya, estimator Nadaraya-Watso, estimasi fugsi dalam regresi oparametrik, pemiliha badwidth, metode cross validatio, outlier, metode robust, regresi oparametrik Robust. Bagia terakhir dari peelitia ii adalah studi kasus megguaka software R. Data pada peelitia ii diperoleh dega megedarka agket kepada alumi. Kuestioer/agket adalah tekik pegumpula data yag dilakuka dega cara memberi seperagkat pertayaa atau peryataa tertulis kepada respode utuk dijawabya [5][7]. Kuestioer dapat berupa pertayaa/peryataa tertutup atau terbuka dapat diberika kepada respode secara lagsug atau dikirim melalui pos, atau iteret. 3 Pembahasa Metode cross-validatio adalah metode utuk meyeleksi model berdasarka kemampua prediksi utuk memilih satu dari satu kelas model. Susua data dipisahka mejadi dua bagia. Utuk bagia pertama terdiri dari titik-titik data c yag diguaka utuk meyesuaika satu model (megkostruksi model), sebalikya bagia kedua terdiri dari yag tersedia utuk meilai kemampua prediksi model (validasi model). Secara v c tegas dikataka, validasi model diselesaika tidak haya dega megguaka v, tapi semua data v c. Ada perbedaa cara utuk memisahka susua data. Cross- v 0
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga validatio, sesuai dega amaya, memilih model dega kemampua prediksi rata-rata terbaik yag dihitug berdasarka semua atau beberapa cara yag berbeda dari pemisaha data. Dalam pemiliha badwidth diperluka suatu kriteria ukura utuk meetuka badwidth yag optimal, salah satu kriteria yag diguaka adalah Mea Squared Error (MSE) [][6], sedagka rata-rata itegral dari MSE disebut Mea Itegrated Squared Error (MISE). Dalam [8] dijelaska MISE m x, f x = MSE m x f x dx da rata-rata MSE adalah: = E MISE m x = E[ m(x i m x ) ] (m x m x ) f(x)dx = E[ (m x m x ) ]f(x)dx MISE [m x ] megadug m(x) dimaa m(x) merupaka suatu fugsi tidak diketahui. Fugsi ii tidak bisa diestimasi dari data. Jadi, utuk meghitug rata-rata MISE [m x ] dibutuhka suatu metode. Utuk itu suatu metode yag dapat diguaka utuk megestimasi mxmegguaka ( ) Average Predictive Squared Error (APSE) atau juga serig disebut Predictio Mea Squared Error (PMSE), didefiisika sebagai berikut: APSE[m x i ] = E[ (m x i +ε i m x i ) ] () dega y i ( i < ilai dari prediktor utuk data (x i y i ). Dega ilai prediktor (x i y i ) sama dega (x i, y i ), maka y i didefiisika sebagai: y i = m x i + ε i (3) dega ε i idepede terhadap ε i tetapi memiliki sifat-sifat yag sama. Dega mesubstitusika Persamaa (3) ke Persamaa () maka: APSE m x = E[ (m x i + ε i m x i ) ] = E[ m x i m x i ) + E[ (ε i m x i m x i )) + E[ (ε i )] = MISE m x i + E ε i m x i m x i + E[(ε i )] = MISE m x i + 0 + ς = MISE m x i + ς (4) dega ς = E(ε i ) adalah variasi ε i sama seperti ε i. Persamaa kedua pada baris ketiga terpeuhi dega asumsi E ε i = 0 terpeuhi. Persamaa pada baris terakhir meujukka peurua m x dega memiimumka MISE m x i ekuivale dega memiimumka APSE m x i. Dega begitu, diperluka suatu metode utuk megestimasi prediksi error tersebut. Suatu metode yag dapat diguaka utuk megestimasi APSE m x i adalah metode cross-validatio. Cross-validatio adalah sebuah metode utuk megevaluasi model dega beberapa tahapa da juga dega beberapa cara. Ide dasar dari cross-validatio adalah meemuka parameter peghalus yag merupaka estimator terbaik utuk megestimasi data didasarka pada observasi baru, serta mampu meberika idikasi-idikasi seberapa baik ()
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga yag aka dapat dilakuka utuk meetuka prediksi selajutya atau jika ada data terbaru yag diperoleh, semetara data tersebut belum perah ada sebelumya. Da selajutya aka dipilih model terbaik. Didefiisika k= (y k m k (x k ) CV m x = (5) Salah satu tekik cross-validatio yag diketahui adalah leave oe out cross-validatio (LOOCV) yag berarti bahwa meiggalka satu utuk valiasi silag, yaitu dega melibatka sampel pegamata tuggal dari sampel asli diguaka sebagai validasi data, da sampel pegamata yag tersisa diguaka sebagai data pelatiha. Hal ii dilakuka berulag pada setiap observasi dalam sampel yag diguaka sekaligus sebagai validasi data. Persamaa (5), m k (x) fugsi regresi yag diperoleh dega meghilagka satu data (x k, y k ) dari (x i, y i ). Dega demikia diperoleh: E CV(m x ) APSE[m x ] (6) hubuga tersebut diperoleh dari: E[y k m x k ) = E[((y k m x k m x k m k x k )) =E[(y k m x k ) ] E[ y k m x k m(x k ) m k (x k ) + E[( m(x k m k x k ) ] = E[(y k m(x k )) ] E[ ε k m(x k ) m k (x k ) ] + E[( m(x k m k x k )] = ς + 0 + E[( m(x k m k x k )] = ς + MSE[m k x k ] (7) Utuk lebih mudah mecari CV[m x ] pada Persamaa (3) estimator utuk m(x) ditulis m x i = [H ij ] y j (8) dega H (matriks ukura ) adalah hat matriks. Jika fugsi regresi diyataka seperti Persamaa (8), maka Persamaa (3) dapat direpresetasika dega eleme diagoal ([Hii]). CV m x = (y i m x i ) (9) ( [H ii ]) Jadi, m k (x k ) merupaka jeis lai m x. Hubuga atara m k x k da m x dapat ditujukka sebagai berikut dega memodifikasi m k x k = disubstitusika ke Persamaa (5), maka: CV m x = = = = (y i m x i ) ( [H ii ]) (y k,i k H ki y i ) H kk ( y k H kk,i k H ki H kk ( y k, H ki H kk y i ) [H ki ]y i [H kk ],i k kemudia y i )
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga (y k m x k ) = ( H kk ) Jadi, m x da m k x k merupaka estimator utuk m(x), haya saja bedaya adalah m k x k meghilagka data ke (xk; yk) pada m x. 3. Pedekata Robust pada Regresi Noparametrik Perhatika persamaa regresi oparametrik y i = m x i + ε i i =,, (0) dega fugsi regresi m(. ) dapat mejadi m. dega dega cara memiimumka jumlah fugsi-fugsi dari residu yag mooto aik. Dega demikia peghalus robust m x dari m(x) dapat didefiisika sebagai: ρ{y i m x i = mi dega ρ merupaka fugsi mooto aik. Turua pertama ρ adalah ψ(. ), Persamaa di atas disamaka dega ol mejadi: dega α i adalah suatu fugsi bobot. α i (x)ρ{y i m x i } = mi Defiisi. Jika diberika model regresi y m( x ), i =,,..., maka i i i α i (x)ρ{y i m x i } = mi disebut kerel M-smoother m M h (x) utuk m(. ), dega ψ. = ρ [3] 4 Studi Kasus Data yag diguaka pada peelitia ii adalah data alumi STIA Muhammadiyah program studi admiistrasi perkatora agkata 06. Bayakya alumi yag berhasil terdeteksi atau yag megisi da megembalika kuestioer adalah 30 orag dari ±00 orag. Berdasarka data yag diperoleh terlihat bahwa 70% alumi merupaka mahasiswa o regular artiya mahasiswa tersebut rata-rata bekerja sambil kuliah. Sampel yag sesuai diguaka pada peelitia ii adalah data mahasiswa fresh graduate atau data mahasiswa regular. Oleh karea itu sampel yag diguaka adalah 30 orag. Utuk peelitia ii observasi yag dilakuka megeai hubuga atara Ideks Prestasi Kumulatif (IPK) X dega lama waktu tuggu medapat pekerjaa (bula) Y. Utuk lebih jelasya berikut diberika plot data. 3
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga Gambar. Data Ideks Prestasi Kumulatif da Lama Waktu Tuggu Medapat Pekerjaa Mahasiswa 4. Estimasi Fugsi Regresi dega Megguaka Pedekata Parametrik Berikut hasil estimasi model regresi dega megguaka metode kuadrat terkecil. Dega megguaka software R dipeorleh hasil model regresi dega metode kuadrat terkecil yaitu: dega estimasi stadar error sebesar 3,98. y,5 0,57x 4. Estimasi Fugsi Regresi dega Megguaka Pedekata Noparametrik Estimasi fugsi regresi dega pedekata oparametrik yaitu megguaka estimator Nadaraya-Watso. Dari hasil pegolaha data dega software R.3.0.. Dega output yag diperoleh sebagai berikut. Gambar. Kurva Fugsi Regresi da Estimasi Fugsi Regresi Pada Gambar, kurva yag berwara hitam merupaka kurva data yag aka diestimasi (kurva data sesugguhya) da kurva yag berwara biru merupaka kurva regresi hasil estimasi dega megguaka estimator Nadaraya-Watso. Proses smoothig dilakuka dega fugsi ksmooth. Sebelum melakuka smoothig terlebih dahulu dipilih badwidth optimal. Adapu betuk estimasi model regresi oparametrik dega estimator Nadaraya-Watso megguaka fugsi kerel Gaussia utuk data IPK terhadap lama 4
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga waktu tuggu medapatka pekerjaa megguaka badwidth h diberika oleh persamaa berikut: π exp ( x X i )y h i y = m x i = π exp ( x X i ) h Sebagai cotoh misalka igi diestimasi lama waktu tuggu seseorag medapatka pekerjaa jika IPK 3,06. Dega megguaka kerel Gaussia da badwidth sebesar 0, diperoleh: y = m x i, i =,,30 30 π exp ( (x X i h = 30 π exp ( (x X i = π exp ( π exp ( ) y i h ).00 3.30 0..00 3.30 0. + + π exp (.00 3.50 0..00 3.50 0. + + π exp ( 6 Jadi, lama waktu tuggu seseorag medapatka pekerjaa jika memiliki IPK 3.06 diprediksi sekitar 6 bula. Kemudia estimasi utuk IPK sebesar 3,05, da 3,0 diperoleh hasil estimasi lama waktu tuggu masig-masig adalah 3 bula, da bula. Dega stadar error 0,. Hal ii meujukka IPK seseorag tidak memiliki hubuga dega lamaya seseorag medapatka pekerjaa. Utuk lebih jelas berikut diberika kurva perbadiga hasil estimasi fugsi regresi yaitu dega pedekata parametrik megguaka regresi liear sederhaa da pedekata oparametrik megguaka regresi kerel dega estimator Nadaraya-Watso. ).4 ) Gambar 3. Kurva Perbadiga Fugsi Regresi Berdasarka Gambar 3, terlihat bahwa kurva yag berwara hitam merupaka kurva dari data yag aka diestimasi. Hasil estimasi dega regresi liear sederhaa terlihat pada kurva yag berwara merah.terlihat bahwa hasil estimasi dega pedekata parametrik 5
Uisda Joural of Mathematics ad Computer Sciece Jurusa Matematika, UNISDA, Lamoga belum medekati kurva dari data karea berupa garis lurus. Apabila diestimasi dega pedekata oparametrik meghasilka estimasi kurva regresi yag lebih tepat medekati betuk kurva dataya terlihat dari kurva yag berwara biru. Adapu perbadiga stadar error dari hasil estimasi di atas sebagai berikut: Tabel. Perbadiga Stadar Error Hasil Estimasi Fugsi Regresi No Metode Stadar error Regresi liier sederhaa dega metode kuadrat 3,98 terkecil Regresi oparametrik kerel dega estimator Nadaraya-Watso 0, 6 Kesimpula Berdasarka hasil yag diperoleh dapat disimpulka bahwa :. Berdasarka hasil output SPSS di atas hasil estimasi model regresi dega pedekata parametrik yaitu y,5 0,57x dega estimasi stadar error sebesar 3,98.. Estimasi hubuga atara Ideks Prestasi Kumulatif (IPK) da lama waktu tuggu medapat pekerjaa alumi STIA Muhammadiyah Selog program studi admiistrasi publik agkata 06 lebih cocok megguaka regresi oparametrik dega kerel Gaussia da badwidth 0,. Hal ii dapat dilihat dari SE yag dihasilka sebesar 0,. 3. Berdasarka perbadiga ketiga kurva hasil estimasi terlihat bahwa pemodela lama waktu tuggu medapatka pekerjaa pertama alumi STIA Muhammadiyah Selog program studi admiistrasi publik agkata 06 lebih medekati jika megguaka regresi oparametrik kerel. Daftar Pustaka [] Bai, L. J da Egelhardt. 99. Itroductio to Probability ad Mathematical Statistics Secod Editio. Duxbury Press. USA. [] Eubak, R. L. 988. Splie Smoothig ad Noparametric Regressio. Marcell Dekker Ic. New York. [3] Hardle, Wolfgag. 990. Smoothig Techiques With Implemetatio i S. Spriger-Verlag. New York. [4] Hardle, W, Hall, P, da Marro, J. 99. Regressio Smoothig Parameters that are ot Far from Their Optimum. J. Amer Statist. Assoc. 87: 7-33. [5] Putrato, R. T., da Mashuri, M. 0. Aalisis Statistik Tetag Faktor-Faktor yag Mempegaruhi Waktu Tuggu Kerja Fresh Graduate di Jurusa Statistika Istitut Tekologi Sepuluh Nopember (ITS) dega Megguaka Regesi Logistik Ordial. Jural Sais da Sei ITS. () :34 38. [6] Roussas, George.G. 997. Acourse i Mathematical Statistics Secod Editio. Academic Press. USA. [7] Sugiyoo. 007. Metode Peelitia Kuatitati Kualitatif da R ad D. Alfabeta. Badug. [8] Takezawa, Kuio. 005. Itroductio to Noparametric Regressio. Jho Wiley. USA. [9] Wad, M.P da Joes, M.C. 995. Kerel Smoothig. Chapma ad Hall.Lodo. 6