PENDITEKSIAN PENCILAN (OUTLIER) DAN RESIDUAL PADA REGRESI LINIER Outler ad Resdual Detecto the Lear Regresso Iwa Sugkawa Jurusa Statstka Fakultas Sas da Tekolog, Uverstas Ba Nusatara Jakarta ABSTRACT Ths paper dscusses the study of outler ad resdual detecto the lear regresso, coducted by study of the requremets ad the ecessary assumpto that the resdual regresso model s relable ad ca be used. Assumpto of ormalty s oe of ecessary codto that the resduals, so f there are outler resdual wll have ot cosequeces ormal dstrbuto. So to do detecto of outler from the data observatos. Besdes that eed to ormalty tested of the resduals or drectly to the varable of resposes (observatos). Presece or absece of observato as outler ca be characterzed by the dstrbuto of resduals ad the correlato coeffcet. Outler detecto ca be followed by determg of each observato resduals s followed by determg st the meda, ad the statstc T s used to test the exstece of outler. Quartle devato (d Q ) s smple alteratve to a detectg of outler. The results of the study show that to ormalty test, ca be doe o the resdual or o the respose varables (the depedet varables). Study of the resdual ca be doe by plottg the resduals of the depedet varables ad the depedet varables. Efforts to overcome the outler ca be doe wth the data traspormato so the data as outler eed ot dsposed. Keywords : correlato, meda, ormalty, outler, regresso aalyss, resduals. Iformatka Pertaa Volume 8 No., 9 95
PENDAHULUAN Dalam suatu kegata peelta kadag kala kta dhadapka utuk meetuka da memaham betuk da keerata/kekuata hubuga atara dua atau lebh peubah yag aka dguaka dalam peelta, sehgga dperluka suatu aalss khusus utuk membahas hal tersebut. Dalam Statstka, aalss yag bermaksud utuk memaham betuk hubuga fugsoal serta predksya adalah tekk aalss regres, sedagka aalss yag bermaksud utuk memaham/ megetahu besarya kekuata/keerata serta arah hubuga atar peubah adalah tekk aalss korelas. Kedua tekk aalss pada dasarya salg berhubuga, sehgga dalam peerapaya serg dguaka secara bersamaa dalam melakuka aalss hubuga atar peubah, da pegguaa keduaya serg dsebut sebaga aalss korelasoal. Aalss regres dguaka utuk meggambarka gars yag meujuka arah hubuga atar peubah, serta dperguaka utuk melakuka predks, sela stlah tersebut, d kalaga ahl statstk ada juga yag megguaka stlah estmatg le atau gars dugaa sebaga padaa stlah regres. Dalam pegguaa gars regres sebaga predktor terdapat beberapa persyarata yag harus dpeuh yag dataraya adalah asums resdual e (selsh atara la amata da la predktor) meyebar ormal dega rata-rata ol da ragamya σ e, jad dalam melakuka kaja dega megguaka aalss regres dperluka utuk mecek apakah persyarataya sudah dpeuh atau tdak. Dalam peulsa dlakuka pedteksa atau peelaaha data pecla (outler) da resdual dalam suatu model regres ler termasuk uj ormaltas, serta upaya utuk meaggulagya. Uj ormaltas dlakuka karea dsampg aggapa ormaltas utuk resdual, juga pada saat melakuka peguja keberartaa bak koefse regres atau koefse korelas dguaka sebara t da sebara f (utuk uj secara smulta), sedagka kedua sebara tersebut dturuka dar sebara ormal. Tujua dar peulsa adalah utuk member gambara tetag perluya peelaaha terhadap outler da uj ormaltas pada saat aalss regres & korelas dguaka dalam suatu peelta serta peelaaha resdual yag merupaka baga peetu layak tdakya model regres dguaka. Dharapka dega adaya formas bermafaat bag para peggua statstka da dapat memperjelas 96 Pedteksa Pecla (OutLer)
dalam proses pegguaa aalss regres da korelas yag sesua dega prosedur/ketetua. PENDUGAAN KOEFISIEN REGRESI LINIER Utuk mempelajar betuk hubuga fugsoal atara dua peubah atau dua faktor basa dguaka aalss regres. Dalam aalss regres, dkeal ada dua jes peubah, yatu : peubah respo atau dsebut juga peubah tak bebas (depedet) yatu peubah yag keberadaaya dpegaruh oleh peubah laya da basa dotaska dega. Peubah predktor da dsebut juga peubah bebas (depedet) yatu peubah yag tdak dpegaruh oleh peubah laya da basa dotaska dega. Secara matematk hal tersebut dapat dyataka dalam betuk fugs atau f(). Utuk regres ler sederhaa betuk persamaaya dapat dgambarka melalu persamaa α + + dega merupaka resdual (ssaa) yag dasumska meyebar ormal. Dalam praktekya betuk persamaa regres d atas dduga oleh + + e dmaa a da b merupaka koefse regres yag dperoleh dega metode kuadrat terkecl, sedagka e merupaka resdual atau ssaa da dapat dtuls e ( + ). Dasumska e meyebar ormal dega rata-rata ol da ragamya σ e, jad dalam melakuka kaja dega megguaka aalss regres dperluka utuk mecek apakah persyarataya sudah dpeuh yag dataraya syarat meyebar ormal. Betuk yag dguaka utuk mempreds dyataka dega persamaa +. da dperoleh dega metode kuadrat terkecl da dapat dhtug dega rumus : ( ( ) ) da Uj Keberarta Model Regres Utuk meelaah apakah model regres atas dapat dguaka atau tdak perlu dlakuka uj hpotess dega rumusa sebaga berkut: H H o Iformatka Pertaa Volume 8 No., 9 97
Betuk statstk yag dguaka utuk uj d atas adalah : t ht S dega derajat bebas (-), dmaa bayakya pegamata (ukura sampel). Utuk taraf yata α da derajat bebas (-), maka krtera pegujaya adalah tolak H o jka t ht t.5α (-) da terma H o jka t ht < t.5α (-). Sebara t dperoleh melalu traspormas dar raso dua peubah acak yag meyebar ormal baku da meyebar kh-kuadrat. Msalka dua peubah acak kotu W da V bebas stokhastk da dketahu W meyebar ormal dega rata-rata da ragamya sama dega satu atau dapat dtuls W ~ N(,), peubah acak kotu V meyebar khkuadrat dega derajat bebas r atau dapat dtuls V ~ χ (r) Betuk hpotess datas dguaka haya utuk uj koefse regres, tetap jka peguja dlakuka secara smulta dega kostata maka dapat dguaka tabel aalss ragam/varas (ANOVA) dega sebara f sebaga statstk ujya. Utuk keperlua perlu dtetuka jumlah kuadrat setap sumber keragama, yatu : jumlah kuadrat regres/ ; jumlah kuadrat regres/ ; jumlah kuadrat resdual da jumlah kuadrat total. Selajutya dtetuka pula kuadrat tegah (KT) setap sumber keragama dega membag jumlah kuadrat dega derajat bebas. Nla F ht (KT regres /KT resdual ). Krtera peguja : Tolak H o jka F ht F tabel da terma H o jka F ht < F tabell utuk taraf yata yag dplh. Sebara F dperoleh melalu traspormas dar raso dua peubah acak yag keduaya meyebar kh-kuadrat. Msalka dua peubah acak kotu U da V bebas stokhastk da dketahu peubah acak U da V masg-masg meyebar kh-kuadrat dega derajat bebas r da r atau dapat dtuls U ~ χ (r) da V ~ χ (r) Uj Keerata Hubuga Dega Koefse Korelas Utuk meelaah adaya ketergatuga datara dua peubah da atau datara dua peubah/faktor, perlu dtetuka suatu ukura ketergatuga, yatu koefse korelas r xy da secara statstk perlu dlakuka uj hpotess dega rumusa sebaga berkut H o : ρ H : ρ Betuk statstk yag dguaka utuk uj d atas adalah t ht r j r j 98 Pedteksa Pecla (OutLer)
dmaa bayakya pegamata (ukura sampel) t ht d atas meyebar secara t dega derajat bebas (-). r xy koefse korelas sampel atara peubah acak da yag dhtug dega rumus r xy [{ ( ) ( ( ) }{ { ( ) ) }] Utuk taraf yata α da derajat bebas (-), maka krtera pegujaya adalah tolak H o : ρ jka t ht t.5α (-) da terma H o jka t ht < t.5α (-). Jka hpotess d atas haya memperhatka la ρ > atau uj arah kaa, maka betuk krtera ujya adalah tolak H o : ρ jka t ht t α (-) da terma H o jka t ht <t α (-). Asums Normaltas Dalam Aalss Regres Dalam aalss regres da korelas yag dasumska meyebar ormal adalah resdual e sehga ada suatu pemkra yag perlu d uj keormalaya adalah resdual, tetap bayak juga yag melakukaya lagsug terhadap data pegamata, tepatya terhadap peubah respo (peubah tak bebas ). Keduaya sama saja karea berdasarka sfat dar peubah acak yag meyebar ormal, jka peubah tersebut meyebar ormal maka kombas lerya juga aka meyebar ormal. Jad jka resdual meyebar ormal maka juga meyebar ormal karea adalah kombas ler dar resdual e atau a + b + e. D sampg tu, dalam melakuka uj koefse regres atau koefse korelas basa dguaka sebara t atau utuk peguja secara smulta dguaka sebara f. Kedua sebara tersebut dturuka/berasal dar sebara ormal. Atau utuk lebh jelasya sebara t dbagktka dar raso dua peubah acak yag meyebar ormal baku da sebara kh-kuadrat, sedagka sebara f dbagktka dar raso dua peubah acak yag masg-masg meyebar kh-kuadrat. Sebara kh-kuadrat sedr berasal dar sebara ormal baku (sebara ormal baku jelas berasal dar sebara ormal). Berdasarka formas d atas, jka kta meghedak hasl kaja yag syahh da teradalka maka uj ormaltas jelas perlu dlakuka sebelum aalss data dlakuka da dapat dlakuka terhadap resdual atau lagsug pada peubah respo. KAJIAN DATA PENCILAN Pegaruh Pecla (Outler) Terhadap Regres da Korelas Apabla dalam pegamata terdapat pecla atau outler, dega sedrya aka meuruka la koefse regres atau korelasya. Hal dakbatka karea ragam yag megukur bervarasya data Iformatka Pertaa Volume 8 No., 9 99
aka membesar atau ksara data mejad lebh lebar. Dega redahya la koefse regres da korelas dega sedrya dapat meuruka kualtas dar gars regres yag dhaslka, sehgga perlu dcar model la yag lebh cocok dega kods yag damat atau melakuka traspormas terhadap data tersebut. Deteks Keberadaa Gejala Pecla Kehadra data pecla dapat membuat kualtas gars regres mejad redah. Oleh karea tu kehadraya perlu ddeteks dataraya dega cara sebaga berkut. Htuglah resdu utuk setap,,, maka aka kta peroleh harga-harga resdu e, e,,e. Ambl harga mutlak e ;,,,, kemuda urutkalah dar yag terbesar hgga terkecl, e maks meyataka harga mutlak resdu yag terbesar. Tetuka meda M dar e,e,,e. Htug Htug Htug T Q ssa /Q Badgka harga statstk peguj T dega ttk krts utuk k da tgkat keberarta, atau,5 atau,. Jka harga T melebh ttk krts, maka data yag memberka e maks adalah buka data pecla. Cara la utuk medeteks adaya gejala pecla dapat dlakuka dega satu metode yag lebh sederhaa, yatu dega megguaka sebara tegah d Q (devas kuartl) sebaga berkut : Tetuka la kuartl atas (Q A ) kuartl bawah (Q B ) da htug besarya d Q Q A -Q B Tetuka batas bawah pecla BBP Q B -(,5)d Q. Tetuka batas atas pecla BAP Q A +(,5)d Q. Utuk medeteks pecla dlakuka dega membadgka la data : (jka data pegamata lebh kecl dar BBP atau lebh besar dar BAP maka pegamata tersebut adalah pecla) Jad BAP-BBP 4d Q. Megapa dambl 4 d Q? Hal dapat djelaska melalu betuk sebara deal, yak ormal. Dalam keadaa deal, pegambla 4 d Q berart bahwa tgkat keyaka (probablty) terjadya outlers adalah sebesar,7 atau,7% atau kra-kra %. Jka cara kedua data pegamata dgat dega resdual maka setelah medapatka resdual dar semua pegamata selajutya tetuka la kuartl atas Q A da kuartl bawah Q B dar la mutlak resdual atau e serta tetuka peympagaya d Q Q A -Q B. Pedteksa Pecla (OutLer)
Sepert d atas tetuka BBP da BAP da utuk medeteks pecla guaka resdu (buka data pegamata). Ketetuaya adalah : (jka la resdu lebh kecl dar BBP atau lebh besar dar BAP maka data pegamata yag bersagkuta adalah pecla) Kaja Resdual Dalam Aalss Regres Resdual atau ssaa dalam regres ler sederhaa merupaka selsh dar la predks da la sebearya (actual) atau e - (a + b ). Jka la pegamata terletak dalam gars regres maka la resduya sama dega ol. Jad jka total jarak atau la mutlak dar resdu atau Σ e berart semua la pegamata terletak pada gars regres. Mak besar total jarak maka mak jauh regres tu dar la actual, atau la resduya mak besar da gars regres kurag tepat dguaka utuk mempredks bak secara terpolas ataupu ekstrapolas. ag dharapka adalah sebalkya yatu total resdu semak kecl sehgga gars regres cukup hadal utuk dguaka. Nla resdu aka mak besar jka terdapat data pecla da dapat meuruka la koefse regres atau koefse korelas. D sampg tu dapat juga dlhat la ragamya, jka la ragamya kecl maka varas resdu tdak besar, tetap jka sebalkya maka varas resdu membesar. Utuk meujuka model regres tu layak atau tdak dguaka maka perlu dcek persyarata yag dperluka apakah sudah semuaya dpeuh atau belum. Dataraya adalah aggapa tetag resdu yag meyebar ormal. Jka dpeuh maka jelas total resduya sama dega ol atau Σe. Jad apabla laya jauh dar ol kta harus curga da perlu dcek (uj ormaltas da deteks data pecla serta upaya laya). Utuk meelaah betuk sebara dar resdu, selajutya la resdu dplot dalam suatu dagram ttk dega peubah bebas () da peubah tak bebas () sebaga sumbu datar. Dalam pedugaa koefse regres dguaka metode kuadrat terkecl yag dtempuh dega memmalka jumlah kuadrat dar resdual atau memmalka Σe. Hal dlakuka agar utuk medapatka betuk model regres yag bak da hadal haruslah berasal dar pegamata-pegamata dega resdu terkecl. Jad jelas bahwa resdual merupaka baga yag meetuka dalam memlh model regres yag aka dguaka. Uj Normaltas Dalam Aalss Regres Utuk mecek apakah hasl pegamata meyebar ormal atau tdak dapat dlakuka dega berbaga cara sepert : dega uj hstogram, uj ormal P Plot, uj Kh Square, Skewess da Kurtoss atau uj Kolmogorov Smrov. Tdak ada metode yag palg bak atau palg tepat. Tpsya adalah bahwa peguja dega metode grafk serg membulka perbedaa perseps d atara beberapa pegamat, sehgga pegguaa uj ormaltas dega uj statstk bebas dar Iformatka Pertaa Volume 8 No., 9
keragu-ragua, meskpu tdak ada jama bahwa peguja dega uj statstk lebh bak dar pada peguja dega metode grafk. Jka resdual tdak ormal tetap dekat dega la krts (msalya sgfkas Kolmogorov Smrov sebesar,49) maka dapat dcoba dega metode la yag mugk memberka justfkas ormal. Tetap jka jauh dar la ormal, maka dapat dlakuka beberapa lagkah yatu: melakuka trasformas data, melakuka membuag data outlers atau meambah data pegamata/observas. Trasformas dapat dlakuka ke dalam betuk Logartma atural, akar kuadrat, verse, atau betuk yag la tergatug dar betuk kurva ormalya, apakah codog ke kr, ke kaa, megumpul d tegah atau meyebar ke sampg kaa da kr. Upaya Megatas Outler Dega Traspormas Data Jka pecla (outler) teryata ada dalam hasl pegamata da pecla tu aka dguaka dalam aalss data maka perlu dcar cara utuk megatasya agar pecla tu tdak meggaggu da kta medapat hasl yag lebh bak. Salah satu cara utuk megatas pecla dtempuh dega melalu traformas terhadap data hasl pegamata sebaga berkut. Dalam hal demka, peubah tak bebas da atau peubah bebas mugk perlu dtrasformaska. Caraya adalah dega : Megamat stem-leaf (daha-dau) sar umerc, da box plot dar data da data Plhlah trasformas yag sesua utuk da atau utuk. Msalka hasl trasformas dar da dar berturut-turut adalah Z da W Tetuka regres lear dar Z terhadap W Bla regres dar Z terhadap W memberka harga R yag sudah memuaska, maka proses pemodela selesa. Bla belum, maka ulag lagkah da 3. Sepert yag telah duraka d atas betuk trasformas yag dapat dlakuka dataraya adalah : betuk logartma atural, akar kuadrat, verse, atau betuk yag la tergatug dar betuk kurva ormalya. TELADAN DAN PENERAPAN Utuk memberka gambara yag lebh jelas berkut dberka cotoh pegguaa aalss regres da korelas. Utuk keperlua dambl cotoh dega megguaka data hasl Peelta Kuattatf yag bersumber dar Lembaga Peelta STIKIP Kuga Jakarta. Peubah yag aka dperguaka dalam perhtuga adalah peubah motvas () sebaga peubah bebas, da peubah kerja () sebaga Pedteksa Pecla (OutLer)
peubah tdak bebas, data (skor) hasl pegamata (termasuk la predks ' da la resdual e ) dapat dsajka dalam tabel berkut : (Motvas) (Kerja) ' Resdual (e ) 6 48.4.6 3 5 57.9-7.9 5 7 76.9-6.9 6 8 86.4-6.4 8 5.4 4.6 9 4.9-4.9 Dega megguaka rumus koefse regres d atas dperoleh persamaa regres ler sederhaa sebaga berkut : Ŷ 9,4 +.95 da koefse korelas r xy.93 Setelah dperoleh persamaa gars regres, lagkah berkutya adalah melakuka peguja apakah persamaa tersebut layak dguaka atau tdak. Dalam kesempata, hpotess yag duj adalah : H o H da da Peguja hpotess d atas dguaka aalss ragam da perlu dcar Jumlah kuadrat utuk masg-masg sumber keragama sebaga berkut : JK Total Σ 46.96 JK ( ) (Σ ) / 4.336 JK ( ) ( )( ) 3.7,6 JK resdu JK total - JK ( ) - JK( ) 48.4 Hasl perhtuga d atas dapat dsajka dalam tabel ANOVA sebaga berkut : Sumber Db JK RJK Fh Ft Keragama.5 Ft. Regres 4.336 4.336 68,74 7.7. Regres 3.7,6 3.7,6 59.77 7.7. Resdual 4 48.4 6. Total 6 46.96 Iformatka Pertaa Volume 8 No., 9 3
Kesmpula : utuk taraf yata 5% da % la koefse regres daggap cukup berart sehgga persamaa regres dapat dguaka utuk mempredks. Utuk meguj keberarta dar koefse korelas d atas (r.93) perlu duj hpotess : H o : ρ melawa H : ρ Dguaka statstk t sebaga berkut : t htug r r t htug 6.93 (.93 ) 5.6 Nla t ht 5.6 > t,5 (4) 3.747 maka H o dtolak, artya koefse korelas ρ tdak sama dega ol, da meujukka adaya ketergatuga atara motvas da kerja. Kaja Resdual : Dega megguaka persamaa 9,4 +,95 dapat dtetuka la-la resdual sebaga berkut : e,6; e -7,9; e 3-6,9; e 4-6,4; e 5 4,6 da e 6-4,9. Dar la mutlak resdual dtetuka kuartl atas (Q 3.35) da kuartl bawah (Q 6.5) da devasya adalah d Q Q 3 - Q (.35-6.5) 6.35. Utuk medeteks data pecla dtetuka batas bawah pecla Q -.5 d Q 6.5 -.5 * 6.35-3.465 da batas atas pecla Q 3 +.5 d Q.35 +.5 * 6.35.8375. Teryata semua la resdual tdak ada yag dluar batas pecla (tdak ada yag lebh kecl dar batas bawah da juga yag lebh besar dar batas atas), jad utuk pegamata d atas tdak ada data yag daggap pecla. KESIMPULAN Berdasarka uraa dar peulsa, dapat dsampaka beberapa kesmpula da sara sebaga berkut : Dalam aalss regres resdual merupaka baga yag meetuka layak tdakya model tersebut dguaka, karea jka jumlah resduya jauh dar ol da juga jumlah kuadrat resduya besar 4 Pedteksa Pecla (OutLer)
sekal meujukka bahwa model regres tu lemah da kurag layak bla dguaka utuk mempredks. Jka terdapat data pecla (outler) la resdu aka mak besar dapat memperkecl/meuruka la koefse regres da juga la korelas sehgga jka data tu mau dguaka maka perlu upaya utuk megatasya yag dataraya dlakuka dega megguaka peubah yag sudah dtraspormas. Cara traspormas dguaka sela utuk meaggulag data pecla juga utuk megupayaka agar terpeuhya asums ormaltas, karea jka terdapat pecla maka data hasl pegamataya tdak meyebar ormal. Dalam melakuka traspormas harus dsesuaka dega feomea aalss da secara hat-hat karea trasformas tertetu membawa kosekues yag bsa berlawaa dega feomea yag daalss. Utuk megamat la resdu dapat dlakuka dega memplot (meggambar) resdu tersebut dalam suatu dagram (grafk). D sampg tu dapat juga dlhat la ragamya, jka la ragamya kecl maka varas resdu tdak besar, tetap jka sebalkya maka varas resdu membesar. Sela asums ormaltas utuk resdual, dalam melakuka uj koefse regres atau koefse korelas basa dguaka sebara t atau utuk peguja secara smulta dguaka sebara f. Kedua sebara tersebut dturuka/berasal dar sebara ormal. Jka meghedak hasl kaja yag syahh da teradalka maka uj ormaltas jelas perlu dlakuka sebelum aalss data dlakuka da dapat dlakuka terhadap resdual atau lagsug pada peubah respo. Cara la utuk megatas outler adalah dega tdak megguaka data dalam aalss, amu outler tersebut dbahas khusus keapa atau apa yag bsa dpelajar dar outler tersebut. DAFTAR PUSTAKA Hogg, R.V. ad A.T. Crag. (995). Itroducto to Mathematcal Statstcs. Pretce Hall. Sgapore Sudjaa,, Metode Statstka; Tarsto; Badug Rudasyah (Hes Wllam W. ad Motgomery D); 99. Probablta da Statstk dalam Ilmu Rekayasa da Maajeme. Uverstas Idoesa; Jakarta --------------, Aalss Hubuga, Lembaga Peelta STKIP Kuga, http://www.math.tb.ac.d/~ma9/sas_rls.htm http://statstcsaalyst.wordpress.com/8///asums-regres-ujormaltas/ Iformatka Pertaa Volume 8 No., 9 5