BAB LANDASAN TEORI. Outlie Outlie meupakan suatu pengamatan yang menyimpang cukup jauh dai pengamatan lainnya sehingga menimbulkan kecuigaan bahwa pengamatan tesebut beasal dai distibusi data yang bebeda (Hawkins dalam Sujatmiko, 005:4). Distibusi petama disebut sebagai distibusi dasa (basic distibution) yang menghasilkan pengamatan baik. Distibusi kedua disebut sebagai distibusi kontaminan (contaminating distibution) yang menghasilkan pengamatan tidak baik. Jumlah maksimum outlie dalam data yang dipebolehkan adalah 50 pesen (Rousseeuw dan Leoy dalam Hubet dan Van Diessen,004:303). Bedasakan pengauh pengamatan outlie tehadap data, maka outlie dapat dibedakan menjadi tiga, yaitu : Shift Outlie, mampu menggese vekto ata-ata sehingga pusat data menjadi beubah. Scale Outlie, mampu meubah bentuk ellipsoid dai data. Radial Outlie, selain menggese pusat ellipsoid juga meubah bentuk ellipsoid. Pengamatan yang dikategoikan sebagai pencilan mempunyai nilai esidu yang elatif besa untuk ukuan esidu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anataa dua vaiabel x dan y dipekiakan dengan gais luus. Model egesi fomalnya adalah yi = β0 + β xi +... + εi (.) Dengan β 0 dan β adalah paamete untuk diestimasi. εi adalah kesalahan andom yang tidak dipehatikan dan diasumsikan bedistibusi nomal. Dibeikan data
yang cukup pada x dan y, model paamete dapat diestimasi dengan metode least squaes. Intepetasi dai koefisien egesi adalah menyediakan bentuk kedekatan dimana tidak ada vaiabelyang menyimpangdai asumsi dasa egesi yang telah diketahui. Asumsi ini dipeiksa dengan menganalisis egesi esidual. Analisis esidu biasanya dimulai dengan gafik dai esidu dengan vaiabel bebas x, dan memfitkannilai ^ y. Secaa umum gafik ini dimulai dengan titik-titik untuk memeiksa simpangan dai model asumsi, sepeti ketidakcukupan asumsi gais luus, kecukupan vaiansi konstan, ada tidaknya outlie dan koelasi kesalahan. Dalam kajian ini pehatian tebatas untuk mendeteksi outlie dan menguku pengauhnya pada hasil egesi.(chatteje-pice,977) Untuk mendeteksi outlie dapat dilakukan dengandiagamdan pehitungan nilai sepeti :. Scatte Plot Data obsevasi diplotkan dalam suatu gafis, jika tedapat data yang jauh dai kumpulan plot maka dapat dikatakan bahwa data tesebut temasuk pencilan.. Boxplot Dengan menggunakan nilai kuatil, dan 3 yang akan membagi sebuah uutan data menjadi bebeapa bagian. IQR = Q3 - Q (.) Dengan : Q = Kuatil ke Q = Kuatil ke Q3 = Kuatil ke 3 IQR = Intequatule Range (Jangkauan) Dengan batas bukan pencilan kuang dai,5xiqr atas dan besa dai,5xiqr bawah. [0]
3. Leveage Values, DfFITS, Cook s Distance, dan DfBETA(s) Leveage Values; menampilkan nilai leveage (pengauh) tepusat. Outlie yang disebabkan oleh vaiabel pedikto dinamakan leveage. Leveage sangat sulit diketahui sejak awal kaena :. Visualisasi sepeti scatte diagam tidak mampu menggambakan secaa utuh dalam satu gamba.. Bebeapa pencilan dalam data membentuk efek masking / tidak telihat mencolok. DfFITS atau Standadized DfFIT; menampilkan nilai peubahan dalam hagayang dipediksi bilamana data yang dianggap pencilan dikeluakan, yang sudah distandakan. Cook s Distance; menampilkan nilai jaak Cook DfBETA(s); menampilkan nilai peubahan koefisien egesi sebagai hasilpeubahan yang disebabkan oleh pengeluaan data yang dianggap pencilan. Digunakan untukmendeteksi pencilan pada vaiabel bebas. Adapun ketentuan yang belaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai beikut : Ket. : n = Jumlah obsevasi (sampel); p = Jumlah paamete 4. Intenal Studenization ( Residu Yang Distudentkan) Umumnya outlie memiliki nilai y yang ekstim. Untuk mendeteksi apakah tedapat outlie atau tidak, Intenal Studenization (Residu yang distudentkan) Hipotesis : H0: i = o ( tidak tedapat outlie ) H: i o ( tedapat outlie )
Uji Statistik : t = tn p.3 s h Dengan : s = i n p Dengan: = esidu p= banyaknya vaiabel bebas h ii = p/n ii Kiteia uji : HO ditolak jika t i t α/;n-p-, dan HO diteima jika t i <t α/;n-p-, Dengan α = taaf nyata. Pengamatan Bepengauh Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besa yakni nilai mutlak dai esidu lebih besa dai atau ǀ i ǀ>, tetapi Sebe (977,hal65) membeikan patokan kasayakni nilai mutlak dai esidu lebih besa dai 3 atau ǀ i ǀ>3, sedangkan pengamatan bepengauh lebih bekaitan dengan besanya peubahan yang tejadi pada koefisien egesi jika pengamatan tesebut disisihkan. Secaa umum, pencilan tidak selalu beati pengamatan bepengauh ataupun sebaliknya. Ada atau tidaknya pengamatan bepengauh dalam analisis tidak hanya meubah nilai koefisien egesi tapi juga akan meubah penafsian atau kesimpulan. Pendekatan eksploatif mungkin dianggap kuang efisien dan bekesan mencoba-coba, sehingga dibutuhkan pendekatan yang lebih sistematik. Posedu yang dapat ditempuh dalam hai ini adalah pemeiksaan sisaan. Penentuan pengamatan bepengauh didasakan pada nilai coveage/cakupan yang disimbolkan dengan h. Secaa umum 0 h dan h = p, dengan p adalah banyaknya paamete dalam model. Sehingga secaa ata-ata besanya h adalah p/n. Hoaglin dan Welsch (978) menyebutkan bahwa h > p/n dapat dianggap cukup besa untuk menyatakan pengamatan tesebut bepotensi sebagai pengamatan bepengauh. Sedangkan Hube (98) membayangkan /h sebagai besaan yang setaa dengan
banyaknya pengamatan yang ikut menentukan pendugaan ^ y, sehingga nilai h > 0,5 dianggap besa dan kitis, dan h > 0, sebagai petunjuk peingatan. Pada dasanya nilai h yang semakin besa menunjukkan semakin besa potensinya untuk bepengauh, yang kemudian dapat diketahui setelah analisis dengan penyisihan pengamatan tesebut. DfFITS dan jaak Cook (Cook s Distance) digunakan untuk menguku amatan bepengauh. Suatu amatan dikatakan bepengauh jika nilai mutlak DfFITS > untuk gugus data beukuan kecil dan nilai mutlak DfFITS > untuk gugus data beukuan sedang dan besa. Cook s Distance > F(0,5;p;n-p) dikatakan bepengauh. Contoh pola hubungan data yang mengandung pencilan Gamba. Scateplot WRI Januai dan Luas Panen Peiode I. 350 Scatteplot of LP- vs WRI Jan 5 300 50 LP- 00 50 00 50 8 7 4 5 9 0 3 3 4 6 0 0 40 60 80 WRI Jan 00 0 40 Gamba. menunjukkan contoh pola hubungan Weighted Rainfall Index Januai (WRI Jan) tehadap luas panen padi peiode I (LP I). Diketahui pada pengamatan ke- 5 teletak lebih jauh dai pola pengamatan-pengamatan lainnya pada umumnya. Melalui pebandingan nilai DfFITS dapat dikatakan pengamatan tesebut sebagai outlie dikaenakan memiliki nilai DfFITS = 5.74699 lebih dai batas DfFITS yaitu /5 = 0.73097. Pengamatan ke- juga meupakan outlie.
.3 Regesi Robust Metode kuadat tekecil atau OLS (odinay least squae) meupakan metode penduga tebaik untuk analisis egesi, namun metode ini sangat sensitif tehadap pencilan. Bahkan jika hanya tedapat satu saja pencilan extim dalam data, maka akan mengakibatkan penyimpangan pada dugaan OLS.Untuk mengatasi data yang mengandung pencilan dipelukan metode yang tega tehadap pencilan yang disebut sebagai metode obust. Titik pencilan dapat dideteksi dengan menggunakan nilai esidualnya.titik pencilan dikatakan 0 jika 3 dan untuk lainnya. ^ ^ ^ Dengan i = Yi β0+ β X i + β X i, i =,..., n Titik Leveage dapat dideteksi dengan menggunakan jaak obust yaitu (.4) T RD( Xi) = ( Xi T( X)) C( X) ( Xi T( X)) (.5) Dimana : RD : Jaak Robust T(X) : vekto ata-ata obust C(X) : matiks kovaians obust. [0] Langkah-langkahpendeteksian outlie dengan metode Least Timmed Squaes pada Regesi Robust meliputi bebeapa tahap :. Tentukan pencilan pada data. Tentukan nilai coveage yakni h = [ n / ] + [( p + ) / ] 3. Buat subset dai data yaitu sebanyak kombinasi n dai h. 4. Gunakan metode kuadat tekecil biasa untuk mendapatkan nilai paamete dan esidu dai tiap subset 5. Tentukan model fit dengan mencai jumlah kuadat esidu yang tekecil dai keseluuhan subset Setelah didapat model yang fit, kemudian a. Hitung nilai esidu obust untuk menentukan titik pencilan, yang dipeoleh dai model fit Least Timmed Squaes b. Hitung nilai jaak obust untuk menentukan titik leveage
c. Buat plot antaa jaak obust vs esidu obust [0] Dan teakhi plot antaa esidu obust dan jaak obust memungkinkanpengguna untuk menciikan/membedakan 4 model titik yaitu: obsevasi biasa,pencilan vetikal, titik good leveage dan titik bad leveage.. Obsevasi egula yaitu suatu titik yang memiliki nilai esidu obust dan nilaijaak obust kecil.. Pencilan vetikal yaitu suatu titik yang memiliki nilai esidu obust besa dannilai jaak obust kecil. 3. Good leveage yaitu suatu titik yang memiliki nilai esidu obust kecil dannilai jaak obust besa. Ini beati bahwa X i menjauh tetapi Y i cocok dengangais linea. 4. Bad leveage yaitu suatu titik yang memiliki nilai esidu obust dan nilaijaak obust besa. Titik ini lebih bebahaya dai pada pencilan kaenamemiliki pengauh paling besa pada egesi linea klasik. Tentu saja tidak selalu semua titik ini dimiliki oleh data..4 Least Timmed Squaes Least Timmed Squaes(LTS) meupakan suatu metode pendugaan paamete egesi obust untuk meminimumkan jumlah kuadat h esidual (fungsi objektif). ^ β = h i : n) i= Dengan h= [ n / ] + [( p + ) / ] Keteangan : ( (.6) (i) : Kuadat esidual yang diuutkan dai tekecil ke tebesa. () < () < (3) <. < (i) < < (h) < < (n) n : Banyaknyapengamatan p: Paamete egesi
Jumlah h menunjukkan sejumlah subset data dengan kuadat fungsi objektif tekecil. Nilai h pada pesamaan (.6) akan membangun beakdown point yang besa sebanding dengan 50%. Algoitma LTS menuut Rousseeauw dan Van Diessen (999) dalam Willems dan Aels (005) adalah gabungan FAST-LTS dan C-steps. Tahapan algoitma yang digunakan FAST LTS, C-steps dan FWLS yaitu : ) Menghitung estimasi paamete b o ) Menentukan n esidual ( ˆ ) i = y X b yang besesuaian dengan (b o ) kemudian menghitung sejumlah = ( n + p + ) / pengamatan dengan nilai 3) Menghitung h o ( i ) i= h o 4) Melakukan estimasi paamete b new dai h o pengamatan. 5) Menentukan n kuadat esidual ( ) i i o ˆ i i i new e (i) tekecil. = y X b yang besesuaian dengan (b new ) kemudian menghitung sejumlah h new pengamatan dengan nilai 6) Menghitung h new ( i ) i= e (i) tekecil. 7) Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang kecil dan konvegen. Dengan metode LTS, model hubungan antaa WRI Jan dan LP I dipeoleh h = 9 subset data dengan kuadat fungsi objektif tekecil. Kemudian melalui FWLS didapatkan hanya vaiabel intecept yang signifikan bepengauh, R Squae 8,9 % dan standad deviasi,38..5 Penggunaan LTS dalam masalah outlie Untuk menanggulangi pencilan pada data, yaitu dengan mengeluakan ataumembuang obsevasi ke-i pada data yang diduga meupakan pencilan. Kemudiandilakukan pengujian kembali untuk mendeteksi tedapat atau tidaknya pencilanpada data sampai tidak tedapat lagi pencilan pada data tesebut.meskipun pencilan identik dengan data yang tidak bagus, akan tetapi iameupakan bagian tepenting dai data, kaena
menyimpan infomasi tetentu. Untuk itu altenatif yang dapat diambil tehadap data yang tekontaminasipencilan adalah dengan menggunakan metode Least Timmed Squae (LTS) dalampenaksian model egesi.