BAB I PENDAHULUAN 1.1. Latar Belakang Model regresi yang baik memerlukan data yang baik pula. Suatu data dikatakan baik apabila data tersebut berada di sekitar garis regresi. Kenyataannya, terkadang terdapat data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data tersebut dikenal dengan istilah pencilan atau outlier. Outlier merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibanding data lainnya (Draper dan Smith,1992). Outlier tidak dapat dibuang atau dihapus begitu saja dari pengamatan. Menurut Draper dan Smith (1992), adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Outlier dapat diabaikan apabila setelah ditelusuri ternyata merupakan akibat dari kesalahan mencatat amatan yang bersangkutan atau kesalahan ketika menyiapkan peralatan. Salah satu metode untuk mengatasi outlier adalah regresi robust. Regresi robust merupakan metode regresi yang digunakan ketika distribusi dari residual tidak normal dan atau mengandung beberapa outlier yang berpengaruh pada model (Ryan, 1997). Regresi robust digunakan dengan tujuan untuk memperoleh model terbaik yang robust atau tahan terhadap kehadiran outlier. Pendekatan robust untuk regresi akan menghasilkan estimasi perameter yang handal. Metode regresi robust cocok digunakan pada sebagian besar data, jika data tidak mengandung pencilan maka metode robust memberikan hasil yang sama seperti metode klasik (Maronna, 2006). Estimasi robust S adalah salah satu bentuk estimasi yang digunakan pada data yang memuat outlier. Estimator S adalah 1
2 robust yang memiliki breakdown point tinggi dan lebih efisien dibandingkan estimator regresi robust lainnya yang sering digunakan. Regresi bertujuan mencari suatu hubungan antara variabel bebas (independen) dengan variabel tak bebas (dependen). Berbicara mengenai regresi secara umum, berarti membicarakan proses bagaimana kita menghubungkan antara variabel eksplanatori (independen) dengan variabel respon (dependen) dari suatu himpunan data (data set) dengan harapan diperoleh suatu model yang sesuai untuk bentuk hubungan variabel-variabel tersebut. Hubungan fungsional kedua variabel tersebut dijelaskan dalam sebuah kurva yang dinamakan kurva regresi. Pendekatan yang digunakan dalam menentukan kurva regresi ada dua jenis, yaitu pendekatan statistika parametrik dan pendekatan statistika nonparametrik. (Hardle, 1990:4). Jika asumsi pada kurva regresi dengan pendekatan statistika parametrik tidak dipenuhi, maka kurva regresi diduga menggunakan pendekatan statistika nonparametrik. Metode ini tidak bergantung pada asumsi-asumsi tertentu, seperti kenormalan suatu data, variansi yang sama dan error yang tidak berkorelasi. Pendekatan Nonparametrik digunakan ketika informasi mengenai kurva regresi dari sekumpulan data sangat sedikit atau bahkan tidak diketahui. Pendekatan nonparametrik merupakan metode pendugaan model yang dilakukan berdasarkan pendekatan yang tidak terikat asumsi bentuk kurva regresi tertentu dimana kurva regresi hanya diasumsikan smooth (mulus), sehingga regresi nonparametrik memiliki fleksibilitas yang tinggi karena data diharapkan mencari sendiri bentuk estimasi kurva regresinya tanpa dipengaruhi oleh faktor subyektifitas peneliti (Eubank, 1988). Salah satu model regresi dengan pendekatan nonparametrik yang sangat sering digunakan untuk melakukan estimasi terhadap kurva regresi adalah regresi spline Spline mempunyai keunggulan dalam mengatasi pola data yang
3 menunjukkan naik atau turun yang tajam dengan bantuan titik-titik knot, serta kurva yang dihasilkan relatif mulus. Titik knots merupakan perpaduan bersama yang menunjukkan pola perilaku fungsi spline pada selang yang berbeda (Hardle, 1990). Spline merupakan salah satu model yang mempunyai interpretasi statistik dan interpretasi visual yang baik. Selain itu, spline juga mampu menangani karakter data dan fungsi yang bersifat mulus dan memiliki kemampuan yang sangat kecil untuk menangani data yang perilakunya berubah pada sub interval tertentu (Cox dan O Sullivan, 1996). Karena kemudahan dan keefektifan dalam menangani masalah pemulusan nonparametrik, regresi spline terpenalti belakangan menjadi pendekatan popular untuk pemulusan data noisy. Tujuan dari skripsi ini adalah mengusulkan prosedur yang cepat dan efektif untuk menjalankan pemulusan robust menggunakan spline terpenalti. Dalam regresi spline, langkah awal yang dilakukan adalah menentukan knot dengan nilai Generalized Cross Validation (GCV) yang minimum. Selain melihat GCV yang minimum, kriteria lain yang dapat digunakan adalah dengan melihat nilai Mean Square Error (MSE). (Lee, 2002) Knot dapat diartikan sebagai suatu titik fokus dalam fungsi spline sehingga kurva yang dibentuk dapat terbagi pada titik tersebut. Dalam fungsi spline, memungkinkan digunakan berbagai macam orde, sehingga dapat dibentuk regresi spline linear, regresi spline kuadratik, dan seterusnya. Orde dalam fungsi spline diartikan sebagai pangkat terbesar dalam fungsi spline. Spline mempunyai kelemahan pada saat orde spline tinggi. Ketika knot yang banyak dan knot yang terlalu dekat, hal itu akan membentuk matriks dalam perhitungan yang hampir singular, sehingga persamaan tidak dapat diselesaikan. Dalam skripsi ini akan digunakan contoh simulasi data dan penggunaan data asli yaitu data mengenai pengamatan lalu lintas internet, kemudian akan dicari model regresi spline S-terpenalti yang robust menggunakan knot dan orde dengan melihat nilai RGCV yang minimum menggunakan software R. Oleh karena itu skripsi ini diberi judul Estimasi-S Robust untuk Regresi Spline Terpenalti
4 1.2. Tujuan Tujuan yang ingin dicapai dalam penulisan skripsi ini antara lain: 1. Mempelajari tentang Regresi Spline Terpenalti 2. Memahami metode robust terutama estimasi-s 3. Mengaplikasikan dan membandingkan estimasi-s robust terpenalti dengan metode kuadrat terkecil terpenalti pada regresi spline dengan menggunakan data simulasi dan data riil. 4. Mengaplikasikan Regularized GCV dalam menentukan parameter pemulus regresi spline S-terpenalti 1.3. Batasan Masalah Pada penulisan skripsi ini, Pembahasan teori dan analisis data dibatasi mengenai pemodelan estimasi Regresi Spline Terpenalti dengan menggunakan metode estimasi-s robust, serta penggunaan Regularized GCV untuk memilih parameter pemulus, dan mendapatkan model regresi spline terbaik berdasarkan nilai GCV yang minimum. Studi kasus digunakan dua jenis data yaitu data simulasi dan data asli yaitu mengenai data pengamatan lalu lintas internet. Dan kemudian melakukan perbandingan dengan Estimasi Kuadrat Terkecil Terpenalti menggunakan program pengolahan data R 2.11.1. 1.4. Tinjauan Pustaka Dalam penulisan skripsi ini, acuan yang digunakan adalah jurnal yang berjudul S-Estimation for Penalized Regression Splines yang ditulis oleh K. Tharmaratnam, G. Claskens dan C. Croux serta M. Salibian-Barrera. Dalam jurnal ini didefinisikan estimator-s untuk model regresi spline terpenalti, dengan mengganti metode estimasi kuadrat terkecil dengan metode estimasi-s yang bersesuaian dengan tetap menjaga bentuk dari spline dan parameter penaltinya.
5 Sehingga diperoleh metode estimasi yang robust dan sekaligus cukup fleksibel untuk menangkap trend non-linear dalam data. Penulis juga mengacu pada skripsi dari Helmi Hakim (2013), yang berjudul Regresi Robust dengan Estimasi S. Pada skripsi tersebut dijelaskan bahwa metedo estimasi S mampu meminimalkan estimasi robust dari skala residualnya. Metode ini mempunyai breakdown point yang tinggi (sebesar 50%). Skripsi lain dengan judul analisis Bayesian untuk regresi spline terpenalti oleh Rika Fitriani (2013), menjadi acuan penulis lainnya. Dalam skripsi ini, regresi spline terpenalti dengan metode Bayesian menghasilkan estimasi yang lebih akurat dibandingkan regresi spline terpenalti dengan metode kuadrat terkecil dan regresi linear sederhana. 1.5. Metode Penulisan Metode yang dipakai pada penulisan skripsi ini adalah studi literature berupa buku, jurnal, ebook yang didapat dari perpustakaan maupun internet. Untuk studi kasus, data yang dipakai penulis diperoleh dari data simulasi dan data riil yaitu data pengamatan lalu lintas internet. Pengolahan data dengan menggunakan software SPSS 16.0, Microsoft Excel dan R versi 2.11.1 1.6. Sistematika Penulisan Penulisan skripsi ini menggunakan sistematika sebagai berikut. BAB I PENDAHULUAN Bab ini membahas latar belakang dan permasalahan, tujuan, pembatasan masalah, tinjauan pustaka, metode penulisan dan sistematika penulisan mengenai metode robust estimasi S untuk regresi spline terpenalti. BAB II DASAR TEORI Bab ini membahas landasan teori dari metode estimasi S robust pada model Regresi Spline Terpenalti, diantaranya Pencilan atau Outlier, Matriks, Ruang Vektor dan Vektor, Kalkulus Matriks, Variabel Random dan Ekspektasi,
6 Regresi Nonparametrik, Estimasi Kuadrat Terkecil (OLS estimator), Robust, Regresi Robust, Model Regresi Spline, pemilihan model spline terbaik BAB III ESTIMASI S ROBUST UNTUK REGRESI SPLINE TERPENALTI Bab ini membahas mengenai pengertian robust estimasi S, pengertian Regresi Spline Terpenalti, metode kuadrat terkecil terpenalti, penerapan estimasi S pada model Regresi Spline Terpenalti, dan pemilihan parameter penghalus dengan Regularized GCV. BAB IV STUDI KASUS Bab ini membahas aplikasi regresi spline dengan metode kuadrat terkecil terpenalti dan metode estimasi-s terpenalti dengan menggunakan simulasi data dan data riil yaitu data pengamatan lalu lintas internet. BAB V PENUTUP Bab ini membahas kesimpulan dan saran yang diperoleh dari pembahasan teori dan studi kasus mengenai metode estimasi S robust pada model Regresi Spline Terpenalti.