BAB I PENDAHULUAN 1.1 Latar Belakang Analisis regresi merupakan salah satu teknik analisis statistika yang paling banyak digunakan. Pada kejadian sehari hari terdapat hubungan sebab akibat yang muncul, baik yang terjadi pada bidang sains, sosial, industri maupun bisnis. Kejadian kejadian tersebut dapat dimodelkan dalam bentuk fungsi regresi. Regresi bertujuan mencari hubungan antara variabel bebas (independen) dengan variabel tak bebas (dependen). Berbicara mengenai regresi secara umum, berarti membicarakan proses bagaimana cara untuk menghubungkan antara variabel eksplanatori (independen) dengan variabel respon (dependen) dari suatu himpunan data (data set) dengan harapan diperoleh suatu model yang sesuai untuk bentuk hubungan variabel variabel tersebut. Hubungan fungsional kedua variabel tersebut dijelaskan dalam sebuah kurva yang dinamakan kurva regresi. Suatu model regresi yang baik memerlukan data yang baik pula. Suatu data yang baik dikatakan baik jika data tersebut berada di sekitar garis regresi. Namun terkadang ada data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data tersebut dikenal dengan istilah pencilan atau outlier. Outlier merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibanding data lainnya (Draper dan Smith,1992). Outlier tidak dapat dibuang atau dihapus begitu saja dari pengamatan. Menurut Draper dan Smith (1992), adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalkan karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Outlier dapat diabaikan apabila setelah ditelusuri ternyata merupakan akibat dari kesalahan mencatat amatan yang bersangkutan atau kesalahan ketika menyiapkan peralatan. 1
Salah satu metode untuk mengatasi outlier adalah regresi robust. Regresi robust merupakan metode regresi yang digunakan ketika distribusi dari residual tidak normal dan atau mengandung beberapa outlier yang berpengaruh pada model (Ryan, 1997). Regresi robust digunakan dengan tujuan untuk memperoleh model terbaik yang robust atau tahan terhadap kehadiran outlier. Pendekatan robust untuk regresi akan menghasilkan estimasi perameter yang handal. Metode regresi robust cocok digunakan pada sebagian besar data, jika data tidak mengandung pencilan maka metode robust memberikan hasil yang sama seperti metode klasik (Maronna, 2006). Estimasi robust M adalah salah satu bentuk estimasi yang digunakan pada data yang memuat outlier. Estimasi M merupakan metode regresi robust yang sering digunakan dan dipandang dengan baik untuk mengestimasi parameter yang disebabkan oleh x outlier dan memiliki breakdown point 1/n. Pendekatan yang digunakan dalam menentukan kurva regresi ada dua jenis, yaitu pendekatan statistika parametrik dan pendekatan statistika nonparametrik. (Hardle, 1990:4). Jika asumsi pada kurva regresi dengan pendekatan statistika parametrik tidak dipenuhi, maka kurva regresi diduga menggunakan pendekatan statistika nonparametrik. Metode ini tidak bergantung pada asumsiasumsi tertentu, seperti kenormalan suatu data, variansi yang sama dan error yang tidak berkorelasi. Pendekatan Nonparametrik digunakan ketika informasi mengenai kurva regresi dari sekumpulan data sangat sedikit atau bahkan tidak diketahui. Pendekatan nonparametrik merupakan metode pendugaan model yang dilakukan berdasarkan pendekatan yang tidak terikat asumsi bentuk kurva regresi tertentu dimana kurva regresi hanya diasumsikan smooth (mulus), sehingga regresi nonparametrik memiliki fleksibilitas yang tinggi karena data diharapkan mencari sendiri bentuk estimasi kurva regresinya tanpa dipengaruhi oleh faktor subyektifitas peneliti (Eubank, 1988). Salah satu model regresi dengan pendekatan nonparametrik yang sangat sering digunakan untuk melakukan estimasi terhadap kurva regresi adalah regresi spline. Regresi spline adalah suatu pendekatan ke arah pengepasan data dengan tetap memperhitungkan kemulusan kurva. Spline merupakan model polynomial yang tersegmen. Sifat tersegmen inilah yang memberikan fleksibelitas yang lebih baik daripada model polynomial biasa. Sifat ini memungkinkan model 2
regresi spline menyesuaikan diri secara efektif terhadap karakteristik lokal dari data. Penggunaan spline difokuskan kepada adanya perilaku atau pola data, yang pada daerah tertentu, mempunyai karakteristik yang berbeda dengan daerah lain. Pencocokan data dapat dilakukan dengan melihat titik-titik pada data yang mengalami suatu perubahan ekstrim pada suatu daerah sehingga pola data pada masing-masing daerah mengalami perbedaan. Karena kemudahan dan keefektifan dalam menangani masalah pemulusan nonparametrik, regresi spline terpinalti belakangan menjadi pendekatan popular untuk pemulusan data noisy. Tujuan dari skripsi ini adalah mengusulkan prosedur yang cepat dan efektif untuk menjalankan pemulusan robust menggunakan spline terpinalti. Dalam regresi spline, langkah awal yang dilakukan adalah menentukan knot dengan nilai Generalized Cross Validation (GCV) yang minimum. Selain melihat GCV yang minimum, kriteria lain yang dapat digunakan adalah dengan melihat nilai Mean Squared Error (MSE) (Lee, 2002). Knot dapat diartikan sebagai suatu titik fokus dalam fungsi spline sehingga kurva yang dibentuk dapat terbagi pada titik tersebut. Dalam fungsi spline, memungkinkan digunakan berbagai macam orde, sehingga dapat dibentuk regresi spline linear, regresi spline kuadratik, dan seterusnya. Orde dalam fungsi spline diartikan sebagai pangkat terbesar dalam fungsi spline. Spline mempunyai kelemahan pada saat orde spline tinggi. Ketika knot yang banyak dan knot yang terlalu dekat, hal itu akan membentuk matriks dalam perhitungan yang hampir singular, sehingga persamaan tidak dapat diselesaikan. Dalam skripsi ini akan digunakan data mengenai pengamatan lalu lintas internet, kemudian akan dicari model regresi spline M-terpinalti yang robust menggunakan knot dan orde dengan melihat nilai RGCV yang minimum menggunakan software R. Oleh karena itu skripsi ini diberikan judul Estimasi-M Robust untuk Regresi Spline terpinalti. Untuk mengamati hubungan antara banyaknya paket yang datang tiap unit waktu pada lalu lintas internet diperlukan suatu metode atau model yang baik. Terdapat beberapa metode atau model yang dapat digunakan untuk mengestimasi banyaknya paket. Model-model yang sering digunakan yaitu model regresi klasik parametrik. Namun, dewasa ini sering dijumpai data yang tidak memenuhi asumsi. Jika data yang diperoleh tidak sesuai dengan asumsi model parametrik maka diperlukan solusi lain untuk menyelesaikan permasalahan tersebut. Oleh sebab itu akan 3
dicari model regresi spline M-terpinalti yang robust menggunakan knot dan orde dengan melihat nilai RGCV yang minimum menggunakan software R. 1.2 Tujuan Penelitian Penulisan skripsi yang berjudul Estimasi M Robust untuk Regresi Spline Terpinalti pada dasarnya bertujuan: a. sebagai langkah untuk penyusunan dan penulisan skripsi yang merupakan salah satu syarat untuk memperoleh gelar sarjana sains di Program Studi Statistika FMIPA UGM; b. memahami tentang regresi spline terpinalti; c. memperluas wawasan keilmuan terutama model estimasi robust M; d. mengaplikasikan dan membandingkan estimasi M robust terpinalti dengan metode kuadrat terkecil terpinalti pada regresi spline dengan menggunakan data simulasi dan data riil; e. mengaplikasikan analisis tersebut ke dalam suatu contoh kasus, yaitu menentukan parameter pemulus regresi spline M terpinalti dengan aplikasi Regularized GCV. 1.3 Batasan Masalah Pada penulisan skripsi ini, pembahasan teori dan analisis data dibatasi mengenai pemodelan estimasi Regresi Spline Terpinalti dengan menggunakan metode estimasi-m robust, serta penggunaan Regularized GCV untuk memilih parameter pemulus, dan mendapatkan model regresi spline terbaik berdasarkan nilai GCV minimum. Data yang digunakan merupakan data sekunder yang memuat satu prediktor karena estimasi yang dibahas dalam skripsi ini adalah estimasi untuk regresi univariat. Studi kasus yang digunakan ialah data mengenai pengamatan lalu lintas internet. Kemudian akan dilakukan perbandingan dengan Estimasi Kuadrat terkecil Terpinalti menggunakan program pengolahan data R 3.03. 1.4 Tinjauan Pustaka Dalam penulisan skripsi ini, acuan yang digunakan adalah jurnal yang berjudul Robust Penalized Regression Spline fitting with application yang ditulis oleh Thomas C. M. Lee dan Hee- Seok Oh, 2009. Dalam jurnal ini didefenisikan estimator-m untuk model regresi spline terpinalti, 4
dengan mengganti metode estimasi kuadrat terkecil dengan metode estimasi-m yang bersesuaian dengan tetap menjaga bentuk dari spline dan parameter penaltinya. Sehingga diperoleh metode estimasi yang robust dan sekaligus cukup fleksibel untuk menangkap trend non-linear dalam data. Penulis juga mengacu pada skripsi dari Pratika Henni, 2010, yang berjudul Estimasi-S Robust untuk regresi spline terpinalti. Pada skripsi ini dijelaskan bahwa metode estimasi S mampu meminimalkan estimasi robust dari skala residualnya. Metode ini mempunyai breakdown point yang tinggi (sebesar 50%). Skripsi lain dengan judul estimasi M dengan fungsi Huber dan Tukey Bisquare, untuk regresi robust oleh Ramesth Prahana, 2005, menjadi acuan penulis lainnya. Dalam skripsi ini, regresi spline dengan perbedaan nilai fungsi yang menghasilkan nilai estimasi yang bebebeda dan memberikan kesimpulan yang berbeda pula dengan menggunakan software Eviews. Skripsi lain dengan judul analisis Bayesian untuk regresi spline terpinalti oleh Fitriani Rika, 2013, menjadi acuan penulis lainnya. Dalam skripsi ini, regresi spline terpinalti dengan metode Bayesian menghasilkan estimasi yang lebih akurat dibandingkan regresi spline terpinalti dengan metode kuadrat terkecil dan regresi linear sederhana. 1.5 Metode Penulisan Metode yang dipakai pada penulisan skripsi ini adalah studi literature berupa buku, jurnal, ebook, yang didapat dari perpustakaan maupun internet. Untuk studi kasus, data yang dipakai penulis diperoleh dari data pengamatan lalu lintas internet. Pengolahan data dengan menggunakan software SPSS 16.0, Microsoft Excel dan R versi 3.03. 1.6 Metode Penulisan Skripsi ini disusun dengan sistematika penulisan sebagai berikut : BAB I BAB II PENDAHULUAN Bab ini berisikan latar belakang masalah, pembatasan masalah, tujuan penulisan, metode penulisan dan sistematika penulisan yang memberikan arahan terhadap penulisan skripsi ini. DASAR TEORI 5
Bab ini membahas teori-teori penunjang yang akan digunakan dalam pembahasan estimasi regresi spline menggunakan estimasi robust - M. Teori-teori penunjang tersebut diantaranya adalah Pencilan (outlier), Matriks, Ruang Vektor, Kalkulus Matriks, Variabel Random dan Ekspektasi, Regresi Nonparametrik, Estimasi Kuadrat Terkecil (OLS Estimator), Robust, Regresi Robust, Model Regresi Spline, Pemilihan Model Spline terbaik. BAB III BAB IV PEMBAHASAN Bab ini membahas mengenai pengertian robust estimasi M, Fungsi Huber, Pengertian regresi Spline Terpinalti, metode Kuadrat terkecil terpinalti, penerapan estimasi M pada model Regresi Spline Terpinalti. STUDI KASUS Bab ini membahas aplikasi regresi spline dengan metode kuadrat terkecil terpinalti dan metode estimasi-m terpinalti dengan menggunakan data pengamatan lalu lintas internet. BAB V KESIMPULAN DAN SARAN Bab ini berisikan kesimpulan dari hasil pembahasan bab-bab sebelumnya dan juga saran atas kekurangan atau kelebihan dari hasil yang telah dilakukan untuk digunakan sebagai bahan perbaikan penelitian selanjutnya. DAFTAR PUSTAKA LAMPIRAN 6