BAB II LANDASAN TEORI Pada bagian pertama bab ini diberikan tinjauan pustaka yang berisi penelitian sebelumnya yang mendasari penelitian ini Pada bagian kedua bab ini diberikan teori penunjang yang berisi definisi-definisi sebagai dasar pengertian untuk memperoleh pembahasaan selanjutnya Pada bagian ketiga dari bab ini disusun kerangka pemikiran yang menjelaskan alur pemikiran penulisan skripsi 21 Tinjauan Pustaka Regresi nonparametrik merupakan regresi yang diterapkan pada data dengan kurva fungsi regresinya tidak memiliki pola tertentu Hardle [5] menyatakan bahwa pendekatan nonparametrik untuk mengestimasi kurva regresi mempunyai tujuan, yaitu memberikan metode yang baik untuk mengetahui hubungan di antara variabel prediktor dengan variabel respon dan memberikan model dari suatu pengamatan sehingga menghasilkan perkiraan yang tepat Dalam regresi nonparametrik terdapat metode yang digunakan untuk mengetahui pola dari kurva regresi yang tidak diketahui dan tidak terikat asumsi distribusi tertentu Salah satu metode yang memiliki interpretasi statistik dan visual yang baik adalah spline Eubank [3] menyatakan bahwa penggunaan regresi spline menjadikan data mudah terestimasi Selain itu, Wahba [13] dan Budiantara [1] pernah membahas penghalusan spline dalam regresi nonparametrik Elfrida dan Budiantara [2] menggunakan regresi nonparametrik spline untuk pemodelan laju pertumbuhan ekonomi di Jawa Timur 5
22 Teori-teori Penunjang Pada bagian ini dijelaskan definisi dan teori yang menunjang dalam mencapai tujuan penelitian Selanjutnya diberikan gambaran tentang regresi, regresi nonparametrik, regresi nonparametrik spline, pemilihan titik knot, pendugaan parameter, pengujian parameter, pengujian asumsi sisaan, dan koefisien determinasi 221 Regresi Regresi merupakan suatu metode statistika yang digunakan untuk mengetahui hubungan antara variabel prediktor dan variabel respon Hubungan linier antara variabel prediktor dan variabel respon dapat dinyatakan sebagai: y = m(x i ) + ε i, i = 1, 2,, n dengan ε i adalah sisaan yang diasumsikan independen dengan mean nol dan variansi σ 2, serta m(x i ) adalah fungsi regresi atau kurva regresi Pendekatan yang digunakan untuk mengestimasi fungsi regresi ada dua jenis yaitu pendekatan model regresi parametrik dan regresi nonparametrik Pendekatan regresi parametrik digunakan apabila fungsi m(x) telah diketahui dari informasi sebelumnya atau berdasarkan teori Sedangkan pendekatan model regresi nonparametrik dilakukan berdasarkan pendekatan yang tidak terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan fleksibilitas besar dalam bentuk yang mungkin dari kurva regresi atau fungsi regresi m(x) 222 Regresi Nonparametrik Eubank [3] menyatakan bahwa regresi nonparametrik merupakan pendekatan untuk pola data yang tidak diketahui bentuk kurva regresinya atau tidak terdapat informasi distribusi mengenai bentuk pola data Hardle [5] menyebutkan bahwa pendekatan nonparametrik untuk mengestimasi kurva regresi mempunyai tujuan diantaranya memberikan metode yang baik untuk mengetahui hubungan antara dua variabel dan memberikan model dari suatu pengamatan sehingga 6
menghasilkan prediksi yang tepat Eubank [3] menyatakan bahwa model regresi nonparametrik secara umum adalah y i = f(x i ) + ε i, i = 1, 2,, n (21) dengan y i adalah variabel respon, f(x i ) adalah nilai dari fungsi f yang tidak diketahui pada titik x 1, x 2,, x n, x i adalah variabel prediktor, i = 1, 2,, n, ε i adalah sisaan yang diasumsikan berdistribusi normal independen dengan mean nol dan variansi σ 2 Estimasi fungsi regresi nonparametrik dilakukan berdasarkan data pengamatan dengan menggunakan beberapa metode Metode dalam regresi nonparametrik, yaitu kernel, k-nearest neighbor, deret ortogonal, dan spline (Hardle [5]) 223 Regresi Nonparametrik Spline Metode penghalusan spline merupakan metode yang paling banyak digunakan pada regresi nonparametrik (Lee [7]) Spline merupakan bentuk kurva yang terpotong-potong sehingga mampu mengatasi perubahan pola data pada sub interval tertentu Pada metode spline digunakan bantuan titik-titik knot Titik knot merupakan titik dimana terjadi pola perubahan perilaku dari suatu fungsi pada selang yang berbeda (Hardle [5]) Eubank [3] menyatakan bahwa dengan regresi nonparametrik spline estimasi parameter model dapat diperoleh dengan baik Selain itu, spline juga memiliki kemampuan yang baik untuk menangani data yang perilakunya berubah-ubah pada sub-sub interval tertentu Bentuk umum regresi nonparametrik spline berorde m dinyatakan sebagai m r y = β p x p i + β l+m (x i K l ) m + + ε i (22) p=0 l=1 dengan (x i K l ) m + = { (x i K l ) m, x i K l 0, x i <K l, β p adalah parameter model, p = 0,, m, β l+m adalah parameter pada variabel prediktor dengan titik knot ke-l, l = 1,, r pada spline berorde m, 7
m = 1, 2, 3, K l adalah titik-titik knot, l = 1, 2,, r, x i adalah variabel prediktor, i = 1, 2,, n, ε i adalah sisaan yang diasumsikan berdistribusi normal mean nol dan variansi σ 2 Jika data pengamatan sejumlah n maka Persamaan (22) dapat dinyatakan dalam bentuk matriks sebagai y 1 y 2 y 3 y 4 y n 1 x 1 1 x m 1 (x 1 k 1 ) m + (x 1 k l ) m + 1 x 1 2 x m 2 (x 2 k 1 ) m + (x 2 k l ) m + = 1 x 1 3 x m 3 (x 3 k 1 ) m + (x 3 k l ) m + 1 x 1 n x m n (x n k 1 ) m + (x n k l ) m + Matriks dalam Persamaan (23) dapat disederhanakan menjadi β 0 β m β m+l β (m+r) + ε 1 ε 2 ε 3 ε 4 ε n (23) Y = X K β + ε (24) dengan matriks Y berukuran n 1, matriks X berukuran n (1 + m + mr), matriks β berukuran (1 + m + mr) 1, dan matriks ε berukuran n 1 23 Estimasi Parameter Eubank [3] menyatakan bahwa estimasi parameter pada regresi nonparametrik spline menggunakan metode kuadrat terkecil (MKT), yaitu dengan meminimumkan jumlah kuadrat sisaan Langkah awal estimasi yaitu dibentuk persamaan sisaan dari Persamaan (24) ε = Y X K β (25) ε ε = (y X K β) (y X K β) (26) = y y y X K β (y X K β) + β X KX K β Karena y X K β merupakan suatu skalar, maka identik dengan transpose-nya yaitu (y X K β) sehingga dapat ditulis y X K β = (y X K β) dan Persamaan (26) 8
menjadi: ε ε = y y 2(y X K β) + β X KX K β (27) = y y 2β X Ky + β X KX K β Untuk mendapatkan estimator dari β yang meminimumkan jumlah kuadrat sisaan maka ε ε diturunkan terhadap β (ε ε) = (y y 2β X K y + β X K X Kβ) β β = (y y) 2 (β X K y) β β = 2X Ky + 2X KX K β + (β X K X Kβ) β (ε ε) β = 0 maka 2X Ky + 2X KX K β = 0 X KX K β = X Ky (X KX K ) 1 X KX K β = (X KX K ) 1 X Ky Iβ = (X KX K ) 1 X Ky β = (X KX K ) 1 X Ky Untuk menunjukkan bahwa ε ε minimum, maka dicari turunan kedua dari ε ε dan nilainya harus positif (ε ε) 2 β = β ( (y y) 2β X K y + β X K X Kβ β ) = β ( 2X Ky + 2X KX K β) = 2X KX K Matriks 2X K X K merupakan matriks definit positif sehingga determinannya > 0 Terbukti bahwa ˆβ = (X K X K) 1 X Ky meminimumkan jumlah kuadrat sisaan 24 Titik Knot Optimal Estimator spline terbaik diperoleh dengan menggunakan titik knot optimal Titik knot merupakan titik yang terdapat pada perubahan pola perilaku 9
fungsi Wahba [13] menjelaskan bahwa metode yang digunakan untuk memilih titik knot optimal dengan metode generalized cross validation (GCV ) Rumus GCV dinyatakan sebagai GCV (K 1, K 2,, K l ) = MSE(K 1, K 2,, K l ) ( 1 n tr[i A(K 1, K 2,, K l )]) 2 (28) dengan K 1, K 2,, K l merupakan titik knot dan matriks A(K 1, K 2,, K l ) diperoleh dari rumus X K (XK T X K) 1 XK T dan mean squared error (MSE) merupakan rata-rata sisaan yang dikuadratkan Rumus MSE diberikan sebagai MSE(K 1, K 2,, K l ) = 1 n n (y i ŷ i )) 2 i=1 25 Pengujian Parameter Pengujian parameter dilakukan untuk menentukan variabel prediktor yang memiliki pengaruh terhadap variabel respon Mengacu pada Sembiring [11], terdapat dua tahap pengujian parameter 1 Uji Serentak Pengujian ini bertujuan untuk mengetahui apakah parameter model regresi telah signifikan atau tidak Hipotesis untuk pengujian parameter secara serentak adalah H 0 : β 1 = β 2 = = β p = 0 H 1 : Minimal ada satu β k 0, k = 1, 2,, p Statistik uji yang digunakan dalam pengujian ini adalah uji F yang dapat dinyatakan sebagai F hitung = i=1 (ŷ i ȳ) 2 /k (y i ŷ i ) 2 /(n k 1) (29) Daerah penolakan yaitu menolak H 0 jika F hitung lebih besar daripada - F tabel (F (α;(k,n k 1)) ) 2 Uji Individu Uji individu dilakukan setelah uji serentak yang bertujuan untuk mengetahui 10
masing-masing parameter signifikan atau tidak Uji hipotesis untuk pengujian parameter secara individu dapat dinyatakan sebagai H 0 : β k = 0 H 1 : β k 0, k = 1, 2,, p Statistik uji yang digunakan dalam pengujian individu adalah uji t t hitung = ˆβ k se( ˆβ k ) (210) dengan se( ˆβ k ) = n 1 (211) (x x i ) 2 Daerah penolakan yaitu H 0 ditolak jika t hitung lebih besar daripada t tabel (t α 2,n k ) 26 Uji Asumsi Sisaan Pengujian asumsi sisaan berkaitan dengan kebaikan model regresi Menurut Budiantara [1] model regresi yang melanggar asumsi sisaan tidak disarankan dipakai untuk menggambarkan pola hubungan antara variabel respon dan variabel prediktor Asumsi sisaan yang digunakan, yaitu heteroskedastisitas, autokorelasi, dan kenormalan 1 Uji Heteroskedastisitas Pengujian asumsi heteroskedastisitas pada sisaan digunakan untuk melihat homogenitas variansi sisaan Untuk mendeteksi adanya heteroskedastisitas digunakan uji Glejser Sari [10] menjelaskan bahwa hipotesis yang digunakan adalah H 0 : sisaan tidak terdapat heteroskedastisitas H 1 : sisaan terdapat heteroskedastisitas Pada uji heteroskedastisitas statistik uji yang digunakan adalah F hitung = i=1 ( ê i ē ) 2 /(k 1) i=1 ( e i ê i ) 2 /(n k) (212) Daerah penolakan yaitu H 0 ditolak jika F hitung > F tabel (F α;(k 1,n k) ), dengan k adalah banyaknya parameter 11
2 Uji Autokorelasi Pengujian asumsi ini digunakan untuk mengetahui apakah terdapat korelasi antar sisaan Mengacu pada Sembiring [11], uji yang digunakan adalah uji Durbin Watson dengan hipotesisnya adalah H 0 : sisaan independen H 1 : sisaan tidak independen Statistik uji yang digunakan dapat dinyatakan sebagai i=2 d hitung = (e i e i 1 ) 2 n i=1 e2 i (213) Daerah penolakan yaitu H 0 ditolak jika d hitung d U α 2, dengan d U adalah batas atas pada tabel DW 3 Uji Kenormalan Pengujian ini dilakukan untuk mengetahui apakah sisaan berdistribusi normal atau tidak Uji ini dilakukan dengan menggunakan uji Lilliefors (Gujarati [4]) Hipotesis yang digunakan untuk uji kenormalan dari sisaan adalah H 0 : sisaan berdistribusi normal H 1 : sisaan tidak berdistribusi normal Statistik uji untuk mengetahui kenormalan dari sisaan adalah T = maks F (z i ) S(z i ) (214) dengan F (z i ) merupakan peluang kumulatif normal dan S(z i ) merupakan proporsi cacah Z z i terhadap seluruh cacah z i Daerah kritisnya yaitu t t > t α,n dengan n adalah ukuran sampel sehingga keputusannya akan menolak H 0 jika t terletak di daerah kritis 27 Koefisien Determinasi (R 2 ) Koefisien determinasi bertujuan untuk mengetahui dan mengukur proporsi keragaman total dari nilai observasi Y di sekitar rataannya yang diterangkan oleh garis regresinya Koefisien determinasi dirumuskan sebagai R 2 i=1 = (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 12
Sembiring [11] menjelaskan bahwa nilai R 2 berada di antara 0 dan 1 Apabila mendekati 1 maka model regresi nonparametrik spline yang terbentuk baik, tetapi apabila mendekati 0 maka model yang terbentuk kurang sesuai dan kurang baik untuk digunakan 28 Kerangka Pemikiran Berdasarkan tinjauan pustaka dapat disusun kerangka pemikiran sebagai berikut Data produksi jagung di Jawa Tengah yang diperoleh dari Dinas Pertanian, Tanaman Pangan, dan Holtikultura Jawa Tengah memiliki pola yang fluktuatif Hal ini disebabkan karena adanya pengaruh dari berbagai faktor Faktor-faktor yang mempengaruhi produksi jagung sebagian tidak memiliki pola tertentu, sehingga untuk memprediksi didekati dengan menggunakan metode nonparametrik Salah satu metode dalam regresi nonparametrik adalah estimator spline Penelitian ini menggunakan regresi nonparametrik spline yang memiliki sifat fleksibel sehingga dapat memodelkan produksi jagung dan mengetahui faktor-faktor signifikan yang mempengaruhi produksi jagung 13