MODEL REGRESI NONPARAMETRIK SPLINE TRUNCATED PADA DATA INDEKS PEMBANGUNAN MANUSIA (IPM) DI INDONESIA Kornelius Ronald Demu, Dewi Retno Sari Saputro, Purnami Widyaningsih Program Studi Matematika FMIPA UNS Abstrak. Standar ukur pembangunan manusia di suatu negara ditetapkan dalam Indeks Pembangunan Manusia (IPM). Beberapa faktor diduga memengaruhi IPM di Indonesia, yaitu angka harapan hidup, PDRB, jumlah penduduk miskin, dan persentase penduduk buta huruf. Pengaruh faktor-faktor tersebut terhadap IPM di Indonesia dapat diketahui melalui model regresi. Apabila data IPM dan faktor-faktor tersebut diplotkan maka menunjukkan pola data yang bersifat tidak mengikuti pola tertentu, sehingga data IPM di Indonesia dapat diterapkan pada model regresi nonparametrik spline truncated. Model regresi nonparametrik spline truncated terbaik dipengaruhi oleh pemilihan orde dan titik knot optimal. Dalam artikel ini diterapkan model regresi nonparametrik spline truncated orde satu dengan 3,4, dan 5 titik knot pada data IPM di Indonesia. Berdasarkan penelitian, diperoleh kombinasi titik knot optimal 5-5-5-4 dengan angka harapan hidup dan persentase penduduk buta huruf yang memengaruhi IPM di Indonesia. Kata Kunci: IPM, model regresi nonparametrik, spline truncated, titik knot optimal. 1. Pendahuluan Indeks Pembangunan Manusia (IPM) merupakan standar ukur pembangunan manusia di suatu negara dengan mempertimbangkan aspek kesehatan, pendidikan, dan kelayakan hidup. Dalam beberapa tahun terakhir, IPM di Indonesia menunjukkan peningkatan. Berdasarkan data BPS [2], pada tahun 2013, IPM di Indonesia 68.1%, kemudian dalam kurun waktu dua tahun berturut-turut meningkat menjadi 68.4% dan 68.6%. Faktor-faktor yang diduga memengaruhi IPM yaitu, angka harapan hidup, produk domestik regional bruto (PDRB), jumlah penduduk miskin, dan persentase penduduk buta huruf (UNDP [9]). Pengaruh faktor-faktor tersebut terhadap IPM dapat diketahui melalui model regresi. Apabila data IPM dan faktor-faktor tersebut diplotkan, maka menunjukkan pola data yang bersifat tidak mengikuti pola tertentu. Pendekatan model regresi yang digunakan pada pola data tersebut adalah model regresi nonparametrik (Eubank [5]). Menurut Hardle [7], metode yang dapat digunakan pada model regresi nonparametrik yaitu spline. Metode spline memiliki fleksibilitas dalam mengatasi pola data yang bersifat tidak mengikuti pola tertentu. Spline merupakan potongan fungsi polinomial yang memiliki sifat tersegmen. Spline truncated merupakan modifikasi fungsi spline. Metode spline truncated dilakukan menggunakan titik knot (Budiantara [3]). Titik knot merupakan titik terjadinya perubahan perilaku pola data pada subinterval tertentu. Model regresi nonparametrik spline truncated terbaik 1
diperoleh berdasarkan titik knot optimal (Budiantara [3]). Titik knot optimal diperoleh berdasarkan nilai generalized cross validation (GCV) minimum (Wahba [10]). Menurut Lee [8], estimasi parameter model regresi nonparametrik spline truncated menggunakan metode kuadrat terkecil (MKT). Penelitian ini bertujuan untuk menerapkan model regresi nonparametrik spline truncated pada data IPM di Indonesia dan menentukan faktor yang memengaruhi IPM di Indonesia. 2. Model Regresi Nonparametrik Spline Truncated Model regresi nonparametrik spline truncated merupakan model regresi pendekatan nonparametrik dengan fungsi regresi yang berbentuk polinomial spline truncated (Budiantara [3]). Menurut Hardle [7], polinomial spline truncated berorde m dengan titik knot (K 1, K 2,..., K r ) didefinisikan sebagai dengan f(x i ) = β 0 + Σ s l=1σ m j=1β j x j li + Σr k=1β j+k (x li K kl ) m + { (x li K kl ) m (x li K kl ) m, x li K kl ; + = 0, x li < K kl. β 0 adalah intersep, β j adalah parameter model, j = 1, 2,..., m, β j+k adalah parameter model pada orde ke-j dan titik knot ke-k, k = 1, 2,..., r, r adalah banyaknya titik knot, K kl adalah titik knot ke-k pada variabel prediktor ke-l, l = 1, 2,..., s, dan x li adalah nilai variabel prediktor ke-l pada pengamatan ke-i, i = 1, 2,..., n. 3. Pemilihan Titik Knot Optimal Model regresi nonparametrik spline truncated terbaik diperoleh berdasarkan titik knot optimal. Menurut Wahba [10], titik knot optimal diperoleh berdasarkan nilai GCV minimum. Rumus GCV dituliskan sebagai GCV (K 1, K 2,..., K r ) = MSE(K 1, K 2,..., K r ) (n 1 trace[i A(K 1, K 2,..., K r )]) 2 dengan MSE(K 1, K 2,..., K r ) = n 1 Σ n i=1(y i f(x i )) 2 dan A(K 1, K 2,..., K r ) merupakan matriks yang diperoleh dari rumus X K (X K X K) 1 X K. 4. Metode Penelitian 4.1. Data Penelitian. Penelitian ini merupakan penelitian terapan yaitu menerapkan data IPM untuk 34 provinsi di Indonesia menggunakan model regresi nonparametrik spline truncated. Data yang digunakan adalah data sekunder dari BPS [2] meliputi IPM masing-masing provinsi di Indonesia pada tahun 2015 (Y ), angka 2 2017
harapan hidup menurut provinsi (X 1 ), PDRB menurut pengeluaran tahunan provinsi (X 2 ), jumlah penduduk miskin menurut provinsi (X 3 ), dan persentase penduduk buta huruf menurut provinsi (X 4 ). 4.2. Langkah Penelitian. Langkah-langkah yang dilakukan pada penelitian ini dimulai dari dibentuknya pola hubungan antara variabel respon dan masing-masing variabel prediktor melalui scatter plot data. Kemudian ditentukan titik knot optimal pada masing-masing variabel prediktor. Selanjutnya ditentukan model regresi nonparametrik spline truncated terbaik berdasarkan titik knot optimal. Setelah itu dilakukan estimasi parameter model dengan MKT. Tahapan terakhir penelitian ini adalah dilakukannya uji signifikansi parameter, uji asumsi sisaan dan ditentukan koefisien determinasi (R 2 ) pada model regresi nonparametrik spline truncated terbaik. 5. Hasil dan Pembahasan 5.1. Pola Hubungan Variabel Respon dan Variabel Prediktor. Pemilihan model regresi pendekatan nonparametrik dalam memodelkan data IPM di Indonesia disebabkan oleh pola hubungan Y dengan masing-masing X 1,X 2,X 3, dan X 4 bersifat tidak mengikuti pola tertentu. Dua pola hubungan Y dengan masing-masing X 1 dan X 2 ditunjukkan pada Gambar 1(a) dan 1(b). Gambar 1. Dua pola hubungan (a) Y dan X 1, (b)y dan X 2 Berdasarkan Gambar 1(a) dan 1(b), nampak bahwa dua pola hubungan Y dengan masing-masing X 1 dan X 2 bersifat tidak mengikuti pola tertentu. Sama halnya dengan pola hubungan Y dengan masing-masing X 3 dan X 4, sehingga pendekatan model regresi yang digunakan adalah model regresi nonparametrik. Spline truncated merupakan metode dalam model regresi nonparametrik yang baik digunakan apabila pola hubungan Y dan X bersifat tidak mengikuti pola tertentu (Eubank [5]). 3 2017
5.2. Model Regresi Nonparametrik Spline Truncated. Titik knot optimal sebagai indikator model regresi nonparametrik spline truncated terbaik diperoleh melalui nilai GCV minimum. Nilai GCV minimum dipengaruhi oleh pemilihan orde (m) dan banyaknya titik knot (r). Berdasarkan penelitian, dipilih orde satu. Banyaknya titik knot yang digunakan yaitu 3, 4, dan 5 titik knot. Titik knot yang dipilih pada masing-masing variabel prediktor dimulai dari 3 karena pemilihan banyaknya titik knot < 3 bersifat tidak mewakili keseluruhan data. Sedangkan untuk pemilihan banyaknya titik knot > 5 akan menghasilkan nilai GCV yang tidak minimum. Setelah dipilih orde dan banyaknya titik knot, selanjutnya dilakukan perhitungan nilai GCV. Nilai GCV minimum berdasarkan banyaknya titik knot yang digunakan pada masing-masing variabel prediktor ditunjukkan pada Tabel 1. Tabel 1. Nilai GCV minimum berdasarkan banyaknya titik knot yang digunakan No. r(x 1 )-r(x 2 )-r(x 3 )-r(x 4 ) GCV minimum 1 3-3 - 3-3 8.3966 2 4-4 - 4-4 9.3048 3 5-5 - 5-5 9.9343 4 5-3-4-5, 5-5-5-4, etc. 7.6307 Berdasarkan Tabel 1, nilai GCV minimum sebesar 7.6307 diperoleh dari kombinasi 5-5-5-4 titik knot yang merupakan titik knot optimal. Banyaknya titik knot optimal pada variabel X 1, X 2, dan X 3 sebanyak 5 titik knot, sedangkan banyaknya titik knot optimal pada variabel X 4 sebanyak 4 titik knot. Setelah diperoleh titik knot optimal pada masing-masing variabel prediktor, dilakukan estimasi 24 parameter model dengan MKT. Hasil estimasi parameter model regresi nonparametrik spline truncated dengan titik knot optimal ditunjukkan pada Tabel 2. Tabel 2. Hasil estimasi parameter model Parameter Estimasi Parameter Estimasi Parameter Estimasi ˆβ 0 150.029 ˆβ8 2.17312 10 4 β ˆ 16 2.05421 10 2 ˆβ 1 3.45006 ˆβ9 1.73979 10 4 β ˆ 17 0.003598 ˆβ 2 18.1289 β10 ˆ 8.90236 10 5 β ˆ 18 2.29005 10 2 ˆβ 3 30.1189 β11 ˆ 8.86224 10 5 β ˆ 19 19.6633 ˆβ 4 20.0487 ˆ β12 4.30924 10 4 ˆ β 20 20.2997 ˆβ 5 5.73218 ˆ β13 8.08703 10 3 ˆ β 21 0.58512 ˆβ 6 18.646 ˆ β14 3.57964 10 2 ˆ β 22 4.7376 ˆβ 7 8.68926 10 5 ˆ β 15 3.65047 10 2 ˆ β 23 5.54316 4 2017
Berdasarkan hasil estimasi parameter model pada Tabel 2, diperoleh model regresi nonparametrik spline berikut. ŷ = 150.029 + 3.45006x 1 18.1289(x 1 66.7) + 30.1189(x 1 67.4) 20.0487(x 1 68.4) + 5.73218(x 1 69.5) 18.646(x 1 72.5) 8.6892610 10 5 x 2 + 2.17312 10 4 (x 2 80461.57) 1.73979 10 4 (x 2 141270.88) + 8.90236 10 5 (x 2 252022.86) 8.86224 10 5 (x 2 450936.6) + 4.30924 10 4 (x 2 1354102.11) + 8.08703 10 3 x 3 3.57964 10 2 (x 3 245.54) + 3.65047 10 2 (x 3 495.56) 2.05421 10 2 (x 3 893.21) + 0.003598(x 3 1005.68) + 2.29005 10 2 (x 3 1608.14) 19.6633x 4 + 20.2997(x 4 0.55) 0.58512(x 4 3.55) + 4.7376(x 4 7.79) 5.54316(x 4 9.4) +. Model regresi nonparametrik spline yang terbentuk dapat dituliskan kembali dalam bentuk model regresi nonparametrik spline truncated. Penulisan model regresi nonparametrik spline truncated dilakukan berdasarkan interval titik knot optimal pada masing-masing variabel prediktor. Berikut dituliskan model regresi nonparametrik spline truncated berdasarkan interval titik knot optimal pada X 1. Adapun titik knot optimal pada variabel X 1 yaitu 66.7, 67.4, 68.4, 69.5, dan 72.5. 150.029 + 3.45006x 1, x 1 < 66.7; ŷ = 1059.168 14.67884x 1, 66.7 x 1 < 67.4; 970.84 + 15.44x 1, 67.4 x 1 < 68.4; 400.49 4.6087x 1, 68.4 x 1 < 69.5; 2.1 + 1.12348x 1, 69.5 x 1 < 72.5; 1359.35 17.5223x 1, x 1 72.5. Model regresi nonparametrik spline truncated berdasarkan interval titik knot optimal pada X 2, X 3, dan X 4 dituliskan dengan cara yang sama. Titik knot optimal pada variabel X 2 yaitu 80461.57, 141270.88, 252022.86, 450936.6, dan 1354102.11. Titik knot optimal pada variabel X 3 yaitu 245.54, 495.56, 893.21, 1005.68, dan 1608.14. Titik knot optimal pada variabel X 4 yaitu 0.55, 3.55, 7.79, dan 9.4. 5.3. Uji Signifikansi Parameter. Setelah didapatkan model regresi nonparametrik spline truncated berdasarkan interval titik knot optimal pada masing-masing X 1, X 2, X 3, dan X 4, selanjutnya dilakukan uji signifikansi parameter. Uji signifikansi parameter bertujuan untuk mengetahui variabel prediktor yang berpengaruh signifikan terhadap variabel respon (Gujarati [6]). Uji signifikansi parameter terdiri atas uji keseluruhan dan uji parsial. 5 2017
5.3.1. Uji Keseluruhan. Hipotesis yang digunakan adalah H 0 : β 1 = β 2 = β 3 =... = β 23 = 0 (seluruh parameter model β tidak berpengaruh signifikan terhadap model regresi) dan H 1 : paling tidak terdapat satu β h 0, h = 1, 2, 3,..., 23 (paling tidak terdapat satu parameter model β h yang signifikan terhadap model regresi). Taraf signifikansi α = 0.05. Kesimpulan H 0 ditolak jika DK = {F hitung F hitung > F (α,h,n h 1) = F 0.05,23,10 = 2.75}. Statistik uji F hitung = 8.6640. Karena 8.6640 DK, H 0 ditolak yang berarti paling tidak terdapat satu parameter model β h yang signifikan terhadap model regresi. Kemudian dilakukan uji parsial untuk mengetahui parameter model yang signifikan terhadap model regresi secara individu. 5.3.2. Uji Parsial. Hipotesis yang digunakan adalah H 0 : β h = 0, h = 1, 2,..., 23 (parameter model β h tidak signifikan terhadap model regresi) dan H 1 : β h 0, h = 1, 2,..., 23 (parameter model β h signifikan terhadap model regresi). Taraf signifikansi α = 0.05. Kesimpulan H 0 ditolak jika DK = {t hitung t hitung > t (α/2,n h) = t 0.025,11 = 2.20}. Berdasarkan nilai t hitung, diperoleh parameter model yang signifikan dengan nilai t hitung melebihi 2.20, masing-masing β 1 = 38.76, β 2 = 203.69, β 3 = 338.41, β 4 = 225.27, β 5 = 64.41, β 6 = 209.51, β 19 = 108.22, β 20 = 111.27, β 21 = 3.22, β 22 = 26.07 dan β 23 = 30.5. Karena nilai t hitung dari β 1, β 2, β 3, β 4, β 5, β 6, β 19, β 20, β 21, β 22, dan β 23 DK, maka β 1, β 2, β 3, β 4, β 5, β 6, β 19, β 20, β 21, β 22, dan β 23 merupakan parameter model yang signifikan terhadap model regresi. Hal ini mengindikasikan angka harapan hidup (X 1 ) dan persentase penduduk buta huruf (X 4 ) merupakan variabel yang berpengaruh signifikan terhadap IPM di Indonesia. Setelah dilakukan uji signifikansi parameter pada model regresi nonparametrik spline truncated yang terbentuk, selanjutnya dilakukan uji asumsi sisaan untuk menguji kelayakan model regresi. 5.4. Uji Asumsi Sisaan. Uji asumsi sisaan bertujuan untuk menguji kelayakan model regresi (Gujarati [6]). Uji asumsi sisaan meliputi 3 asumsi yang harus dipenuhi, yaitu asumsi kenormalan, independensi, dan heteroskedastisitas. Pengujian asumsi kenormalan dilakukan menggunakan uji Kolmogorov Smirnov (Bintariningrum dan Budiantara [1]). Pengujian asumsi independensi dilakukan menggunakan uji Durbin Watson (Gujarati [6]). Pengujian asumsi heteroskedastisitas dilakukan menggunakan uji Glejser (Bintariningrum dan Budiantara [1]). 6 2017
5.4.1. Uji Kolmogorov Smirnov. Hipotesis yang digunakan adalah H 0 : sisaan berdistribusi normal dan H 1 : sisaan tidak berdistribusi normal. Taraf signifikansi yang digunakan pada penelitian yaitu, α = 0.05. Kesimpulan pada uji Kolmogorov Smirnov yaitu, H 0 ditolak jika DK = {KS KS > q (1 α,n) = q (0.950,34) = 0.152}. Statistik uji Kolmogorov Smirnov (KS) =0.076. Karena 0.076 DK, H 0 tidak ditolak yang berarti sisaan berdistribusi normal. Asumsi kenormalan dipenuhi. 5.4.2. Uji Durbin Watson. Hipotesis yang digunakan adalah H 0 : tidak terdapat autokorelasi pada sisaan dan H 1 : terdapat autokorelasi pada sisaan. Taraf signifikansi yang digunakan pada penelitian yaitu, α = 0.05. Kesimpulan pada uji Durbin Watson yaitu, H 0 ditolak jika DK = {d hitung d hitung < d l = 1.21 atau 4 d hitung < d u = 1.73}. Statistik uji d hitung = 1.43 dan 4 d hitung = 2.57. Karena statistik uji d hitung dan 4 d hitung DK, H 0 tidak ditolak yang berarti tidak terdapat autokorelasi pada sisaan. Asumsi independensi dipenuhi. 5.4.3. Uji Glejser. Hipotesis yang digunakan adalah H 0 : tidak terdapat heteroskedastisitas pada sisaan dan H 1 : terdapat heteroskedastisitas pada sisaan. Taraf signifikansi yang digunakan pada penelitian yaitu, α = 0.05. Kesimpulan H 0 ditolak jika DK = {F hitung F hitung > F (α,h 1,n h) = F 0.05,22,11 = 2.60}. Statistik uji F hitung =0.1979. Karena 0.1979 DK, H 0 tidak ditolak yang berarti tidak terdapat heteroskedastisitas pada sisaan. Asumsi heteroskedastisitas dipenuhi. 5.5. Koefisien Determinasi. Koefisien determinasi (R 2 ) pada model regresi dihitung untuk mengetahui seberapa besar variabel respon dijelaskan oleh variabel prediktor (Drapper and Smith [4]). Berdasarkan perhitungan, nilai R 2 adalah R 2 = Σn i=1(ŷ i ȳ) 2 Σ n i=1 (y i ȳ) 2 = 541.946 573.2278 = 0.9454 Berdasarkan model regresi yang terbentuk, diperoleh nilai R 2 sebesar 0.9454. Hal tersebut mengindikasikan IPM di Indonesia dapat dijelaskan sebesar 94.54% oleh angka harapan hidup dan persentase penduduk buta huruf. Sedangkan sisanya, 5.46% merupakan persentase faktor lain yang belum dimasukkan dalam model. 6. Kesimpulan Berdasarkan hasil dan pembahasan dapat diambil 2 kesimpulan berikut. 7 2017
(1) Model regresi nonparametrik spline truncated pada data IPM di Indonesia yang sesuai adalah 150.029 + 3.45006x 1, x 1 < 66.7; 1059.168 14.67884x 1, 66.7 x 1 < 67.4; 970.84 + 15.44x 1, 67.4 x 1 < 68.4; 400.49 4.6087x 1, 68.4 x 1 < 69.5; 2.1 + 1.12348x 1, 69.5 x 1 < 72.5; ŷ = 1359.35 17.5223x 1, x 1 72.5; 150.029 19.6633x 4, x 4 < 0.55; 161.1938 + 0.6364x 4, 0.55 x 4 < 3.55; 159.1166 + 0.05128x 4, 3.55 x 4 < 7.79; 196.0225 + 4.7888x 4, 7.79 x 4 < 9.4; 143.9168 0.75428x 4, x 4 9.4. (2) Faktor yang memengaruhi IPM di Indonesia yaitu angka harapan hidup menurut provinsi (X 1 ) dan persentase penduduk buta huruf menurut provinsi (X 4 ). Daftar Pustaka [1] Bintariningrum, M. F., dan I. N. Budiantara, Pemodelan Regresi Nonparametrik Spline Truncated dan Aplikasinya pada Angka Kelahiran Kasar Di Surabaya, Jurnal Sains dan Seni Pomits Vol.3 (2014), no. 1, 7-12. [2] BPS, [Badan Pusat Statistik], Indeks Pembangunan Manusia di Negara Indonesia, Jakarta, 2015. [3] Budiantara, I. N., Penelitian Bidang Regresi Spline Menuju Terwujudnya Penelitian Statistika yang Mandiri dan Berkarakter, Seminar Nasional Matematika, Jurusan Matematika Universitas Pendidikan Ganesha, Bali, 2011. [4] Drapper, N. R., and H. Smith, Applied Regression Analysis, Second edition, John Wiley and Sons, Inc., New York, 1992. [5] Eubank, R. L., Spline Smoothing and Nonparametric Regression, Second edition, Marcel Dekker, New York, 1999. [6] Gujarati, N. D., Essential Of Econometrics, Mc Graw-Hill. Inc, New York, 2006. [7] Hardle, W., Applied Nonparametric Regression, Cambridge University Press, New York, 1994. [8] Lee, T. C. M., On Algorithms For Ordinary Least Squares Regression Spline Fitting:A Comparative Study, Statistica, Vol.72 (2002), no.8, 647-663. [9] UNDP, [United Nations Development Programme], Human Development Report, New York, 1990. [10] Wahba, G., Spline Models For Observational Data, SIAM, Pennsylvania, 1990. [11] Wand, M. P., A Comparison Of Regression Spline Smoothing Procedures, Computational Statistics Vol.15 (2000), 443-462. 8 2017