PEMAKAIAN VARIABEL INDIKATOR DALAM PEMODELAN Mike Susmikanti * ABSTRAK PEMAKAIAN VARIABEL INDIKATOR DALAM PEMODELAN. Pemodelan dalam penelitian berbagai bidang khususnya bidang industri, merupakan kebutuhan mendasar bagi prediksi di masa mendatang dan informasi tambahan. Variabel yang sering digunakan pada pemodelan pada umumnya variabel kuantitatif yaitu variabel yang mempunyai skala ukuran yang umum. Dalam hal ini akan dibahas apabila dalam persamaan regresi tidak hanya terdapat variabel kuantitatif tetapi juga terdapat variabel kualitatif atau variabel kategori sebagai variabel bebas. Pada umumnya suatu variabel kualitatif tidak mempunyai skala ukuran yang umum dan sering dinyatakan dalam kategori. Variabel kualitatif di sini harus didefinisikan dengan suatu himpunan tingkatan dalam perhitungan, yang mungkin mempunyai pengaruh dalam model. Istilah yang akan digunakan untuk variabel kategori pada pembahasan di sini adalah variabel indikator yang merupakan variabel dummy. Pembentukan model regresi yang akan dibahas adalah variabel kualitatif dengan dua tingkatan (level) atau lebih dan model dengan lebih dari satu variabel kualitatif. Pembahasan di sini meliputi pembentukan model regresi dengan satu variabel kualitatif yang terdiri dari dua tingkatan yang dibatasi untuk model linier. Selanjutnya dibahas pendugaan dan pengujian parameter pada pendugaan model serta analisis keragaman dan menarik beberapa kesimpulan statistik untuk mendukung model regresi. ABSTRACT THE USE OF INDICATOR VARIABLES IN MODELING. Modeling are important in research or industrial for predictions and required information. Variables employed in regression model and regression analysis are usualy quantitative variables. These variables have a well-defined scale of measurement. Occasionally, it is necessary to use qualitative or categorical variables as independent variables in regression. We must assign a set of levels to a qualitative variable to account for the effect that the variable may have on the response. We called categorical variable as indicator variables or dummy variables. We discuss the use of two or more levels of qualitative variable to create the regression model and more than one qualitative variabel. We have done a regression model with one qualitative variable but two levels in linear models, through the parameter estimate and the test parameter, and a analysis of variance and other summary statistics for the model. * Pusat Pengembangan Teknologi Informasi dan Komputasi - BATAN
PENDAHULUAN Pemodelan dalam kepentingan penelitian berbagai bidang maupun bidang industri, merupakan kebutuhan mendasar bagi prediksi di masa mendatang ataupun informasi tambahan. Data yang sering digunakan untuk pemodelan dalam hal ini pembentukan persamaan regresi dan analisis regresi dinyatakan dalam bentuk variabel kuantitatif. Berarti bahwa variabel tersebut dapat dengan mudah dinyatakan dalam skala ukuran yang umum. Akan tetapi sering pula pada pengamatan, data yang digunakan dinyatakan dalam bentuk variabel kualitatif atau variabel kategori yang merupakan variabel bebas dalam persamaan regresi. Dalam hal ini akan dibahas, apabila persamaan regresi yang dijumpai tidak hanya mengandung variabel kuantitatif sebagai variabel bebas tetapi didalamnya terdapat pula variabel kualitatif. Beberapa contoh dari variabel kategori antara lain tingkatan operator, status pegawai, waktu kerja, jenis kelamin dll. Biasanya suatu variabel kualitatif tidak mempunyai skala ukuran yang umum dan sering dinyatakan dalam kategori. Variabel kualitatif dalam hal ini harus didefinisikan atau ditandai dengan suatu himpunan tingkatan untuk menghitung seberapa besar pengaruhnya dalam pemodelan dan agar informasi pengaruh tersebut tidak hilang. Dalam pembahasan ini, penggunaan variabel kualitatif disebut sebagai variabel indikator dan sering pula dikenal sebagai variabel dummy. Pembentukan model regresi yang akan dibahas di sini yaitu variabel kualitatif dengan dua atau lebih tingkatan (level) dan model dengan lebih dari satu variabel kualitatif. Dalam penerapannya dibentuk model regresi dengan satu variabel kuantitatif dan satu variabel kualitatif yang terdiri dari dua tingkatan dan dibatasi untuk model linier. Untuk menguji secara statistik dilakukan pendugaan parameter dan pengujian parameter pada pendugaan model dan analisis keragaman serta beberapa kesimpulan statistik untuk model regresi. METODA Variabel Indikator dan Pembentukan Model Regresi Suatu variabel dengan tipe kualitatif dapat dinyatakan sebagai variabel indikator dengan nilai 0 (nol) atau 1 (satu) untuk mendefinisikan tingkatan dari variabel regresi tersebut. Pemilihan nilai 0 atau 1 untuk mengidentifikasi tingkatan atau kelas dari variabel kualitatif tersebut adalah sembarang. Misalkan model yang dipandang adalah model dengan dua variabel bebas x 1 dan x 2 dimana x 1 merupakan variabel kuantitatif dan x 2 merupakan variabel kualitatif yang terdiri dari dua kelas dan berfungsi sebagai variabel indikator yang didefinisikan berikut:
x 2 = 0 1 Bentuk model umum persamaan regresinya adalah y = β 0 + β 1 x 1 + β 2 x 2 + ε Untuk menginterpertasikan parameter-parameter pada model, didalam kelas pertama variabel indikator x 2 berharga nol (x 2 = 0). Bentuk model regresi sebagai berikut: y = β 0 + β 1 x 1 + β 2 (0) + ε atau y = β 0 + β 1 x 1 + ε Secara analitik hubungan diantara variabel x 1 (kuantitatif) dan variabel x 2 untuk kelas pertama adalah suatu garis-lurus yang naik sebesar β 0 pada sumbu y dengan kemiringan β 1. Pada kelas kedua variabel x 2 berharga satu (x 2 = 1), model regresi menjadi y = β 0 + β 1 x 1 + β 2 (1) + ε atau y = (β 0 + β 2 ) + β 1 x 1 + ε sehingga hubungan diantara variabel x 1 dan variabel x 2 juga garis lurus dengan kemiringan β 1 dan ketinggian pada sumbu y sebesar (β 0 + β 2 ). Gambar dari pendekatan kedua persamaan regresi tampak pada gambar-1. Kedua persamaan tersebut dinyatakan dalam dua garis regresi yang sejajar dengan kemiringan yang sama β 1 tetapi mempunyai ketinggian berbeda, dinyatakan dengan nilai β 2 yang merupakan hasil dari perubahan kelas pertama ke kelas ke dua. y β 0 + β 2 β 0 β 2 E ( y x 2 = 1) = (β 0 + β 2 ) + β 1 x 1 E( y x 2 = 0) = β 0 + β 1 x 1 x Gambar 1. Pendekatan dari dua persamaan regresi
Pendekatan untuk variabel kualitatif dengan tiga tingkatan atau kelas, dalam hal ini disediakan dua variabel indikator x 2 dan x 3 kedalam model. Pendefinisian dari tingkatan atau kelas dari variabel indikator tersebut adalah sebagai berikut: X 2 X 3 0 0 Jika termasuk kedalam kelas pertama 1 0 Jika termasuk kedalam kelas kedua 0 1 Jika termasuk kedalam kelas ketiga Jika pengamatan dipengaruhi oleh satu variabel kuantitatif x 1 dan satu variabel kualitatif dengan tiga tingkatan/kelas. Berarti terdapat 2 variabel indikator yaitu x 2 dan x 3. Bentuk umum dari model regresi sebagai berikut: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + ε Model regresi dengan empat tingkatan mempunyai tiga variabel indikator, dengan tingkatan dari variabel indikator tersebut sebagai berikut: X2 X3 X4 0 0 0 Jika termasuk kedalam kelas pertama 1 0 0 Jika termasuk kedalam kelas kedua 0 1 0 Jika termasuk kedalam kelas ketiga 0 0 1 Jika termasuk kedalam kelas keempat Misalkan model dipengaruhi satu variabel kuantitatif x 1 dan satu variabel kualitatif dengan empat tingkatan. Model tersebut mempunyai tiga variabel indikator. Bentuk umum model regresinya adalah: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Secara umum, variabel kualitatif dengan a tingkatan/kelas dinyatakan oleh (a 1) variabel indikator, yang masing-masing mengambil nilai 0 atau 1. Apabila pengamatan dipengaruhi oleh lebih dari satu variabel kualitatif misalnya dua variabel kualitatif yang masing-masing mempunyai tiga tingkatan dan satu variabel kuantitatif x 1. Berarti masing-masing variabel kualitatif mempunyai dua variabel indikator (masing-masing x 2 dan x 3 serta x 4 dan x 5 ) maka bentuk persamaan regresinya menjadi: demikian seterusnya. y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 +β 5 x 5 + ε Uji Statistik Apabila pengamatan dipengaruhi oleh dua variabel bebas yang satu diantaranya adalah variabel kuantitatif dan variabel lainnya adalah variabel kualitatif dengan dua tingkatan, berarti terdapat satu variabel indikator yaitu x 2. Parameter yang diduga adalah β 0, β 1 dan β 2 dengan penduga parameternya masing-masing b 0, b 1 dan b 2. Selang kepercayaan (1-α) x 100% bagi parameter β k untuk k = 0, 1 dan 2: b k t α/2 ; ν se(b k ) < β k < b k + t α/2 ; ν se(b k ) Derajat bebas untuk distribusi student-t yang digunakan adalah ν = n - k (n : banyak observasi dan k : banyak parameter yang ditaksir) Simpangan baku bagi parameter b k, k = 0,1 dan 2 dinyatakan dengan se(b k ). Pengujian untuk masing-masing parameter sebagai berikut: Koefisien Regresi Pendugaan Kesalahan baku Statistik Hitung ( t 0 ) β 0 b 0 β 1 b 1 se(b 1 ) t 0 (b 1 ) β 2 b 2 se(b 2 ) t 0 (b 2 ) Matriks dari parameter koefisien regresi b dapat diperoleh dari penyelesaian matriks berikut dengan pendekatan taksiran kuadrat terkecil: b = [ b 0, b 1, b 2 ] = (X T X) -1 X T y (1) Simpangan Baku untuk masing-masing penduga parameter β 1 dan β 2 (b 1 dan b 2 ) dapat diperoleh dari nilai-nilai:
se (b j ) = (s 2 C jj ) ; j = 1, 2 (2) C jj adalah unsur diagonal ke-j dari matriks kebalikan X T X ( (X T X) -1 ) s 2 = SS E /(n-p) merupakan taksiran dari ragam SS E adalah jumlah kuadrat kesalahan dari penyelesaian matrik berikut; SS E = y T y - b T X T y Hipotesis untuk uji nyata dari masing-masing koefisien regresi β j (j = 1, 2) adalah sebagai berikut: H 0 : β j = 0 H 1 : β j 0 ( Hipotesa awal) (Hipotesa alternatif) Jika Hipotesa awal H 0 tidak ditolak menunjukkan bahwa variabel x j dapat dihapus atau tidak digunakan dalam model. Statistik Hitung untuk parameter penduga b 1 dan b 2 diperoleh dari t 0 (bj) = (bj - βj) / se(b j ) ; j = 1, 2 (3) Untuk mendiagnosa apakah model memadai digunakan Koefisien Determinasi yang dihitung dari R 2 = SS R /S yy = 1- SS E /S yy ( 0 R 2 1 ) SS R adalah Jumlah kuadrat regresi S yy adalah Jumlah Kuadrat Total Jumlah Kuadrat Total: SS T = S yy S yy = Σ y i 2 (Σ y i ) 2 /n atau S yy = Σ (yi y ) 2 Jumlah Kuadrat Regresi: SS R = b T X T y - (Σ y i ) 2 /n Jumlah Kuadrat Kesalahan: SS E = S yy - SS R = y T y- b T X T y
Kuadrat Tengah Regresi KT R = SS R /(k-1) ; (k : banyak parameter yang ditaksir/diduga ) KT E = SS E /(n-k) ; (n : banyak pengamatan) Untuk menguji apakah terdapat hubungan secara linier diantara variabel tidak bebas y dan variabel bebas x j, dilakukan pengujian hipotesa berikut ( sering disebut dengan Uji nyata regresi). H 0 : Tidak terdapat hubungan secara linier antara variabel tidak bebas y dengan variabel bebas x j H 1 : Terdapat hubungan secara linier antara variabel tidak bebas y dengan variabel bebas x j Digunakan Statistik Hitung: F 0 = KT R /KT E Analisis keragaman yang akan dihitung dinyatakan dalam tabel berikut, secara keseluruhan merupakan kesimpulan statistik untuk model regresi. Sumber Variasi Jumlah Kuadrat Derajat bebas Kuadrat Tengah Statistik Hitung F 0 Regresi SS R k - 1 KT R KT R /KT E Kesalahan SS E n - k KT E Total SS T n-1 PEMBAHASAN Ingin diteliti apakah ada hubungan antara masa hidup (umur efektif) suatu alat pemotong (y) yang digunakan (dalam satuan jam) dengan kecepatan putaran permenit (x 1 ) (dalam satuan rpm) dan tipe alat A dan B (x 2 ). Data yang diperoleh sebagai berikut (tabel-1);
Tabel 1. Data pengamatan masa hidup alat pemotong No. pengamatan Yi (jam) X 1i (rpm) Tipe alat ( A atau B ) 1 18,73 610 A 2 14,52 950 A 3 17,43 720 A 4 14,54 840 A 5 13,44 980 A 6 24,39 530 A 7 13,34 680 A 8 22,71 540 A 9 12,68 890 A 10 19,32 730 A 11 30,16 670 B 12 27,09 770 B 13 25,40 880 B 14 26,05 1000 B 15 33,49 760 B 16 35,62 590 B 17 26,07 910 B 18 36,78 650 B 19 34,95 810 B 20 43,67 500 B Model regresi yang dipilih adalah y = β 0 + β 1 x 1 + β 2 x 2 + ε Variabel bebas x 1 sebagai variabel kuantitatif dan x 2 sebagai variabel kualitatif; yang mana x 2 merupakan variabel kualitatif yang terdiri dari dua kelas dan berfungsi sebagai variabel indikator. Nilai x 2 = 0 jika pengamatan adalah tipe A dan x 2 = 1 jika pengamatan dari tipe B. x 2 = 0 1 Data variabel bebas dinyatakan dalam matrik X dan hasil pengamatan dalam vektor y dibawah ini untuk pendekatan model.
1 1 1 1 1 1 1 1 1 1 X = 1 1 1 1 1 1 1 1 1 1 610 950 720 840 980 530 680 540 890 730 670 770 880 1000 760 590 910 650 810 500 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 18,73 14,52 17,43 14,54 13,44 24,39 13,34 22,71 12,68 19,32 y = 30,16 27,09 25,40 26,05 33,49 35,62 26,07 36,78 34,95 43,67 Dari pendekatan taksiran kuadrat terkecil diperoleh b = [b 0, b 1,b 2 ] = (X T X) -1 X T y = [ 36,986 ; -0,027 ; 15,004 ] Sehingga persamaan regresi menjadi Y = 36,986 0,027 x 1 + 15,004 x 2 Dengan kepercayaan 95%, yang berarti tingkat keyakinan atau taraf nyata α = 0,05; pendugaan parameter β 2 berada dalam interval atau selang berikut b 2 t 0,025; 17 se(b 2 ) < β 2 < b 2 + t 0,025; 17 se(b 2 )
dari persamaan (2) diperoleh se(b 1 ) = 0,005 dan se(b 2 ) = 1,360 15,004 (2,110)(1,360) < β 2 < 15,004 + (2,110)(1,360) 12,135 < β 2 < 17,873 parameter β 2 menunjukkan besarnya perubahan dari alat tipe A dan tipe B. Berikut ini hipotesis uji nyata dari koefisien regresi secara individu untuk parameter β 1 dan β 2 ; H 0 : β j = 0 ( j = 1, 2) H 1 : β j 0 Statistik hitung (t-hitung) untuk penduga b 1 dan b 2 diperoleh dari persamaan (3) dengan β j = 0 (asumsi awal) t 0 (b 1 ) = -0,027/0,005 = -5,887 t 0 (b 2 ) = 15,004/1,360 = 11,035 dengan tingkat kepercayaan 99% (α = 0,01), dari tabel statistik student-t dengan derajat bebas sama dengan 17 diperoleh t 0.01;17 = 2,567. Berarti t hitung baik untuk penduga b 1 dan b 2 berada dalam daerah penolakan hipotesa awal. Dapat disimpulkan bahwa kedua variabel bebas x 1 dan x 2 mempunyai konstribusi terhadap model. Pengujian untuk masing-masing parameter tersebut diatas sebagai berikut; Koefisien Regresi Tabel 2. Statistik Hitung Pendugaan Kesalahan baku Statistik Hitung t 0 β 0 36,986 β 1-0,027 0,005-5,887 β 2 15,004 1,360 11,035 Untuk menguji apakah terdapat hubungan secara linier diantara variabel tidak bebas y dan variabel bebas x 1 dan x 2 dilakukan pengujian hipotesa berikut (sering disebut dengan Uji nyata regresi). Pengujian Hipotesa: H0 : Tidak terdapat hubungan antara umur efektif/masa hidup suatu alat pemotong (y) yang digunakan dengan kecepatan putaran permenit dan tipe alat A atau B. H1 : Terdapat hubungan antara umur efektif / masa hidup suatu alat pemotong (y) yang digunakan dengan kecepatan putaran permenit dan tipe alat A atau B.
Berikut ini perhitungan yang akan diisikan pada tabel analisis keragaman. Jumlah Kuadrat Total: S yy = Σ y i 2 (Σ y i ) 2 /n = 1575,089 SS T = S yy = 1575,089 Jumlah Kuadrat Regresi: SS R = b T X T y - (Σ y i ) 2 /n = 1418,034 Jumlah Kuadrat Kesalahan: SS E = S yy - SS R = 157,055 Kuadrat Tengah Regresi KT R = 1418,034/2 = 709,017 KT E = 157,055/17 = 9,239 Statistik Hitung F 0 = 709,017/9,239 = 76,75 Tabel 3. Analisis keragaman Sumber Variasi Jumlah Kuadrat Derajat bebas Kuadrat Tengah Statistik Hitung F 0 Regresi 1418,034 2 709,017 76,75 Kesalahan 157,055 17 9,239 Total 1575,089 19 Nilai F hitung yaitu F 0 = 76,75 melampaui nilai F dari tabel distribusi Fisher dengan tingkat keyakinan sebesar 99% atau α = 0,01 dan derajat bebas masing-masing untuk ν 1 = 2 dan ν 2 = 17. Diperoleh nilai F tabel sebesar F 0,01; 2;17 = 6,11. Sehingga Ho ditolak, berarti variabel y dipengaruhi oleh variabel x 1 dan x 2 sebagai variabel indikator yang berarti umur hidup mesin pemotong dipengaruhi oleh kecepatan putar per menit dan alat tipe A atau B. Koefisien determinasi diperoleh R 2 = 1- SS E /S yy = 0,9003
Koefisien determinasi R 2 = 0,9003 mendekati 1 berarti model tersebut diatas yang dipilih adalah memadai. KESIMPULAN Penggunaan variabel indikator sangat diperlukan dalam pembentukan model regresi dengan pengamatan yang dipengaruhi oleh variabel bebas kualitatif agar informasi dari pengaruh variabel tersebut tidak hilang. Kita harus mendefinisikan suatu himpunan kelas terhadap variabel kualitatif untuk memperhitungkan pengaruh variabel tersebut. Pembentukan model regresi yang memadai perlu diuji dengan koefisien determinasi, disamping pengujian hubungan antara variabel tidak bebas dengan variabel bebas melalui analisis ragam serta pengujian parameter koefisian regresi untuk mengetahui apakah terdapat variabel bebas yang perlu dihapus dalam model agar lebih efisien. DAFTAR PUSTAKA 1. DOUGHERTY, EDWARD R., Probability and Statistics for the Engineering, Computing and Physical Sciences, Prentice Hall Inc., New Jersey, 1990. 2. KINNEY, JOHN J., Statistics for Science and Engineering, Pearson Education, Inc, 2002. 3. MONTGOMERY, DOUGLAS C.; PECK, ELIZABETH A., Introduction to Linear Regression Analysis, John Wiley & Sons, Inc., The Second Edition, 1992.
DISKUSI ELFRIDA SARAGI Apakah data pada penyaji: Adhi Harmoko, bisa digunakan untuk pemodelan dimana variabel indikatornya banyak dan apakah bisa disimpulkan mengenai cacat pada bahan tersebut berdasarkan model? MIKE SUSMIKANTI Data pada makalah saudara Adhi Harmoko dapat digunakan untuk pemodelan hanya kurang tepat, lebih tepat apabila menggunakan Principal Component Analysis (PCA), untuk dapat menyimpulkan mengenai cacat pada bahan karena dengan PCA dapat menemukan dan mengidentifikasi pola dalam data tanpa harus kehilangan banyak informasi. DAFTAR RIWAYAT HIDUP 1. Nama : Dra. Mike Susmikanti, MM 2. Tempat/Tanggal Lahir : Jakarta, 12 November 1956 3. Instansi : BATAN 4. Pekerjaan / Jabatan : Staf P2TIK-BATAN 5. Riwayat Pendidikan : S1 Matematika Statistik FIPIA UI S2 Magister Manajemen 6. Pengalaman Kerja : 1980-sekarang, BATAN