BAB II TINJAUAN PUSTAKA A. Regresi Regresi adalah suatu studi statistik untuk menjelaskan hubungan dua variabel atau lebih yang dinyatakan dalam bentuk persamaan. Salah satu variabel merupakan variabel dependen sedangkan semua variabel yang lain merupakan variabel independen. (a) Variabel dependen yang biasanya dinyatakan dengan simbol disebut juga variabel kriteria, yaitu variabel tidak bebas karena nilainya dipengaruhi oleh nilai variabel-variabel yang lain. (b) Variabel independen yang biasanya dinyatakan dengan simbol, atau disebut juga variabel prediktor, yaitu variabel bebas karena nilainya tidak dipengaruhi oleh nilai variabel-variabel yang lain. Regresi linear adalah bentuk hubungan antara variabel dependen dan variabel independen yang masing-masing berpangkat satu. 1. Regresi Linear Sederhana (RLS) RLS adalah suatu regresi linear yang memiliki satu variabel dependen dan satu variabel independen. Model dari RLS adalah : dengan : nilai variabel dependen pada observasi ke-i. : nilai variabel independen pada observasi ke-i. 5
: komponen galat yang diasumsikan berdistribusi Normal dengan mean 0 dan memiliki variansi. dan : koefisien regresi. Bilangan menyatakan titik potong (intercept) garis regresi dengan sumbu y. Bilangan menyatakan kemiringan (slope) garis regresi. Secara matematis, intercept merupakan ordinat titik perpotongan antara garis regresi dengan sumbu y pada sistem sumbu kartesius, yaitu nilai y pada nilai x=0. Nilai dari intercept dapat diartikan sebagai nilai rata rata dari variabel y jika variabel x bernilai 0. Demikian pula, secara matematis, slope menyatakan ukuran kemiringan dari garis regresi. Slope adalah kofisien regresi untuk variabel x (variabel bebas). Nilai dari slope dapat diartikan sebagai rata rata penambahan atau pengurangan yang terjadi pada variabel y untuk setiap peningkatan satu satuan variabel x. Pada statistika hubungan antara dua variabel yang digambarkan sebagai titiktitik, biasanya kumpulan titik titik itu merupakan diagram pencar, tidak terletak tepat pada garis lurus. Data yang ada menunjukkan hasil observasi hubungan linear yang mengandung galat eksperimen random atau random error. Pengertian error dalam regresi linear diartikan sebagai semua hal yang mungkin mempengaruhi variabel tak bebas, yang tidak teramati. 2. Regresi Linear Berganda (RLB) RLB adalah regresi linear yang memiliki satu variabel dependen dan lebih dari satu variabel independen. Model dari RLB adalah :
dengan : nilai variabel dependen pada observasi ke-i. : nilai variabel independen pada observasi ke-i. : banyaknya variabel independen yang berpengaruh variabel dependen. : komponen galat yang diasumsikan berdistribusi Normal dengan mean 0 dan memiliki variansi. : koefisien regresi. Nilai koefisien regresi rata rata y jika merupakan intercept yang diartikan sebagai nilai masing-masing sama dengan nol. Nilai koefisien merupakan slope pada variabel y terhadap dan mengganggap adalah konstan. Nilai koefisien merupakan slope pada variabel y terhadap dan mengganggap dan adalah konstan, dan seterusnya. B. Probability Density Function (pdf) Variabel random merupakan suatu fungsi dari ruang contoh ke himpunan bilangan nyata. Misalnya disebut variabel random pada ruang contoh, apabila untuk setiap tertentu sebuah bilangan nyata Variabel random dibedakan menjadi dua jenis, yaitu variabel random diskrit dan variabel random kontinu. 1. Variabel Random Diskrit dan pdf nya Variabel random X dikatakan diskrit jika daerah nilai variabel random X merupakan himpunan yang berhingga atau takberhingga yang countable (terbilang). Jika X merupakan variabel random diskrit dengan nilai yang berbeda, maka pdf dari X dapat didefinisikan, seperti berikut:
, [ ] Salah satu contoh pdf dari variabel random diskret ialah fungsi distribusi peluang Poisson yang rumusnya adalah: 2. Variabel Random Kontinu dan pdfnya Variabel random X dikatakan kontinu jika memiliki daerah nilai suatu interval. Jika adalah variabel random, maka yang disebut Cummulative Distribution Function (CDF) dari adalah fungsi, misalnya, yang rumusnya adalah untuk setiap bilangan, artinya { Jika X merupakan variabel random kontinu dengan CDF, maka pdf dari X dapat didefinisikan, seperti berikut: Salah satu contoh pdf dari X yang berdistribusi normal dengan rata rata dan variansi atau ditulis, yaitu:
3. Sifat pdf Bersama dari Variabel Random Diskrit Jika merupakan variabel random diskret berdimensi, maka pdf bersama dari variabel tersebut adalah: Salah satu contoh pdf bersama dari X, dimana merupakan variabel random diskrit berdimensi n dan berdistribusi Poisson dengan parameter θ, dimana saling bebas, adalah 4. Sifat pdf Bersama dari Variabel Random Kontinu Misal merupakan variabel random berdimensi dengan CDF bersama ( ), variabel tersebut dikatakan kontinu jika terdapat fungsi yang disebut pdf bersama dari dan didefinisikan sebagai: ( ) Salah satu contoh pdf dari, dimana merupakan variabel random kontinu berdimensi dan berdistribusi Normal dengan rata rata dan variansi, dimana, saling bebas, adalah ( )
C. Teorema Bayesian Teorema Bayesian merupakan suatu formula sederhana yang dikembangkan dari peluang bersyarat. Teorema Bayesian menggabungkan dua buah sumber informasi yaitu distribusi prior atau informasi awal dan informasi sampel. Dengan kata lain, penggabungan distribusi prior atau informasi awal dengan informasi sampel digabung menjadi distribusi posterior. Peluang bersyarat dari peristiwa θ dengan syarat peristiwa y terjadi, memiliki bentuk umum 1. Kasus Variabel Random Diskrit Misal merupakan kejadian saling asing yang merupakan partisi dari ruang sampel S, yaitu: sedangkan y merupakan sebarang kejadian dalam S, maka Kejadian saling asing, sehingga berdasarkan rumus peluang kejadian bersyarat di atas, didapat persamaan dimana,, dari persamaan (2.3) dapat dibentuk persamaan
Jika disyaratkan bahwa y terjadi, maka atau, Jika y diketahui, maka variabel random hanyalah θ yang daerah nilainya adalah * +. Dengan menggunakan teorema Bayesian, informasi awal yang dinyatakan dalam distribusi prior dan informasi sampel yang dinyatakan dalam fungsi likelihood dikombinasikan, maka akan membentuk distribusi posterior θ yang dinyatakan dalam persamaan sebagai berikut. 2. Kasus Variabel Random Kontinu Jika distribusi prior dinyatakan sebagai, dan distribusi sampel dinyatakan sebagai maka distribusi posterior, yaitu distribusi bersyarat θ dengan syarat y terjadi, dapat dinyatakan sebagai berikut. Distribusi marginal dari y adalah
Jika daerah nilai θ adalah, maka dapat dinyatakan dalam bentuk integral sebagai berikut. Diperoleh Teorema Bayesian untuk variabel random kontinu yaitu: 3. Teorema Bayesian untuk Parameter Untuk variabel random diskrit dan variabel random kontinu, dapat ditulis { Dengan demikian dari persamaan, dapat diperoleh persamaan, sebagai berikut Hal ini terjadi karena tidak mengandung sehingga dapat dianggap konstanta, disebut distribusi prior dan disebut distribusi posterior dengan syarat y terjadi. Dengan demikian dapat ditulis Teorema Bayesian, sebagai berikut. Simbol maksudnya ialah sebanding dengan. Dengan kata lain, Teorema Bayesian menyatakan bahwa distribusi peluang untuk posterior
sebanding dengan perkalian dari distribusi prior dan likelihood, yaitu D. Estimasi Parameter Regresi Estimasi adalah suatu proses yang menggunakan sampel statistik untuk menduga atau menaksir parameter populasi yang tidak diketahui. Estimasi ini merupakan suatu cara untuk memprediksi karakteristik dari suatu populasi. Hakekat mengestimasi suatu parameter merupakan suatu prosedur untuk mencari parameter dari sebuah model yang paling cocok pada suatu data pengamatan yang ada. Ada beberapa estimasi parameter yaitu dapat berupa estimasi titik dan estimasi selang. Contoh dan mengestimasi parameter dan pada persamaan regresi, sehingga estimasi regresinya menjadi. E. Metode Bayesian dalam Mengestimasi Regresi 1. Regresi Linear Sederhana (RLS) Model dari RLS adalah : Dalam menyelesaikan model RLS dibentuk asumsi sebagai berikut: (1) untuk semua, atau ekuivalen dengan. (2) untuk semua, atau ekuivalen dengan.
(3) untuk semua, atau ekuivale n dengan untuk semua. Asumsi 1 menyatakan bahwa model RLS sudah benar yang mengartikan hanya bergantung pada. Asumsi 2 menyatakan bahwa varians dari atau y tidak bergantung pada nilai nilai. Asumsi 3 menyatakan bahwa atau ( ) tidak berkorelasi satu sama lain. Dalam model ini, berdistribusi Normal dengan mean dan variansi. a. Likelihood dari Distribusi Normal Model RLS, berdistribusi Normal dengan mean dan variansi untuk n pengamatan, didapat fungsi kepadatan peluang dalam bentuk sebagai berikut. *, - + Fungsi likelihood untuk parameter, yaitu: *, - + Bentuk, - akan ditransformasikan sehingga didapat persamaan likelihood menjadi seperti berikut. * +
dimana ( ) ( )( ) ( ) b. Non-informatif Prior Bentuk dari non-informatif prior dengan menggunakan metode Jeffrey s yaitu: c. Posterior dari Distribusi Normal Jika sebuah variabel random dikatakan berdistribusi Normal dengan mean μ dan variansi dapat ditulis, maka memiliki fungsi kepadatan peluang dalam bentuk: [. / ] untuk, dimana dan.
Perkalian prior dan likelihood menghasilkan distribusi posterior sebagai berikut.. / * + 2. Regresi Linear Berganda (RLB) Model dari RLB adalah : Dalam menyelesaikan model RLB dibentuk asumsi sebagai berikut. (1) untuk semua, atau ekuivalen dengan. (2) untuk semua, atau ekuivalen dengan. (3) untuk semua, atau ekuivalen dengan untuk semua. Asumsi 1 menyatakan bahwa model RLB sudah benar yang mengartikan seluruh variabel independen saling berpengaruh terhadap variabel dependen dan masing masing variabel bekerja secara linear. Asumsi 2 menyatakan bahwa varians dari adalah konstan sehingga tidak bergantung pada. Asumsi 3 menyatakan bahwa y tidak berkorelasi satu sama lain. Dalam model ini, berdistribusi Normal dengan mean ( ) dan variansi. Model RLB untuk pengamatan dapat dibentuk dalam persamaan sebagai berikut.
Bentuk persamaan tersebut dapat ditulis dalam bentuk matriks sebagai berikut. (, (, (, (, Persamaan matriks tersebut dapat ditulis dalam bentuk regresi yaitu: dengan : vektor kolom nilai variabel dependen. : matriks berordo nilai variabel independen. : vektor kolom koefisien regresi. : vektor kolom galat yang diasumsikan berdistribusi Normal dengan mean 0 dan memiliki variansi. di mana (, (,
(, (, Asumsi yang digunakan untuk model (2.19) yaitu: (a) atau (b) atau Catatan Asumsi mencakup kedua asumsi yaitu dan. Dalam model ini, berdistribusi Normal dengan mean dan covariansi. a. Likelihood dari Distribusi Normal Model RLS, berdistribusi Normal dengan mean ( ) dan variansi untuk n pengamatan, didapat fungsi kepadatan peluang dalam bentuk sebagai berikut. [. / ] Persamaan umum regresi linear dalam bentuk matriks, yaitu:
Fungsi kepadatan peluangnya mempunyai dan. Dapat dikatakan bahwa berdistribusi, sehingga didapat persamaan pdf berikut: ( ) Fungsi likelihood dapat ditulis sebagai berikut. ( ) * + dimana [ ] dan b. Non-informatif Prior Bentuk dari distribusi non-informatif prior dengan metode Jeffrey s adalah c. Posterior dari Ditribusi Normal Setelah didapatkan fungsi likelihood dan distribusi prior maka dapat ditentukan distribusi posteriornya, sebagai berikut. * +