PENGGUNAAN METODE BAYESIAN OBYEKTIF DALAM INFERENSI PARAMETER POPULASI SERAGAM Adi Setiawan Program Studi Matematika, Fakultas Sains dan Matematika Universitas Kristen Satya Wacana Jl. Diponegoro 52-6 Salatiga 5711, Indonesia e-mail : adi_setia_3@yahoo.com Abstrak Misalkan dimiliki sampel yang dianggap diambil dari populasi yang berdistribusi seragam U(,θ). Dalam makalah ini akan dielaskan tentang bagaimana menggunakan metode Bayesian obyektif untuk melakukan estimasi titik, estimasi interval dan penguian hipotesis tentang parameter populasi berdasarkan sampel yang diambil dari populasi U(,θ). Studi simulasi dilakukan untuk memperelas penggunaan metode tersebut. Kata Kunci : prior, posterior, deskrepansi intrinsik, statistik intrinsik 1. Pendahuluan Misalkan dimiliki sampel yang dianggap diambil dari populasi yang berdistribusi seragam U(,θ) dan diinginkan untuk melakukan estimasi parameter θ maka dapat digunakan metode Bayesian obyektif. Pada makalah terdahulu telah dielaskan bagaimana menggunakan metode Bayesian obyektif dalam melakukan estimasi titik, estimasi interval dan penguian hipotesis ( Setiawan, 29; Setiawan, 21 dan Setiawan, 211 ). Dalam makalah ini akan dielaskan tentang bagaimana menggunakan metode Bayesian obyektif untuk melakukan inferensi parameter populasi θ dan dianggap bahwa sampel diambil dari populasi seragam. 2. Dasar Teori Hasil dari sembarang masalah inferensi yang dinyatakan dalam distribusi posterior merupakan gabungan dari informasi yang tersedia dalam data dan informasi prior relevan yang tersedia. Akan tetapi apabila tidak tersedia informasi prior, akan dipilih fungsi prior yang relatif uninformative artinya fungsi prior yang memberikan pengaruh minimum pada inferensi fungsi posterior. Secara lebih formal, misalkan bahwa mekanisme probabilitas yang membangkitkan data yang tersedia dianggap sebagai p( θ) untuk suatu θ Θ dan kuantitas yang menadi perhatian adalah fungsi yang bernilai real φ(θ) dari θ. Tanpa menghilangkan keumuman, hal itu uga dapat dielaskan berikut ini. 1
Misalkan model probabilitas yang digunakan berbentuk { p ( θ, λ) } dengan λ adalah parameter nuisance yang dipilih. Dalam hal ini diperlukan untuk mengidentifikasi fungsi prior bersama π(φ,λ) yang akan mempunyai pengaruh minimal pada distribusi posterior marginal dengan kuantitas yang menadi perhatian φ yaitu Λ π ( φ ) p( φ, λ) π ( φ, λ) dλ. Reference prior digunakan sebagai prior yang dapat memberikan pengaruh minimal pada distribusi posterior. Dalam kasus dimensi satu, reference prior merupakan prior Jeffry. Dengan menggunakan prior ini maka penyelesaian masalah estimasi hanya tergantung pada model anggapan dan data pengamatan sehingga estimasi titik yang menggunakan metode ini dinamakan sebagai estimasi titik Bayesian obyektif (Bernardo dan Juarez, 23). Diskrepansi intrinsik (intrínsic discrepancy) δ(p1, p2) antara dua fungsi densitas p1() dengan X1 dan p2() dengan X2 didefinisikan sebagai dengan { K( p ( ) p ( ) ), K( p ( ) p ( ))} δ ( p, p2) = min 2 1 1 2 1 p1( ) K( p1 ( ) p2( )) = p1( ) log d. p ( ) X 2 Untuk dua keluarga fungsi densitas M = p φ ), Χ ( φ), φ Φ dan M dapat didefinisikan diskrepansi intrinsik { } ( 1 1 1 { p ψ ), Χ ( ψ ), Ψ } = ψ ( 2 2 2 ( p ( φ), p ( )) δ *( M1, M 2) = min δ 1 2 ψ. φ Φ, ψ Ψ Fungsi kerugian (loss function) dalam kasus ini adalah diskrepansi intrinsik. Misalkan bahwa deskripsi yang sesuai dari tingkah laku probabilistik dari kuantitas random diberikan oleh model { p ( θ, λ), Χ, θ Θ, λ Λ}. Diskrepansi intrinsik antara p ( θ, λ) dan keluarga densitas
{ p ( θ, λ), λ Λ} adalah dengan δ ( θ, λ; θ ) = inf δ ( θ, λ; θ, λ ) * λ Λ { K( θ, λ θ, λ), K( θ, λ θ, )} δ ( θ, λ; θ, λ) = min λ. Misalkan { p ( θ, λ), Χ, θ Θ, λ Λ} adalah model parametrik yang dapat digunakan untuk menggambarkan tingkah laku kuantitas random. Didefinisikan intrinsik statistik (intrinsic statistic) sebagai ( θ ) Eπ δ [ δ* ] = δ *( θ, λ; θ) π δ* ΛΘ d = ( θ, λ ) dθ dλ (1) * dengan π δ ( θ, λ ) adalah posterior referensi untuk parameter dari model p( θ, λ) bila * δ ( θ, λ; θ ) adalah parameter yang menadi perhatian. Estimator intrinsik (intrinsic * estimator) atau estimasi titik Bayesian obyektif didefinisikan sebagai yaitu parameter θ yang meminimalkan statistik intrinsik θ * = θ * ( ) = arg min d( θ ). ~ θ Θ ~ Estimasi interval kredibel Interval kredibel intrinsik 1q% (q-credible region intrinsic) adalah himpunan bagian R*q = R*q(, Θ) Θ dari ruang parameter Θ sehingga memenuhi (i) π ( θ, θ dθ = q R* q ) (ii) Untuk setiap θi R*q, θ R*q dan untuk setiap berlaku d(θ i ) d(θ ). dengan d(θ i ) adalah harapan fungsi kerugian reference posterior sebagai proy untuk nilai dari parameter yang diberikan pada persamaan (1). Terlihat bahwa pernyataan pada persamaan (1) mempunyai bentuk yang sulit sehingga perhitungannya tidaklah mudah namun dengan menggunakan integrasi numerik, hal itu dengan mudah dapat dilakukan. 3
Penguian Hipotesis Apabila diinginkan untuk melakukan penguian hipotesis H { θ = θ } maka statistik intrinsik pada persamaan (1) merupakan ukuran dari kekuatan bukti melawan penggunaan model M dengan M = p( θ, λ), λ }. { Λ Hal itu berarti H akan ditolak ika dan hanya ika d(θ ) untuk suatu batas d* (Juarez, 24). Bernardo dan Rueda (22) mengusulkan untuk menggunakan aturan sebagai berikut : ika d* 1 maka tidak ada bukti untuk menolak H, ika d* 2,5 maka terdapat bukti lemah (mild) untuk menolak dan ika d* > 5 maka terdapat bukti kuat (strong) untuk menolak H. Populasi Seragam Misalkan 1, 2,..., n sampel dari distribusi seragam dengan fungsi kepadatan probabilitas f ( θ ) =θ untuk θ, θ > dan misalkan t = Ma{ 1, 2,..., n }. Deskrepansi intrinsik dari distribusi eksponensial adalah dengan Akibatnya 1 δ ( θ, θ ) = n min[ κ( θ θ), κ( θ θ ( ) = θ κ θ i θ θ 1 ln )] ( θ / θ ) d = log( θ / θ ), i i θ θ, θ > θ. δ ( θ, θ ) = n ln( θ / θ ). Karena ruang sampel dari X adalah [, θ ] tergantung dari parameter θ maka hal ini i i bukan masalah regular. Fungsi ^ θ = t merupakan statistik cukup, estimator konsisten dari yang mempunyai distribusi sampling
p( t θ ) n 1 n = nt θ untuk < t < θ. Dapat dibuktikan bahwa reference prior dari parameter yang menadi perhatian θ adalah π(θ) = θ -1 dan reference posterior yang terkait adalah n ( n+ 1) π ( θ 1,..., n ) = n t θ, θ t. dan diperoleh statistik intrinsik d( θ n ( n+ 1) 1,..., n ) = d( θ t, n) = n ln( θ / θ ) t θ t dθ. Estimasi titik θ* ditentukan sehingga meminimalkan nilai statistik intrinsik d θ,..., ) dan estimasi interval kredibel (a,b) ditentukan sehingga ( 1 n d θ,..., ) < d( a,..., ) dan d θ,..., ) < d( a,..., ). Penguian ( 1 n 1 n ( 1 n 1 n hipotesis dilakukan dengan cara menghitung ukuran kekuatan bukti untuk menolak hipotesis nol H : θ = θ dengan menggunakan statistik intrinsik d θ,..., ) ( 1 n berdasarkan pada sampel 1, 2,..., n atau statistik cukup t = Ma{ 1, 2,..., n } dan ukuran sampel n. 3. Studi Simulasi dan Pembahasan Estimasi titik untuk parameter populasi θ berdasarkan sampel ditentukan dengan cara memilih nilai θ yang meminimalkan nilai statistik intrinsik. Gambar 1 menunukan nilai statistik intrinsik bila digunakan nilai θ antara dan 5 ika diberikan statistik cukup sampel t = Ma{ 1, 2,..., n } = 1,86 dan n = 12. Terlihat bahwa nilai statistik intrinsik akan mencapai minimum ika θ = 1,913 sehingga 1,913 merupakan estimasi titik untuk parameter populasi θ. Interval kredibel ditentukan sehingga θ mempunyai statistik intrinsik lebih kecil dari 2.15 dan diperoleh interval kredibel 95 % yaitu (1,632, 2,319 ). 5
(a) n=12, t=1.86 Intrinsik Statistik 1 2 3 4 5 6 1 2 3 4 5 Theta Gambar 1. Nilai statistik intrinsik ika diberikan parameter θ dan statistik cukup t = Ma{ 1, 2,..., n }. Misalkan dimiliki sampel 1, 2,..., n berukuran n = 5 dari populasi berdistribusi seragam dengan parameter populasi θ. Apabila diambil sampel dari distribusi seragam pada (,2) maka nilai-nilai statistik intrinsik yang diperoleh merupakan ukuran kekuatan untuk menolak hipotesis nol H : θ = θ dan dinyatakan pada Gambar 2. Terlihat bahwa nilai-nilai statistik intrinsik cenderung kecil dengan rata-ratanya,99 dan hanya,6 % yang mempunyai nilai lebih dari 5.
Histogram dari bila sampel dari U(, 2)..5 1. 1.5 2 4 6 8 Gambar 3. Histogram dari B = 1. nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H : θ = θ ika diberikan sampel dengan ukuran 5 yang diambil dari populasi seragam U(,2). Apabila sampel diambil dari populasi yang mempunyai parameter populasi berturutturut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2 maka nilai-nilai statistik intrinsik dinyatakan pada Gambar 3. Terlihat bahwa seperti yang diharapkan, nilai-nilai statistik intrinsik cenderung makin membesar ika parameter populasi yang digunakan auh dari θ = 2. Gambar 4 dan Gambar 5 menyatakan nilai-nilai statistik intrinsik masing-masing untuk ukuran sampel 5 dan 1. Seperti yang diharapkan makin besar ukuran sampel makin besar pula nilai-nilai statistik intrinsik. 7
(a) Bila sampel dari U(, 1,8) (b) Bila sampel dari U(, 1,9)..3.6..4 1 2 3 4 5 6 1 2 3 4 5 (c) Bila sampel dari U(, 2,1) (d) Bila sampel dari U(, 2,2)..3.6..3.6 2 4 6 8 1 4 6 8 1 12 14 Gambar 3. Histogram dari B = 1. nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H : θ = θ ika diberikan sampel ukuran 5 yang diambil dari populasi seragam dengan parameter θ berturut-turut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2. (a) Bila sampel dari U(, 1,8) (b) Bila sampel dari U(, 1,9)..4.8..4 1 2 3 4 1 2 3 4 5 6 7 (c) Bila sampel dari U(, 2,1) (d) Bila sampel dari U(, 2,2)..4.8..4.8 2 4 6 8 2 4 6 8 1 12 Gambar 4. Histogram dari B = 1. nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H : θ = θ ika diberikan sampel ukuran 3 yang diambil dari populasi seragam dengan parameter θ berturut-turut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2.
(a) Bila sampel dari U(, 1,8) (b) Bila sampel dari U(, 1,9)..4..3.6 4 5 6 7 8 9 1 2 3 4 5 (c) Bila sampel dari U(, 2,1) (d) Bila sampel dari U(, 2,2)..4..2.4 3 4 5 6 7 8 6 8 1 12 14 16 Gambar 5. Histogram dari B = 1. nilai-nilai statistik intrinsik yang merupakan ukuran kekuatan untuk menolak H : θ = θ ika diberikan sampel ukuran 8 yang diambil dari populasi seragam dengan parameter θ berturut-turut (a) 1,8 (b) 1,9 (c) 2,1 dan (d) 2,2. 4. Kesimpulan dan Saran Dalam makalah di atas telah dielaskan bagaimana parameter populasi diestimasi dan dilakukan ui hipotesis dengan menggunakan metode Bayesian obyektif ika dianggap sampel diambil dari populasi berdistribusi seragam. Metode tersebut dapat uga diperluas penggunaannya untuk parameter populasi yang berdistribusi seragam dengan 2 parameter. 5. Daftar Pustaka Bernardo, J. dan R. Rueda, 22, Bayesian Hypotesis Testing : A Reference Approach, International Statistical Review 7, 351-372. 9
Juarez, M. A., 24, Obective Bayesian Methods for Estimation and Hypothesis Testing, Valencia : University of Valencia. Setiawan, A., 29, Estimasi Titik Bayesian Obyektif, Prosiding Seminar Sains dan Pendidikan Sains IV FSM UKSW, Salatiga. Setiawan, A., 21, Interval Kredibel Bayesian Obyektif dari Parameter Populasi Berdistribusi Poisson dan Eksponensial, Prosiding Seminar Sains dan Pendidikan Sains No. 1 Tahun 1, hal 73-78. Setiawan, A., 211, Inferensi Parameter Mean Populasi Normal dengan Metode Bayesian Obyektif, Prosiding Seminar Sains dan Pendidikan Sains No. 1 Tahun 2 hal 584-593