ALGORITMA PENENTUAN UKURAN SAMPEL EKSAK UNTUK DISTRIBUSI NORMAL, DISTRIBUSI POISSON DAN DUA DISTRIBUSI BINOMIAL DALAM MODEL KELUARGA EKSPONENSIAL

dokumen-dokumen yang mirip
Pengantar Statistika Matematika II

Pengantar Statistika Matematika II

Pengantar Statistika Matematika II

Pengantar Statistika Matematika II

BAB 1 PENDAHULUAN. ii Bagaimana rata-rata atau nilai tengah dibuat oleh Stimulan eksternal.

Pengantar Statistika Matematika II

MENAKSIR PARAMETER µ DARI N( µ, ) DENGAN METODE BAYES

Penaksiran Parameter Regresi Linier Logistik dengan Metode Maksimum Likelihood Lokal pada Resiko Kanker Payudara di Makassar

LANDASAN TEORI. menyatakan hubungan antara variabel respon Y dengan variabel-variabel

Estimasi Titik. (Point Estimation) Minggu ke 1-3. Prof. Dr. Sri Haryatmi, M. Sc. Universitas Gadjah Mada

PENERAPAN MODEL REGRESI LINIER BAYESIAN UNTUK MENGESTIMASI PARAMETER DAN INTERVAL KREDIBEL

BAB I PENDAHULUAN. sewajarnya untuk mempelajari cara bagaimana variabel-variabel itu dapat

BAB 1 PENDAHULUAN Latar Belakang

Setiap karakteristik dari distribusi populasi disebut dengan parameter. Statistik adalah variabel random yang hanya tergantung pada harga observasi

STATISTIKA MATEMATIKA

Teorema Newman Pearson

Sarimah. ABSTRACT

INFERENSI STATISTIK DISTRIBUSI BINOMIAL DENGAN METODE BAYES MENGGUNAKAN PRIOR KONJUGAT. Oleh : ADE CANDRA SISKA NIM: J2E SKRIPSI

INFERENSI PARAMETER MEAN POPULASI NORMAL DENGAN METODE BAYESIAN OBYEKTIF

Modul 13 Ukuran Sampel

MA3081 STATISTIKA MATEMATIK(A) Bab 2: Distribusi Samp

PEMODELAN DENGAN REGRESI LOGISTIK. Secara umum, kedua hasil dilambangkan dengan (sukses) dan (gagal)

ESTIMASI TOTAL DAYA LISTRIK YANG HILANG MELALUI PROSES POISSON TERPANCUNG MAJEMUK

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN REGRESI POISSON DAN BINOMIAL NEGATIF DALAM MEMODELKAN JUMLAH KASUS PENDERITA AIDS DI INDONESIA BERDASARKAN FAKTOR SOSIODEMOGRAFI

Uji Hipotesis dan Aturan Keputusan

UJI STATISTIK NON PARAMETRIK. Widha Kusumaningdyah, ST., MT

KONSISTENSI ESTIMATOR

ESTIMASI PARAMETER MODEL REGRESI ZERO-INFLATED POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN

MODUL TEORI ESTIMASI ATAU MENAKSIR TEORI ESTIMASI ATAU MENAKSIR

Model Poisson. Inferensi likelihood. Andi Kresna Jaya November 19, Jurusan Matematika

KAJIAN DATA KETAHANAN HIDUP TERSENSOR TIPE I BERDISTRIBUSI EKSPONENSIAL DAN SIX SIGMA. Victoria Dwi Murti 1, Sudarno 2, Suparti 3

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Algoritma Expectation-Maximization(EM) Untuk Estimasi Distribusi Mixture

BAB 2 LANDASAN TEORI

INFERENSI PARAMETER SIMPANGAN BAKU POPULASI NORMAL DENGAN METODE BAYESIAN OBYEKTIF

BAB 2 LANDASAN TEORI

ESTIMASI PARAMETER UNTUK DISTRIBUSI HALF LOGISTIK. Jl. A. Yani Km. 36 Banjarbaru, Kalimantan Selatan

Pengantar Statistika Matematika II

BAB I PENDAHULUAN 1.1 Latar Belakang

II. TINJAUAN PUSTAKA. Ruang sampel S adalah himpunan semua hasil dari suatu percobaan. Kejadian E

Pengujian Overdispersi pada Model Regresi Poisson (Studi Kasus: Laka Lantas Mobil Penumpang di Provinsi Jawa Barat)

BAB II TINJAUAN PUSTAKA. (b) Variabel independen yang biasanya dinyatakan dengan simbol

PENGGUNAAN METODE BAYESIAN OBYEKTIF DALAM INFERENSI PARAMETER POPULASI SERAGAM

PENAKSIR PARAMETER DISTRIBUSI INVERS MAXWELL UKURAN BIAS SAMPEL MENGGUNAKAN METODE BAYESIAN. Rince Adrianti 1, Haposan Sirait 2 ABSTRACT ABSTRAK

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

PENAKSIR MAKSIMUM LIKELIHOOD DENGAN METODE ITERASI NEWTON - RAPHSON

ESTIMASI EROR STANDAR PARAMETER REGRESI LOGISTIK MENGGUNAKAN METODE BOOTSTRAP

RENCANA MUTU PEMBELAJARAN

ESTIMASI PARAMETER MODEL REGRESI POISSON TERGENERALISASI TERBATAS DENGAN METODE MAKSIMUM LIKELIHOOD

Kata Kunci: Model Regresi Logistik Biner, metode Maximum Likelihood, Demam Berdarah Dengue

Bagian 2. Probabilitas. Struktur Probabilitas. Probabilitas Subyektif. Metode Frekuensi Relatif Kejadian untuk Menentukan Probabilitas

Pr { +h =1 = } lim. Suatu fungsi dikatakan h apabila lim =0. Dapat dilihat bahwa besarnya. probabilitas independen dari.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

DEFICIENCY PENAKSIR PARAMETER PADA DISTRIBUSI GAMMA

BAB II TINJAUAN PUSTAKA

Distribusi Diskrit dan Kontinu yang Penting. Oleh Azimmatul Ihwah

BAB II LANDASAN TEORI. landasan pembahasan pada bab selanjutnya. Pengertian-pengertian dasar yang di

SILABUS MATA KULIAH. : Dapat menganalisis tentang statistika inferensial secara teoritik beserta komponen dan sifat-sifatnya

BAB I PENDAHULUAN. 1.1 Latar Belakang

Kontrak Kuliah Metode Statistika 2

E-Jurnal Matematika Vol. 3 (3), Agustus 2014, pp ISSN:

KARAKTERISTIK DISTRIBUSI KELUARGA TRANSFORMASI KHI-KUADRAT. Oleh : Entit Puspita. Dosen Jurusan pendidikan Matematika

Regresi Poisson dan Penerapannya Untuk Memodelkan Hubungan Usia dan Perilaku Merokok Terhadap Jumlah Kematian Penderita Penyakit Kanker Paru-Paru

DISTRIBUSI ERLANG DAN PENERAPANNYA. Rini Kurniasih 1, Getut Pramesti 2 Mahasiswi Pendidikan Matematika FKIP UNS, Dosen Pendidikan Matematika FKIP UNS

MODEL DISTRIBUSI TOTAL KERUGIAN AGGREGAT MANFAAT RAWAT JALAN BERDASARKAN SIMULASI

PENDUGAAN PARAMETER STATISTIK INDUSTRI 1

Masalah Overdispersi dalam Model Regresi Logistik Multinomial

SIMULASI DAMPAK MULTIKOLINEARITAS PADA KONDISI PENYIMPANGAN ASUMSI NORMALITAS

PENDUGAAN PARAMETER STATISTIK INDUSTRI 1

ESTIMASI. Arna Fariza PENDAHULUAN

Model Regresi Zero Inflated Poisson Pada Data Overdispersion

(R.2) KAJIAN PREDIKSI KLASIFIKASI OBYEK PADA VARIABEL RESPON BINER

MODEL REGRESI DATA TAHAN HIDUP TERSENSOR TIPE III BERDISTRIBUSI EKSPONENSIAL. Jln. Prof. H. Soedarto, S.H., Tembalang, Semarang.

TINJAUAN PUSTAKA. ruang sampel dan dilambangkan dengan huruf S. Ruang sampel beranggotakan

Catatan Kuliah MA3081 STATISTIKA MATEMATIKA Statistika Mengalahkan Matematika. disusun oleh Khreshna I.A. Syuhada, MSc. PhD.

METODE PREDICTION CONFIGURAL FREQUENCY ANALYSIS (PCFA) UNTUK MENENTUKAN KARAKTERISTIK USER DAN NON USER MOTOR X DI JAWA BARAT ABSTRAK

Statistika (MMS-1403)

BAB 2 LANDASAN TEORI DAN KAJIAN PUSTAKA

PENAKSIR RATA-RATA DISTRIBUSI EKSPONENSIAL TERPOTONG. Agustinus Simanjuntak ABSTRACT

Pengantar Statistika Matematika II

MODEL REGRESI LOGISTIK BINER DENGAN METODE PENALIZED MAXIMUM LIKELIHOOD. Edi Susilo, Anna Islamiyati, Muh. Saleh AF. ABSTRAK

PENAKSIR RASIO UNTUK VARIANSI POPULASI MENGGUNAKAN KOEFISIEN VARIASI DAN KURTOSIS PADA SAMPLING ACAK SEDERHANA

ESTIMASI PARAMETER DISTRIBUSI WEIBULL DENGAN TRANSFORMASI MODEL REGRESI MENGGUNAKAN METODE KUADRAT TERKECIL LINIER

STATISTIKA UNIPA SURABAYA

Pengantar Statistika Matematika II

MA3081 STATISTIKA MATEMATIKA We love Statistics

PREDICTION-CFA PADA CFA REGIONAL

BAB 2 LANDASAN TEORI

Pengantar Statistika Matematika II

ESTIMASI PARAMETER DISTRIBUSI WEIBULL DENGAN TRANSFORMASI MODEL REGRESI MENGGUNAKAN METODE KUADRAT TERKECIL LINIER

Generalized Ordinal Logistic Regression Model pada Pemodelan Data Nilai Pesantren Mahasiswa Baru FMIPA Universitas Islam Bandung Tahun 2017

ESTIMASI PARAMETER MODEL REGRESI ZERO ADJUSTED INVERSE GAUSSIAN (ZAIG) UNTUK MENENTUKAN BESAR KLAIM

statistika untuk penelitian

BAB I PENDAHULUAN. Dalam statistika, sebuah penaksir adalah sebuah fungsi dari sample data

STATISTIKA INDUSTRI 2 TIN 4004

Jurnal Gradien Vol 8 No 2 Juli 2012: Yuli Andriani, Uxti Mezulianti, dan Herlina Hanum

MODEL REGRESI COX PROPORTIONAL HAZARD PADA LAJU TAMAT MAHASISWA JURUSAN MATEMATIKA UNIVERSITAS ANDALAS

PEMODELAN DISPARITAS GENDER DI JAWA TIMUR DENGAN PENDEKATAN MODEL REGRESI PROBIT ORDINAL

Transkripsi:

ALGORITMA PENENTUAN UKURAN SAMPEL EKSAK UNTUK DISTRIBUSI NORMAL, DISTRIBUSI POISSON DAN DUA DISTRIBUSI BINOMIAL DALAM MODEL KELUARGA EKSPONENSIAL 1) Program Studi Matematika Universitas Ahmad Dahlan dian@math.uad.ac.id Abstrak Ketika akan melakukan suatu eksperimen dengan menggunakan pendekatan klasik ataupun pendekatan Bayesian, informasi tentang ukuran sampel yang tepat sangatlah penting. Penentuan ukuran sampel ini selain tergantung pada parameter yang diselidiki juga berkaitan dengan biaya yang dibutuhkan untuk survey data. Penentuan ukuran sampel yang tepat akan memberikan kesimpulan dan keputusan yang baik dengan biaya minimal. Tujuan dari penulisan ini adalah membahas masalah penentuan besarnya ukuran sampel untuk distribusi-distribusi dalam model keluarga eksponensial yaitu distribusi Normal, distribusi Poisson dan dua distribusi Binomial dengan menggunakan negatif log normed likelihood. Kata kunci : distribusi Normal, distribusi Poisson dan dua distribusi Binomial, fungsi likelihood, generalized likelihood ratio, ukuran sampel eksak 1. Pendahuluan 1.1 Teori Inferensi Statistik Teori inferensi statistik merupakan teori yang berkaitan dengan penarikan inferensi mengenai populasi yang didasarkan pada data sampel. Inferensi dapat dilakukan dengan dua pendekatan yaitu pendekatan klasik (frekuentif) dan pendekatan Bayesian. Dalam pendekatan klasik, inferensi didasarkan sepenuhnya pada informasi yang diperoleh melalui data sampel yang diambil dari populasi, sedangkan dalam pendekatan Bayesian, selain didasarkan seperti pada pendekatan klasik, inferensi juga dilakukan berdasarkan pada parameter populasi yang timbul dari sumber investigasi statistik yang lain. Informasi dari investigasi awal ini dikenal sebagai informasi prior. Inferensi statistik dapat dibagi kedalam dua bagian yang besar yaitu estimasi (penaksiran) dan pengujian hipotesa. Teori estimasi ini cukup menarik karena biasanya parameter populasi tidak diketahui, sehingga inferensi yang dilakukan terhadap parameter populasi tersebut dilakukan dengan menggunakan informasi sampel. Penaksiran parameter populasi yang tidak diketahui dibedakan menjadi dua pendekatan, yaitu pendekatan klasik dan pendekatan teori keputusan. Dalam pendekatan klasik, metode-metode yang sering digunakan untuk menaksir parameter 27

populasi diantaranya adalah metode moment dan metode maksimum likelihood. Persoalan dalam penaksiran parameter populasi adalah menentukan estimator terbaik, dimana dalam statistik klasik kriteria kebaikan suatu estimator diketahui dengan menyelidiki sifat ketakbiasan, asas kecukupan, variansi minimum dan sebagainya. Dalam pendekatan teori keputusan, inferensi didasarkan pada kombinasi informasi sampel dan aspek lain yang relevan untuk mendapatkan keputusan yang terbaik. Salah satu aspek yang dianggap relevan tersebut adalah pengetahuan tentang konsekuensi yang mungkin timbul dari keputusan yang diambil. Pengetahuan ini sering diukur dalam bentuk fungsi kerugian yang mungkin untuk setiap keputusan. Fungsi resiko didefinisikan sebagai harga harapan dari fungsi kerugian. Kriteria kebaikan dari suatu estimator, salah satunya dilihat dari besarnya resiko estimator tersebut. Salah satu konsep yang ditawarkan dalam pendekatan teori keputusan ini adalah memperoleh keputusan dengan resiko minimal. Penggunaan konsep ukuran sampel tetap tidak mungkin digunakan karena adanya parameter-parameter pengganggu. Karenanya untuk memperoleh keputusan yang ditawarkan adalah prosedur keputusan sekuensial. Prosedur keputusan ini mempunyai dua komponen, yang pertama adalah rencana sampling dan kedua aturan keputusan. Karena itulah maka ukuran sampel yang akan diambil merupakan variabel random. Sebelum melakukan eksperimen dengan menggunakan pendekatan klasik atau pendekatan Bayesian, dibutuhkan ukuran sampel yang tepat dan penentuan ukuran sampel tersebut biasanya berhubungan dengan kondisi tertentu dalam menentukan sebuah parameter. Penentuan ukuran sampel secara langsung berhubungan dengan biaya survey serta memiliki pengaruh yang sangat besar pada kesimpulan dan keputusan tentang parameter yang akan diperoleh. Dalam tulisan ini dibahas masalah penentuan ukuran sampel yang diambil untuk distribusi Normal, distribusi Poisson dan dua distribusi Binomial yang merupakan keluarga eksponensial dengan menggunakan negatif log normed likelihood masingmasing model karena statistik cukup untuk model-model dalam keluarga eksponensial adalah Maksimum Likelihood Estimation. 1.2 Maksimum Likelihood Estimation (MLE) Maksimum likelihood estimation (MLE) merupakan suatu metode pengestimasian yang sangat populer dan merupakan statistik cukup untuk keluarga eksponensial. Definisi. 1.[Soejoeti, 1990] Misalkan y, y,., y likelihood dari y adalah: sampel random dari f(y; θ) maka diperoleh fungsi L = L(θ) = f(y ; θ) 28

Dan fungsi log likelihoodnya : l(θ) = log(l(θ)) Misalkan w = h(y, y, y, )dimanasetiapnilai w memaksimumkan L(θ) yakni L(w) L(θ) untuk semua θ w dinamakan maksimum likelihood estimation (MLE) untuk θditulis w = θ 2. Negative Log Normed Likelihood dan Deviance Definisi. 2.[Lindsey, 1995] Misalkan Y, variabel random dengan distribusi probabilitas bergantung pada parameter tunggal θdan θ suatu estimasi maksimum likelihood dari θ dan f(y; θ) adalah fungsi densitas dari Y. Misalkan L(θ) sebagai fungsi likelihood untuk variabel θ dan L(θ) sebagai fungsi likelihood untuk estimasi maksimum likelihood parameter θ. Negative log normed likelihood dinotasikan l didefinisikan sebagai : l = log L(θ) L(θ) Deviance dinotasikan dengan D(θ) didefinisikan sebagai : D(θ) = 2 log Lθ L(θ) = 2 l Teorema 1.[Lindsey, 1997] Misalkan Y variabel random dengan distribusi probabilitas bergantung pada parameter tunggal θ, dan f(y; θ) merupakan anggota keluarga eksponensial linier sehingga dapat dinyatakan sebagai berikut : f(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)] : Bentuk umum fungsi negative log normed likelihood untuk satu observasi adalah l (y; θ) = yθ + yθ k (θ) dengan θ sebagai parameter kanonik, θ estimasi maksimum likelihood dari θ, k(θ)sama dengan c(θ) dan k(θ)sama dengan c(θ) 3. Penentuan ukuran sampel eksak untuk model keluarga eksponensial Negatif normed log likelihood pada masing-masing model digunakan untuk membandingkan harga-harga parameter dugaan dengan estimasi maksimum likelihood. Nilai besar dari negatif normed log likelihood mengindikasikan bahwa 29

model dugaan tidak masuk akal. Misalkan N, ukuran sampel yang akan dihitung dan sebagai contoh misalkan µ dan µ dua harga parameter yang diselidiki. Jika diambil suatu harga parameter dari suatu model, maka menurut J.K. Lindsey (1995) ada beberapa situasi yang mungkin terjadi ketika model-model tersebut dibandingkan : i. Negative log normed likelihood salah satu model lebih kecil dari l ii. Negative log normed likelihood kedua model lebih besar dari dari pada l karenanya kedua model tersebut tidak dapat diterima iii. Negative log normed likelihood kedua model lebih kecil dari l karenanya kedua model tersebut dapat diterima Dalam kasus pertama, kesimpulannya jelas. Dengan memilih ukuran sampel secara tepat, diharapkan kasus kedua yang disebabkan ukuran sampel lebih besar dari yang diperlukan dan kasus ketiga, karena ukuran sampel tidak cukup besar untuk membandingkan kedua model dari interest dapat dihindari. Keadaan ditengah kasus kedua dan kasus ketiga tersebut akan terjadi jika kita hanya mempunyai observasi cukup, dalam kasus terburuk, ketika kedua model sama jeleknya, keduanya akan mempunyai Negative log normed likelihood yang sama yaitu l. Jika hal ini terjadi, hubungan maksimum likelihood estimation (MLE) akan berada diantara kedua model dari yang diselidiki, keadaan dimana kedua model tersebut sama-sama tidak masuk akal. Karenanya pada keadaan terburuk, diharapkan masingmasing model berada pada batas menjadi tidak serupa dan diperlukan observasi yang cukup untuk membandingkan kedua model dalam situasi ini. Pemilihan ukuran sampel ini menjamin untuk dapat membandingkan kedua model. Dalam kasus terburuk, parameter kedua model akan dinyatakan tidak masuk akal dengan nilai Negative log normed likelihood kedua model sama dengan l. Dengan pemilihan ukuran sampel yang tepat, akan diperoleh Negative log normed likelihood untuk salah satu model yang lebih besar daripada l untuk model lainnya. Jika ukuran sampel lebih besar, fungsi likelihood akan menjadi terbatas dan terjadilah kasus kedua. Pada saat menghitung ukuran sampel eksak tanda topi (^) pada parameter sebagai indikasi maksimum likelihood estimation (MLE) dalam situasi kasus yang terburuk, bukan pada observasi sesungguhnya. Bagaimanapun, sebagaimana dimaksudkan diatas, nilai l bisa saja dipilih berdasarkan kriteria klasik, yaitu menggunakan deviance. Berdasarkan definisinya deviance juga merupakan rasio likelihood sehingga mempunyai distribusi asimtotis χ (p) dengan p merupakan jumlah parameter dan l adalah setengah dari nilai deviance. Sebagai contoh variabel acak berdistribusi asimtotis χ, dengan p-value 0.05 akan diperoleh nilai l =, = 1,92 4. Penentuan Ukuran Sampel Eksak untuk Keluarga Eksponensial Definisi 3. [Dobson, 1996] Untuk variabel random Y dengan distribusi probabilitas bergantung pada parameter tunggal θ, berlaku : a. Distribusi Y termasuk dalam keluarga eksponensial jika dapat ditulis sebagai : f(y; θ) = s(y)t(θ)e ()() 30

b. Bentuk diatas dapat juga dituliskan sebagai : f(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)] dengan s(y) = exp[d(y)] dan t(θ) = exp[c(θ)] c. Jika a(y) = y maka dikatakan distribusi tersebut berbentuk kanonik dan b(θ) disebut parameter natural Jika terdapat parameter lain selain θ, maka parameter tersebut dianggap sebagai parameter pengganggu (nuissance parameter) dan nilainya dianggap telah diketahui. Dalam keluarga eksponensial, l proporsinal secara langsung ke N dan terdapat hubungan satu-satu antara parameter dengan statistik cukup, sehingga penghitungan ukuran sampel eksak tersebut mudah untuk keluarga ini. Berdasarkan teorema 1, bentuk umum fungsi Negative log normed likelihood untuk satu observasi adalah : l (y; θ) = yθ + yθ k (θ) Dimana θ adalah parameter kanonik, circumflex mengindikasikan maksimum likelihood estimation (MLE). Bagaimanapun, lebih sederhana untuk bekerja dengan parameter nilai mean μ, yang mempunyai y sebagai estimasi maksimum likelihoodnya. Parameter kanonik adalah fungsi dari mean, katakan θ(μ). Selanjutnya, untuk N observasi, Negative log normed likelihood adalah : l = Nθ(μ)μ + Nkθ(μ) + Nθ(μ )μ Nk (θ(μ )) Dengan : Nμ = Ny = y Pada keadaan dimana kedua model sama buruknya (kasus kedua dengan Negative log normed likelihood lebih besar daripada l untuk kedua model sehingga kedua model tersebut tidak dapat diterima), maka dapat ditetapkan l sama dengan μ dan μ. Lebih lanjut dengan menyamakan persamaan l untuk model H dan l untuk model H diperoleh nilai : μ = (( )) (( )) ( ) ( ) sehingga dapat dihitung nilai : {() ( )}(( ))(()) 4.1. Penentuan Ukuran Sampel Eksak pada Distribusi Normal Definisi 4. [Lungan, 2006] Jika Y merupakan variabel random normal dengan mean μdan variansi σ maka fungsi densitas probabilitas Y adalah : 1 f(y; μ) = < x < σ 2π e() bentuk diatas dapat ditulis dalam bentuk kanonik : f(y; μ) = exp y yμ μ + 2σ σ 2σ 1 2 log[2πσ ] dengan parameter natural. 31

Lebih lanjut, Misalkan kasus klasik distribusi normal dengan variansi σ tak diketahui. Penentuan ukuran sampel eksak pada distribusi ini digunakan untuk dapat membandingkan dua model dengan mean yang berbeda. Misalkan model dengan mean µ dan µ. Karena fungsi likelihood untuk mean dari distribusi normal simetris maka : y = μ = ( ) sehingga diperoleh ( ) 4.2. Penentuan Ukuran Sampel Eksak pada Distribusi Poisson Definisi 5. [Montgomery, 2003] Variabel random Y dikatakan berdistribusi Poisson jika fungsi probabilitas massa variabel random tersebut adalah : f(y; λ) = y = 0, 1, 2,..! bentuk ini dapat ditulis dalam bentuk kanonik sebagai berikut : f(y; λ) = exp[y log λ λ log y!] dengan log λ sebagai parameter natural. Tujuan menentukan ukuran sampel eksak pada distribusi poisson adalah agar diperoleh ukuran sampel yang menjadikan interval konfidensi sekitar mean μ dari distribusi poisson mempunyai panjang. Karena interval tersebut tidak akan simetrik, maka definisikan interval tersebut sebagai (μ c, μ c + ), dimana μ akan tergantung pada sampel, adalah lebar interval yang diinginkan dan c adalah konstanta yang tidak diketahui untuk ketidaksimetrisan dan tergantung pada nilai μ. Telah diketahui rumus umum Negatif log normed likelihood adalah : l = Nθ(μ)μ + Nkθ(μ) + Nθ(μ )μ Nk(θ(μ )) dan distribusi Poisson bentuk kanonik : f(y; μ) = exp[y log μ μ log y!] diperoleh ukuran sampel l μ log μ log 1 + Persamaan ini dapat diplot untuk beragam nilai-nilai yang mungkin dari μ. 4.3. Penentuan Ukuran Sampel Eksak pada Dua Distribusi Binomial Definisi 6. [Montgomery, 2003] Suatu eksperimen random dengan n percobaan Bernoulli dimana a. Percobaan tersebut independen b. Hasil percobaan hanya dua yaitu sukses atau gagal 32

c. Probabilitas sukses dinotasikan π, sama untuk semua percobaan Variabel random Y yaitu jumlah sukses dalam n percobaan mempunyai distribusi binomial dengan fungsi probabilitas massa adalah f(y; π ) = n y π (1 π ) dengan y = 0,1,2,...,n dan 0 < π < 1 bentuk ini dapat ditulis dalam bentuk kanonik sebagai berikut : f(y; π ) = exp y log π y log(1 π ) + n log(1 π ) + log n y dengan parameter natural log. Penentuan ukuran sampel eksak pada dua distribusi binomial ini dilakukan untuk dapat menguji perbedaan antara dua distribusi binomial dan ingin dideteksi sehubungan dengan log odds ratio kedua model. Misalkan perbedaan antara dua distribusi binomial, sebagaimana digambarkan dengan suatu tabel kontingensi 2 x 2. Anggap sampel tersebut akan dipilih sedemikian hingga variabel penjelasnya berjumlah sama yaitu N/2 dalam masing-masing kategori. Misalkan fungsi distribusi binomial bentuk kanonik sebagai berikut : diperoleh sehingga π f(y ; π ) = exp y log + N log(1 π 1 π ) + log N y i = 1, 2 π θ(π ) = log maka θ(π 1 π ) = log π 1 π k {θ(π )} = log(1 π ) dan k {θ(π )} = log(1 π ) dengan tabel kontingensi 2 x 2 sebagai berikut : Tabel 1. Tabel Kontingensi 2 x 2 untuk sel frekuensi B A A1 A2 Total B1 Y1 (N/2)-Y1 N/2 B2 Y2 (N/2)-Y2 N/2 Tabel 2. Tabel Kontingensi 2 x 2 untuk sel probabilitas B A A1 A2 Total 33

B1 π 1 - π 1 B2 π 1 - π 1 dengan Y ~ B(N, π ) ; i = 1, 2. Jika dapat ditemukan perbedaan dalam distribusi responsi yang sesuai dengan nilai log odds ratio misalkan sebesar 2α, yang kemudian dibandingkan dengan model tanpa perbedaan dengan nilai log dds ratio 0. Karenanya, model yang akan digunakan adalah model logistik biner yang merupakan model yang multiplikatif dalam rasio atau odds probabilitas tetapi linear dalam log odds. Modelnya adalah sebagai berikut : π log = μ + α 1 π dengan π = 2y /N dimana y adalah jumlah sukses dalam kategori i, μ sebagai nilai yang ditentukan sama (untuk kedua kategori) dan α adalah nilai yang ditentukan khusus untuk masing-masing kategori. Persamaan diatas dapat diselesaikan untuk memperoleh probabilitas sebagai berikut : exp(μ + α ) π = ; i = 1, 2 1 + exp(μ + α ) Diasumsikan μ adalah mean diperoleh : log + log μ = 2 μ = μ + α + μ + α 2 diperoleh :α = α, dari yang diketahui, log odds rasio sama dengan2α, karenanya diperoleh : log π /(1 π ) = 2α π /(1 π ) π log log = 2α 1 π 1 π μ + α μ + α = 2α diperoleh α = α, sehingga dapat dinyatakan α = α dan α = α. Negatif log normed likelihood untuk suatu model dengan selisih 2α adalah : l = μ N 2 (π + π ) α N 2 (π + π ) + N log[{1 + exp(μ + α)}{1 + exp(μ α)}] 2 N + π 2 log π N 2 + N 2 (1 π ) log N 2 (1 π ) N + π 2 log π N 2 + N 2 (1 π ) log N 2 (1 π ) N log N 2 (Persamaan(i)) dari sisi lain, karena yang ingin diselidiki adalah perbedaan dalam dua distribusi binomial, maka untuk kasus dimana tidak terdapat perbedaan model-modelnya dapat dinyatakan bahwa π 34

log = μ dan log = μ + α hal ini sama dengan menyatakan bahwa α = 0 dan α = α, sehingga dengan asumsi-asumsi sebelumnya untuk model yang tidak mempunyai perbedaan diperoleh α = α = 0 sehingga l = μ N 2 (π + π ) + N log[{1 + exp(μ + α)}{1 + exp(μ)}] 2 N + π 2 log π N 2 + N 2 (1 π ) log N 2 (1 π ) N + π 2 log π N 2 + N 2 (1 π ) log N 2 (1 π ) N log N 2 (Persamaan(ii)) karena Negatif log normed likelihood untuk model dengan perbedaan dan untuk model tanpa perbedaan diasumsikan sama, persamaan (i) dan (ii) dapat disamakan sehingga diperoleh : N 2 (π π ) = y y = N + exp(μ + α)}{1 + exp(μ α)} log {1 2α {1 + exp(μ)} (Persamaan (iii)) lebih lanjut, dari penguraian persamaan (ii) diperoleh: l = N (1 + exp(μ)) log 2 {1 + exp(μ + α )}{1 + exp(μ + α )} + [π α + π α ] 2l (()) log + [π {( )}{( )} α + π α ] Suatu aproksimasi sederhana yang baik diperoleh dengan pengasumsian pada kasus terburuk yaitu α ditentukan sebagai setengah dari nilai α, sehingga diperoleh ukuran sampel sebagai berikut : 2l (()) log + [π + π ] log (()) 2l + 35

5. Algoritma Penentuan Ukuran Sampel Eksak untuk Pemilihan Model Terbaik Secara umum, penentuan model terbaik sangat berkaitan dengan penentuan ukuran sampel yang tepat dengan langkah - langkah sebagai berikut : 1. Identifikasi model H θ = θ H θ = θ 2. Ditentukan nilai l berdasarkan nilai p-value untuk deviance dengan distribusiχ (p) dimana p adalah jumlah parameter yang diselidiki. 3. Ditentukan rumus negative log normed likelihood untuk distribusi anggota keluarga eksponensial sebagai berikut : l = Nθ(μ)μ + Nkθ(μ) + Nθ(μ )μ Nk(θ(μ )) dengan Nμ = Ny = y 4. Hitung nilai μ (estimasi maksimum likelihood pada saat nilai l hitung kedua model sama) dengan rumus sebagai berikut : μ = k {θ(μ )} k {θ(μ )} θ(μ ) θ(μ ) 5. Tentukan ukuran sampel dengan rumus sebagai berikut : l μ {θ(μ ) θ(μ )} + k{θ(μ )} { ( )} 6. Ambil sampel berukuran N dari populasi dan hitunglah estimasi maksimum likelihood sampel tersebut. 7. Hitung Negatif log normed likelihood untuk kedua model dengan rumus umum sebagai berikut : i. Negatif log normed likelihood untuk model dibawah H (dinotasikan dengan l ) adalah l = Nθ(μ )μ + Nkθ(μ ) + Nθ(μ )μ Nk(θ(μ )) ii. Negatif log normed likelihood untuk model dibawah H (dinotasikan dengan l ) adalah l = Nθ(μ )μ + Nkθ(μ ) + Nθ(μ )μ Nk(θ(μ )) 8. Bandingkan nilai l dan l dengan nilai l Model dengan nilai Negatif log normed likelihood yang lebih besar dari l diindikasikan sebagai model dengan parameter yang tidak masuk akal. 36

Langkah tersebut dapat dirumuskan dalam algoritma sebagai berikut : Start Masukkan nilai θ dan θ Identifikasi Model H θ = θ H θ = θ Tentukan nilail berdasarkan nilai p-value untuk deviance dengan distribusi χ (p), p adalah jumlah parameter Tentukan nilaiμ Tentukan ukuran sampel (N) Hitung l, l dan l dengan menggunakan rumus l > l Tolak H θ = θ Terima H θ = θ Terima H θ = θ Tolak H θ = θ End 37

6. Contoh Penentuan Ukuran Sampel Eksak Misalkan suatu studi untuk mengetahui apakah terdapat perbedaan antara dua jenis kelamin dalam memberi respon terhadap pertanyaan dengan jawaban ya atau tidak. Model yang mewakili untuk menyelidiki perbedaan antara dua distribusi binomial ini digambarkan dalam tabel kontingensi 2 x 2 sebagai berikut : Tabel 2. Tabel Kontingensi 2 x 2 untuk sel probabilitasrespon dari laki-laki dan perempuan JK Respon Ya Tidak Total Laki-laki π 1 - π 1 Perempuan π 1 - π 1 Sehingga harus digunakan model logistic sebagai berikut : π log = μ + α 1 π ; i = 1, 2 Misalkan N adalah ukuran sampel sehingga masing-masing kategori dalam studi ini laki-laki dan perempuan mempunyai ukuran yang sama yaitu N/2 dan misalkan juga odds ratio ψ adalah 5, dari yang diketahui dapat dilakukan analisa sebagai berikut : π ψ =. 1 π = 5 1 π π π log ψ = log. 1 π = 1,6 1 π π Sehingga diperoleh α = 0,8 dan α = 0,8, situasi terburuk dimana perbedaan sulit untuk diketahui adalah jika α = 0,4. Lebih lanjut, misalkan π probabilitas rata-rata dari respon laki-laki dan perempuan yang menjawab ya sama dengan 0,5 maka μ = log π 1 π = log 0,5 1 0,5 = log 1 = 0 karenanya pada kasus terburuk dengan α = 0,4 jumlah laki-laki yang menjawab ya adalah : y = N 2. π = N 2. exp(μ + α ) 1 + exp(μ + α ) = N 2. exp(0,4 ) 1 + exp(0,4 ) 38

= N 2. 0,599 jumlah perempuan yang menjawab ya adalah : y = N 2. π = N 2. exp(μ + α ) 1 + exp(μ + α ) = N 2. exp( 0,4 ) 1 + exp( 0,4 ) jumlah sampel adalah : log (()) = N 2. 0,401 2l + dengan pengambilan l = 1,92 diperoleh ukuran sampel sebagai berikut : 2. 1,92 (()) log (,) + 0,4 {(,)}{(,)} (,) (,) (,) = 97,86 jadi dibutuhkan ukuran sampel minimal berukuran 98 untuk dapat membandingkan kedua model, bahkan pada kasus terburuk sekalipun karena semua kemungkinan dari sampel berukuran tersebut mempunyai Negatif log normed likelihood yang lebih kecil dari l untuk model yang satu dan lebih besar dari l untuk model yang lainnya. 7. Kesimpulan Ukuran sampel eksak adalah suatu ukuran sampel yang digunakan dalam membandingkan dua model dengan parameter yang berbeda. Pemilihan ukuran sampel eksak ini menjadikan nilai Negatif log normed likelihood dari kedua model yang ingin dibandingkan berbeda, dengan salah satunya lebih kecil dari l. Penentuan ukuran sampel eksak untuk distribusi Normal, Poisson dan Binomial dalam model keluarga eksponensial dengan menggunakan hubungan antara Negatif log normed likelihood dengan ukuran sampel, yaitu dengan persamaan sebagai berikut : l = Nθ(μ)μ + Nkθ(μ) + Nθ(μ )μ Nk (θ(μ )) sehingga : {() ( )}(( ))(()) dengan μ = (( )) (( )) ( ) ( ) Secara umum, penghitungan ukuran sampel agak sulit dilakukan karena nilai parameter yang diharapkan tidak diketahui dengan baik. Pada kondisi ini, 39

approksimasi normal standar secara umum memenuhi dan karenanya pendekatan likelihood untuk penghitungan ukuran sampel ini mempunyai banyak keuntungan antara lain : a. Metode umum yang sama dapat diaplikasikan untuk model keluarga eksponensial sebarang, termasuk model linear tergeneralisir. b. Perhitungannya relatif jelas. Diluar keluarga eksponensial dimana estimasi maksimum likelihood bukanlah merupakan statistik cukup, fungsi log likelihoodnya menjadi lebih kompleks sehingga sampel kasus terburuk tidak dapat secara umum diringkaskan/disimpulkan sebagai nilai skalar yang tunggal tapi tergantung pada konfigurasi (tak bisa diprediksi) dari keseluruhan sampel yang diobservasi. Pada kasus lainnya, modelnya menjadi terlalu kompleks sehingga sulit untuk menghitung ukuran sampel eksaknya. 8. Daftar Pustaka [1] Dobson, A.J. 1996. An Introduction to Generalized Linear Models. Chapman and Hall, London. [2] Lindsey, J.K. 1995. Introductory Statistics : The Modelling Approach. Oxford University Press, Oxford. [3] Lindsey, J.K. 1997. Exact Sample Size Calculation for Exponential Family Models. The Statistician, 46, 231-237. [4] Lungan, Richard. 2006. Aplikasi Statistika dan Hitung Peluang. Graha Ilmu, Yogyakarta. [5] Montgomery, Douglas C. 2003. Applied Statistics and Probability for Engineers. John Wiley and Sons, Inc., New York. [6] Soejoeti, Z. 1990. Peluang dan Statistika, Fakultas MIPA UGM, Yogyakarta. 40