Goodness of fit (GoF) Test 1/4/2019

Sering dalam statistik, kita asumsikan suatu sampel berasal dari suatu distribusi tertentu Goodness-of-fit (GoF) test membantu kita untuk mengetahui apakah distribusi yang kita asumsikan relevan dengan data yang kita miliki.

Kolmogorov GoF test Fungsi distribusi empirik, F(x), dari suatu sampel adalah suatu estimasi dari fungsi distribusi kumulatif, F x, dari populasinya sampel tersebut. S x F x F x = P X x

Jika F(x) dekat dengan cdf dari distribusi yang kita asumsikan maka asumsi kita relevan. Jika F(x) jauh dari cdf dari distribusi yang diasumsikan, maka asumsi kita dapat ditolak.

Ilustrasi

Jarak F(x) dan F(x) Kolmogorov: T = sup F x F(x) x perbedaan vertikal antara F(x) dan F(x) yang paling besar.

Kolmogorov Goodness of Fit test Asumsi : X 1, X 2,, X n saling bebas. Statistik uji berdasarkan hipotesis: T = sup x F x F x untuk dua arah T + = sup x F x F x satu arah T = sup( F x F x ) satu arah x Gunakan Tabel Kolmogorov untuk n 40 Untuk n > 40 gunakan aproksimasi distribusi

Hipotesa 2 arah H 1 : F x H 0 : F x = F (x) F x, untuk beberapa x Tolak H 0 jika T > w 1 α (Tabel Kolmogorov 2 arah)

Hipotesa 1 arah (+) H 0 : F x H 1 : F x F (x) < F x Tolak H 0 jika T + > w 1 α (Tabel Kolmogorov 1 arah)

Hipotesa 1 arah (-) H 0 : F x H 1 : F x F x > F x Tolak H 0 jika T > w 1 α ( Kolmogorov 1 arah )

Contoh 10 observasi diperoleh dari suatu sampel yang diduga berasal dari distribusi seragam (0,1) Data sampel: 0.203, 0.329, 0.382, 0.477, 0.480, 0.503, 0.554, 0.581, 0.621, 0.710. Apakah distribusi yang diasumsikan dapat dianggap benar? α = 5%.

Distribusi yang diasumsikan F x 0 1

H 0 : F x H 1 : F x = F x F x Statistik uji: T = 0,290 Keputusan: w 0,95 = 0,409 T < w 0,95 maka H 0 tidak ditolak Kesimpulan: distribusi seragam (0,1) relevan dengan data

Contoh 2 Sebelumnya banyaknya tumor pada ginjal berdistribusi Poisson dengan laju 1,75. Diambil sampel 18 ginjal dan diperoleh data banyaknya tumor dari setiap ginjal sebagai berikut: 2,2,4,1,3,1,4,0,2,2,1,1,0,2,2,3,3,3. Apakah terdapat bukti bahwa distribusi banyaknya tumor lebih besar secara stokastik dari sebelumnya?

P X > x > P X > x P X x < P X x H 0 : F x F x vs. H 1 : F x < F x T + = 0,4106, w 0,95 = 0,279 Keputusan: T + > w 0,95 H 0 ditolak Kesimpulan: Distribusi sebenarnya cenderung akan memberikan banyaknya tumor lebih besar dibanding distribusi Poisson(1,75).

Selang kepercayaan 1 α 100% Batas bawah : S x w 1 α Batas atas: S x + w 1 α

Uji Lilliefors untuk uji kenormalan X 1, X 2,, X n sampel acak berukuran n berasal dari distribusi yang tidak diketahui F x Rataan sampel : n Variansi sampel X = 1 n i=1 X i Normalisasi : s = 1 n 1 Z i = X i X s n i=1 X i X 2, i = 1,2,, n

F x N 0,1 Statistik Uji: T 1 = sup F x S(x) x S x disini distribusi empirik data yang dinormalisasi!

Hipotesa H 0 : sampel acak berasal dari populasi berdistribusi normal dengan mean dan standar deviasi yang tidak diketahui H 1 : distribusi dari sampel acak X i bikan normal. Keputusan: TolakH 0 jika T 1 > w 1 α pda tabel Lillyfors

Contoh X i Z i X i Z i X i X i X i 23 36 54 61 73 23 37 54 61 73 24 40 56 62 74 27 42 57 63 75 29 43 57 64 77 31 43 58 65 81 32 44 58 66 87 33 45 58 68 89 33 48 58 68 93 35 48 59 70 97

T 1 = 0,08 w 0,95 = 0,886 n = 0,886 50 = 0,125 T 1 < w 0,95 maka H 0 tidak ditolak Kesimpulan: Distribusi Normal dapat sesuai dengan data

Lillyfors untuk uji eksponensial H 0 : sampel acak memiliki distribusi eksponensial H 1 : tidak eksponensial Data sampel acak X 1, X 2,, X n Transformasi : Z i = X i, i = 1,2,, n. X Statistik uji : T 2 = sup F x S x x Keputusan: Tolak H 0 jika T 2 > w 1 α pada tabel Lillyfors untuk eksponensial

Contoh 6,2,8,6,1,11,10,3,4,6 berasal dari distribusi eksponensial dengan parameter tidak diketahui. i X i Z i F z i S z i F z i F z i S z i 1 1 2 2 : :