Suplemen Responsi Pertemuan ANALISIS DATA KATEGORIK (STK351) 6 Departemen Statistika FMIPA IPB Pokok Bahasan Sub Pokok Bahasan Referensi Waktu Uji Kebaikan Suai Khi- Kuadrat untuk Sebaran Kontinu dan Uji Kebaikan Suai Kolmogorov Smirnov Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu Uji Kolmogorov-Smirnov Satu Contoh Uji Lilliefors untuk Kenormalan Uji Kolmogorov-Smirnov Dua Contoh Applied Nonparametric Statistic Daniel (1990) Jumat 19 Nov 2010 15.30 16.30 Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu Uji kebaikan suai khi-kuadrat untuk sebaran kontinu pada prinsipnya sama dengan sebaran diskret seperti yang telah dipelajari pada pertemuan sebelumnya. Sebagai ilustrasi, diberikan contoh pengujian kebaikan suai khi-kuadrat untuk sebaran normal. Sebuah contoh acak umur (life-time) aki mobil ditampilkan pada tabel berikut. Apakah umur aki mobil mengikuti sebaran normal? Life time (tahun) 0 1 12 1 2 94 2 3 170 3 4 188 4 5 28 5 6 8 Total 500 Frekuensi Sumber : http://courses.wcupa.edu/rbove/berenson Hipotesis : H 0 : Umur aki mobil menyebar normal dengan ratan dan ragam yang tidak diketahui : Umur aki mobil tidak menyebar normal H 1 : Jika rataan,, dan ragam, 2, tidak diketahui, kita dapat menduga keduanya menggunakan data contoh. Menghitung rataan dan ragam disarankan dilakukan dari data yang sudah dikelompokkan. Rumus untuk menghitung rataan dan ragam contoh dari data yang sudah dikelompokkan adalah : Rataan : r i1 n f i i r 2 i r 2 1 i i i 1 i i n f f 2 Ragam : n( n 1)
Dalam hal ini f i adalah frekuensi pada selang/kelompok ke-i, i adalah nilai tengah selang ke-i, dan n adalah banyaknya pengamatan. Untuk data umur 2 aki di atas, kita peroleh : 2.80 dan 0.940, 0.970. Langkah selanjutnya adalah menghitung frekuensi harapan untuk setiap selang dengan asumsi bahwa data menyebar normal. Pertama-tama kita menghitung frekuensi relatif harapan atau proporsi harapan untuk kemudian menghitung frekuensi harapan dengan cara mengalikan nilai proporsi harapan dengan ukuran contoh. Dalam hal ini : Li Ui Frek. relatif harapan : P() zli Z zui P Z z Li dan z Ui adalah bentuk normal baku dari batas bawah dan batas atas selang ke-i. Sebagai contoh, untuk selang (1 2) diperoleh 1 2.80 2 2.80 z L 1.86, dan z U 0.82. Berdasarkan tabel normal 0.970 0.970 baku (A.2) diperoleh P( 1.86 Z 0.82) 0.2048 0.0318 0.1730. Sehingga, frekuensi harapan untuk selang ini adalah 0.1730(500)= 86.5. Tabel berikut menampilkan tahapan di atas untuk seluruh data : Life time (tahun) L Ui z Ui P(Z<z Ui ) P(z Li <Z<z Ui ) E i O i (O i E i ) 2 / E i 0 0 2.89 0.0019 0.0019 0 1 1 1.86 0.0318 0.0299 15.90 12 0.9566 1 2 2 0.82 0.2048 0.1730 86.50 94 0.6503 2 3 3 0.21 0.5817 0.3769 188.45 170 1.8063 3 4 4 1.24 0.8920 0.3103 155.15 188 6.9553 4 5 5 2.27 0.9883 0.0963 48.15 28 8.4325 5 6 6 3.30 0.9995 0.0112 6 1.0000 0.0005 5.85 8 0.7902 Total 1.0000 500 500 19.5912 Selang ( 0) dan (6 ) digabungkan dengan selang terdekatnya karena nilai frekuensi harapan untuk kedua selang tersebut kurang dari 1. Berdasarkan tabel di atas, statistik uji 2 X 19.5912 dengan derajat bebas 6 1 1 1 = 3. Keputusan : Berdasarkan tabel A.11, diketahui. Karena 2 (1 0.05)( db 3) 7.815 X 2 2 1 0.05 maka hipotesis nol ditolak dan simpulkan bahwa masa hidup aki mobil tidak menyebar normal pada taraf nyata 5%. 2 / 8
Uji Kolmogorov-Smirnov Satu Contoh Uji kebaikan suai khi-kuadrat yang telah dipelajari pada kesempatan sebelumnya dirancang untuk digunakan pada data kategorik: nominal ataupun ordinal. Untuk data kontinu, pengujian kebaikan suai Kolmogorov-Smirnov lebih tepat untuk digunakan. Ketika kita menguji kebaikan suai Kolmogorov-Smirnov untuk satu contoh sebenarnya kita fokus pada dua fungsi sebaran kumulatif, yaitu sebaran kumulatif yang dihipotesiskan dan sebaran kumulatif contoh teramati. Untuk menyatakan fungsi sebaran kumulatif biasanya kita menggunakan huruf kapital. Sebagai contoh, untuk tertentu, F() berarti peluang bahwa nilai peubah acak X sama dengan atau lebih kecil dari, ditulis F()=P(X ). Misalkan sebuah contoh acak berasal dari fungsi sebaran yang tidak diketahui, F(). Kita tertarik untuk mengetahui apakah kita dapat menyimpulkan bahwa F() F 0 () untuk semua. Apabila F() = F 0 () maka F 0 () akan sama dengan, atau mendekati, S() atau fungsi sebaran empiris (contoh teramati). Tujuan uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah untuk mengetahui apakah jarak penyimpangan antara F 0 () dan S() cukup untuk meragukan hipotesis bahwa F() = F 0 (). Asumsi Data merupakan contoh acak yang saling bebas berukuran n, terdiri dari pengamatan X 1, X 2,, X n, yang berasal dari fungsi sebaran yang tidak diketahui, F(). Hipotesis Misalkan F 0 () adalah fungsi sebaran yang dihipotesiskan (fungsi peluang kumulatif). a. H 0 : F() = F 0 () untuk semua nilai H 1 : F() F 0 () untuk minimal satu nilai b. H 0 : F() F 0 () untuk semua nilai H 1 : F() < F 0 () untuk minimal satu nilai c. H 0 : F() F 0 () untuk semua nilai H 1 : F() > F 0 () untuk minimal satu nilai Misalkan, S() adalah fungsi peluang kumulatif dari data contoh, atau S() Frek. () X n Statistik uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah : a. H 1 : F() F 0 () Statistik uji : D sup ()() S F 0 b. H 1 : F() < F 0 () c. H 1 : F() > F 0 () Statistik uji : D sup[()()] F S Statistik uji : D sup[()()] S F 0 0 3 / 8
Kaidah Keputusan Tolak H 0 pada taraf nyata α jika statistik uji yang sesuai (D, D + atau D - ) lebih besar dari kuantil 1 α tabel Kolmogorov (A.18). Contoh : Misalkan nilai ujian mahasiswa di suatu kelas ditampilkan pada tabel berikut. Apakah kita dapat menyimpulkan bahwa nilai ujian tersebut meyebar normal dengan rataan 70 dan simpangan baku 10? Nilai ujian 61 67 79 81 73 70 64 51 75 53 79 80 72 60 76 92 91 70 70 59 58 58 73 76 69 67 69 66 72 80 59 72 69 69 62 58 77 69 46 75 Hipotesis : H 0 : F() = F 0 (), dalam hal ini F() adalah fungsi sebaran contoh, dan F 0 () adalah fungsi sebaran normal dengan =70 dan =10. : F() F 0 () H 1 : Karena hipotesis yang diuji bersifat dua arah, statistik uji yang digunakan adalah D sup ()() S F 0. i f i fk i S( i ) z i P(0 Z z i ) F 0 ( i ) S( i )- F 0 ( i ) S( i-1 )- F 0 ( i ) 46 1 1 0.025-2.40 0.4918 0.0082 0.0168 0.0082 51 1 2 0.050-1.90 0.4713 0.0287 0.0213 0.0037 53 1 3 0.075-1.70 0.4554 0.0446 0.0304 0.0054 58 3 6 0.150-1.20 0.3849 0.1151 0.0349 0.0401 59 2 8 0.200-1.10 0.3643 0.1357 0.0643 0.0143 60 1 9 0.225-1.00 0.3413 0.1587 0.0663 0.0413 61 1 10 0.250-0.90 0.3159 0.1841 0.0659 0.0409 62 1 11 0.275-0.80 0.2881 0.2119 0.0631 0.0381 64 1 12 0.300-0.60 0.2257 0.2743 0.0257 0.0007 66 1 13 0.325-0.40 0.1554 0.3446 0.0196 0.0446 67 2 15 0.375-0.30 0.1179 0.3821 0.0071 0.0571 69 5 20 0.500-0.10 0.0398 0.4602 0.0398 0.0852 70 3 23 0.575 0.00 0.0000 0.5000 0.0750 0.0000 72 3 26 0.650 0.20 0.0793 0.5793 0.0707 0.0043 73 2 28 0.700 0.30 0.1179 0.6179 0.0821 0.0321 75 2 30 0.750 0.50 0.1915 0.6915 0.0585 0.0085 76 2 32 0.800 0.60 0.2257 0.7257 0.0743 0.0243 77 1 33 0.825 0.70 0.2580 0.7580 0.0670 0.0420 79 2 35 0.875 0.90 0.3159 0.8159 0.0591 0.0091 80 2 37 0.925 1.00 0.3413 0.8413 0.0837 0.0337 81 1 38 0.950 1.10 0.3643 0.8643 0.0857 0.0607 91 1 39 0.975 2.10 0.4821 0.9821 0.0071 0.0321 92 1 40 1.000 2.20 0.4861 0.9861 0.0139 0.0111 Nilai maksimum : 0.0857 0.0852 4 / 8
Pertama-tama kita hitung S(). Kemudian, untuk mendapatkan F 0 (), semua nilai teramati diubah kedalam bentuk normal baku z, dan menggunakan tabel normal baku (A.2) dicari luas area yang sama dengan atau lebih kecil dari z. Tabel di atas meringkas prosedur tersebut. Dari tabel di atas, diperoleh D = 0.0857 Keputusan : Berdasarkan tabel A.18, untuk pengujian hipotesis dua arah dengan n = 40 dan α = 0.05 diperoleh nilai kritis D = 0.210. Karena statistik uji D lebih kecil dari nilai kritisnya maka hipotesis nol diterima dan simpulkan bahwa nilai ujian mahasiswa diindikasikan menyebar normal dengan rataan 70 dan simpangan baku 10. Pada pengujian ini, p-value>0.20. Catatan : Jika sebaran yang diuji adalah sebaran kontinu, selain menghitung S( i )- F 0 ( i ) kita juga perlu untuk menghitung S( i-1 )- F 0 ( i ). Statistik D merupakan satu diantara bilangan tersebut yang terbesar. Pada contoh di atas, nilai maksimum untuk S( i )- F 0 ( i ) = 0.0857 sedangkan nilai maksimum untuk S( i-1 )- F 0 ( i ) = 0.0852, sehingga D = 0.0857. Akan tetapi, jika kita menguji sebaran diskret, kita cukup menghitung S( i )- F 0 ( i ). Uji Lilliefors untuk Kenormalan Prosedur Kolmogorov-Smirnov satu contoh hanya dapat digunakan untuk menguji hipotesis awal bahwa contoh berasal dari populasi dengan parameter tertentu yang diketahui. Jika parameter populasi tidak diketahui, dengan kata lain perlu pendugaan parameter populasi melalui data contoh, nilai kritis untuk uji Kolmogorov-Smirnov perlu dikoreksi. Salah satu prosedur yang digunakan untuk tujuan ini diperkenalkan oleh Lilliefors (1967). Uji Lilliefors digunakan untuk menguji hipotesis awal bahwa contoh berasal dari populasi yang menyebar normal atau eksponensial dengan parameter tertentu yang tidak diketahui. Untuk menguji kenormalan data, uji Lillifors mengikuti tahapan berikut : Asumsi Data merupakan contoh acak yang saling bebas berukuran n, terdiri dari pengamatan X 1, X 2,, X n, yang berasal dari fungsi sebaran yang tidak diketahui, F(), dengan rataan dan simpangan baku yang tidak diketahui. Hipotesis H 0 H 1 : Contoh berasal dari populasi yang menyebar normal : Contoh bukan berasal dari populasi yang menyebar normal D sup ()() S F 0 Kaidah Keputusan Tolak H 0 pada taraf nyata α jika statistik uji D lebih besar dari titik kritis yang ditampilkan pada tabel A.19(a), A.19(b) atau A.19(c). 5 / 8
Contoh : Berikut adalah umur penggunaan atau daya tahan lampu (dalam tahun). Apakah daya tahan lampu menyebar normal? Data tahan lampu (tahun) 2.59 3.21 2.88 2.65 2.44 2.19 1.70 2.46 3.25 2.97 2.14 2.42 3.53 2.90 2.46 Hipotesis : H 0 : Daya tahan lampu menyebar normal dengan parameter yang tidak diketahui : Daya tahan lampu tidak menyebar normal H 1 : D sup ()() S F 0 Berdasarkan perhitungan kita peroleh nilai dugaan bagi rataan, 2.6527 dan simpangan baku, 0.4790 tahun. Dengan prosedur yang sama dengan uji Kolmogorov-Smirnov satu contoh, dapat kita peroleh : i S( i ) z i F 0 ( i ) S( i )- F 0 ( i ) S( i-1 )- F 0 ( i ) 1.70 0.067-1.99 0.0234 0.0433 0.0234 2.14 0.133-1.07 0.1422 0.0089 0.0756 2.19 0.200-0.97 0.1670 0.0330 0.0337 2.42 0.267-0.49 0.3136 0.0469 0.1136 2.44 0.333-0.44 0.3285 0.0048 0.0618 2.46 0.400-0.40 0.3437 0.0563 0.0104 2.46 0.467-0.40 0.3437 0.1229 0.0563 2.59 0.533-0.13 0.4479 0.0854 0.0187 2.65 0.600-0.01 0.4978 0.1022 0.0356 2.88 0.667 0.47 0.6824 0.0158 0.0824 2.90 0.733 0.52 0.6972 0.0362 0.0305 2.97 0.800 0.66 0.7461 0.0539 0.0128 3.21 0.867 1.16 0.8777 0.0110 0.0777 3.25 0.933 1.25 0.8938 0.0395 0.0271 3.53 1.000 1.83 0.9665 0.0335 0.0332 Statistik uji D = 0.1229 Nilai maksimum : 0.1229 0.1136 Keputusan : Berdasarkan tabel A.19(c), untuk pengujian hipotesis dua arah dengan n = 15 dan α = 0.05 diperoleh nilai kritis D = 0.219. Karena statistik uji D lebih kecil dari nilai kritisnya maka hipotesis nol diterima dan simpulkan bahwa daya umur penggunaan atau tahan lampu mahasiswa diindikasikan menyebar normal. Pada pengujian ini, p-value>0.20. 6 / 8
Uji Kolmogorov-Smirnov Dua Contoh Uji Kolmogorov-Smirnov dua contoh digunakan untuk menguji hipotesis bahwa dua contoh yang saling bebas berasal dari populasi yang identik dengan mempertimbangkan ukuran pemusatan (lokasi) dan penyebaran. Berbeda dengan prosedur -prosedur lain yang telah dipelajari pada kesempatan sebelumnya, uji Kolmogorov-Smirnov sangat sensiitif terhadap berbagai perbedaan yang mungkin ada di antara dua sebaran. Asumsi a. Data yang dianalisis terdiri dari dua contoh acak yang saling bebas dengan ukuran m dan n. Pengamatan dinotasikan sebagai X 1, X 2,, X m dan Y 1, Y 2,, Y n. b. Data diukur setidaknya dalam skala ordinal. Hipotesis Andaikan F 1 () dan F 2 () adalah fungsi sebaran yang tidak diketahui untuk X dan Y. Hipotesis yang dapat disusun adalah : a. H 0 : F 1 () = F 2 () untuk semua nilai H 1 : F 1 () F 2 () untuk minimal satu nilai b. H 0 : F 1 () F 2 () untuk semua nilai H 1 : F 1 () > F 2 () untuk minimal satu nilai c. H 0 : F 1 () F 2 () untuk semua nilai H 1 : F 1 () < F 2 () untuk minimal satu nilai Andaikan S 1 () dan S 2 () adalah fungsi peluang kumulatif dari data contoh X dan Y, dengan : S () 1 Frek. () X dan S2() m Frek. () Y n Statistik uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah : a. H 1 : F 1 () F 2 () Statistik uji : D maksimum ()() S 1 S 2 b. H 1 : F 1 () > F 2 () Statistik uji : D maksimum [()()] S 1 S 2 c. H 1 : F 1 () < F 2 () Statistik uji : D maksimum [()()] S S 2 1 Kaidah Keputusan Tolak H 0 pada taraf nyata α jika statistik uji yang sesuai (D, D + atau D - ) lebih besar dari kuantil 1 α tabel Smirnov (A.18). Jika m = n gunakan A.18(a), jika m n gunakan A.18(b). 7 / 8
Contoh : Suatu ujian untuk mata kuliah yang sama dilakukan dalam dua waktu berbeda, yaitu pagi dan sore hari. Nilai ujian ditampilkan pada tabel berikut. Apakah nilai ujian pagi dan sore mempunyai fungsi sebaran yang identik? Pagi 98 82 92 88 94 85 86 90 80 95 Sore 80 96 90 81 92 86 85 80 93 Hipotesis : H 0 : Nilai ujian pagi dan nilai ujian sore mempunyai sebaran yang identik H 1 : Nilai ujian pagi dan nilai ujian sore mempunyai sebaran yang berbeda : D maksimum ()() S S 2. Berdasarkan tabel di bawah ini diperoleh D=0.233. Nilai Ujian Pagi 1 Nilai Ujian Sore 1i fk 1i S 1 ( i ) 2i fk 2i S 2 ( i ) S 1 ( i ) S 2 ( i ) 80 1 0.1000 80 2 0.2222 0.1222 1 0.1000 81 3 0.3333 0.2333 82 2 0.2000 3 0.3333 0.1333 85 3 0.3000 85 4 0.4444 0.1444 86 4 0.4000 86 5 0.5556 0.1556 88 5 0.5000 5 0.5556 0.0556 90 6 0.6000 90 6 0.6667 0.0667 92 7 0.7000 92 7 0.7778 0.0778 7 0.7000 93 8 0.8889 0.1889 94 8 0.8000 8 0.8889 0.0889 95 9 0.9000 8 0.8889 0.0111 9 0.9000 96 9 1.0000 0.1000 98 10 1.0000 9 1.0000 0.0000 Nilai maksimum : 0.2333 Keputusan : Untuk ukuran contoh 10 dan 9, berdasarkan tabel A.20(b) titik kritis D=26/45 =0.5778 ( α=0.05). Karena statistik uji lebih kecil dari titik kritisnya, maka hipotesis nol diterima dan simpulkan bahwa nilai ujian pagi dan sore mempunyai fungsi sebaran yang identik. Self-Study : 1. Selang kepercayaan (1-α)100% pada Kolmogorov-Smirnov 2. Komparasi uji kebaikan suai khi-kuadrat dan Kolmogorov-Smirnov Note : CMIIW (Correct Me If I m Wrong) 8 / 8