Statistika Nonparametrik Oleh Prof. Drs. Suryo Guritno, M.Stats., Ph.D. 1
Asumsi2 Parametrik Observasinya harus independen Observasinya harus diambil dari populasi normal, kecuali ukuran sampel cukup besar Semua populasi variansinya harus sama (sifat homoskedastik) 2
Asumsi2 Nonparametrik Observasi2 nya independen Variablenya merupakan variabel yang kontinu atau berskala ordinal 3
Ukuran/Skala Data Ada 4 (empat) macam, yaitu: 1. Skala Nominal (Classificatory) Gender, latar belakang etnik 2. Skala Ordinal (Ranking) Kekerasan batu, kecantikan, pangkat militer 3. Skala Interval Celsius atau Fahrenheit 4. Skala Ratio Derajat Kelvin, kecepatan, tinggi, massa atau berat 4
Metode Nonparametrik Ada paling sedikit satu uji nonparametrik yang ekivalen dgn suatu uji parametrik Uji2 tersebut dapat di kelompokkan dalam beberapa kategori, yaitu: 1. Uji beda antar kelompok (sampel independen) 2. Uji beda antar variabel (sampel dependen) 3. Uji hubungan antar variabel 5
Inferensi Statistika Untuk Parameter Distribusi Binomial Jika berhadapan dengan suatu populasi dichotomous (hasilnya digolongkan sebagai sukses atau gagal: biasa juga dikenal sebagai populasi dua hasil), maka objek yang dapat dijadikan perhatian adalah p yaitu probabilitas mendapat sukses. 6
Untuk melakukan inferensi statistika untuk p, maka diambil sampel random berukuran-n dari populasi tersebut dan diketahui bahwa distribusi sampling jumlah sukses (dalam sampel random berukuran-n) berdistribusi Binomial dengan parameter p, ditulis Bin(n, p). 7
Jika X ~ Bin (n, p), maka n x nx f ( x) P( X x) p (1 p), x 0, 1, 2,... n x dengan mean X = np variansi X = np( 1 - p), dan X adalah jumlah sukses. 8
Jelas bahwa menggunakan teorema limit pusat dapat dibuktikan bahwa untuk n yang cukup besar X ~ N( np. np(1 p)) atau x p n p(1 p) n ~ n(0.1) 9
sehingga inferensi statistika untuk p dapat dilakukan berdasarkan distribusi normal. Suatu hal yang sering dilakukan agar hasil yang diperoleh menjadi lebih tepat adalah menggunakan faktor koreksi berhubung distribusi binomial adalah distribusi variabel random diskrit sedang distribusi normal adalah distribusi variabel random kontinu. 10
Faktor koreksi yang digunakan adalah + ditambah untuk batas atas dari X dan - ditambahkan untuk batas bawah. Jika n tidak cukup besar, maka pendekatan normal tidak dapat dilakukan, sehingga inferensi statistika untuk p adalah harus didasarkan pada distribusi binomial, yaitu dengan cara berikut: 11
1.1. Estimasi Interval Karena X ~ Bin (n, p), dari P( X X X ) (1 )100% L u dapat diperoleh interval konfidensi (1 - α) 100% untuk p adalah P p P L u 12
dengan p L, p u dapat diperoleh dari suatu tabel, misalnya tabel C6 dalam buku "Statistics : A Biomedical Introduction" oleh Brown & Hollander. 13
1.2. Uji Hipotesis Untuk menguji H 0 = p = p 0, daerah X ~ Bin (n, p 0 ), maka untuk menguji H a = p p 0, daerah kritisnya adalah X > x u atau X < X L dengan X u ditentukan dari dan X L ditentukan dari atau sebaliknya untuk H a = p > p 0, daerah kritisnya adalan X < X L dengan X L ditentukan dari P(X < X L ) α. 14
Catatan: 1. Untuk n, p tertentu X u atau X L dapat dicari dengan tabel distribusi Binomial. 2. Inferensi Statistika untuk experimen Bernoulli atau Binomial atau populasi dichotomous dapat pula dilakukan dengan pendekatan ke distribusi normal. 15
Karena X ~ Bin (n, p) dengan X = jumlah sukses dalam sampel, maka X adalah variabel random diskrit. Kriteria untuk menentukan apakah berlaku pendekatan normal adalah 0,1 < p < 0,9 (rule of thumb), maka distribusi tidak mungkin symetry. 16
Contoh 6.1 : Dari tabel di bawah ini ujilah apakah merokok mempengaruhi waktu hidup? Hidup Hidup Jumlah dalam 6 th Yang tidak 117 950 1067 merokok perokok 54 348 402 Jumlah 171 1298 1469 17
1.3. Inferensi Statistika Untuk Beda Proporsi Jika X1 ~ Bin (n1, p1) dan X2 ~ Bin(n2, p2), maka untuk menguji H o = p 1 = p 2 = p digunakan statistik P X n X 1 2 n 1 2 18
A Ā Jumlah Sampel I X 1 n 1 - X 1 n Sampel II X 2 n 2 - X 2 n 2 Jumlah X 1 + X 2 n 1 + n 2 - X 1 - X 2 n 1 + n 2 X k X X 1 1 2 ~??? 19
Sukses Gagal Sampel I p 1 1 - p 1 Sampel II p 2 1 - p 2 Berikut ini adalah suatu cara lain untuk melakukan inferensi statistika untuk membandingkan dua proporsi. Cara yang sangat populer ini adalah: 20
dengan X 1 ~ Bin (n 1, p 1 ) dan X 2 ~ Bin (n 2, p 2 ) saling independen, maka H o benar berakibat p 1 = p 2 = p, sehingga X 1 + X 2 ~ Bin (n 1 + n 2, p) dan P X x X X k 1 1 1 2 n1 n2 x k x 1 1 n n 1 2 k 21
Jika X berdistribusi Binomial ditulis : X ~ Bin (n, p), maka n x P( X x) p (1 p) x nx dengan x = 0, 1, 2,... n dan o < p < 1. Jika X ~ Bin (n x, p x ) dan Y ~ Bin (n y, p y ) dengan X dan Y saling independen, maka membandingkan px dan py dapat dilakukan dengan estimasi untuk p x - p y atau uji hipotesis H o = p x = p y 22
Jika dua populasi dependen, maka penyajian tabel keadaan berikut Sembuh tidak Obat A 18 82 100 Obat B 10 90 100 adalah tidak benar, karena yang dimaksud dengan data untuk masingmasing baris adalah untuk 100 orang sama. 23
Dengan demikian penyajian tabel yang benar adalah sebagai berikut Sembuh tidak Sakit 9 1 10 tidak 9 81 90 18 82 100 24
Dengan mudah dapat dilihat bahwa PA dan PB tidak independen. nab nab nab nab 25
Dari tabel di atas dapat diperoleh dengan mudah bahwa P p p dan p p p A AB AB B AB Dengan demikian untuk menguji H o = p A = p B adalah sama/ekivalen dengan menguji AB H p p o AB AB 26
nab n 1 AB n 1(, ) AB B n n AB AB 2 Jika dan tertentu maka Untuk n dan n besar, biasanya 25, AB AB maka n AB n AB n AB n AB N(0,1) atau n AB n AB n AB n AB 2 2 1 atau n n 1 AB n n AB AB AB N(0,1) 27
Perhatikan tabel berikut I X n X - X n X II Y n Y - Y n Y X + Y n X + n Y - X - Y n X + n Y Jika x + y, n x dan n y diketahui, maka yang lain juga diketahui dan k nx ny k x nx nn x y nx 1 x 1 x xy k P X 28
Untuk menguji H o = p x = p y = p, maka X ~ Bin(n x, p x ) dan Y ~ Bin (n y, p y ) saling independen mengakibatkan X - Y ~ Bin (n x + n y, p) jika H o benar. Dengan demikian berlaku x n x nx n 2 n n n n 1 y k n n k n n k x y x y x y x y ~ N(0,1) 29
Uji hipotesis di atas dapat juga digunakan untuk menguji homogenitas atau independensi. Jika digunakan tabel berikut Sukses O 11 O 12 n 1. Gagal O 21 O 22 n 2. n.1 n.2 n.. 30
maka statistik yang digunakan untuk menguji homogenitas adalah 2 x sedangkan yang digunakan untuk menguji independensi adalah 2 x 31
II. INFERENSI STATISTIKA UNTUK MEMBANDINGKAN k (> 2) POPULASI Setelah kita mempelajari bagaimana cara menguji Ho bahwa tidak ada beda antara mean dua populasi, suatu hal yang dapat difikirkan sebagai kelanjutannya adalah bagaimana cara menguji H o bahwa tidak ada beda antara mean k populasi. 32
Suatu cara yang dapat difikirkan untuk menyelesaikan hal tersebut adalah menguji H o dari semua pasangan 2 secara terpisah masing-masing menggunakan uji distribusi normal atau uji distribusi t. Andaikan ada 5 populasi yang akan diuji beda meannya, maka banyak semua pasangan 2 populasi yang mungkin ada, maka artinya kita akan melakukan 10 uji hipotesis terpisah. 33
Jika dipilih tingkat signifikansi α = 5% untuk setiap uji hipotesis, maka kemungkinan gagal menolak H o bahwa tidak ada aturan multiplikatif kemungkinan, jika dianggap masingmasing uji hipotesis independen satu dengan yang lain, maka kemungkinan gagal menolak H o dalam kesepuluh uji hipotesis adalah (95%) 10 = 59,87%. 34
Ini berakibat kemungkinan menolak paling sedikit satu Ho adalah 1-59,87% = 40,13%, yang adalah terlalu besar. Tentunya hal ini tidak akan disukai, sehingga perlu dicari jalan keluarnya, yaitu menggunakan metode analisis variansi (ANAVA atau ANOVA). 35
2.1. Model Analisis variansi satu arah Model ini sering juga disebut Rancangan Random Lengkap atau Model Analisis Satu Faktor. Data dari populasi-populasi yang diteliti dapat disajikan dengan cara sebagai berikut: 36
Treatment (= Perlakuan) 1 2 3... k x 11 x 12 x 13 x 1k xn 1 1 xn 2 2 xn 3 3... Xn k k Total T.1 T.2 T.3 T.k T.. Mean x x 1 x 2 3 x k x 37
-x ij = Observasi ke-i dari atau dalam populasi ke j. i = 1, 2,..., n i dan j = 1, 2,...k, x j ( k > 2). = mean perlakuan ke - j. x 1 = mean dari,,. x x 2 x k 38
Model Analisis variansi satu faktor ini adalah suatu teknik statistik untuk mempelajari hubungan antara suatu vairabel dependen dengan satu variabel independen (dalam hal ini biasa disebut faktor). Model ini dapat dibedakan menurut 2 macam, yaitu model efek tetap dan model efek random. Model efek tetep adalah model jika banyaknya perlakuan yang diteliti tertentu. 39
Beda antar kelompok independen Dua sampel membandingkan mean beberapa variabel yang menjadi perhatian Parametrik Uji-t untuk sampel independen Nonparametrik Uji runs Wald- Wolfowitz Uji U Mann- Whitney Uji Kolmogorov- Smirnov dua sampel 40
Uji U Mann-Whitney Padanan nonparametrik untuk uji t dua sampel Ukuran sebenarnya diganti dengan/oleh ranknya Data dapat di rank dari nilai tertinggi ke terendah atau dari terendah ke tertinggi Statistik U Mann-Whitney U = n 1 n 2 + n 1 (n 1 +1) R 1 2 41
Contoh Soal Uji U Mann-Whitney Hipotesis null dua sisi bahwa tidak ada beda tinggi mahasiswa putra dan putri H o : Tinggi mahasiswa putra dan putri sama H A : Tinggi mahasiswa putra dan putri tidak sama 42
U = n 1 n 2 + n 1 (n 1 +1) R 1 2 U=(7)(5) + (7)(8) 30 2 U = 35 + 28 30 U = 33 U = n 1 n 2 U Tinggi mhs putra (cm) Tinggi mhs putri (cm) Rank tinggi mhs putra Rank tinggi mhs putri 193 175 1 7 188 173 2 8 185 168 3 10 183 165 4 11 180 163 5 12 178 6 170 9 n 1 = 7 n 2 = 5 R 1 = 30 R 2 = 48 U = (7)(5) 33 U = 2 U 0.05(2),7,5 = U 0.05(2),5,7 = 30 As 33 > 30, H o ditolak 43
Beda antar kelompok independen Kelompok lebih dari satu Parametrik Analisis variansi (ANOVA/ MANOVA) Nonparametrik Analisis rank Kruskal-Wallis Uji Median 44
Beda antar kelompok dependen Membanding dua variabel diukur dalam sampel yang sama Jika lebih dari dua variabel diukur dalam sampel yang sama Parametrik Uji-t untuk sampel dependen ANOVA ukuran berulang Nonparametrik Uji Tanda Uji Data Berpasangan Wilcoxon ANOVA dua arah/faktor Friedman Cochran Q 45
Hubungan Antar Variabel Parametrik Koefisien Korelasi Pearson r Nonparametrik Spearman R Kendall Tau Gamma Koefisien Kedua variabel kategorik Chi Kuadrat Koefisien Phi Uji Eksak Fisher Koefisien 46
Skala Pengukuran Tabel Statistik Uji Parametrik dan Nonparametrik 1 Sampel 2 Sampel Karakteristik Sampel K ( >2) Sampel Independen Dependen Independen Dependen Korelasi Kategorik atau Nominal Χ 2 atau binomi al Χ 2 McNemar Χ 2 Χ 2 Cochran Q Rank atau Ordinal Rank Bertan da Wilcox on Mann Whitney U Rank Bertanda Wilcoxon Data Berpasangan Kruskal Wallis H Friendman ANOVA Spearman rho Parametrik (Interval & Ratio) Uji z atau Uji t Uji t antar kelompok Uji t dalam kelompok ANOVA 1 arah/faktor antar kelompok ANOVA 1 arah/faktor (within or repeated measure) Pearson r ANOVA 2 arah/faktor (Plonskey, 2001) 47
Keuntungan Uji Nonparametrik Probability statements obtained from most nonparametric statistics are exact probabilities, regardless of the shape of the population distribution from which the random sample was drawn If sample sizes as small as N=6 are used, there is no alternative to using a nonparametric test Siegel, 1956 48
Keuntungan Uji Nonparametrik Treat samples made up of observations from several different populations. Can treat data which are inherently in ranks as well as data whose seemingly numerical scores have the strength in ranks They are available to treat data which are classificatory Easier to learn and apply than parametric tests Siegel, 1956 49
Kritik untuk Metode Nonparametrik Losing precision/wasteful of data Kuasa rendah False sense of security Tidak banyak software pendukung Hanya menguji distribusi saja Tidak dapat digunakan untuk interaksi order tinggi 50
Kuasa suatu Uji Kuasa statistik probability of rejecting the null hypothesis when it is in fact false and should be rejected Power of parametric tests calculated from formula, tables, and graphs based on their underlying distribution Power of nonparametric tests less straightforward; calculated using Monte Carlo simulation methods (Mumby, 2002) 51
Pertanyaan? 52