BAB I DISTRIBUSI-DISTRIBUSI SAMPLING A. Deskripsi Pada bab ini kita akan belajar untuk mendeskripsikan distribusidistribusi mean dan proporsi sampel. Kita akan melihat bagaimana distribusi mean sampel ketika populasinya normal ataupun tidak normal. Selain itu, kita juga akan diajak untuk menentukan peluang dari proporsi sampel. B. Relevansi Ketika kita bekerja dengan statistik deskriptif, kita bisa merangkum dan menggambar grafik dari suatu data agar data tersebut jelas dan mudah untuk dipahami. Selain itu, dengan statistik ini kita juga bisa mendeskripsikan, mengekspolasi, dan membandingkan data. Akan tetapi kekuatan statistik tidak hanya berhenti di sini. Dengan statistik inferensial, kita bisa (1) menggunakan data sampel untuk mengestimasi parameter populasi, dan (2) menguji hipotesis atau klaim yang berkaitan dengan parameteri populasi. Dengan demikian, dalam bab ini akan dikenalkan konsep kunci dalam statistik inferensial, yaitu distribusi sampling. C. Capaian Pembelajaran Mendeskripsikan distribusi sampling mean: populasi normal. Mendeskripsikan distribusi sampling mean: populasi tidak normal. Mendeskripsikan distribusi sampling proporsi. Menghitung peluang proporsi sampel. 1.1 Distribusi Sampling Mean Karena kita akan mempelajari distribusi mean sampel, mari kita mulai pembahasan di sini dengan memahami definisi berikut. DEFINISI Distribusi sampling dari suatu statistik (misalnya mean dan proporsi sampel) adalah distribusi semua nilai dari statistik tersebut ketika semua kemungkinan sampel berukuran n diambil dari populasi yang sama. 1
2 Berdasarkan definisi distribusi sampel dari suatu statistik tersebut, maka distribusi sampling mean bisa didefinisikan sebagai berikut. DEFINISI Distribusi sampling mean adalah distribusi dari mean semua kemungkinan sampel dengan ukuran sama, yaitu n, yang diambil dari populasi yang sama. Untuk mengilustrasikan definisi distribusi sampling dari mean, perhatikan diagram Venn pada Gambar 1. Persegi panjang dalam diagram tersebut menggambarkan populasi, sedangkan sampel-sampel berukuran n digambarkan dengan lingkaran. Karena anggota-anggota dari masing-masing sampel bisa berbeda, maka nilai mean dari sampel-sampel tersebut juga bisa berbeda. Misalkan mean sampel 1 adalah 1, mean sampel 2 adalah 2, mean sampel 3 adalah 3, dan seterusnya. Dengan demikian, distribusi sampling mean sampelsampel dari populasi ini memuat 1, 2, 3, dan seterusnya. Gambar 1 Populasi dan sampel-sampel berukuran n Untuk lebih memahami mengenai distribusi mean sampel, perhatikan Contoh 1 berikut. CONTOH 1 Distribusi Sampel dari Mean Bayangkan Anda melempar undi sebuah dadu sebanyak 5 kali, dan ulangi proses tersebut secara terus menerus. Bagaimana perilaku mean sampel-sampel tersebut jika prosesnya diulang selamanya? PEMBAHASAN Anda dapat mensimulasikan proses lempar undi dadu tersebut dengan menggunakan Eel, tetapi dengan banyak percobaan yang terbatas. Misalkan kita batasi banyaknya percobaannya adalah 10.000, meskipun distribusi sampling yang sebenarnya harus memuat percobaan yang banyaknya tak hingga. Masing-masing 10.000 sampel
3 tersebut kita tentukan meannya, kemudian dari kesemua mean sampel tersebut kita tentukan mean, simpangan baku, dan variansinya, serta kita gambar histogram distribusinya untuk memperoleh Gambar 2 berikut. Gambar 2 Distribusi Mean Sampel Dari Gambar 2, kita bisa melihat mean dan simpangan baku dari mean 10.000 sampel adalah sebagai berikut. m = 3,508 s = 0,7617 Sekarang kita bandingkan statistik-statistik tersebut dengan parameter yang dimiliki oleh populasinya. Karena mata-mata dadu 1, 2, 3, 4, 5, dan 6 memiliki kemungkinan yang sama untuk muncul, maka parameter mata-mata dadu tersebut adalah 1+ 2+ 3+ 4+ 5+ 6 m = = 3,5 6 6 ( i - 3,5) i= 1 35 s = = 6 12 Dengan demikian, s 35 12 =» 0,7638 n 5
4 Dengan membandingkan mean dan simpangan baku dari distribusi mean 10.000 sampel dan populasinya, maka kita bisa mengamati bahwa mean dari mean 10.000 sampel tersebut mendekati mean populasinya, dan simpangan baku dari mean 10.000 sampel tersebut mendekati nilai dari simpangan baku populasinya dibagi dengan akar kuadrat ukuran sampelnya. Selain itu, dari Gambar 2 kita juga bisa mengamati bahwa distribusi mean 10.000 sampel tersebut mendekati distribusi normal. INTERPRETASI Meskipun percobaan yang telah kita simulasikan hanya terbatas, yaitu 10.000 percobaan, tetapi kita dapat mengamati bahwa mean dari distribusi sampling mean sama dengan mean dari populasinya, sedangkan simpangan baku distribusi sampling tersebut sama dengan simpangan baku populasinya dibagi dengan akar kuadrat dari ukuran sampel n. Meskipun pembuktiannya di luar lingkup buku ini, dari Contoh 1 kita bisa mengamati bahwa distribusi sampling dari mean memiliki karakteristik sebagai berikut. KARAKTERISTIK DISTRIBUSI SAMPLING MEAN 1. Mean dari distribusi sampling mean, yaitu m, sama dengan mean dari populasinya μ. m = m 2. Simpangan baku dari mean sampel-sampel s sama dengan simpangan baku populasi σ dibagi dengan akar kuadrat dari ukuran sampel n. s s = n 1.2 Teorema Limit Pusat Teorema Limit Pusat merupakan teorema yang sangat penting untuk statistika inferensial. Teorema ini mendeskripsikan hubungan antara distribusi sampling mean dan populasinya. Untuk lebih memahami mengenai teorema ini, perhatikan Contoh 2. CONTOH 2 Distribusi Sampling Mean
5 Penulis ingin mengetahui banyaknya kata dalam nama-nama mahasiswa yang pernah diampu. Dengan menggunakan data namanama mahasiswa, persentase banyaknya kata dalam nama-nama mahasiswa tersebut disajikan dalam Tabel 1 berikut. Tabel 1 Banyak Kata dalam Nama Mahasiswa Banyak Kata Persentase (%) 1 0,57 2 16,00 3 56,00 4 21,72 5 5,14 7 0,57 Total 100,00 Perkirakan distribusi sampling mean dengan melakukan 1000 kali percobaan melalui simulasi dengan sampel-sampel yang berukuran (a) n = 4, (b) n = 10, dan (c) n = 40. PEMBAHASAN Gambar 3 menunjukkan sebagian area Ecel dari sampel acak yang berukuran n = 4. Dalam gambar tersebut terdapat dua tabel. Tabel pertama merupakan tabel distribusi peluang, sedangkan tabel kedua menunjukkan sampel-sampel acak yang memuat 4 nilai. Misalnya, pada sampel 1, setelah dipilih 4 mahasiswa secara acak, ternyata nama mereka memuat 4, 4, 4, dan 2 kata. Kolom terakhir menunjukkan mean dari banyaknya kata dalam nama keempat mahasiswa yang terpilih dalam sampel 1. Penjelasan ini berlaku untuk sampel 2 sampai sampel 1000.
6 Gambar 3 Sampel acak dengan n = 4 Gambar 4(a) memperlihatkan histogram distribusi mean dari 1000 sampel yang berukuran n = 4. Distribusi mean-mean sampel tersebut condong ke kiri. Mean dan simpangan baku 1000 sampel tersebut secara berturut-turut adalah 3,2 dan 0,42. Dengan demikian, mean 1000 sampel tersebut sama dengan mean populasinya, dan simpangan bakunya mendekati hasil bagi σ oleh akar kuadrat dari n, yaitu 0,41. Gambar 4(b) menunjukkan histogram distribusi mean dari 1000 sampel berukuran n = 10. Distribusi tersebut juga condong ke kiri, meskipun tidak secondong distribusi mean sampel-sampel yang berukuran n = 4. Mean dan simpangan baku dari 1000 sampel tersebut secara berturut-turut adalah 3,2 dan 0,25. Jadi, mean distribusi ini sama dengan mean populasi dan simpangan bakunya sangat dekat dengan hasil bagi σ oleh akar kuadrat dari n, yaitu 0,26. Gambar 4(c) menunjukkan histogram distribusi mean dari 1000 sampel berukuran n = 40. Jika kita lihat, distribusi tersebut mendekati distribusi normal. Dengan mean 3,2 dan simpangan baku 0,13, nilainilai ini sama dengan mean populasinya dan hasil bagi simpangan baku populasi dengan akar kuadrat dari n.
7 (a) (b) (c) Gambar 4 Distribusi 1000 sampel INTERPRETASI Gambar 4(a), (b), dan (c) memperlihatkan bahwa semakin besar sampel yang kita miliki, maka distribusi sampling dari mean sampel-sampel tersebut semakin mendekati distribusi normal. Hasil yang diperoleh pada Contoh 2 secara formal dinyatakan oleh Teorema Limit Pusat berikut. TEOREMA LIMIT PUSAT (TLP) Bagaimanapun distribusi populasinya, distribusi sampling dari mean-mean sampel akan mendekati distribusi normal ketika ukuran sampel n semakin besar. Setelah membaca TLP, mungkin kita bertanya-bertanya, seberapa besar ukuran sampel yang diperlukan agar distribusi sampling meannya mendekati normal? Praktisnya, jawaban pertanyaan ini tergantung dari distribusi populasi sampel tersebut. Jika populasinya tidak berdistribusi normal, maka kita memerlukan n 30 agar distribusi sampling meannya mendekati normal. Jika populasinya berdistribusi normal, maka untuk sembarang sampel berukuran n, distribusi sampling meannya berdistribusi normal. Berdasarkan apa yang telah kita peroleh sejauh ini, maka kita dapat menghubungkan distribusi sampling mean dan TLP sebagai berikut. TLP dan Distribusi Sampling Mean Diberikan 1. Peubah acak yang memiliki distribusi dengan mean μ dan simpangan baku σ. 2. Semua kemungkinan sampel acak sederhana berukuran n dipilih dari populasi tersebut. Kesimpulan 1. Distribusi sampling mean akan mendekati distribusi normal ketika ukuran sampel semakin besar. 2. Mean dari semua mean sampel-sampel tersebut sama dengan mean populasinya, yaitu μ.
8 3. Simpangan baku dari semua mean sampel-sampel tersebut sama dengan s n. Aturan Praktis yang Sering Digunakan 1. Jika populasi aslinya tidak berdistribusi normal, maka untuk n 30, distribusi sampling mean akan mendekati normal. Distribusi sampling mean akan semakin mendekati distribusi normal ketika ukuran sampelnya semakin besar. 2. Jika populasi aslinya berdistribusi normal, maka untuk sembarang ukuran sampel n, distribusi sampling meannya mendekati distribusi normal. Populasi Tidak Berdistribusi Normal Populasi Berdistribsui Normal Distribusi Sampling Mean, n 30 Distribusi Sampling Mean (Sembarang n) Untuk lebih memahami bagaimana menggunakan TLP dalam menyelesaikan permasalahan statistik, perhatikan Contoh 3 berikut. CONTOH 3 Menggunakan Teorema Limit Pusat Indeks prestasi (IP) dari mahasiswa di suatu universitas memiliki mean 2,9 dan simpangan baku 0,5, seperti yang ditunjukkan pada Gambar 5. Sampel-sampel acak sederhana dengan ukuran 100
9 kemudian dipilih dari populasi IP mahasiswa tersebut. Tentukan mean dan simpangan baku dari distribusi sampling mean populasi ini, kemudian sketsalah distribusi sampling mean tersebut. Gambar 5 Distribusi Semua IP Mahasiswa PEMBAHASAN Mean dari distribusi sampling mean sampel sama dengan mean populasinya, sedangkan simpangan baku dari distribusi sampling mean sama dengan simpangan baku populasinya dibagi dengan akar kuadrat dari n. Dengan demikian, dan m = m = 2,9 s 0,5 s = = = 0,05 n 100 INTERPRETASI Berdasarkan TLP, karena ukuran sampel lebih dari 30, maka distribusi sampling mean tersebut bisa didekati dengan distribusi normal dengan mean 2,93 dan simpangan baku 0,052, seperti yang ditunjukkan pada Gambar 6.
10 Gambar 6 Distribusi Sampling Mean n = 100 Setelah kita mengetahui bagaimana menentukan mean dan simpangan baku dari distribusi sampling, selanjutnya kita akan berlatih bagaimana menentukan peluang bahwa peubah acak berada pada interval tertentu dalam distribusi sampling mean. Untuk melakukannya, pertama kita transformasi nilai tersebut menjadi skor z dengan rumus berikut. - m z = s CONTOH 4 Menentukan Peluang dari Distribusi Sampling Baru-baru ini, Coffey (2015) melaporkan bahwa mean kenaikan berat badan selama masa kehamilan di India adalah 7 kg. Asumsikan bahwa populasi kenaikan berat badan tersebut berdistribusi normal dengan simpangan baku 2,9 kg. (a) Tentukan peluang bahwa jika seorang ibu hamil dipilih secara acak, kenaikan berat badannya lebih dari 8 kg. (b) Carilah peluang bahwa 20 ibu-ibu hamil yang dipilih secara acak memiliki mean kenaikan berat badan lebih dari 8 kg. PEMBAHASAN (a) Untuk menentukan peluang terpilihnya seorang ibu hamil dengan kenaikan berat badan lebih dari 8 kg, kita gunakan distribusi peluang normal. Untuk itu, pertama kita konversi skor kenaikan berat badan 8 kg menjadi skor z.
11 -m 8-7 z = = = 0,34 s 2,9 Dengan menggunakan tabel, kita bisa melihat bahwa luas daerah di sebelah kiri z = 0,34 adalah 0,6331. Dengan demikian, luas daerah di kanan z = 0,34 adalah 1 0,6331 = 0,3669, lihat Gambar 7(a). Jadi, peluang terpilihnya seorang ibu hamil dengan kenaikan berat badan lebih dari 7 kg adalah 0,3669. Gambar 7 Kenaikan Berat Badan Ibu Hamil (b) Di sini kita akan menggunakan distribusi sampling mean dan TLP karena kita berhadapan dengan mean sampel yang berukuran 20. Meskipun ukuran sampel tersebut kurang dari 30, kita tetap bisa menggunakan distribusi normal karena populasi aslinya berdistribusi normal. Selanjutnya, kita tentukan mean dan simpangan baku distribusi sampling sebagai berikut. m = m = 7 s 2,9 s = = = 0,65 n 20 Untuk menggunakan distribusi sampling yang baru saja kita tentukan, selanjutnya kita harus mengubah skor kenaikan berat badan 8 kg menjadi skor z sebagai berikut. - m 8-7 z = = = 1,54 s 2,9 20 Dari tabel, kita bisa melihat bahwa luas kumulatif di sebelah kiri z = 1,54 adalah 0,9382. Dengan demikian, luas daerah di sebelah kanan skor z ini adalah 1 0,9382 = 0,0618, perhatikan Gambar
12 7(b). Jadi, peluang terpilihnya sampel berukuran 20 dengan mean lebih dari 8 kg adalah 0,0618. INTERPRETASI Peluang terpilihnya seorang ibu hamil dengan kenaikan berat badan 8 kg adalah 0,3669. Peluang ini lebih besar daripada peluang kita mendapatkan sampel acak berukuran 20 dengan mean 8 kg, yaitu 0,0618. Hal ini masuk akal karena kita lebih mudah mendapatkan seorang ibu hamil dengan kenaikan berat badan lebih dari 8 kg daripada mendapatkan sekelompok 20 ibu hamil yang mean kenaikan berat badannya lebih dari 8 kg. Jika dilihat dari grafik kurva distribusinya, kita bisa melihat bahwa grafik distribusi sampling lebih mengerucut daripada distribusi populasinya karena perbedaan simpangan bakunya.