PENGANTAR & STATISTIKA DESKRIPTIF BI5106 Analisis Biostatistik Utriweni Mukhaiyar
2 Ilustrasi Berikut adalah data produksi panas bumi di 25 titik pengeboran (ton/jam): 77.71 44.24 60.00 89.54 85.64 60.00 24.00 54.12 64.52 27.14 87.46 42.13 43.04 45.75 111.27 27.79 41.49 47.70 83.00 14.32 70.00 32.35 41.60 77.96 14.37 Informasi apa yang ingin diperoleh dari data ini? 1. Rata-rata produksi panas bumi di 25 lokasi tersebut. 2. Penyebaran nilai produksi panas bumi di area wilayah pengeboran tersebut. 3. Lokasi pengeboran dengan nilai produksi yang ekstrim. 4. Signifikansi rata-rata produksi panas bumi di area pengeboran tersebut.
3Ilustrasi t i Berikut adalah data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 2004. Sumber : Modul 3 Praktikum Mekanika Medium Kontinu Medan Gravitasi Tahun Jan Feb Mar Apr Mei Jun Jul Agust Sep Okt Nop Des 2001 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.82 2002 299.78 245.88 266.64 185.27 122.22 133.1 76.78 32.4 26.09 169.05 461.62 415.73 2003 425.21 370.8 300.23 157.43 184.96 69.93 23.28 14.39 17.86 275.23 433.23 456.02 2004 547.8 308.2 388 93 297 128 47 5 87 105 389 371.6 Informasi apa yang ingin diperoleh dari data ini? 1. Rata-rata curah hujan setiap tahun. 2. Penyebaran tingkat curah hujan setiap bulan pada tahun tertentu. 3. Bulan tertentu yang memiliki tingkat curah hujan yang khusus. 4. Signifikansi perbedaan tingkat curah hujan antara tahun-tahun yang diamati. STATISTIKA DESKRIPTIF INFERENSI STATISTIKA
Statistik dan Statistika 4 Statistik : nilai-nilai ukuran data yang mudah dimengerti. Contoh : o statistik (mis. rata-rata) nilai elevasi pasang surut air laut di selat Makassar (m), o statistik (mis. variansi) hasil pengukuran tinggi gelombang g (cm) menggunakan AWLR (Automatic Water Level Recorder) o Statisitik (mis. range) antara nilai tinggi pasang maksimum dan surut minimum (m) Statistika : ilmu yang berkaitan dengan cara pengumpulan, pengolahan, analisis dan pernarikan kesimpulan atas data.
Jenis-jenis Statistika 5 1. Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data. 2. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi.
Populasi dan Sampel 6 Populasi Sampel setiap obyek populasi p memiliki m kemungkinan/kesempatan yang sama untuk terpilih Sampel Acak hasil pengukuran atau pengamatan Data
Contoh Populasi dan Sampel Akan dilakukan pengamatan tentang rata-rata produksi minyak bumi di Indonesia. Populasi Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya Seluruh titik di wilayah Indonesia Keterwakilan sampel Kaidah Pengambilan? atas populasi p?? Sampel (Teknik Sampling) 7 Sampel Contoh: setiap propinsi diambil beberapa titik pengamatan
Jenis-jenis Observasi 8 OBSERVASI / DATA KUALITATIF KUANTITATIF Nominal Ordinal/Rank Diskrit Kontinu Tidak mengenal Berhubungan dengan Didasarkan pada Mengenal urutan dan proses menghitung, suatu selang/interval urutan dan operasi operasi aritmatika dan pengamatan atas sehingga meliputi aritmatika himpunan terhitung. semua bilangan riil Jenis bencana yang terjadi di suatu daerah (banjir, longsor, gempa, dll), jenis batuan, dll Jenjang pendidikan (SD, SMP, SMA,...), tingkatan daerah (Kelurahan, Kecamatan Kab./Kota, Provinsi, Negara), dll Banyaknya gempa yang terjadi di suatu daerah dalam 1 hari, banyaknya hari hujan dalam satu bulan di suatu daerah, dll Intensitas gempa yang terjadi setiap hari di suatu wilayah, tingkat kt curah hujan harian di suatu daerah, dll 2012 by UM
Statistika Deskriptif 9 Metode Tujuan : pengolahan dan penyajian suatu gugus data memberikan informasi yang berguna. Informasi berupa : bentuk distribusi data
Ukuran Pemusatan Mean, median, modus, kuartil, desil, persentil, dll 10 PARAMETER DISTRIBUSI Ukuran Penyebaran (Variabilitas) Variansi, simpangan baku, range, jangkauan kuartil, dll Kemencengan Skewness Kelancipan Kurtosis Karakteristik Distribusi Simetris Mean = Median Kesimetrisan Skew Positif Mean > Median BENTUK DISTRIBUSI Skew Negatif Mean < Median Puncak (Modal) @ UM Puncak tunggal Puncak jamak 1 modus Modus banyak
Karakteristik Distribusi 11 1. PARAMETER DISTRIBUSI Ukuran Pemusatan Ukuran Penyebaran Kemencengan mean, median, modus, kuartil atas, kuartil bawah, dll Range, simpangan baku, variansi, jangkauan antar kuartil, dll skewness Kelancipan kurtosis 2. BENTUK DISTRIBUSI Simetris mean = median Berpuncak Jamak Berpuncak Tunggal Menceng/skew Positif Menceng/skew Negatif mean > median mean < median # modus > 1 # modus = 1
CONTOH 1 12 Data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 (n = 12) 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.82 x 1 x 2 x 7 x 10 x 12 Data yang diurutkan: 29.08 43.82 55.32 115.9 176.9 241.34 267.82 278.59 279.78 313.68 355.29 508.49 x (1) x (2) X (7) x (10) x (12) minimum Adakah perbedaan dari penyajian kedua data di atas? maksimum
Ukuran Pemusatan & Penyebaran Data 13 Ukuran pemusatan data statistik yang memberikan informasi dimana data terkumpul dengan ukuran/jumlah tertentu. Contoh : Mean (rataan), kuartil bawah, kuartil tengah (median), kuartil atas, modus, persentil,... Ukuran penyebaran data statistik yang memberikan informasi bagaimana data menyebar di sekitar pusat data. Contoh : range (jangkauan data), IQR (jangkauan antar kuartil), variansi, standar deviasi (simpangan baku),...
Ukuran Pemusatan Data 14 1. Mean (rata-rata) x 1 n xi n i 1 Contoh : 1 2... 12 x x x x 12 278.59 279.78... 267.82 12 222.17
15 50 % data (awal) 50% data (akhir) 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49 X (6.5) 2. Median Nilai tengah yang membagi dua kl kelompokk data sama banyak. med = x (6.5) = x (6) + 0.5 (x (7) -x (6) )= 254.58 3. Modus Nilai yang paling sering muncul. modus tidak ada
4. Kuartil 25 % 25 % 25 % 25 % 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49 q 1 q 2 = med q 3 Kuartil bawah (q 1 ) : q x 16 1 n 1 4 1 q x x x x x 70.47 1 121 1 3 4 3 3 4 4 4 Kuartil tengah (q 2 ) : q x x 254.58 12 1 2 121 (6.5) 2 Kuartil atas (q 3 ) : q x x q x 2 2( n1) n1 4 2 3 3( n 1) 4 3 q x x x x x 3 3(121) 3 9 10 9 9 4 4 4 305.21
5. Persentil 17 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49 p 25 p 50 = med p 75 Persentil ke-i : i ( n 1) Persentil ke-50 : median x x 100 x 50( n 1) n 1 100 2 Persentil ke-25 dan Persentil ke-75? kuartil bawah kuartil atas
Ukuran Penyebaran Data 18 Data : x 1, x 2, x 3,..., x n Rataan : x Ukuran penyebaran data yang melihat bagaimana SETIAP (keseluruhan) observasi terpisah dari pusat data. Tidak memberikan informasi apa- ( x x ) n i p apa, karena : 1 n n ( x i x ) x nx nx nx i 0 Jumlah Kuadrat (JK) n i1 i1 2 ( x x) i i1 i
Ukuran Penyebaran Data 19 1. Jangkauan data (Range) R = data max data min 2. Variansi n? n n 2 1 2 1 xi 2 i1 s ( xi x) xi n1 i1 n1 i1 n R = 508.49 29.08 = 479.41 2 2 s 20663.8 JK XX 3. Simpangan Baku (standard d d deviation) i ) s = s 2 s 20663.8 143.75 k k l 4. Jangkauan antar kuartil dq = q 3 q 1 dq = q 3 q 1 = 234.74
Data Pencilan 20 Data yang nilainya berbeda jauh dari kelompok data yang lain. Bagaimana mendeteksi data pencilan?? 1. Hitung dq dq = 234.74 2. Hitung BBP = q 1 k.dq Pilih nilai k = 3/2 (optional) 3. Hitung BAP = q 3 + k.dq BBP = 70.47 (1.5)(234.74 ) = -281.65 BAP = 305.21 + (1,5)(234.74) = 657.32 4. Pencilan bawah < BBP tidak ada pencilan bawah 5. Pencilan atas > BAP tidak ada pencilan atas
SARI NUMERIK Count (banyak data, n) 12 Sum (jumlah data) 2666.01 Average (rata-rata) 222.17 Median (kuartil tengah) 254.58 Mode (modus) - Minimum 29.08 Maximum 508.49 Range 479.41 Standard Deviation 143.75 Variance 20663.8 Skewness 0.303* Kurtosis -0.181* 25th Percentile (persentil-25) 70.465 50th Percentile (persentil-50) 254.58 75th Percentile (persentil-75) 305.205 Interquartile Range (dk) 234.74 21 * Perhitungan dengan Mic. Excel mean < median Menceng kiri/negatif???
Penyajian Data 22 1. Tabel Distribusi Frekuensi 2. Pie Chart 3. Dot Plot 4. Histogram 5. Diagram Batang Daun (stem - leaf) 6. Diagram Kotak Titik (box plot) 7. dll Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik. Penyajian data dalam bentuk grafik dapat dilakukan secara manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya.
23 Tabel Distribusi ib i Frekuensi Data banyaknya y pelanggan yang datang ke sebuah mini market di 15 hari tertentu pada bulan Juli 2011. 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Kelas Interval Titik Tengah Kelas Frekuensi (f) Frekuensi Kumulatif 21-35 28 1 1 36-50 43 4 5 51-65 58 1 6 66-80 73 2 8 81-95 88 7 15 Bagaimana bentuk histogramnya? PRINSIP DASAR PELUANG
Pie Chart 24 9% 10% 23% 58% Pie chart merupakan grafik yang berbentuk lingkaran yang mana setiap potongannya mewakili proporsi atau persentase suatu komponen dari sebuah kelompok data (100%). Pemakaian pie chart hanya cocok ketika menyatakan data dalam bentuk proporsi dari satu kelompok data.
Dot Plot 25 3,5 3 2,5 frekuens si 2 1,5 1 0,5 0 0 20 40 60 80 100 nilai Cara menggambarkan data dalam bentuk titik, dengan memperhatikan frekuensi dari data yang bersangkutan Titik ditumpuk diatas nilai data yang digambarkan.
Histogram 26 Histogram adalah gambar berdasarkan distribusi frekuensi Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle). Daerah setiap rectangle sebanding dengan frekuensinya.
Diagram Batang-Daun (Stem- 27 Leaf) 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Stem atau batang, mirip dengan grup data pada histogram, sedangkan leaf atau daun, mirip dengan frekuensi. Stem atau batang adalah digit pertama yang terpenting yang ada dalam bilangan yang membentuk hargadata, sedangkan digit di belakangnya akan merupakan leaf atau daun. Melalui stem-leaf masih dapat dilihat nilai data mentahnya.
Diagram Kotak-Titik 28 (Box-Plot) 100 90 80 70 60 50 40 30 20 10 0 95 26 max 85 76 47,5 min q 2 q 3 mean Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan grup data seperti pada histogram dan diagram batang daun. Box Plot terdiri dari: data min, q 1, q 2 (median), q 3, dan data max yang disusun secara terurut dengan membentuk kotak. q 1
Pencilan pada Box Plot 29 * pencilan atas BAP (pagar atas) upper whisker maksimum q 2 q 3 mean q 1 * * lower whisker minimum BBP (pagar bawah) pencilan bawah
Kelemahan dan Keunggulan 30 DOT PLOT HISTOGRAM BATANG-DAUN BOX PLOT KELEMAHAN Tidak efektif untuk ukuran data yang besar Lama Banyak perhitungan Nilai data tidak nampak Menuntut ketelitian mencatat daun Membutuhkan perhitungan yang panjang Terdiri i dari parameterparameter dari data yang sudah diurutkan KEUNGGULAN Cepat Nilai data asli dapat diperkirakan Histogram peluang dapat memberi gambaran tentang distribusi populasi Tidak menuntut ketelitian dalam mencatat setiap nilai data Cepat Tidak memerlukan perhitungan Nilai data asli dapat dilihat Memudahkan perhitungan berbagai parameter Box plot dapat memberi gambaran tentang bentuk distribusi populasi Efektif untuk membandingkan bentuk distribusi beberapa kelompok data sekaligus
Bentuk Distribusi Ideal 31 Normal mean = median Memiliki bentuk distribusi yang simetris, yaitu : Skewness = 0 Kurtosis t i = 3, (dalam software tertentu t t kurtosis normal = 0
32 Latihan 1 Suatu jenis polimer digunakan dalam sistem evakuasi pesawat terbang. Penting diperhatikan bahwa polimer tersebut harus mampu melawan proses penuaan. Diambil dua puluh sampel polimer yang kemudian dibagi atas dua percobaan. Percobaan pertama (batch 1) yang melibatkan 10 sampel dikenakan proses percepatan penuaan dengan temperatur tinggi selama 10 hari. Sedangkan 10 sampel lainnya (batch 2) tidak dikenakan proses apa-apa. Kk Kekuatan daya rentang (dalam psi) sampel-sampel l tersebut diukur dan dicatat sebagai berikut. Batch 1 227 222 218 217 225 218 216 229 228 221 Batch 2 219 214 215 211 209 218 203 204 201 205 Q: Apakah percobaan proses penuaan memberikan dampak pada kekuatan daya rentang polimer? Sumber: Walpole (2006), hal.13
Contoh 2 33 - Keluarkan sari numerik yang mungkin Ukuran pemusatan data : MEAN, MEDIAN, KUARTIL BAWAH-ATAS Ukuran penyebaran data : RANGE, JANGKAUAN KUARTIL, VARIANSI,SIMPANGAN BAKU Lain-lain : SKEWNESS dan KURTOSIS Apakah diperlukan??? Pilih plot yang informatif untuk menjawab pertanyaan tersebut Misal: BOXPLOT
34 SARI NUMERIK Batch.1 Batch.II Mean 222,10 209,90 Variansi 23,6556 42,1000 Simp.Baku 4,86 6,49 Min. 216 201 Max. 229 219 Q1 218 204,25 Median 221,5 210 Q3 226,5 214,75 230 230 229 226.5 225 225 220 215 216 221.5 218 220 215 219 214.75 210 210 210 205 205 200 200 201 Batch 1 195 195 Batch 2 204.25 APA YANG DAPAT DISIMPULKAN?? @ UM
Transformasi Data (pengayaan) 35 Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris. Transformasi Tangga Tukey -1/x 2-1/x x log (x) x x 2 x 3 10 x untuk bentuk distribusi : skewness positif data awal untuk bentuk distribusi : skewness negatif Merenggangkan data data yang berharga kecil dan merapatkan data data yang berharga besar Merapatkan data data yang berharga kecil dan merenggangkan data data yang berharga besar Data contoh kasus : skewness = -0,5 05 (menceng kiri), maka transformasi yang mungkin adalah x 2, x 3, dan 10 x.
Transformasi Data (pengayaan) Contoh Kasus 36 x y = x 2 Lebih mendekati simetris (skew = 0) 87 37 59 49 69 95 83 87 39 95 83 76 83 26 46 transformasi 7569 1369 3481 2401 4761 9025 Lebih mendekati simetris (skew 0) dibanding sebelum transformasi (skew = -0,5) 6889 skew = -0,18 018 7569 1521 9025 6889 5776 6889 6766 2116 ** Ketika data ditransformasi, maka satuan dari data juga akan berubah
Referensi Djauhari, M.A., 2001, Catatan Kuliah Analisis Data. Walpole, Ronald E., et.al, Statistitic for Scientist and Engineering, 8th Ed., 2007. 37