Review 1: Statistika Deskriptif MA5182 Topik dalam Statistika I: Statistika Spasial 28 Agustus 2012 28 Agustus 2012 Utriweni Mukhaiyar
Ilustrasi Berikut adalah data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 2004. Sumber : Modul 3 Praktikum Mekanika Medium Kontinu Medan Gravitasi Tahun Jan Feb Mar Apr Mei Jun Jul Agust Sep Okt Nop Des 2001 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.82 2002 299.78 245.88 266.64 185.27 122.22 133.1 76.78 32.4 26.09 169.05 461.62 415.73 2003 425.21 370.8 300.23 157.43 184.96 69.93 23.28 14.39 17.86 275.23 433.23 456.02 2004 547.8 308.2 388 93 297 128 47 5 87 105 389 371.6 Informasi apa yang ingin diperoleh dari data ini? 1. Rata-rata curah hujan setiap tahun. 2. Penyebaran tingkat curah hujan setiap bulan pada tahun tertentu. 3. Bulan tertentu yang memiliki tingkat curah hujan yang khusus. 4. Signifikansi perbedaan tingkat curah hujan antara tahun-tahun yang diamati. 2
Ilustrasi Berikut adalah data produksi panas bumi di 25 titik pengeboran (ton/jam): 77.71 44.24 60.00 89.54 85.64 60.00 24.00 54.12 64.52 27.14 87.46 42.13 43.04 45.75 111.27 27.79 41.49 47.70 83.00 14.32 70.00 32.35 41.60 77.96 14.37 Informasi apa yang ingin diperoleh dari data ini? 1. Rata-rata produksi panas bumi di 25 lokasi tersebut. 2. Penyebaran nilai produksi panas bumi di area STATISTIKA wilayah pengeboran tersebut. DESKRIPTIF 3. Lokasi pengeboran dengan nilai produksi yang ekstrim. 4. Signifikansi rata-rata produksi panas bumi di area pengeboran tersebut. INFERENSI STATISTIKA 3
Statistik dan Statistika Statistik : nilai-nilai ukuran data yang mudah dimengerti. Contoh : o statistik (mis. rata-rata) nilai elevasi pasang surut air laut di selat Makassar (m), o statistik (mis. variansi) hasil pengukuran tinggi gelombang (cm) menggunakan AWLR (Automatic Water Level Recorder) o Statisitik (mis. range) antara nilai tinggi pasang maksimum dan surut minimum (m) Statistika : ilmu yang berkaitan dengan cara pengumpulan, pengolahan, analisis dan pernarikan kesimpulan atas data. 4
Jenis-jenis Statistika 1. Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data. 2. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi. p 5
Populasi dan Sampel Populasi Sampel setiap obyek populasi p memiliki m kemungkinan/kesempatan yang sama untuk terpilih Sampel Acak hasil pengukuran atau pengamatan Data 6
Contoh Populasi dan Sampel Akan dilakukan pengamatan tentang rata-rata produksi minyak bumi di Indonesia. Populasi Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya Seluruh titik di wilayah Indonesia Keterwakilan sampel atas Kaidah Pengambilan? populasi p?? Sampel (Teknik Sampling) 7 Sampel Contoh: setiap propinsi diambil beberapa titik pengamatan
Jenis-jenis Observasi OBSERVASI / DATA KUALITATIF KUANTITATIF Nominal Ordinal/Rank Diskrit Kontinu Tidak mengenal Berhubungan dengan Didasarkan pada Mengenal urutan dan proses menghitung, suatu selang/interval urutan dan operasi operasi aritmatika dan pengamatan atas sehingga meliputi aritmatika himpunan terhitung. semua bilangan riil Jenis bencana yang terjadi di suatu daerah (banjir, longsor, gempa, dll), jenis batuan, dll Jenjang pendidikan (SD, SMP, SMA,...), tingkatan daerah (Kelurahan, Kecamatan Kab./Kota, Provinsi, Negara), dll Banyaknya gempa yang terjadi di suatu daerah dalam 1 hari, banyaknya hari hujan dalam satu bulan di suatu daerah, dll Intensitas gempa yang terjadi setiap hari di suatu wilayah, tingkat t curah hujan harian di suatu daerah, dll 2012 by UM 8
PARAMETER DISTRIBUSI Ukuran Pemusatan Ukuran Penyebaran (Variabilitas) Kemencengan Mean, median, modus, kuartil, desil, persentil, dll Variansi, simpangan baku, range, jangkauan kuartil, dll Skewness Kelancipan Kurtosis Karakteristik Distribusi Simetris Mean = Median Kesimetrisan Skew Positif Mean > Median BENTUK DISTRIBUSI Puncak (Modal) Skew Negatif Puncak tunggal Puncak jamak Mean < Median 1 modus Modus banyak @ UM 9
Karakteristik Distribusi 1. PARAMETER DISTRIBUSI Ukuran Pemusatan Ukuran Penyebaran Kemencengan Kelancipan mean, median, modus, kuartil atas, kuartil bawah, dll Range, simpangan baku, variansi, jangkauan antar kuartil, dll skewness kurtosis 2. BENTUK DISTRIBUSI Simetris mean = median Berpuncak Jamak Berpuncak Tunggal Menceng/skew Positif Menceng/skew Negatif mean > median mean < median # modus > 1 # modus = 1 10
CONTOH 1 Data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 (n = 12) 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.82 x 1 x 2 x 7 x 10 x 12 Data yang diurutkan: 29.08 43.82 55.32 115.9 176.9 241.34 267.82 278.59 279.78 313.68 355.29 508.49 x (1) x (2) X (7) x (10) x (12) minimum Adakah perbedaan dari penyajian kedua data di atas? maksimum 11
Ukuran Pemusatan & Penyebaran Data Ukuran pemusatan data statistik yang memberikan informasi dimana data terkumpul dengan ukuran/jumlah tertentu. Contoh : Mean (rataan), kuartil bawah, kuartil tengah (median), kuartil atas, modus, persentil,... Ukuran penyebaran data statistik yang memberikan informasi bagaimana data menyebar di sekitar pusat data. Contoh : range (jangkauan data), IQR (jangkauan antar kuartil), variansi, standar deviasi (simpangan baku),... 12
Ukuran Pemusatan Data 1. Mean (rata-rata) rata) x 1 n xi n i 1 Contoh : 1 2... 12 x x x x 12 278.59 279.78... 267.82 12 222.17 13
50 % data (awal awal) 50% data (akhir) 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49 X (6.5) 2. Median Nilai tengah yang membagi dua kelompok data sama banyak. med = x (6.5) = x (6) + 0.5 (x (7) -x (6) )= 254.58 3. Modus Nilai yang paling sering muncul. modus tidak ada 14
15 4. Kuartil 25 % 25 % 25 % 25 % 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49 q 1 q 2 = med q 3 Kuartil bawah (q 1 ) : q x 1 n 1 4 1 q x x x x x 70.47 1 121 1 3 4 3 3 4 4 4 Kuartil tengah (q 2 ) : q x x 254.58 12 1 2 121 (6.5) 2 Kuartil atas (q 3 ) : q x x q x 2 2( n1) n1 4 2 3 3( n 1) 4 3 q x x x x x 3 3(121) 3 9 10 9 9 4 4 4 305.21
5. Persentil 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49 p 25 p 50 = med p 75 Persentil ke-i : i ( n 1) Persentil ke-50 : median x x 100 x 50( n 1) n 1 100 2 Persentil ke-25 dan Persentil ke-75? kuartil bawah kuartil atas 16
Ukuran Penyebaran Data Data : x 1, x 2, x 3,..., x n Rataan : x Ukuran penyebaran data yang melihat bagaimana SETIAP (keseluruhan) observasi terpisah dari pusat data. Tidak memberikan informasi apa- ( x x ) n i p apa, karena : 1 n n ( x i x ) x nx nx nx i 0 Jumlah Kuadrat (JK) n i1 i1 2 ( x x) i i1 i 17
Ukuran Penyebaran Data 1. Jangkauan data (Range) R = data max data min 2. Variansi n? n n 2 1 2 1 xi 2 i1 s ( xi x) xi n1 i1 n1 i1 n R = 508.49 29.08 = 479.41 2 2 s 20663.8 JK XX 3. Simpangan Baku (standard d d deviation) i ) s = s 2 s 20663.8 143.75 4. Jangkauan antar kuartil dq = q 3 q 1 dq = q 3 q 1 = 234.74 18
Data Pencilan Data yang nilainya berbeda jauh dari kelompok data yang lain. Bagaimana mendeteksi data pencilan?? 1. Hitung dq dq = 234.74 2. Hitung BBP = q 1 k.dq Pilih nilai k = 3/2 (optional) 3. Hitung BAP = q 3 + k.dq BBP = 70.47 (1.5)(234.74 ) = -281.65 BAP = 305.21 + (1,5)(234.74) = 657.32 4. Pencilan bawah < BBP tidak ada pencilan bawah 5. Pencilan atas > BAP tidak ada pencilan atas 19
SARI NUMERIK Count (banyak data, n) 12 Sum (jumlah data) 2666.01 Average (rata-rata) 222.17 Median (kuartil tengah) 254.58 Mode (modus) - Minimum 29.08 Maximum 508.49 Range 479.41 Standard Deviation 143.75 Variance 20663.8 Skewness 0.303* Kurtosis -0.181* 25th Percentile (persentil-25) 70.465 50th Percentile (persentil-50) 254.58 75th Percentile (persentil-75) 305.205 Interquartile Range (dk) 234.74 * Perhitungan dengan Mic. Excel mean < median Menceng kiri/negatif??? 20
Penyajian Data 1. Tabel Distribusi Frekuensi 2. Pie Chart 3. Dot Plot 4. Histogram 5. Diagram Batang Daun (stem - leaf) 6. Diagram Kotak Titik (box plot) 7. dll Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik. Penyajian data dalam bentuk grafik dapat dilakukan secara manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya. 21
Tabel Distribusi ib i Frekuensi Data banyaknya y pelanggan yang datang ke sebuah mini market di 15 hari tertentu pada bulan Juli 2011. 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Kelas Interval Titik Tengah Kelas Frekuensi (f) Frekuensi Kumulatif 21-35 28 1 1 36-50 43 4 5 51-65 58 1 6 66-80 73 2 8 81-95 88 7 15 Bagaimana bentuk histogramnya? PRINSIP DASAR PELUANG 22
Pie Chart 9% 10% 23% 58% Pie chart merupakan grafik yang berbentuk lingkaran yang mana setiap potongannya mewakili proporsi atau persentase suatu komponen dari sebuah kelompok data (100%). Pemakaian pie chart hanya cocok ketika menyatakan data dalam bentuk proporsi dari satu kelompok data. 23
Dot Plot 3.5 3 2.5 frekuens si 2 1.5 1 0.5 0 0 20 40 60 80 100 nilai Cara menggambarkan data dalam bentuk titik, dengan memperhatikan frekuensi dari data yang bersangkutan Titik ditumpuk diatas nilai data yang digambarkan. 24
Histogram Histogram adalah gambar berdasarkan distribusi frekuensi Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle). Daerah setiap rectangle sebanding dengan frekuensinya. 25
Diagram Batang-Daun (Stem- Leaf) 26 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Stem atau batang, mirip dengan grup data pada histogram, sedangkan leaf atau daun, mirip dengan frekuensi. Stem atau batang adalah digit pertama yang terpenting yang ada dalam bilangan yang membentuk harga data, sedangkan digit di blk belakangnya akan merupakan leaf atau daun. Melalui stem-leaf masih dapat dilihat nilai data mentahnya.
Diagram Kotak-Titik (Box-Plot) 100 90 80 70 60 50 40 30 20 10 0 95 26 max 85 76 min 47.5 q 2 q 3 mean Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan grup data seperti pada histogram dan diagram batang daun. Box Plot terdiri dari: data min, q 1, q 2 (median), q 3, dan data max yang disusun secara terurut dengan membentuk kotak. 27 q 1
Pencilan pada Box Plot * pencilan atas BAP (pagar atas) upper whisker maksimum q 2 q 3 mean q 1 * * lower whisker minimum BBP (pagar bawah) pencilan bawah 28
Kelemahan dan Keunggulan DOT PLOT HISTOGRAM BATANG-DAUN BOX PLOT KELEMAHAN Tidak efektif untuk ukuran data yang besar Lama Banyak perhitungan Nilai data tidak nampak Menuntut ketelitian mencatat daun Membutuhkan perhitungan yang panjang Terdiri i dari parameterparameter dari data yang sudah diurutkan KEUNGGULAN Cepat Nilai data asli dapat diperkirakan Histogram peluang dapat memberi gambaran tentang distribusi populasi Tidak menuntut ketelitian dalam mencatat setiap nilai data Cepat Tidak memerlukan perhitungan Nilai data asli dapat dilihat Memudahkan perhitungan berbagai parameter Box plot dapat memberi gambaran tentang bentuk distribusi populasi Efektif untuk membandingkan bentuk distribusi beberapa kelompok data sekaligus 29
Bentuk Distribusi Ideal Normal mean = median Memiliki bentuk distribusi yang simetris, yaitu : Skewness = 0 Kurtosis t i = 3, (dalam software tertentu t t kurtosis normal = 0 30
Latihan 1 Suatu jenis polimer digunakan dalam sistem evakuasi pesawat terbang. Penting diperhatikan bahwa polimer tersebut harus mampu melawan proses penuaan. Diambil dua puluh sampel polimer yang kemudian dibagi atas dua percobaan. Percobaan pertama (batch 1) yang melibatkan 10 sampel dikenakan proses percepatan penuaan dengan temperatur tinggi selama 10 hari. Sedangkan 10 sampel lainnya (batch 2) tidak dikenakan proses apa-apa. Kk Kekuatan daya rentang (dalam psi) sampel-sampel l tersebut diukur dan dicatat sebagai berikut. Batch 1 227 222 218 217 225 218 216 229 228 221 Batch 2 219 214 215 211 209 218 203 204 201 205 Q: Apakah percobaan proses penuaan memberikan dampak pada kekuatan daya rentang polimer? Sumber: Walpole (2006), hal.13 31
Contoh 2 Apa yang dapat kita lakukan untuk menjawab pertanyaan tersebut??? - Keluarkan sari numerik yang mungkin Ukuran pemusatan data : MEAN, MEDIAN, KUARTIL BAWAH-ATAS Ukuran penyebaran data : RANGE, JANGKAUAN KUARTIL, VARIANSI,SIMPANGAN BAKU Lain-lain : SKEWNESS dan KURTOSIS Apakah diperlukan??? - Plot data Pilih plot yang informatif untuk menjawab pertanyaan tersebut Misal: BOXPLOT 32
Batch.1 Batch.II SARI NUMERIKMean 222,10 209,90 Variansi 23,6556 42,1000 Simp.Baku 4,86 6,49 Min. 216 201 Max. 229 219 Q1 218 204,25 Median 221,5 210 Q3 226,5 214,75 230 230 229 226.5 225 225 220 215 216 221.5 218 220 215 219 214.75 210 210 210 205 205 200 200 201 Batch 1 195 195 Batch 2 204.25 APA YANG DAPAT DISIMPULKAN?? KESIMPULAN DESKRIPTIF @ UM 33
Transformasi Data (pengayaan) Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris. Transformasi Tangga Tukey -1/x 2-1/x x log (x) x x 2 x 3 10 x untuk bentuk distribusi : skewness positif data awal untuk bentuk distribusi : skewness negatif Merenggangkan data data yang berharga kecil dan merapatkan data data yang berharga besar Merapatkan data data yang berharga kecil dan merenggangkan data data yang berharga besar Data contoh kasus : skewness = -0,5 05 (menceng kiri), maka transformasi yang mungkin adalah x 2, x 3, dan 10 x. 34
Transformasi Data (pengayaan) Contoh Kasus x y = x 2 Lebih mendekati simetris (skew = 0) 87 37 59 49 69 95 83 87 39 95 83 76 83 26 46 transformasi 7569 1369 3481 2401 4761 9025 Lebih mendekati simetris (skew 0) dibanding sebelum transformasi (skew = -0,5) 6889 skew = -0,18 018 7569 1521 9025 6889 5776 6889 6766 2116 ** Ketika data ditransformasi, maka satuan dari data juga akan berubah 35
Referensi Walpole, Ronald E., et.al, Statistitic for Scientist and Engineering, 8th Ed., 2007. 36