Statistika Dasar. Bagus Sartono

dokumen-dokumen yang mirip
STK511 Analisis Statistika. Bagus Sartono

STK 211 Metode statistika. Materi 2 Statistika Deskriptif

STK 211 Metode statistika. Agus Mohamad Soleh

Statistika Deskriptif

STK511 Analisis Statistika. Pertemuan 6 Statistika Inferensia (2)

STK511 Analisis Statistika. Pertemuan 2 Review Statistika Dasar

STATISTIKA DESKRIPTIF. Wenny Maulina, S.Si., M.Si

STK 511 Analisis statistika. Materi 7 Analisis Korelasi dan Regresi

Statistika I. Pertemuan 2 & 3 Statistika Dasar (Basic( Ari Wibowo, MPd Prodi PAI Jurusan Tarbiyah STAIN Surakarta. Konsep Peubah

Metode Statistika STK211/ 3(2-3)

Skala pengukuran dan Ukuran Pemusatan. Ukuran Pemusatan

Short Quiz. TIME LIMIT: 10 minutes

Pertemuan III Statistika Dasar (Basic Statistics)

STATISTIKA DESKRIPTIF. Wenny Maulina, S.Si., M.Si

Metode Statistika (STK211) Statistika Deskriptif (2) Dr. Ir. Kusman Sadik Dept. Statistika IPB, 2015

25/09/2013. Metode Statistika (STK211) Pertanyaan. Modus (Mode) Ukuran Pemusatan. Median. Cara menghitung median contoh

STATISTIKA DESKRIPTIF

STK511 Analisis Statistika. Pertemuan 4 Sebaran Penarikan Contoh

Statistik dan Statistika Populasi dan Sampel Jenis-jenis Observasi Statistika Deskriptif

SAMPLING METHODS Metode Penarikan Contoh STK221 3(2-2)

REVIEW BIOSTATISTIK DESKRIPTIF

PENGANTAR & STATISTIKA DESKRIPTIF. Utriweni Mukhaiyar

MA5182 Topik dalam Statistika I: Statistika Spasial. Utriweni Mukhaiyar

DAN ANALISIS DATA. Sari Numerik. MA 2181 Analisis Data 8 Agustus 2011 Utriweni Mukhaiyar. 1. Statistik dan Statistika. 2. Populasi dan Sampel

Hipotesis adalah suatu pernyataan tentang parameter suatu populasi.

STK511 Analisis Statistika. Pertemuan 10 Analisis Korelasi & Regresi (1)

PENYAJIAN DATA. Etih Sudarnika Laboratorium Epidemiologi Fakultas Kedokteran Hewan IPB

FAKULTAS KEGURUAN DAN ILMU PENDIDIKIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON

STK 211 Metode Statistika PENGUJIAN HIPOTESIS

Pendahuluan. Pertemuan I

Perbedaan Analisis Univariat dan Multivariat

STK 511 Analisis statistika. Materi 6 Pengujian Hipotesis

Metode Statistika Pertemuan XII. Analisis Korelasi dan Regresi

STATISTIK DESKRIPTIF. Abdul Rohman, S.E

STATISTIKA INDUSTRI I. Agustina Eunike, ST., MT., MBA.

Analisis Korelasi dan Regresi. Dr. Kusman Sadik, M.Si Dept. Statistika IPB

Metode Statistika STK211/ 3(2-3)

Metode Statistika STK211/ 3(2-3)

Pengantar & Statistika Deskriptif

Kualitas Fitted Model

PENS. Probability and Random Process. Topik 2. Statistik Deskriptif. Prima Kristalina Maret 2016

Regresi dengan Microsoft Office Excel

Analisis Regresi: Regresi Linear Berganda

MA2081 Statistika Dasar

BAB IV HASIL PENELITIAN

STATISTIKA. Statistika pengkuantifikasian (pengkuantitatifan) hasil-hasil pengamatan terhadap kejadian, keberadaan, sifat/karakterisitik, tempat, dll.

Regresi Linier Sederhana dan Korelasi. Pertemuan ke 4

LAMPIRAN. Lampiran 1. Data Performa Reproduksi Sapi Perah Impor Pertama

BAB I STATISTIK DESKRIPTIF

LAPORAN STATISTIK ELEMENTER UJI ANALISIS VARIAN SATU ARAH (ANOVA) Dosen pengampu Dr. Sri Harini, M.Si. Oleh Nurul Anggraeni Hidayati NIM.

STATISTIKA DESKRIPTIF

Analysis of Variance SUNU WIBIRAMA

PENGUKURAN DATA. 1. Terminology Populasi & Sampel. Peubah/Variabel. Peubah/Variabel

Analisis Regresi 2. Pokok Bahasan : Asumsi sisaan dan penanganannya

Pengantar Statistik. Nanang Erma Gunawan

Kursus Statistika Dasar. Bagian 1. Pengelompokan Statistika. Istilah-istilah Dasar. Jenis Data. Pengelompokan Statistika lainnya. Bambang Suryoatmono

Uji Hipotesis dengan ANOVA (Analysis of Variance)

STATISTIKA I. Ari Wibowo, MPd Prodi PAI Jurusan Tarbiyah STAIN Surakarta. Kode Matakuliah: PAI111, 2sks Tujuan Instruksional Umum:

DISPERSI DATA. - Jangkauan (Range) - Simpangan/deviasi Rata-rata (Mean Deviation) - Variansi (Variance) - Standar Deviasi (Standart Deviation)

STATISTIKA MATEMATIKA KELAS XI MIA

STATISTIKA DASAR MAF Dosen: Dr. Lutfi Rohman Wenny Maulina, M.Si

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. A. Pengaruh Rasio Profitabilitas, Rasio Solvabilitas Dan Rasio Likuiditas Terhadap

DISTRIBUSI SAMPLING besar

BAB IV HASIL PENELITIAN DAN PEMBAHASAN A. GAMBARAN UMUM OBJEK PENELITIAN. perbankan terdiri dari Bank Umum dan Bank Perkreditan Rakyat

Catatan Kuliah. Analisis Data. Orang Cerdas Belajar Statistika. disusun oleh. Khreshna I.A. Syuhada, MSc. PhD.

MK. Statistik sosial

STAND N AR R K OMP M E P T E EN E S N I:

Analisis Regresi Linier ( Lanjutan )

ANOVA SATU ARAH Nucke Widowati Kusumo Projo, S.Si, M.Sc

STATISTIKA II (BAGIAN

TINJAUAN PUSTAKA. Dalam proses pengumpulan data, peneliti sering menemukan nilai pengamatan

METODOLOGI HASIL DAN PEMBAHASAN

Langkah-Langkah Perhitungan Berikut diberikan data penjualan mobil Bima selama tahun 2000:

BAB 2 LANDASAN TEORI. Analisis regresi (regression analysis) merupakan suatu teknik untuk membangun

STATISTIKA 2 IT

ANALISIS STATISTIKA. Pertemuan 2 Statistika Dasar (Basic Statistics)

BAB IV HASIL PENELITIAN. Mei 2016 terhadap siswa pada mata pelajaran Akidah akhlak di MTsN Kunir

Pembahasan Soal. Tjipto Juwono, Ph.D. May 14, TJ (SU) Pembahasan Soal May / 43

Tentang MA5283 Statistika BAB 1 STATISTIKA DESKRIPTIF MA5283 STATISTIKA. Dosen: Khreshna I.A. Syuhada, MSc. PhD. Orang Cerdas Belajar Statistika

Lampiran 1 Data Absensi dan Pengeluaran Tenaga Kerja

STATISTIKA UJI NON-PARAMETRIK

Perancangan Percobaan STK222 / 3(2-2)

BAB 2 TINJAUAN PUSTAKA

Pertemuan Ke-12. Analysis of Varians (anova)_m. Jainuri, M.Pd

BAB IV PENGUMPULAN DATA

Statistika Farmasi

MA2082 BIOSTATISTIKA Orang Biologi Tidak Anti Statistika

Regresi Linier Berganda

BAB IV HASIL PENELITIAN. kecenderungan jawaban responden dari tiap-tiap variabel, baik mengenai

Ukuran tendensi sentral seperti mean, median, dan modus seringkali tidak mempunyai cukup informasi untuk menyimpulkan data yg ada.

Metode Statistika (STK211) Statistika Deskriptif (1) Dr. Ir. Kusman Sadik Dept. Statistika IPB, 2015

STATISTIK PERTEMUAN XI

10 Departemen Statistika FMIPA IPB

SESI 13 STATISTIK BISNIS

statistika untuk penelitian

III. METODE PENELITIAN

Pengantar & Statistika Deskriptif. MA 2081 Statistika Dasar

Resume Regresi Linear dan Korelasi

Pemeriksaan Sebaran Data Bagus Sartono

Transkripsi:

Statistika Dasar Bagus Sartono

Pokok Bahasan Pengenalan analisis dan deskripsi data Pendugaan parameter dan selang kepercayaan Pengujian hipotesis rata-rata One-Sample T-Test Two-Sample T-Test One-Way ANOVA Korelasi dan Regresi Linear

PENGENALAN ANALISIS STATISTIKA DAN DESKRIPSI DATA KATEGORIK

Apa itu Statistika Ilmu yang mempelajari teknik-teknik pengumpulan data, analisis data, hingga proses pengambilan kesimpulan berdasarkan analisis tersebut.

Statistika bekerja dengan data contoh Populasi vs contoh Populasi (population): himpunan semua individu/objek yang menjadi minat/perhatian Contoh (sample): himpunan bagian dari populasi Sensus vs Survei Sensus: proses pengumpulan data populasi Survei: proses pengumpulan data contoh Mengapa bekerja dengan contoh

Mengapa Contoh? Keterbatasan sumberdaya (tenaga, biaya, waktu, dll) Sensus tidak dapat dikerjakan untuk kasus individu yang selalu bergerak ataupun bertambah jumlahnya. Proses pengumpulan data kadangkala bersifat merusak, misal: pemeriksaan kualitas kemasan, pemeriksaan rasa buah, dsb

Contoh harus representatif Representatif = mewakili kesimpulan tidak bias. Contoh harus memiliki karakteristik yang sama dengan populasi karena data contoh digunakan untuk menarik kesimpulan mengenai populasi. Contoh Acak (random sample) Probability sampling vs non-probability sampling

Statistik sebagai penduga parameter Parameter vs Statistik Parameter: karakteristik numerik dari populasi Statistik: karakteristik numerik dari contoh Statistik adalah penduga parameter Statistik selalu memiliki galat (error) Sampling error Non-sampling error

Peubah dan Jenisnya Variable, karakteristik dari individu. Misal untuk individu manusia, dapat dikumpulkan data mengenai: ukuran tubuh, usia, pekerjaan, penghasilan. Untuk individu tanaman dapat dikumpulkan data peubah ukuran tanaman, produktivitas, daya tahan terhadap hama, dsb. Numerik vs Kategorik Peubah Kategorik Nominal Ordinal Peubah Numerik Interval Ratio

Peubah Kategorik Nominal Hanya berupa penggolongan. Urutan kelas atau kategorinya tidak memiliki makna. Misal: warna baju, pekerjaan, bentuk daun Ordinal Urutan kelas atau kategorinya dapat diurutkan. Misal: intensitas serangan hama (parah, sedang, ringan), tingkat pendidikan (SD, SMP, SMA, PT), tingkat kesetujuan masyarakat (sangat setuju, setuju, kurang setuju, tidak setuju)

Peubah Numerik Interval Nilai 0 pada peubah ini tidak bersifat mutlak, dan hanya berupa kesepakatan. Misal: temperatur benda/ruangan, nilai IPK Ratio Nilai 0 pada peubah ini bersifat mutlak. Misal: penghasilan per bulan, panjang benda, jumlah daun per cabang, produktivitas tanaman, berat badan sapi.

Analisis Statistika Statistika Deskriptif Mempelajari teknik-teknik yang berguna dalam peringkasan data dan pemberian gambaran umum tentang data yang dimiliki. Statistika Inferensia Mempelajari kaidah-kaidah pengambilan kesimpulan statistika dari data yang dimiliki dengan menggunakan ilmu peluang.

Deskripsi Data Menyajikan gambaran umum perilaku data yang dimiliki Deskripsi dilakukan di awal proses analisis data Tujuan deskripsi data: Memberikan informasi yang cepat tentang data Mendapatkan informasi keberadaan data dengan karakteristik yang aneh Memperoleh informasi yang berguna bagi proses analisis selanjutnya

Deskripsi Data Kategorik Tabel Frekuensi (Frequency Table) Tabulasi Silang (Cross Tabulation) Grafik Bar Chart, 3D Bar Chart, Multiple Bar Chart Pie Chart

Deskripsi Data Kategorik PROC FREQ DATA=stk.profile; TABLES transport / NOCUM; RUN;

Deskripsi Data Kategorik PROC FREQ DATA=stk.profile; TABLES transport*budget; run;

Deskripsi Data Kategorik PROC GCHART DATA=stk.profile; PIE transport; run;

Deskripsi Data Kategorik PROC GCHART DATA=stk.profile; VBAR transport / GROUP=budget; where budget NE ""; run;

DESKRIPSI DAN PENGENALAN SEBARAN DATA NUMERIK

Deskripsi Data Numerik Ukuran Pemusatan (central tendency) Rataan Median Modus Ukuran Penyebaran (dispersion) Ragam (variance), simpangan baku (standard deviation) Range Inter-Quartile Range Pola sebaran data (data distribution)

Nilai tengah (rataan/rata-rata) Definisi: merupakan ukuran yang menimbang data menjadi dua kelompok data yang memiliki massa yang sama Apabila x1, x2,...,xn adalah anggota suatu populasi terhingga berukuran N, maka nilai tengah populasinya adalah: 1 N N Xi i1 21

Nilai tengah (rataan/rata-rata) sedangkan jika x1, x2,...,xn adalah anggota suatu contoh berukuran n, maka nilai tengah contoh tersebut adalah: x 1 n n Xi i1 dalam Bahasa Inggris, rata-rata populasi disebut dengan mean dan ratarata contoh disebut average 22

Median Definisi : suatu nilai data yang membagi dua sama banyak kumpulan data yang telah diurutkan. Langkah Teknis: Urutkan data dari kecil ke besar Cari posisi median (n med =(n+1)/2) Nilai median Jika n med bulat, maka Median=X (n+1)/2 Jika n med pecahan, maka Median=(X [nmed] + X [nmed]+1 )/2 (rata-rata dua pengamatan yang berada sebelum dan setelah posisi median) 23

Median vs Rataan Data: 20 34 45 89 120 122 129 130 150 152 180 Median = 122, Rataan = 106.45 Data: 20 34 45 89 120 122 129 130 150 152 1800 Median = 122, Rataan = 253.73 24

Median vs Rataan Nilai rataan bersifat tidak kekar (robust), dan sangat terpengaruh oleh keberadaan nilai-nilai ekstrim. [selanjutnya nanti akan dikenalkan istilah pencilan/outlier] Adanya nilai ekstrim besar, akan menyebabkan nilai rataan cenderung membesar. Sebaliknya, nilai rataan akan mengecil jika terdapat nilai ekstrim kecil. Median cenderung tidak demikian, hanya saja secara komputasi penghitungan median lebih lama karena ada proses pengurutan data. Rataan terpangkas (trimmed mean) adalah salah satu solusi mengatasi ketidakkekaran rataan, dengan tidak menyertakan nilai ekstrim dalam penghitungan. Misal, membuang 5% data terbesar dan terkecil. 25

Ukuran Penyebaran Definisi : suatu ukuran untuk memberikan gambaran seberapa besar data menyebar dalam kumpulannya. Beberapa ukuran penyebaran: Wilayah (Range) Jarak Antar Kuartil (Interquartile Range) Ragam (Variance) Simpangan Baku (Standard Deviation) dll 26

Wilayah (Range) Definisi : suatu ukuran yang dihitung dari selisih antara nilai pengamatan terbesar dengan pengamatan terkecil W = X [N] -X [1] Ukuran ini cukup baik digunakan untuk mengukur penyebaran data yang simetrik dan nilai pengamatannya menyebar merata. Tetapi ukuran ini akan menjadi tidak relevan jika nilai pengamatan maksimum dan minimum merupakan data-data ekstrem 27

Kuartil (Quartile) Definisi : suatu nilai data yang membagi empat sama banyak kumpulan data yang telah diurutkan Q1, Q2, Q3 Cara Penghitungan Metode Belah dua Metode Interpolasi 28

Metode Belah dua Urutkan data dari kecil ke besar Cari posisi kuartil n q2 =(n+1)/2 n q1 =(n q2* +1)/2= n q3, n q2 * posisi kuartil dua terpangkas (pecahan dibuang) Nilai kuartil 2 ditentukan sama seperti mencari nilai median. Kuartil 1 dan 3 prinsipnya sama seperti median tapi kuartil 1 dihitung dari kiri, sedangkan kuartil 3 dihitung dari kanan. 29

Kuartil Metode Belah Dua Data terurut: 20 34 45 64 89 102 120 122 129 130 133 150 152 180 Banyaknya data, n = 14 Posisi median, n Q2 = (14 + 1) / 2 = 7.5 Posisi Q1, n Q1 = (7 + 1) / 2 = 4 Median = (120 + 122) / 2 = 121 Q1 = 64 Q3 = 133 30

Metode Interpolasi Urutkan data dari kecil ke besar Cari posisi kuartil n q1 =(1/4)(n+1) n q2 =(2/4)(n+1) n q3 =(3/4)(n+1) Nilai kuartil dihitung sebagai berikut: X qi =X a,i + h i (X b,i -X a,i ) X a,i = pengamatan sebelum posisi kuartil ke-i, X b,i = pengamatan setelah posisi kuartil ke-i dan h i adalah nilai pecahan dari posisi kuartil 31

Kuartil Metode Interpolasi Data terurut: 20 34 45 64 89 102 120 122 129 130 133 150 152 180 Banyaknya data, n = 14 Posisi Q1, n Q1 = (14 + 1) * 1/ 4 = 3.75 Posisi Q2, n Q2 = (14 + 1) * 2/ 4 = 7.5 Posisi Q3, n Q3 = (14 + 1) * 3/4 = 11.25 Q1 = X3 + 0.75(X4 X3) = 45 + 0.75(64-45) = 59.25 Q2 = X7 + 0.5 (X8 X7) = 120 + 0.5 (122-120) = 121 Q3 = X11 + 0.25 (X12 X11) = 133 + 0.25(150-133) = 137.25 32

Jarak antar kuartil (Interquartile Range) Definisi : Jarak antar kuartil mengukur penyebaran 50% data ditengah-tengah setelah data diurut. Ukuran penyebaran ini merupakan ukuran penyebaran data yang terpangkas 25% yaitu dengan membuang 25% data yang terbesar dan 25% data terkecil. 33

Jarak antar kuartil (Interquartile Range) Jarak antar kuartil dihitung dari selisih antara kuartil 3 (Q3) dengan kuartil 1 (Q1): JAK atau IQR = Q3 -Q1 Ukuran ini sangat baik digunakan jika data yang dikumpulkan banyak mengandung data pencilan 34

Ragam (Variance) Definisi : Ragam merupakan ukuran penyebaran data yang mengukur rata-rata jarak kuadrat semua titik pengamatan terhadap titik pusat (rataan). Apabila x 1, x 2,...,x N] adalah anggota suatu populasi terhingga berukuran N, maka ragam populasinya adalah N 2 1 ( X 2 i ) N i1 35

Ragam (Variance) apabila x1, x2,...,xn adalah anggota suatu contoh berukuran n, maka ragam contoh tersebut adalah: s n 2 1 ( X x 2 i ) n - 1 i1 36

Simpangan Baku (Standard Deviation) Definisi : Merupakan akar dari ragam, yaitu simpangan baku populasi dan s simpangan baku sampel. diperoleh satuan yang sama dengan data aslinya 37

Teladan Perhatikan hasil ringkasan terhadap data pendapatan masyarakat (juta rupiah per bulan) dari dua kabupaten berikut ini: 38

Teladan Jika kita hanya menyajikan nilai rata-rata saja dari kedua kabupaten, maka dinyatakan bahwa masyarakat di kedua kabupaten memiliki pendapatan yang relatif sama. Penjelasan yang lebih banyak akan diperoleh jika kita melihat nilai-nilai simpangan bakunya. Kabupaten A memiliki simpangan baku yang lebih besar daripada Kabupaten B. Artinya, pendapatan masyarakat di Kabupaten A lebih heterogen dibandingkan di Kabupaten B. Implikasi dari informasi ini terhadap kesimpulan bisa signifikan. 39

Pengenalan Sebaran Data Data distribution Statistik Statistik lima serangkai Persentil Skewness, kurtosis Grafik Histogram Boxplot

Pola Sebaran Data Selain menggunakan ukuran pemusatan dan ukuran penyebaran, pengenalan sebaran data dapat dilakukan menggunakan bantuan grafik: HISTOGRAM STEM & LEAF (Diagram Dahan Daun) BOX-PLOT (Diagram Kotak Garis)

HISTOGRAM informasi penyebaran data dan bentuk sebarannya informasi ukuran pemusatan data informasi keberadaan data-data ekstrim dan pencilan (outliers) informasi adanya pengelompokan data 42

Tahapan Buat beberapa selang nilai yang sama lebarnya yang melingkupi semua nilai yang ada di data. Banyaknya kelas sekitar 3.3Log(n) + 1 Hitung banyaknya (frekuensi) data yang nilainya memenuhi setiap kelas Gambarkan batang setiap kelas yang tingginya proporsional dengan frekuensi 43

Ilustrasi Data n=48: 44

Banyaknya kelas = 3.3 log(48) + 1 = 6.5 7 45

46

Kemungkinan Informasi yang diperoleh dari bentuk sebaran 47

48

49

Nilai ukuran pemusatan di berbagai bentuk sebaran Simetrik: rataan = rataan Menjulur ke kiri: rataan < median Menjulur ke kanan: rataan > median

STEM AND LEAF Mirip dengan Histogram, namun batangnya berupa nilai-nilai data Tahapan: bagi setiap data menjadi dua bagian : Dahan Daun Letakkan nilai dahan pada sebuah kolom terurut Pasangkan daun sesuai dengan letak dahannya Urutkan nilai daun di setiap dahan Jika mungkin perbaiki tampilan dengan memecah dahan 51

Ilustrasi Data: 17 21 22 12 27 13 30 24 29 15 18 10 13 14 28 09 02 20 07 09 00 01 13 02 17 03 17 14 18 19 11 19 02 10 29 04 20 28 09 04 03 02 34 25 09 21 07 24 bagi setiap data menjadi dua bagian 1-7 2-1 2-2 1-2 2-7 1-3 3-0 2-4 2-9 1-5 1-8 1-0 1-3 1-4 2-8 0-9 0-2 2-0 0-7 0-9 0-0 0-1 1-3 0-2 1-7 0-3 1-7 1-4 1-8 1-9 1-1 1-9 0-2 1-0 2-9 0-4 2-0 2-8 0-9 0-4 0-3 0-2 3-4 2-5 0-9 2-1 0-7 2-4 Letakkan nilai dahan pada sebuah kolom terurut 0 1 2 3 52

Pasangkan daun sesuai dengan letak dahannya 0 79279012324943297 1 123580343774891904 2 27498090851 3 04 53

Urutkan nilai daun di setiap dahan 0 0122223344779999 1 00123334457778899 2 0011244578899 3 04 54

Jika mungkin perbaiki tampilan dengan memecah dahan 0-0122223344 * 779999 1-001233344 * 57778899 2-0011244 * 578899 3-04 55

Aturan memecah dahan pecah jadi 2 : - : 0, 1, 2, 3, 4 * : 5, 6, 7, 8, 9 pecah jadi 5 : - : 0, 1 t : 2, 3 f : 4, 5 s : 6, 7 * : 8, 9 56

BOXPLOT informasi ukuran pemusatan dan penyebaran (berupa kuartil) informasi bentuk sebaran informasi data ekstrim 57

58

Tahapan hitung statistik lima serangkai (Min, Q1, Q2, Q3, Max) hitung batas atas BA = Q3 + 3/2 (Q3-Q1) hitung batas bawah BB = Q1-3/2 (Q3-Q1) deteksi keberadaan pencilan, yaitu data yang nilainya kurang dari BB atau data yang lebih besar dari BA gambar kotak, dengan batas Q1 sampai Q3, dan letakkan tanda garis di tengah kotak pada posisi Q2 59

Tarik garis ke kanan, mulai dari Q3 sampai data terbesar di dalam batas atas Tarik garis ke kiri, mulai dari Q1 sampai data terkecil di dalam batas bawah tandai pencilan dengan lingkaran kecil 60

Ilustrasi Dengan data sebelumnya diperoleh X[1] = Min = 0 Q1 = 7.5 Q2 = 14 Q3 = 21 X[n] = Max = 34 Batas Bawah = 7.5 3/2(21 7.5) = -12.75 Batas Atas = 21 + 3/2(21 7.5) = 41.25 61

62

63

Sebaran Penarikan Contoh

Sebaran Nilai Statistik Statistik: karakteristik numerik yang diperoleh dari data contoh Dari sebuah populasi dapat diperoleh banyak contoh acak. Dari setiap contoh acak, dapat dihitung sebuah nilai statistik. Nilai statistik tersebut dapat berbeda-beda antar contohnya. Statistik adalah peubah acak, dan memiliki sebaran.

populasi contoh rata-rata 0.5 2.5 1.5 1.5

Rata-rata Contoh Misalkan terdapat suatu populasi dengan banyaknya anggota sebesar N, rata-rata sebesar dan ragam sebesar 2, ditarik contoh berukuran n. Maka x memiliki rata-rata sebesar x memiliki ragam sebesar Dengan Pemulihan σ 2 n σ 2 N n N n 1 n N 1 N 1 Tanpa Pemulihan untuk N ->, 68

Jika x 1, x 2,, x n adalah contoh acak berukuran n yang diambil dari populasi dengan sebaran N(µ, 2 ), maka rata-rata contoh akan memiliki sebaran N(, 2 /n) x n Dengan demikian N(0, 1) atau sebaran Z memiliki sebaran

Ilustrasi Andaikan sebuah contoh acak berukuran 8 diambil dari populasi dengan sebaran N(5, 16). Maka rata-rata contoh akan memiliki sebaran N(5, 2). Peluang mendapatkan contoh dengan ratarata kurang dari 4 adalah P(xbar < 4) = P(Z < (4-5)/2) = P(Z < -0.71) = 0.23885

Selang Kepercayaan bagi Rata-Rata 1 - Lower Limit x Upper Limit

Selang Kepercayaan bagi Rata-Rata 1 - x z 2 n x x z 2 n

Selang Kepercayaan bagi Rata-Rata x z 2 n 1 - /2 Z /2 99% 0.005 2.57 95% 0.025 1.96 90% 0.050 1.645

Ilustrasi Andaikan sebuah contoh acak berukuran 25 diambil dari populasi yang menyebar normal dengan ragam 16. Jika ratarata data contoh adalah 10, maka selang kepercayaan 95% bagi rata-rata adalah x 10 z 2 n (1.96) 10 1.568 4 25 10 1.568 s/d10 1.568 8.432 s/d 11.568

Ilustrasi Dengan tingkat keyakinan/kepercayaan 95%, kita yakin bahwa rata-rata populasi antara 8.432 dan 11.568

Problem Pada banyak (semua) kasus, ragam populasi atau 2 tidak diketahui

Jika x 1, x 2,, x n adalah contoh acak berukuran n yang diambil dari populasi dengan sebaran normal, maka x s n memiliki sebaran t-student dengan derajat bebas (n-1)

Selang Kepercayaan bagi Rata-Rata: ragam populasi tidak diketahui 1 - x t ( ; n 1) 2 s n x x t ( ; n 1) 2 s n

Ilustrasi Andaikan sebuah contoh acak berukuran 25 diambil dari populasi yang menyebar normal. Jika rata-rata dan ragam dari data contoh masing-masing adalah 10 dan 20, maka selang kepercayaan 95% bagi rata-rata adalah s x t(0.025;25 1) n 10 10 1.846 10 1.846 8.154 (2.064) s/d s/d 20 25 11.846 10 1.846

Teorema Limit Pusat (central limit theorem) Jika x1, x2,, xn adalah contoh acak berukuran n dari populasi dengan sebaran tertentu yang memiliki rata-rata dan ragam masing-masing dan 2, untuk n (n sangat besar) maka x n memiliki sebaran N(0, 1)

Selang Kepercayaan bagi Proporsi Proporsi (p) adalah rata-rata dari peubah biner yang nilai datanya diganti 1 untuk kejadian yang diinginkan dan 0 untuk selainnya. Untuk contoh dengan ukuran yang besar, sebaran proporsi (p) mendekati sebaran normal. Ragam dari peubah biner adalah np(1-p), sehingga ragam proporsi adalah p(1-p)

Selang Kepercayaan bagi Proporsi pˆ z 2 pˆ(1 n pˆ) 1 - /2 Z /2 99% 0.005 2.57 95% 0.025 1.96 90% 0.050 1.645

Ilustrasi Pemeriksaan terhadap 1000 bayi berusia antara 2 hingga 6 bulan di Kota Bogor mendeteksi adanya 300 bayi yang mendapat makanan dengan gizi kurang. Dengan demikian, selang kepercayaan 95% bagi proporsi bayi dengan gizi kurang adalah: pˆ z 0.3 0.3 2 0.272 27.2% (1.96) 0.028 s/d pˆ(1 n s/d pˆ) (0.3)(0.7) 1000 0.328 32.8%

Latihan (3) Dari pemeriksaan terhadap 200 lembar papan yang dihasilkan dari sebuah pabrik pemotongan kayu, diperoleh 8 lembar papan yang cacat. Buat selang kepercayaan 90% bagi proporsi papan cacat produksi pabrik tersebut. Wawancara terhadap 400 penumpang KRL Commuter Line menghasilkan sebanyak 285 orang yang tidak setuju kenaikan harga tiket awal bulan ini. Buat selang kepercayaan 95% bagi proporsi penumpang yang tidak setuju kenaikan harga.

n = 400 p = 285 / 400 = 71.25% penduga titik (point estimate) 1 - = 95% z /2 = 1.96 pˆ z 2 0.7125 0.7125 pˆ(1 n 66.8% - 75.7% pˆ) (0.7125)(0.2875) (1.96) 400 0.04435 Penduga selang (interval estimate)

Pengujian Hipotesis mengenai Rataan Populasi

Rataan populasi: nilainya tidak diketahui nilainya diduga nilainya diasumsikan sama dengan, kurang dari atau lebih dari nilai tertentu nilainya dihipotesiskan Rataan Contoh digunakan untuk menduga rataan populasi digunakan untuk mengkonfirmasi hipotesis tentang rataan populasi kesimpulan konfirmasi hipotesis: ditolak vs diterima

Ditolak (rejected) : hipotesis tidak didukung oleh data, data tidak cukup mendukung hipotesis Diterima (accepted): hipotesis didukung oleh data

Kesimpulan Konfirmasi (berdasarkan data contoh) Kesalahan Kesimpulan Kondisi Sebenarnya (tapi tidak diketahui) Hipotesis Benar Hipotesis Salah Diterima Ditolak Apapun kesimpulan yang diambil berdasarkan data contoh, mengandung peluang membuat kesalahan.

Bentuk Hipotesis Hipotesis dalam statistika dinyatakan dalam dua bentuk yaitu: H 0 (hipotesis nol / null hypothesis) H 1 / H A (hipotesis alternatif / alternative hypothesis) H 0 dan H 1 bertolak belakang, tidak mungkin duaduanya ditolak dan tidak mungkin dua-duanya diterima. Penolakan terhadap H0 berimplikasi pada penerimaan terhadap H1, dan sebaliknya.

Bentuk Hipotesis Two-Tail Hypothesis One-Tail Hypothesis H 0 : = 0 H 0 : 0 H 0 : 0 H 1 : 0 H 1 : < 0 H 1 : > 0

Kesimpulan Konfirmasi (berdasarkan data contoh) Kesalahan Kesimpulan Kondisi Sebenarnya (tapi tidak diketahui) H 0 Benar H 0 Salah Terima H 0 Tolak H 0 Type I Error () Type II Error () ditentukan oleh pengambil kesimpulan. Secara umum membesar jika mengecil. disebut juga sebagai taraf nyata (significance level).

Kesalahan Kesimpulan

Pengambilan Kesimpulan H 0 : = 0 H 1 : 0 Jika H 0 benar maka x-bar akan menyebar mengikuti sebaran N( 0, 2 /n) Wilayah penolakan H 0 : 1. x-bar lebih dari 0 + z /2 /n 2. x-bar kurang dari 0 z /2 / n

Pengambilan Kesimpulan z H 0 : = 0 H 1 : 0 Jika didefinisikan z hitung sebagai hitung x 0 n Tolak H 0 jika z hitung > z /2 1 - /2 Z /2 99% 0.005 2.57 95% 0.025 1.96 90% 0.050 1.645

Pengambilan Kesimpulan H 0 : = 0 H 1 : 0 Pada kondisi nilai ragam ( 2 ) atau simpangan baku () populasi tidak diketahui, didefinisikan t hitung sebagai x s n 0 thitung Tolak H 0 jika t hitung > t /2 dengan derajat bebas (n 1)

Pengambilan Kesimpulan Daerah penolakan H 0 sangat tergantung dari bentuk hipotesis alternatif (H 1 ) dan statistik uji Uji Z (Z-test) H 1 : < 0 Tolak H 0 jika z hitung < -z (tabel) H 1 : > 0 Tolak H 0 jika z hitung > z (tabel) H 1 : 0 Tolak H 0 jika z hitung > z /2 (tabel) Uji t (t-test) H 1 : < 0 Tolak H 0 jika t hitung < -t (; db=n-1) (tabel) H 1 : > 0 Tolak H 0 jika t hitung > t (; db=n-1) (tabel) H 1 : 0 Tolak H 0 jika t hitung > t (/2; db=n-1) (tabel) daerah kritis (critical region)

Ilustrasi Batasan yang ditentukan oleh pemerintah terhadap emisi gas CO kendaraan bermotor adalah 50 ppm. Sebuah perusahaan baru yang sedang mengajukan ijin pemasaran mobil, diperiksa oleh petugas pemerintah untuk menentukan apakah perusahan tersebut layak diberikan ijin. Sebanyak 20 mobil diambil secara acak dan diuji emisi CO-nya. Dari data yang didapatkan, rata-ratanya adalah 55 dan ragamnya 4.2. Dengan menggunakan taraf nyata 5%, layakkah perusahaan tersebut mendapat ijin?

Hipotesis yang diuji: H0 : 50 vs H1 : > 50 Statistik uji: t h = (55-50)/(4.2/20)=10.91 Daerah kritis pada taraf nyata 0.05 Tolak Ho jika t h > t (0.05;db=19) = 1.729

Kesimpulan: Tolak H 0, artinya emisi gas CO kendaraan bermotor yang akan dipasarkan oleh perusahaan tersebut melebihi batasan yang ditentukan oleh pemerintah sehingga perusahaan tersebut tidak layak memperoleh ijin untuk memasarkan mobilnya.

Latihan CV Ayo Kurban menyatakan bahwa kambingkambing kurban yang mereka sediakan memiliki rata-rata bobot 48 kg. Pemeriksaan terhadap 15 ekor kambing memberikan data bobot sebagai berikut: 47 49 51 52 46 47 48 46 48 49 45 50 50 49 49 45 Dengan taraf nyata 5%, apakah pernyataan CV Ayo Kurban didukung oleh data yang ada?

One-Way Anova

Outline Review Pengujian Hipotesis Pembandingan Nilai Tengah Dua Populasi Pengujian Hipotesis Pembandingan Nilai Tengah k Populasi, k > 2 : One-Way ANOVA Uji Perbandingan Berpasangan Fisher s LSD Tukey s HSD

Pembandingan Nilai Tengah k Populasi Populasi 1 Populasi 2 Populasi 3 Populasi 4 1 2 3 4 dengan mengasumsikan ragam dari semua populasi sama besar, ingin diuji apakah populasi-populasi tersebut memiliki nilai tengah atau rata-rata yang sama besar. H 0 : 1 = 2 = 3 = 4 H 1 : setidaknya ada satu pasangan i j

Bagaimana membandingkannya? Contoh 1 Contoh 2 Contoh 3 Contoh 4 x1 x2 x3 x4 n 1 n 2 n 3 n 4 H 0 akan cenderung ditolak jika perbedaan antar x- bar semakin besar H 0 akan cenderung ditolak jika variasi antar x-bar semakin besar

Bagaimana membandingkannya? Contoh 1 Contoh 2 Contoh 3 Contoh 4 x1 x2 x3 x4 n 1 n 2 n 3 n 4 Jika didefinisikan x sebagai rataan umum (grand mean), yaitu rataan dari data gabungan semua contoh, maka selisih antara x i dan dapat dipandang sebagai ukuran variasi antar populasi x

Variasi Total Ukuran variasi/perbedaan nilai setiap individu amatan dengan rata-rata umum. Diukur dalam bentuk SS(T), Sum of Squares Total [JKT = jumlah kuadrat total] SS( T) k i1 n i j1 ( x ij x) 2

Variasi antar Populasi Diukur menggunakan SS(B), Sum of Squares Between Mengukur variasi antar rata-rata setiap contoh dengan rata-rata umum (grand mean) Diboboti oleh banyaknya amatan (sample size) dari masing-masing contoh SS( B) k i1 n i ( x i x) 2

Variasi dalam Populasi Meskipun dari contoh yang sama, nilai amatan bisa berbeda-beda ada variasi dalam populasi Diukur menggunakan SS(W), Sum of Squares Within Mengukur variasi antara nilai setiap amatan dengan ratarata contoh n k j k kj n j j n j j x x x x x x W SS 1 2 1 2 2 2 1 2 1 1 ) ( ) ( ) ( ) ( 2 1 k i n i s i W SS 1 2 1) ( ) (

One-Way ANOVA Memecah variasi total menjadi dua sumber yaitu variasi antar populasi dan variasi dalam populasi ANOVA: analysis of variance, analisis ragam, sidik ragam Dapat ditunjukkan bahwa SS(T) = SS(B) + SS(W) Penolakan terhadap H0 dilakukan jika porsi SS(B) jauh lebih besar dibandingkan porsi SS(W) SS(W) merupakan variasi yang diakibatkan oleh faktor lain selain faktor perbedaan populasi. Sehingga, SS(W) juga dikenal sebagai SS(E), sum of squares error.

One-Way ANOVA Direpresentasikan dalam bentuk tabel: Tabel ANOVA Source df SS MS F Between k 1 SS(B) MS(B) = SS(B)/ dfb Within n k SS(W) MS(W) = SS(W)/dfW Total n 1 SS(T) = SS(B ) + SS(W) df: degree of freedom, SS: sum of squares, MS: mean of squares = SS/df Sumber db JK KT F Antar Populasi k 1 Dalam Populasi n k Total n 1 db: derajat bebas, JK: jumlah kuadrat, KT: kuadrat tengah = JK/db

One-Way ANOVA H 0 : 1 = 2 = 3 = 4 Uji F H 1 : setidaknya ada satu pasangan i j SS( B) MS( B) dfb F MS( W ) SS( W ) dfw Kriteria penolakan H 0 F > F tabel dengan derajat bebas (dfb, dfw)

ILUSTRASI

Permasalahan Suatu kelas dibagi dalam tiga kelompok berdasarkan baris tempat duduk siswa: depan, tengah, belakang Seorang guru ingin mengetahui apakah posisi tempat duduk mempengaruhi pemahaman siswa terhadap materi pelajaran. Ingin dibandingkan rata-rata nilai dari tiga kelompok tempat duduk.

Data Contoh acak dari setiap kelompok baris tempat duduk diambil. Data nilai ujian mata pelajaran yang berhasil dikumpulkan adalah sebagai berikut Depan : 82, 83, 97, 93, 55, 67, 53 Tengah : 83, 78, 68, 61, 77, 54, 69, 51, 63 Belakang: 38, 59, 55, 66, 45, 52, 52, 61

Statistik Deskriptif Ringkasan statistik deskriptif dari data di slide sebelumnya adalah sebagai berikut Depan Tengah Belakang n 7 9 8 Rata-rata 75.71 67.11 53.50 St. Dev (simpangan baku) 17.63 10.95 8.96 Variance (ragam) 310.90 119.86 80.29

Rata-Rata Umum (grand mean) x x x n 1 x 1 n 1 7(75.71) 1562 24 n 2 n x 2 2 n 65.08 n 3 3 x 3 9(67.11) 7 9 8 8(53.50)

SS(B) SS( B) k n i1 i ( x i x) 2 SS( B) 7 2 2 75.71 65.08 967.11 65.08 853.50 65.08 2 SS( B) 1902

SS(W) SS( W ) k ( n i1 i 1) s 2 i SS( W ) 6(310.90) 8(119.86) 7(80.29) SS( W ) 3386

Tabel ANOVA Source df SS MS F Between 2 1902 951.0 5.9 Within 21 3386 161.2 Total 23 5288 229.9 F tabel pada db1 = 2 dan db2 = 21, serta = 5% adalah 3.4668 Karena nilai F lebih dari F tabel, kita simpulkan Tolak H 0, dengan demikian dikatakan bahwa rata-rata tingkat penguasaan materi pelajaran di tiga tempat duduk tersebut tidak semuanya sama besar. Dalam bahasa lain, posisi tingkat duduk mempengaruhi tingkat pengusaan materi pelajaran.

Analisis Korelasi dan Regresi Linear

Hubungan Antar Peubah Dari setiap objek/individu/tempat/dll dapat diukur/dicatat/diamati lebih dari satu buah peubah. Nilai dari suatu peubah bersifat: saling bebas dengan peubah lain saling terkait dengan peubah lain

Hubungan antar Peubah berat badan suhu rata-rata tinggi badan ketinggian tempat

Koefisien Korelasi Diperlukan sebuah ukuran yang dapat mencirikan keeratan hubungan antar dua peubah. Koefisien Korelasi ( ; baca: rho) nilainya: -1 1 tanda menunjukkan arah hubungan besar/magnitude menunjukkan kekuatan hubungan koefisien korelasi data contoh dinotasikan r

Koefisien Korelasi (Pearson) 1 ) ( dan 1 ) ( 1 ) )( ( 2 2 n y y S n x x S n y y x x S S S S r i y i x i i xy y x xy xy Jika ada dua peubah X dan Y, korelasi antara keduanya adalah

Koefisien Korelasi (+) r = 0.70 r = 0.58 r = 0.95

Koefisien Korelasi (-) r = -0.68 r = -0.58 r = -0.90

Ilustrasi Tinggi Badan Berat Badan 165 49 159 58 166 60 173 67 179 69 164 56 163 53 154 51 170 60 158 44 70 65 60 55 50 45 40 150 160 170 180

Ilustrasi x y x-xbar y-ybar (x-xbar) 2 (y-ybar) 2 (x-xbar)(y-ybar) 165 49-0.1-7.7 0.01 59.29 0.77 159 58-6.1 1.3 37.21 1.69-7.93 166 60 0.9 3.3 0.81 10.89 2.97 173 67 7.9 10.3 62.41 106.09 81.37 179 69 13.9 12.3 193.21 151.29 170.97 164 56-1.1-0.7 1.21 0.49 0.77 163 53-2.1-3.7 4.41 13.69 7.77 154 51-11.1-5.7 123.21 32.49 63.27 170 60 4.9 3.3 24.01 10.89 16.17 158 44-7.1-12.7 50.41 161.29 90.17 165.1 56.7 jumlah 496.9 548.1 426.3 r 426.3 496.9 548.1 0.817

Regresi Linear: Pengantar Terdapat 2 peubah numerik : peubah yang satu mempengaruhi peubah yang lain Peubah yang mempengaruhi X, peubah bebas (independent), peubah penjelas (explanatory) Peubah yang dipengaruhi Y, peubah tak bebas (dependent), peubah respon (response)

Pengantar Misalnya ingin melihat hubungan antara pengeluaran untuk iklan (ads expenditures, X) dengan penerimaan melalui penjualan (sales revenue, Y) Bulan 1 2 3 4 5 6 7 8 9 10 X 10 9 11 12 11 12 13 13 14 15 Y 44 40 42 46 48 52 54 58 56 60

sales revenue (millions of dollars) Pengantar 65 60 55 50 45 40 35 8 10 12 14 16 ads expenditures (millions of dollars)

sales revenue (millions of dollars) Pengantar 65 60 55 50 45 40 35 e Ŷ Y 8 10 12 14 16 ads expenditures (millions of dollars) Ingin dibuat model Y = a + bx Model memuat error, selisih nilai sebenarnya dengan dugaan berdasar model e Y - Ŷ

Bagaimana mendapatkan a dan b? Metode yang digunakan : OLS (ordinary least squares/kuadrat terkecil), mencari a dan b sehingga jumlah kuadrat error paling kecil Cari penduga a dan b sehingga minimum n 2 ei i1 i1 n Yi - â - bˆ Xi 2

Bagaimana mendapatkan a dan b? bˆ n i1 X X Y Y n i X i X i1 i 2 â Y bˆx Rata-rata Y Rata-rata X

X 12 Y 50 Ilustrasi Perhitungan X Y X-Xbar Y-Ybar (X-Xbar)(Y-Ybar) (X-Xbar) 2 10 44-2 -6 12 4 9 40-3 -10 30 9 11 42-1 -8 8 1 12 46 0-4 0 0 11 48-1 -2 2 1 12 52 0 2 0 0 13 54 1 4 4 1 13 58 1 8 8 1 14 56 2 6 12 4 X X Y Y106 2 X X 30 b = 106 / 30 = 3.533 a = 50 3.533 (12) = 7.60

sales revenue (millions of dollars) 65 60 55 50 45 40 35 y = 3.5333x + 7.6 8 10 12 14 16 ads expenditures (millions of dollars)

Interpretasi a dan b Y = 7.6 + 3.53 X Pendapatan = 7.6 + 3.53 Belanja Iklan a = intersep/intercept = besarnya nilai Y ketika X sebesar 0 b = gradient/slope = besarnya perubahan nilai Y ketika X berubah satu satuan. Tanda koefisien b menunjukkan arah hubungan X dan Y Pada kasus ilustrasi a = 7.6 besarnya sales revenue jika tidak ada belanja iklan adalah 7.6 juta dolar b = 3.533 jika belanja iklan dinaikkan 1 juta dolar maka sales revenue naik 3.533 juta dolar

Uji Signifikasi Koefisien b H 0 : b = 0 (artinya X tidak mempengaruhi Y) H 1 : b 0 (artinya X mempengaruhi Y) statistik uji t bˆ s bˆ s bˆ ( n n i1 2) Y n i X i X i1 Yˆ i 2 2 Tolak H 0 jika nilai t melebihi nilai t pada tabel dengan derajat bebas (n-2) dengan tingkat kesalahan /2

Uji signifikansi koefisien b Nilai s b = (65.47 / (8)(30)) = 0.52 Nilai t = 3.53 / 0.52 = 6.79 Nilai t pada tabel (db = 8, = 5%) = 2.306 Kesimpulan : Tolak H 0, data mendukung kesimpulan adanya pengaruh ads expenditure terhadap sales revenue.

Ukuran Kebaikan Model Menggunakan koefisien determinasi (R 2, R- squared) R-squared bernilai antara 0 s/d 1 R-squared adalah persentase keragaman data yang mampu diterangkan oleh model R-squared tinggi adalah indikasi model yang baik

Ukuran Kebaikan Model R 2 ˆ 2 2 Yi Y e 1 2 Y Y Y Y i i 2 Model dalam ilustrasi bisa ditunjukkan memiliki R-squared 0.85 atau 85%