LAPORAN PRAKTIKUM ANALISIS DATA EKSPLORATIF GEMPUR SAFAR (10877) Asisten SIGIT SAMAPTAAJI BAGUS PRAMULYA Dosen Dra. SRIHARYATMI KARTIKO, M.Sc. LABORATORIUM KOMPUTASI MATEMATIKA DAN STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA YOGYAKARTA 2007
ANALISIS DATA EKSPLORATIF 1. Dasar Teori A. Bentuk Visual Data Bentuk visual data atau basa disebut angkatan merupakan bentuk yang dikonstruksikan dari data yang merupakan visualisasi dari data tersebut, artinya dari bentuk ini dapat dilihat misalnya pengelompokkan data, pusat data, penyebaran data, sampai bentuk distribusi data. Bentuk visual dari data dapat dilihat dari daftar tally, dan diagram batang dan daun. Kedua bentuk visualisasi data ini memiliki kelebihan dan kekurangan masing-masing. Daftar tally secra garis besar dapat membantu dalam mengetahui pemusatan, persebaran dan bentuk distribusi data. Namun, bentuk visualisai data ini memiliki satu kekurangan, yaitu kita tidak dapat melihat nilai dari setiap observasi secara lengkap, sebab sebagian besar daftar tally disajikan dalam bentuk berkelompok (dalam bentuk interval), dan bahkan jika secara tunggal, kita hanya akan mempunyai beberapa nilai observasi yang mewakili nilai observasi yang sama. Kelemahan daftar tally ini dapat kita tutpi dengan bentuk visualisasi lainnya, yaitu diagram batang dan daun. Selain memiliki fungsi yang sama dengan daftar tally, bentuk visualisasi ini juga memiliki beberapa kelebihan seperti dapat digunakan dalam pembuatan array data, dan membandingan 2 buah angkatan data. univorm Secara garis besar, bentuk-bentuk angkatan terdiri dari: Simetris Menjurai Keatas Menjurai kebawah Berpuncak Ganda B. Ringkasan Numerik
Ringkasan numerik terdiri atas dua macam, yaitu: a. Ukuran pusat yang berfungsi menunjukan letak pusat dari data, dan; b. Ukuran sebaran yang berfungsi menunjukan seberapa besar data menyebar. a. Ukuran Pusat Ukuran pemusatan data terdiri atas: Rata-rata Penghitungan rata-rata melibatkan seluruh observasi yang terdapat di dalam data. Median _ x = n i = 1 n x i Median adalah observasi yang terletak ditengah setelah data diurutkan dari nilaiobservasi terkecil menuju terbesar atau sebaliknya. Median ini membantu mengatasi masalah harga ekstrim pada rata-rata, karena median tidak terpengaruh oleh harga ekstrim. Bila ukuran data agak besar, penentuan median dapat mengikuti langkah-langkah berikut: 1. mengurutkan data 2. menghitung nilai n(banyak observasi)/2 3. n/2 membesar ke k (n/2 k) (aturan tambahan, jika n/2 = m ½ dan m ¾ maka k = m+1 dan jika n/2 = m atau m 1/3 maka k = m + ½ ) 4. median adalah observasi ke-k dari terkecil atau dari terbesar Kuartil Kuartil adalah harga yang membagi data menjadi empat bagian yang sama yang selanjutnya disebut k 1, k 2 (median) dan k 3.
Kuartil dapat ditentukan dengan terlebih dahulu menentukan nilai n/4 p, dan selanjutnya diperoleh: k 1 = observasi ke-p dari yang terkecil k 3 = observasi ke-p dari yang terbesar. Modus Modus adalah harga yang muncul dengan frekuensi paling banyak. Suatu data bisa memiliki hanya satu modus, atau lebih dari 2 modus, bahkan tidak mempunyai modus atau dapat dikatan semua observasi adalah modus. Oleh karena itu, nilai modus jarang digunakan dalam menentukan pemusatan data. Trirata Trirata adalah suatu ukuran pusat yang tidak dipengaruhi oleh harga ekstrim. Trirata dapat dicari dengan menjumlahkan k 1, k 3, dan 2 kali median dan selanjutnya di bagi 4 (empat). Atau secara matematis : k + Trirata = 4 Rata-rata tengah 1 + 2k2 k3 Rata-rata tengah adalah rata-rata dari observasi yang terletak di antara kuartil 1 dan kuartil 3 tidak termasuk kuartil 1 dan kuartil 3 tersebut. b. Ukuran Sebaran Ukuran sebaran data terdiri atas: Range (jangkauan) Deviasi Kuartil Mean Deviasi Variansi Standar Deviasi
C. Penggunaan Ringkasan Numerik D. Transformasi Angakatan Data
2. Permasalahan Adapun permasalahan yang akan dislesaikan pada laporan kali ini, yaitu: 1. Bagaimanakah cara membuat visualisasi data? 2. Bagaimanakah cara untuk membuat ringkasan numerik? 3. Bagaimanakah cara untuk melakukan standardisasi dan transformasi? Dan untuk menyelesaikan ketiga permasalahan tersebut, terlebih dahulu akan diselesaikan contoh soal berikut: a. untuk memutuskan jumlah konter servis dalam sebuah supermarket, diperlukan data lama waktu antrian. Berikut ini adalah data lama waktu antrian (dalam menit): 3.6 1.9 1.1 1.4 0.6 1.1 1.6 1.8 0.2 2.8 1.2 1.9 2.1 0.3 1.3 2.5 0.8 5.2 0.3 1.1 3.1 1.1 1.0 0.5 0.8 0.5 0.4 0.4 0.9 1.8 0.2 1.2 2.3 1.2 0.7 0.3 1.0 0.6 1.8 0.4 3.1 1.1 1.4 1.1 4.5 1.3 1.7 0.6 1.8 0.8 0.9 0.8 1.1 0.7 1.6 1.7 0.7 1.3 2.2 0.6 i. buatlah visualisasi data dan ringkasan numeriknya! ii. berapa proporsi antrian yang kurang atau sama dengan 1 menit? b. Ahli lingkungan hidup melakukan survey terhadap 28 ekor lumba-lumba untuk mengetahui tingkat akumulasi zat mercury pada mamalia laut. Konsentrasi air raksa (Hg) pada hati lumba-lumba tersebut diukur dalam microgram per gram berat. Di bawah ini adalah data surveynya : 1.70 183 221 286 101 264 316 1.72 168 406 315 209 85.4 481 8.8 218 252 241 445 314 118 5.9 180 329 397 485 278 318 Dari data-data tersebut divisualisasikan dengan membuat bentuk-bentuk visulisasi data diantaranya daftar tally, diagram batang dan daun, dan rigkasan numerik.
Buatlah visualisasi data dan ringkasan numeriknya! c. Empat mahasiswa statistika ingin membandingkan jumlah pengunjung pada 4 wartel yang ada di suatu kecamatan. Kemudian mereka melakukan pengamatan selama beberapa hari, dan didapat hasil sebagai berikut: wartel1 wartel2 wartel3 wartel4 29 31 13 26 19 19 20 18 24 31 15 27 14 26 12 29 21 30 18 24 13 22 24 25 18 29 11 23 17 26 17 27 30 32 12 36 23 30 18 27 18 23 17 25 23 26 12 29 21 27 22 29 22 28 18 29 19 32 16 22 i. Buatlah boxplot, diagram batang dan daun, serta ringkasan numerik untuk data tersebut, lalu interprestasikan hasilnya! ii. Lakukan standardisasi terhadap data yang ada dengan pusat mean dan iii. sebaran standar deviasi! Untuk perbandingan, lakukan standardisasi terhadap data yang ada dengan pusat median dan sebaran range! iv. Ulangi langkah 1 untuk data soal nomor 2 dan 3! v. Simpulkan hasilnya! d. Lakukanlah transformasi data untuk variable head L, head W, Neck G, length, chest G, dan weight pada file Bears.MTW. i. Buatlah boxplot untuk tiap-tiap variable tersebut! ii. Hitunglah nisbah untuk setiap transformasinya! iii. Lakukan transformaasi data hingga diperoleh data yang dapat dikatan simetris!
3. Pembahasan Permasalahan a. Berikut ini adalah data lama waktu antrian (dalam menit): Setelah kita menginputkan data yang akan dianalisis, selanjutnya kita akan membuat visualisasi dan ringkasan numeric dari data tersebut: a. Visualisasi data: Visualisasi data akan disajikan dalam bentuk daftar tally dan diagram batang dan daun. Kedua bentuk visualisasi ini dapat kita buat secara manual maupun dengan menggunakan perangkat lunak Minitab. Daftar tally Secara Manual 1. data akan dibuat kedalam kelas-kelas interval dengan lebar interval= { nilai tertinggi(5,2) nilai terendah (0,2)}/ jumlah kelas yang kita inginkan (missal 8)=0,63 dibulatkan 0,6.
2. setelah diketahui lebar interval, selanjutnya data diklasifikasikan kedalam kelas masing-masing: 0,2 0,7 17 0,8 1,3 21 1,4 1,9 12 2,0 2,5 4 2,6 3,1 3 3,2 3,7 1 3,8 4,3 4,4 4,9 1 5,0 5,5 1 Menggunakan Minitab: 3. setelah data diinputkan kedalam worksheet minitab, selanjutnya klik menu Stat tables tally, dan akan muncul kotak dialog berikut: 4. Kemudian masukan variabel atau kolom tempat data yang akan dibuat daftar tally-nya kedalam kolom variables dan aktirkan counts, percents, cumulative counts dan cumulative percents. Kemudian klik OK.
Dan outputnya seabagai berikut: Diagram Batang dan daun Secara Manual: Batang Daun (satuan) (persepuluhan) 0 2 2 3 3 3 4 4 4 5 5 6 6 6 6 7 7 7 8 8 8 8 9 9 1 0 0 1 1 1 1 1 1 1 2 2 2 3 3 3 4 4 6 6 7 7 8 8 8 8 9 9 2 1 2 3 5 8 3 1 6 4 5 5 2
Menggunakan Minitab 1. Inputkan data, klik Stat EDA steam and leaf Muncul kotak dialog berikut: 2. Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6, dan klik OK b. Ringkasan Numerik: Oleh karena ringkasan numeric terdiri dari mean, median, kuartil, standar deviasi, variansi sdan sebagainya yang cukup menyita waktu jika diselesaikan dengan cara manual, maka akan diselesaikan dengan menggunakan minitab. 1. inputkan data, klik calc row statistic (column statistic) atau jika kita ingin sekaligus menampilkan semua ringkasan numeric kita bisa klik stat basic statistic store (display) descriptive statistic dan muncul kotak dialog berikut:
2. masukan variable C1 dan klik OK dan muncul outputnya: Menghitung proporsi antrian yang kurang dari atau sama dengan 1 menit. Dengan menggunakan minitab tentu saja terlebih dahulu menginput data, kita dapat menghitung proprsi tersebut, caranya : 1. Klik calc probability distribution normal, dan muncul kotak dialog berikut:
2. oleh karena proporsi yang akan dihitung adalah kurang dari sama dengan 1 menit, maka aktifkan cumulative probability dan masukan nilai mean dan standar deviasi yang telah kita peroleh pada ringkasan numeric, klik OK, dan outputnya: 3. sehingga, proporsi proporsi antrian yang kurang dari atau sama dengan 1 menit adalah 0, 3560.
a. berikut ini adalah data Konsentrasi air raksa (Hg) pada hati 28 ekor lumbalumba diukur dalam microgram per gram berat: 1. Daftar tally setelah data diinputkan kedalam worksheet minitab, selanjutnya klik menu Stat tables tally, dan akan muncul kotak dialog berikut:
Kemudian masukan variabel atau kolom tempat data yang akan dibuat daftar tally-nya kedalam kolom variables dan aktirkan counts, percents, cumulative counts dan cumulative percents. Kemudian klik OK. Dan outputnya 2. Diagram Batang dan Daun Inputkan data, klik Stat EDA steam and leaf Muncul kotak dialog berikut:
Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6, dan klik OK, dan outputnya sebagai berikut: 3. Ringkasan Numerik a. inputkan data, klik calc row statistic (column statistic) atau jika kita ingin sekaligus menampilkan semua ringkasan numeric kita bisa klik stat basic statistic store (display) descriptive statistic dan muncul kotak dialog berikut: 4. masukan variable C1 dan klik OK dan muncul outputnya:
b. Berikut ini data perbandingan Jumlah Pengunjung di 4 wartel berbeda: a. Boxplot, Diagram Batang dan Daun, Ringkasan Numerik Boxplot
Diagran Batang dan Daun Ringkasan Numerik
b. Standarisasi Pusat mean, sebaran standar deviasi Pusat median, sebaran range Output akan sekaligus ditampilkan secara bersamaan, sebagai berikut: jumlah ByVar1 Mean1 StDev1 Median1 Range2 mean/stdv med/rang 29 1 20.7333 4.75795 21 17 1.73744 0.470588 19 1 20.7333 4.75795 21 17-0.36430-0.117647 24 1 20.7333 4.75795 21 17 0.68657 0.176471 14 1 20.7333 4.75795 21 17-1.41518-0.411765 21 1 20.7333 4.75795 21 17 0.05605 0.000000 13 1 20.7333 4.75795 21 17-1.62535-0.470588 18 1 20.7333 4.75795 21 17-0.57448-0.176471 17 1 20.7333 4.75795 21 17-0.78465-0.235294 30 1 20.7333 4.75795 21 17 1.94762 0.529412 23 1 20.7333 4.75795 21 17 0.47640 0.117647 18 1 20.7333 4.75795 21 17-0.57448-0.176471 23 1 20.7333 4.75795 21 17 0.47640 0.117647 21 1 20.7333 4.75795 21 17 0.05605 0.000000 22 1 20.7333 4.75795 21 17 0.26622 0.058824 19 1 20.7333 4.75795 21 17-0.36430-0.117647 31 2 27.4667 3.87052 28 13 0.91288 0.230769 19 2 27.4667 3.87052 28 13-2.18747-0.692308 31 2 27.4667 3.87052 28 13 0.91288 0.230769 26 2 27.4667 3.87052 28 13-0.37893-0.153846 30 2 27.4667 3.87052 28 13 0.65452 0.153846 22 2 27.4667 3.87052 28 13-1.41238-0.461538 29 2 27.4667 3.87052 28 13 0.39616 0.076923 26 2 27.4667 3.87052 28 13-0.37893-0.153846 32 2 27.4667 3.87052 28 13 1.17125 0.307692 30 2 27.4667 3.87052 28 13 0.65452 0.153846 23 2 27.4667 3.87052 28 13-1.15402-0.384615 26 2 27.4667 3.87052 28 13-0.37893-0.153846 27 2 27.4667 3.87052 28 13-0.12057-0.076923 28 2 27.4667 3.87052 28 13 0.13779 0.000000 32 2 27.4667 3.87052 28 13 1.17125 0.307692
13 3 16.3333 3.88526 17 13-0.85794-0.307692 20 3 16.3333 3.88526 17 13 0.94374 0.230769 15 3 16.3333 3.88526 17 13-0.34318-0.153846 12 3 16.3333 3.88526 17 13-1.11533-0.384615 18 3 16.3333 3.88526 17 13 0.42897 0.076923 24 3 16.3333 3.88526 17 13 1.97327 0.538462 11 3 16.3333 3.88526 17 13-1.37271-0.461538 17 3 16.3333 3.88526 17 13 0.17159 0.000000 12 3 16.3333 3.88526 17 13-1.11533-0.384615 18 3 16.3333 3.88526 17 13 0.42897 0.076923 17 3 16.3333 3.88526 17 13 0.17159 0.000000 12 3 16.3333 3.88526 17 13-1.11533-0.384615 22 3 16.3333 3.88526 17 13 1.45850 0.384615 18 3 16.3333 3.88526 17 13 0.42897 0.076923 16 3 16.3333 3.88526 17 13-0.08579-0.076923 26 4 26.4000 4.06729 27 18-0.09835-0.055556 18 4 26.4000 4.06729 27 18-2.06526-0.500000 27 4 26.4000 4.06729 27 18 0.14752 0.000000 29 4 26.4000 4.06729 27 18 0.63925 0.111111 24 4 26.4000 4.06729 27 18-0.59007-0.166667 25 4 26.4000 4.06729 27 18-0.34421-0.111111 23 4 26.4000 4.06729 27 18-0.83594-0.222222 27 4 26.4000 4.06729 27 18 0.14752 0.000000 36 4 26.4000 4.06729 27 18 2.36029 0.500000 27 4 26.4000 4.06729 27 18 0.14752 0.000000 25 4 26.4000 4.06729 27 18-0.34421-0.111111 29 4 26.4000 4.06729 27 18 0.63925 0.111111 29 4 26.4000 4.06729 27 18 0.63925 0.111111 29 4 26.4000 4.06729 27 18 0.63925 0.111111 22 4 26.4000 4.06729 27 18-1.08180-0.277778 c. Boxplot hasil standarisasi Pusat mean, sebaran standar deviasi Pusat median, sebaran range
d. Analisis Data Bears Berikut ini data Bears yang diperoleh dari Minitab: Selanjutnya akan dibuat boxplot dari tiap-tiap variable terhadap nomor observasi Variabel Head L
Variabel Head W Variabel Neck G
Variabel Length Variabel Chest G
Variabel Weight Selanjutnya akan dilakukan penghitungan nisbah untuk setiap transformasi dengan terlebih dahulu menentukan transformasi: Penentuan Median dan IQR1 setiap variabel: Stat Basic Statistic Strore Descriptive Statistics (masukan variabel yang kaan ditransformasi, By variabel Obs. No dan pada Statistics aktifkan median dan Interquartil range (klik OK, pada Option aktifkan store a row of output for each row of output (klik OK) dan klik OK.)
Kemudian plot log median n vs log IQR n (n = 1,2,3,4,5,6 (variabel)) Stat Regression Fitted Line Plot (pada response [y] : IQR dan pada response [x] : Median, dan type of regression model : Linear, kemudian pada Option pilih transformation dan aktifkan logten of Y, logten of X, display logscale foe Y variable, display logscale foe X variable, (klik OK) klik OK.) Regression Analysis: IQR1 versus Median1 The regression equation is log(iqr1) = 27.9035-24.6367 log(median1) S = 0.140443 R-Sq = 49.8 % R-Sq(adj) = 49.5 % Analysis of Variance Source DF SS MS F P Regression 1 2.72200 2.72200 138.002 0.000
Error 139 2.74168 0.01972 Total 140 5.46368 Regression Analysis: IQR3 versus Median3 The regression equation is log(iqr3) = 20.7916-15.3559 log(median3) S = 0.0456390 R-Sq = 78.2 % R-Sq(adj) = 78.0 % Analysis of Variance Source DF SS MS F P Regression 1 1.03621 1.03621 497.480 0.000 Error 139 0.28953 0.00208 Total 140 1.32573 Regression Analysis: IQR5 versus Median5 The regression equation is log(iqr5) = 25.7772-16.1040 log(median5) S = 0.0595329 R-Sq = 79.8 % R-Sq(adj) = 79.7 % Analysis of Variance Source DF SS MS F P Regression 1 1.95033 1.95033 550.292 0.000 Error 139 0.49264 0.00354 Total 140 2.44296 Regression Analysis: IQR4 versus Median4 The regression equation is log(iqr4) = 6.29832-2.92332 log(median4) S = 0.0729883 R-Sq = 3.9 % R-Sq(adj) = 3.2 % Analysis of Variance Source DF SS MS F P Regression 1 0.030339 0.0303389 5.69499 0.018 Error 139 0.740494 0.0053273 Total 140 0.770833 Regression Analysis: IQR6 versus Median6 The regression equation is log(iqr6) = -12.7473 + 6.78642 log(median6) S = 0.0695991 R-Sq = 46.9 % R-Sq(adj) = 46.5 % Analysis of Variance Source DF SS MS F P Regression 1 0.59493 0.594930 122.817 0.000 Error 139 0.67332 0.004844 Total 140 1.26825
Dari hasil regresi antara log median vs log dq, diperoleh kemiringan (slope) atau nilai nisbah untuk setiap variabel yaitu: 1. Variabel Head L, sebesar - 24.6367 2. Variabel Head W, tidak diperoleh 3. Variabel Neck G, sebesar - 15.3559 4. Variabel Length, sebesar - 2.92332
5. Variabel Chest G, sebesar - 16.1040 6. Variabel Weight, sebesar + 6.78642 Oleh karena nilai nisbah yang diperoleh sangat besar sehingga menyulitkan kita untuk mengambil transformasi yang tepat, maka permasalahan ini akan diselesaikan dengan menggunakan Box-Cox. Stat Control Charts Box-Cox Transformation Pada single column masukan variabel yang akan dibuat box-cox-nya Pada subgroup size, masukan variabel obs. No Tentukan lokasi penyimpanan data yang telah ditransformasi pada kolom tertentu. Output:
Dari hasil Box-Cox, diperoleh nilai-nilai Lamba estimasi dari masingmasing variabel yang selanjutnya menunjukan pangkat transformasi dari masing-masing variabel berikut: 1. Variabel Head L, sebesar 1,012 2. Variabel Head W, sebesar -0,224 3. Variabel Neck G, sebesar 0,787 4. Variabel Length, sebesar 1,910 5. Variabel Chest G, sebesar 0,674 6. Variabel Weight, sebesar 0,337 Setelah diperoleh datya hasil tranformasi, selanjutnya dibuat box plot Dari data hasil transformasi untuk melihat apakah ada perubahan bentuk boxplot setelah data ditransformasi dan mengarah ke bentuk normal (simetris). a. Transformasi variabel Head L
b. Transformasi variabel Head W c. Transformasi variabel Neck G. d. Transformasi variabel Length
e. Transformasi variabel Chest G. f. Transformasi variabel Weight
4. Kesimpulan