Deskripsi Data Data Mining Sistem Informasi Fakultas Ilmu Komputer
Bisakah memahami maksud data berikut???? No Urut Tinggi Badan (cm) 1 168 2 164 3 167 4 164 5 171 6 166 7 169 8 172 9 166 10 166 Tinggi badansiswakelas A No Urut Tinggi Badan (cm) 1 175 2 176 3 183 4 180 5 177 6 177 7 182 8 179 9 179 10 171 Tinggi badansiswakelas B
Bagaimana jika ada 1000 siswa? Diperlukan gambaran maksud suatu data Diperlukan suatu metode untuk dapat memberikan gambaran data secara ringkas yaitu deskripsi
Metode deskripsi data Deskripsi grafis Diagram titik Histogram Deskripsi lokasi Rata-rata Nilai tengah Nilai sering muncul Kuartil Deskripsi keberagaman
Deskripsi Grafis
Deskripsi grafis Merupakan cara untuk mendeskripsikan data dalam bentuk gambar yang sesungguhnya Dua gambar yang umumdigunakan dalam deskripsi grafis adalah diagram titik dan histogram
Diagram Titik 165 170 175 180 Pengetahuan apa yang muncul? Data kelas merah data yang berada pada titik merah yaitu data dengan range162-172 Data kelas biru data yang berada pada titik biru yaitu data dengan nilai >170 namun nilainya lebih beragam dengan sebaran nilai lebih luas
Histogram Langkah membuat histogramadalah sebagai berikut : 1. Menyusun interval 2. Menghitung jumlah data untuk anggota interval (frekuensi) 3. Membuat histogram
Perhatikan data tinggi badan berikut No Urut Tinggi Badan (cm) 1 168 2 164 3 167 4 164 5 171 6 166 7 169 8 172 9 166 10 166 No Urut Tinggi Badan (cm) 11 169 12 167 13 169 14 167 15 164 16 166 17 168 18 167 19 165 20 164 No Urut Tinggi Badan (cm) 21 167 22 166 23 165 24 166 25 169 26 171 27 166 28 167 29 164 30 165
1. Menyusun interval Dari data yang ada akan dibagi dalam 5 interval Setiap interval memiliki lebar yang sama Sebagi contoh : data akan dibuat dalam interval 2 interval à
1. Menyusun interval Dari data yang ada akan dibagi dalam 5 interval Setiap interval memiliki lebar yang sama Sebagi contoh : data akan dibuat dalam interval 2 interval à 164-166 166-168 168-170 170-172 172-174
2. Anggota interval Hitung berapakah banyak kemunculan data yang masuk ke dalam anggota dari tiap interval tadi Interval Frekuensi 164-166 8 166-168 13 168-170 6 170-172 2 172-174 1
14 12 10 8 6 4 2 0 3. Buat histogram 164-166 166-168 168-170 170-172 172-174 Dapat melihat lokasi kecenderungan mengumpulnya data di batang tertinggi Histogram yg tinggimengerucut yaitu keberagaman data yang relatif rendah Histogram yg pendek-melebar yaitu keberagaman data yang beragam dan menyebar luas Pengetahuan apa yang diperoleh??
Deskripsi lokasi
Deskripsi Lokasi Deskripsi grafis sudah menggambarkan karakteristik data namun sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Sehingga diperlukan suatu angka yang cukup dapat mewakili data yang ada serta dapat diperoleh dengan cara yang lebih praktis daripada menggambar Angka yang dapat mewakili à LOKASI Disebut lokasi karena dapat memberikan informasi pada data dari posisi tempat tertentu. Deskripsi lokasi dapat diuraikan dengan mean, median, modus, kuartil
Mean Mean atau lebih dikenal dengan istilah Rata-rata, artinya proses membuat rata-rata dimana nilai perataan tersebut dianggap sebagai lokasi pusat, titik berat, atau titik keseimbangan data Secara matematis, bila kita memiliki nilai observasi x 1,x 2,...,x n maka rata-ratanya adalah Mean Artinya menjumlahkan semua data dan membagi dengan banyaknya data
Data tinggi badan Kelas A TB (cm) 168 Contoh 164 167 164 171 Dari data disamping dapat dihitung TB kelas A = 1673 166 169 172 166 166 Mean =!"#$!% = 167.3 cm
Data tinggi badan Kelas B No Urut Tinggi Badan (cm) 1 175 2 176 3 183 4 180 5 177 6 177 7 182 8 179 9 179 10 171 Dari data disamping hitung nilai Mean TB kelas B = 1779 Mean =!##&!% = 177,9 cm Pengetahuan Secara umum siswa kelas A memiliki tinggi badan (TB) 167,3cm Siswa kelas A rata-rata lebih pendek dari kelas B yang umumnya memiliki TB 177,9cm
Median Merupakan pencarian nilai tengah 168 164 167 164 171 166 169 172 166 166 Urutkan 164 164 166 166 166 167 168 169 171 172 à Jumlah data genap Maka nilai tengah antara urutan 5 dan 6 à 166 dan 167 Median = ((data ke5 + data ke6)/2) = ((167+166)/2) = 166,5
Antara median dan mean Median tidak dipengaruhi oleh munculnya nilai ekstrim Sebagai contoh : Data terurut 164, 164, 166, 166, 166, 167, 168, 169, 171, 172 Mean= 167,3; Median= 166,5 Data baru 164, 164, 166, 166, 166, 167, 168, 169, 171, 172, 1802 Mean= 315,91; Median= 166,5
Modus Modus TB (cm) 168 164 167 164 171 166 169 172 166 166 Dari data tinggi badan kelas A tersebut, manakah nilai yang paling banyak muncul dalam data?
Modus Pencarian untuk nilai yang sering muncul dalam data 164 164 166 166 166 168 169 171 172 maka nilai Modus = 166 Pengetahuan : maka dapat disimpulkan bahwa kelas A terdiri dari banyak siswa dengan tinggi badan TB 166cm Modus
Modus lanjutan Kegunaan modus; Modus lebih mencerminkan lokasi kecenderungan berkumpulnya sebagian besar data dibanding ukuran lainnya Contoh : Sebuah perusahaan menyatakan bahwa rata-rata gaji karyawannya adalah Rp 10.000.000 Kenyataannya, dari 100 karyawan ada sejumlah 90 orang digaji Rp 1,000,000 dan hanya 10 karyawan dengan gaji Rp 10.000.000. Dibandingkan rata-rata, informasi yg lebih berguna adalah bahwa sebagian besar (modus) karyawan di gaji Rp 1,000,000
Perhatikan data berikut 7, 8, 7, 6.5, 6.5, 7, 7.5, 7, 7.5, 8, 8, 7 Tentukan: Mean Median- Modus
Deskripsi Keberagaman
Deskripsi Keberagaman Dengan deskripsi Lokasi mampu menggambarkan lokasi pusat data (mean, median, modus), namun belum memiliki gambaran atas keberagaman data. Contoh : Data A : 6,6,7,7,7,8,8 (mean: 7, median:7, modus:7) Data B : 0,1,3,7,7,12,19 (mean: 7, median:7, modus:7) Meskipun ketiga ukuran lokasi itu sama, akan tetapi kedua data itu berbeda Sehingga diperlukan ukuran keberagaman yaitu range, varians dan standart deviasi
Besarnya rentang jarak antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif lebih beragam. Contoh : Data A : 6,6,7,7,7,8,8 maka Range data A à 8-6=2 Data B : 0,1,3,7,7,12,19 maka Range data B à 19-0=19 Range
Data A : 6,6,7,7,7,8,8 maka Range data A à 8-6=2 Data B : 0,1,3,7,7,12,19 maka Range data B à 19-0=19 Range Pengetahuan Data B memiliki data yang lebih beragam dengan range yang jauh lebih besar daripada Data A Akan tetapi, karena ukuran ini hanya mengambil dua data ekstrem: adakalanya sulit untuk dijadikan ukuran unik untuk menilai keberagaman data, Contoh : Data C : 6,15,15,16,16,25 Range data C =25-6=19 Data D : 0,1,3,7,7,12,19 Range data D =19-0=19
Dengan mengetahui Range masih belum dapat dijadikan dasar untuk menilai keberagaman data. Ukuran Varians yang menggunakan prinsip mencari jarak antara setiap data dengan pusatnya (rata-rata) seringkali digunakan. Rumus : Variasi
Contoh Data Ke- Grup A (1) Grup B (2) 1 6 (6-15,57) 2 = 91,61 0 49 2 15 0,33 1 36 3 15 0,33 3 16 4 16 0,18 7 0 5 16 0,18 7 0 6 16 0,18 12 (12-7) 2 = 25 7 25 88,90 19 144 Jumlah 109 181,71 49 270 Rata-rata 15,57 7 Varians Grup A =!'!,#! " Varians Grup B = )#% " = 45 = 30,3
Pengetahuan Varians Grup A =!'!,#! " = 30,3 Varians Grup B = )#% " = 45 Data grup B berjarak relatif lebih jauh dari pusatnya (rata-ratanya, yaitu: 7) daripada data grup A sehingga Variansnya lebih besar. Dengan kata lain, data grup B lebih beragam daripada data grup A Seandainya data tersebut memiliki satuan cm, maka varians memiliki satuan cm pula. Dampaknya varians jadi kurang sinkron dengan ukuran lainnya seperti, mean, modus, persentil, range, dll à untuk itu perlu dibuat Standar Deviasi
Standart Deviasi Merupakan akar kuadrat Varians Maka Standar Deviasi grup A 30,3 = 5,5 Maka Standar Deviasi grup B 45 = 6,71 Pengetahuan : Data grup B lebih beragam dibandingkan grup A, Standar Deviasi memiliki satuan yang sama dengan data asalnya, apabila data memiliki satuan cm, maka Standar Deviasinya pun memiliki satuan cm Sehingga hasil yang muncul menjadi lebih mudah dicerna maknanya