MODUL 2 DATA DAN EKSPLORASI DATA 2.1. Tujuan Mahasiswa dapat memahami dan menjelaskan tentang jenis data dan cara mengeksplorasi data 2.2. Teori Singkat Data dan Eksplorasi Data 2.2.1 Data Objek dan Tipe Atribut Dataset adalah kumpulan dari data objek dan atributnya. Data objek akan merepresentasikan entitas dari suatu basisdata. Misalnya dalam basisdata penjualan, objeknya adalah pelanggan, item jual, dan penjualan. Sedangkan atribut adalah data field atau properti atau karakteristik dari suatu objek. Contohnya adalah warna mata seseorang, temperatur dan sebagainya. Atribut dikenal juga sebagai variabel, field, karakteristik, atau fitur. Objek juga dikenal dengan record, point, case, sampel, entitas, atau instance. Gambar 1. Atribut dan Objek Nilai atribut adalah bilangan atau simbol pada atribut tersebut. Nilai setiap atribut yang satu dengan yang lain berbeda-beda. Bisa saja satu atribut yang memiliki sama nilai yang Team Pengampuh MK Data Mining 10
berbeda. Misalnya tinggi bisa diukur dengan feet (kaki) atau meter. Bisa juga dalam atribut yang berbeda diukur dengan nilai yang sama. Misalnya nilai atribut untuk ID dan umur adalah integer, tapi properti dari nilai atribut bisa berbeda. ID tidak mempunyai limit tapi umur mempunyai nilai maksimum dan nilai minimum (batasan umur). Berikut adalah tabel tipe tipe atribut yang berbeda Data tidak hanya terkelompokan pada data kualitatif dan kuantitatif (NOIR Nominal, Ordinal, Interval, Ratio) secara mutually exclusive (berganti). Pada pembahasan tentang machine learning, atribut dibagi atas dua bagian, yaitu diskrit dan kontinu. Setiap tipe data diproses secara berbeda. Berikut adalah perbedaan atribut diskrit dan atribut kontinu. Atribut Diskrit Nilainya bersifat finite (terbatas) atau infinite (tidak terbatas). Maksudnya adalah boleh ya dan boleh tidak direpresentasikan dalam bilangan integer. Contohnya : kode pos, jumlah, kumpulan kata dalam dokumen, warna rambut, dan sebagainya Biasanya direpresentasikan dalam variabel integer bernilai bulat Atribut binary (Boolean) adalah kasus khusus pada atribut diskrit Team Pengampuh MK Data Mining 11
Atribut Kontinu Nilai atribut berupa bilangan real (bilangan dalam bentuk desimal meliputi bilangan rasional dan irasional) Contohnya adalah temperatur, tinggi, dan berat Pada prakteknya, bilangan real bisa juga diukur dan direpresentasikan dengan nilai finite Atribut kontinu sering menggunakan variabel floating point (bilangan titik mengambang) Data berdasarkan tipenya, terbagi atas : a. Record Terdiri dari bermacam record yang terdiri dari beberapa atribut. Misalnya berbentuk data matriks atau data dokumen Gambar 2. Contoh data record Data transaksi Merupakan contoh khusus dari data record, dimana : - Setiap record (transaksi) terdiri dari beberapa item Team Pengampuh MK Data Mining 12
- Misalnya : pembelanjaan pada supermarket oleh konsumen, dimana seorang konsumen membeli beberapa produk dalam satu kali transaksi Gambar 3. Contoh data transaksi b. Graph - World wide web (WWW) - Struktur molekular c. Ordered - Data spasial - Data temporal Data temporal adalah data yang terukur dari waktu ke waktu (time series). Contoh nya adalah data finansisal yang memberikan informasi harga saham dari waktu ke waktu atau data curah hujan yang diambil secara periodik. Gambar 4. Contoh data temporal Team Pengampuh MK Data Mining 13
- Data sekuensial Misalnya data sekuens transaksi; data terdiri dari set transaksi dan item, dengan atribut waktu dan ID konsumen saling berkaitan dalam suatu transaksi. - Data sekuens genetik Gambar 5. Data sekuens transaksi 2.2.2 Kualitas Data Dalam suatu basis data, seringkali data tidak lengkap dan tidak konsisten. Data tersebut akan susah untuk dianalisis, karena itu diperlukan suatu praproses data (dibahas pada Modul 3). Contoh masalah dalam penentuan data yang berkualitas adalah noise dan outliers, missing value, dan duplikasi data. - Noise Noise merujuk pada modifikasi dari nilai atau bobot original dari data. Jadi noise merupakan random error atau varian dari hasil pengukuran variabel (yang merupakan hasil pengukuran dari statistik deskripsi lihat sub bagian selanjutnya). Contohnya adalah distorsi pada saat telepon atau muncul snow pada layar televisi. Team Pengampuh MK Data Mining 14
Gambar 6. Contoh noise pada gelombang sinus pada siaran televisi - Outliers Outliers adalah data objek yang memiliki karakteristik yang berbeda dari data objek yang terdapat pada dataset. Gambar 7 Contoh outliers - Missing value Beberapa alasan kenapa terjadinya missing value adalah sebagai berikut : Informasi tidak terkumpul (misalnya ketika diadakan pengumpulan data, ada yang tidak ingin memberikan informasi berapa umur dan berat badan) Atribut yang digunakan tidak bisa digunakan untuk semua kasus (misalnya besarnya penghasilan tidak bisa digunakan pada anak-anak) Cara menangani missing value ada beberapa cara; misalnya : Eliminasi atau menghapus data objek Team Pengampuh MK Data Mining 15
Mengestimasi missing value bisa digunakan interpolasi (estimasi) pada sisa nilai yang ada Tidak memperdulikan missing value ketika menganalis data - Duplikasi data Dataset sering terdiri dari beberapa data objek yang terduplikasi. Misalnya ketika menggabungkan beberapa sumber yang bersifat heterogen satu orang bisa memiliki lebih dari satu nomer handphone atau alamat email. Hal tersebut bisa dihindari dengan cara menerapkan data cleaning atau pembersihan data (dipelajari pada Modul 3) 2.2.3 Statistik dalam Pendeskripsian Data Statistik digunakan dalam meringkas propertis atau parameter dari data. Yang termasuk dalam properties adalah frekuensi data, lokasi data dan penyebaran data. Contohnya adalah lokasi digunakan mean, dan penyebaran digunakan standar deviasi. - Frekuensi dan mode Frekuensi dalam suatu atribut adalah persentase dari berapa banyaknya suatu nilai yang muncul pada dataset. Misalnya untuk atribut jenis kelamin pada suatu populasi, jenis kelamin perempuan muncul sebanyak 50% pada satu kali pengukuran data. Sedangkan mode adalah frekuensi yang paling sering muncul pada suatu nilai atribut. Karena itu mode dapat menentukan kualitatif dan kuantitatif dari suatu atribut. Dataset yang terdiri dari satu, dua atau tiga mode disebut sebagai unimodal, bimodal, dan trimodal. Jika disingkat, lebih dari dua mode disebut sebagai multimodal. Frekuensi dan mode sering digunakan pada data kategorial. - Mengukur lokasi : mean dan median Team Pengampuh MK Data Mining 16
Mean adalah pengukuran yang sering digunakan untuk mengukur lokasi dari titik tengah dari suatu data set. = 1 = 1+ 2+ + (1) Dengan x1, x2,... xm adalah banyaknya nilai dari data set m. Contoh 2.1. Dalam suatu dataset penghasilan (dalam ribuan rupiah) terdapat peningkatan angka : 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110. Jika digunakan persamaan (1) maka : = 30+36+47+50+52+52+56+60+63+70+70+110 12 = 696 12 =58 Maka mean dari penghasilan adalah 58.000 Meskipun demikian, mean sangat sensitif untuk terjadinya outliers. Karena itu median digunakan untuk mengatasinya. = 1 2 + Contoh 2.2 Jika menggunakan contoh 2.1 maka nilai mediannya dari 12 set data objek dengan nilai tengahnya adalah 52 dan 56, maka data hanya 11, maka nilai tengah atau median adalah 52. - Mengukur penyebaran : range dan varian = =54. Jika Range adalah perbedaan antara nilai maksimum dan minimum. Sedangkan varian atau standar deviasi adalah pengukuran yang sering digunakan untuk menghitung penyebaran data dalam dataset. If m is odd, i.e., m = 2r +1 If m is even, i.e., m = 2r (2) Team Pengampuh MK Data Mining 17
= = 1 1 = Walaupun begitu, sangat sensitif terhadap outlier. Karena itu digunakan pengukuran yang sering digunakan untuk mencegah outlier 2.2.4 Visualisasi Visualisasi adalah konversi data ke bentuk visual atau bentuk tabular, sehingga karakteristik dari data dan relasi antara item data atau atribut bisa dianalisis. Visualisasi merupakan teknik yang paling powerful untuk diaplikasikan untuk eksplorasi data (misalnya untuk mendeteksi pola general dan tren, outlier dan pattern atau pola yang tidak biasa). Contoh visualisasi adalah temperatur permukaan laut pada Juli 1982, dimana sepuluh ribu titik data digambarkan dalam satu gambar. Gambar 8 Suhu permukaan air laut Team Pengampuh MK Data Mining 18
Cara merepresentasi hasil visualisasi digunakan format visual. Data objek, atribut, dan relasi antara data objek diterjemahkan dalam bentuk grafik seperti titik, garis, bentuk dan warna. Contohnya : - Objek selalu direpresentasikan dengan titik - Tiap atribut direpresentasikan sebagai karakteristik dari titik data, contohnya adalah warna, ukuran, dan bentuk - Jika posisi titik sudah ditempati oleh titik yang lain, maka titik yang berada pada kelompok yang sama tersebut akan mudah dikenali sebagai outlier. Susunan atau arrangement adalah penempatan visual dengan model tampilan data. Hal tersebut bisa membuat perbedaan yang sangat jauh untuk memahami data yang akan diolah. Gambar 9. Contoh susunan data dalam matriks Teknik teknik dalam visualisasi data - Histogram Merupakan pengukuran yang sering digunakan. Histos berarti tiang dan gram berarti chart atau grafik, jadi histogram adalah grafik yang berbentuk batang. Histogram akan membagi nilai dalam beberapa bagian dan membentuk plot batang (bar plot) pada setiap objek di setiap bagian. Tinggi dari tiap batang menunjukkan banyaknya objek, sedangkan bentuk dari histogram mengikuti berapa banyaknya data tersebut terbagi (number of bins). Contohnya pada data lebar petal, terdapat 10 dan 20 bagian (bins) yang berbeda. Team Pengampuh MK Data Mining 19
Gambar 10. Lebar petal untuk 10 bins dan 20 bins Histogram juga digambarkan dalam bentuk dua dimensi untuk dua atribut yang berbeda. Misalnya adalah lebar petal dan panjang petal. Gambar 11. Histogram dua dimensi - Box plots Boxplot diperkenalkan oleh J. Tukey, merupakan cara yang populer untuk visualisasi distribusi atau penyebaran data. Cara visualisasi dari boxplot mengikuti bentuk five-number summary yang terdiri dari median (Quartile 2 Q2), quartile Q1 dan Q, minimum, dan maksimum (urutannya menjadi Minimum, Q1, Median, Q3, Maximum). Box plot sering digunakan untuk membandingkan data yang kompatibel. Penggambaran umum boxplot digambarkan pada gambar 12 Team Pengampuh MK Data Mining 20
Gambar 12. Urutan bagian dari boxplot Gambar 13. Contoh penggambaran boxplot untuk data iris Team Pengampuh MK Data Mining 21
Gambar 14. Distribusi data pada suatu dataset - Scatter plots Merupakan penggambaran nilai atribut untuk posisi dari titik titik data. Biasanya digambarkan dalam bentuk dua dimensi, tapi bisa juga digambarkan dalam bentuk tiga dimensi. Penggambaran scatter plot untuk dua dimensi menggunakan koordinat Cartesian. Gambar 15. Visualisasi 2 D pada scatter plot Team Pengampuh MK Data Mining 22
Gambar 16. Visualisasi matriks scatter plot data iris 2.2.5 Similarity dan Disimilarity Similarity atau kesamaan merupakan kesamaan antara data objek dalam kelompok data dan disimilarity merupakan ketidakmiripan (berdasarkan jarak) antara kelompok data. Biasanya digunakan dalam penggalian data, seperti pengelompokan (clustering), analisis outlier, klasifikasi tetangga terdekat (distance based). Contoh pengukurannya adalah sebagai berikut : Assymetric binary attributes : Jaccard coefficient Distance binary attributes : Euclidean, Manhattan, Minkowski, and supremum Menggunakan frekuensi kemunculan pada suatu data (term frequency vector) : Cosine similarity, atau Tanimoto coefficient. 2.3. Tugas Kumpulkan pada pertemuan 3 (Minggu depan) Tidak Menerima Keterlambatan dalam pengumpulan tugas Team Pengampuh MK Data Mining 23
1. Briefly in explain with example this following : Graph data Spatial or spatiotemporal data Genetic Sequence data Quantiles, Quartiles and Percentile Interquartile range (IQR) The five number summary 2. Suppose that the data for analysis includes the attribute age. The age valuesfor the data tuples are (in increasing order) 13,15, 16, 16, 19,20,21, 22, 22, 25, 25, 25, 25,, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 Wahat is the mean of the data? What is the median? What is the range of the data? Can you find (roughly) the first quartile (Q1) and the third quartile (Q3) of the data? Show a boxplot or the data 3. Briefly outline how to compute the dissimilarity between object describes by the following Nominal attributes Asymmetric binary attributes Numeric attributes Term-frequency vectors Reference : 1. Han J., Kamber M., Pei J, Data Mining : Concepts dan Techniques, Amerika : Morgan Kaufmann Press, 2012 Team Pengampuh MK Data Mining 24