MODUL 2 DATA DAN EKSPLORASI DATA

dokumen-dokumen yang mirip
DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Gambar berikut ini menunjukkan suhu permukaan laut pada bulan Juli tahun Sepuluh dari ribuan titik data diringkas dalam satu gambar

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

DATA PREPROCESSING. Budi Susanto (versi 1.2)

TIPE DATA DAN EKSPLORASI DATA MENGGUNAKAN WEKA DAN R

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

Statistika Deskriptif

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

STK 211 Metode statistika. Agus Mohamad Soleh

STK 211 Metode statistika. Materi 2 Statistika Deskriptif

PE DAHULUA. Latar Belakang

FORMAT LAPORAN MODUL V DISTRIBUSI SAMPLING

BAB 2 LANDASAN TEORI

PENGUKURAN DATA. 1. Terminology Populasi & Sampel. Peubah/Variabel. Peubah/Variabel

ANALISIS CLUSTER PADA DOKUMEN TEKS

Data Preprocessing. oleh: Entin Martiana

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Statistika Farmasi

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

STK511 Analisis Statistika. Pertemuan 2 Review Statistika Dasar

Metode Statistika (STK211) Statistika Deskriptif (1) Dr. Ir. Kusman Sadik Dept. Statistika IPB, 2015

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

2. Data & Proses Datamining

dengan Algoritma K Means

STATISTIK DESKRIPTIF

KONSEP MANAJEMEN BASIS DATA Sistem Informasi Geografis

Ukuran tendensi sentral seperti mean, median, dan modus seringkali tidak mempunyai cukup informasi untuk menyimpulkan data yg ada.

Kursus Statistika Dasar. Bagian 1. Pengelompokan Statistika. Istilah-istilah Dasar. Jenis Data. Pengelompokan Statistika lainnya. Bambang Suryoatmono

STATISTIKA DESKRIPTIF. Wenny Maulina, S.Si., M.Si

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

STATISTIKA INDUSTRI I. Agustina Eunike, ST., MT., MBA.

Distribusi Frekuensi dan Statistik Deskriptif Lainnya

PERTEMUAN II STATISTIK DESKRIPTIF

STATISTIKA DASAR DAN APLIKASI

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

STATISTIKA DESKRIPTIF

ANALISIS DATA EKSPLORATIF MODUL 4 PENGANTAR MINITAB

Metode Statistika STK211/ 3(2-3)

Statistik Farmasi 2015

E-book Statistika Gratis... Statistical Data Analyst. Penyajian Data Statistik

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

MODUL MATA KULIAH DATA MINING (MIK 620 SESI 10) DISUSUN OLEH. NOVIANDI, M.Kom NIDN

Partitional clustering KLASTERING DENGAN METODE K-MEANS

STATISTIK DESKRIPTIF

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

Prof. Dr. Ir. Zulkifli Alamsyah, M.Sc. PROGRAM STUDI AGRIBISNIS FAKULTAS PERTANIAN UNIVERSITAS JAMBI

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PENDAHULUAN TINJAUAN PUSTAKA

Metode Statistika STK211/ 3(2-3)

Statistik Bisnis 1. Week 5 Variation, Shape and Exploring Numerical Data

BAB II TINJAUAN PUSTAKA

HASIL DA PEMBAHASA. Pengadaan Data

Visualisasi Data Kawasan Pariwisata yang Sering Dikunjungi di Bali dengan Pendekatan Pencocokan String pada Postingan Akun Instagram

REVIEW BIOSTATISTIK DESKRIPTIF

FORMAT LAPORAN MODUL V DISTRIBUSI SAMPLING

ANALISIS CLUSTER PADA DOKUMEN TEKS

Statistik Bisnis. Week 2 Numerical Descriptive Measures

Manajemen Data dengan Stata

penyebarannya. Diharapkan dari penelitian ini dapat terbentuk sebuah basis pengetahuan spasial yang bermanfaat. PENDAHULUAN

STATISTIK DESKRIPTIF

Statistika I. Pertemuan 2 & 3 Statistika Dasar (Basic( Ari Wibowo, MPd Prodi PAI Jurusan Tarbiyah STAIN Surakarta. Konsep Peubah

Abidah Elcholiqi, Beta Noranita, Indra Waspada

PENYAJIAN DAN INTERPRETASI DATA PADA EPIDEMIOLOGI DESKRIPTIF (EPIDEMIOLOGY LECTURE NOTE) Ade Heryana, SST, MKM

Memulai SPSS dan Mengelola File

Statistik Bisnis. Week 2 Numerical Descriptive Measures

Pengenalan Pola. Klasterisasi Data

BAB II LANDASAN TEORI

STK511 Analisis Statistika. Bagus Sartono

Tipe Data. MENDESKRIPSIKAN DATA Secara Grafik. Bab II. Level Pengukuran. Presentasi Data secara Grafik

Implementasi Sistem HASIL DAN PEMBAHASAN Data Penelitian

BAB 2 LANDASAN TEORI

Statistik Deskriptif untuk Data Nominal dan Ordinal

STATISTIKA INDUSTRI I

2. Pengertian data outlier Data outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat diidentifikasi sebagai sesuatu yang berbeda

DATA DAN PENYAJIAN DATA STATISTIKA PERTEMUAN KE-2. Oleh ; Muhammad Yusuf Awaluddin

K-NN merupakan instance-based learning, Maksudnya: data training disimpan sehingga klasifikasi untuk record baru yg belum diklasifikasi dpt ditemukan

Catatan Kuliah. Analisis Data. Orang Cerdas Belajar Statistika. disusun oleh. Khreshna I.A. Syuhada, MSc. PhD.

DATA DAN PENYAJIAN DATA STATISTIKA PERTEMUAN KE-2. OLEH ; MUHAMMAD YUSUF AWALUDDIN

Ukuran tendensi sentral seperti mean, median, dan modus seringkali tidak mempunyai cukup informasi untuk menyimpulkan data yg ada.

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 45 Edisi... Volume..., Bulan 20.. ISSN :

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

Satatistik dan Probabilitas. Ir. I Nyoman Setiawan, MT. NIP HP

Referensi : 1. Komputasi Statistik Dengan Software R, I Gede Nyoman Mindra, didi.staff.gunadarma.ac.id/downloads/files/13709/babv.

MA5182 Topik dalam Statistika I: Statistika Spasial. Utriweni Mukhaiyar

Ukuran-Ukuran Gejala Pusat

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

18/09/2017. Fakultas Teknologi dan Desain Program Studi Teknik Informatika

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

HASIL DAN PEMBAHASAN. Gambar 8 Langkah-langkah deteksi cluster dengan algoritme DDBC. Performansi Hasil Cluster

STATISTIKA DESKRIPTIF

ANALISIS STATISTIKA. Pertemuan 2 Statistika Dasar (Basic Statistics)

K-Means Analysis Klasterisasi Kasus HIV/AIDS di Indonesia

DASAR PEMILIHAN UJI STATISTIK

PENGKONSTRUKSIAN GRAFIK PENGENDALI BERDASAR BOXPLOT BIVARIAT

PRESENTASI TUGAS AKHIR KI091391

Tujuan. Dunia Nyata dan SIG. Arna fariza. Mengubah dunia nyata menjadi informasi geografis di komputer 3/17/2016

Pendahuluan & Statistika Deskriptif

Transkripsi:

MODUL 2 DATA DAN EKSPLORASI DATA 2.1. Tujuan Mahasiswa dapat memahami dan menjelaskan tentang jenis data dan cara mengeksplorasi data 2.2. Teori Singkat Data dan Eksplorasi Data 2.2.1 Data Objek dan Tipe Atribut Dataset adalah kumpulan dari data objek dan atributnya. Data objek akan merepresentasikan entitas dari suatu basisdata. Misalnya dalam basisdata penjualan, objeknya adalah pelanggan, item jual, dan penjualan. Sedangkan atribut adalah data field atau properti atau karakteristik dari suatu objek. Contohnya adalah warna mata seseorang, temperatur dan sebagainya. Atribut dikenal juga sebagai variabel, field, karakteristik, atau fitur. Objek juga dikenal dengan record, point, case, sampel, entitas, atau instance. Gambar 1. Atribut dan Objek Nilai atribut adalah bilangan atau simbol pada atribut tersebut. Nilai setiap atribut yang satu dengan yang lain berbeda-beda. Bisa saja satu atribut yang memiliki sama nilai yang Team Pengampuh MK Data Mining 10

berbeda. Misalnya tinggi bisa diukur dengan feet (kaki) atau meter. Bisa juga dalam atribut yang berbeda diukur dengan nilai yang sama. Misalnya nilai atribut untuk ID dan umur adalah integer, tapi properti dari nilai atribut bisa berbeda. ID tidak mempunyai limit tapi umur mempunyai nilai maksimum dan nilai minimum (batasan umur). Berikut adalah tabel tipe tipe atribut yang berbeda Data tidak hanya terkelompokan pada data kualitatif dan kuantitatif (NOIR Nominal, Ordinal, Interval, Ratio) secara mutually exclusive (berganti). Pada pembahasan tentang machine learning, atribut dibagi atas dua bagian, yaitu diskrit dan kontinu. Setiap tipe data diproses secara berbeda. Berikut adalah perbedaan atribut diskrit dan atribut kontinu. Atribut Diskrit Nilainya bersifat finite (terbatas) atau infinite (tidak terbatas). Maksudnya adalah boleh ya dan boleh tidak direpresentasikan dalam bilangan integer. Contohnya : kode pos, jumlah, kumpulan kata dalam dokumen, warna rambut, dan sebagainya Biasanya direpresentasikan dalam variabel integer bernilai bulat Atribut binary (Boolean) adalah kasus khusus pada atribut diskrit Team Pengampuh MK Data Mining 11

Atribut Kontinu Nilai atribut berupa bilangan real (bilangan dalam bentuk desimal meliputi bilangan rasional dan irasional) Contohnya adalah temperatur, tinggi, dan berat Pada prakteknya, bilangan real bisa juga diukur dan direpresentasikan dengan nilai finite Atribut kontinu sering menggunakan variabel floating point (bilangan titik mengambang) Data berdasarkan tipenya, terbagi atas : a. Record Terdiri dari bermacam record yang terdiri dari beberapa atribut. Misalnya berbentuk data matriks atau data dokumen Gambar 2. Contoh data record Data transaksi Merupakan contoh khusus dari data record, dimana : - Setiap record (transaksi) terdiri dari beberapa item Team Pengampuh MK Data Mining 12

- Misalnya : pembelanjaan pada supermarket oleh konsumen, dimana seorang konsumen membeli beberapa produk dalam satu kali transaksi Gambar 3. Contoh data transaksi b. Graph - World wide web (WWW) - Struktur molekular c. Ordered - Data spasial - Data temporal Data temporal adalah data yang terukur dari waktu ke waktu (time series). Contoh nya adalah data finansisal yang memberikan informasi harga saham dari waktu ke waktu atau data curah hujan yang diambil secara periodik. Gambar 4. Contoh data temporal Team Pengampuh MK Data Mining 13

- Data sekuensial Misalnya data sekuens transaksi; data terdiri dari set transaksi dan item, dengan atribut waktu dan ID konsumen saling berkaitan dalam suatu transaksi. - Data sekuens genetik Gambar 5. Data sekuens transaksi 2.2.2 Kualitas Data Dalam suatu basis data, seringkali data tidak lengkap dan tidak konsisten. Data tersebut akan susah untuk dianalisis, karena itu diperlukan suatu praproses data (dibahas pada Modul 3). Contoh masalah dalam penentuan data yang berkualitas adalah noise dan outliers, missing value, dan duplikasi data. - Noise Noise merujuk pada modifikasi dari nilai atau bobot original dari data. Jadi noise merupakan random error atau varian dari hasil pengukuran variabel (yang merupakan hasil pengukuran dari statistik deskripsi lihat sub bagian selanjutnya). Contohnya adalah distorsi pada saat telepon atau muncul snow pada layar televisi. Team Pengampuh MK Data Mining 14

Gambar 6. Contoh noise pada gelombang sinus pada siaran televisi - Outliers Outliers adalah data objek yang memiliki karakteristik yang berbeda dari data objek yang terdapat pada dataset. Gambar 7 Contoh outliers - Missing value Beberapa alasan kenapa terjadinya missing value adalah sebagai berikut : Informasi tidak terkumpul (misalnya ketika diadakan pengumpulan data, ada yang tidak ingin memberikan informasi berapa umur dan berat badan) Atribut yang digunakan tidak bisa digunakan untuk semua kasus (misalnya besarnya penghasilan tidak bisa digunakan pada anak-anak) Cara menangani missing value ada beberapa cara; misalnya : Eliminasi atau menghapus data objek Team Pengampuh MK Data Mining 15

Mengestimasi missing value bisa digunakan interpolasi (estimasi) pada sisa nilai yang ada Tidak memperdulikan missing value ketika menganalis data - Duplikasi data Dataset sering terdiri dari beberapa data objek yang terduplikasi. Misalnya ketika menggabungkan beberapa sumber yang bersifat heterogen satu orang bisa memiliki lebih dari satu nomer handphone atau alamat email. Hal tersebut bisa dihindari dengan cara menerapkan data cleaning atau pembersihan data (dipelajari pada Modul 3) 2.2.3 Statistik dalam Pendeskripsian Data Statistik digunakan dalam meringkas propertis atau parameter dari data. Yang termasuk dalam properties adalah frekuensi data, lokasi data dan penyebaran data. Contohnya adalah lokasi digunakan mean, dan penyebaran digunakan standar deviasi. - Frekuensi dan mode Frekuensi dalam suatu atribut adalah persentase dari berapa banyaknya suatu nilai yang muncul pada dataset. Misalnya untuk atribut jenis kelamin pada suatu populasi, jenis kelamin perempuan muncul sebanyak 50% pada satu kali pengukuran data. Sedangkan mode adalah frekuensi yang paling sering muncul pada suatu nilai atribut. Karena itu mode dapat menentukan kualitatif dan kuantitatif dari suatu atribut. Dataset yang terdiri dari satu, dua atau tiga mode disebut sebagai unimodal, bimodal, dan trimodal. Jika disingkat, lebih dari dua mode disebut sebagai multimodal. Frekuensi dan mode sering digunakan pada data kategorial. - Mengukur lokasi : mean dan median Team Pengampuh MK Data Mining 16

Mean adalah pengukuran yang sering digunakan untuk mengukur lokasi dari titik tengah dari suatu data set. = 1 = 1+ 2+ + (1) Dengan x1, x2,... xm adalah banyaknya nilai dari data set m. Contoh 2.1. Dalam suatu dataset penghasilan (dalam ribuan rupiah) terdapat peningkatan angka : 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110. Jika digunakan persamaan (1) maka : = 30+36+47+50+52+52+56+60+63+70+70+110 12 = 696 12 =58 Maka mean dari penghasilan adalah 58.000 Meskipun demikian, mean sangat sensitif untuk terjadinya outliers. Karena itu median digunakan untuk mengatasinya. = 1 2 + Contoh 2.2 Jika menggunakan contoh 2.1 maka nilai mediannya dari 12 set data objek dengan nilai tengahnya adalah 52 dan 56, maka data hanya 11, maka nilai tengah atau median adalah 52. - Mengukur penyebaran : range dan varian = =54. Jika Range adalah perbedaan antara nilai maksimum dan minimum. Sedangkan varian atau standar deviasi adalah pengukuran yang sering digunakan untuk menghitung penyebaran data dalam dataset. If m is odd, i.e., m = 2r +1 If m is even, i.e., m = 2r (2) Team Pengampuh MK Data Mining 17

= = 1 1 = Walaupun begitu, sangat sensitif terhadap outlier. Karena itu digunakan pengukuran yang sering digunakan untuk mencegah outlier 2.2.4 Visualisasi Visualisasi adalah konversi data ke bentuk visual atau bentuk tabular, sehingga karakteristik dari data dan relasi antara item data atau atribut bisa dianalisis. Visualisasi merupakan teknik yang paling powerful untuk diaplikasikan untuk eksplorasi data (misalnya untuk mendeteksi pola general dan tren, outlier dan pattern atau pola yang tidak biasa). Contoh visualisasi adalah temperatur permukaan laut pada Juli 1982, dimana sepuluh ribu titik data digambarkan dalam satu gambar. Gambar 8 Suhu permukaan air laut Team Pengampuh MK Data Mining 18

Cara merepresentasi hasil visualisasi digunakan format visual. Data objek, atribut, dan relasi antara data objek diterjemahkan dalam bentuk grafik seperti titik, garis, bentuk dan warna. Contohnya : - Objek selalu direpresentasikan dengan titik - Tiap atribut direpresentasikan sebagai karakteristik dari titik data, contohnya adalah warna, ukuran, dan bentuk - Jika posisi titik sudah ditempati oleh titik yang lain, maka titik yang berada pada kelompok yang sama tersebut akan mudah dikenali sebagai outlier. Susunan atau arrangement adalah penempatan visual dengan model tampilan data. Hal tersebut bisa membuat perbedaan yang sangat jauh untuk memahami data yang akan diolah. Gambar 9. Contoh susunan data dalam matriks Teknik teknik dalam visualisasi data - Histogram Merupakan pengukuran yang sering digunakan. Histos berarti tiang dan gram berarti chart atau grafik, jadi histogram adalah grafik yang berbentuk batang. Histogram akan membagi nilai dalam beberapa bagian dan membentuk plot batang (bar plot) pada setiap objek di setiap bagian. Tinggi dari tiap batang menunjukkan banyaknya objek, sedangkan bentuk dari histogram mengikuti berapa banyaknya data tersebut terbagi (number of bins). Contohnya pada data lebar petal, terdapat 10 dan 20 bagian (bins) yang berbeda. Team Pengampuh MK Data Mining 19

Gambar 10. Lebar petal untuk 10 bins dan 20 bins Histogram juga digambarkan dalam bentuk dua dimensi untuk dua atribut yang berbeda. Misalnya adalah lebar petal dan panjang petal. Gambar 11. Histogram dua dimensi - Box plots Boxplot diperkenalkan oleh J. Tukey, merupakan cara yang populer untuk visualisasi distribusi atau penyebaran data. Cara visualisasi dari boxplot mengikuti bentuk five-number summary yang terdiri dari median (Quartile 2 Q2), quartile Q1 dan Q, minimum, dan maksimum (urutannya menjadi Minimum, Q1, Median, Q3, Maximum). Box plot sering digunakan untuk membandingkan data yang kompatibel. Penggambaran umum boxplot digambarkan pada gambar 12 Team Pengampuh MK Data Mining 20

Gambar 12. Urutan bagian dari boxplot Gambar 13. Contoh penggambaran boxplot untuk data iris Team Pengampuh MK Data Mining 21

Gambar 14. Distribusi data pada suatu dataset - Scatter plots Merupakan penggambaran nilai atribut untuk posisi dari titik titik data. Biasanya digambarkan dalam bentuk dua dimensi, tapi bisa juga digambarkan dalam bentuk tiga dimensi. Penggambaran scatter plot untuk dua dimensi menggunakan koordinat Cartesian. Gambar 15. Visualisasi 2 D pada scatter plot Team Pengampuh MK Data Mining 22

Gambar 16. Visualisasi matriks scatter plot data iris 2.2.5 Similarity dan Disimilarity Similarity atau kesamaan merupakan kesamaan antara data objek dalam kelompok data dan disimilarity merupakan ketidakmiripan (berdasarkan jarak) antara kelompok data. Biasanya digunakan dalam penggalian data, seperti pengelompokan (clustering), analisis outlier, klasifikasi tetangga terdekat (distance based). Contoh pengukurannya adalah sebagai berikut : Assymetric binary attributes : Jaccard coefficient Distance binary attributes : Euclidean, Manhattan, Minkowski, and supremum Menggunakan frekuensi kemunculan pada suatu data (term frequency vector) : Cosine similarity, atau Tanimoto coefficient. 2.3. Tugas Kumpulkan pada pertemuan 3 (Minggu depan) Tidak Menerima Keterlambatan dalam pengumpulan tugas Team Pengampuh MK Data Mining 23

1. Briefly in explain with example this following : Graph data Spatial or spatiotemporal data Genetic Sequence data Quantiles, Quartiles and Percentile Interquartile range (IQR) The five number summary 2. Suppose that the data for analysis includes the attribute age. The age valuesfor the data tuples are (in increasing order) 13,15, 16, 16, 19,20,21, 22, 22, 25, 25, 25, 25,, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 Wahat is the mean of the data? What is the median? What is the range of the data? Can you find (roughly) the first quartile (Q1) and the third quartile (Q3) of the data? Show a boxplot or the data 3. Briefly outline how to compute the dissimilarity between object describes by the following Nominal attributes Asymmetric binary attributes Numeric attributes Term-frequency vectors Reference : 1. Han J., Kamber M., Pei J, Data Mining : Concepts dan Techniques, Amerika : Morgan Kaufmann Press, 2012 Team Pengampuh MK Data Mining 24