Data Warehouse & Mining Pengantar yudi@upi.edu / @yudiwbs Ver dok: 0.8/ Sept 2014
Kutipan The most valuable commodity I know of is information. Gordon Gekko Data is the new oil! Clive Humby If we have data, let s look at data. If all we have are opinions, let s go with mine. - Jim Barksdale,
Seputar Perkuliahan Dosen: Yudi Wibisono Email: yudi@upi.edu ym/twitter: yudiwbs Fb: http://www.facebook.com/yudi.wibisono Komunikasi: via email, ym, fb, e-learning, twitter. Tidak telepon/sms kecuali ketua kelas
Seputar Perkuliahan (lanj) Keterlambatan tugas 1% / jam, max 2 hari. Bobot penilaian: 20 % tugas, 40% UTS, 40% UAS Batas nilai (dpt berubah): A:79, B:64, C:49, D:30 Kecurangan: E (termasuk yg memberikan) Ujian: Praktikum Buku: Data Mining: Concepts and Techiques, Jiawei Han (bab 1 sd 8)
Seputar Perkuliahan (2) Dilarang berbicara saat pihak lain berbicara. Dipersilahkan tidur, membaca, dan aktivitas lain selama TIDAK menggangu orang lain. HP: silent, dilarang menerima telp dalam kelas. Next: Cakupan.
Cakupan Fokus: Rekayasa (engineering) untuk memecahkan masalah Analisis Perancangan Pendukung Praktikum+tugas: tools
Materi Kuliah: Data warehouse Pemodelan Datawarehouse OLAP (online analytical processing) ETL (Extraction Transformation Loading) Tools praktikum: Pentaho
Materi Kuliah: Data mining Data Preprocessing Cleaning, Integration, Reduction. Mining frequent pattern, asosiasi Klasifikasi Clustering Text Mining Tools praktikum: Weka
Mengapa belajar DWM? Untuk apa belajar DWM? Apa manfaat belajar DWM bagi saya?
Mengapa DWM? Digitalisasi, kemajuan sistem informasi data, data, data (Tera Peta) Web 2.0 berita, blog, twitter, forum, flickr, fb, youtube, flickr Streaming data sensor, internet of thing (IoT) Data yang sangat besar!
Mengapa DWM: Banjir Data Indomaret: 4500an gerai, asumsi 3 transaksi per menit = 12 juta transaksi per hari se Indonesia. Kartu kredit visa: berlaku di 200 negara. 10 ribu transaksi per detik 850 juta transaksi per hari. Twitter: 8000an tweet per detik 600 juta tweet per hari. Facebook: 30 milyar item (link, status, note, foto dst) per bulan. 900 juta user menghabiskan 700 milyar menit per bulan di situs FB. Bagaimana mengelolanya? Apa yang bisa dilakukan perusahaan dengan data sebanyak itu? Informasi apa yang bisa didapat?
Banjir Data (lanj) Large Hadron Collider: 15 petabytes data per tahun 1 Peta = 1 Juta Giga 1 Tera = 1000 Giga 1 Peta = 1000 Tera http://nextnature.net/wp-content/uploads/2009/09/lhc-530.jpg?iact=hc&vpx=1076&vpy=276&dur=1031&hovh=260&hovw=194&tx =158&ty=231&sig=112386718339487151050&ei=io1GUO-NCMjorQeJ2oCgBw&page=2&tbnh=149&tbnw=113&start=18&ndsp=24&ved=1t:42 9,r:35,s:18,i:40
Penyimpanan Petabytes 1562 kali hardisk 640GB Harga: Rp.5 Milyar
Evolusi DB 60-an: koleksi data (file system primitif) 70-80: MIS (Sistem Informasi Management) 80-sekarang: OO, Deductive, Spatial, Multimedia 90-sekarang: Web based (XML, web mining), Datawarehouse, OLAP, Text Database, Text + Data mining 05-sekarang: Stream data management and mining, Cloud, Web
Tenggelam dalam data, tapi lapar dalam pengetahuan! Jiawei Han
Definisi Data: simbol Informasi: data yang berguna Pengetahuan: aplikasi dari data+informasi Pemahaman: menjawab mengapa. Kebijaksanaan: moral, etika, filosofis Buzzword Business Intelligence Big Data Data scientist
Masalah Utama Data berjumlah besar Aliran besar (volume per satuan waktu) Dimensi besar jumlah field Bayangkan indomaret: Data: Produk per toko, jenis produk, transaksi Laporan: transaksi per waktu (hari/bulan/tahun), transaksi per wilayah (kabu-kota/propinsi), transaksi per produk per wilayah dst. Bagaimana mengelola data? Bagaimana mendapatkan pengetahuan & pemahaman?
Solusi Datawarehouse Datamining
Apa Data warehouse? Database pendukung keputusan yang terpisah dengan database operasional Apa database operasional? Platform untuk penggabungan data historis untuk analisis Subject oriented (multi dimensi), terintegrasi, historis, non volatile
Contoh Visualisasi TV PC VCR sum Produk Waktu 1Qtr 2Qtr 3Qtr 4Qtr Tot penjualan tahunan TV Di U.S.A. sum U.S.A Canada Mexico Neagara sum
Apa Datamining? Mengekstrak secara otomatis pola atau pengetahuan yang menarik (tidak sederhana, tersembunyi, tidak diketahui sebelumnya, berpotensi berguna) dari data bervolume sangat besar.
Contoh datamining Memprediksi umur dan gender berdasarkan data tweet. Mendeteksi adanya penerobosan sistem (crack). Memprediksi hasil pemilu berdasarkan tweet. Memprediksi saat orang membeli X di supermarket berapa besar kemungkinan orang tsb akan membeli barang Y. Memprediksi apakah seseorang hamil berdasarkan data pembelian.