DATAWAREHOUSE I Made Sukarsa
Evolusi Sistem Informasi Decision Support System database Database (I,U,D,R) ETL DW (Read) Masalah : integrasi /konsistensi OLTP Normalisasi/Den ormalisasi OLAP Denormalisasi
Evolusi Pemrosesan operasional menangani transaksi bisnis insert, update, delete (manipulasi data) pelaporan dalam bentuk mentah Outputnya hanya untuk kepentingan operasi harian Pemrosesan informasi Analisa data untuk pengambilan keputusan Sering bahan dasarnya adalah dari berbagai sistem mandiri / aplikasi
Definisi Datawarehouse : Merupakan kumpulan data dari berbagai resource, yang disimpan dalam suatu gudang data (repository) dalam kapasitas besar untuk pengambilan keputusan Sifatnya read only database (bedakan dengan OLTP). Isu Baru Realtime DW Berisi kumpulan data terperinci dan sdh teriktisar Pengumpulan data dari berbagai sumber validasi restrukturisasi DW
Karakteristik Data Warehouse Subject Oriented : Data warehouse berfokus pada entitas entitas bisnis level tinggi seperti pelanggan, mahasiswa, pegawai,dll Integrated : Data disimpan dalam format yang konsisten (dalam konvensi penamaan, constraint domain, dll) Time variant : Data diasosiasikan dengan suatu titik waktu dan dapat berfungsi sebagai rekaman aktivitas pada rentang waktu tertentu. Non-volatile : Data yang berasal dari banyak resource tersebut (sedang berjalan) tidak dapat diubah karena bersifat read only.
Arsitektur Data Warehouse Extract,Transform, Load Translasi/ Konversi Kumpulan Data Mart
Masalah Kesulitan dalam penyatuan makna data dari berbagai sistem eksisting - data tidak konsisten - data hilang - data komposit catatan : baca teori integrasi sistem
Desain Data Warehouse (1) Mendefinisikan arsitektur, perencanaan kapasitas, memilih server storage, server OLAP dan database, dan toolsnya. Mengintegrasikan server, storage dan client tools. Mendesain skema warehouse dan views Menentukan pengaturan physical database, data placement, pemartisian, metode pengaksesan
Desain Data Warehouse (2) Mengkoneksikan source menggunakan gateway, ODBC driver, atau yg lainnya (pilih middleware langsung) Mendesain dan mengimplementasikan script untuk extraksi data, cleaning, transformasi, load dan refresh Menggabungkan repository dengan definisi skema dan view, script dan metadata lainnya Mendisain dan mengimplementasikan aplikasi end user Membuat data warehouse dan aplikasinya
Transformasi Data Menjadi Informasi Transformation Tool Metadata Data Operational Data Data warehouse Business View Business Information
Perbedaan Data Warehouse dan View Data warehouse merupakan penyimpanan yang stabil Data warehouse tidak selalu relational, tetapi bisa juga multidimensional. Sedangkan view merupakan relational database Datawarehouse sering melupakan konsep normalisasi Data warehouse dapat diindex untuk mengoptimalkan performance, sedangkan view tidak dapat diindex secara independent Data warehouse menyediakan integrasi dan temporal data dalam jumlah yang besar umumya lebih dari satu database dimana view merupakan extraksi dari sebuah database
Pemodelan Data Skema tabel yang sering digunakan adalah skema bintang (star schema), yang digunakan pada OLAP Skema tabel ini membentuk struktur informasi multidimensi yang kompatibel dengan kebutuhan bisnis.
Star Schema Fact : historical data Dimensional : bersumber dari berbagai tabel di SI lain (via ETL)
Karakteristik Star Schema Pusat skema bintang adalah fact table. Fact table berisi indikator indikator kinerja pokok. Tabel di sekeliling fact table adalah dimension table Tiap dimension table di-relasikan fact table berdasarkan primary key-nya Skema bintang diimplementasikan menggunakan teknologi relational database.
Definisi OLAP : Sistem yang bertugas mengubah data yang disimpan dalam data warehouse dan mentransformasikan data menjadi struktur multidimensi (cube).
OLTP vs OLAP Item OLTP OLAP User IT Professional Knowledge Worker Fungsi Operasi harian Pengambilan keputusan Perancangan Basis Data Berorientasi aplikasi Berorientasi subjek Data Up to date, rinci, relasional Historis, multidimensi, terintegrasi Akses Read/write Read only Unit Kerja Transaksi jangka pendek Complex Query Ukuran DB 100 MB-GB 100 GB-TB
OLAP Server Relational OLAP : RDBMS perluasan yang melakukan pemetaan operasi data multidimensi menjadi operasi relasional standar. Multidimensional OLAP : Server yang secara langsung mengimplementasikan data dan operasi multidimensi. Hybrid OLAP : Memberi kebebasan pada user / administrator untuk memilih partisi yang berbeda.
Multidimensional Data Model (1) Terdiri atas sekumpulan dimensi (independent variable) dan ukuran / nilai numerik (dependent variable) Untuk semua record pada tiap dimensi, mempunyai nilai atribut yang sesuai dengan nilai cell pada dimensi tersebut. Contoh : dimensi Product (pid), Location (locid), Time (timeid) nilai Sales
Multidimensional Data Model (2)
Tipe Penelusuran Data (OLAP Query) Roll-up : Menampilkan data yang semakin meningkat ke level agregasinya, misalnya untuk mengetahui total penjualan melalui informasi total penjualan di tiap negara. Drill-down : Menampilkan rincian rincian melalui query. Kita melakukan drill-down terhadap hirarki suatu tabel dimensi atau lebih, misalnya melihat ringkasan bulanan, mingguan, dst. Pivot : pembentukan cross tabulation Slice and dice : Persamaan dan pembuatan range selection pada satu atau banyak dimensi.
Pertumbuhan Data Data Master Data Transaksi Orde bulanan dan tahunan Tipe Data DBMS Mengukur Kecepatan Query DBMS ramping(lihat benchmark) Kemampuan mesin Solusi Backup Cadangan(dmp semua) Data aktif (mesin beda)
Date Time Tipe Data Keterangan DATETIME Ukuran 8 byte. Kombinasi tanggal dan jam, dengan jangkauan dari 1000-01-01 00:00:00 sampai dengan 9999-12-31 23:59:59. DATE Ukuran 3 byte. Tanggal dengan jangkauan dari 1000-01-01 sampai dengan 9999-12-31. TIMESTAMP Ukuran 4 byte. Kombinasi tanggal dan jam, dengan jangkauan dari 1970-01-01 00:00:00 sampai dengan tahun 2037. TIME Ukuran 3 byte. Waktu dengan jangkauan dari -838:59:59 sampai dengan 838:59:59. YEAR Ukuran 1 byte. Data tahun antara 1901 sampai dengan 2155.
Tipe Bilangan (MySQL) Tipe Data Keterangan TINYINT Ukuran 1 byte. Jangkauan bertanda : -128 sd 127 dan : 0 sampai dengan 255 SMALLINT Ukuran 2 byte. Bilangan bulat dengan jangkauan untuk bilangan bertanda : -32768 sampai dengan 32767 dan untuk yang tidak bertanda : 0 sampai dengan 65535 MEDIUMINT Ukuran 3 byte. Bilangan bulatdnengan jangkauan untuk bilangan bertanda : -8388608 sampai dengan 8388607 dan untuk yang tidak bertanda : 0 sampai dengan 16777215 INT Ukuran 4 byte. jangkauan untuk bilangan bertanda : -2147483648 sampai dengan 2147483647 dan untuk yang tidak bertanda : 0 sampai dengan 4294967295 BIGINT Ukuran 8 byte. Range : -9223372036854775808 sd 9223372036854775807 dan untuk yang tidak bertanda : 0 sampai dengan 18446744073709551615 FLOAT DOUBLE REAL DECIMAL(M,D) NUMERIC(M,D) Ukuran 4 byte. Bilangan pecahan Ukuran 8 byte. Bilangan pecahan Ukuran 8 byte. Sinonim dari DOUBLE Ukuran M byte (D+2, jika M<D). Bilangan pecahan. Ukuran M byte (D+2, jika M<D). Sinonim dari DECIMAL.
Karakter ( MySQL) Tipe Data Keterangan CHAR(M) Ukuran M byte, 1 <= M <= 255. panjang tetap. VARCHAR(M) Ukuran L+1 byte dengan L <= M dan 1 <= M <= 255. TINYBLOB,TINYTEXT BLOB, TEXT L+1 byte, dengan L < 2 8. panjang maksimum 255 karakter. L+2 byte, dengan L < 2 16. panjang maksimum 65535 karakter. MEDIUMBLOB, L+3 byte, dengan L < 2 24. Tipe TEXT atau BLOB dengan panjang MEDIUMTEXT maksimum 16777215 karakter. LONGBLOB,LONGTEXT L+4 byte, dengan L < 2 32. Tpanjang maksimum 4294967295 karakter. ENUM( nilai1, nilai2,...) SET( nilai1, nilai2 ) Ukuran 1 atau 2 byte tergantung jumlah nilai enumerasinya. Maksimum 65535 nilai. Ukuran 1, 2, 3, 4 atau 8 byte, tergantung jumlah anggota himpunan. Maksimum 64 anggota
Desain DW perusahaan (All) : pertemuan 2 Desain DW (source dan star schema : pemetaan metadata/repository) Analisa pertumbuhan data
Tool ETL (buat perbandingan kemampuan) : Pertemuan 3 Database Centric ETL Ganjil - Oracle - SQL Server Engine (Code generator vs engine Based Tool) Genap http://sourceforge.net/projects/cplusql/ Arktos 2
Materi berikutnya ETL framework Active Database