Datawarehouse dan OLAP (Overview) yudi@upi.edu Diambil dari presentasi Jiawei Han
Apa Data warehouse? Database pendukung keputusan yang terpisah dengan database operasional Platform untuk konsolidasi data historis untuk analisis Subject oriented, integrated, time-variant, non volatile dibahas di halaman selanjutnya
Subject-Oriented Dikelola berdasarkan subyek-subyek penting. Misalnya: customer, product, sales. Fokus pada model dan analisis data untuk pengambil keputusan, bukan operasi harian. Memberikan view yang lebih sederhana untuk subyek tertentu dengan membuang data yang tidak diperlukan
Terintegrasi Dibuat dengan menggabungkan beberapa sumber data: Database relational, flat file Teknik pembersihan dan integrasi diterapkan Konsistensi nama, atribut Konversi saat data pindah ke warehouse
Time-Variant Time horizon lebih panjang dari sistem yang operasional Database operasional: data kini (current) Datawarehouse: perspektif historical (5-10 tahun) Setiap struktur pada data warehouse: Mengandung elemen waktu (implisit/eksplisit) Tidak demikian dengan database operasional
Nonvolatile Penyimpanan data terpisah dengan data operasional Tidak memerlukan update Tidak memerlukan proses transaksi, recovery dan concurrency Hanya memiliki dua operasi: Loading awal Akses data
Data Warehouse vs DBMS Heterogen Heterogen DBMS: query driven Buat pembungkus/mediator di atas database Query diterjemahkan menjadi query yang mengakses DBMS yang terkait Filter informasi yang kompleks Lambat Data warehouse: update-driven Kinerja lebih bagus Informasi dari database yang heterogen telah digabung.
OLAP di Data Warehouse dan OLTP di Operasional DB Data warehouse:olap Operasional DB: OLTP OLTP (on-line transaction processing) Fungsi utama relational database Operasi harian: pembelian, inventory, registrasi dll OLAP (on-line analytical processing) Fungsi utama data warehouse Analisis data dan pengambilan keptusuan
OLTP vs OLAP Orientasi user dan sistem: customer vs market Isi sistem: current, detail vs historical, konsolidasi Rancangan: ER+Aplikasi vs Star + subject View: current, local vs evlutionary, integrated Model akses: update vs read only tapi kompleks
O OLTP vs OLAP users fungsi DB design cl ha ER
Mengapa Memisahkan Data Warehouse?
Mengapa Memisahkan Data Warehouse Kinerja harus yang tinggi untuk kedua sistem DBMS dirancang untuk OLTP (indexing, concurrency, recovery Warehouse dirancang untuk OLAP (complex query, multi dimensi view, konsolidasi) Perbedaan fungsi dan data Decision support membutuhkan data historis yang tidak ada di DBMS Konsolidasi data (agregasi dan rangkuman) Kualitas data (masalah konsistensi, format) Saat ini banyak sistem yang melakukan OLAP pada DB biasa.
Data Model Multi-Dimensi Basis data warehouse Data model multidimensi (melihat data dalam bentuk data cube) Satu data cube, misalnya penjualan dapat dilihat dari berbagai dimensi: Tabel dimensi: misalnya, barang (nama_barang, merk, tipe), waktu (hari, minggu, bulan, tahun) Tabel fakta (uang yang terjual)
Model Konseptual Data Warehouse Star schema: tabel fakta dihubungkan dengan tabel dimensi Snowflakse: perbaikan star schema, hirarki dimensi di normalisasi Fact constellations: multiple tabel fakta berbagi tabel dimensi
Contoh Star Schema time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Measures Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city state_or_province country
Contoh Snowflake Schema time time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key item item_key item_name brand type supplier_key supplier supplier_key supplier_type branch branch_key branch_name branch_type Measures branch_key location_key units_sold dollars_sold avg_sales location location_key street city_key city city_key city state_or_province country
time time_key day day_of_the_week month quarter year Fact constellations Sales Fact Table time_key item_key branch_key item item_key item_name brand type supplier_type Shipping Fact Table time_key item_key shipper_key from_location branch branch_key branch_name branch_type Measures location_key units_sold dollars_sold avg_sales location location_key street city province_or_state country to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type
Hirarki Konsep: Dimension (lokasi) all all propinsi Jabar... Sumatera Selatan Kab/kota Kota Bandung... Kab Subang Palembang... Musi Kecamatan Sukawarna... x... yy Desa zz... mm