Data Warehouse Methodology (I) Yudi Agusta, PhD Data Warehouse and Data Mining, Lecture 5 Copyright Yudi Agusta, PhD 2006 Lecture s Structure Teknik Data Warehouse Pengidentifikasian Keperluan Pengambilan, Transformasi dan Penyimpanan Data Arsitektur Warehouse (Overview) Teknologi dan Alatnya Belakangan Perancangan Database secara Fisik Policy untuk operasional Metode data warehousing (Kuliah selanjutnya) Mengimplementasikan teknik melalui life-cycle Bagaimana Strukturnya 1
Bagaimana Strukturnya Bagaimana Strukturnya Bagaimana Strukturnya 2
Bagaimana Strukturnya Bagaimana Strukturnya Pengidentifikasian Keperluan Suatu hal yang sangat sulit Keperluan pengguna Ketersediaan data Laporan yang sudah ada dapat ditiru Wawancara dengan pengguna Pekerjaan menerka secara intelligent oleh analis yang berilmu Sekali sistem dibangun maka semua jenis keperluan akan muncul Feedback sangat diperlukan 3
Pengambilan, Transformasi dan Penyimpanan Data Sebagian besar usaha, waktu dan biaya muncul di sini Tool ETL untuk pengambilan, transformasi dan penyimpanan sudah dipasarkan tapi sedikit yang memakai Untuk ETL yang dirancang sendiri, secara rata-rata untuk setiap data warehouse (menurut survey): Pengambilan 16 program/875 baris per program Transformasi 12 program/741 baris per program Pengecekan integritas 9 program/522 baris per program Mengidentifikasikan data yang berubah sangat sulit Disebut dengan Changed Data Capture (CDC) Banyak yang melakukan refresh lengkap Pengambilan Data Produksi Pengambilan utama Memerlukan data dengan format yang sudah ada Mengidentifikasikan records baru dan yang sudah berubah Mengeneralisasikan kunci untuk mengubah dimensi Mentransformasikan ke load record image Migrasi dari sistem yang sudah ada ke sistem data warehouse Pengambilan Data Produksi Melakukan sorting dan membangun agregat Mengeneralisasikan kunci untuk agregat Menyimpan dan melakukan indexing Perkecualian proses Menjamin integritas keterkaitan Jaminan kualitas Mempublikasikan 4
Pengambilan Data Utama Memerlukan koneksi fisik untuk sistem sumber Keamanan FTP Manajemen pergerakan volume data dalam jumlah besar Memerlukan definisi format yang sudah ada dan pengertian bagaimana sistem tersebut bekerja Contoh Produk ETL Ardent (Informix) DataStage SAS Warehouse Administrator Microsoft DTS Services Systemfabrik s Warehouse Workbench DataJunction Fasilitas Pada Produk ETL Umum Manajemen Meta Data Akses ke sumber data dengan jenis yang berbeda Konfigurasi/tool perancangan yang berorientasi grafik Objek umum untuk SQL, proses, keputusan, sumber data, target data, error, laporan pengecualian Fasilitas perencanaan kerja Sebagian besar berbasis server dengan range menengah (NT/200, Unix/Linux, Solaris dll) 5
Metode untuk Change Data Capture (CDC) Membaca database transaction logs Modifikasi aplikasi untuk menulis perubahan dan untuk mengubah file Melakukan scanning database untuk memberikan waktu Membandingkan potret database Penduplikasian data Arsitektur Warehouse Opsi Utama: Data Warehouse Perusahaan Data Mart yang mempunyai ketergantungan Data Mart yang berdiri sendiri Arsitektur Bis Data Warehouse Perusahaan Sumber data terpusat Besar dalam hal scope dan terkadang ukuran Mengoptimalkan proses pengambilan Memaksimalkan keuntungan pengintegrasian Cara pandang pengguna Sulit untuk memenuhi keperluan kelompok pengguna yang berbeda Proyek sering gagal 6
Data Warehouse Perusahaan Data Mart Yang Tergantung Sebagian dari data diambil dari data warehouse perusahaan dan diorganisasikan untuk memenuhi keperluan bisnis dan aplikasi Umumnya data warehouse perusahaan dalam bentuk 3NF Data Mart di-de-normalisasikan OLAP sebagai contohnya Dalam kenyataannya, sulit untuk mendapatkan semua data yang diperlukan dari penyimpan data perusahaan Pendekatan paling umum (secara teori) Data Mart Yang Tergantung 7
Data Mart Yang Berdiri Sendiri Banyak data warehouse kecil di berbagai tempat Umumnya mengikuti pendekatan berdimensi Kurang integrasi Tidak konsisten Duplikasi sumber data Hal yang paling menyulitkan Tapi bisa digunakan Masalahnya adalah dalam jangka waktu menengah maupun panjang Data Mart Yang Berdiri Sendiri Data Mart Federal Seperti data mart yang berdiri sendiri, mereka ada di berbagai tempat, tetapi Mempunyai area untuk data staging yang bisa dishare Manajemen yang lebih bagus untuk proses ETL Kuncinya adalah manajemen meta data Ini adalah rekomendasi Kimball Arsitektur Bis 8
Data Mart Federal Rancangan Database Fisik Perlu untuk dipikirkan: Standar Lokasi file secara fisik Volume data Index, agregat, dan detail data Kelangkaan data Konfigurasi disk Pola penggunaan Jumlah dan distribusi pengguna Frekuensi update Kemampuan pengembangan Data, penggunaan dan query Aspek Untuk Rancangan Fisik Manajemen buffer Keparalelan Pemrosesan data load Pemrosesan query SMP, MMP, NUMA Partisi Indexing B-Tree Bitmapped Hash Index 9
Partisi Tidak didukung oleh semua RDBMS Kimball merekomendasikan partisi berdasarkan tanggal (Kimball et al (1998) p.599) Maintenance penanggulangan karena hanya data yang terkini yang perlu untuk diload dan aktif Membantu performance karena segmen tabel yang lebih kecil yang diakses saat menjalankan query Dapat menyebabkan masalah saat menjalankan query lintas partisi (tidak direkomendasikan oleh semua) B-Tree Index Tipe index yang paling banyak digunakan dalam sistem RDBM Item ditambahkan ke index tree satu persatu Cocok untuk pengambilan satu item (seperti dalam lingkungan transaksi) Di dalam data warehouse, sistem ini cocok untuk item yang merupaka item utama seperti product_key atau custormer_key Memerlukan banyak space dan waktu untuk membuat Bitmapped Index Sekumpulan bits mewakili setiap nilai yang memungkinkan dalam sebuah kolom Melihat dengan membandingkan bit-wise vector Sangat cepat Hanya diimplementasikan pada produk RDBMS utama belakangan ini Sebenarnya sudah berumur lama Cocok untuk data yang bukan merupakan item utama Jenis kelamin (M/F/Tidak Diketahui) 3 bits Laki-laki 100, Wanita 010, Tidak Diketahui 001 10
Contoh Index Policy Operasional Manajemen dengan ritme harian untuk data load dan query Policies untuk semua hal yang berbeda yang dapat menjadi masalah dalam proses data load Data warehouse sebagai sistem yang amburadul Manajemen untuk performance query Mengatur indes, agregat, partisi dll untuk memastikan waktu respon yang baik 11