IN086 Temu Pengetahuan 2. Overview Data Warehouse 1 Pengenalan Data Warehouse Introduksi Definisi data warehouse Data warehouse vs Operasional DB DM-MA/S1IF/FTI/UKM/2012 2 1
Data Warehouse Sebuah gudang data Data berasal dari berbagai sumber Hasil analisis datanya dapat digunakan untuk mendukung pengambilan keputusan bisnis: Analisis kebiasaan belanja customer Pengelolaan& reposisi produk Pengelolaan customer relationship DM-MA/S1IF/FTI/UKM/2012 3 Apa itu Data Warehouse? (Jiawei Han) Didefinisikan dalam berbagai cara, namun tidak secara definitif Sebuah basis data pendukung keputusan yang dipelihara terpisahdari basis data operasional dari organisasi Mendukung pemrosesan informasi dengan menyediakan platform yang solid untuk analisis data yang terkonsolidasi dan historis. Definisi: Sebuah Data Warehouse adalah koleksi data yang berorientasi subyek, terintegrasi, bervariasi terhadap waktu, dan tidak berubah (non-volatile) dalam mendukung pembuatan keputusan dari manajemen W.H. Inmon 4 2
Apa itu Data Warehouse?(Efraim Turban) Data warehouse Sebuah repositori fisik dimana data relasional diorganisir secara khusus untuk menyediakan data yang bersih dan berformat standar di skala enterprise Karakteristik Berorientasi subyek, terintegrasi, bervariasi terhadap waktu, tidak berubah Berbasis web, relasional / multidimensional, klien/server, real-time Termasuk metadata Data warehousing Proses konstruksi dan penggunaan dari data warehouse Membutuhkan integrasi data, pembersihan data, dan konsolidasi data 5 Data Warehouse : Berorientasi Subyek Diorganisasikanmenurutsubyek, misalnyakonsumen, produk, sales Difokuskan pada pemodelandananalisisdata untuk pembuat keputusan, bukan pada operasi harian atau pemrosesan transaksi Menyediakan wawasan yang sederhana dan jelas mengenai subyek dengan memisahkan data yg tidak relevan dalam proses pendukung keputusan 6 3
Data Warehouse : Terintegrasi Dibangundenganmengintegrasikansumberdata yang beragam relational databases, flat files, on-line transaction records Penerapan pembersihan data dan integrasi data Memastikan konsistensi dalam konvensi penamaan, struktur encoding, ukuranatribut, mis. diantarasumberdata yang berbeda Mis. Hotel price: currency, tax, breakfast covered, dll. Bila data dipindahkan ke warehouse, data tsb akan dikonversi DM-MA/S1IF/FTI/UKM/2012 7 Data Warehouse :Bervariasi terhadap Waktu Perubahan data dalam DB tercatat& terlacak sehingga laporan yg dihasilkan menunjukkan perubahan secara berkala Operational database: nilai data sekarang Data warehouse data: informasidariperspektif historis(mis. data 5-10 tahun terakhir) Setiap struktur key dalam data warehouse Mengandung elemen waktu, eksplisit atau implisit key dari data operational tidak selalu mengandung elemen waktu 8 4
Data Warehouse : Tidak Berubah Penyimpanan data transformasi terpisah secara fisik dari lingkungan operational. Update data operasional tidak terjadi pada lingkungandata warehouse Tidak perlu transaction processing, recovery, dan concurrency control Hanyaperluduaoperasidlmaksesdata initial loading of datadanaccess of data 9 Data Warehouse vs. Operational Data Base OLTP (on-line transaction processing) Tugas utama dalam DBMS relasional tradisional Operasi sehari hari: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, dll. OLAP (on-line analytical processing) Tugas utama dalam sistem data warehouse Analisis data dan pembuatan keputusan Fitur pembeda (OLTP vs. OLAP): Orientasi user dan sistem: konsumen vs. Market Konten data: sekarang, detil vs. historis, terkonsolidasi Desain basisdata: ER + aplikasi vs. Star + subyek View: sekarang, lokal vs. terevolusi, terintegrasi Pola akses: update vs. read-only tetapi kueri kompleks 10 5
OLTP vs. OLAP OLTP OLAP Pekerja pekerja, profesional IT Pekerja pengetahuan Fungsi Operasi sehari - hari Pendukung keputusan Desain Basisdata Berorientasi aplikasi Berorientasi subyek Data Terbaru, up-to-date detil, relasi datar, terisolasi Penggunaan Berulang - ulang Ad-hoc Akses Unit pekerjaan Historis, terangkum, multidimensi terintegrasi, terkonsolidasi read/write Banyak scan index/hash pada primary key Pendek, transaksi sederhana Query kompleks # Rekaman diakses Puluhan Jutaan #Pengguna Ribuan Ratusan Ukuran Basisdata 100MB-GB 100GB-TB Metriks ukuran Throughput transaksi Throughput query, respon 11 Mengapa sebuah Data Warehouse perlu terpisah? Berkinerja tinggi di kedua sistem: DBMS dioptimalkan untuk OLTP:access methods, indexing, concurrency control, recovery Warehouse dioptimalkan untuk OLAP: complex OLAP queries, multidimensional view, consolidation Pemrosesan kueri OLAP dalam basis data operasional akan menurunkan kinerja dari tugas tugas operasional. Dalam Basisdata Operasional, concurrency control dan mekanisme recovery (locking, logging) dibutuhkan untuk menjamin konsistensi dan kehandalan dalam transaksi OLAP -> akses Read Only, tidak memerlukan concurrency 12 6
Mengapa sebuah Data Warehouse perlu terpisah? Fungsi dan data yang berbeda Data hilang: Pendukung keputusan membutuhkan data historis yang dalam basis data operasional biasanya tidak dipelihara Konsolidasi data: Pendukung keputusan membutuhkan konsolidasi (aggregation, summarization) dari sumber sumber data yang beragam Kualitas data: sumber data yang berbeda biasanya menggunakan representasi data,kode dan format yang tidak konsisten yang harus direkonsiliasi DM-MA/S1IF/FTI/UKM/2012 13 Contoh Data Warehouse Contohdata dalamdw Seluruh transaksi yang pernah dilakukan di supermarket Histori transaksi klien di perusahaan asuransi Seluruh data akademik di suatu universitas Informasi finansial dan portfolio di bursa saham dalam beberapa tahun DM-MA/S1IF/FTI/UKM/2012 14 7
Data Warehouse: A Multi-Tiered Architecture Sumbersumber lain Metadata Monitor & Integrator OLAP Server Basisdata Operasional Extract Transform Load Refresh Data Warehouse Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 15 Model model Data Warehouse Warehouse Enterprise Mengumpulkan semua informasi tentang subyek subyek yang ada pada seluruh organisasi Data Mart Sebuah bagian (subset) dari data korporat yang berguna untuk kelompok pengguna spesifik. Ruang lingkupnya dibatasi untuk kelompok spesifik dan terpilih, seperti Data Mart untuk marketing Independent vs. dependent (langsung dari warehouse) data mart Virtual warehouse Sebuah set views dari basis data operasional Hanya beberapa dari view rangkuman yang dapat diwujudkan 16 8
Data Warehouse : Extraction Transformation Loading (ETL) Ekstraksi Data: mendapatkan data dari sumber sumber yang banyak, beragam, dan eksternal. Pembersihan data: mendeteksi kesalahan data dan memperbaikinya apabila dimungkinkan Transformasi data: mengkonversi data dari format atau legasi dari host ke format warehouse Load: menyortir, merangkum, mengkonsolidasi, menghitung tampilan (view), dan membangun indeks dan partisi Penyegaran: mempropagasi pembaharuan dari sumber data ke warehouse. 17 AplikasiData Warehouse Tiga jenis aplikasi data warehouse Information processing mendukungquerying, basic statistical analysis, danreporting menggunakan crosstabs, tables, charts dan graphs Analytical processing Analisisdata multidimensi daridata warehouse mendukung basic OLAP operations, slice-dice, drilling, pivoting Data mining Temu pengetahuan dari pola pola tersembunyi Mendukung asosiasi, konstruksi model analisis, menjalankan klasifikasi dan prediksi, dan menyajikan hasil hasil DM menggunakan perangkat visualisasi. 18 9
Contoh Data Karyawan Nama Divisi Gender DOB DOH DOX Hani HRD L 24-Nov-1972 11-Feb-1991 1-Jul-2005 Kiki HRD L 22-Mar-1955 4-Mar-1985 1-Jul-2003 Lina Finance P 13-Nov-1941 4-Feb-1991 2-Oct-2007 Mari Finance P 29-Sep-1965 21-Mar-1994 1-Jul-2010 Rima Finance P 21-Apr-1945 1-Nov-1994 1-Jul-1999 Mira Produksi P 27-Jun-1955 9-Apr-1990 1-Jul-2005 Koko Produksi L 13-Nov-1947 1-May-1978 1-Jul-2003 Komar Produksi L 28-Jun-1968 30-Jul-1990 2-Oct-2007 Mario Produksi L 16-Nov-1938 6-Aug-1992 1-Jul-2010 Anisa R&D P 16-Mar-1933 24-Jul-1991 8-May-1999 Kikan R&D P 9-Oct-1945 1-Apr-1977 1-Jul-1999 Nani R&D P 13-Oct-1951 19-Jun-1989 1-Jul-2003 Jodi R&D L 28-Apr-1956 29-Apr-1991 2-Oct-2007 Didi Finance L 8-Jul-1969 6-May-1991 1-Jul-2010 Dani Produksi L 16-Apr-1930 28-Dec-1990 8-May-1999 19 Multidimensi& Visualisasi Lama Kerja 5-10 10-20 20-30 > 30 Total Divisi HRD Produksi Finance L P L P L P 35 30 25 20 15 10 5 0 HRD PRODUKSI FINANCE L P Total 20 10