Data Warehouse & Data Mining STMIK GLOBAL
Tanpa Data Warehouse Dengan Data Warehouse
Multiple Report tanpa/ dengan Data Warehouse
teknologi yang ada di data warehouse dan OLAP (On-Line Analytical Processing) dimanfaatkan penuh untuk melakukan data mining
Data Warehouse Definisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis guna mendukung DSS (Decision Suport System) dan EIS (Expert Information System). Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa. Salinan dari transaksi data yang terstruktur spesifik untuk query dan laporan Tujuan : Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.
4 Karakteristik Data Warehouse 1. Subject Oriented Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support. Database yang semua informasi yang tersimpan di kelompokkan berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb. Semua Informasi tersebut disimpan dalam suatu sistem data warehouse. Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : dalam periode waktu, info produk, info wilayah, dsb, sehingga dapat memberikan nilai sejarah sebagai bahan analisa. 2. Integrated Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya.
3. Time variant Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, Data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui. 4. Non-volatile Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat
Perbedaan Data Warehouse & Database Data Warehouse Tidak terikat suatu aplikasi Data terpusat Historical Denormalisasi kecil Multiple subject Sumber dari dari semua internal maupun eksternal source Fleksibel Data oriented Umurnya panjang Ukuran besar Single complex structure Database Aplikasi DSS secara spesifik Tidak terpusat oleh user area Sebagian historical Denormalisasi besar Satu subject Sumber dari sebagian internal maupun eksternal source Tidak fleksibel, terbatas Project oriented Umurnya pendek Ukuran dari kecil menjadi besar Multi complex structure
Langkah penerapan Data Warehouse
Proses pada Data Warehouse
Data Warehouse & Operasional DBMS OLTP (on-line transaction processing) Tugas utama DBMS relasional tradisional Operasional Harian : pembelian, persediaan, perbankan, manufaktur, penggajian, pendaftaran, akuntansi, dll OLAP (on-line analytical processing) Tugas utama dari sistem data warehouse Analisis data dan pengambilan keputusan Fitur yang berbeda (OLTP vs OLAP): Orientasi User dan system orientation: customer vs. market Data contents: saat ini, detail vs. Histori, konsolidasi Database design: ER + application vs. star + subject View: saat ini, lokal vs. evolutionary, integrated Pola Akses: update vs. read-only tetapi complex queries
Data Warehouse & Operasional DBMS OLTP OLAP users clerk, IT professional knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date detailed, flat relational isolated usage repetitive ad-hoc access read/write lots of scans index/hash on prim. key unit of work short, simple transaction complex query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB historical, summarized, multidimensional integrated, consolidated metric transaction throughput query throughput, response
Konsep Model Data Warehouse 1. Skema bintang: Sebuah tabel fakta di tengah terhubung ke satu set tabel dimensi 2. Skema Snowflake : Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalisasi menjadi satu set tabel dimensi yang lebih kecil, membentuk bentuk mirip dengan kepingan salju 3. Fakta konstelasi: Beberapa fakta tabel dibagi menjadi dimensi tabel, dipandang sebagai kumpulan bintang, karena itu disebut Skema Galaxy atau fakta konstelasi
time time_key day day_of_the_week month quarter year Example of Star Schema branch branch_key branch_name branch_type Measures Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_street country
time time_key day day_of_the_week month quarter year branch Example of Snowflake Schema branch_key branch_name branch_type Measures Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_key location location_key street city_key supplier supplier_key supplier_type city city_key city province_or_street country
Example of Fact Constellation time time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key branch_key item item_key item_name brand type supplier_type Shipping Fact Table time_key item_key shipper_key from_location branch branch_key branch_name branch_type Measures location_key units_sold dollars_sold avg_sales location location_key street city province_or_street country to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type
Data Mining Query Language, DMQL: Language Primitives Cube Definition (Fact Table) define cube <cube_name> [<dimension_list>]: <measure_list> Dimension Definition ( Dimension Table ) define dimension <dimension_name> as (<attribute_or_subdimension_list>) Special Case (Shared Dimension Tables) First time as cube definition define dimension <dimension_name> as <dimension_name_first_time> in cube <cube_name_first_time>
Defining a Star Schema in DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country)
Defining a Snowflake Schema in DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country))
Defining a Fact Constellation in DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales
3 Kategori Pengukuran Distributif: jika hasil yang diperoleh dengan menerapkan fungsi untuk nilai keseluruhan n adalah sama dengan yang diperoleh dengan menerapkan fungsi pada semua data tanpa partisi. Misalnya, count (), jumlah (), min (), max (). Aljabar: jika dapat dihitung dengan fungsi aljabar dengan argumen M (di mana M adalah bilangan bulat dibatasi), yang masing-masing diperoleh dengan menerapkan fungsi agregat distributif. Misalnya, avg (), min_n (), deviasi_standar (). Holistik: jika tidak ada konstan terikat pada ukuran penyimpanan yang dibutuhkan untuk menggambarkan sub sebuah kumpulan Misalnya, median (), mode (), tank ().
Konsep Hirarki: Dimension (location) all all region Europe... North_America country Germany... Spain Canada... Mexico city Frankfurt... Vancouver... Toronto office L. Chan... M. Wind
View of Warehouses and Hierarchies Specification of hierarchies Schema hierarchy day < {month < quarter; week} < year Set_grouping hierarchy {1..10} < inexpensive
Product Multidimensional Data Sales volume as a function of product, month, and region Dimensions: Product, Location, Time Hierarchical summarization paths Industry Region Year Category Country Quarter Product City Month Week Office Day Month
Country Contoh Data Cube TV PC VCR sum Date 1Qtr 2Qtr 3Qtr 4Qtr sum Total annual sales of TV in U.S.A. U.S.A Canada Mexico sum
Cuboids Corresponding to the Cube all product date country product,date product,country date, country 0-D(apex) cuboid 1-D cuboids 2-D cuboids product, date, country 3-D(base) cuboid
Browsing a Data Cube Visualization OLAP capabilities Interactive manipulation
A Star-Net Query Model Shipping Method AIR-EXPRESS Customer Orders CONTRACTS Customer Time TRUCK ANNUALY QTRLY DAILY CITY COUNTRY ORDER PRODUCT LINE Product PRODUCT ITEM PRODUCT GROUP SALES PERSON DISTRICT REGION Location Each circle is called a footprint Promotion DIVISION Organization