Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika Knowledge Discovery in Databases (KDD)
Knowledge Discovery in Databases (KDD) Definisi Knowledge Discovery in Database (KDD) Tahapan Proses KDD Data Pre-Pocessing Data Reduction Pengantar On-Line Analytical Processing Data Warehouse Data Mart
Definisi Knowledge Discovery in Database (KDD) Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan dapat bermanfaat dan dapat dimengerti. KDD berhubungan dengan teknik integrasi, interpretasi dan visualisasi dari pola-pola sejumlah kumpulan data.
Tahapan Proses KDD
1. Data Selection Tahapan Proses KDD Menciptakan himpunan data target, pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. Hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional.
Tahapan Proses KDD 2. Pre-processing / Cleaning Pre-processing dan cleaning data merupakan operasi dasar yang dilakukan seperti penghapusan noise. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data
3. Transformation Tahapan Proses KDD Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining. Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data Data bisa diperkaya dengan data atau informasi ekternal yang relevan
4. Data mining Tahapan Proses KDD Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD misalnya karakterisasi, klasifikasi, regresi, clustering, asosiasi, dll. Pemilihan teknik, metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
Tahapan Proses KDD 5. Interpretation/ Evaluation Yaitu penerjemahan pola-pola yang dihasilkan dari data mining. Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti Tahap ini melakukan pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Data Pre-processing Beberapa alat dan metode yang digunakan seperti : Sampling : menyeleksi subset representatif dari populasi data yang besar. Transformation : memanipulasi data mentah untuk menghasilkan input tunggal. Denoising : menghilangkan noise dari data Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik Feature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu.
Data Reduction Data reduction merupakan teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, counting, summing dan averaging data. Data reduction dilakukan untuk mengatasi ukuran data yang terlalu besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan.
OLAP (On-Line Analytical Processing) OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis kompleks dalam rangka mengungkapkan kecenderungan pasar dan faktor-faktor penting dalam bisnis Kemampuan OLAP yaitu bisa menaikkan atau menurunkan dimensi data sehingga kita dapat menggali data sampai detail dan memperoleh pandangan yang luas mengenai objek yang sedang dianalisis.
OLAP (On-Line Analytical Processing) OLAP dapat digunakan membuat rangkuman baru dari multidimensi data yang berbeda, dan dapat merespon secara online, dan memberikan view dua dimensi pada data cube multidimensi secara interaktif.
Definisi Data Warehouse Data Warehouse Data Warehouse adalah pusat informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision Support System) dan EIS (Executive Information System).
Tujuan Data Warehouse Data Warehouse Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.
Kegunaan Data Warehouse Pembuatan Laporan Dapat menghasilkan laporan per periode Data Warehouse Menganalisis data (OLAP) Melakukan analisis bisnis untuk menyelidiki kecenderungan pasar dan faktor penyebabnya Data Mining Mencari pola dan hubungan data untuk mengambil keputusan Proses Informasi Eksekutif Mencari informasi kunci yang penting
Ciri-ciri Data Warehouse 1. Subject Oriented Data Warehouse Data disusun dan dikelompokkan berdasarkan subyek yang berisi hanya informasi yang penting bagi pemrosesan decision support. Subyek dirangkum ke dalam dimensi, misalnya : periode waktu, produk, wilayah, dsb,
2. Integrated Data Warehouse Ciri-ciri Data Warehouse (Lanjutan) Jika data terletak pada berbagai aplikasi yang terpisah,encoding data sering tidak seragam sehingga bila data dipindahkan ke data warehouse maka data akan diasumsikan sama
3. Time-variant Data Warehouse Ciri-ciri Data Warehouse (Lanjutan) Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih 4. Non volatile Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat dilihat.
Data Warehouse Arsitektur Data Warehouse Warehouse Manager Operational data source 1 L o a d Meta data Highly summarized data Q u e r y Reporting, query, application development and EIS tools Operational data source 2 Operational data source n M a n a g e r Lightly summarized data M a n a g e r OLAP Tools Detailed data DBMS Warehouse Manager Data Mining Tools Operational data source (ODS) End-user access tools Archive/backup data
Data Mart Definisi Data Mart Data Mart adalah subset dari data warehouse yang mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu. Data Mart adalah struktur data yang cakupannya lebih kecil dari data warehouse dimana data dibagi berdasarkan kebutuhan informasi setiap departemen.
Warehouse Manager Operational data source 1 Operational data source 2 Operational data source n L o a d M a n a g e r Meta data Lightly summarized data Highly summarized data Q u e r y M a n a g e r Reporting, query, application development and EIS tools OLAP Tools Detailed data DBMS Warehouse Manager Data Mining Tools Operational data source (ODS) End-user access tools Archive/backup data Arsitektur Data Mart Data Mart Reporting, query, application development and EIS tools Summarized Data (Relational Database) OLAP Tools Summarized Data (Multi Dimansional Database) Data Mining Tools
Data Warehouse / Data Mart VS OLAP OLAP adalah teknologi yang memproses data di dalam Data Warehouse / Data Mart dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query analisis yang kompleks
Data Warehouse / Data Mart VS OLTP Data Warehouse / Data Mart Menyimpan data historis Menyimpan detailed, lightly, highly, summary data Data bersifat statis Mengarah pada analisis Berorientasi pada subjek Mendukung keputusan strategi Pemakai manajerial dalam tingkat yang relatif rendah OLTP Menyimpan data saat ini Menyimpan detailed data Data bersifat dinamis Mengarah pada transaksi Berorientasi pada aplikasi Mendukung keputusan sehari-hari Pemakai operasional dalam jumlah yang besar
OLTP OLTP VS OLAP OLAP Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki Navigasi Didasarkan pada langkah kerja transaksi Didasarkan pada cara user menganalisis Penghitungan Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi saling silang, Perumusan, Prosedural Implementasi (Bonnet, http://www.diku.dk/) Lambat dalam penyebaran, dan mudah untuk diubah datanya Cepat dalam penyebaran, adan susah untuk diubah datanya
Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika Terima Kasih