Pertemuan 8, 9, 10. Teknik-teknik Data Mining

dokumen-dokumen yang mirip
CLUSTER DATABASE. Clustering

Kisi2 UTS Konsep Data Mining 2010

BAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut :

SIE/nts/TIUAJMks 9/26/2013

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tugas. Data Warehouse. OLAP, Operasi OLAP, dan Jenis Rolap

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

ANALISIS CLUSTER PADA DOKUMEN TEKS

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

ANALISIS CLUSTER PADA DOKUMEN TEKS

Data Warehouse dan Data Minig. by: Ahmad Syauqi Ahsan

TUGAS DATA WAREHOUSE & DATA MINING OLAP, OPERASI OLAP & MOLAP

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

FAST berarti sistem ditargetkan untuk memberikan response terhadap user dengan secepat mungkin, sesuai dengan analisis yang dilakukan.

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

Data Warehouse, Data Mart, OLAP, dan Data Mining CHAPTER 6

BAB 2 LANDASAN TEORI

Sistem Penunjang Keputusan, Pertemuan Ke-9 KECERDASAN BISNIS Data Warehouse, Data Mart, OLAP, dan Data Mining

Database dan DBMS DBMS adalah perangkat lunak sistem yang memungkinkan para pemakai membuat, memelihara, mengontrol, dan mengakses basis data dengan

Data Warehouse Data warehouse adalah basis data yang menyimpan data sekarang dan data masa lalu yang berasal dari berbagai sistem operasional dan

BAB 2 TINJAUAN PUSTAKA. menggunakan teknik statistik, matematika, kecerdasan buatan, tiruan dan machinelearning

PERTEMUAN 13 ARSITEKTUR & MODEL DATA MINING

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Data Warehouse, Data Mart, OLAP, dan Data Mining. arifin, sistem informasi - udinus 1

BAB II LANDASAN TEORI

Objek Pembelajaran. Objek Pembelajaran. Pertemuan 2 Klasifikasi Sistem Informasi

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BASIS DATA MODEL BASIS DATA

SUMBER DAYA-SUMBER DAYA SISTEM INFORMASI (BAGIAN 1) PSI Materi III Sesi 6

Manajemen Data. Dosen : Dr. Yan Rianto Rini Wijayanti, M.Kom Nama : Yoga Prihastomo NIM :

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

METODOLOGI PENELITIAN

BAB 2 LANDASAN TEORI

Bab 2 Tinjauan Pustaka

Konsep Sistem Informasi. Dari BITS sampai Database

SI402 Arsitektur Enterprise Pertemuan #5 Suryo Widiantoro, ST, MMSI, M.Com(IS)

DATABASE TERDISTRIBUSI

Foundation of Bussiness Inteligence : Database and Information Management. Ayu Mentari Tania Rizqy Amalia Nisa Tri Lestari Oktarina Yurika Anggesty

MATERI : OLAP DAN ANALISIS DATA MULTIDIMENSIONAL

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB 2 LANDASAN TEORI. Pengenalan suara (voice recognition) dibagi menjadi dua jenis, yaitu

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB 1 PENDAHULUAN 1-1

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

dengan Algoritma K Means

6/26/2011. Menurut W.H. Inmon dan Richard D.H. Menurut Vidette Poe

2/22/2017 IDE DASAR PENGANTAR SISTEM PAKAR MODEL SISTEM PAKAR APLIKASI KECERDASAN BUATAN

2. Data & Proses Datamining

BAB 1 PENDAHULUAN Latar Belakang


BAB 3 PERANCANGAN DAN PEMBUATAN SISTEM

Contoh Distributed Database

BAB III TEORI DASAR SISTEM PAKAR DAN SISTEM KONTROL BERBASIS SISTEM PAKAR 20 BAB III TEORI DASAR SISTEM PAKAR DAN SISTEM KONTROL BERBASIS SISTEM PAKAR

6/26/2011. Database Terdistribusi. Database Terdesentralisasi

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

PENDAHULUAN TINJAUAN PUSTAKA

DATA MINING DAN WAREHOUSE A N D R I

Analisis Model dan Simulasi. Hanna Lestari, M.Eng

BAB 2 KONSEP DASAR PENGENAL OBJEK

Partitional clustering KLASTERING DENGAN METODE K-MEANS


DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP)

6/26/2011. Kebutuhan perusahaan untuk mengimplementasikan BI cukup besar. BI dengan data analysis toolnya merupakan

DATA PREPROCESSING. Budi Susanto (versi 1.2)

BAB 2 LANDASAN TEORI

Neural Network dan Implementasinya Dalam Data Mining. Rudolf Rudi Hermanto. Institut Teknologi Bandung.

وإذ تا ذن لي ني ن ربكم شكرتم لا زیدنكم ولي ن إنن كفرتم عذابي لشدید Dan (ingatlah juga), tatkala Tuhanmu memaklumkan: "Sesungguhnya jika kamu bersyukur

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

Macam-macam Sistem Informasi

BAB 2 LANDASAN TEORI. fuzzy logic dengan aplikasi neuro computing. Masing-masing memiliki cara dan proses

Jurnal Format Volume 6 Nomor 2 Tahun 2017 :: ISSN :

BAB II LANDASAN TEORI

ARSITEKTUR SISTEM. Alif Finandhita, S.Kom, M.T. Alif Finandhita, S.Kom, M.T 1

BAB II NEURAL NETWORK (NN)

BAB II KAJIAN PUSTAKA

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN Latar Belakang

Neural Network (NN) Keuntungan penggunaan Neural Network : , terdapat tiga jenis neural network Proses Pembelajaran pada Neural Network

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 LANDASAN TEORI

PERTEMUAN 14 DATA WAREHOUSE

OBJEK PEMBELAJARAN OBJEK PEMBELAJARAN. Pertemuan 1 Konsep Dasar ERP. Gambaran Umum ERP. Definisi Sistem Informasi Klasifikasi Sistem Informasi

II. TINJAUAN PUSTAKA

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

Jaringan syaraf dengan lapisan tunggal

DECISION SUPPORT SYSTEMS COMPONENTS

Rekayasa Perangkat Lunak

BAB II DASAR TEORI Jaringan Syaraf Tiruan. Universitas Sumatera Utara

Architecture Net, Simple Neural Net

C R M. Customer Relationship Management

PENDAHULUAN TINJAUAN PUSTAKA

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

: ENDRO HASSRIE NIM : MATKUL : REKAYASA PERANGKAT LUNAK PEMODELAN DATA

System Testing Pengujian terhadap integrasi sub-system, yaitu keterhubungan antar sub-system.

Transkripsi:

Pertemuan 8, 9, 10 Teknik-teknik Data Mining

Outline Teknik-teknik data mining terdiri dari : Analisis cluster Induksi (pohon keputusan dan aturan induksi) Jaringan syaraf buatan (Neural Network) Online Analytical Processing (OLAP) Visualisasi data 28 September 2005 Teknik-teknik Data Mining 2

Analisis Cluster Dalam lingkungan unsupervised learning, sistem harus mendapatkan klas2nya sendiri dan ini dilakukan dengan mengcluster data dalam database seperti tergambar pada gambar 1. Langkah pertama adalah dengan mendapatkan subset2 dari objek2 yang terhubung, kemudian mencari deskripsinya cth, D1, D2, D3, dst., yang menggambarkan masing2 subset. Gambar 1. Perolehan cluster dan deskripsi pada database 28 September 2005 Teknik-teknik Data Mining 3

Analisis Cluster (Lanjutan) Clustering dan segmentasi sebenarnya mempartisi database, karena itu setiap partisi atau group adalah sama menurut kriteria atau metrik tertentu. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah teknik untuk membentuk cluster. Kebanyakan aplikasi2 data mining menggunakan clusteing menurut similarity (kesamaan), contohnya segmentasi basis klien. Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada analisis data, misalnya ketika mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah parameter. Contoh aplikasi : Perangkat stand-alone : explore data distribution Langkah preprocessing untuk algoritma lain Pengenalan pola, analisis data spasial, pengenalan citra, market research, WWW, clustering dokumen2 clustering data log web untuk mendapatkan group dengan pola akses yang sama 28 September 2005 Teknik-teknik Data Mining 4

Apa itu Clustering? Penggelompokkan data ke cluster2 Data yang sama satu sama lain berada pada cluster yang sama Yang tidak sama berada pada cluster lain Unsupervised learning : klas2 yang belum ditentukan Outliers Cluster 2 Cluster 1 Gambar 2. Clustering 28 September 2005 Teknik-teknik Data Mining 5

Clustering Yang Baik Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah Bergantung pada pengukuran kesamaan Kemampuan untuk memdapatkan beberapa atau semua pola yang tersembunyi 28 September 2005 Teknik-teknik Data Mining 6

Kebutuhan Clustering Scalability Kemampuan mengerjakan atribut2 dari berbagai tipe Penemuan clusters dengan bentuk yang tidak tentu Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input Dapat menerima noise dan outlier Tidak mengindahkan susunan record dari input Dimensi yang tinggi Menyatu dengan batasan yang dispesifikasikan oleh user Interpretability and usability 28 September 2005 Teknik-teknik Data Mining 7

Tipe-tipe Data pada Clustering Variabel2 berskala interval Variabel biner Variabel nominal, ordinal dan rasio Variable2 dari berbagai tipe variabel 28 September 2005 Teknik-teknik Data Mining 8

Algoritma Partisi Kategori Pendekatan Clustering Mempartisi objek2 ke dalam k cluster Realokasi objek2 secara iteratif untuk memperbaiki clustering Algoritma Hirarkis Agglomerative: setiap objek merupakan cluster, gabungan dari cluster2 membentuk cluster yang besar Divisive: semua objek berada dalam suatu cluster, pembagian cluster tsb membentuk cluster2 yang kecil Metode berbasis densitas Berbasis koneksitas dan fungsi densitas Noise disaring, kemudian temukan cluster2 dalam bentuk sembarang Metode berbasis grid Kuantisasi ruang objek ke dalam struktur grid Berbasis Model Gunakan model untuk menemukan keadaan data yang baik 28 September 2005 Teknik-teknik Data Mining 9

Algoritma Partisi : Konsep Dasar Partisi n objek ke dalam k cluster Optimasi kriteria partisi yang dipilih Global optimal: dicoba semua partisi (k n -(k-1) n - -1) partisi yang mungkin Metode heuristik : k-means dan k-medoids K-means: cluster direpresentasikan oleh pusat K-medoids or PAM (partition around medoids): setiap cluster direpresentasikan oleh salah satu objek pada cluster 28 September 2005 Teknik-teknik Data Mining 10

K-means Pilih k objek sembarang sebagai inisial pusat cluster Sampai tidak ada perubahan, kerjakan Tunjukkan setiap objek pada cluster dimana objeknya hampir sama, berdasarkan nilai tengah dari objek2 pada cluster Update the cluster means, i.e., calculate the mean value of the objects for each cluster 28 September 2005 Teknik-teknik Data Mining 11

Gambar 3. Contoh : K-Means 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Assign each objects to most similar center 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 reassign Update the cluster means 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 reassign K=2 Arbitrarily choose K object as initial cluster center 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Update the cluster means 0 0 1 2 3 4 5 6 7 8 9 10 28 September 2005 Teknik-teknik Data Mining 12 10 9 8 7 6 5 4 3 2 1

Induksi Induksi merupakan salah satu teknik inferensi informasi pada database. Ada dua teknik inferensi yakni Induksi merupakan teknik inferensi informasi yang digeneralisasi dari database, contohnya setiap pegawai mempunyai manajer. Deduksi merupakan teknik inferensi informasi dari konsekuensi logis informasi pada database, contohnya operasi join pada dua tabel; dimana yang pertama mengenai pegawai dan departemen sedangkan yang kedua mengenai departemen dan manajer, menghasilkan relasi antara pegawai dan manajer. 28 September 2005 Teknik-teknik Data Mining 13

Pohon Keputusan Pohon keputusan merupakan representasi pengetahuan yang simpel. Pohon keputusan ini mengklasifikasikan contoh2 pada klas2 dengan angka finit, node diberi nama atribut, edge di beri nilai atribut sedangkan leave diberi nama klas. Objek2 diklasifikasikan dengan struktur pohon, dengan menggunakan dahan2nya sebagai nilai atribut dari objek. Gambar berikut mengenai keadaan cuaca. Objek2 berisikan informasi mengenai suasana cuaca, kelembaban dll. Beberapa objek merupakan contoh positif dinotasikan dengan P sedangkan yang lain negatif atau N. 28 September 2005 Teknik-teknik Data Mining 14

Gambar 4. Struktur Pohon Keputusan 28 September 2005 Teknik-teknik Data Mining 15

Induksi Aturan Sistem data mining harus dapat menyimpulkan suatu model dari database dimana model ini mendefinisikan klas2 seperti halnya database yang terdiri atas satu atau lebih atribut yang menunjukkan klas dari tupel. Klas dapat didefinisikan oleh kondisi atribut. Aturan produksi dipergunakan untuk merepresentasikan pengetahuan sistem pakar dan keuntungannya mudah diinterpretasikan oleh kepakaran manusia dikarenakan modularitas yakni aturan yang tunggal dapat dipahami dengan sendirinya dan tidak perlu referensi aturan lain. 28 September 2005 Teknik-teknik Data Mining 16

Jaringan Syaraf Buatan Merupakan pendekatan perhitungan yang melibatkan pengembangan struktur secara matematis dengan kemampuan untuk belajar. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya. Jaringan syaraf buatan yang terlatih dapat dianggap sebagai pakar dalam kategori informasi yang akan dianalisis. Pakar ini dapat digunakan untuk memproyeksi situasi baru dari ketertarikan dan jawaban dari pertanyaan what if 28 September 2005 Teknik-teknik Data Mining 17

Jaringan Syaraf Buatan (Lanjutan) Dikarenakan jaringan syaraf buatan adalah terbaik dalam mengidentifikasikan pola atau tren dalam data, maka cocok pula digunakan untuk kebutuhan memprediksi antara lain: Prediksi penjualan Pengontrolan proses industri Riset Pelanggan Validasi data Manajemen resiko Pemasaran target dll 28 September 2005 Teknik-teknik Data Mining 18

Jaringan Syaraf Buatan (Lanjutan) Jaringan ini menggunakan sekumpulan elemen2 pemrosesan (node) analog pada syaraf otak manusia. Elemen2 pemrosesan ini terhubung dalam jaringan dimana dapat mengidentifikasikan pola2 dalam data sewaktu dipertunjukkan pada data, artinya jaringan belajar dari pengalaman seperti halnya manusia. Pada gambar 5, layer bawah adalah lapisan input dengan x1 x5. Layer tengah disebut juga layer tersembunyi dengan sejumlah variabel node. Layer atas merupakan layer output dengan node z1 z2 yang diperoleh dari input yang dicobakan. Contoh, prediksi penjualan (output) berdasarkan penjualan lama, harga dan cuaca (input). 28 September 2005 Teknik-teknik Data Mining 19

Gambar 5. Struktur Jaringan Syaraf Buatan 28 September 2005 Teknik-teknik Data Mining 20

Jaringan Syaraf Buatan (Lanjutan) Setiap node yang ada pada layer tersembunyi, secara keseluruhan terhubung dengan input, berarti setiap yg dipelajari didasarkan pada semua input yg diambil bersamaan. Hal ini terlihat pada gambar 6. Pada gambar 7. dijelaskan mengenai jaringan syaraf buatan The Clementine User Guide untuk mengidentifikasikan resiko kanker dari berbagai faktor input. 28 September 2005 Teknik-teknik Data Mining 21

Gambar 6. Di dalam Node 28 September 2005 Teknik-teknik Data Mining 22

Gambar 7. Jaringan Syaraf Buatan The Clementine User Guide 28 September 2005 Teknik-teknik Data Mining 23

OLAP (On-line Analytical Processing) Definisi Menurut E.F. Codd OLAP atau On line Analytical Processing merupakan salah satu aplikasi database untuk memproses database yang sangat besar dengan data yang kompleks. OLAP didefinisikan oleh E.F. Codd (1993) sebagai sintesis dinamik, analisis dan konsolidasi dari data multidimensional yang sangat besar. Aturan atau kebutuhan dari sistem OLAP : - View konseptual multidimensional - Penanganan dynamic sparse matrix - Transparansi - Pendukung multi-user - Aksesibilitas - Operasi unrestricted cross dimensional - Kinerja reporting yang konsisten - Manipulasi data intuitif - Arsitektur client/server - Reporting yang fleksibel - Dimensionalitas generik - Level agregasi dan dimensi yang tidak terbatas 28 September 2005 Teknik-teknik Data Mining 24

Definisi OLAP Menurut Nigel Pendse OLAP didefinisikan oleh Nigel Pendse sebagai Fast Analysis of Shared Multidimensional Information, artinya Fast dimana pemakai memperoleh respon dalam detik sehingga tidak terputus rantai pemikirannya Analysis dimana sistem menyediakan fungsi2 analisis dan lingkup intuitif dan fungsi2 ini dapat mensuplai logika bisnis dan analisis statistikal yang relevan dengan aplikasi user Shared dimana sistem mendukung user yang banyak secara konkurensi Multidimensional merupakan kebutuhan utama sehingga sistem mensuplai view konseptual multidimensional dari data termasuk pendukung untuk hirarki multiple Information merupakan data dan informasi yang diwariskan, dimana dibutuhkan oleh aplikasi user 28 September 2005 Teknik-teknik Data Mining 25

Komponen OLAP Menurut Kirk Cruikshank Kirk Cruikshank dari Arbor Software mengidentifikasikan ada 3 komponen OLAP : Database multidimensional harus dapat mengekspresikan kalkulasi bisnis yang kompleks dengan mudah. Data harus bereferensi dan didefinisikan matematis Navigasi intuitatif dalam penyusunan data roam around yang mana membutuhkan hirarki mining Respons instan, yang artinya kebutuhan untuk memberi user informasi secepat mungkin 28 September 2005 Teknik-teknik Data Mining 26

Contoh OLAP Contoh database OLAP misalnya data penjualan yang dikumpulkan dari region, tipe produk dan cabang penjualan. Queri OLAP harus mengakses database penjualan yang lebih dari satu tahun dan multi-gigabyte untuk menemukan penjualan produk di setiap region per-tipe produk. Queri OLAP dapat dikarakterisasikan sebagai transaksi online yang Mengakses data dalam jumlah besar, mis: data penjualan beberapa tahun Menganalisis relationship antara tipe elemen bisnis mis: penjualan, wilayah, produk dan cabang Melibatkan data yang terkumpul mis: volume penjualan, dollar yang dianggarkan dan dollar yang dihabiskan 28 September 2005 Teknik-teknik Data Mining 27

Contoh OLAP (lanjutan) Menyajikan data dalam berbagai perspektif, mis: penjualan berdasarkan wilayah vs penjualan berdasarkan cabang dari produk dalam setiap wilayah Membandingkan data yang terkumpul dalam periode waktu secara hirarki, mis: bulanan, tahunan Melibatkan kalkulasi kompleks antara elemen data, mis: keuntungan yang diharapkan sebagai fungsi dari pendapatan penjualan untuk setiap tipe dari cabang penjualan dalam suatu wilayah tertentu. Dapat merespon permohonan user secara cepat sehingga user dapat mengikuti proses pemikiran yang analitik tanpa masuk pada sistem 28 September 2005 Teknik-teknik Data Mining 28

Visualisasi Data Visualisasi data memungkinkan si analis menperoleh pemahaman yang dalam dan lebih intuitif mengenai data dan dapat bekerja sebaik mungkin pada data mining. Data mining memperbolehkan si analis memfokuskan pola2 dan trend2 tertentu dan menjelajahi ke dalam menggunakan visualisasi. 28 September 2005 Teknik-teknik Data Mining 29

Selesai 28 September 2005 Teknik-teknik Data Mining 30