Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

dokumen-dokumen yang mirip
Tahapan Proses KDD (Peter Cabena)

Business Objective Determination (#1)

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

PERTEMUAN 14 DATA WAREHOUSE

BAB 1 PENDAHULUAN Latar Belakang

PERTEMUAN 13 ARSITEKTUR & MODEL DATA MINING

BAB 2 LANDASAN TEORI

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 TINJAUAN PUSTAKA

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

Student Clustering Based on Academic Using K-Means Algoritms

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 2 LANDASAN TEORI

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

3.1 Metode Pengumpulan Data

BAB I PENDAHULUAN. bersaing. Dalam dunia bisnis yang dinamis dan penuh persaingan. Seiring dengan

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

BAB II TINJAUAN PUSTAKA

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

Data Preprocessing. oleh: Entin Martiana

ARSITEKTUR & MODEL DATA MINING

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

II. TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

DATA PREPROCESSING. Budi Susanto (versi 1.2)

BAB II LANDASAN TEORI

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

Link Analysis (Superset) 3 Kategori Link Analysis (#1) 3 Kategori Link Analysis (#2) Association Rule Mining. 3 Kategori Link Analysis (#3)

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

BAB 3 METODE PENELITIAN

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

BAB II TINJAUAN PUSTAKA

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

DATA MINING. Pertemuan 2. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Investasi merupakan penanaman sejumlah dana dalam bentuk uang

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB 2 TINJAUAN PUSTAKA

PERTEMUAN 1 & 2 PENDAHULUAN DAN PROSES KDD. 28 September 2005 Pendahuluan dan Proses KDD 1

BAB 1 PENDAHULUAN Latar Belakang. Pertumbuhan pasar swalayan dewasa ini telah meningkat dengan pesat di

2.2 Data Mining. Universitas Sumatera Utara

PENERAPAN METODE APRIORI ASOSIASI TERHADAP PENJUALAN PRODUCT COSMETIC UNTUK MENDUKUNG STRATEGI PENJUALAN

PENERAPAN DATA MINING UNTUK MEMPREDIKSI KRITERIA NASABAH KREDIT

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

CONTOH KASUS DATA MINING

PE DAHULUA. Latar Belakang

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

INTRODUCTION OF DATA WAREHOUSE. Presented by HANIM M.A M. IRWAN AFANDI.

Kerusakan Barang Jadi

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

PROPOSAL PENELITIAN. PENERAPAN DATA MINING UNTUK MENINGKATKAN PENJUALAN PADA PT. XL AXIATA, Tbk PALEMBANG

IN086 - Temu Pengetahuan

PENERAPAN DATA MINING SEBAGAI MODEL SELEKSI PENERIMA BEASISWA PENUH (STUDI KASUS: STIE PERBANAS SURABAYA)

PENERAPAN METODE ASOSIASI GSP DAN APRIORI UNTUK STOK DAN REKOMENDASI PRODUK

2. Data & Proses Datamining

Sistem Basis Data Lanjut DATA MINING. Data Mining 1/12

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

BAB II TINJAUAN STUDI DAN LANDASAN TEORI

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

Pen e g n a g n a t n a t r a r D at a a t a M ini n ng n oleh: Entin Martiana

PRODI S1 STATISTIKA FMIPA-ITS RENCANA PEMBELAJARAN Data Mining Kode/SKS: SS / (2/1/0) Dosen : SWP, KF Semester : VII

JURNAL PREDIKSI PRESTASI SISWA SEKOLAH DASAR MENGGUNAKAN ALGORITMA CART PREDICTION ELEMENTARY SCHOOL STUDENT ACHIEVEMENT USING CART ALGORITHM

Penerapan Data Mining Association Rule Menggunakan Algoritma Apriori Untuk Meningkatkan Penjualan dan Memberikan Rekomendasi Pemasaran Produk Speedy

Data Warehouse dan Data Minig. by: Ahmad Syauqi Ahsan

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN

BAB I PENDAHULUAN Latar Belakang

Gambar Tahap-Tahap Penelitian

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

BAB II TINJAUAN PUSTAKA

PENDAHULUAN. Latar Belakang

BAB 1 PENGERTIAN DATA MINING DAN FUNGSI-FUNGSI DATA MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI

E-Journal Teknik Informatika Vol.8, No.1, April 2016

Transkripsi:

Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #2 Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis ( Determination) Persiapan Data (Data Preparation) Data Selection Data Preprocessing Data Transformation Data Mining Analysis of Results Assimilation of Knowledge 12 August 2004 Gunawan, Teknik Informatika STTS 2 Determination (#1) Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining. (Oleh beberapa peneliti KDD lainnya -- bahkan yang terkenal -- tahapan ini cenderung diabaikan! dan jarang disebut) Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here is the data, please mine it.". Tetapi jika mining dilakukan dan pengetahuan diperoleh, bagaimana dapat diketahui bahwa solusi tersebut benar-benar dibutuhkan? 12 August 2004 Gunawan, Teknik Informatika STTS 3 Determination (#2) Contoh sasaran bisnis: Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan Nopember, Desember dan Januari yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya. 12 August 2004 Gunawan, Teknik Informatika STTS 4 Determination (#3) Pertanyaan kuncinya: Rumah mana yang akan dikirimi surat supaya usaha ini berhasil? 12 August 2004 Gunawan, Teknik Informatika STTS 5 Determination (#4) Dampak pada keseluruhan proses KDD: Data Selection: dipilih customers yang membeli produk soft drink 200 ml dalam kotak alumunium di Jawa Tengah dan Jawa Timur. Data Transformation: customers yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%,..., 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining. 12 August 2004 Gunawan, Teknik Informatika STTS 6 1

Data Preparation (#1) Mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya: agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat. Data Preparation (#2) Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD. Menurut Cabena: Secara berurutan untuk 5 fase Cabena membutuhkan: 20% (fase 1) + 60% (fase 2)+ 10% (fase 3) + 10% (untuk kedua fase 4 dan 5). 12 August 2004 Gunawan, Teknik Informatika STTS 7 12 August 2004 Gunawan, Teknik Informatika STTS 8 Data Preparation (#3) Data Preparation (#4) Data Selection Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining. 12 August 2004 Gunawan, Teknik Informatika STTS 9 12 August 2004 Gunawan, Teknik Informatika STTS 10 Data Preparation (#5) Data Preprocessing Meyakinkan kualitas dari data yang telah dipilih pada tahapan sebelumnya. 2 issue yang paling sering dihadapkan pada tahap ini: Noisy Data Missing Values Data Preparation (#6) Data Transformation (#1) Mengubah data ke dalam model analitis. Memodelkan data agar sesuai dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma data mining. 12 August 2004 Gunawan, Teknik Informatika STTS 11 12 August 2004 Gunawan, Teknik Informatika STTS 12 2

Data Preparation (#7) Data Preparation (#8) Data Transformation (#2) Perlu diperhatikan terlebih dahulu 2 tipe utama data yang digunakan: Categorical: semua nilai yang mungkin ada, bersifat terbatas nominal: tanpa urutan, seperti status perkawinan (single, kawin, duda/janda, unknown) atau jenis kelamin (laki-laki, perempuan) ordinal: dengan urutan, seperti rating loyalitas customer (sangat baik, baik, cukup, kurang atau vulnerable atau mudah dirusak loyalitasnya). 12 August 2004 Gunawan, Teknik Informatika STTS 13 Data Transformation (#3) Quantitative: semua nilai yang mungkin dapat diukur perbedaannya continuous (nilai-nilai bilangan real): gaji bulanan, rata-rata transaksi dalam satu periode waktu (bulan, kuartal atau tahun). discrete (nilai-nilai bilangan bulat): seperti jumlah pegawai, jumlah transaksi dalam satu periode waktu. 12 August 2004 Gunawan, Teknik Informatika STTS 14 Data Preparation (#9) Data Mining (#1) Data Transformation (#4) Contoh Discretization: Pendapatan sampai Rp. 500.000,-- dikodekan 1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya. Normalization: Jika proses data mining menggunakan ANN, karena sebagian besar ANN hanya menerima input dalam range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka parameter continuous yang di luar range tersebut harus dinormalisasi. Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya. Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink : IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli dalam lebih dari 58% sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal. 12 August 2004 Gunawan, Teknik Informatika STTS 15 12 August 2004 Gunawan, Teknik Informatika STTS 16 Data Mining (#2) Analysis of Results Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink : IF seorang consumer cenderung lebih banyak membeli soft drink merk "X" THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. IF lebih dari 11% sejarah pembelian soft drink seorang consumer dilakukan pada sebuah gudang rabat / pusat grosir THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. IF dihitung secara rata-rata seorang consumer ternyata membeli lebih dari 345,67ml setiap kali belanja AND dengan harga ratarata soft drink per 100ml >= Rp. 550,-- THEN consumer tersebut diprediksi Loyal. Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns. Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi. 12 August 2004 Gunawan, Teknik Informatika STTS 17 12 August 2004 Gunawan, Teknik Informatika STTS 18 3

Assimilation of Knowledge Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan. Tahapan Proses KDD (Daniel L. Silver) Data Consolidation (and Cleansing). Data Selection and Preprocessing. Data Mining. Interpretation and Evaluation. 12 August 2004 Gunawan, Teknik Informatika STTS 19 12 August 2004 Gunawan, Teknik Informatika STTS 20 Data Consolidation (and Cleansing) Filosofi: Garbage In Garbage Out Menyita 50%-70% upaya dari keseluruhan proses KDD. Termasuk di dalamnya adalah "remove outlier". Data consolidation menunjuk pada proses data warehousing, termasuk pemilihan warehouse repository (OLTP database, ORDBMS, Multidimensional DBMS/Data Cube, Deductive Database, flat files yang compatible pada berbagai DM tools). 12 August 2004 Gunawan, Teknik Informatika STTS 21 Data Selection and Preprocessing OLAP dan visualization tools memegang peranan penting. transformation data yang disebut penulis lain pada tahap ini, khususnya pada pengurangan dimensionality. Encoding data ke format yang dikenali DM tools. 12 August 2004 Gunawan, Teknik Informatika STTS 22 Data Mining Metode DM yang dipakai dibagi menjadi 3 kategori: Automated Exploration / Discovery: Clustering misalnya, dapat dipakai untuk mendapatkan segmentasi pasar baru dari suatu produk. Prediction / Classification: Belajar suatu model predictive. ANN, GA, Regression dapat dipakai untuk peramalan nilai penjualan. Explaination / Description: Fungsi menjelaskan atau mendeskripsikan. Induksi Decision Tree dan Ekstraksi Rule dapat digunakan untuk menjelaskan perilaku customer berdasar demographic dan sejarah pembeliannya. 12 August 2004 Gunawan, Teknik Informatika STTS 23 Interpretation and Evaluation Evaluasi: dilakukan secara validasi statistik dan pengujian signifikan-nya; dilakukan review secara kualitatif hasil mining oleh pakar di bidangnya. Interpretasi: Decision tree dan rule dapat dibaca langsung; Clustering harus digambarkan dan ditabelkan. Pemakaian visualization tools: analisis sensitif; histogram untuk distribusi nilai; animasi dan plotting time-series. 12 August 2004 Gunawan, Teknik Informatika STTS 24 4

Weihan) #1 Data cleaning Data integration Data selection Data transformation Data mining Pattern Evaluation Knowledge Presentation Weihan) #2 Data Cleaning: menghilangkan noise dan data yang inkonsisten. Data Integration: menggabungkan berbagai macam sumber data. Data Selection: memilih data yang relevan (dari database) dengan "analysis task". "analysis task" = Determination (Cabena). 12 August 2004 Gunawan, Teknik Informatika STTS 25 12 August 2004 Gunawan, Teknik Informatika STTS 26 Weihan) #3 Data Transformation: transformasi atau konsolidasi data ke dalam bentuk yang lebih baik untuk mining, dengan mewujudkan operasioperasi summary dan aggregation (misal: daily data ---> monthly ---> quarterly ---> annual). khususnya pada beberapa kasus data warehousing, data transformation dilakukan sebelum data selection. Data Mining: mengekstrak patterns dari data dengan menerapkan "intelligent methods". 12 August 2004 Gunawan, Teknik Informatika STTS 27 Weihan) #4 Pattern Evaluation: mengidentifikasi sejumlah pola yang sungguh-sungguh menarik dan bakal menjadi pengetahuan berdasarkan sejumlah pengukuran ketertarikan (interestingness measures) seperti rule support dan rule confidence untuk rule extraction. Knowledge Presentation: penggunaan teknikteknik visualisasi dan representasi untuk menyajikan pengetahuan yang telah diperoleh kepada user. 12 August 2004 Gunawan, Teknik Informatika STTS 28 5