DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

dokumen-dokumen yang mirip
Materi 4 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

2. Data & Proses Datamining

DATA PREPROCESSING. Budi Susanto (versi 1.2)

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BASIS DATA. Pertemuan 1. 3 SKS Semester 4 S1 Sistem Informasi Nizar Rabbi Radliya

PERANCANGAN BASIS DATA

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

PERTEMUAN 14 DATA WAREHOUSE

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB III SIMULASI PENGGUNAAN PERTIDAKSAMAAN PADA DISTRIBUSI

DATA MINING. Pertemuan 1. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

3.1 Metode Pengumpulan Data

( ) ( ) (3) II-1 ( ) ( )

SISTEM BASIS DATA. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 2 S1 Sistem Informasi

S T A T I S T I K A. Pertemuan ke-2

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

MODUL MATA KULIAH DATA MINING (MIK 620 SESI 10) DISUSUN OLEH. NOVIANDI, M.Kom NIDN

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

STATISTIKA INDUSTRI I. Agustina Eunike, ST., MT., MBA.

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Materi 1 PERANCANGAN BASIS DATA (PBD) 3 SKS Semester 5 S1 Sistem Informasi UNIKOM 2014 Nizar Rabbi Radliya

SISTEM BASIS DATA. Pertemuan 4. 3 SKS Semester 2 S1 Sistem Informasi Nizar Rabbi Radliya

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

Materi 1 BASIS DATA 3 SKS Semester 4 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Pertemuan 8 UKURAN PENYEBARAN. A. Ukuran Penyebaran untuk Data yang tidak Dikelompokkan. Terdapat empat ukuran penyebaran absolut yang utama, yaitu:

TATAP MUKA IV UKURAN PENYIMPANGAN SKEWNESS DAN KURTOSIS. Fitri Yulianti, SP. MSi.

DATA MINING. Pertemuan 2. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

UKURAN PENYEBARAN DATA

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

BAB II TINJAUAN PUSTAKA

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

BAB 2 TINJAUAN PUSTAKA

PE DAHULUA. Latar Belakang

BAB III METODOLOGI PENELITIAN

Materi 1 SISTEM BASIS DATA 3 SKS Semester 2 S1 Sistem Informasi UNIKOM 2017 Nizar Rabbi Radliya

STK 211 Metode statistika. Agus Mohamad Soleh

Data Preprocessing. oleh: Entin Martiana

DISPERSI DATA. - Jangkauan (Range) - Simpangan/deviasi Rata-rata (Mean Deviation) - Variansi (Variance) - Standar Deviasi (Standart Deviation)

Materi 3 BASIS DATA 3 SKS Semester 4 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

a. Prosesor yang digunakan adalah Intel Core i3 1.9 Ghz b. RAM dengan ukuran 2GB c. Harddisk dengan ukuran 500GB d. Layar monitor 14.

Klasifikasi & Prediksi

BAB II TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

Metode Penelitian Kuantitatif Aswad Analisis Deskriptif

BAB I PENDAHULUAN. secara manual dari suatu kumpulan data. Defenisi lain data mining adalah sebagai

Statistika Deskriptif

BAB 2 LANDASAN TEORI

Gambar Tahap-Tahap Penelitian

BAB II TINJAUAN PUSTAKA

Statistik Deskriptif. Statistik Farmasi 2015

PENGUKURAN DESKRIPTIF

Pertemuan 3 Perbaikan Citra pada Domain Spasial (1) Anny Yuniarti, S.Kom, M.Comp.Sc

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

STATISTIKA DESKRIPTIF

BAB III METODOLOGI PENELITIAN

STATISTIK PERTEMUAN VII

BAB 2 TINJAUAN PUSTAKA

STMIK AMIKOM PURWOKERTO PENGOLAHAN CITRA ABDUL AZIS, M.KOM

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Pemodelan Pembagian Kelompok Tugas Besar Strategi Algoritma dengan Masalah Sum of Subset

BAB I PENDAHULUAN. 1.1 Latar Belakang

Seleksi Atribut Menggunakan Information Gain Untuk Clustering Penduduk Miskin Dengan Validity Index Xie Beni

PENDAHULUAN. Latar Belakang

REVIEW BIOSTATISTIK DESKRIPTIF

Penggunaan Pohon Keputusan untuk Data Mining

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

Peningkatan Kualitas Citra. Domain Spasial

Bab III Studi Kasus III.1 Decline Rate

BAB III METODE PENELITIAN. Pendekatan yang digunakan dalam menyelesaikan masalah penelitian ini

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

BAB 3 LANDASAN TEORI

BAB 4 ANALISIS DAN HASIL PENELITIAN. Penggunaan analisis statistik deskriptif untuk memberikan gambaran data yang akan

Sekip Utara Yogyakarta * 1 2

Statistika Farmasi

STK 211 Metode statistika. Materi 2 Statistika Deskriptif

KLASIFIKASI SISWA UNTUK MENINGKATKAN NILAI RATA-RATA KELAS MENGGUNAKAN METODE DATA MINING

ALAT UJI STATISTIK. Endang Sri Utami, S.E., M.Si., Ak., CA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

BAB 2 TINJAUAN PUSTAKA

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

Review QUIZ ( 10 menit )

BAB III METODE PENELITIAN. ini dilaksanakan dari bulan Agustus Oktober 2016.

BUKU RANCANGAN PENGAJARAN

Metode Statistika (STK211)

Transkripsi:

DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 4 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015

Pre-Processing Agregasi (aggregation) Penarikan contoh (sampling) Diskretisasi dan binerisasi (discretization and binarization) Pemilihan fitur (feature subset selection) Transformasi atribut (attribute transformation)

Agregasi (aggregation) Proses mengkombinasikan dua atau lebih objek ke dalam sebuah objek tunggal; Sangat berguna ketika pada set data ada sejumlah nilai dalam satu fitur yang sebenarnya satu kelompok; Tidak akan menyimpang dari deskripsi fitur tersebut jika nilainya digabungkan. Agregasi yang dapat dilakukan adalah sum (jumlah), average (rata-rata), min (terkecil), max (terbesar).

Agregasi (aggregation)

Agregasi (aggregation) Beberapa alasan melakukan agregasi: Set data yang lebih kecil akan membutuhkan memori penyimpanan yang lebih sedikit (pengurangan data atau perubahan skala). Waktu pemrosesan dalam algoritma data mining menjadi lebih cepat. Agregasi bertindak untuk mengubah cara pandang terhadap data dari level rendah menjadi level tinggi. Perilaku pengelompokan objek atau atribut sering kali lebih stabil dari pada objek individu itu sendiri (lebih sedikit variasinya).

Penarikan contoh (sampling) Sampel data akan bekerja hampir sama dengan seluruh data jika sample tersebut mampu mewakili (representatif) seluruh data. Sample disebut representatif jika diperkirakan mempunyai sifat yang sama dengan seluruh data, biasanya diukur dengan rata-rata (mean) pada sample dan data asli.

Diskretisasi dan binerisasi (discretization and binarization) Transformasi data dari tipe kontinu dan diskret ke atribut biner disebut binerisasi (binarization). Transformasi data dari atribut kontinu ke atribut kategoris disebut diskretisasi (discretization).

Binerisasi (binarization) M macam nilai kategoris, masing-masing diberikan nilai yang unik dengan nilai integer dalam jangkauan [0,M-1] Jumlah bit yang dibutuhkan untuk binerisasi adalah N= log 2 (M)

Diskretisasi (discretization) Pertama, memutuskan berapa jumlah kategori yang harus digunakan. Kedua, menentukan bagaimana memetakan nilai-nilai dari atribut kontinyu ke nilai kategori. Contoh nilai yang ada pada tabel 4 diubah menjadi atribut katarogikal dengan nilai: rendah, sedang tinggi. Pendekatan equal width: Range data [60-220] Rendah: range [60-113] Rendah: range [114-167] Rendah: range [168-220]

Pemilihan fitur (feature subset selection) Dalam memilih fitur perlu diperhatikan fitur-fitur yang memiliki duplikasi informasi yang tergantung dalam satu dan lebih atribut lain. Selain itu fitur-fitur yang tidak relevan yaitu fitur-fitur yang tidak mengandung informasi berguna untuk tugas data mining secara langsung. Sebagai contoh NIM setiap mahasiswa sering tidak relevan untuk memprediksi IPK mahasiswa.

Transformasi atribut (attribute transformation) Sebagain fungsi dari transformasi atribut adalah standarisasi dan normalisasi. Tujuan dari standarisasi dan normalisasi adalah untuk membuat keseluruhan nilai mempunyai suatu sifat khusus.

Transformasi atribut (attribute transformation) Salah satu contoh transformasi standarisasi adalah dengan: 1. Hitung nilai tengah dengan median; 2. Hidung absolute standard deviation dengan persamaan. Rumus persamaan yang akan digunakan: σ A = m i=1 x i μ x = (x μ) σ A

Transformasi atribut (attribute transformation) Sebagai contoh lakukan standarisasi dari data set berikut x = {2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}. Dari data tersebut dihitung median = μ=(1.9+2)/2=1.95.

Transformasi atribut (attribute transformation) Transformasi atribut menggunakan normalisasi menggunakan pendekatan linear, yang pertama kita terlebih dahulu menghitung rata-rata (persamaan 1) dan varian (persamaan 2) dengan rumus: x k = 1 N i=1 N x ik (persamaan 1) σ k 2 = 1 N 1 i=1 N (x ik x k ) (persamaan 2) Data hasil normalisasi dapat dihitung menggunakan cara pertama dengan persamaan berikut: x ik = x ik x k σ k (persamaan 3) Hasil normalisasi dengan cara persamaan 3 didapatkan fitur yang mempunyai sifat zero-mean dan unit variance.

Transformasi atribut (attribute transformation) Sebagai contoh ada data X = {x 1, x 2, x 3, x 4, x 5 } T, dimana untuk x 1 = {0, 2, 1}, x 2 = {1, 7, 1}, x 3 = {2, 6, 3}, x 4 = {5, 1, 4}, x 5 = {3, 3, 4}. Jangkauan nilai untuk fitur pertama adalah [0,5], fitur kedua [1,7], fitur ketiga [1,4]. Masing-masing fitur memiliki jangkauan yang tidak sama.

Transformasi atribut (attribute transformation)

Transformasi atribut (attribute transformation)

Transformasi atribut (attribute transformation) Teknik linear yang lain adalah dengan menskalakan jangkauan setiap fitur dalam jangkauan [0,1]: x ik = x ik min(x k ) max x k min(x k )

Transformasi atribut (attribute transformation) Teknik linear yang lain adalah dengan menskalakan jangkauan setiap fitur dalam jangkauan [-1,1] : x ik = 2x ik (max x k +min(x k )) max x k min(x k )

Materi Minggu Ke 5 Klasifikasi 1. Konsep klasifikasi 2. Klasifikasi berbasis decision tree 3. Pembahasan algoritma

DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015