Pengenalan Pola. Klasterisasi Data

dokumen-dokumen yang mirip
Data Mining. Metode Klasterisasi K-Means

BAB 2 LANDASAN TEORI

Clustering. Virginia Postrel

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

ANALISIS CLUSTER PADA DOKUMEN TEKS

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

BAB 2 LANDASAN TEORI

DATA MINING DAN WAREHOUSE A N D R I

BAB 2 TINJAUAN PUSTAKA

ANALISIS CLUSTER PADA DOKUMEN TEKS

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

Pengenalan Pola. K-Means Clustering

PENDAHULUAN. 1.1 Latar Belakang

JULIO ADISANTOSO - ILKOM IPB 1

BAB III DIVISIVE ANALISIS. Pada bab ini akan dipaparkan bagaimana konsep dari divisive analisis serta

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

UKDW BAB I PENDAHULUAN

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN Latar Belakang

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN A. Latar Belakang

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Jumlah persentase ini tidak harus persis seperti diatas tetapi bisa bervariasi tergantung di perusahaan mana metode ini diterapkan.

STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract

Partitional clustering KLASTERING DENGAN METODE K-MEANS

Fakultas Teknologi Informasi Universitas Kristen Maranatha

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB II LANDASAN TEORI

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

BAB II TINJAUAN PUSTAKA. menggunakan PCA, kemudian penelitian yang menggunakan algoritma Fuzzy C-

BAB II LANDASAN TEORI

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB I PENDAHULUAN. 1.1 Latar Belakang

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Pengenalan Pola. Hierarchical Clustering

BAB 1 PENDAHULUAN 1.1. Latar Belakang

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

ANALISIS PENGELOMPOKAN JUMLAH PENUMPANG BUS TRANS JOGJA MENGGUNAKAN METODE CLUSTERING K-MEANS DAN AGGLOMERATIVE HIERARCHICAL CLUSTERING (AHC)

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

Prototype-Based Fuzzy Clustering melalui Algoritma FCM pada Pengklasteran Kabupaten-Kabupaten di Jawa Timur berdasarkan Karakteristik Perempuan

ANALISIS PEUBAH GANDA ANALISIS GEROMBOL HAZMIRA YOZZA JURUSAN MATEMATIKA UNAND LOGO


Gambar 3.1 Contoh Citra yang digunakan

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB 2 TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

BAB II TINJAUAN PUSTAKA

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

Tidak ada tepat satu teori untuk menyelesaikan problem pengenalan pola Terdapat model standar yang dapat dijadikan teori acuan

BAB I PENDAHULUAN Latar Belakang

Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering

Algoritma Dasar. 4.1 Naive Bayes

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA

Penggerombolan Sekolah Menengah Atas Berdasarkan Nilai Ujian Nasional Di Kota Manado

BAB II KAJIAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

ALGORITMA ATURAN ASOSIASI APRIORI-TID DENGAN METODE KLASTERISASI HIERARKI AGLOMERATIF. Tri Khairul I.A 1 ABSTRAK

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB 2 TINJAUAN PUSTAKA

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

Penggunaan Analisis Two Step Clustering untuk Data Campuran. Two Step Clustering Analysis for Combination Data

Principal Component Analysis

PENGELOMPOKAN CITRA KUPU-KUPU MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING

BAB II TINJAUAN PUSTAKA

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Penerapan Algoritma Fuzzy C-Means untuk Pengelompokan Kabupaten/Kota di Jawa Tengah Berdasarkan Status Kesejahteraan Tahun 2015

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

DAFTAR ISI. ABSTRAKSI... i. ABSTRACT... ii. KATA PENGANTAR... iii. DAFTAR ISI... v. DAFTAR TABEL... vii. DAFTAR GAMBAR... xiii BAB I PENDAHULUAN...

BAB III METODE PENELITIAN. Alasan memilih Ciputra Taman Dayu Pandaan dikarenakan Ciputra Taman Dayu

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

PERANCANGAN APLIKASI MENENTUKAN BERAT BADAN IDEAL DENGAN MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING

BAB II 2. DASAR TEORI

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

ANALISIS GEROMBOL CLUSTER ANALYSIS

Transkripsi:

Pengenalan Pola Klasterisasi Data PTIIK - 2014

Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi

Konsep Dasar Klusterisasi Data, atau Data Clustering (atau Clustering), juga disebut sebagai analisis klaster, analisis segmentasi, analisis taxonomi, atau unsupervised classification Metode yang digunakan untuk membangun grup dari objek-objek, atau klaster-klaster, dimana objek-objek dalam satu kluster tertentu memiliki kesamaan ciri yang tinggi dan objek-objek pada kluster yang berbeda memiliki kesamaan ciri yang rendah

Konsep Dasar Tujuan dari klasterisasi data adalah mengelompokkan data yang memiliki kesamaan ciri dan memisahkan data ke dalam klaster yang berbeda untuk objek-objek yang memiliki ciri yang berbeda Berbeda dengan klasifikasi, yang memiliki klas yang telah didefinisikan sebelumnya. Dalam klasterisasi, klaster akan terbentuk sendiri berdasarkan ciri objek yang dimiliki dan kriteria pengelompokan yang telah ditentukan.

Konsep Dasar Untuk menunjukkan klasterisasi dari sekumpulan data, suatu kriteria pengelompokan haruslah ditentukan sebelumnya. Perbedaan kriteria pengelompokan akan memberikan dampak perbedaan klaster juga

Contoh Dua klaster dengan kriteria How mammals bear their progeny Blue shark, sheep, cat, dog Lizard, sparrow, viper, seagull, gold fish, frog, red mullet Dua klaster dengan kriteria Existence of lungs Gold fish, red mullet, blue shark Sheep, sparrow, dog, cat, seagull, lizard, frog, viper

Tahapan Klasterisasi 1. Feature Selection Penentuan informasi fitur yang digunakan 2. Proximity Measure Tahap kuantifikasi item kemiripan data 3. Clustering Criterion Penentuan fungsi pembobotan / tipe aturan 4. Clustering Algorithm Metode klaster berdasarkan ukuran kemiripan data dan kriteria klasterisasi 5. Validation of the Result 6. Interpretation of the Result

Proximity Measure Kemiripan data memiliki peranan yang sangat penting dalam proses analisis klaster Pada berbagai literatur tentang clustering, ukuran kemiripan (similarity measures), koefisien kemiripan (similarity coefficients), ukuran ketidakmiripan (dissimilarity measures), atau jarak (distances) digunakan untuk mendeskripsikan nilai kuantitatif dari kemiripan atau ketidakmiripan dari dua titik atau dua klaster

Proximity Measure Koefisien kemiripan data mengindikasikan kekuatan hubungan antar dua data Semakin banyak kemiripan satu sama lain, semakin besar koefisien kesamaan Misal x = (x 1,x 2,...,x d ) dan y = (y 1,y 2,...,y d ) dua data titik pada d-dimensi. Koefisien kemiripan data antara x dan y merupakan fungsi jarak dari nilai atribut-atribut nya

Proximity Measure Pemilihan jarak pada aplikasi clustering adalah sangat penting, dan pilihan yang terbaik sering diperoleh melalui pengalaman, kemampuan, pengetahuan, dan keberuntungan. Pengukuran Data Numerik - Euclidean Distance - Minkowski Distance - Manhattan Distance - Mahalanobis Distance - Maximum Distance - Average Distance Kategorikal - Simple Matching Distance

Euclidean Distance Euclidean distance merupakan pengukuran jarak yang paling umum digunakan pada data numerik. Untuk dua data titik x dan y dalam d-ruang dimensi, Euclidean distance antara titik tersebut didefinisikan sebagai berikut : dimana x j dan y j masing-masing adalah nilai dari atribut ke-j dari x dan y

Manhattan Distance Manhattan distance disebut juga sebagai city block distance merupakan jumlah jarak dari semua attribute. Untuk dua data titik x dan y dalam d-ruang dimensi, Manhattan distance antara titik tersebut didefinisikan sebagai berikut :

Maximum Distance Maximum distance disebut juga sebagai sup distance. Didefinisikan sebagai nilai maximum dari jarak atribut-atribut nya Untuk dua data titik x dan y dalam d-ruang dimensi, Maximum distance antara titik tersebut didefinisikan sebagai berikut :

Minkowski Distance Euclidean distance, Manhattan distance, dan maximum distance merupakan tiga kasus khusus dari Minkowski distance yang didefinisikan sebagai berikut : r disebut sebagai order dari Minkowski distance. Jika r = 2, 1, and, maka formulasi jarak tersebut masingmasing adalah Euclidean distance, Manhattan distance, and maximum distance

Mahalanobis Distance Mahalanobis distance dapat mengurangi distorsi (penyimpangan) jarak yang disebabkan oleh kombinasi linier dari atribut. Mahalanobis distance didefinisikan sebagai berikut: dimana adalah matriks covariance dari data. Oleh sebab itu, jarak ini mengaplikasikan skema bobot terhadap data

Average Distance Dua titik data dalam Euclidean distance tanpa nilai attribute biasanya memiliki jarak lebih kecil daripada pasangan data yang mengandung nilai. Pada kasus tersebut, average distance dikembangkan untuk mengatasinya Average distance merupakan hasil modifikasi dari Euclidean distance

Simple Matching Distance Misal x and y dua nilai data kategorikal. Maka simple matching distance antara x dan y didefiniskan oleh: Misal x dan y dua objek data kategorikal dideskripsikan oleh d atribut kategorikal. Maka pengukuran kemiripan antara x dan y menggunakan simple matching distance didefiniskan oleh:

Clustering Algorithm Clustering Algorithm Sequential Hierarchical Hard Clustering Agglomerative (bottom-up) Fuzzy Clustering Divisive (top-down) Possibilistic Clustering Combinations

Clustering Algorithm Sequential: merupakan single clustering. One or few sequential passes on the data. Hierarchical: merupakan sekuen dari nested clusterings. Hard clustering: setiap titik data merupakan anggota dari satu klaster secara eksklusif Fuzzy clustering: setiap titik data merupakan anggota lebih dari satu klaster secara simultan Possibilistic clustering: klasterisasi yang didasarkan pada possibility suatu titik data terhadap klaster

Hard Clustering Algorithm Hard Clustering Basic hard clustering algorithms (e.g., k-means) k-medoids algorithms Mixture decomposition Branch and bound Simulated annealing Deterministic annealing Boundary detection Mode seeking Genetic clustering algorithms

Fuzzy Clustering Algorithm Fuzzy Clustering Fuzzy k-means Fuzzy k-modes Fuzzy c-means

Hierarchical Clustering Algorithm Agglomerative Hierarchical Graph method Single-link method Complete-link method Group average method Weighted group average method Geometric method Ward s method Centroid method Median method Divisive Hierarchical kebalikan dari agglomerative

afif.supianto@ub.ac.id 081 331 834 734 / 088 160 127 40