Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

dokumen-dokumen yang mirip
ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS

DATA MINING DAN WAREHOUSE A N D R I

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

BAB II LANDASAN TEORI

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

Clustering. Virginia Postrel

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB I PENDAHULUAN. 1.1 Latar Belakang

JULIO ADISANTOSO - ILKOM IPB 1

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI

Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) ISSN: Yogyakarta, Maret 2016

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

BAB I PENDAHULUAN. 1.1 Latar Belakang

STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract

Algoritma Dasar. 4.1 Naive Bayes

PENDAHULUAN TINJAUAN PUSTAKA

Bab 2 Tinjauan Pustaka

Pengenalan Pola. K-Means Clustering

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB II LANDASAN TEORI

dengan Algoritma K Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

Pengenalan Pola. Klasterisasi Data

BAB II TINJAUAN PUSTAKA

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

TEKNOSI, Vol. 02, No. 03, Desember Koko Handoko Universitas Putera Batam (cooresponding author)

Review : Definisi Clustering. Metode untuk menemukan kelompok pada data berdasarkan kriteria tertentu.

Pertemuan 8, 9, 10. Teknik-teknik Data Mining

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB II LANDASAN TEORI

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

PENDAHULUAN. 1.1 Latar Belakang

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 3 LANDASAN TEORI

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

CLUSTERING DATA NON-NUMERIK DENGAN PENDEKATAN ALGORITMA K-MEANS DAN HAMMING DISTANCE STUDI KASUS BIRO JODOH

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

II TINJAUAN PUSTAKA. 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM.

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB 2 LANDASAN TEORI. 2.1 Data Mining BAB 2 - LANDASAN TEORI. Aplikasi dan analisis..., Andina Budiarti, FASILKOM UI, 2006

IMPLEMENTASI ALGORITMA K-MEANS CLUSTERING UNTUK MENENTUKAN PENJURUSAN KELAS IPA, IPS, DAN SASTRA

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

Belajar Mudah Algoritma Data Mining : C4.5

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

Partitional clustering KLASTERING DENGAN METODE K-MEANS

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA

Bag of Words Clustering Using Weka

BAB II LANDASAN TEORI

DATA PREPROCESSING. Budi Susanto (versi 1.2)

Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

BAB II LANDASAN TEORI

Kluster Bag-of-Word Menggunakan Weka

BAB I PENDAHULUAN I-1

UKDW BAB I PENDAHULUAN

SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA

BAB II LANDASAN TEORI

BAB II KAJIAN PUSTAKA

BAB III K-MEDIANS CLUSTERING

BAB II LANDASAN TEORI

K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

ISSN : e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 2182

BAB II LANDASAN TEORI

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS

BAB I PENDAHULUAN 1.1. Latar Belakang

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

JURNAL KLASIFIKASI JENIS TANAMAN MANGGA BERDASARKAN TULANG DAUN MENGGUNAKAN METODE K-MEANS

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku

BAB 2 LANDASAN TEORI

ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK

Jumlah persentase ini tidak harus persis seperti diatas tetapi bisa bervariasi tergantung di perusahaan mana metode ini diterapkan.

ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING

BAB I PENDAHULUAN Latar Belakang

Data Mining. Clustering. Oleh : Suprayogi

BAB 2 TINJAUAN PUSTAKA

BAB II 2. DASAR TEORI

BAB 6 ANALISIS CLUSTER

BAB 2 TINJAUAN PUSTAKA

KLASTERING DOKUMEN MENGGUNAKAN HIERARCHICAL AGGLOMERATIVE CLUSTERING

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

Pengelompokan Data dengan Metode...(Luh Joni Erawati Dewi)

KLASTERING DATA MENGGUNAKAN ALGORITMA DYNAMIC K-MEANS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

Transkripsi:

Analisis Cluster

Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.

Analisis Cluster Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola. Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.

Tipe Clustering Partitional Clustering Pembagian objek data ke dalam non-overlapping subset (cluster) sehingga setiap objek data adalah tepat satu subset Hirerarchical Clustering Sehimpunan cluster bersarang yang diorganisasikan sebagai struktur hirarki pohon.

Tipe Cluster Well-separated clusters Center-based clusters Density-based clusters

Well-separated Sebuah cluster adalah sehimpunan titik yang memiliki kemiripan dengan titik lain dalam cluster daripada di cluster lain.

Center-based Sebuah cluster yang memiliki anggota-anggota yang mirip dengan pusat cluster daripada pusat cluster lain. Pusat cluster Centroid: Rata-rata dari semua titik dalam cluster Medoid: memilih titik sebagi titik tengah.

Density-based Sebuah cluster adalah area padat titik, yang dipisahkan dengan area kepadatan rendah, dari area kepadatan tinggi lainnya. Digunakan ketika cluster tidak teratur atau saling terkait, dan ketika noise dan outliers hadir.

Komponen representasi pola (termasuk ekstraksi sifat/ciri dan atau pemilihan), definisi ukuran kedekatan pola sesuai dengan domain data, clustering atau pengelompokan, jika diperlukan, abstraksi data (proses ekstraksi untuk deksripsi cluster), jika diperlukan, penilaian terhadap hasil (menggunakan metode pengukuran dan pengujian terhadap hasil clustering apakah valid atau tidak).

Tahapan Clustering Kedekatan pola biasanya diukur dengan fungsi jarak antar dua pasang pola. cosine similarity, manhattan distance, dan euclidean distance.

Tahapan Clustering Representasi pola (pattern representation) merupakan jumlah kelas, jumlah pola yang ada, jumlah, tipe dan skala ciri/sifat yang tersedia untuk algoritma clustering. Pemilihan ciri/sifat (feature selection) adalah proses identifikasi ciri/sifat yang lebih efektif untuk digunakan dalam algoritma clustering, sedangkan ekstraksi ciri/sifat adalah pemakaian satu atau lebih transformasi dari ciri/sifat yang ada sebelumnya untuk mendapatkan ciri/sifat yang lebih menonjol.

Tahapan Clustering Kedekatan pola biasanya diukur dengan fungsi jarak antar dua pasang pola. Pengukuran jarak yang sederhana, seperti Euclidean distance, Minkowski, Hamming distance, sering digunakan untuk menyatakan ketidaksamaan antara dua pola Sedangkan pengukuran kesamaan lain, seperti Simple Matching Coefficient, Jaccard Coefficient, Cosine Similarity, dapat digunakan untuk menunjukkan kesamaan karakter antar pola-pola.

k-means Partitional clustering Setiap cluster terasosiasi dengan sebuah centroid Setiap titip dinyatakan ke suatu cluster yang paling dekat dengan centroidnya. Jumlah cluster, K, dinyatakan di awal

K-Means

Contoh K-Means Kelompokkan dataset berikut ke dalam 3 kelompok dengan k-means (2 epoch saja): A1=(2,10) A2=(2,5) A3=(8,4) A4=(5,8) A5=(7,5) A6=(6,4) A7=(1,2) A8=(4,9)

Keterbatasan K-Means K-Mean bermasalah ketika cluster-cluster berbeda Ukuran Kepadatan Tidak berbentuk bola K-Mean bermasalah ketika data berisi outlier

K-Medoid Seperti metode partisi clustering yang lainnya, metode k- medoid juga digunakan untuk pengelompokkan dokumen. Dalam metode k-medoid ini setiap cluster dipresentasikan dari sebuah objek di dalam cluster yang disebut dengan medoid. Tujuannya adalah menemukan kelompok k-cluster (jumlah cluster) diantara semua objek data di dalam sebuah kelompok data. Clusternya dibangun dari hasil mencocokkan setiap objek data yang paling dekat dengan cluster yang dianggap sebagai medoid sementara.

K-Medoids 1.pilih point k sebagai inisial centroid / nilai tengah (medoids) sebanyak k cluster. 2.cari semua point yang paling dekat dengan medoid, dengan cara menghitung jarak vector antar dokumen. (menggunakan Euclidian distance) 3.secara random, pilih point yang bukan medoid. 4.hitung total distance 5.if TD baru < TD awal, tukar posisi medoid dengan medoids baru, jadilah medoid yang baru. 6.ulangi langkah 2-5 sampai medoid tidak berubah.

Contoh K-Medoids

K=2, c1(3,4); c2(7,4) c1 Data objects (Xi) Cost (distance) 3 4 2 6 3 4 3 8 3 4 4 7 3 4 6 2 3 4 6 4 3 4 7 3 3 4 8 5 3 4 7 6 c2 Data objects (Xi) Cost (distance) 7 4 2 6 7 4 3 8 7 4 4 7 7 4 6 2 7 4 6 4 7 4 7 3 7 4 8 5 7 4 7 6

Nearest Neighbor clustering Sebuah titik membentuk cluster baru atau bergabung dengan salah satu cluster yang sudah ada bergantung pada seberapa dekat titik tersebut dengan cluster. Sebuah treshold, t, untuk menentukan bergabung atau membuat cluster baru.

Nearest Neighbor clustering

Latihan NN Kelompokkan dataset berikut ke dalam 3 kelompok dengan NN clustering (2 epoch saja): A1=(2,10) A2=(2,5) A3=(8,4) A4=(5,8) A5=(7,5) A6=(6,4) A7=(1,2) A8=(4,9)

Hierarchical Clustering Membentuk beberapa himpunan cluster Jumlah cluster tidak dimasukkan di awal Struktur hirarki cluster dapat dipresentasikan sebagai dendrogram. Daun berisi 1 item. Setiap item masuk dalam satu cluster Root mewakili semua item Internal node menyatakan cluster yang dibentuk oleh penggabungan cluster anak. Setiap level diasosiasikan dengan suatu treshold jarak yang digunakan untuk menggabungkan cluster Jika jarak antar 2 cluster lebih kecil dari treshold, maka digabungkan. Jarak akan bertambah sesuai dengan level.

Hierarchical Clustering Menggunakan matrik jarak sebagai kriteria clustering. Metode ini tidak memerlukan jumlah cluster, K, sebagai inputan, namun butuh kondisi terminasi.

Single Link dan Complete Link Single Link 2 cluster digabungkan jika hanya 2 titiknya berdekatan. Complete Link Jarak antar 2 cluster adalah jarak terbesar antar sebuah elemen dalam satu cluster dan sebuah elemen di cluster lain.

Contoh: AGNES

Single Link: AGNES

Complete Link: AGNES