Partitional clustering KLASTERING DENGAN METODE K-MEANS

dokumen-dokumen yang mirip
K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

PENGELOMPOKAN BIMBINGAN BELAJAR MENGGUNAKAN METODE CLUSTERING DI SMA NEGERI 1 CILAKU KABUPATEN CIANJUR

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB I PENDAHULUAN Latar Belakang

Pengenalan Pola. K-Means Clustering

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

ANALISIS CLUSTER PADA DOKUMEN TEKS

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

ANALISIS CLUSTER PADA DOKUMEN TEKS

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

PENERAPAN METODE ANT COLONY OPTIMIZATION PADA METODE K-HARMONIC MEANS UNTUK KLASTERISASI DATA HALAMAN JUDUL

BAB III K-MEDIANS CLUSTERING

IMPLEMENTASI ALGORITMA K-MEANS CLUSTERING UNTUK MENENTUKAN PENJURUSAN KELAS IPA, IPS, DAN SASTRA

PENGELOMPOKAN TINGKAT KELULUSAN MAHASISWA MENGGUNAKAN ALGORITMA K-MEANS

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Klasifikasi Penyakit Ginjal dengan Metode K-Means

dengan Algoritma K Means

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

Pengenalan Pola. Klasterisasi Data

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

ARTIKEL PENILAIAN PRESTASI KERJA PEGAWAI NEGERI SIPIL

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING PENENTUAN JURUSAN BAHASA MANDARIN GERMAN DAN PRANCIS

KLUSTER K-MEANS DATA MAHASISWA BARU TERHADAP PROGRAM STUDI YANG DIPILIH

Sistem Pendukung Keputusan Untuk Menentukan Program Keahlian di SMK Syubbanul Wathon Magelang

BAB I PENDAHULUAN 1.1. Latar Belakang

SISTEM PEMBAGIAN KELOMPOK BIMBINGAN BELAJAR DENGAN METODE K-MEANS CLUSTERING

TEKNOSI, Vol. 02, No. 03, Desember Koko Handoko Universitas Putera Batam (cooresponding author)

BAB 2 TINJAUAN PUSTAKA

Perbandingan Metode Single Linkage dan Fuzzy C Means Untuk Pengelompokkan Trafik Internet

BAB 1 PENDAHULUAN 1.1. Latar Belakang

ARTIKEL SISTEM PEMBAGIAN KELOMPOK BELAJAR SISWA MENGGUNAKAN METODE K-MEANS CLUSTERING DI SD NEGERI 1 NGEBONG KABUPATEN TULUNGAGUNG

ANALISIS PENGELOMPOKAN JUMLAH PENUMPANG BUS TRANS JOGJA MENGGUNAKAN METODE CLUSTERING K-MEANS DAN AGGLOMERATIVE HIERARCHICAL CLUSTERING (AHC)

Klasterisasi Wilayah Pemasaran berdasarkan Preferensi Konsumen terhadap PT. X

IMPLEMENTASI K-MEANS CLUSTERING UNTUK PEMBAGIAN KELAS SISWA

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

BAB 1 PENDAHULUAN Latar Belakang

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB III DIVISIVE ANALISIS. Pada bab ini akan dipaparkan bagaimana konsep dari divisive analisis serta

DATA MINING DAN WAREHOUSE A N D R I

ANALISA KINERJA DAN SIMULASI CLUSTERING PENYEBARAN NODE PADA WIRELESS SENSOR NETWORK MENGGUNAKAN ALGORITMA K-MEANS

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

PERANCANGAN KONFIGURASI JARINGAN DISTRIBUSI PRODUK BISKUIT MENGGUNAKAN METODE ALGORITMA GENETIKA (Studi Kasus: PT. EP)

The 6 th University Research Colloquium 2017 Universitas Muhammadiyah Magelang

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 4, Tahun 2015, Halaman Online di:

Optimasi K-Means untuk Clustering Kinerja Akademik Dosen Menggunakan Algoritme Genetika

JULIO ADISANTOSO - ILKOM IPB 1

Analisis Perbandingan Metode K-Means Dengan Improved Semi- Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

BAB 3 ANALISA SISTEM

BAB I PENDAHULUAN. 1.1 Latar Belakang

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

Jl. Raya Dukuhwaluh Purwokerto )

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

BAB I PENDAHULUAN Latar Belakang

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP

Review : Definisi Clustering. Metode untuk menemukan kelompok pada data berdasarkan kriteria tertentu.

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING

PENERAPAN METODE ANT COLONY OPTIMZATION PADA METODE K-HARMONIC MEANS UNTUK KLASTERISASI DATA

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

ANALISIS KLASTERING LIRIK LAGU INDONESIA

SISTEM MARKET BASKET UNTUK MENENTUKAN TATA LETAK PRODUK PADA SUATU SWALAYAN MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING SKRIPSI STEFFI ANDINA SEBAYANG

SISTEM REKOMENDASI KURIKULUM DENGAN METODE K-MEANS CLUSTERING

BAB I PENDAHULUAN. Perguruan tinggi yang baik dipengaruhi oleh kualitas. mahasiswa di dalamnya. Mahasiswa merupakan objek

LAPORAN SKRIPSI ALGORITMA K-MEANS UNTUK PENGELOMPOKAN KABUPATEN/KOTA DI INDONESIA BERDASARKAN INDIKATOR INDEKS PEMBANGUNAN MANUSIA.

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

Analisa Data Mahasiswa Baru Terhadap Program Studi Yang. Dipilih Di Universitas Pembangunan Nasional Veteran Jawa

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

OPTIMASI PUSAT KLASTER MENGGUNAKAN ALGORITMA FAST GENETIC KMEAN PADA DATA BERDISTRIBUSI NORMAL

Penggunaan Analisis Two Step Clustering untuk Data Campuran. Two Step Clustering Analysis for Combination Data

Penerapan Algoritma K-Means untuk Clustering

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

Pertemuan 8, 9, 10. Teknik-teknik Data Mining

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

KLUSTERING BERBASIS PROTOTIPE DENGAN METODE FUZZY C-MEANS

ANALISIS KELAYAKAN PEMBERIAN BEASISWA DI POLITEKNIK NEGERI BATAM DENGAN METODE CLUSTERING

DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA

PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION

IMPLEMENTASI DATA MINING UNTUK PENGELOMPOKKAN DATA SISWA MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (STUDI KASUS : SMKN 1 KEDIRI) SKRIPSI

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika (SESIOMADIKA) 2017 ISBN: Statistika, hal

BAB IV ANALISIS DAN PERANCANGAN

Optimasi Cluster Pada Fuzzy C-Means Menggunakan Algoritma Genetika Untuk Menentukan Nilai Akhir

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 2 LANDASAN TEORI

PERBANDINGAN METODE SIMPLEKS DENGAN ALGORITMA TITIK INTERIOR DALAM PENYELESAIAN MASALAH PROGRAM LINIER SKRIPSI AGUSTINA ANGGREINI SITORUS

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER

DETEKSI DATA PENCILAN MENGGUNAKAN K_MEANS CLUSTERING

Transkripsi:

Partitional clustering KLASTERING DENGAN METODE K-MEANS

PENDAHULUAN K-mean merupakan teknik klastering yang paling umum dan sederhana. Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok. Nilai k harus ditentukan terlebih dahulu (berbeda dengan hierarchical clustering). Ukuran ketidakmiripan masih tetap digunakan untuk mengelompokkan obyek yang ada.

ALGORITMA K-MEANS Secara ringkas algoritma K-means adalah sebagai berikut: 1. Pilih jumlah klaster k 2. Inisialisasi k pusat klaster 3. Tempatkan setiap data/obyek ke klaster terdekat 4. Perhitungan kembali pusat klaster 5. Ulangi langkah 3 dengan memakai pusat klaster yang baru. Jika pusat klaster tidak berubah lagi maka proses pengklasteran dihentikan.

PENENTUAN JUMLAH DAN PUSAT KLASTER Inisialisasi atau penentuan nilai awal pusat klaster dapat dilakukan dengan berbagai macam cara, antara lain: Pemberian nilai secara random Pengambilan sampel awal dari data Penentuan nilai awal hasil dari klaster hirarki dengan jumlah klaster yang sesuai dengan penentuan awal. Dalam hal ini biasanya user memiliki pertimbangan intuitif karena dia memiliki informasi awal tentang obyek yang sedang dipelajari, termasuk jumlah klaster yang paling tepat.

PENEMPATAN OBYEK KE DALAM KLASTER Penempatan obyek ke dalam klaster didasarkan pada kedekatannya dengan pusat klaster Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster yang telah ditentukan. Jarak paling dekat antara suatu data dengan pusat klaster tertentu merupakan hal penentu data tersebut akan masuk klaster yang mana.

PERHITUNGAN KEMBALI PUSAT KLASTER Pusat klaster ditentukan kembali dengan cara dihitung nilai rata-rata data/obyek dalam klaster tertentu. Jika dikehendaki dapat pula digunakan perhitungan median dari anggota klaster yang dimaksud Mean bukan satu-satunya ukuran yang bisa dipakai Pada kasus tertentu pemakaian median memberikan hasil yang lebih baik. Karena median tidak sensitif terhadap data outlier (data yang terletak jauh dari yang lain, meskipun dalam satu klaster - pencilan) Contoh: Mean dari 1, 3, 5, 7, 9 adalah 5 Mean dari 1, 3, 5, 7, 1009 adalah 205 Median dari 1, 3, 5, 7, 1009 adalah 5

KONVERGENSI ATAU TERMINASI Untuk mengentikan proses iterasi dalam mencari pengklasteran yang optimum, maka digunakan ratio perbandingan antara nilai kovarian antar klaster dan di dalam klaster: Dimana, m nilai pusat dari setiap cluster, p merepresentasikan setiap titik data Semakin besar nilai ratio, semakin tepat klaster yg terbentuk

CONTOH Data points untuk k-means Maka, dengan algoritma k-means: 1. Menanyakan user berapa jumlah klaster k (misal k=2) 2. Menentukan secara random untuk inisialisasi lokasi pusat klaster; m1=(1,1) dan m2=(2,1) 3. Untuk setiap record dicari nilai pusat klaster terdekat, dengan menghitung jarak tiap2 titik terhadap pusat klaster.

1 ST ITERATION Sehingga dengan kedekatannya mengindikasikan ke klaster mana

Expectation: increasing for the ratio

2 ND ITERATION 4. Mengupdate nilai titik pusat cluster -1& 2 dengan mean dari setiap klaster yg terbentuk: m1 =[(1+1+1)/3, (3+2+1)/3]= (1, 2) m2 =[(3+4+5+4+2)/5, (3+3+3+2+1)/5]=(3.6, 2.4) 5. Kemudian dihitung jarak tiap2 titik dengan pusat yg baru

HASIL PERHITUNGAN ITERASI KE 2 Catatan : untuk point h pada gambar masuk C2, semestinya masuk C1 Jadi anggota dari cluster 1 dan cluster 2 sekarang menjadi sama-sama 4 C 1

Sehingga diperoleh jumlah error kuadrat dari pusat klaster Dan ratio: Karena nilainya lbh besar dari sebelumnya, shg terjadi peningkatan

3 RD ITERATION Menemukan kembali lokasi pusat klaster dengan mengupdatenya dari mean: m1 =[(1+1+1+2)/4,(3+2+1+1)/4]=(1.25, 1.75) m2 =[(3+4+5+4)/4,(3+3+3+2)/4]=(4,2.75) Kemudian dicari jaraknya tiap2 titik terhadap titik pusat klaster yang baru

Karena nilainya lebih besar dari sebelumnya,maka dilakukan iterasi lagi

PENGHENTIAN ITERASI Jika tidak juga ditemukan pusat kluster yang sama dengan iterasi sebelumnya, maka penghentian iterasi bisa dilakukan dengan : 1. menggunakan nilai threshold. Iterasi dihentikan jika nilai deltanya < threshold. 2. menggunakan ratio perbandingan antara nilai kovarian antar klaster dan di dalam klaster: Jika rasionya > dari rasio maka iterasi dihentikan

Kelebihan Relatively efficient: O(tkn), dimana n adalah # objects, k adalah # clusters, dan t merupakan # iterations. Umumnya, k, t << n. Biasanya berhenti pada nilai optimum lokal (local optimum). Nilai global optimum dapat ditentukan dengan menggunakan teknik seperti deterministic annealing dan genetic algorithms Kekurangan Dapat diterapkan hanya saat nilai mean telah ditentukan, bagaimana untuk data-data bersifat kategori? Perlu ditentukan k, jumlah klaster Tidak dapat menangani noisy data dan outliers Tidak tepat untuk membentuk klaster dengan data non-convex shapes

LATIHAN SOAL Given the samples X 1 = {1, 0}, X 2 = {0, 1}, X 3 = {2, 1}, and X 4 = {3, 3}, suppose that the samples are randomly clustered into two clusters C 1 = {X 1, X 3 } and C 2 = {X 2, X 4 }. Apply one iteration of the K-means partitionalclustering algorithm, and find a new distribution of samples in clusters. What are the new centroids? How can you prove that the new distribution of samples is better than the initial one?