Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

dokumen-dokumen yang mirip
JULIO ADISANTOSO - ILKOM IPB 1

Clustering. Virginia Postrel

ANALISIS CLUSTER PADA DOKUMEN TEKS

Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS CLUSTER PADA DOKUMEN TEKS

Pengenalan Pola. Klasterisasi Data

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

BAB II KAJIAN PUSTAKA

UKDW BAB I PENDAHULUAN

BAB 3 ANALISA SISTEM

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

BAB 2 TINJAUAN PUSTAKA

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

DATA MINING DAN WAREHOUSE A N D R I

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

BAB III METODOLOGI PENELITIAN

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB III METODOLOGI PENELITIAN

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

PENDAHULUAN. 1.1 Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB 2 LANDASAN TEORI

BAB IV PREPROCESSING DATA MINING

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Pengenalan Pola. K-Means Clustering

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB II LANDASAN TEORI

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

SEGMENTASI CITRA. thresholding

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

KOM341 Temu Kembali Informasi

Bab 2 Tinjauan Pustaka

BAB 3 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI


PENDAHULUAN. I.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

TEMU KEMBALI INFORMASI

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

BAB 6 ANALISIS CLUSTER

BAB I PENDAHULUAN. Perguruan tinggi yang baik dipengaruhi oleh kualitas. mahasiswa di dalamnya. Mahasiswa merupakan objek

BAB III ANALISIS DAN PERANCANGAN

KLASTERING DOKUMEN MENGGUNAKAN HIERARCHICAL AGGLOMERATIVE CLUSTERING

BAB 2 TINJAUAN PUSTAKA

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

BAB I PENDAHULUAN 1.1. Latar Belakang

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

HIERARCHICAL AGGLOMERATIVE CLUSTERING UNTUK PENGELOMPOKAN SKRIPSI MAHASISWA

V HASIL DAN PEMBAHASAN

Algoritma Dasar. 4.1 Naive Bayes

yang menunjang dalam pengembangan program cluster. Aplikasi cluster ini dikembangkan pada laptop, dengan spesifikasi terdapat

BAB I PENDAHULUAN Latar Belakang

Pengenalan Pola. Hierarchical Clustering

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

2. TINJAUAN PUSTAKA. teori, model dan teknik yang terkait dengan representasi, penyimpanan,

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

II TINJAUAN PUSTAKA. 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM.

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

BAB I PENDAHULUAN Latar Belakang

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

METODE PENELITIAN. Gambar 2 Metodologi penelitian.

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

SISTEM PAKAR DIAGNOSIS JENIS JERAWAT PADA WAJAH MENGGUNAKAN METODE K-MEANS CLUSTERING

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB II LANDASAN TEORI

Pertemuan 8, 9, 10. Teknik-teknik Data Mining

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB II LANDASAN TEORI

Transkripsi:

CLUSTERING

DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning belajar dari data # Supervised learning contoh yang telah diklasifikasikan Merupakan topik yang penting dan banyak diaplikasikan pada IR

CLUSTERING Algoritma clustering akan membagi suatu objek menjadi subset objek, dimana tiap subset berisi objek yang dianggap sejenis

CLUSTERING Clustering dapat digunakan untuk mengorganisasikan dokumen yang diperoleh

ALASAN PERLUNYA DOKUMEN DIKELOMPOKKAN Analisa keseluruhan Korpus User interface yang lebih bagus (yang dicluster koleksinya) Untuk visualisasi koleksi dokumen dan topiknya Untuk memperbaiki recall pada hasil pelacakan Hasil pelacakan yang lebih baik (yang dicluster hasil perolehan dokumen) Untuk navigasi yang lebih baik dari hasil pelacakan User recall akan lebih tinggi

ANALISA KESELURUHAN KORPUS Koleksi dipecah menjadi beberapa kelompok berdasarkan isi dokumen yang sejenis User dapat melakukan browsing pada topik-topik yang ada pada koleksi Perlu diberi label tertentu dari setiap node topik yang ada Contoh : Di yahoo hirarki secara manual Sering tidak ada informasi dari koleksi yang baru

ANALISA KESELURUHAN KORPUS Contoh hirarki pada Yahoo

VISUALISASI DOKUMEN DAN TOPIKNYA

MEMPERBAIKI RECALL DARI PELACAKAN Hipotesa cluster : Dokumen dengan teks yang mirip adalah berkaitan Untuk memperbaiki recall : Kelompokkan dokumen pada korpus sebelumnya Jika suatu query cocok dengan dok D maka berikan juga dokumen yang sekelompok dengan dok D Harapannya : jika ada query pakaian maka akan diberikan juga dokumen tentang baju Karena clustering akan menggelompokkan dokumen tentang baju dan pakaian dalam satu kelompok

NAVIGASI YANG LEBIH BAIK DARI HASIL PELACAKAN Untuk mengelompokkan hasil pelacakan sesuai dengan temanya Clusty.com

NAVIGASI YANG LEBIH BAIK DARI HASIL PELACAKAN Lebih visual Kartoo.com

CONTOH CLUSTERING

CONTOH CLUSTERING

ISU PADA CLUSTERING Bagaimana representasi pada clustering? Representasi dokumen Perlu ukuran kemiripan / jarak Berapa jumlah cluster Jumlah tetap yang sudah adilakuakn pada korpus? Sepenuhnya tergantung pada data? Hindari cluster terlalu besar atau kecil Jika terlalu besar tambahan satu klik dari user jadi sia-sia

APA YANG MEMBUAT DOKUMEN BERKAITAN Ideal : semantic similarity Praktis : statistical similarity Misal menggunakan cosine similarity Dokumen sebagai vektor Kebanyakan algoritma lebih mudah jika berpikir ada jarak diantara dokumen (dari pada similarity)

JENIS-JENIS ALGORITMA CLUSTERING Berdasarkan hubungan antara : Cluster kelompok yang dihasilkan Objek sesuatu yang ditempatkan pada kelompok Properties cara kita merepresentasikan sesuatu Properti : feature yang direpresentasikan dari sebuah dokumen Isi properti kata (kata/frase) Dapat memanfaatkan anotasi (nama, lokasi, organisasi, kejadian, hubungan) Dapat menggunakan metadata (penulis, tanggal, genre, kata kunci )

JENIS-JENIS ALGORITMA CLUSTERING Hubungan antara properties dengan cluster Monothetic : semua item pada cluster punya properties yang sama (mis : burung) Polythetic : semua item pada cluster punya sebagian besar properties (dokumen punya banyak kata) Hubungan antara objek dengan cluster Eksklusif : setiap objek menjadi anggota satu cluster Overlapping : setiap objek dapat menjadi anggota dari beberapa cluster Hubungan antara cluster dan cluster Ordered : ada cluster yang menjadi bagian dari cluster lain (hirarki) Unordered : setiap cluster dibuat sama

JENIS-JENIS ALGORITMA CLUSTERING

HIERARCHICAL VS FLAT Hierarchical Digunakan untuk analisa detail Memberikan lebih banyak informasi daripada flat Tidak ada algoritma yang paling baik Kurang efisien Ada dua jenis : Bottom-up (agglomerative) dan Top-down (divisive) Flat Biasanya dimulai dengan suatu partisi acak (partial) Digunakan untuk efisiensi K-means sangat sederhana K-means tidak masuk akal untuk beberapa jenis data (misal : nama)

HIERARCHICAL CLUSTERING : TOP-DOWN VS BOTTOM-UP

BOTTOM-UP CLUSTERING : MENENTUKAN SIMILARITY ANTAR CLUSTER

MENGUKUR SIMILARITY Digunakan untuk membandingkan dua objek Properti yang diinginkan sesuai dengan fungsi similarity, S(X,Y) S(X,Y) bertambah jika X dan Y mempunyai feature yang sama Biasanya S(X,Y) = 0 jika X dan Y tidak mempunyai feature yang sama Ada berbagai fungsi similarity Secara umum tidak ada fungsi yang paling baik

CONTOH PENGUKURAN SIMILARITY

SIMILARITY DARI PASANGAN DOKUMEN (COSINE NORMALIZATION) +

DOKUMEN / MATRIKS DOKUMEN

SINGLE LINK

COMPLETE LINK

AVERAGE LINK

CONTOH HIERARCHICAL CLUSTERING

CONTOH : SINGLE LINK

CONTOH : SINGLE LINK (LANJUTAN)

CONTOH (LANJUTAN)

CONTOH : SINGLE LINK (LANJUTAN)

CONTOH : SINGLE LINK

CONTOH : SINGLE LINK (LANJUTAN)

DENDOGRAM : HIERACHICAL CLUSTERING

APA YANG MEMBUAT CLUSTERING BAIK?

FLAT CLUSTERING : K - MEANS

FLAT CLUSTERING : K-MEANS

K-MEANS : PARTISINYA CEPAT

K-MEANS u( c) 1 c x c x

CONTOH K-MEANS (K=2)

KONDISI PEMBERHENTIAN Diantaranya : Posisi centroid tidak berubah Partisi dokumen tidak berubah

PEMILIHAN SEED

DESKRIPSI CLUSTER

MENGEVALUASI CLUSTER

MENGEVALUASI CLUSTER

BERAPA JUMLAH CLUSTER?

PEMILIHAN FEATURE

BIG ISSUE : LABELING

BAGAIMANA MEMBERI LABEL PADA CLUSTER?

PELABELAN