JULIO ADISANTOSO - ILKOM IPB 1

dokumen-dokumen yang mirip
JULIO ADISANTOSO - ILKOM IPB 1

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

ANALISIS CLUSTER PADA DOKUMEN TEKS

Clustering. Virginia Postrel

ANALISIS CLUSTER PADA DOKUMEN TEKS

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

DATA MINING DAN WAREHOUSE A N D R I

BAB I PENDAHULUAN. 1.1 Latar Belakang

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

Pengenalan Pola. Klasterisasi Data

TEMU KEMBALI INFORMASI

BAB 2 TINJAUAN PUSTAKA

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB II LANDASAN TEORI

dengan Algoritma K Means

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

BAB II KAJIAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB IV ANALISIS DAN PERANCANGAN

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Pengenalan Pola. K-Means Clustering

KLASTERING DOKUMEN MENGGUNAKAN HIERARCHICAL AGGLOMERATIVE CLUSTERING

BAB 3 ANALISA SISTEM

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

JULIO ADISANTOSO - ILKOM IPB 1

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

SEGMENTASI CITRA. thresholding

BAB II LANDASAN TEORI

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

UKDW BAB I PENDAHULUAN

CLUSTERING KONSEP DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN BISECTING K-MEANS HIZRY RAMDANI

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

PENDAHULUAN. 1.1 Latar Belakang

Gambar 3.1 Contoh Citra yang digunakan

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

BAB III K-MEDIANS CLUSTERING

BAB I PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB III METODOLOGI PENELITIAN

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Pengenalan Pola. Hierarchical Clustering

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

KLASTERISASI PROSES SELEKSI PEMAIN MENGGUNAKAN ALGORITMA K-MEANS

BAB 2 TINJAUAN PUSTAKA

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

KOM341 Temu Kembali Informasi

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

Partitional clustering KLASTERING DENGAN METODE K-MEANS

1. PENDAHULUAN. Perkembangan teknologi informasi, khususnya teknologi Internet. mudah dan gratis, mengakibatkan informasi berlimpah.

BAB I PENDAHULUAN Latar Belakang

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Pada penelitian Rismawan dan Kusumadewi (2008) mengelompokkan

BAB I PENDAHULUAN 1.1. Latar Belakang

Klasterisasi Wilayah Pemasaran berdasarkan Preferensi Konsumen terhadap PT. X

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

ANALISIS GEROMBOL CLUSTER ANALYSIS

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI

BAB I PENDAHULUAN Latar Belakang

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

Perbandingan Metode Single Linkage dan Fuzzy C Means Untuk Pengelompokkan Trafik Internet

K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

Data Mining. Clustering. Oleh : Suprayogi

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

BAB 6 ANALISIS CLUSTER

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

BAB I PENDAHULUAN. 1.1 Latar Belakang

Transkripsi:

KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama. Unsupervised learning JAS - DEPT. ILMU KOMPUTER IPB 2 Yahoo! Hierarchy Scatter/Gather: Cutting, Karger, and Pedersen www.yahoo.com/science (30) agriculture biology physics CS space............... dairy crops botany cell AI courses magnetism forestry agronomy evolution HCI relativity craft missions JAS - DEPT. ILMU KOMPUTER IPB 3 JAS - DEPT. ILMU KOMPUTER IPB 4 Vivisimo (http://clusty.com/) http://search.yippy.com/ Menggunakan cluster Hipotesis : dokumen dengan teks yang mirip memiliki keterkaitan. Oleh karena itu, untuk meningkatkan recall: Kelompokkan dokumen pada korpus. Jika query q cocok dengan dokumen d, maka berikan juga dokumen lain yang sekelompok dengan d. Contoh: query car juga akan memberikan dokumen tentang automobile (karena satu kelas). JAS - DEPT. ILMU KOMPUTER IPB 5 JAS - DEPT. ILMU KOMPUTER IPB 6 JULIO ADISANTOSO - ILKOM IPB 1

Isu pada Clustering Representasi dokumen: Ruang vektor? Normalisasi? Ukuran kesamaan/jarak Banyaknya kelas: Tetap Tergantung pada data Harus dihindari jumlah kelas yang terlalu sedikit atau terlalu banyak. Mengapa? Apa yang membuat dokumen berhubungan? Ideal : kesamaan semantik Praktis : kesamaan statistik Menggunakan ukuran kesamaan Cosine Dokumen sebagai vektor Untuk beberapa algoritme, lebih mudah memperhatikan jarak antar dokumen, dibanding kesamaannya. JAS - DEPT. ILMU KOMPUTER IPB 7 JAS - DEPT. ILMU KOMPUTER IPB 8 Algoritme Clustering Partitional algorithms Dimulai dengan sebagian secara acak Dilakukan iterasi: K means clustering Model based clustering Hierarchical algorithms Bottom-up, agglomerative Top-down, divisive Partitioning Algorithms Metode partisi: susun partisi n dokumen ke dalam K kelompok Formulasi masalah: Diketahui koleksi dokumen dan nilai K Dapatkan partisi K kelompok dokumen yang mengoptimumkan partisi dengan kriteria tertentu: Globally optimal: exhaustively enumerate all partitions Effective heuristic methods: K-means and K-medoids algorithms JAS - DEPT. ILMU KOMPUTER IPB 9 JAS - DEPT. ILMU KOMPUTER IPB 10 K-means Asumsikan tiap dokumen sebagai vektor bernilai bilangan riil Kelompokkan dokumen berdasarkan centroid pada suatu cluster c : Penempatan elemen pada clusters berdasarkan jarak terhadap centroid dari cluster yang ada (similarities) Algoritme K-means Pilih K dokumen secara acak {s 1, s 2, s K } sebagai seed. Lakukan iterasi: Untuk setiap dokumen d i, masukkan di ke cluster c j sehingga jarak(x i, s j ) adalah minimum. Perbaiki centroid tiap cluster c j s j = (c j ) JAS - DEPT. ILMU KOMPUTER IPB 11 JAS - DEPT. ILMU KOMPUTER IPB 12 JULIO ADISANTOSO - ILKOM IPB 2

Contoh K-means (K=2) Kapan Iterasi Berhenti? Jumlah iterasi ditentukan Partisi dokumen tidak berubah Posisi centroid tidak berubah x x JAS - DEPT. ILMU KOMPUTER IPB 13 JAS - DEPT. ILMU KOMPUTER IPB 14 Memilih Seed Cluster yang dihasilkan tergantung pada pemilihan seed di awal (secara acak). Contoh Hierarchical Clustering Membangun hirarki taksonomi berbasis denah pohon (dendogram) dari sekumpulan dokumen. Jika mulai dengan B dan E sebagai centroid, maka akan konvergen ke {A,B,C} dan {D,E,F} Jika mulai dengan D dan F sebagai centroid, maka akan konvergen ke {A,B,D,E} dan {C,F} animal vertebrate invertebrate fish reptile amphib. mammal worm insect crustacean JAS - DEPT. ILMU KOMPUTER IPB 15 JAS - DEPT. ILMU KOMPUTER IPB 16 Dendogram Cluster diperoleh dengan memotong dendogram pada level tertentu. Hierarchical Agglomerative Clustering (HAC) Mulai dengan setiap dokumen sebagai suatu obyek tersendiri Gabungkan setiap obyek yang memiliki sifat sama (ukuran kesamaan paling tinggi, atau ukuran jarak paling kecil) Lakukan langkah kedua di atas seterusnya, dan berhenti jika semua obyek berada pada satu kelompok JAS - DEPT. ILMU KOMPUTER IPB 17 JAS - DEPT. ILMU KOMPUTER IPB 18 JULIO ADISANTOSO - ILKOM IPB 3

Menggabungkan Cluster Single-link Menggunakan obyek yang paling dekat atau paling sama Complete-link Menggunakan obyek yang paling jauh atau paling tidak sama Average-link Menggunakan nilai rata-rata dari setiap anggota tiap cluster Single Link Menggunakan ukuran kesamaan yang terbesar dari tiap pasangan. Setelah c i dan c j digabung, maka ukuran kesamaan dari cluster yang dihasilkan dengan cluster lainnya, c k, adalah: JAS - DEPT. ILMU KOMPUTER IPB 19 JAS - DEPT. ILMU KOMPUTER IPB 20 Single Link Complete Link Menggunakan ukuran kesamaan yang terkecil dari tiap pasangan. Setelah c i dan c j digabung, maka ukuran kesamaan dari cluster yang dihasilkan dengan cluster lainnya, c k, adalah: JAS - DEPT. ILMU KOMPUTER IPB 21 JAS - DEPT. ILMU KOMPUTER IPB 22 Complete Link Average Link Menggunakan rata-rata dari pasangan ukuran kesamaan. Merupakan kompromi dari pendekatan single link dan complete link. JAS - DEPT. ILMU KOMPUTER IPB 23 JAS - DEPT. ILMU KOMPUTER IPB 24 JULIO ADISANTOSO - ILKOM IPB 4

Bagaimana Cluster yang Baik? Kriteria internal: menghasilkan cluster yang baik dimana: Kesamaan antar anggota dalam suatu cluster (intracluster) adalah tinggi Kesamaan antar anggota dari cluster yang berbeda (inter-cluster) adalah rendah Kualitas ukuran tergantung pada representasi dokumen dan ukuran kesamaan yang digunakan Beberapa Ukuran Kesamaan Inner Product Dice Coefficient Cosine Coefficient Jaccard Coefficient JAS - DEPT. ILMU KOMPUTER IPB 25 JAS - DEPT. ILMU KOMPUTER IPB 26 Bagaimana Cluster yang Baik? Kriteria eksternal: diukur dengan menggunakan data kelas yang baik yang sudah diketahui (gold standard). Asumsikan ada C kelas-kelas yang baik (gold standard), sedangkan algoritma cluster kita menghasilkan k clusters, π 1, π 2,, π k dengan n i anggota. Purity, rasio antara kelas yang dominan pada cluster π i dan ukuran cluster π i JAS - DEPT. ILMU KOMPUTER IPB 27 Contoh Purity JAS - DEPT. ILMU KOMPUTER IPB 28 Cluster I Cluster II Cluster III Cluster I: Purity = 1/6 (max(5, 1, 0)) = 5/6 Cluster II: Purity = 1/6 (max(1, 4, 1)) = 4/6 Cluster III: Purity = 1/5 (max(2, 0, 3)) = 3/5 Rand Index (RI) #anggota Cluster yang sama Cluster yang berbeda Benar Sama A C Contoh : Single Link Dokumen A, B, C, D, dan E mempunyai ukuran kesamaan sebagai berikut Benar Berbeda B D JAS - DEPT. ILMU KOMPUTER IPB 29 JAS - DEPT. ILMU KOMPUTER IPB 30 JULIO ADISANTOSO - ILKOM IPB 5

LATIHAN Diketahui matrik term-document sbb: Dengan ukuran kesamaan Cosine dan Complete Link, lakukan clustering terhadap dokumen. JULIO ADISANTOSO - ILKOM IPB JULIO ADISANTOSO - ILKOM IPB 6