PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering) Penyusun Tugas Akhir : Eric Budiman Gosno (NRP : 5109.100.153) Dosen Pembimbing : Isye Arieshanti, S.Kom, M.Phil. Rully Soelaiman, S.Kom., M.Kom. 26 Juli 2013 Tugas Akhir KI091391 1
TAHAPAN PRESENTASI Pendahuluan Latar Belakang Sistem Klasterisasi Dokumen Rumusan Masalah Batasan Masalah Uji Coba Tujuan Kesimpulan dan Saran 10 Juli 2013 Tugas Akhir - KI091391 2
LATAR BELAKANG K-Means Clustering sensitif terhadap inisialisasi posisi titik tengah klaster. Inisialisasi posisi titik tengah yang buruk akan algoritma K-Means Clustering menghasilkan solusi local optimum. KD-Tree K-Means Clustering adalah perbaikan dari metode K- Means Clustering dengan inisialisasi titik tengah klaster menggunakan struktur data K-Dimensional Tree dan nilai kerapatan/density Hasil evaluasi oleh Redmond et al tidak melingkupi performa KD- Tree K-Means Clustering pada data set dokumen. 26 Juli 2013 Tugas Akhir KI091391 3
RUMUSAN MASALAH 1. Bagaimana mengimplementasikan algoritma KD-Tree K-Means Clustering pada kasus klasterisasi dokumen? 2. Bagaimana hasil dan performa dari algoritma KD-Tree K-Means Clustering dibandingkan dengan metode K-Means Clustering pada kasus klasterisasi dokumen? 26 Juli 2013 Tugas Akhir KI091391 4
BATASAN MASALAH 1. Data set yang digunakan untuk uji performa implementasi pada klasterisasi non dokumen adalah data set Pen-Based Recognition of Handwritten Digits(http://archive.ics.uci.edu/ml/datasets/Pen- Based+Recognition+of+Handwritten+Digits) dan data set Image Segmentation (http://archive.ics.uci.edu/ml/datasets/image+segmentation) dari UCI Machine Learning Repository. 2. Data set yang digunakan untuk uji performa pada klasterisasi dokumen adalah data set 20 newsgroup dari KDD UCI Archive (http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups. html) 3. Algoritma yang digunakan sebagai perbandingan performa KD- Tree K-Means pada klasterisasi dokumen adalah K-Means Clustering dengan inisialisasi Forgy s Method 26 Juli 2013 Tugas Akhir KI091391 5
BATASAN MASALAH 4. Parameter evaluasi yang digunakan adalah distorsi euclidean distance dan Normalized Information Gain 5. Metode stemmer yang digunakan pada pra proses dokumen adalah porter stemmer 26 Juli 2013 Tugas Akhir KI091391 6
TUJUAN 1. Mengimplementasikan algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen. 2. Melakukan uji performa dari algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen. 26 Juli 2013 Tugas Akhir KI091391 7
TAHAPAN PRESENTASI Pendahuluan Gambaran umum sistem Alur Sistem Klasterisasi Dokumen Sistem Klasterisasi Dokumen Tahap Pra Proses Uji Coba K-Dimensional Tree KD-Tree K-Means Clustering Kesimpulan dan Saran 10 Juli 2013 Tugas Akhir - KI091391 8
GAMBARAN UMUM SISTEM Data set Kumpulan Dokumen / Artikel Dokumen-dokumen yang telah diklasterisasi 26 Juli 2013 Tugas Akhir KI091391 9
ALUR SISTEM KLASTERISASI DOKUMEN Tahap Pra-Proses Dokumen Data set Kumpulan Dokumen / Artikel Data set dengan format bag of word Proses Klasterisasi Dokumen Input data set & Term Weighting Dokumen-dokumen yang telah diklasterisasi 26 Juli 2013 Tugas Akhir KI091391 10
Tahap Pra Proses Dokumen Menghapus Menyederhanakan kata yang kata ke Hapus Hasil data kata set yang bag hanya of word muncul merupakan dalam stop word dalam Pada satu dokumen Bahasa Bentuk stem Inggris Data set Kumpulan Dokumen / Artikel Data set dengan format bag of word Penghapusan stop word Proses Stemmming kata Proses seleksi kata typo 26 Juli 2013 Tugas Akhir KI091391 11
Proses pembobotan kata (term weighting) Bertujuan untuk memberikan bobot penilaian pada setiap kata yang menjadi fitur Menggunakan perhitungan Term Frequency Inverse Document Frequency (TF-IDF) 26 Juli 2013 Tugas Akhir KI091391 12
Proses pembobotan kata (term weighting) Data set sebelum term weighting Data set setelah term weighting 26 Juli 2013 Tugas Akhir KI091391 13
K-Dimensional Tree Data struktur yang bersifat space-partitioning dan merupakan kasus spesial dari binary space partitioning tree Setiap node non-leaf pada KD-Tree merupakan garis yang memisakan sebuah ruang menjadi 2 bagian Menggunakan nilai median atau mean sebagai nilai pivot 26 Juli 2013 Tugas Akhir KI091391 14
K-Dimensional Tree Pemilihan atribut pemisah/pivot Penentuan nilai pemisah/pivot value Pembuatan child subtree kiri dan kanan Proses rekursif pada subtree child tidak ya subtree adalah leaf Child Proses pemilihan atribut Pivot Jika Value subtree dapat sebelah telahmenggunakan memenuhi kiri memiliki pemisah: Nilai kriteria median data leaf atau (kedalaman dengan mean nilai dari tertentu atribut Nilai-nilai / jumlah < pivot pada data value. maksimal) atributsedangkan pemisah Child Maka Umumnya subtree fungsisebelah rekursif ditentukan kanan selesai akanberdasarkan kedalaman dari Nilai median memilikilebih data sering dengan nilai atribut Jikanode tidak, saat ini digunakan > pivot maka karena value lanjutkan menghasilkan proses axis rekursif = depth ke mod child k subtree tree lebih balance dibandingkan node.leftchild atau nilai mean := kdtree(points < pivot axis value, = longest depth+1); dimension node.rightchild := kdtree(points > pivot value, depth+1); Fungsi selesai 26 Juli 2013 Tugas Akhir KI091391 15
K-Dimensional Tree Contoh hasil partisi K-Dimensional Tree pada data set 2 dimensi 26 Juli 2013 Tugas Akhir KI091391 16
KD-Tree K-Means Clustering Metode K-Means Clustering dengan perbaikan pada proses inisialisasi titik tengah klaster Menggunakan struktur data K-Dimensional Tree dan nilai/ranking kerapatan dari leaf bucket untuk memilih posisi awal titik tengah Nilai kerapatan p = (N : Banyak poin pada leaf bucket, V : Volume area leaf bucket). nilai volume V j : hasil perkalian dari semua rentang dimensi pada leaf bucket. Dimensi dengan nilai rentang nol akan digantikan dengan nilai geometric mean dari nilai rentang dimensi yang tidak bernilai nol. Leaf bucket yang dipilih sebagai titik tengah adalah leaf bucket yang memiliki jarak terjauh dari titik tengah dan nilai kerapatan tertinggi 26 Juli 2013 Tugas Akhir KI091391 17
KD-Tree K-Means Clustering Pembentukan struktur data KD-Tree dari data set Perhitungan nilai kerapatan dari setiap leaf bucket K-Means Clustering dengan hasil inisialisasi titik tengah Penghapusan 20% Leaf bucket dengan nilai kerapatan terendah dan proses diulang ya Hapus Jalankan Untuk Pembentukan Untuk 20% t setiap algoritma = leaf 1, pilih leaf bucket K-Means titikdengan tengah K-Dimensional nilai Clustering klaster Tree bucket(l kerapatan pertama dari 1 data,l dengan 2,,L terendah, set. j ) K-, nilai C kalkulasi 1 = ulangi M z, proses inisialisasi dimana Dimensional nilai kerapatan(p dan kalkulasi titik z = tengah arg max Tree j ) yang dari posisi (CP setiap 1,...,C K. k ) dibuat titik dan akan leaf tengah (ĉ bucket 1, ĉ 2 klaster,, memiliki L j, ĉ leaf dan k ). baru bucket kalkulasi (ĉ 1, ĉ 2 dengan nilai,, Untuk titik ĉ k ). jumlah tengah t = 2,,K: data leaf maksimal bucket(m j ) Untuk 20 dengan j = per leaf mencari 1,...,q kalkulasi bucket. nilai rerata nilai dari ranking semua point leaf bucket yang ada (G j ) pada dengan fomula leaf bucket L j. min G P = N = k = 1 t d C, M P V Pilih titik tengah klaster C t = M z, dimana z = arg max G. Proses pemilihan titik tengah dari leaf bucket tidak Jumlah titik tengah = Jumlah klaster 26 Juli 2013 Tugas Akhir KI091391 18
KD-Tree K-Means Clustering Nilai P dapat diganti dengan ranking density (P ). Leaf Bucket dengan nilai terendah memiliki nilai P = 1 dan leaf bucket dengan nilai tertinggi memiliki nilai P = n. Tujuan dari penggunaan ranking density adalah untuk mencegah nilai kerapatan yang terlalu dominan dibandingkan dengan jarak leaf bucket ke titik tengah Tujuan dari menghapus 20% leaf bucket terendah adalah untuk mencegah leaf bucket yang merupakan outlier menjadi titik tengah 26 Juli 2013 Tugas Akhir KI091391 19
KD-Tree K-Means Clustering Leaf Bucket Density Rank : 18,409 : 5 Leaf Bucket Density : Rank 18,22 : 4 Distance : 193,28 Centroid 1 Centroid 2 Leaf Bucket Density : Rank 18,04 : 3 Distance min Distance : 9,635 : 9,635 Distance : 200,915 Centroid 3 Leaf Bucket Density Density Rank : 18,00 : 2 Distance min Distance : 9,635: 9,635 Distance : 200,915 Leaf Bucket Density Rank : 17,35 : 1 min Distance Distance : 145,195 :139,92 Distance : 139,92 26 Juli 2013 Tugas Akhir KI091391 20
TAHAPAN PRESENTASI Pendahuluan Skenario Uji Coba Evaluasi Performa Sistem Klasterisasi Dokumen Parameter Uji Coba Uji Coba Hasil Skenario Uji Coba 1 Kesimpulan dan Saran Hasil Skenario Uji Coba 2 10 Juli 2013 Tugas Akhir - KI091391 21
SKENARIO UJI COBA Skenario 1 : Uji coba implementasi KD-Tree K-Means Clustering pada klasterisasi non dokumen menggunakan data set Image Segmentation dan Pen-Based Recognition of Handwritten Digits. Skenario 2 : Uji coba perbandingan hasil klasterisasi dokumen KD-Tree K-Means Clustering dan K-Means Clustering pada data set dokumen 20 newsgroup. Uji coba dilakukan dengan membandingkan performa hasil KD- Tree K-Means Clustering dengan 15 kali proses K-Means Clustering. 26 Juli 2013 Tugas Akhir KI091391 22
EVALUASI PERFORMA (1) Perhitungan menggunakan nilai distorsi euclidean distance (Nilai total kuadrat euclidean distance data ke titik tengah klaster) D = nilai distorsi data set n = jumlah data pada data set K = jumlah klaster hasil X i = data ke-i pada data set C j = klaster ke-j D(,.) = Perhitungan jarak euclidean distance 26 Juli 2013 Tugas Akhir KI091391 23
EVALUASI PERFORMA (2) Perhitungan menggunakan Normalized Information Gain EN TOTAL : nilai Total Entropy atau rerata informasi yang ada di setiap data pada data set EN = c n log c n bits L = Jumlah label pada kelas data set c l = Jumlah data yang memiliki label l pada data set 26 Juli 2013 Tugas Akhir KI091391 24
EVALUASI PERFORMA (3) wen: Rerata informasi data pada setiap klaster, memberikan nilai 0 pada saat semua klaster homogen En k : Nilai entropy dari sebuah klaster K =Jumlah klaster n k = Jumlah data pada klaster k n = Jumlah data pada data set K =Jumlah label pada kelas data set n k = Jumlah data pada klaster k c lk = Jumlah data yang memiliki label l pada klaster k 26 Juli 2013 Tugas Akhir KI091391 25
PARAMETER UJI COBA (1) Nama Deskripsi Parameter K Jumlah klaster pada proses klasterisasi m Jumlah fitur pada data set row Jumlah data pada data set D kd Nilai distorsi dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering Dmin fa Nilai distorsi minimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering μ fa Nilai rerata distorsi dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering σ fa Standar deviasi distorsi dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering N fa>kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih baik daripada KD-Tree K- Means Clustering 26 Juli 2013 Tugas Akhir KI091391 26
PARAMETER UJI COBA (2) Nama Deskripsi Parameter N fa=kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi sama dengan KD-Tree K-Means Clustering N fa <kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih buruk daripada KD-Tree K- Means Clustering NIG kd Nilai NIG dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering NIG fa Nilai NIG maksimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering Waktu eksekusi dari proses klasterisasi dokumen T kd Tmin fa menggunakan algoritma KD-Tree K-Means Clustering Waktu eksekusi minimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering Tmax fa Waktu eksekusi maksimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering Ttotal fa Waktu eksekusi total dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering 26 Juli 2013 Tugas Akhir KI091391 27
SKENARIO 1 : UJI KINERJA Hasil KLASTERISASI Uji Coba Skenario NON- 1 DOKUMEN KD-TREE K-MEANS CLUSTERING Parameter Image Segmentation K 7 m 19 row 2310 D kd 1,40 10 7 Dmin fa 1,40 10 7 μ fa 1,46 10 7 σ fa 1,82 10 6 N fa>kd 4 N fa=kd 0 N fa <kd 11 NIG kd 0,49 NIG fa 0,55 T kd 3876 Tmin fa 2884 Tmax fa 11535 Ttotal fa 84645 26 Juli 2013 Tugas Akhir KI091391 Hasil KD-Tree K-Means Clustering memiliki nilai NIG 0,06 lebih buruk dibandingkan nilai NIG maksimum K-Means Clustering. Tetapi menghasilkan hasil distorsi sama dengan nilai minimum distorsi dan lebih baik 6 10 5 dibandingkan dengan rerata nilai distorsi K- Means Clustering. Selain itu dari 15 proses K-Means Clustering hanya 4 proses saja yang memiliki nilai distorsi lebih baik dibandingkan hasil dari KD-Tree K- Means Clustering. 28
SKENARIO 1 : UJI KINERJA Hasil KLASTERISASI Uji Coba Skenario NON- 1 DOKUMEN KD-TREE K-MEANS CLUSTERING Parameter Pen-based Recognition Handwritten Digits K 10 m 16 row 10992 D kd 5,01 10 7 Dmin fa 5,00 10 7 μ fa 5,17 10 7 σ fa 1,27 10 6 N fa>kd 2 N fa=kd 0 N fa <kd 13 NIG kd 0,67 NIG fa 0,69 T kd 33497 Tmin fa 20449 Tmax fa 134524 Ttotal fa 675462 Hasil KD-Tree K-Means Clustering memiliki nilai NIG 0,02 lebih buruk dibandingkan nilai NIG maksimum K-Means Clustering. Tetapi menghasilkan hasil distorsi lebih baik 1,7 10 6 dibandingkan dengan rerata nilai distorsi K- Means Clustering. Selain itu dari 15 proses K-Means Clustering hanya 2 proses saja yang memiliki nilai distorsi lebih baik dibandingkan hasil dari KD-Tree K- Means Clustering. 26 Juli 2013 Tugas Akhir KI091391 29
SKENARIO 2 : UJI PERFORMA Hasil KD-TREE Uji Coba Skenario K-MEANS 2 CLUSTERING PADA DATA SET DOKUMEN Parameter Nilai K 20 m 20536 D kd 4,14 x 10 7 Dmin fa 4,12 x 10 7 μ fa 4,17 x 10 7 σ fa 3,00 x 10 5 N fa>kd 4 N fa <kd 11 NIG kd 0,18 NIG fa 0,09 T kd 13295630 Tmin fa 2535463 Tmax fa 12619237 Ttotal fa 105325216 Hasil uji coba menunjukkan bahwa hasil klasterisasi dokumen menggunakan KD- Tree K-Means Clustering memiliki nilai distorsi lebih buruk 2 10 5 dibandingkan nilai distorsi minimum hasil K-Means Clustering. Namun Hasil ini lebih baik 3 10 5 dibandingkan dengan nilai rerata distorsi dari K-Means Clustering. Pada perhitungan nilai NIG, hasil dari KD-Tree K-Means Clustering memiliki nilai NIG 0,18. Hasil ini lebih baik 0,09 dibandingkan dengan nilai NIG maksimum yang didapatkan oleh K- Means Clustering.
TAHAPAN PRESENTASI Pendahuluan Sistem Klasterisasi Dokumen Uji Coba Kesimpulan dan Saran 08 Juli 2013 Tugas Akhir - KI091391 31
KESIMPULAN 1. Performa klasterisasi yang dihasilkan oleh metode KD-Tree K- Means Clustering pada data set non dokumen yaitu Image Segmentation dan Pen-Based Recognition of Handwritten Digits memiliki hasil distorsi yang lebih baik dibandingkan dengan nilai rerata distorsi 15 kali proses K-Means Clustering. Selain itu, metode KD-Tree K-Means Clustering juga memiliki waktu eksekusi yang relatif sama dengan waktu eksekusi dari K-Means Clustering. 2. Performa yang dihasilkan oleh metode KD-Tree K-Means Clustering pada klasterisasi dokumen data set 20 newsgroup memiliki nilai distorsi 3 10 5 lebih rendah dibandingkan dengan nilai rerata distorsi dari K-Means Clustering. Selain itu nilai NIG KD-Tree K-Means Clustering 0,09 lebih baik dibandingkan nilai NIG maksimum K-Means Clustering. 26 Juli 2013 Tugas Akhir KI091391 32
SARAN 1. Performa dari KD-Tree K-Means Clustering untuk klasterisasi dokumen dapat ditingkatkan salah satunya dengan melakukan proses seleksi fitur. Akan tetapi pemilihan metode seleksi fitur harus dilakukan secara hati-hati sesuai dengan karakteristik dan problem dari klasterisasi teks yang berdimensi tinggi. 2. Perbaikan lain yang bisa dilakukan adalah dengan memperbaiki efisiensi running time dari KD-Tree K-Means Clustering karena KD-Tree K-Means Clustering membutuhkan waktu training yang lama pada klasterisasi data set berdimensi tinggi seperti data set dokumen. 26 Juli 2013 Tugas Akhir KI091391 33
SELESAI TERIMA KASIH 26 Juli 2013 Tugas Akhir KI091391 34