PRESENTASI TUGAS AKHIR KI091391

dokumen-dokumen yang mirip
Implementasi KD-Tree K-Means Clustering untuk Klasterisasi Dokumen

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

PENDAHULUAN. 1.1 Latar Belakang

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Pengenalan Pola. K-Means Clustering

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

KLASTERISASI PADA SUBRUANG DENGAN ALGORITMA PEMBOBOTAN ENTROPI PADA K-MEANS PADA SPARSE DATA BERDIMENSI TINGGI

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB III METODOLOGI PENELITIAN

Tugas Akhir Pengembangan Perangkat Lunak Berbasis Suara Ucapan untuk Membuka dan Mencetak Dokumen

PRESENTASI TUGAS AKHIR KI091391

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks

DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA

PRESENTASI TUGAS AKHIR KI IMPLEMENTASI ALGORITMA PENCARIAN K JALUR SEDERHANA TERPENDEK DALAM GRAF

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1. Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASTERISASI BERDASARKAN KESAMAAN POLA DENGAN MENGGUNAKAN ALGORITMA PCLUSTER (Kata kunci: Penggalian Data, Klasterisasi Kesamaan Pola)

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

PENGELOMPOKAN KOLEKSI BUKU PERPUSTAKAAN BERDASARKAN LAMA PEMINJAMAN BUKU MENGGUNAKAN K-MEANS

Lecture Notes On Algorithms and Data Structures. Oleh Thompson Susabda Ngoen

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB I. Pendahuluan. 1. Latar Belakang Masalah

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN

PRESENTASI TUGAS AKHIR KI091391

PENGELOMPOKAN BIMBINGAN BELAJAR MENGGUNAKAN METODE CLUSTERING DI SMA NEGERI 1 CILAKU KABUPATEN CIANJUR

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB I PENDAHULUAN A. Latar Belakang

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB I PENDAHULUAN 1.1. Latar Belakang

Segmentasi Citra Berwarna Menggunakan Deteksi Tepi dan Fuzzy C-Means yang Dimodifikasi Berdasarkan Informasi Ketetanggaan

DESAIN DAN ANALISIS STRUKTUR DATA NON LINIER ROOTED TREE DINAMIS (Kata kunci: Graf, Struktur data, tree, LCA, pemrograman dinamis)

Penyusun Tugas Akhir : Ivan Hardiyanto (NRP : ) Dosen Pembimbing : Yudhi Purwananto, S.Kom, M.Kom Rully Soelaiman, S.Kom, M.

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

BAB III METODE PENELITIAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA

HEAP. Heap dan Operasinya. Oleh Andri Heryandi

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

ANALISIS CLUSTER PADA DOKUMEN TEKS

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

Pohon (Tree) Universitas Gunadarma Sistem Informasi 2012/2013

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Model Linear untuk Klasifikasi

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III METODOLOGI PENELITIAN

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB 3 METODE PERANCANGAN

BAB II TINJAUAN PUSTAKA

The 6 th University Research Colloquium 2017 Universitas Muhammadiyah Magelang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

FUZZY-NEURO LEARNING VECTOR QUANTIZATION (FNLVQ)

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

ARTIKEL PENILAIAN PRESTASI KERJA PEGAWAI NEGERI SIPIL

BAB III METODELOGI PENELITIAN

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB II TINJAUAN PUSTAKA

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

Manual Penggunaan Algoritma Evolusi Diferensial untuk Mengoptimasikan Tata Letak Fasilitas Komarudin

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB III ANALISA DAN PERANCANGAN SISTEM

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

BAB 2 LANDASAN TEORI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB III K-MEDIANS CLUSTERING

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

JURNAL KLASIFIKASI JENIS TANAMAN MANGGA BERDASARKAN TULANG DAUN MENGGUNAKAN METODE K-MEANS

Imputasi Missing data Menggunakan Algoritma Pengelompokan Data K-Harmonic Means

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

Transkripsi:

PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering) Penyusun Tugas Akhir : Eric Budiman Gosno (NRP : 5109.100.153) Dosen Pembimbing : Isye Arieshanti, S.Kom, M.Phil. Rully Soelaiman, S.Kom., M.Kom. 26 Juli 2013 Tugas Akhir KI091391 1

TAHAPAN PRESENTASI Pendahuluan Latar Belakang Sistem Klasterisasi Dokumen Rumusan Masalah Batasan Masalah Uji Coba Tujuan Kesimpulan dan Saran 10 Juli 2013 Tugas Akhir - KI091391 2

LATAR BELAKANG K-Means Clustering sensitif terhadap inisialisasi posisi titik tengah klaster. Inisialisasi posisi titik tengah yang buruk akan algoritma K-Means Clustering menghasilkan solusi local optimum. KD-Tree K-Means Clustering adalah perbaikan dari metode K- Means Clustering dengan inisialisasi titik tengah klaster menggunakan struktur data K-Dimensional Tree dan nilai kerapatan/density Hasil evaluasi oleh Redmond et al tidak melingkupi performa KD- Tree K-Means Clustering pada data set dokumen. 26 Juli 2013 Tugas Akhir KI091391 3

RUMUSAN MASALAH 1. Bagaimana mengimplementasikan algoritma KD-Tree K-Means Clustering pada kasus klasterisasi dokumen? 2. Bagaimana hasil dan performa dari algoritma KD-Tree K-Means Clustering dibandingkan dengan metode K-Means Clustering pada kasus klasterisasi dokumen? 26 Juli 2013 Tugas Akhir KI091391 4

BATASAN MASALAH 1. Data set yang digunakan untuk uji performa implementasi pada klasterisasi non dokumen adalah data set Pen-Based Recognition of Handwritten Digits(http://archive.ics.uci.edu/ml/datasets/Pen- Based+Recognition+of+Handwritten+Digits) dan data set Image Segmentation (http://archive.ics.uci.edu/ml/datasets/image+segmentation) dari UCI Machine Learning Repository. 2. Data set yang digunakan untuk uji performa pada klasterisasi dokumen adalah data set 20 newsgroup dari KDD UCI Archive (http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups. html) 3. Algoritma yang digunakan sebagai perbandingan performa KD- Tree K-Means pada klasterisasi dokumen adalah K-Means Clustering dengan inisialisasi Forgy s Method 26 Juli 2013 Tugas Akhir KI091391 5

BATASAN MASALAH 4. Parameter evaluasi yang digunakan adalah distorsi euclidean distance dan Normalized Information Gain 5. Metode stemmer yang digunakan pada pra proses dokumen adalah porter stemmer 26 Juli 2013 Tugas Akhir KI091391 6

TUJUAN 1. Mengimplementasikan algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen. 2. Melakukan uji performa dari algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen. 26 Juli 2013 Tugas Akhir KI091391 7

TAHAPAN PRESENTASI Pendahuluan Gambaran umum sistem Alur Sistem Klasterisasi Dokumen Sistem Klasterisasi Dokumen Tahap Pra Proses Uji Coba K-Dimensional Tree KD-Tree K-Means Clustering Kesimpulan dan Saran 10 Juli 2013 Tugas Akhir - KI091391 8

GAMBARAN UMUM SISTEM Data set Kumpulan Dokumen / Artikel Dokumen-dokumen yang telah diklasterisasi 26 Juli 2013 Tugas Akhir KI091391 9

ALUR SISTEM KLASTERISASI DOKUMEN Tahap Pra-Proses Dokumen Data set Kumpulan Dokumen / Artikel Data set dengan format bag of word Proses Klasterisasi Dokumen Input data set & Term Weighting Dokumen-dokumen yang telah diklasterisasi 26 Juli 2013 Tugas Akhir KI091391 10

Tahap Pra Proses Dokumen Menghapus Menyederhanakan kata yang kata ke Hapus Hasil data kata set yang bag hanya of word muncul merupakan dalam stop word dalam Pada satu dokumen Bahasa Bentuk stem Inggris Data set Kumpulan Dokumen / Artikel Data set dengan format bag of word Penghapusan stop word Proses Stemmming kata Proses seleksi kata typo 26 Juli 2013 Tugas Akhir KI091391 11

Proses pembobotan kata (term weighting) Bertujuan untuk memberikan bobot penilaian pada setiap kata yang menjadi fitur Menggunakan perhitungan Term Frequency Inverse Document Frequency (TF-IDF) 26 Juli 2013 Tugas Akhir KI091391 12

Proses pembobotan kata (term weighting) Data set sebelum term weighting Data set setelah term weighting 26 Juli 2013 Tugas Akhir KI091391 13

K-Dimensional Tree Data struktur yang bersifat space-partitioning dan merupakan kasus spesial dari binary space partitioning tree Setiap node non-leaf pada KD-Tree merupakan garis yang memisakan sebuah ruang menjadi 2 bagian Menggunakan nilai median atau mean sebagai nilai pivot 26 Juli 2013 Tugas Akhir KI091391 14

K-Dimensional Tree Pemilihan atribut pemisah/pivot Penentuan nilai pemisah/pivot value Pembuatan child subtree kiri dan kanan Proses rekursif pada subtree child tidak ya subtree adalah leaf Child Proses pemilihan atribut Pivot Jika Value subtree dapat sebelah telahmenggunakan memenuhi kiri memiliki pemisah: Nilai kriteria median data leaf atau (kedalaman dengan mean nilai dari tertentu atribut Nilai-nilai / jumlah < pivot pada data value. maksimal) atributsedangkan pemisah Child Maka Umumnya subtree fungsisebelah rekursif ditentukan kanan selesai akanberdasarkan kedalaman dari Nilai median memilikilebih data sering dengan nilai atribut Jikanode tidak, saat ini digunakan > pivot maka karena value lanjutkan menghasilkan proses axis rekursif = depth ke mod child k subtree tree lebih balance dibandingkan node.leftchild atau nilai mean := kdtree(points < pivot axis value, = longest depth+1); dimension node.rightchild := kdtree(points > pivot value, depth+1); Fungsi selesai 26 Juli 2013 Tugas Akhir KI091391 15

K-Dimensional Tree Contoh hasil partisi K-Dimensional Tree pada data set 2 dimensi 26 Juli 2013 Tugas Akhir KI091391 16

KD-Tree K-Means Clustering Metode K-Means Clustering dengan perbaikan pada proses inisialisasi titik tengah klaster Menggunakan struktur data K-Dimensional Tree dan nilai/ranking kerapatan dari leaf bucket untuk memilih posisi awal titik tengah Nilai kerapatan p = (N : Banyak poin pada leaf bucket, V : Volume area leaf bucket). nilai volume V j : hasil perkalian dari semua rentang dimensi pada leaf bucket. Dimensi dengan nilai rentang nol akan digantikan dengan nilai geometric mean dari nilai rentang dimensi yang tidak bernilai nol. Leaf bucket yang dipilih sebagai titik tengah adalah leaf bucket yang memiliki jarak terjauh dari titik tengah dan nilai kerapatan tertinggi 26 Juli 2013 Tugas Akhir KI091391 17

KD-Tree K-Means Clustering Pembentukan struktur data KD-Tree dari data set Perhitungan nilai kerapatan dari setiap leaf bucket K-Means Clustering dengan hasil inisialisasi titik tengah Penghapusan 20% Leaf bucket dengan nilai kerapatan terendah dan proses diulang ya Hapus Jalankan Untuk Pembentukan Untuk 20% t setiap algoritma = leaf 1, pilih leaf bucket K-Means titikdengan tengah K-Dimensional nilai Clustering klaster Tree bucket(l kerapatan pertama dari 1 data,l dengan 2,,L terendah, set. j ) K-, nilai C kalkulasi 1 = ulangi M z, proses inisialisasi dimana Dimensional nilai kerapatan(p dan kalkulasi titik z = tengah arg max Tree j ) yang dari posisi (CP setiap 1,...,C K. k ) dibuat titik dan akan leaf tengah (ĉ bucket 1, ĉ 2 klaster,, memiliki L j, ĉ leaf dan k ). baru bucket kalkulasi (ĉ 1, ĉ 2 dengan nilai,, Untuk titik ĉ k ). jumlah tengah t = 2,,K: data leaf maksimal bucket(m j ) Untuk 20 dengan j = per leaf mencari 1,...,q kalkulasi bucket. nilai rerata nilai dari ranking semua point leaf bucket yang ada (G j ) pada dengan fomula leaf bucket L j. min G P = N = k = 1 t d C, M P V Pilih titik tengah klaster C t = M z, dimana z = arg max G. Proses pemilihan titik tengah dari leaf bucket tidak Jumlah titik tengah = Jumlah klaster 26 Juli 2013 Tugas Akhir KI091391 18

KD-Tree K-Means Clustering Nilai P dapat diganti dengan ranking density (P ). Leaf Bucket dengan nilai terendah memiliki nilai P = 1 dan leaf bucket dengan nilai tertinggi memiliki nilai P = n. Tujuan dari penggunaan ranking density adalah untuk mencegah nilai kerapatan yang terlalu dominan dibandingkan dengan jarak leaf bucket ke titik tengah Tujuan dari menghapus 20% leaf bucket terendah adalah untuk mencegah leaf bucket yang merupakan outlier menjadi titik tengah 26 Juli 2013 Tugas Akhir KI091391 19

KD-Tree K-Means Clustering Leaf Bucket Density Rank : 18,409 : 5 Leaf Bucket Density : Rank 18,22 : 4 Distance : 193,28 Centroid 1 Centroid 2 Leaf Bucket Density : Rank 18,04 : 3 Distance min Distance : 9,635 : 9,635 Distance : 200,915 Centroid 3 Leaf Bucket Density Density Rank : 18,00 : 2 Distance min Distance : 9,635: 9,635 Distance : 200,915 Leaf Bucket Density Rank : 17,35 : 1 min Distance Distance : 145,195 :139,92 Distance : 139,92 26 Juli 2013 Tugas Akhir KI091391 20

TAHAPAN PRESENTASI Pendahuluan Skenario Uji Coba Evaluasi Performa Sistem Klasterisasi Dokumen Parameter Uji Coba Uji Coba Hasil Skenario Uji Coba 1 Kesimpulan dan Saran Hasil Skenario Uji Coba 2 10 Juli 2013 Tugas Akhir - KI091391 21

SKENARIO UJI COBA Skenario 1 : Uji coba implementasi KD-Tree K-Means Clustering pada klasterisasi non dokumen menggunakan data set Image Segmentation dan Pen-Based Recognition of Handwritten Digits. Skenario 2 : Uji coba perbandingan hasil klasterisasi dokumen KD-Tree K-Means Clustering dan K-Means Clustering pada data set dokumen 20 newsgroup. Uji coba dilakukan dengan membandingkan performa hasil KD- Tree K-Means Clustering dengan 15 kali proses K-Means Clustering. 26 Juli 2013 Tugas Akhir KI091391 22

EVALUASI PERFORMA (1) Perhitungan menggunakan nilai distorsi euclidean distance (Nilai total kuadrat euclidean distance data ke titik tengah klaster) D = nilai distorsi data set n = jumlah data pada data set K = jumlah klaster hasil X i = data ke-i pada data set C j = klaster ke-j D(,.) = Perhitungan jarak euclidean distance 26 Juli 2013 Tugas Akhir KI091391 23

EVALUASI PERFORMA (2) Perhitungan menggunakan Normalized Information Gain EN TOTAL : nilai Total Entropy atau rerata informasi yang ada di setiap data pada data set EN = c n log c n bits L = Jumlah label pada kelas data set c l = Jumlah data yang memiliki label l pada data set 26 Juli 2013 Tugas Akhir KI091391 24

EVALUASI PERFORMA (3) wen: Rerata informasi data pada setiap klaster, memberikan nilai 0 pada saat semua klaster homogen En k : Nilai entropy dari sebuah klaster K =Jumlah klaster n k = Jumlah data pada klaster k n = Jumlah data pada data set K =Jumlah label pada kelas data set n k = Jumlah data pada klaster k c lk = Jumlah data yang memiliki label l pada klaster k 26 Juli 2013 Tugas Akhir KI091391 25

PARAMETER UJI COBA (1) Nama Deskripsi Parameter K Jumlah klaster pada proses klasterisasi m Jumlah fitur pada data set row Jumlah data pada data set D kd Nilai distorsi dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering Dmin fa Nilai distorsi minimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering μ fa Nilai rerata distorsi dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering σ fa Standar deviasi distorsi dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering N fa>kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih baik daripada KD-Tree K- Means Clustering 26 Juli 2013 Tugas Akhir KI091391 26

PARAMETER UJI COBA (2) Nama Deskripsi Parameter N fa=kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi sama dengan KD-Tree K-Means Clustering N fa <kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih buruk daripada KD-Tree K- Means Clustering NIG kd Nilai NIG dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering NIG fa Nilai NIG maksimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering Waktu eksekusi dari proses klasterisasi dokumen T kd Tmin fa menggunakan algoritma KD-Tree K-Means Clustering Waktu eksekusi minimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering Tmax fa Waktu eksekusi maksimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering Ttotal fa Waktu eksekusi total dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering 26 Juli 2013 Tugas Akhir KI091391 27

SKENARIO 1 : UJI KINERJA Hasil KLASTERISASI Uji Coba Skenario NON- 1 DOKUMEN KD-TREE K-MEANS CLUSTERING Parameter Image Segmentation K 7 m 19 row 2310 D kd 1,40 10 7 Dmin fa 1,40 10 7 μ fa 1,46 10 7 σ fa 1,82 10 6 N fa>kd 4 N fa=kd 0 N fa <kd 11 NIG kd 0,49 NIG fa 0,55 T kd 3876 Tmin fa 2884 Tmax fa 11535 Ttotal fa 84645 26 Juli 2013 Tugas Akhir KI091391 Hasil KD-Tree K-Means Clustering memiliki nilai NIG 0,06 lebih buruk dibandingkan nilai NIG maksimum K-Means Clustering. Tetapi menghasilkan hasil distorsi sama dengan nilai minimum distorsi dan lebih baik 6 10 5 dibandingkan dengan rerata nilai distorsi K- Means Clustering. Selain itu dari 15 proses K-Means Clustering hanya 4 proses saja yang memiliki nilai distorsi lebih baik dibandingkan hasil dari KD-Tree K- Means Clustering. 28

SKENARIO 1 : UJI KINERJA Hasil KLASTERISASI Uji Coba Skenario NON- 1 DOKUMEN KD-TREE K-MEANS CLUSTERING Parameter Pen-based Recognition Handwritten Digits K 10 m 16 row 10992 D kd 5,01 10 7 Dmin fa 5,00 10 7 μ fa 5,17 10 7 σ fa 1,27 10 6 N fa>kd 2 N fa=kd 0 N fa <kd 13 NIG kd 0,67 NIG fa 0,69 T kd 33497 Tmin fa 20449 Tmax fa 134524 Ttotal fa 675462 Hasil KD-Tree K-Means Clustering memiliki nilai NIG 0,02 lebih buruk dibandingkan nilai NIG maksimum K-Means Clustering. Tetapi menghasilkan hasil distorsi lebih baik 1,7 10 6 dibandingkan dengan rerata nilai distorsi K- Means Clustering. Selain itu dari 15 proses K-Means Clustering hanya 2 proses saja yang memiliki nilai distorsi lebih baik dibandingkan hasil dari KD-Tree K- Means Clustering. 26 Juli 2013 Tugas Akhir KI091391 29

SKENARIO 2 : UJI PERFORMA Hasil KD-TREE Uji Coba Skenario K-MEANS 2 CLUSTERING PADA DATA SET DOKUMEN Parameter Nilai K 20 m 20536 D kd 4,14 x 10 7 Dmin fa 4,12 x 10 7 μ fa 4,17 x 10 7 σ fa 3,00 x 10 5 N fa>kd 4 N fa <kd 11 NIG kd 0,18 NIG fa 0,09 T kd 13295630 Tmin fa 2535463 Tmax fa 12619237 Ttotal fa 105325216 Hasil uji coba menunjukkan bahwa hasil klasterisasi dokumen menggunakan KD- Tree K-Means Clustering memiliki nilai distorsi lebih buruk 2 10 5 dibandingkan nilai distorsi minimum hasil K-Means Clustering. Namun Hasil ini lebih baik 3 10 5 dibandingkan dengan nilai rerata distorsi dari K-Means Clustering. Pada perhitungan nilai NIG, hasil dari KD-Tree K-Means Clustering memiliki nilai NIG 0,18. Hasil ini lebih baik 0,09 dibandingkan dengan nilai NIG maksimum yang didapatkan oleh K- Means Clustering.

TAHAPAN PRESENTASI Pendahuluan Sistem Klasterisasi Dokumen Uji Coba Kesimpulan dan Saran 08 Juli 2013 Tugas Akhir - KI091391 31

KESIMPULAN 1. Performa klasterisasi yang dihasilkan oleh metode KD-Tree K- Means Clustering pada data set non dokumen yaitu Image Segmentation dan Pen-Based Recognition of Handwritten Digits memiliki hasil distorsi yang lebih baik dibandingkan dengan nilai rerata distorsi 15 kali proses K-Means Clustering. Selain itu, metode KD-Tree K-Means Clustering juga memiliki waktu eksekusi yang relatif sama dengan waktu eksekusi dari K-Means Clustering. 2. Performa yang dihasilkan oleh metode KD-Tree K-Means Clustering pada klasterisasi dokumen data set 20 newsgroup memiliki nilai distorsi 3 10 5 lebih rendah dibandingkan dengan nilai rerata distorsi dari K-Means Clustering. Selain itu nilai NIG KD-Tree K-Means Clustering 0,09 lebih baik dibandingkan nilai NIG maksimum K-Means Clustering. 26 Juli 2013 Tugas Akhir KI091391 32

SARAN 1. Performa dari KD-Tree K-Means Clustering untuk klasterisasi dokumen dapat ditingkatkan salah satunya dengan melakukan proses seleksi fitur. Akan tetapi pemilihan metode seleksi fitur harus dilakukan secara hati-hati sesuai dengan karakteristik dan problem dari klasterisasi teks yang berdimensi tinggi. 2. Perbaikan lain yang bisa dilakukan adalah dengan memperbaiki efisiensi running time dari KD-Tree K-Means Clustering karena KD-Tree K-Means Clustering membutuhkan waktu training yang lama pada klasterisasi data set berdimensi tinggi seperti data set dokumen. 26 Juli 2013 Tugas Akhir KI091391 33

SELESAI TERIMA KASIH 26 Juli 2013 Tugas Akhir KI091391 34