PENDAHULUAN TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
PERBANDINGAN ALGORITME CLUSTERING ROCK DAN QROCK UNTUK DATA KATEGORIK (STUDI KASUS : DATA SPONGE) MARISA ANGGRAENI

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

II. TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

PE DAHULUA. Latar Belakang

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

dengan Algoritma K Means

BAB III METODOLOGI PENELITIAN

BAB 2 LANDASAN TEORI

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

PENDAHULUAN TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

PENDAHULUAN. Latar Belakang

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II TINJAUAN PUSTAKA

K-Means Analysis Klasterisasi Kasus HIV/AIDS di Indonesia

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 1 PENDAHULUAN 1.1. Latar Belakang

TINJAUAN PUSTAKA. Definisi Data Mining

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

2.2 Data Mining. Universitas Sumatera Utara

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 45 Edisi... Volume..., Bulan 20.. ISSN :

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

ANALISIS CLUSTER PADA DOKUMEN TEKS

PENDAHULUAN TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

DATA MINING DAN WAREHOUSE A N D R I

penyebarannya. Diharapkan dari penelitian ini dapat terbentuk sebuah basis pengetahuan spasial yang bermanfaat. PENDAHULUAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

ANALISIS KLASTERING LIRIK LAGU INDONESIA

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP

Student Clustering Based on Academic Using K-Means Algoritms

ANALISIS KARAKTERISTIK KELOMPOK DENGAN MENGGUNAKAN PENDEKATAN CLUSTER ENSEMBLE

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB 2 TINJAUAN PUSTAKA

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

VISUALISASI K-MEANS CLUSTERING PADA DATA POTENSI PERTANIAN DESA DI BOGOR MENGGUNAKAN MAPSERVER HENRI HARIANJA

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

4 HASIL DA PEMBAHASA

Manajemen Data. Dosen : Dr. Yan Rianto Rini Wijayanti, M.Kom Nama : Yoga Prihastomo NIM :

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

BAB III METODOLOGI PENELITIAN

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

BAB II TINJAUAN PUSTAKA

Bab 2 Tinjauan Pustaka

PENDAHULUAN TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II 2. DASAR TEORI

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB 1 PENGERTIAN DATA MINING DAN FUNGSI-FUNGSI DATA MINING

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

PERTEMUAN 14 DATA WAREHOUSE

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

PENGELOMPOKKAN ANGKA PARTISIPASI PENDIDIKAN WAJIB BELAJAR SE-INDONESIA MENGGUNAKAN METODE FUZZY C-MEANS. Abstrak

BAB II TINJAUAN PUSTAKA

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

PENGELOMPOKAN NASABAH BANK MENGGUNAKAN ALGORITMA K- MEANS UNTUK MEMBERIKAN PENAWARAN YANG TEPAT

BAB I PENDAHULUAN. usaha jasa perjalanan wisata di Bali. Perusahaan ini melayani pelanggan

BAB II TINJAUAN PUSTAKA

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010


BAB 2 LANDASAN TEORI

Klasterisasi Data Kesehatan Penduduk untuk Menentukan Rentang Derajat Kesehatan Daerah dengan Metode K-Means

Kerusakan Barang Jadi

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

Transkripsi:

Latar Belakang PENDAHULUAN Sponge atau poriferans berasal dari bahasa Latin yaitu porus yang artinya pori dan ferre yang artinya memiliki. Sponge adalah hewan berpori, pada umumnya terdapat di lautan, yang memompa air melalui tubuhnya untuk menyaring partikel partikel sebagai makanannya. Berdasarkan tipe spicules dari kerangka tubuhnya bunga karang dikelompokan menjadi tiga kelas yaitu Calcarea, Hexactenellida, dan Demospongiae. Beberapa ahli taksonomi berpendapat adanya kelas lain yaitu Sclerospongiae. Ditemukannya kelas dan species baru mendorong ilmuwan ilmuwan ahli taksonomi untuk melakukan penelitian lebih lanjut terhadap bunga karang berdasarkan anatomy, phisiology, geological history, dan lineage untuk memperoleh kemungkinan mendapatkan kelas dan species baru. Iosune Uriz dan Marta Domingo melakukan riset dan pengumpulan data terhadap bunga karang (sponge) di Lautan Atlantik. Jenis bunga karang pada data tersebut adalah O.Hadromerida (Demospongiae. Porifera) dan berdasarkan taksonominya termasuk kelas Demospongiae. Salah satu tujuan riset dan pengumpulan data tersebut adalah untuk mengetahui model cluster berdasarkan anatomy dan phisiology sponge. Model cluster tersebut diharapkan dapat direpresentasikan pada klasifikasi taksonomi sehingga dapat memprediksikan ada atau tidaknya kemungkinan species atau bahkan kelas baru dari data sponge tersebut. Data mining merupakan proses ekstraksi informasi atau pola yang penting dalam basis data yang berukuran besar (Han & Kamber, 2006). Data mining yang diterapkan pada data bunga karang tersebut diharapkan mampu menggali informasi pola cluster data tersebut. Clustering adalah proses data mining untuk melihat pola pendistribusian data yang akan digunakan untuk melihat karakteristik dari data (Han & Kamber 2006). Pola yang dihasilkan adalah pengelompokan himpunan objek ke dalam kelas-kelas berdasarkan nilai maksimal kemiripan data antar cluster. Sebagian besar data bunga karang adalah data kategorik. Algoritme ROCK dan QROCK merupakan algoritme clustering hirarki aglomeratif untuk data kategorik, oleh karena itu algoritme yang digunakan adalah algoritme ROCK dan QROCK. ROCK (RObust Clustering using links) adalah algoritme yang membangun link untuk menggabungkan cluster-cluster-nya dan tidak menggunakan jarak (distance) seperti pada algoritme clustering pada umumnya. Algoritme ROCK tidak hanya menghasilkan kualitas yang lebih baik daripada algoritme clustering distance tetapi juga memiliki penanganan data kategorik yang lebih baik (Guha et al 2000). QROCK adalah perbaikan dari algoritme ROCK karena dari segi waktu iterasi lebih efisien dan dapat mendeteksi outlier dari hasil proses algoritme ROCK (M.Dutta et al. 2005). Tujuan Tujuan dari penelitian ini adalah : 1 Menerapkan teknik clustering ROCK dan QROCK pada data kategorik dari bunga karang. 2 Membandingkan kualitas cluster yang dihasilkan oleh algoritme ROCK dan QROCK pada data kategorik dari bunga karang. Ruang Lingkup Penelitian ini dibatasi pada penggunaan teknik clustering untuk data kategorik dengan menggunakan algoritme ROCK dan QROCK. Data yang digunakan adalah data bunga karang jenis O.Hadromerida (Demospongiae. Porifera) yang terdapat di Lautan Atlantik hasil penelitian Iosune Uriz dan Marta Domingo pada tahun 1993. Data dapat diunduh pada situs http://archive.ics.uci.edu/ml/dataset/sponge. Manfaat Penelitian Penelitian ini diharapkan dapat bermanfaat bagi pihak-pihak yang membutuhkan informasi tentang penjelasan cara kerja ROCK dan QROCK, serta perbandingan diantara keduanya. TINJAUAN PUSTAKA Knowledge Discovery in Database (KDD) Knowledge Discovery in Database (KDD) adalah proses menentukan informasi yang berguna serta pola-pola yang ada dalam data (Goharian & Grossman, 2003). Informasi ini terkandung dalam basis data yang berukuran besar yang sebelumnya tidak diketahui dan potensial bermanfaat (Han & Kamber, 2006). KDD merupakan sebuah proses yang terdiri dari serangkaian proses iterative yang terurut. 1

Data mining merupakan salah satu langkah dalam prosess KDD. Tahapan proses KDD dapat dilihat pada Gambar 1. Gambar 1 Tahapan dalam KDD (Han & Kamber, 2006). Tahapan proses KDD menurut Han & Kamber (2006) terdiri dari : 1 Pembersihan data Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. 2 Integrasi data Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber menjadi bentuk sebuah penyimpanan data yang saling berhubungan, seperti dalam data warehousing. 3 Seleksi data Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 4 Tranformasi data Proses ini mentransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk dilakukan proses mine dengan cara melakukan peringkasan atau operasi agregasi. Dalam beberapa kasus proses tranformasi dilakukan sebelum proses seleksi, misalnya dalam kasus data warehouse. 5 Data mining Data mining merupakan proses yang penting, di mana metode-metode cerdas diaplikasikan untuk mengekstrak polapola dalam data. 6 Evaluasi pola Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola yang menarik dalam merepresentasikan pengetahuan. 7 Presentasi pengetahuan Penggunaan visualisasi dan teknik representasi untuk menunjukan pengetahuan hasil penggalian dari tumpukan data kepada pengguna. Data Mining Data mining merupakan suatu proses untuk menemukan pola-pola yang menarik dari data berukuran besar yang disimpan di basis data, data warehouse, atau sarana penyimpanan yang lain (Han & Kamber, 2006). Proses data mining dapat dibedakan menjadi dua tujuan utama yaitu (Kantardzic 2003) : 1 Descriptive data mining Deskripsi konsep atau task-relevan data dalam bentuk yang ringkas, informatif, dan diskriminatif. 2 Predictive data mining Dari hasil analisis data dibuat model untuk dijadikan alat prediksi tren dan data yang tidak diketahui nilainya. Clustering Clustering merupakan proses dari data mining untuk mengelompokkan kumpulan objek ke dalam kelas-kelas atau cluster sehingga objek-objek dalam satu cluster memiliki kemiripan yang tinggi tetapi tidak mirip terhadap objek dari cluster lain (Han & Kamber, 2006). Ukuran kemiripan dan ketidakmiripan dinilai berdasarkan nilai atribut yang mendeskripsikan objek. Metode yang umum digunakan dalam clustering dapat diklasifikasikan sebagai berikut (Han & Kamber, 2006) : 1 Metode partisi Metode yang membangun berbagai partisi (bagian) kemudian mengevaluasinya dengan beberapa kriteria. Metode ini akan memindahkan objek dari satu kelompok ke kelompok lain. 2 Metode hirarki Metode yang membangun dekomposisi hirarki dari himpunan data (objek) menggunakan beberapa kriteria. 3 Metode berdasarkan kepekatan Metode yang berdasarkan kepada keterhubungan diantara objek dan fungsi kepadatan. 2

4 Metode berdasarkan grid Metode yang berdasarkan kepada struktur multiple level granularity. 5 Metode berdasarkan model Metode yang menjadikan sebuah model merupakan patokan bagi setiap cluster mendapatkan model yang tepat terhadap suatu data dengan model yang diberikan. Agglomerative Hirarchical Clustering Agglomerative hirarchical clustering adalah metode clustering hirarki yang pada langkah awal menganggap masing-masing objek adalah cluster, cluster digabungkan pada coarser partition atau partisi yang lebih kasar dan proses penggabungan tersebut berlangsung sampai trivial partition terbentuk yaitu ketika semua objek berada pada satu cluster (Kantardzic 2003). Sebagian besar algoritme agglomerative hirarchical clustering terdiri dari algoritme single link atau algoritme complete link. Pada single link method jarak antara dua cluster adalah minimum jarak antardua objek dari dua cluster (minimum jarak antardua cluster). Sedangkan complete link method jarak antardua cluster adalah maksimum jarak antara dua objek dari dua cluster (maksimum jarak antardua cluster) (Kantardzic 2003). Data Kategorik Data kategorik yaitu data non-numeric (symbolic) yang variabelnya memiliki dua relasi. Contoh dari data kategorik seperti warna mata, jenis kelamin, dan kewarganegaraan (Kantardzic 2003). Biasanya data kategorik adalah data hasil pengamatan. Data numerik adalah data metric atau data yang merupakan hasil pengukuran. Data kategorik diklasifikasikan menjadi dua yaitu : 1. Data nominal yaitu data kategorik yang tak dapat dinyatakan bahwa kategori yang satu lebih baik dari kategori lainnya. Contoh dari data nominal yaitu pria wanita, ungu biru. 2. Kategorik ordinal, yaitu data kategorik yang mempunyai urutan tertentu namun jarak antar kategori sulit untuk dinyatakan sama. Contoh dari data ordinal yaitu keadaan baik, sedang, dan buruk. ROCK (RObust Clustering using links) ROCK adalah algoritme clustering hirarki aglomeratif untuk mengelompokkan data kategorik (Guha et al. 2000). ROCK merupakan algoritme yang membangun link untuk menggabungkan cluster-cluster-nya dan tidak menggunakan distance seperti algoritme clustering pada umumnya (Guha et al. 2000). Link antar dua tuple pada ROCK adalah nilai common neighbor yang mereka miliki dari data set. Common neighbor yaitu jumlah tetangga yang sama diantara dua objek data. Algoritme ROCK akan berhenti ketika (M.Dutta et al. 2005) : 1 Jumlah dari cluster yang diharapkan sudah terpenuhi, 2 Tidak ada lagi link antar cluster-clusternya. Langkah-langkah dalam algoritme ROCK yaitu (M.Dutta et al. 2005) : 1 Menentukan inisialisasi untuk masingmasing data poin sebagai cluster pada awalnya. 2 Menghitung similaritas antarcluster dengan cluster lainnya dengan menggunakan persamaan : dan...(1) adalah pasangan cluster yang akan dihitung similaritasnya, k merupakan nomor atribut dan adalah jumlah kandidat atribut ke k. Penjumlahan satu perjumlah kandidat atribut dilakukuan untuk atribut yang bukan anggota atribut irisan dan. 3 Mencari nilai nbrlist antarcluster dengan cluster lainnya. Nbrlist yaitu matrik nilai tetangga yang didapat dari threshold yang diberikan (nilai threshold antara 0 dan 1). Suatu objek dan bertetangga jika...(2) 4 Menghitung link antarcluster dengan cluster lainnya. antar objek diperoleh dari jumlah common neighbor dan. Jika 3

bernilai besar maka kemungkinan besar dan berada pada cluster yang sama. 5 Menentukan local heap. Local heap yaitu nilai goodness measure untuk setiap cluster dengan cluster lainnya jika link 0. Goodness measure yaitu persamaan yang menghitung jumlah link dibagi dengan kemungkinan link yang akan terbentuk dilihat dari ukuran cluster-nya. Persamaan untuk mencari goodness measure :...(3) adalah jumlah common neighbor dari dan, adalah jumlah anggota cluster i dan adalah jumlah anggota cluster j, dengan persamaan :...(4) 6 Menentukan global heap. Global heap yaitu nilai maksimum goodness measure antar kolom di baris ke i. 7 Ulangi langkah 5 dan 6 hingga mendapat kan nilai maksimum di global heap dan local heap. 8 Selama ukuran data > k, dengan k adalah jumlah kelas yang ditentukan lakukan penggabungan cluster yang memiliki nilai local heap terbesar dengan global heap terbesar menjadi satu cluster, tambahkan link antar cluster yang digabungkan, hapus cluster yang digabungkan dari local heap dan update global heap dengan nilai hasil penggabungan. 9 Lakukan langkah 8 hingga menemukan jumlah cluster yang diharapkan (k) atau cluster akan dibangkitkan secara otomatis ketika tidak ada lagi link antar clusternya. yaitu Time complexity pada saat worst case n adalah jumlah data, neighbor, dan neighbor. dengan maksimum jumlah nilai rata-rata jumlah QROCK (Quick RObust Clustering using links) QROCK adalah algoritme yang memiliki metode yang lebih efisien untuk menghasilkan cluster akhir algoritme ROCK ketika ROCK sudah tidak memiliki link antar cluster-nya (M.Dutta, et al. 2005). QROCK tidak lagi menggunakan link untuk menggabungkan cluster-cluster-nya tetapi menggunakan primitif tipe data abstrak MFSET. MFSET (Merge Find Set) atau disjoint set adalah suatu struktur data yang menggunakan dua operasi yaitu : 1 Find: menentukan himpunan yang berisi elemen khusus. Digunakan untuk menentukan dua elemen yang berada pada himpunan yang sama. 2 Merge: menggabungkan dua himpunan menjadi satu himpunan. MFSET yang digunakan pada QROCK yaitu (M.Dutta et al. 2005 ): 1 Merge (A,B) : menggabungkan komponen A dan B. 2 Find (x) : mencari komponen yang salah satu anggota dari komponen tersebut adalah x. 3 Initial (x) : membuat komponen yang hanya berisi elemen x. Langkah-langkah dalam algoritme QROCK yaitu (M.Dutta et al. 2005 ) : 1 Menentukan inisialisasi untuk masingmasing data poin sebagai cluster pada awalnya. 2 Menghitung similaritas antar cluster dengan cluster lainnya dengan menggunakan persamaan (1). 3 Mencari nilai nbrlist antar cluster dengan cluster lainnya. 4 Inisialisasi MFSET yang terdiri dari count, first element, set name, next element. 5 Inisialisasi elemen x adalah anggota himpunan data. 6 Inisialisasi elemen y adalah semua nilai nbrlist x = 1. 7 Find nilai A sebagai first element nilai x. 8 Find nilai B sebagai first element nilai y. 9 Jika nilai A B maka merge A dan B, selainnya passed. 10 Ulangi langkah 5 dan 6 selama y berada dalam nbrlist. 4

Time complexity dari algoritme QROCK yaitu. Evaluasi Cluster Cluster validation adalah kemampuan untuk mendeteksi ada atau tidaknya suatu stuktur tidak acak dalam data. Beberapa aspek penting dalam cluster validation yaitu (Tan et al. 2006) : 1 Menentukan clustering tendency dari data. Clustering tendency yaitu kecenderungan sifat dari suatu cluster. 2 Menentukan jumlah cluster yang tepat. 3 Mengevaluasi seberapa baik hasil analisis cluster tanpa diberikan informasi eksternal. 4 Membandingkan hasil analisis cluster terhadap hasil eksternal yang diketahui, misalnya label kelas eksternal. 5 Membandingkan dua himpunan cluster untuk menentukan yang lebih baik. Pada aspek satu, dua dan tiga tidak diperlukan informasi eksternal yang merupakan teknik unsupervised, sedangkan aspek empat membutuhkan informasi eksternal. Aspek empat termasuk teknik supervised. Aspek lima dapat dilakukan pada teknik supervised atau unsupervised. Perhitungan evaluasi dapat digolongkan menjadi tiga jenis yaitu (Tan et al. 2006) : 1 Unsupervised. Mengukur goodness dari struktur clustering tanpa informasi eksternal. Besaran unsupervised dibagi dua yaitu : cluster cohesion (seberapa dekat suatu objek dalam suatu cluster) dan cluster separation atau isolation (perbedaan atau seberapa jauh suatu cluster dengan cluster lainnya). 2 Supervised. Mengukur kecocokan struktur clustering dengan struktur eksternal. 3 Relative. Membandingkan clustering yang beda. Besaran evaluasi cluster relative merupakan teknik unsupervised atau supervised yang digunakan untuk perbandingan. Algoritme ROCK dan QROCK merupakan teknik unsupervised dan graphbase sehingga cohesion didapatkan dengan menjumlahkan bobot link dari proximity graf yang terhubungkan pada cluster dengan persamaan (Tan et al. 2006) :..(5) Demikian juga dengan separation antar dua cluster dapat dihitung dari jumlah bobot link suatu objek data dalam suatu cluster ke objek data di cluster lain dengan persamaan :...(6) Fungsi proximity dapat berupa similarity, dissimilarity atau fungsi kuantitas lainnya. Dikarenakan fungsi kuantitas dari algoritme ROCK dan QROCK adalah fungsi goodness pada persamaan (3) maka persamaan yang digunakan untuk menghitung nilai evaluasi cluster-nya adalah persamaan goodness measure dibagi m yaitu cluster yang terbentuk. Persamaan cohesion dan separation tersebut yaitu :...(7)...(8) Dengan sama dengan persamaan (4). Semakin tinggi nilai total cohesion dan semakin minimum nilai separation maka semakin baik suatu cluster terhadap yang lainnya. Karena fungsi yang digunakan adalah fungsi goodness measure yang semakin besar nilai goodness-nya maka semakin dekat suatu objek cluster dengan objek lainnya. Outlier Outlier menurut ilmu statistik adalah data yang terdapat di atas batas atas atau di bawah batas bawah rentangan data (Huntsbergen 1987). Outlier adalah data yang tidak mengikuti tingkahlaku umum sebagian besar data, perbedaan yang penting atau sesuatu yang tidak konsisten dalam himpunan data (Kantardzic 2003). METODE PENELITIAN Proses Knowledge Discovery in Database Penelitian ini akan dianalisis dengan menggunakan langkah-langkah Knowledge Discovery in Database (KDD) (Han & Kamber, 2006) dengan tahapan seperti pada Gambar 2. 5