DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

Ukuran: px

Mulai penontonan dengan halaman:

Download "DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO"

Irwan Iskandar
7 tahun lalu
Tontonan:

1 DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

2 LATAR BELAKANG MASALAH Deteksi Outlier Data Set Numerik : distance-based, density-based, clustering-based, subspace-based, dan lain-lain Data Set Kategorikal :CBLOF, FPOF dan LSA Bagaimana jika data set terdiri dari aribut campuran numerik dan kategorikal? Alternatif way : Transformasi dari satu tipe data menjadi tipe data lain. Contoh : He et al (2005b) melakukan diskritisasi tipe data numerik menjadi kategorikal untuk kemudian diterapkan algoritma FPOF.

3 LATAR BELAKANG MASALAH He et al (2005a): Klasterisasi data set campuran dengan membagi data set menjadi numerik dan kategorikal Assent et al (2007), Agrawal dan Yu (2005): deteksi outlier pada sub data set IDE : Partisi data set menjadi numerik dan kategorikal, deteksi outlier pada sub data set pemanfaatan klasterisasi untuk untuk deteksi outlier Hong et al (2008) : Menerapkan cluster ensemble untuk deteksi outlier Definisi Outlier seperti apa yang memungkinkan?

4 LATAR BELAKANG MASALAH Outlier berbasis klaster: sebarang obyek yang tidak berada pada klaster yang cukup besar Outlier bisa berupa obyek data tunggal atau dapat juga keseluruhan obyek dari klaster yang kecil. Penghitungan derajat outlier: Jika ia berada pada klaster besar, maka dilihat seberapa jauh ia menyimpang dari obyek lain dalam klaster tersebut. Jika obyek tersebut terdapat dalam klaster kecil maka dihitung kedudukannya terhadap klaster besar

5 LATAR BELAKANG MASALAH Ide : penggabungan partisi data set, klastering sub dataset dan deteksi outlier berbasis klaster Partisi data set Numerik dan kategorikal Klasterisasi dan deteksi outlier secara bersilang pada kedua sub data set Penggabungan derajat outlier dengan multi-atribut decision making (MADM)

6 PERUMUSAN MASALAH Rumusan masalah Bagaimana menerapkan teknik gabungan klasterisasi dan deteksi outlier lokal berbasis klaster untuk menemukan outlier pada data set campuran numerik dan kategorikal Bagaimana performa algoritma yang dihasilkan

7 TUJUAN DAN MANFAAT Tujuan : menyelesaikan masalah deteksi outlier pada data set campuran numerik dan kategorikal dengan menggunakan teknik gabungan klasterisasi dan deteksi outlier secara bersilang pada sub data set numerik dan kategorikal Manfaat : memberikan penyelesaian masalah deteksi outlier pada data set campuran numerik dan kategorikan sehingga dapat diaplikasikan pada masalah nyata

8 CLUSTER BASED LOCAL OUTLIER (CBLOF) Outlier: observasi menyimpang dari sebagian besar observasi lain, hingga muncul dugaan bahwa ia dibangkitkan oleh mekanisme yang salah. Macam-macam deteksi outlier: statistic-based, distance-based, density-based, cluster-based, dsb. Dari sudut pandang klaster, pada C 1 dan C 3 dapat dianggap sebagai outlier karena tidak terdapat pada klaster yang besar yaitu C 2 dan C 4 CBLOF diukur berdasar ukuran klaster di mana ia berada dan kemiripannya terhadap klaster terdekat

9 Metode CBLOF untuk deteksi outlier data kategorikal Konsep klaster besar dan klaster Kecil: Misalkan C= {C1, C2,, Ck} dengan C1 C2 Ck. Untuk parameter α dan β, didefinsikan b sebagai batas antara klaster besar dan kecil jika memenuhi formula ( C1 + C Cb ) D *α Cb / Cb+1 β Klaster besar didefinsikan LC = {Ci, / i b} Klaster kecil didefinisikan SC = {Ci, / i >b}. Penghitungan derajat outlier dari obyek t: CBLOF( t) = C Ci i *max(sim ( C *(sim( C i, t)) j, t) untuk t C untuk t C i i, C i, C i SC LC dan C j LC

10 Deteksi outlier berbasis klaster pada data numerik Pendekatan: Menganggap klaster-klaster kecil yang jauh dari klaster yang lain sebagai outlier menentukan derajat di mana sebuah obyek berada pada sebarang klaster Penentuan derajat outlier Mengukur jarak obyek terhadap centroid klaster terdekat Mengukur jarak relatif obyek terhadap klaster terdekat

11 Numerical CBLOF Penentuan derajat outlier berdasarkan konsep CBLOF Menggunakan konsep klaster besar dan klaster kecil Derajat outlier dihitung berdasarkan ukuran klaster terdekat dan jaraknya terhadap klaster terdekat NCBLOF( t) = C j C i 1 relatif distance( t, C C 1 relatif distance( t, C )) j i ) j untuk t C = arg min( t, centroid( C untuk t C i, C i i, C SC i LC dan C j )) j LC,

12 MCDM (Multicriteria Decision Making) Berkaitan dengan pengambilan keputusan di bawah keberadaan sejumah criteria keputusan Dibagi menjadi Multi-objective Decision making (MODM) dan Multi-attribute decision making (MADM). Dalam masalah penggabungan derajat outlier digunakan MADM MADM menggunakan MAVT dengan operator agregat Operator product (a 1 w1, a 2 w2,..., a m wm ) = a 1 w1 a 2 w2... a m wm = a i wi Operator tambah + (a 1 w1, a 2 w2,..., a m wm ) = a 1 w1 + a 2 w a m wm = Σa i wi Operator S. S (w 1 a 1, w 2 a 2,..., w m a m ) = max { w i a i }

13 Penentuan Bobot dalam MADM Penentuan bobot :Subyektif, Default (bobot sama), otomatis (Konsep Entropy) Misalkan diberikan matriks keputusan a a A= M an a a a M n2 L L M L a a a 1m 2 m M nm Normalisasi x x X = M xn Hitung Nilai entropi e j dan derajat divergensi f n j e j = k ( xij ln xij) f j = 1- e j i= 1 f j Hitung bobot tiap kolom/atribut w j = m f x x x M 2m L L M L k= 1 k x x x 1m 2 m M nm

14 ALGORITMA MIXCBLOF Gambar Diagram Alir ALgoritma MixCBLOF

15 Uji Coba dan Analisis Hasil Data Set Uji Coba: UCI Machine Learning Real dataset Data set Cleveland (Heart Disease) Dataset Hypothyroid Dataset Hepatitis Dataset Annealing Karakteristik data : data set terdiri dari beberapa klaster di mana di antaranya terdapat klaster dengan ukuran ralatif kecil Pengukuran kinerja berdasarkan top ratio dan coverage

16 Skenario Menentukan parameter yang tepat utuk algoritma MixCBLOF, meliputi penentuan α, β, operator agregat dan pembobotan yang tepat untuk masing-masing dataset Membandingkan MixCBLOF dibandingkan dengan algoritma lain, dalam hal ini adalah algoritma CBLOF yang diterapkan pada dataset yang sudah didiskritisasi

17 HASIL UJI COBA Sub Dataset Cleveland I Tabel 4.3 Hasil MixCBLOF pada subdata Cleveland I dengan parameter s=2.3, k=4, wi=1, α=80%, dan β=10

18 Sub Dataset Cleveland II (wi=1 dan entropy)

19 Hasil Uji Coba Dataset Hypothyroid (entropy weight)

20 Hasil Uji Coba Dataset Hepatitis (equal weigth)

21 Hasil Uji Coba Dataset Annealing (equal weigth)

22 EVALUASI Operator dan Pembobotan terbaik Tabel 4.29 Pencapaian coverage untuk n=jumlah outlier eksak pada keseluruhan dataset berdasarkan operator dan pembobotan

23 EVALUASI Penetapan α dan β: terpenuhinya konsep klaster besar dan kecil Tabel 4.28 Pengaruh pemenuhan konsep klaster besar dan kecil terhadap kinerja algoritma MixCBLOF

24 DAFTAR PUSTAKA Aggarwal, C., Yu, P. (2005) An effective and efficient algorithm for high-dimensional outlier detection. VLDB Journal 14(2), hal Assent, I., Krieger,R., Muller,E., Seidl, T. (2007) "Subspace outlier mining in large multimedia databases", Dagstuhl Seminar Proceedings :Parallel Universes and Local Patterns Breunig, M. M.., Kriegel, H. P., Ng, R. T., Sander, J. (2000). LOF: identifying density-based local outliers. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, hal Climaco, J. (1997), Multicriteria analysis, Springer-Verlag, New York. Karpys, G., Han, H, Kumar, V. (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modelling. IEEE Computer, Vol 32, No He, Z., Xu, X., Deng, S. (2002), Squeezer: An Efficient Algorithm for Clustering Categorical Data. Journal of Computer Science and Technology, 17(5): He, Z., Deng, X., Xu, X. (2005a), Clustering Mixed Numeric and Categorical Data: A Cluster Ensemble Approach, eprint arxiv:cs/ He, Z, X. Xu, J. Huang, S. Deng (2005b). FP-Outlier: Frequent Pattern Based Outlier Detection. Computer Science and Information Systems, 2(1), Hong, Y, Kwong, S., Chang, Y., Ren, Q. (2008), Unsupervised Data Pruning for Clustering of Noisy Data, Elvesier : Knowledge-Based System 21 hal Huang, Z (1998), Extension to the k-means Algorithm for Clustering Large dataset with Categorical Values, Data Mining and Knowledge Discovery, 2, hal Knorr, E.. Ng, R., Tucakov, T.(2000). Distance-based outliers: algorithms and applications. VLDB Journal 8(3-4), hal Sedl, T., Miller, E., Assent, I., Sfenhausen, U. (2009). "Outlier Detection and Ranking Based on Subspace Clustering". Daghtul Seminar Procedings Tan, Pan. N, Steinbach, M., Kumar, V. (2006), Introduction to Data mining. Perason, Addison Weisley. Boston.

dokumen-dokumen yang mirip

DETEKSI OUTLIER BERBASIS KLASTER PADA SET DATA DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL

Vol. 5, No. 3, Januari 2010 ISSN 0216-0544 DETEKSI OUTLIER BERBASIS KLASTER PADA SET DATA DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL * Dwi Maryono, ** Arif Dunaidy Program Magister Teknik Informatika,