DETEKSI OUTLIER BERBASIS KLASTER PADA SET DATA DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL
|
|
|
- Fanny Hadiman
- 9 tahun lalu
- Tontonan:
Transkripsi
1 Vol. 5, No. 3, Januari 2010 ISSN DETEKSI OUTLIER BERBASIS KLASTER PADA SET DATA DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL * Dwi Maryono, ** Arif Dunaidy Program Magister Teknik Informatika, Fakultas Teknologi Informasi, ITS Jl. Raya ITS, Kampus ITS, Sukolilo, Surabaya, * [email protected], ** [email protected] Abstrak Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik data mining. Penelitian ini bermanfaat untuk mendeteksi perilaku yang tidak normal seperti deteksi intrusi aringan, diagnosa medis, dan lain-lain. Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun kebanyakan hanya fokus pada data dengan atribut yang seragam, yaitu data numerik atau data kategorikal saa. Kenyataan di lapangan, set data seringkali merupakan gabungan dari dua nilai atribut seperti ini. Dalam penelitian ini diaukan sebuah metode untuk mendeteksi outlier pada set data campuran yaitu MixCBLOF. Algoritma ini merupakan gabungan dari beberapa teknik, seperti klasterisasi subset data, deteksi outlier berbasis klaster, dan penggunaan Multi-Atribute Decision Making (MADM). Ui coba dilakukan pada beberapa set data dari UCI Machine Learning Repository. Evaluasi dilakukan dengan membandingkan rata-rata pencapaian coverage untuk top ratio antara umlah outlier eksak dengan umlah data. Dari ui coba yang dilakukan, diperoleh hasil bahwa MixCBLOF cukup efektif untuk mendeteksi outlier pada set data campuran dengan rata-rata pencapaian coverage 73,54%. Hasil ini lebih baik dibandingkan dengan algoritma CBLOF yang diterapkan pada set data yang telah didiskritisasi dengan ratarata pencapaian coverage 67,98%, untuk diskritisasi dengan K-Means, dan 59,48% untuk diskritisasi dengan equal width. Kata kunci: data campuran, deteksi outlier, Outlier berbasis klaster, CBLOF, MixCBLOF. Abstract Outlier detection is one of most the important research on mining data. This data is useful to detect abnormal behaviour such as networking detection, medical diagnosis and the others. Such methods have been developed to solve these problems, yet mostly focus on the data in similar attribute like numerical and categorical. Set data, in fact, is combination of the two attributes. This research purposes a method to detect the outlier at mix data set, like Mix CBLOF. Furthermore, algorithm is combination of several techniques such as subset cluster, outlier detection cluster based, and Multiattribute Decision Making (MADM). A test was done of a set of data from UCI Machine Learning Repository. The Evaluation is conducted to compare the means of coverage achieiving for top ratio between the amount of exact outlier and the amount of data. From the test, it can be concluded that MixCBLOF is effective to detect outlier at set of mix data of means of coverage achieiving 73.54%. This result is better with CBLOF algorithm which is applied at the data set discridit with coverage achieiving 67.98% for discreet with K-Means, and 59.48% for equal width discreet. Key words: mix data, outlier detection, outlier cluster based, CBLOF, MixCBLOF. PENDAHULUAN 197
2 198 Jurnal Ilmiah KURSOR Vol. 5, No. 3, Januari 2010, hlm Deteksi outlier pada sekumpulan data adalah salah satu bidang penelitian yang terus berkembang dalam topik data mining. Penelitian ini sangat bermanfaat untuk mendeteksi adanya perilaku atau keadian yang tidak normal seperti deteksi penipuan penggunaan kartu kredit, deteksi intrusi aringan, penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan sebagainya. Bermacam-macam metode telah dikembangkan baik berdasarkan teknik ataupun enis data yang diadikan obyek. Untuk set data numerik, ada banyak teknik yang telah dikembangkan seperti statistic-based, distancebased, density-based, clustering-based, subspace-based, dan lain-lain. Sedangkan untuk set data kategorikal teknik yang dapat digunakan di antaranya adalah CBLOF, FPOF dan LSA. Namun demikian kebanyakan metode tersebut hanya fokus pada set data yang seragam, yaitu hanya terdiri dari salah satu tipe atribut saa. Adanya tipe atribut yang berbeda biasanya diatasi dengan melakukan transformasi dari salah satu tipe data menadi tipe data yang lain, seperti diskritisasi atribut numerik. Namun demikian metode diskritisasi atribut numerik ini terdapat kekurangan seperti yang disebutkan Tan dkk [1]. Kekurangannya, antara lain adalah sulitnya menetapkan umlah interval yang tepat sehingga dapat menyebabkan banyak pola yang redundant atau sebaliknya banyak pola yang hilang. Ini akan sangat berpengaruh ika atribut numerik cukup banyak dalam set data. Seauh ini tidak banyak penelitian yang bekera pada data campuran seperti ini. He dkk [2] telah melakukan klasterisasi pada data campuran dengan pendekatan divide and conquer. Ia membagi set data menadi dua subset data, yaitu numerik dan kategorikal. Masing-masing subset data diklasterisasi, kemudian hasilnya digabungkan. Data hasil penggabungan keduanya kemudian diklaster lagi untuk mendapatkan hasil akhir. Hasil eksperimen menunukkan bahwa metode ini cukup efektif untuk melakukan klasterisasi. Jika klasterisasi dapat dilakukan dengan partisi data numerik dan kategorikal [2], maka tentunya cara ini uga memungkinkan untuk deteksi outlier. Mengingat penelitian lain uga menunukkan bahwa deteksi outlier pada subset data tertentu dapat digunakan untuk mendeteksi outlier dari keseluruhan set data [3,4] Selain itu, penggabungan klasterisasi subset data uga digunakan untuk menemukan outlier pada data numerik dengan konsep cluster uncertainty [5]. Dari beberapa penelitian yang disebutkan di atas, dimungkinkan untuk melakukan beberapa pendekatan yang dapat diusulkan dalam penelitian ini. Di antaranya adalah pembagian set data menadi numerik dan kategorikal, deteksi outlier pada subset data, dan pemanfaatan klasterisasi untuk untuk deteksi outlier. Untuk dapat menerapkan ide tersebut digunakan definisi outlier yang paling tepat. Outlier didefinisikan berbasis klaster, dimana sebuah outlier didefinisikan sebagai sembarang obyek yang tidak berada pada klaster yang cukup besar [6]. Meskipun konsep ini diusulkan untuk data kategorikal, tapi sangat memungkinkan untuk diterapkan dengan data numerik dengan menggunakan konsep arak. Penelitian ini dilakukan untuk menggabungkan beberapa pendekatan di atas dengan langkah-langkah sebagai berikut. Pertama, bagi set data menadi dua bagian, yaitu subset data numerik dan kategorikal [2]. Selanutnya dilakukan teknik klasterisasi dan deteksi outlier pada masing-masing partisi secara terpisah. Untuk meningkatkan hasil deteksi outlier pada keseluruhan data, dilakukan teknik persilangan. Hasil klasterisasi sub data numerik digunakan untuk menentukan deraat outlier berbasis klaster dengan atribut sub data kategorikal. Dan sebaliknya hasil klasterisasi sub data kategorikal digunakan untuk menentukan deraat outlier dengan menggunakan atribut numerik. Selanutnya, untuk menggabungkan hasil langkah-langkah ini dapat digunakan multi-atribut decision making (MADM) yaitu dengan menggunakan fungsi atau operator agregat tertentu [7]. DETEKSI OUTLIER BERBASIS KLASTER Metode yang diaukan dalam penelitian ini adalah pengembangan dari konsep outlier berbasis klaster yaitu dengan mendefinisikan konsep baru mengenai deteksi outlier berbasis klaster [6] (Gambar 1).
3 Maryono dan Dunaidy, Deteksi Outlier Berbasis Klaster 199 Gambar 1 memperlihatkan data dua dimensi yang terdiri dari empat klaster C 1, C 2, C 3, dan C 4. Dari sudut pandang klaster, obyek-obyek data pada C 1 dan C 3 dapat dianggap sebagai outlier karena tidak terdapat pada klaster yang besar yaitu C 2 dan C 4. C 2 dan C 4 disebut klaster besar karena C 2 dan C 4 merupakan klaster yang dominan pada set data, yaitu memuat sebagian besar obyek pada set data [9]. Konsep CBLOF digunakan untuk menyelesaikan masalah deteksi outlier pada data kategorikal [6]. Namun, dalam penelitian ini dapat ditunukkan bahwa konsep ini uga dapat dikembangkan untuk data numerik uga. Gambar 1. Set Data DS1 [8]. Gambar 2. Jarak Obyek dari Centroid Terdekat [10]. Gambar 3. Jarak Relatif Obyek dari Centroid Terdekat [10]. CBLOF (Cluster-Based Outlier Factor) Untuk mengidentifikasi signifikansi fisik dari definisi outlier, setiap obyek didefinisikan dengan sebuah deraat yang disebut dengan CBLOF (Cluster Based Local Outlier Factor) yang diukur dengan ukuran klaster di mana ia berada dan araknya terhadap klaster terdekat (ika ia terdapat dalam obyek kecil) [6]. Definisi 1: Misalkan A 1, A 2,..., A m adalah himpunan atribut dengan domain D 1, D 2,..., D m. Set data D terdiri dari record atau transaksi t: td 1 D 2 D m. Hasil klasterisasi pada D dinotasikan sebagai C= {C 1, C 2,, C k } dimana C i C = dan C 1 C 2 C k =D, dengan k adalah umlah klaster. Masalah yang penting pada tahap selanutnya adalah pendefinisian klaster besar (large cluster) dan klaster kecil (small cluster). Definisi 2: Misalkan C= {C 1, C 2,, C k } adalah himpunan klaster pada set data dengan urutan ukuran klaster adalah C1 C2 Ck. Diberikan dua parameter numerik dan. Didefinisikan b sebagai batas antara klaster besar dan kecil ika memenuhi formula pada Persamaan (1) dan (9). ( C 1 + C C b ) D * (1) C b / C b +1 (2) Didefinisikan himpunan klaster besar (large cluster) sebagai LC = {C i, / i b} dan klaster kecil (small cluster) didefinisikan dengan SC = {C i, / i >b}. Definisi 2 memberikan ukuran kuantitatif untuk membedakan klaster besar dan kecil. Persamaan (1) menunukkan bahwa sebagian besar data bukan outlier. Oleh karena itu klaster besar mempunyai porsi yang auh besar.
4 200 Jurnal Ilmiah KURSOR Vol. 5, No. 3, Januari 2010, hlm Sebagai contoh ika diberikan 90% maka artinya lebih klaster besar memuat lebih dari 90% dari total obyek data pada set data. Persamaan (2) menunukkan fakta bahwa klaster besar dan kecil harus memiliki perbedaan yang signifikan. Jika diberikan = 5, artinya setiap klaster besar minimal 5 kali lebih besar dari klaster kecil. Definisi 3: Misalkan C = {C 1, C 2,, C k } adalah himpunan klaster dengan urutan ukuran C 1 C 2 C k. Didefinisikan LC dan SC sebagaimana Definisi 2. Untuk sembarang record t, didefinisikan cluster-based local outlier factor sebagaimana Persamaan (3). C *max(s im( C, t) untuk tc i, Ci SC dan C LC CBLOF( t) Ci *(sim( Ci, t)) untuk tc i, Ci LC i (3) Fungsi sim(c,t) pada Persamaan (3) adalah fungsi kemiripan transaksi t terhadap kelas C sebagaimana dalam algoritma Squeezer [8]. Meskipun CBLOF diperuntukkan untuk data kategorikal dan dapat dikembangkan untuk data numerik. Ini dilakukan dengan mendefinisikan CBLOF dengan perhitungan deraat outlier sebagaimana Persamaan (3). NCBLOF (Implementasi CBLOF pada Data Numerik) Salah satu pendekatan deteksi outlier berbasis klaster adalah dengan mengesampingkan klaster-klaster kecil yang auh dari klaster yang lain. Pendekatan ini dapat digunakan dengan menggunakan sembarang teknik klasterisasi, namun memerlukan threshold berapa umlah minimum ukuran klaster dan arak antara klaster kecil dengan klaster yang lebih besar. Pendekatan lain adalah dengan menentukan deraat dimana sebuah obyek berada pada sembarang klaster. Sebagai perwakilan klaster dapat digunakan centroid untuk menghitung arak antara obyek dengan klaster. Ada beberapa cara untuk mengukur arak sebuah obyek ke sebuah klaster, yaitu dengan mengukur arak sebuah obyek terhadap centroid terdekat, atau dapat uga dengan mengukur arak relatif obyek dengan centroid terdekat. Jarak relatif adalah rasio arak obyek terhadap centroid dibagi dengan arak rata-rata semua titik terhadap centroid klaster di mana ia berada. Hasil deraat outlier dapat dilihat berdasarkan shading. Pendekatan hanya berdasarkan arak saa akan menyebabkan masalah ika set data mempunyai kerapatan yang berbeda-beda. Pada Gambar 2, dengan menggunakan arak saa, obyek D tidak dianggap sebagai outlier, padahal obyek tersebut cenderung sebagai outlier lokal dari klaster terdekatnya. Sedangkan pendekatan pada Gambar 3, akan mengidentifikasikan A, C, dan D sebagai outlier sebagaimana Algoritma LOF [9]. Namun demikian ika sebuah obyek berada dalam klaster yang kecil, maka untuk perhitungan dengan arak relatif seperti di atas ia tidak akan terdeteksi sebagai outlier. Oleh karena itu, pada penelitian ini digunakan pendekatan sebagaimana pada CBLOF yang menganggap obyek-obyek dalam klaster yang kecil sebagai kandidat outlier. Deteksi outlier menggunakan konsep mengenai klaster besar dan klaster kecil uga, dimana deraat outlier dihitung sebagai Numerical Cluster-based Local Outlier Factor (NCBLOF). Dalam CBLOF ada dua komponen pembentukan deraat outlier, yaitu umlah anggota klaster besar terdekat dan kemiripannya terhadap klaster terdekat tersebut. Dua komponen ini digunakan uga untuk mendefinisikan NCBLOF sebagaimana Persamaan (4). C NCBLOF( t) Ci 1 relatif distance( 1 relatif distance( untuk tc i, Ci SC dan C LC, t, C ) C argmin( t, centroid( C )) untuk tc i, Ci LC t, C )) i Rumus NCBLOF pada Persamaan (4) didefinisikan dengan menyesuaikan interprestasi deraat outlier pada CBLOF pada Persamaan (3). MULTI CRITERIA DECISION MAKING (MCDM) MCDM adalah cabang dari masalah pengambilan keputusan, yang berkaitan dengan pengambilan keputusan, di bawah keberadaan seumlah kriteria keputusan. Metode ini dibagi menadi Multi-obective Decision making (MODM) dan Multi-attribute decision making (MADM). Metodologi ini mencakup adanya konflik antar kriteria, incomparable unts, dan kesulitan dalam pemilihan alternatif. Dalam MODM, alternatif-alternatif solusi tidak (4)
5 Maryono dan Dunaidy, Deteksi Outlier Berbasis Klaster 201 ditentukan lebih dahulu. Melainkan sekumpulan fungsi obyektif dioptimasi terhadap sekumpulan konstrain atau batasan. Dalam MADM, alternatif dievaluasi dengan mengatasi sekumpulan kriteria atau atribut yang saling konflik. Masalah penggabungan outlier dalam permasalahan penelitian ini termasuk dalam kategori ini. Masing-masing sub data numerik dan kategorikal dianggap sebagai sebuat atribut dalam MADM. Teori yang banyak digunakan dalam MADM adalah multi-atribut value theory (MAVT), dimana perangkingan alternatif keputusan dibangkitkan. Dalam prakteknya, metode berbasis MAVT menggunakan operator agregasi yang dirasa cocok untuk mendapatkan faktor outlier dari seluruh obyek. Operator tersebut di antaranya adalah operator product (kali), sum (tambah), dan operator S. Berikut adalah macam-macam operator agregat yang dapat digunakan dalam MAVT: 1. Operator Perkalian Operator perkalian uga dikenal sebagai metode perkalian berbobot. Operator ini menggunakan perkalian untuk menghubungkan rating dari atribut sebagai berikut: ( a 1, a 2,..., a m ) = (a 1 w1, a 2 w2,..., a m wm ) = a 1 w1 a 2 w2... a m wm = a i wi 2. Operator Penumlahan Operator penumlahan uga disebut dengan metode penumlahan berbobot. Operator ini menggunakan penambahan untuk menghubungkan rating dari atribut sebagai berikut: ( a 1, a 2,..., a m ) = +(w 1 a 1, w 2 a 2,..., w m a m ) = w 1 a 1 +w 2 a 2,... +w m a m = w i a i 3. Operator S Operator S uga dikenal dengan operator maksimum atau operator agregasi dasar. Operator ini memberikan nilai terbesar dari sekumpulan nilai yang diberikan sebagai berikut: ( a 1, a 2,..., a m ) = S (w 1 a 1, w 2 a 2,..., w m a m ) = max { w i a i } ALGORITMA MIXCBLOF Penelitian ini mengusulkan metode MixCBLOF untuk menyelesaikan masalah deteksi outlier pada set data campuran. Misalkan diberikan sebuah set data D yang terdiri dari n obyek dengan atribut campuran numerik dan kategorikal. Langkah-langkah Algoritma MixCBLOF adalah sebagai berikut: 1. Bagi set data campuran menadi dua bagian, yaitu set data numerik, D 1 dan set data kategorikal, D Lakukan klasterisasi pada subset data numerik D 1 sehingga diperoleh seumlah klaster C 11, C 12,..., C 1p dengan ukuran berturut-turut: C 11 C C 1p Tentukan klaster besar (LC) dan klaster kecil (SC) menggunakan Definisi Terapkan deteksi outlier berbasis klaster menggunakan atribut numerik, NCBLOF, terhadap obyek-obyek dalam klaster pada langkah 2 sebagaimana Persamaan (4). 4. Terapkan deteksi outlier berbasis klaster menggunakan atribut kategorikal terhadap obyek-obyek dalam klaster pada langkah 2 dengan CBLOF pada Persamaan (3). 5. Lakukan klasterisasi pada sub set data kategorikal sehingga diperoleh seumlah klaster C 21, C 22,..., C 2q dengan ukuran berturut-turut: C 21 C C 2q Tentukan klaster besar (LC) dan klaster kecil (SC) menggunakan Definisi Terapkan deteksi outlier berbasis klaster menggunakan atribut kategorikal terhadap obyek-obyek dalam klaster pada langkah 2 dengan CBLOF pada Persamaan (3). 7. Terapkan deteksi outlier berbasis klaster menggunakan atribut numerik terhadap obyek-obyek dalam klaster pada langkah 5 dengan NCBLOF pada Persamaan (4). 8. Susun deraat outlier pada langkah 3, 4, 6, dan 7 dalam matrik keputusan A=[a i ]. 9. Lakukan pembobotan secara default (bobot sama) atau dengan metode Entropy. 10. Gabungkan bobot outlier tiap obyek t 1, t 2,.., t n pada langkah 9 dengan fungsi agregat untuk mendapatkan deraat outlier akhir OF dari sebuah obyek t i. OF(t i ) = (a 1i, a 2i, a 3i, a 4i ) HASIL DAN PEMBAHASAN Algoritma MixCBLOF diimplemetasikan pada beberapa set data nyata yang diperoleh dari UCI Machine Learning Repository dengan
6 202 Jurnal Ilmiah KURSOR Vol. 5, No. 3, Januari 2010, hlm beberapa karakteristik khusus. Set data ui coba terdiri dari atribut campuran numerik dan kategorikal serta memiliki beberapa kelas atau klaster dimana sebagian di antaranya adalah kelas dengan ukuran yang relatif lebih kecil sehingga dapat dianggap sebagai sekumpulan outlier. Data yang digunakan pada ui coba ini adalah Set data Cleveland (Heart Disease), Hypothyroid, Hepatitis, dan Annealing. Dalam algoritma MixCBLOF ini melibatkan Algoritma Squeezer dan CBLOF untuk sub data kategorikal, sedangkan untuk data numerik digunakan Algoritma CLUTO [10] dan NCBLOF. Ui coba dialankan sesuai dengan skenario yang telah dirancang, yaitu: 1. Menentukan parameter yang tepat utuk Algoritma MixCBLOF meliputi penentuan,, operator agregat, dan pembobotan yang tepat untuk masing-masing set data 2. Membandingkan MixCBLOF dibandingkan dengan algoritma lain, yaitu algoritma CBLOF yang diterapkan pada set data yang sudah didiskritisasi. Evaluasi dilakukan dengan menggunakan top ratio dan coverage. Top ratio adalah perbandingan antara umlah k outlier yang dihasilkan oleh algoritma (n top ratio) dengan umlah keseluruhan obyek dalam data. Sedangkan coverage adalah rasio antara umlah outlier eksak yang terdeteksi dengan umlah keseluruhan outlier eksak yang dicari. Agar lebih mudah dalam melakukan analisa hasil, evaluasi dilakukan dengan melihat rata-rata pencapaian coverage untuk top ratio antara umlah outlier eksak dengan umlah keseluruhan data. Hasil ui coba algoritma MixCBLOF dapat dilihat pada Tabel 1. Pencapaian coverage terbaik untuk top ratio antara umlah outlier eksak dengan umlah keseluruhan data dicetak dengan huruf tebal. Jika dilakukan rata-rata, algoritma MixCBLOF mencapai coverage 73.54%. Dari Tabel 1 dapat dilihat bahwa di antara operator yang ada, operator perkalian menghasilkan kinera yang lebih baik ika dibandingkan dengan dua operator lainnya, yaitu penumlahan dan maksimum. Selain itu, pembobotan sama menghasilkan kinera yang lebih baik ika dibandingkan pembobotan dengan pembobotan berdasaran entropy. Salah satu parameter yang uga penting, selain operator agregat dan pembobotan, adalah dan yang mempengaruhi dipenuhinya konsep klaster besar dan kecil. Pada Tabel 2 dapat dilihat hasil pencapaian coverage untuk dua kasus, yaitu dipenuhinya konsep klaster besar dan kecil atau tidak. Berdasarkan hasil Tabel 2, tidak ada perbedaan yang signifikan terhadap dipenuhinya konsep klaster besar dan kecil. Namun demikian konsep ini tetap dibutuhkan berdasarkan definisi CBLOF yang dielaskan di awal. Tabel 1. Pencapaian Coverage untuk n = Jumlah Outlier Eksak pada Keseluruhan Set Data Berdasarkan Operator dan Pembobotan. Coverage Set data (+) S wi=1 entropy wi=1 entropy wi=1 entropy Sub data Cleveland I 76.90% 53.80% 92.30% 76.90% 53.80% 23.10% Sub data Cleveland II 77.00% 77.00% 89.00% 86.00% 66.00% 66.00% Dataset Cleveland 73.00% 74.00% 76.00% 75.00% 69.00% 68.00% Hypothyroid 72.10% 73.00% 47.50% 63.90% 9.00% 54.90% Hepatitis 52.40% 33.30% 66.70% 47.60% 33.30% 19.00% Annealing 35.30% 32.40% 47.10% 47.10% 26.50% 26.50% Rata-rata 64.45% 57.25% 69.77% 66.08% 42.93% 42.92% Tabel 2. Perbandingan Kinera MixCBLOF Dilihat dari Pemenuhan Konsep Klaster Besar dan Kecil. Set data Dipenuhi Konsep Klaster Besar/Kecil Iya Tidak Sub Cleveland I 61.50% 53.80% Hypothyroid 67.20% 72.10% Hepatitis 66.70% 66.7%
7 Maryono dan Dunaidy, Deteksi Outlier Berbasis Klaster 203 Annealing 47.10% 47.10% Rata-rata Coverage 60.63% 59.93% Tabel 3. Perbandingan Pencapaian Coverage Terbaik untuk Top Ratio, N=Jumlah Outlier Eksak, Antara Mixcblof dengan CBLOF Berbasis Diskritisasi Set Data. Set data Sub data Cleveland I Sub data Cleveland II Best Coverage CBLOF Equal MixCBLOF K-Means Width 92.30% 84.60% 92.30% 88.60% 82.90% 88.60% Hypothyroid 73.00% 66.40% 16.40% Hepatitis 66.70% 61.90% 61.90% Annealing 47.10% 44.10% 38.20% Rata-rata 73.54% 67.98% 59.48% Tabel 4. Running Time Algoritma MixCBLOF dilihat dari Jumlah Atribut dan Record. Set data Sub data Cleveland I Jumlah record Jumlah atribut Running time (detik) Sub data Cleveland II Hypothyroid Hepatitis Annealing Pada ui coba uga dilakukan perbandingan MixCBLOF terhadap Algoritma CBLOF dengan diskritisasi atribut numerik. Hasil dari keseluruhan ui coba dirangkum pada Tabel 3. Dari Tabel 3 dapat dilihat bahwa Algoritma MixCBLOF dapat menyelesaikan masalah deteksi outlier pada set data campuran dengan cukup baik. Top ratio antara umlah outlier eksak dengan umlah keseluruhan data mampu mencapai rata-rata coverage sebesar %. Hasil ini lebih baik ika dibandingkan CBLOF dengan diskritisasi numerik yang hanya mampu mencapai rata-rata coverage 67.98% untuk diskritisasi dengan K-Means dan 59.48% untuk diskritisasi dengan equal width. Tabel 4 menampilkan informasi mengenai running time dari algoritma MixCBLOF ika dilihat dari umlah atribut dan record pada masing-masing kasus. Ui coba ini dilakukan pada lingkungan sebagai berikut. 1. Hardware: a. Processor: Dual Core Genuine Intel (R) CPU 1.73 GHz b. Memory: DDR 512 MB c. Hard disk: 80 GB 2. Software: a. Microsoft Windows XP Professional Version 2002 Service Pack 2 b. MATLAB Versi 7.0 SIMPULAN DAN SARAN Dari ui coba dan pembahasan yang telah dilakukan dapat ditarik simpulan sebagai berikut: 1. Berkaitan dengan penggunaan parameter Algoritma MixCBLOF: a. Penetapan nilai dan yang tepat diperlukan untuk mendapatkan konsep klaster besar dan kecil. Hal ini berguna untuk mendapatkan definisi outlier yang sesungguhnya sesuai dengan konsep outlier berbasis klaster. Mengenai besaran nilai dan dapat ditentukan dengan melihat hasil klasterisasi pada kedua subset data numerik dan kategorikal. b. Operator perkalian menghasilkan ratarata coverage lebih baik dibandingkan dua operator penumlahan dan maksimum untuk top ratio seumlah outlier eksak. c. Pembobotan sama (w i =1) menghasilkan rata-rata coverage lebih baik daripada pembobotan berdasarkan entropy untuk top ratio seumlah outlier eksak. 2. Algoritma MixCBLOF dapat menyelesaikan masalah deteksi outlier pada set data dengan atribut campuran dengan baik, yaitu dengan rata-rata coverage 73.54%. Hasil ini lebih baik daripada menggunakan metode diskritisasi atribut numerik yang hanya mencapai coverage 67.98% dengan menggunakan metode unsupervised seperti K-Means dan 59.48% dengan menggunakan equal width.
8 204 Jurnal Ilmiah KURSOR Vol. 5, No. 3, Januari 2010, hlm Untuk pengembangan lebih lanut, dapat dilakukan dengan mencari sebuah metode yang dapat secara otomatis menentukan parameter treshold s dan k pada metode klasterisasi. Ide yang dapat digunakan adalah dengan mengoptimalkan hasil klasterisasi yang mampu menghasilkan klaster-klaster besar dan kecil dengan ukuran yang auh berbeda. DAFTAR PUSTAKA [1] Tan PN, Steinbach M, and Kumar V. Introduction to Data Mining. Boston: Pearson Addison Weisley [2] He Z, Deng X, and Xu X. Clustering Mixed Numeric and Categorical Data: A Cluster Ensemble Approach. eprint arxiv:cs/ URL: 1.pdf, diakses tanggal 20 November [3] Assent I, Krieger R, Muller E, and Seidl T. Subspace Outlier Mining in Large Multimedia Databases. Dagstuhl Seminar Proceedings 07181: Parallel Universes and Local Patterns URL: oad?doi= &rep=rep1&type= pdf, diakses tanggal 20 Nopember [4] Aggarwal C and Yu P. An Effective and Efficient Algorithm for High-dimensional Outlier Detection. VLDB Journal. 14: [5] Hong Y, Kwong S, Chang Y and Ren Q. Unsupervised Data Pruning for Clustering of Noisy Data. Elvesier: Knowledge- Based System. 21: [6] He Z, Xu X and Deng S. Discovering Cluster-based Local Outliers. Pattern Recognition Letter. 24: [7] Climaco J. Multicriteria analysis. New York: Springer-Verlag [8] He Z, Xu X and Deng S. Squeezer: An Efficient Algorithm for Clustering Categorical Data. Journal of Computer Science and Technology. 17: [9] Breunig M M. Kriegel. HP, Ng RT and Sander J. LOF: Identifying Density-based Local Outliers. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data [10] Anonim. CLUTO Software for Clustering High-Dimensional Dataset. URL: diakses tanggal 20 November 2009.
DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO
DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO 5107201006 LATAR BELAKANG MASALAH Deteksi Outlier Data Set Numerik : distance-based, density-based,
PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION
PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION Ahmad Yusuf 1*), Handayani Tandrasa 1) 1) Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember
BAB I PENDAHULUAN 1.1. Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini adalah era dimana perkembangan teknologi semakin pesat dan cepat. Seiring dengan perkembangan teknologi yang ada, maka ukuran data yang diolah juga akan semakin
Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means
Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.
SISTEM PENUNJANG KEPUTUSAN DAN TEKNIK DATA MINING UNTUK PENENTUAN WILAYAH PENERIMA BANTUAN
SISTEM PENUNJANG KEPUTUSAN DAN TEKNIK DATA MINING UNTUK PENENTUAN WILAYAH PENERIMA BANTUAN Ahlihi Masruro 1) 1) Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman, Yogyakarta
PREDIKSI OUTLIER MENGGUNAKAN DATA TEPI CLUSTER UNTUK MENINGKATKAN KUALITAS PENGETAHUAN HASIL DATA MINING
PREDIKSI OUTLIER MENGGUNAKAN DATA TEPI CLUSTER UNTUK MENINGKATKAN KUALITAS PENGETAHUAN HASIL DATA MINING Barry Nuqoba, Arif Djunaidy Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi
KLASIFIKASI DATA MULTIDIMENSI MENGGUNAKAN SUBTRACTIVE CLUSTERING DAN K-NEAREST NEIGHTBOR
KLASIFIKASI DATA MULTIDIMENSI MENGGUNAKAN SUBTRACTIVE CLUSTERING DAN K-NEAREST NEIGHTBOR (Classification Multidimension Data Using Subtractive Clustering and K-Nearest Neightbor) Nur Wakhidah Fakultas
DETEKSI DATA PENCILAN MENGGUNAKAN K_MEANS CLUSTERING
DETEKSI DATA PENCILAN MENGGUNAKAN K_MEANS CLUSTERING Naniek Widyastuti Teknik Informatika, Fakultas Teknologi Industri Institut Sains & Teknologi AKPRIND Yogyakarta e_mail: [email protected] ABSTRACT
PENGELOMPOKAN NASABAH BANK MENGGUNAKAN ALGORITMA K- MEANS UNTUK MEMBERIKAN PENAWARAN YANG TEPAT
PENGELOMPOKAN NASABAH BANK MENGGUNAKAN ALGORITMA K- MEANS UNTUK MEMBERIKAN PENAWARAN YANG TEPAT Ismail Setiawan 1) 1) Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,
Studi Banding antara Metode Minimum Distance dan Gaussian Maximum Likelihood Sebagai Pengklasifikasi Citra Multispektral
JURNAL MATEMATIKA DAN KOMPUTER Vol. 7. No. 2, 26-35, Agustus 2004, ISSN : 40-858 Studi Banding antara Metode Minimum Distance dan Gaussian Maximum Likelihood Sebagai Pengklasifikasi Citra Multispektral
CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE
CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE Lutfi Hidayat Ramdhani¹, Hetti Hidayati², Mahmud Dwi Suliiyo³ ¹Teknik Informatika,, Universitas Telkom Abstrak K-Modes
K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN
1 K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN Rani Nooraeni*, Dr. Jadi Supriadi, DEA, Zulhanif, S.Si,M.Sc Jurusan statistika terapan, Fakultas MIPA UNPAD [email protected]* Abstrak.Membagi suatu data
CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)
CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) Nur Wakhidah Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang Abstract Classification is the process of organizing
KLASTERISASI PADA SUBRUANG DENGAN ALGORITMA PEMBOBOTAN ENTROPI PADA K-MEANS PADA SPARSE DATA BERDIMENSI TINGGI
TUGAS AKHIR CI1599 KLASTERISASI PADA SUBRUANG DENGAN ALGORITMA PEMBOBOTAN ENTROPI PADA K-MEANS PADA SPARSE DATA BERDIMENSI TINGGI AHMAD DENI DWI PRANOTO NRP 5103 100 015 Dosen Pembimbing I Rully Soelaiman,
PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak
PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta [email protected] Abstrak Tenaga
SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika. Oleh :
PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS, DAN AKREDITASI SMA DI DAERAH ISTIMEWA YOGYAKARTA SKRIPSI Diajukan untuk Memenuhi
KLASTERISASI BERDASARKAN KESAMAAN POLA DENGAN MENGGUNAKAN ALGORITMA PCLUSTER (Kata kunci: Penggalian Data, Klasterisasi Kesamaan Pola)
PRESENTASI TUGAS AKHIR KI091391 KLASTERISASI BERDASARKAN KESAMAAN POLA DENGAN MENGGUNAKAN ALGORITMA PCLUSTER (Kata kunci: Penggalian Data, Klasterisasi Kesamaan Pola) Penyusun Tugas Akhir : Kartika Wijayati
Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining
Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering
PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA
PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010
PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification
BAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling
BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Dalam suatu universitas, salah satu analisis yang dapat dilakukan untuk melihat perkembangan prestasi akademik seorang mahasiswa adalah dengan memantau nilai
FUNGSI ACKLEY DAN PENCARIAN NILAI OPTIMUMNYA MENGGUNAKAN ALGORITMA STROBERI. Muhamad Fadilah Universitas Jenderal Soedirman
Prosiding Seminar Nasional Matematika dan Terapannya 06 p-issn : 550-0384; e-issn : 550-039 FUNGSI ACKLEY DAN PENCARIAN NILAI OPTIMUMNYA MENGGUNAKAN ALGORITMA STROBERI Muhamad Fadilah Universitas Jenderal
Klasterisasi Wilayah Pemasaran berdasarkan Preferensi Konsumen terhadap PT. X
Klasterisasi berdasarkan Konsumen terhadap PT. X Prasetyo, Andhika Eko Program Studi Manajemen Rekayasa Universitas Internasional Semen Indonesia Jl. Veteran Gresik, Jawa Timur 61122 E-mail: [email protected]
UKDW BAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Menentukan harga HP bekas bukanlah pekerjaan yang gampang, sehingga membutuhkan ketelitian dari calon pembeli. HP bekas tentunya memungkinkan banyak bagian yang sudah
PEMODELAN KINERJA LEMBAGA PERANGKAT DAERAH
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA Fakultas MIPA, Universitas Negeri Yogyakarta, 6 Mei 009 PEMODELAN KINERA LEMBAGA PERANGKA DAERAH KARIYAM enaga Pengaar urusan Statistika
PRESENTASI TUGAS AKHIR KI091391
PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)
BAB 1 PENDAHULUAN 1.1 Pengantar Pendahuluan 1.2 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Pengantar Pendahuluan Kehadiran teknologi informasi memang dirasakan manfaatnya dalam mempermudah kegiatan dan kerja manusia dalam melakukan pekerjaannya. Lembaga bisnis pastilah
Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan
Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Ni Made Anindya Santika Devi, I Ketut Gede Darma Putra, I Made Sukarsa Jurusan Teknologi Informasi, Universitas Udayana Bukit Jimbaran,
OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA
OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA Optimization Techniques Modi ed k Nearest Neighbor Classi cation Using Genetic Algorithm Siti Mutro n 1, Abidatul
ALGORITMA SHARED NEAREST NEIGHBOR BERBASIS DATA SHRINKING
Zainal, Algoritma Shared Nearest Neighbor berbasis Data Shrinking ALGORITMA SHARED NEAREST NEIGHBOR BERBASIS DATA SHRINKING Rifki Fahrial Zainal 1 Arif Djunaidy 2 1 Jurusan Teknik Informatika, Fakultas
Optimasi Pemilihan Perangkat Lunak ERP Menggunakan Multi Criteria Decision Making Fuzzy-AHP dan TOPSIS
Optimasi Pemilihan Perangkat Lunak ERP Menggunakan Multi Criteria Decision Making Fuzzy-AHP dan TOPSIS Penyusun Tugas Akhir: Radhea Permata Dewi (5112100114) Pembimbing Tugas Akhir: Prof. Drs. Ec. Ir.
2. Data & Proses Datamining
2. Data & Proses Datamining Data 1. Input (Dataset) 2. Pengolahan Data Awal 3. Metode Learning Tahapan Utama Proses Data Mining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/ Knowledge)
Pembuatan Aplikasi Pendeteksi Anomali Pada Pola Konsumsi Listrik Pelanggan Kota Surabaya Menggunakan Algoritma Klasterisasi Berbasis Densitas
1 Pembuatan Aplikasi Pendeteksi Anomali Pada Pola Konsumsi Listrik Pelanggan Kota Surabaya Menggunakan Algoritma Klasterisasi Berbasis Densitas Achmad Zainuddin Zakariya, Arif Djunaidy, Renny Pradina Kusumawardani
ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK
ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK Wiwit Agus Triyanto Fakultas Teknik, Program Studi Sistem Informasi Universitas Muria Kudus Email: [email protected] ABSTRAK Strategi pemasaran
OPTIMASI PUSAT KLASTER MENGGUNAKAN ALGORITMA FAST GENETIC KMEAN PADA DATA BERDISTRIBUSI NORMAL
OPTIMASI PUSAT KLASTER MENGGUNAKAN ALGORITMA FAST GENETIC KMEAN PADA DATA BERDISTRIBUSI NORMAL Budi Nur Iman, Entin Martiana K, Umi Sa adah Politeknik Elektronika Negeri Surabaya (PENS), ITS Surabaya,
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bencana kebakaran dapat terjadi dimana saja dan kapan saja, misalkan terjadi di area tempat tinggal, di tambang atau di hutan. Untuk kebakaran hutan, kerugian yang
Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN
Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN
Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia
Prosiding Statistika ISSN: 2460-6456 Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia Supiyah, 2 Aceng Komarudin Mutaqin, 3 Teti
Pendekatan Algoritma Genetika pada Peminimalan Fungsi Ackley menggunakan Representasi Biner
Vol. 7, 2, 108-117, Januari 2011 Pendekatan Algoritma Genetika pada Peminimalan Fungsi Ackley menggunakan Representasi Biner Jusmawati Massalesse Abstrak Tulisan ini dimaksudkan untuk memperlihatkan proses
http://www.brigidaarie.com proses menganalisa data untuk mencari polapola tersembunyi dengan menggunakan metodologi otomatis Istilah lain : Machine Learning Knowledge Discovery in Database (KDD) Predictive
PENERAPAN ALGORITMA K-MEANS UNTUK MENENTUKAN TINGKAT KESEHATAN BAYI DAN BALITA PADA KABUPATEN DAN KOTA DI JAWA TENGAH
PENERAPAN ALGORITMA K-MEANS UNTUK MENENTUKAN TINGKAT KESEHATAN BAYI DAN BALITA PADA KABUPATEN DAN KOTA DI JAWA TENGAH Erga Aprina Sari Jurusan Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian
SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA
SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA Kamil Malik Jurusan Teknik Informatika STT Nurul Jadid Paiton [email protected] Andi Hutami Endang Jurusan Teknik Informatika
Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika
Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Siti Mutrofin 1, Arrie Kurniawardhani 2, Abidatul Izzah 3, Mukhamad Masrur 4 Universitas Pesantren Tinggi Darul Ulum
WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR
WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR Eko Prasetyo 1), Rifki Fahrial Zainal 2), Harunur Rosyid 3) 1), 2) Teknik Informatika Universitas Bhayangkara Surabaya Jl. A. Yani 114, Surabaya, 60231 3) Teknik
CLUSTERING UNTUK DATA KOMPETENSI WIDYAISWARA MENGGUNAKAN ALGORITMA KMEANS
CLUSTERING UNTUK DATA KOMPETENSI WIDYAISWARA MENGGUNAKAN ALGORITMA KMEANS Diana Triastuty, I Ketut Eddy Purnama, dan Surya Sumpeno Jurusan Teknik Elektro FTI, ITS, Surabaya Kampus ITS Keputih, Sukolilo,
Data Mining. Metode Klasterisasi K-Means
Data Mining Metoe Klasterisasi K-Means Pokok Pembahasan. Konsep Dasar Clustering. Tahapan Clustering. K-Means Clustering Algoritma K-Means Rumus Umum K-Means 4. Case Stu Konsep Dasar Klusterisasi Data,
TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL
TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom
ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING
ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING Ni Putu Eka Merliana, Ernawati, Alb. Joko Santoso Program Studi Magister Teknik Informatika, Fakultas Teknik Industri, Universitas
ALGORITMA PREDIKSI OUTLIER MENGGUNAKAN BORDER SOLVING SET
Jurnal Informatika Mulawarman Vol. 9 No. 3 Oktober 2014 5 ALGORITMA PREDIKSI OUTLIER MENGGUNAKAN BORDER SOLVING SET Barry Nuqoba 1), Arif Djunaidy 2) 1) Program Studi Sistem Informasi FST Universitas Airlangga
PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS TANPA BATASAN MINIMUM SUPPORT PADA BASIS DATA RETAIL
PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS TANPA BATASAN MINIMUM SUPPORT PADA BASIS DATA RETAIL Dhiani Tresna Absari 1), Arif Djunaidy 2) Fakultas Teknologi Informasi Institut Teknologi
PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ
PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ SKRIPSI Diajukan untuk memenuhi salah satu syarat memperoleh Gelar Sarjana pada Program Studi Sistem
REKOMENDASI SOLUSI PADA COMPUTER MAINTENANCE MANAGEMENT SYSTEM MENGGUNAKAN ASSOCIATION RULE, KOEFISEN KORELASI PHI DAN CHI-SQUARE
REKOMENDASI SOLUSI PADA COMPUTER MAINTENANCE MANAGEMENT SYSTEM MENGGUNAKAN ASSOCIATION RULE, KOEFISEN KORELASI PHI DAN CHI-SQUARE Farid Sukmana 1) dan Joko Lianto Buliali 2) 1) Management of Information
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 2, No. 1, Tahun
Vol. 2, No. 1, Tahun 2013 65 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about/index Email : [email protected] Analisa Penjualan Barang Menggunakan
TEKNIK DATA MINING DAN DECISION SUPPORT SYSTEM UNTUK KEUNGGULAN BERSAING (Study Kasus Perusahaan TV Kabel )
TEKNIK DATA MINING DAN DECISION SUPPORT SYSTEM UNTUK KEUNGGULAN BERSAING (Study Kasus Perusahaan TV Kabel ) Ahlihi Masruro 1) 1) Teknik Informatika STMIK AMIKOM Yogyakarta Jl. Ring Road Utara Condong Catur
Case-Based Reasoning Untuk Diagnosa Penyakit Respirologi Anak Menggunakan Similaritas Simple Mathcing Coefficient
17 Case-Based Reasoning Untuk Diagnosa Penyakit Respirologi Anak Menggunakan Similaritas Simple Mathcing Coefficient Tursina Prodi Teknik Informatika, Fakultas Teknik Universitas Tanjungpura Jl. Ahmad
PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION
Ahmad Yusuf & Handayani Tandrasa, Prediksi Nilai dengan Vol. 4, No. 1 Juni 014 ISSN 088-130 PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION Ahmad Yusuf 1*), Handayani Tandrasa
Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4
Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Catatan Kuliah untuk Bab 4 Pengantar Data Mining oleh Tan, Steinbach, Kumar dialihbahasakan oleh Tim Pengajar Konsep Data Mining
PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN
PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas
METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM
METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1), Wahyu Catur Wibowo 2) 1) Program Studi Sistem Informasi, Universitas Jember 2) Fakultas Ilmu Komputer,
PREDIKSI HARGA SAHAM MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION
PREDIKSI HARGA SAHAM MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION Siti Amiroch Universitas Islam Darul Ulum Lamongan, [email protected] Abstract. In the stock market, stock price prediction is
DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA
DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA Akmal Hidayat 1) & Entin Martiana 2) 1) Teknik Elektro Politeknik Bengkalis Jl.
Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means
Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Sri Redjeki Andreas 1), Andreas Pamungkas, Pamungkas Hastin 2), Hastin Al-fatah Al-fatah 3) 1)2)3) STMIK [email protected]
Moch. Ali Machmudi 1) 1) Stmik Bina Patria
UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 [email protected] 1) Abstrak Tujuan utama
PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI
PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI Gunawan 1, Fandi Halim 2, Tony Saputra Debataraja 3, Julianus Efrata Peranginangin 4
PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT
PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA Rodiyatul FS 1, Bayu Adhi Tama 2, Megah Mulya 3 1,2,3 Fakultas Ilmu Komputer, Universitas Sriwijaya
BAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI Pada bab ini akan dielaskan mengenai teori-teori yang berhubungan dengan penelitian ini, sehingga dapat diadikan sebagai landasan berpikir dan akan mempermudah dalam hal pembahasan
ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI
ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A
JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN:
JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: 2301-9271 545 Penerapan metode GA-Kmeans untuk pengelompokan pengguna pada Bapersip Provinsi Jawa Timur Ferlyna K Wardhani, Erma Suryani, dan Ahmad Mukhlason
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena
Penerapan Fuzzy C-Means untuk Deteksi Dini Kemampuan Penalaran Matematis
Scientific Journal of Informatics Vol., No., November 015 p-issn 407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 460-0040 Penerapan Fuzzy C-Means untuk Deteksi Dini Kemampuan Penalaran Matematis
SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN MANDOR MENGGUNAKAN METODE TOPSIS
ISSN : 1978-6603 SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN MANDOR MENGGUNAKAN METODE TOPSIS Asyahri Hadi Nasyuha *1, Muhammad Dahria *2, Tugiono *3 #1,2,3 Program Studi Sistem Informasi, STMIK Triguna Dharma
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN Latar Belakang Kredit merupakan salah satu usaha sekunder yang dapat dilakukan untuk pemenuhan kebutuhan sehari-hari. Pada umumnya, proses kredit dapat dilayani melalui lembaga keuangan
BAB 4 IMPLEMENTASI DAN EVALUASI
BAB 4 IMPLEMENTASI DAN EVALUASI 4.1 Spesifikasi Kebutuhan Program Untuk menjalankan aplikasi ini ada beberapa kebutuhan yang harus dipenuhi oleh pengguna. Spesifikasi kebutuhan berikut ini merupakan spesifikasi
MENDETEKSI KECURANGAN PADA TRANSAKSI KARTU KREDIT UNTUK VERIFIKASI TRANSAKSI MENGGUNAKAN METODE SVM
MENDETEKSI KECURANGAN PADA TRANSAKSI KARTU KREDIT UNTUK VERIFIKASI TRANSAKSI MENGGUNAKAN METODE SVM Yazid Magister Teknik Informatika Universitas Amikom Yogyakarta Email: ntyazid@gmail Arga Fiananta Magister
KLUSTERING DENGAN K-MEANS BERBASIS LVQ DAN K-MEANS BERBASIS OWA
Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 2, No. 1, April 2015, hlm. 29-33 KLUSTERING DENGAN K-MEANS BERBASIS LVQ DAN K-MEANS BERBASIS OWA Dian Eka Ratnawati 1, Indriati 2 1,2 Program Studi
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-6 1
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-6 1 Penerapan metode GA-Kmeans untuk pengelompokan pengguna pada Bapersip Provinsi Jawa Timur Ferlyna K Wardhani, Erma Suryani, dan Ahmad Mukhlason Sistem Informasi,
HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.
6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika
Descriptor Clustering SURF for Bag of Visual Words Representation in Fingerprint Images Using K-MEANS and Hierarchical Agglomerative Clustering
2015 International Conference on Information, Communication Technology and System Descriptor Clustering SURF for Bag of Visual Words Representation in Fingerprint Images Using K-MEANS and Hierarchical
SISTEM PENGENALAN PENGUCAPAN HURUF VOKAL DENGAN METODA PENGUKURAN SUDUT BIBIR PADA CITRA 2 DIMENSI ABSTRAK
SISTEM PENGENALAN PENGUCAPAN HURUF VOKAL DENGAN METODA PENGUKURAN SUDUT BIBIR PADA CITRA 2 DIMENSI Adhi Fajar Sakti Wahyudi (0722062) Jurusan Teknik Elektro Email: [email protected] ABSTRAK Teknologi pengenalan
MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP
MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP Page 87 Iin Parlina 1, Agus Perdana Windarto 2, Anjar Wanto 3, M.Ridwan Lubis
BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk
BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.
ANALISIS CLUSTER PADA DOKUMEN TEKS
Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma
PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS
PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS WULAN ANGGRAENI [email protected] Program Studi Pendidikan Matematika Universitas Indraprasta PGRI Abstract. The purpose of this study was to
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 11, November 2017, hlm. 1331-1336 http://-ptiik.ub.ac.id Implementasi Metode Profile Matching Dengan Weighted Product
Decision Support on Supply Chain Management System Using Apriori Data Mining Algorithm
Decision Support on Supply Chain Management System Using Apriori Data Mining Algorithm Eka Widya Sari, Ahmad Rianto, Siska Diatinari Andarawarih College Of Informatics And Computer Engineering Indonesia
Sistem Pendukung Keputusan Mahasiswa Berprestasi Menggunakan Metode TOPSIS
Sistem Pendukung Keputusan Mahasiswa Berprestasi Menggunakan Metode TOPSIS Sri Rahmawati Fitriatien Universitas PGRI Adi Buana Surabaya (Fakultas Keguruan dan Ilmu Pendidikan, Program Studi Pendidikan
PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI
PENGGUNAAN PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI Entin Martiana S.Kom,M.Kom, Nur Rosyid Mubtada i S. Kom, Edi Purnomo Jurusan Teknik Informatika
Pengenalan Pola. Klasterisasi Data
Pengenalan Pola Klasterisasi Data PTIIK - 2014 Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi Konsep Dasar Klusterisasi Data, atau Data Clustering
Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak
DATA MINING MELIHAT POLA HUBUNGAN NILAI TES MASUK MAHASISWA TERHADAP DATA KELULUSAN MAHASISWA UNTUK MEMBANTU PERGURUAN TINGGI DALAM MENGAMBIL KEBIJAKAN DALAM RANGKA PENINGKATAN MUTU PERGURUAN TINGGI Timor
Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori
Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori dan k-mean Clustering (Studi Kasus: Jurusan Teknik Informatika Universitas Trunojoyo Madura) Mohammad Syarief Prodi
(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M
(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M 1Toza Sathia Utiayarsih, 2 Yadi Suprijadi, 3 Bernik Maskun 1Mahasiswa Magister Statistika
Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,
K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: [email protected] Abstrak Pembentukan cluster merupakan
PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak
PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1 Wahyu Catur Wibowo 2 1 Program Studi Sistem Informasi, Universitas Jember 2 Fakultas Ilmu Komputer, Universitas Indonesia,
