METODE MANHATTAN, EUCLIDEAN DAN CHEBYSHEV PADA ALGORITMA K-MEANS UNTUK PENGELOMPOKAN STATUS DESA

Transkripsi

1 METODE MANHATTAN, EUCLIDEAN DAN CHEBYSHEV PADA ALGORITMA K-MEANS UNTUK PENGELOMPOKAN STATUS DESA Yoga Religia 1 Program Magister Teknik Informatika, Fakultas Ilmu Komputer 1 Universitas Dian Nuswantoro, Semarang, Indonesia Jl. Imam Bonjol 207 Semarang Telp : (+6224) , Fax : (+6224) religia19@gmail.com 1 ABSTRAK Kementerian Desa, Pembangunan Daerah Tertinggal dan Transmigrasi (Kementerian Desa PDTT) merupakan kementerian dalam Pemerintahan Indonesia yang membidangi urusan pembangunan desa dan kawasan perdesaan, pemberdayaan masyarakat desa, percepatan pembangunan daerah tertinggal, dan transmigrasi. Data Potensi Desa tahun 2014 (Podes 2014) merupakan data yang dikeluarkan oleh Badan Pusat Statistik yang bekerjasama dengan Kementerian Desa PDTT dalam bentuk unsupervised dan terdiri dari Data Podes 2014 dibuat berdasarkan tingkat perkembangan desa (village specific) di Indonesia dengan menjadikan desa sebagai unit analisis. Data mining merupakan suatu metode yang dapat digunakan untuk menelompokkan objek dalam sebuah data kedalam kelas-kelas yang memiliki kriteria yang sama (clustering). Salahsatu algoritma yang dapat digunakan untuk proses clustering yaitu algoritma k-means. Pengelompokan data menggunakan k- means dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Dalam penelitian ini akan dilakukan perbandingan metode perhitungan jarak pada k-means antara Manhattan, Euclidean dan Chebychev. Pengujian akan dilakukan menggunakan waktu eksekusi dan davies bouldin index. Dari pengujian yang sudah dilakukan, metode perhitungan jarak Chebyshev memiliki akumulasi waktu paling efisien dibandingkan Manhattan dan Euclidean, sedangkan metode Euclidean memiliki nilai Index Davies paling optimal dibanding metode Manhattan dan Chebyshev. Kata kunci: Pembangunan Desa, k-means, Manhattan, Euclidean, Chebychev I. PENDAHULUAN Negara Indonesia adalah Negara Kesatuan yang berbentuk Republik dan Negara hukum, dimana kedaulatannya berada ditangan rakyat yang dilaksanakan menurut Undang-Undang Dasar. Negara Kesatuan Republik Indonesia dibagi atas daerah-daerah provinsi, dimana daerah provinsi dibagi atas kabupaten dan Kota [1]. Setiap daerah kabupaten di Indonesia terdiri dari desa-desa yang mempunyai hak asal usul, hak tradisional dalam mengatur dan mengurus kepentingan masyarakat setempat dan berperan mewujudkan cita-cita kemerdekaan. Dalam perjalanan ketatanegaraan Republik Indonesia, desa telah berkembang dalam berbagai bentuk sehingga perlu dilindungi dan diberdayakan agar menjadi kuat, maju, mandiri, dan demokratis. Untuk melindungi dan memberdayakan desa maka dibentuklah otonomi desa [2]. Dengan adanya otonomi desa dan adanya Peraturan Presiden Nomor 165 Tahun 2014 tentang Penataan Tugas dan Fungsi Kabinet Kerja, maka dibentuklah Kementerian Desa, Pembangunan Daerah Tertinggal, dan Transmigrasi Republik Indonesia. 1 Karya Ilmiah Data Mining, Agustus 2016

2 Kementerian Desa, Pembangunan Daerah Tertinggal, dan Transmigrasi (Kementerian Desa PDTT) adalah kementerian dalam Pemerintahan Indonesia yang dipimpin oleh Menteri dan bertanggung jawab kepada Presiden. Kementerian Desa PDTT membidangi urusan pembangunan desa dan kawasan perdesaan, pemberdayaan masyarakat desa, percepatan pembangunan daerah tertinggal, dan transmigrasi [3]. Rencana Pembangunan Jangka Menengah Nasional (RPJMN) Kementerian Desa PDTT tahun merupakan dokumen strategis rencana pembangunan yang harus dilakukan oleh pemerintah lima tahun kedepan. Dokumen RPJMN ini memuat sasaran pembangunan desa yang harus dicapai yaitu mengurangi jumlah Desa Tertinggal sampai desa dan meningkatkan jumlah Desa Mandiri sedikitnya desa di tahun 2019 [4]. Dalam rangka pembangunan desa, Pemerintah dan Pemerintah Daerah wajib mengembangkan sistem informasi desa dan pembangunan kawasan perdesaan [5]. Dalam mengembangkan sistem informasi desa dibutuhkan tersedianya data tentang desa. Kementerian Desa PDTT bekerjasama dengan Badan Perencanaan Pembangunan Nasional dan Badan Pusat Statistik mengeluarkan data Potensi Desa tahun 2014 (Podes 2014) yang terdiri dari desa dan memiliki 42 indikator/attribute dependent tanpa label status desa. Data Podes 2014 merupakan cara pengukuran yang disusun berdasarkan tingkat perkembangan desa di Indonesia yang menjadikan desa sebagai unit analisis dengan mengacu pada Undang Undang Nomor 6 Tahun 2014 tentang desa, yang dimaksudkan untuk memotret tingkat perkembangan desa di Indonesia dan dapat digunakan sebagai acuan untuk penyusunan perencanaan kebijakan dan pengawasan pembangunan desa [6]. Dengan adanya data Podes 2014 dapat dijadikan sebagai acuan untuk penyusunan perencanaan kebijakan. Berdasarkan Peraturan Kementerian Desa PDTT nomor 2 tahun 2016, status desa dikelompokkan kedalam 5 status yaitu Desa Mandiri, Desa Maju, Desa Berkembang, Desa Tertinggal dan Desa Sangat Tertinggal [7]. Belum adanya pengelompokkan data Potensi Desa tahun 2014 kedalam 5 status desa di Indonesia dan pengelompokan kedalam 5 satus desa yang ada saat ini adalah menggunakan data Indek Desa Membangun yang dikelompokkan perdaerah-daerah di Indonesia. Menjadikan pengelompokan status desa di Indonesia menggunakan data Potensi Desa Tahun 2014 menjadi dibutuhkan. Dalam teknologi informasi, data merupakan bagian penting yang tidak bisa dipisahkan dari pengambilan informasi. Informasi terkait dengan status desa seperti tersebut diatas dapat diperoleh menggunakan proses data mining terhadap data Podes Data mining merupakan rangkaian kegiatan yang digunakan untuk menemukan pola-pola baru, tersembunyi atau tidak terduga yang terdapat didalam data. Istilah data mining sering dianggap sebagai sinonim dari knowledge discovery from data (KDD) yaitu penemuan pengetahuan dari data yang berfokus pada tujuan proses mining [8]. Data mining dapat digunakan untuk melakukan clustering, klasifikasi dan asosiasi. Clustering/ pengelompokan yaitu proses mengelompokkan data yang dilakukan dengan menemukan kesamaan karakteristik antara data yang sesuai dengan kelompok kelas tertentu [9]. Secara sederhana, clustering dapat digunakan untuk menganalisis sekumpulan data dan menghasilkan satu set pengelompokan aturan yang dapat digunakan untuk mengelompokkan data masa depan. Pada dunia nyata terkadang data tidak hanya dikelompokkan kedalam status biner (kelas biner), akan tetapi dibutuhkan juga untuk dikelompokkan kedalam multi status (multi-class). Dalam kasus data-set multi-class, pengelompokan akan menjadi lebih sulit 2 Karya Ilmiah Data Mining, Agustus 2016

3 dibandingkan kasus kelas biner. Ada beberapa algoritma yang dapat digunakan untuk pengelompokan multi-class. Pernah dilakukan suatu penelitian tentang penggunaan algoritma k-means untuk pengelompokan multi-class yang menunjukkan bahwa algoritma k-means memberikan hasil yang efektif untuk pengelompokan data-set multiclass [10]. Algoritma k-means merupakan algoritma pengelompokan iteraktif yang melakukan partisi data-set kedalam jumlah K cluster yang sudah di tentukan sejak awal. Dalam penelitian yang lain pernah dibandingkan clustering berbasis partisi, clustering berbasis hirarki dan clustering berbasis density yang mengungkapkan bahwa algoritma k-means merupakan algoritma berbasis partisi yang memberikan performa lebih baik, mampu membagi cluster dengan baik dan unggul untuk data yang berukuran besar/banyak dibandingkan algoritma clustering berbasis hirarki dan density [11] [12]. Selain itu beberapa penelitian yang lain juga menyebutkan bahwa clustering menggunakan algoritma k-means lebih cepat daripada clustering dengan algoritma lain dan juga menghasilkan cluster yang berkualitas ketika menggunakan data-set berukuran besar [13] [14] [15] [16]. Dalam melakukan pengelompokan, algoritma k-means membutuhkan metode perhitungan jarak untuk menghitung jarak terdekat antara suatu instance data ke sebuah titik centroid. Perhitungan jarak pada algoritma k-means dapat menggunakan Manhattan, Euclidean dan Chebychev. Pernah dilakukan penelitian tentang perbandingan metode perhitungan jarak Manhattan dan Euclidean pada algoritma k-means untuk mengetahui jumlah squar error, data yang digunakan dalam penelitian tersebut adalah Bank data-set yang diuji menggunakan tool WEKA [17]. Dari hasil pengujian menunjukkan bahwa metode perhitungan jarak Manhattan lebih baik dari pada metode Euclidean [17]. Pada penelitian lain dilakukan perbandingan 3 metode perhitungan jarak pada algoritma k-means yaitu Manhattan, Euclidean dan Minkowski untuk menemukan metode perhitungan jarak yang paling baik, penelitian tersebut dilakukan dengan membandingkan hasil dari penelitian sebelumnya yang mana disimpulkan bahwa metode perhitungan jarak Euclidean lebih baik dari pada metode Manhattan dan Minkowski [18]. Pernah dilakukan juga penelitian yang lain tentang perbandingan metode perhitungan jarak Manhattan, Euclidean dan Chebyshev pada algoritma k-means untuk mengetahui akurasi dan mean absolute error [19]. Dari pengujian yang dilakukan menggunakan flower data-set diperoleh hasil bahwa metode perhitungan jarak Chebyshev lebih baik dari metode Manhattan dan Euclidean [19]. Dari penelitian-penelitian sebelumnya diketahui bahwa metode perhitungan jarak Manhattan, Euclidean dan Chebyshev saling unggul antara satu dengan yang lain tergantung data-set yang digunakan. Berdasarkan pertimbangan yang sudah disebutkan diatas, pada penelitian ini akan dilakukan pengelompokan status desa di Indonesia menggunakan algoritma k-means kedalam 5 status desa, serta membandingkan metode perhitungan jarak manakah yang paling efektif untuk pengelompokan data Podes II. TINJAUAN PUSTAKA Algoritma k-means merupakan algoritma pengelompokan iteraktif yang melakukan partisi data-set kedalam jumlah K cluster yang sudah di tentukan sejak awal. Dalam penelitian yang lain pernah dibandingkan clustering berbasis partisi, clustering berbasis hirarki dan clustering berbasis density yang mengungkapkan bahwa algoritma k-means merupakan algoritma berbasis partisi yang memberikan performa lebih baik, mampu membagi cluster dengan baik dan unggul untuk data yang berukuran besar/banyak 3 Karya Ilmiah Data Mining, Agustus 2016

4 dibandingkan algoritma clustering berbasis hirarki dan density [11] [12]. Selain itu beberapa penelitian yang lain juga menyebutkan bahwa clustering menggunakan algoritma k-means lebih cepat daripada clustering dengan algoritma lain dan juga menghasilkan cluster yang berkualitas ketika menggunakan data-set berukuran besar [13] [14] [15] [16]. Dalam melakukan pengelompokan, algoritma k-means membutuhkan metode perhitungan jarak untuk menghitung jarak terdekat antara suatu instance data ke sebuah titik centroid. Perhitungan jarak pada algoritma k-means dapat menggunakan Manhattan, Euclidean dan Chebychev. Pernah dilakukan penelitian tentang perbandingan metode perhitungan jarak Manhattan dan Euclidean pada algoritma k-means untuk mengetahui jumlah squar error, data yang digunakan dalam penelitian tersebut adalah Bank data-set yang diuji menggunakan tool WEKA [17]. Dari hasil pengujian menunjukkan bahwa metode perhitungan jarak Manhattan lebih baik dari pada metode Euclidean [17]. Pada penelitian lain dilakukan perbandingan 3 metode perhitungan jarak pada algoritma k-means yaitu Manhattan, Euclidean dan Minkowski untuk menemukan metode perhitungan jarak yang paling baik, penelitian tersebut dilakukan dengan membandingkan hasil dari penelitian sebelumnya yang mana disimpulkan bahwa metode perhitungan jarak Euclidean lebih baik dari pada metode Manhattan dan Minkowski [18]. Pernah dilakukan juga penelitian yang lain tentang perbandingan metode perhitungan jarak Manhattan, Euclidean dan Chebyshev pada algoritma k-means untuk mengetahui akurasi dan mean absolute error [19]. Dari pengujian yang dilakukanmenggunakan flower data-set diperoleh hasil bahwa metode perhitungan jarak Chebyshev lebih baik dari metode Manhattan dan Euclidean [19]. Dari penelitian-penelitian sebelumnya yang lain diketahui bahwa metode perhitungan jarak Manhattan, Euclidean dan Chebyshev saling unggul antara satu dengan yang lain tergantung data-set yang digunakan [17] [18] [19] [20] [21] [22] [23]. Sehingga berdasarkan pertimbangan literature review yang ada, dalam penelitian ini akan dilakukan perbandingan metode perhitungan jarak manakah yang paling efektif untuk pengelompokan data Podes 2014 untuk memperoleh status desa di Indonesia Data Mining Data mining merupakan salah satu bidang paling penting dalam penelitian yang bertujuan untuk memperoleh informasi dari data set. Data mining mulai ada sejak 1990-an sebagai cara yang efektif untuk mengambil pola dan informasi yang sebelumnya tidak diketahui dari suatu data set [24]. Teknik data mining digunakan untuk menemukan hubungan antara data untuk melakukan pengklasifikasian yang memprediksikan nilainilai dari beberapa variabel (klasifikasi), atau untuk membagi data yang diketahui menjadi kelompok-kelompok yang mempunyai kesamaan karakteristik (clustering). Clustering merupakan bagian dari pembelajaran unsupervised yang digunakan sebagai alat yang efektif dalam data mining [25]. Clustering tidak memiliki atribut yang dapat digunakan untuk memandu proses pembelajaran (tidak memiliki label), sehingga seluruh atribut yang dimiliki diperlakukan sama. Metode clustering memungkinkan untuk mengungkapkan hubungan dan struktrur yang sebelumnya tidak jelas dari data-set. Tujuan dari clustering adalah untuk mengelompokkan data yang memiliki kesamaan karakteristik kedalam kelompok yang sama dan data yang berbeda karakteristik kedalam kelompok yang lain Algoritma K-Means K-means adalah salah salah satu algoritma clustering yang bertujuan untuk membagi data 4 Karya Ilmiah Data Mining, Agustus 2016

5 menjadi beberapa kelompok dari masukan berupa data tanpa label kelas. K-means merupakan metode partisi yang paling populer untuk melakukan clustering. Algoritma k- means pertama kali diperkenalkan oleh MacQueen pada tahun Pada algoritma k- means, setiap cluster diwakili oleh nilai ratarata dari objek dalam cluster. Algortma k- means terdiri dari 2 tahap yaitu [26]: Tahap Pertama: Memilih nilai centroid k secara acak, dimana nilai k sudah didefinisikan terlebih dahulu. Tahap kedua: Setiap objek didalam dataset diasosiasikan dengan centroid terdekat. Pada pengukuran jarak antara setiap objek data dan cluster centroid dapat menggunakan perhitungan manhattan distance, euclidean distance, dan chebyshev distance. Manhattan distance atau dikenal juga dengan City block distance digunakan untuk menghitung jarak dengan tujuan untuk mendapatkan jarak dari satu titik data ke titik data yang lain. Manhattan distance mencerminkan jarak antar titik di jalan perkotaan dalam 1 blok [27]. Persamaan matematik dari manhattan distance yaitu: D(x, y) = n i=1 x i y j 2.1 Dari persamaan 2.1, x = (x 1, x 2, x 3,, x n ) dan y = (y 1, y 2, y 3,, y n ). Perhitungan manhattan distance adalah dengan menjumlahkan hasil absolut dari pengurangan antar titik. Dalam matematika, Euclidean distance digunakan untuk megukur antara dua titik dalam satu dimensi yang memberikan hasil seperti rumus Pythagoras [28]. Persamaan Euclidean distance yaitu [27]: D(x, y) = (x ik y jk ) n k= Dari persamaan 2.2, x = (x i1, x i2, x i3,, x in ) dan y = (y j1, y j2, y j3,, y jn ). Euclidean distance diperoleh dari jumlah kuadrat antar titik yang diakar kuadratkan. Nilai jarak maksimum atau disebut juga Chebychev distance merupakan perhitungan jarak yang menghitung besarnya hasil absolut dari perbedaan antara sepasang objek [27]. Chebychev distance dapat dihitung menggunakan persamaan: D(x, y) = max ( x i y i ) 2.3 Metrik dalam chebychev distance, didefinisikan didalam ruang vektor yang mana jarak antara dua vektor yang memiliki perbedaan terbesar disepanjang dimensi koordinatnya [28] Davies Bouldin Index Davies Bouldin Index (DBI) merupakan cara validasi cluster yang dibuat oleh D.L. Davies. DBI adalah fungsi rasio dari jumlah distribusi didalam cluster untuk pemisahan antar cluster [29]. Pengukuran menggunakan DBI bertujuan untuk memaksimalkan jarak inter-cluster. Dalam penelitian ini, DBI digunakan untuk melakukan validasi data pada setiap cluster. DBI dapat dihitung menggunakan persamaan: max R i = j=1 k,i j R ij 2.4 var(x) = 1 N N 1 (x i x ) 2 Keterangan: R Var x x i=1 R ij i j = var(c i ) + var(c j ) c i c j k DB = 1 k R i i=1 : jarak antar cluster : variance dari data : data ke-i : rata-rata dari tiap cluster DB : validasi Davies Bouldin Dengan menggunakan Davies Bouldin Index suatu cluster akan dianggap memiliki skema clustering yang optimal jika memiliki Index Davies Bouldin minimal. 5 Karya Ilmiah Data Mining, Agustus 2016

6 2.4. Kerangka Pemikiran dan Hipotesis Saat ini ada banyak metode perhitungan jarak yang dapat digunakan. Dari metodemetode yang ada secara umum dikategorikan kedamam 2 measure type yaitu nominal measures dan numerical measures. Pada nominal measures dapat menggunakan perhitungan jarak Nominal distance, Dice similarity, Jaccar similarity, Simple maching similarity, dan lain-lain. Sedangkan pada numerical measures dapat menggunakan perhitungan jarak Euclidean distance, Manhattan distance, Chebyshev disatance. Apabila dilihat dari tipe data Podes 2014, data tersebut adalah data numerical. Sehingga dalam penelitian ini akan dibandingkan metode perhitungan jarak Euclidean distance, Manhattan distance, Chebyshev distance pada algoritma k-means yang paling baik untuk mengelompokkan data Podes Dalam penggunaan metode perhitungan jarak Manhattan, Euclidean dan Chebyshev untuk pengelompokan data Podes 2014, penulis memiliki hipotesis mengenai metode perhitungan jarak yang paling efektif digunakan. Apabila dilihat dari kemangkusan metode diperoleh Big O dari setiap metode sebagai berikut: a) Manhattan distance memiliki persamaan D(x, y) = n i=1 x i y j Karena persamaan dari manhattan distance adalah berupa penjumlahan antar titik saja, dapat diketahui bahwa Big O dari manhattan adalah O(n). b) Euclidean distance memiliki persamaan D(x, y) = (x ik y jk ) n k=1 Untuk Big O dari akar kuadrat adalah O(sqrt(n)). Untuk Big O dari kuadrat adalah O(n 2 ). Untuk Big O dari penjumlahan adalah O(n). Sehingga dapat diketahui bahwa Big O dari Euclidean adalah O(sqrt(n 2 )). 2 c) Chebyshev distance memiliki persamaan D(x, y) = max ( x i y i ) Karena persamaan dari chebyshev distance adalah mengambil 1 nilai tertinggi antar titik saja, dapat diketahui bahwa Big O dari chebyshev adalah O(1) Dari Big O pada masing-masing metode, penulis berhipotesis bahwa metode perhitungan jarak yang paling efektif dalam hal waktu eksekusi yang lebih singkat untuk diterapkan pada penelitian ini adalah Chebyshev distance. Selain dilihat dari segi waktu, untuk memastikan performance suatu metode dapat menggunakan evaluasi internal dan evaluasi eksternal. Evaluasi internal atau disebut juga metrik unsupervised melakukan evaluasi dengan menggunakan informasi apa adanya yang ada didalam data-set. Sedangkan untuk evaluasi eksternal atau disebut juga metrik supervised, evaluasi dilakukan menggunakan informasi yang tidak disediakan didalam dataset. Karena dalam penelitian ini data dan metode yang digunakan adalah dalam bentuk unsupervised learning, maka evaluasi yang digunakan adalah evaluasi internal. Davies Bouldin Indexs (DBI) adalah salah satu metrik internal yang digunakan untuk melakukan evaluasi cluster untuk pada pengelompokan yang berbasis partisi. DBI digunakan untuk mengukur kohesi dan separasi pada cluster. Kohesi merupakan jumlah dari kedekatan data terhadap centroid yang diikutinya (ditunjukkan pada gambar 2.1), sedangkan Separasi merupakan jarak kedekatan antar cluster (ditunjukkan pada gambar 2.2). Gambar 2.1. Kohesi 6 Karya Ilmiah Data Mining, Agustus 2016

7 Sedangkan apabila jarak antar titik ditentukan dengan Euclidean distance: d(p,q) = (2 4) 2 + (1 5) 2 = 4.47 Gambar 2.2. Separasi Dengan mengguakan Davies Bouldin Indexs penulis memiliki hepotesis bahwa metode perhitungan jarak Euclidean memiliki indek bouldin yang paling optimal dibandingkan Manhattan dan Chebyshev. Hal itu didasari dengan 2 hal a) Euclidean dibandingkan Manhattan Milsalkan ada titik 2 dimensi yaitu p(2.1) dan q(4.5). Dari dua titik tersebut hendak dicari jarak terdekatnya. Gambar 2.3. Titik Dua Dimensi Apabila jarak antar titik ditentukan dengan Manhattan distance: d(p,q) = = 6 Sedangkan apabila jarak antar titik ditentukan dengan Euclidean distance: d(p,q) = (2 4) 2 + (1 5) 2 = 4.47 Dengan perhitungan dua dimensi dapat dilihat bahwa metode perhitungan jarak Euclidean menghasilkan jarak antar titik lebih dekat dibandingkan Manhattan. b) Euclidean dibandingkan Chebyshev Milsalkan ada titik 2 dimensi yaitu p(2.1) dan q(4.5) seperti yang ditunjukkan pada gambar 2.4. Apabila jarak antar titik ditentukan dengan Chebyshev distance: d(p,q) = max ( 2-4, 1-5 ) = 4 Memang apabila dibandingkan, Chebyshev memberikan jarak yang paling dekat. Akan tetapi Chebyshev hanya berfokus pada dimensi yang menghasilkan jarak maksimal, sedangkan dalam sebuah data setiap dimensi memiliki keterkaitan dengan dimensi yang lain. Sehingga apabila metode Chebyshev diterapkan untuk pengelompokan, penulis berhipotesis bahwa Chebyshev akan menghasilkan tingkan kohesi dan separasi yang rendah. III. METODE PENELITIAN Dalam penelitian ini metode yang digunakan adalah metode data mining dengan memakai teknik clustering/pengelompokan menggunakan algoritma k-means dengan perhitungan jarak Manhattan, Euclidean dan Chebyshev. Kemudian dari metode tersebut akan digunakan untuk mengelompokkan status desa berdasarkan data Potensi Desa tahun 2014 (Podes 2014). Dengan menggunakan algoritma k-means, data Podes 2014 akan dibagi kedalam 5 cluster yaitu cluster 0, cluster 1, cluster 2, cluster 3 dan cluster 4. Penentuan 5 cluster ini didasarkan pada Peraturan Menteri Desa, Pembangunan Daerah Tertinggal, dan Transmigrasi Republik Indonesia nomor 2 tahun 2016 tentang Indek Desa Membangun, yang menyebutkan bahwa status desa dikelompokkan dalam 5 status desa. Adapun langkah pengujian yang digunakan dalam penelitian ini dapat dilihat pada gambar Karya Ilmiah Data Mining, Agustus 2016

8 Gambar 3.1. Langkah Pengujian Pada gambar 3.1 menunjukkan bahwa langkah pengujian diawali dari input berupa data Podes 2014 yang belum dikelompokkan kedalam status desa. Kemudian dari data input akan diproses menggunakan algoritma k- means. Adapun didalam algoritma k-means akan menggunakan 3 metode perhitungan jarak untuk menentukan centroid dari setiap cluser. Metode perhitungan jarak yang digunakan yaitu Manhattan, Euclidean dan Chebyshev. Dari setiap pengelompokan akan menghasilkan 5 cluster status desa, kemudian hasil akan di uji menggunakan Davies Bouldin Index dan waktu eksekusi untuk mengetahui metode perhitungan jarak manakah yang paling baik. dengan mengitung jumlah dari centroid untuk setiap cluster, yang ditulis dengan persamaan: Status desa = CI 1, CI 2,, CI Dari persamaan 4.4, CI merupakan centroid dari setiap indikator dan setiap cluster memiliki 42 indikator. Penentuan status desa akan diurutkan berdasarkan nilai penjumlahan centroid dari setiap indikator pada masingmasing cluster, yang mana nilai penjumlahan terendah akan diinisialisasikan sebagai status Desa Sangat Tertinggal dan nilai penjumlahan tertinggi akan diinisialisasikan sebagai status Desa Mandiri. Adapun urutan penamaan cluster dari yang nilai terendah sampai tertinggi yaitu Desa Sangat Tertinggal, Desa Tertinggal, Desa Berkembang, Desa Berkembang, Desa Maju, Desa Mandiri. Adapun nilai centroid dan jumlah cluster dari pengujian dari metode perhitungan jarak Manhattan, Euclidean dan Chebyshev dengan algoritma k-means yang telah dilakukan dapat dilihat pada tabel 4.1, 4.2 dan 4.3. Tabel 4.1. Status dan Jumlah Desa dengan Menggunakan Manhattan Tabel 4.2. Status dan Jumlah Desa dengan Menggunakan Euclidean IV. ANALISA PENGUJIAN Dari pengujian yang telah dilakukan diperoleh nilai centroid dan jumlah cluster yang berbeda untuk setiap metode perhitungan jarak yang digunakan. Pada data Potensi Desa tahun 2014, setiap atribut/ indikator mempunyai nilai 0 s/d 5, yang mana nilai 0 adalah nilai terendah sedangkan nilai 5 adalah nilai tertinggi. Sehingga pada penelitian ini untuk menentukan status desa dilakukan 8 Karya Ilmiah Data Mining, Agustus 2016

9 Tabel 4.3. Status dan Jumlah Desa dengan Menggunakan Chebyshev 4.1. Pengujian Waktu Eksekusi Akumulasi waktu dilakukan dengan melakukan eksekusi sebanyak 5 kali untuk setiap metode perhitungan jarak yang digunakan. Dari 5 kali eksekusi tersebut kemudian akan dirata-rata untuk memperoleh waktu eksekusi paling efisien dari setiap metode perhitungan jarak. Dari pengeujian yang telah dilakukan diperoleh lama waktu eksekusi yang berbeda, adapun lama waktu eksekusi dari pengujian dari metode perhitungan jarak Manhattan, Euclidean dan Chebyshev yang telah dilakukan dapat dilihat pada gambar 4.1. Detik Manhattan Euclidean Chebyshev Gambar 4.1. Lama Waktu Eksekusi Pada gambar 4.1 dapat dilihat bahwa waktu eksekusi dari metode Manhattan distance untuk pengujian 1 sampai pengujian 5 secara berturut-turut yaitu 69 detik, 66 detik, 65 detik, 66 detik dan 65 detik, sehingga apabila diambil rata-rata waktu eksekusi dari Manhattan distance adalah 66.2 detik. Sedangkan waktu eksekusi dari metode Euclidean distance untuk pengujian 1 sampai pengujian 5 secara berturut-turut yaitu 69 detik, 68 detik, 68 detik, 68 detik dan 67 detik, sehingga apabila diambil rata-rata waktu eksekusi dari Euclidean distance adalah 68 detik. Kemudian waktu eksekusi dari metode Chebyshev distance untuk pengujian 1 sampai pengujian 5 secara berturut-turut yaitu 36 detik, 33 detik, 38 detik, 34 detik dan 33 detik, sehingga apabila diambil rata-rata waktu eksekusi dari Chebyshev distance adalah 34.8 detik. Adapun secara lebih mudah dari waktu eksekusi yang dibutuhkan untuk metode Manhattan, Euclidean dan Chebyshev dapat dilihat pada tabel 4.4. Tabel 4.4. Lama Waktu Eksekusi Test (i) Waktu Eksekusi Manhattan Euclidean Chebyshev 1 69 detik 69 detik 36 detik 2 66 detik 68 detik 33 detik 3 65 detik 68 detik 38 detik 4 66 detik 68 detik 34 detik 5 65 detik 67 detik 33 detik Ratarata 66.2 detik 68 detik 34.8 detik 4.2. Pengujian Davies Bouldin Index Dalam penelitian ini, Davies Bouldin Index (DBI) digunakan untuk melakukan validasi data pada setiap cluster. Pengukuran menggunakan DBI bertujuan untuk memaksimalkan jarak inter-cluster. Dengan menggunakan DBI suatu cluster akan dianggap memiliki skema clustering yang optimal jika yang memiliki Index Davies minimal. Adapun dari pengujian yang sudah dilakukan diperoleh nilai Index Davies dari metode Manhattan, Euclidean dan Chebyshev yang ditunjukkan pada gambar ,000 4,000 2, ,156 2,700 2,604 DBI Manhattan Euclidean Chebyshev Gambar 4.2. Index Davies dari metode Manhattan, Euclidean dan Chebyshev 9 Karya Ilmiah Data Mining, Agustus 2016

10 Dari gambar 4.3 dapat dilihat bahwa nilai Index Davies dari metode Manhattan yaitu 2.700, nilai Index Davies dari metode Euclidean yaitu dan nilai Index Davies dari metode Chebyshev yaitu Adapun secara lebih mudah untuk nilai Index Davies dari metode Manhattan, Euclidean dan Chebyshev dapat dilihat pada tabel Tabel 4.5. Index Davies dari Manhattan, Euclidean dan Chebyshev Davies Bouldin Index Manhattan Euclidean Chebyshev Dari tabel 4.25 dapat diketahui bahwa nilai yang paling optimal dari metode Manhattan, Euclidean dan Chebyshev adalah metode Euclidean distance dengan nilai Index Davies yaitu Analisa Hasil Pengujian Dari pengujian metode pengelompokan data Potensi Desa Tahun 2014 menggunakan algoritma k-means dengan metode perhitungan jarak Manhattan, Euclidean dan Chebyshev yang telah dilakukan dihasilkan: 1. Model pengujian yang digunakan dapat berjalan dengan baik dan menunjukkan hasil berupa nilai centroid untuk setiap cluster dari metode Manhattan, Euclidean dan Chebyshev, sehingga status desa dapat ditentukan dari jumlah centroid pada setiap cluster. 2. Penggunaan metode perhitungan jarak yang digunakan mempengaruhi jumlah data pada setiap cluster. 3. Akumulasi waktu yang diperoleh dari pengujian yang telah dilakukan menunjukkan bahwa metode perhitungan jarak Chebyshev memiliki waktu eksekusi paling efisien dengan akumulasi waktu rata-rata 34.8 detik. 4. Dengan menggunakan pengujian Davies Bouldin Index menunjukkan bahwa metode perhitungan jarak Euclidean memiliki nilai Index Davies paling optimal dengan dengan nilai Dari pengujian yang sudah dilakukan dapat diketahui bahwa pengelompokan data Potensi Desa Tahun 2014 menggunakan algoritma k-means dengan metode perhitungan jarak Chebyshev memiliki akumulasi waktu paling efisien dibandingkan Manhattan dan Euclidean, Sedangkan metode Euclidean memiliki nilai Index Davies paling optimal dibanding metode Manhattan dan Chebyshev. V. KESIMPULAN DAN SARAN 5.1. Kesimpulan Dari pembahasan dan evaluasi pada bab-bab sebelumnya, pengelompokan data Potensi Desa tahun 2014 kedalam 5 kelompokkan menggunakan algoritma k- means dengan metode perhitungan jarak Manhattan, Euclidean dan Chebyshev diperoleh kesimpulan yaitu: 1. Telah dikelompokkannya data Potensi Desa tahun 2014 kedalam 5 status desa di Indonesia dengan diperoleh jumlah desa untuk setiap cluster yaitu cluster Desa Sangat Tertinggal sebanyak 7644 desa, cluster Desa Tetinggal sebanyak desa, cluster Desa Berkembang sebanyak desa, cluster Desa Maju sebanyak desa dan cluster Desa Mandiri sebanyak desa. 2. Pengelompokan data Potensi Desa tahun 2014 kedalam 5 status desa menggunakan algoritma k-means dengan metode perhitungan jarak Chebyshev memiliki akumulasi waktu paling efisien dibandingkan Manhattan dan Euclidean, Sedangkan metode Euclidean memiliki nilai Index Davies paling optimal dibanding metode Manhattan dan Chebyshev. 10 Karya Ilmiah Data Mining, Agustus 2016

11 5.2. Saran Dari penelitian ini di ketahui bahwa setiap cluster yang dihasilkan memiliki jarak dari cluster yang lain, dengan hasil cluster yang diperoleh diharapkan dapat diukur jarak setiap atribut antar cluster agar dapat ditentukan atribut mana yang perlu diperhatikan sebagai prioritas pembangunan agar status desa dapat meningkat. DAFTAR PUSTAKA [1] Undang-Undang Dasar Negara Republik Indonesia Tahun 1945, Negara Republik Indonesia, [2] Undang-Undang Dasar Negara Republik Indonesia Nomor 6 Tahun 2014, Tentang Desa, Presiden Republik Indonesia, [3] Peraturan Presiden Republik Indonesia Nomor 12 Tahun 2015, Tentang Kementerian Desa, Pembangunan Daerah Tertinggal, dan Transmigrasi, Presiden Republik Indonesia, [4] Peraturan Presiden Republik Indonesia Nomor 2 Tahun 2015, Tentag Rencana Pembangunan Jangka Menengah Nasional Tahun , Presiden Republik Indonesia, [5] Undang Undang Republik Indonesia Nomor 6 Tahun 2015 tentang Desa, Presiden Republik Indonesia, [6] H. Barokah, D. R. W. W. Utami, Karmaji, C. S. M. Sugiarto, U. Suchaini, D. Widyaningsih, E. H. Nurcahyo, A. P. Rahtama and M. Abduh, Indeks Pembangunan Desa 2014 "Tentang Pemenuhan Standar Pelayanan Minimum Desa", Jakarta: Nasional, Badan Perencanaan Pembangunan, [7] Peraturan Menteri Desa, Pembangunan Daerah Tertinggal, dan Transmigrasi Republik Indonesia Nomor 2 Tahun 2016, tentang Indek Desa Membangun, Menteri Desa, Pembangunan Daerah Tertinggal, dan Transmigrasi Republik Indonesia, [8] L. Xu, C. Jiang, J. Wang, J. Yuan and Y. Ren, Information Security in Big Data: Privacy and Data Mining, IEEE Access: The Journal for Rapid Open Access Publishing, vol. 1, pp , 9 October [9] V. Deepa, Rapid Development of Applications in Data Mining, in International Conference on Green High Performance Computing, India, [10] M. F. Al-Roby and A. M. El-Halees, Classifying Muti-Class Imbalance Data, Egyptian Computer Science Journal, vol. 37, no. 5, pp , [11] B. Chaudhari and M. Parikh, A Comparative Study of clustering algorithms Using weka tools, International Journal of Application or Innovation in Engineering & Management, vol. 1, no. 2, pp , [12] C. Shah and A. Jivani, Comparison of Data Mining Clustering Algorithms, in Nirma University International Conference on Engineering, [13] N. Claypo and S. Jaiyen, Opinion Mining for Thai Restaurant Reviews using K-Means Clustering and MRF Feature Selection, in Knowledge and Smart Technology (KST), Chonburi, [14] M. Verma, M. Srivastava, N. Chack, A. K. Diswar and N. Gupta, A Comparative Study of Various Clustering Algorithms in Data Mining, International Journal of Engineering Research and Applications (IJERA), vol. 2, no. 3, pp , [15] S. Ghosh and S. K. Dubey, Comparative Analysis of K-Means and Fuzzy C-Means Algorithms, International Journal of Advanced Computer Science and Applications, vol. 4, no. 4, pp , [16] S. Chakraborty, N. K. Nagwani and L. Dey, Performance Comparison of Incremental K- means and Incremental DBSCAN Algorithms, International Journal of Computer Applications, vol. 27, no. 11, pp , [17] R. Awasthi, A. K. Tiwari and S. Pathak, Empirical Evaluation on K Means Clustering with Effect of Distance Functions for Bank, International Journal of Innovative Technology and Research, vol. 1, no. 3, pp , [18] A. Singh, A. Yadav and A. Rana, K-means with Three different Distance Metrics, International Journal of Computer Applications, vol. 67, no. 19, pp , [19] K. Kouser and Sunita, A comparative study of K Means Algorithm by Different Distance Measures, International Journal of Innovative Research in Computer and Communication Engineering, vol. 1, no. 9, pp , Karya Ilmiah Data Mining, Agustus 2016

12 [20] D. Sinwar and R. Kaushik, Study of Euclidean and Manhattan Distance Metrics using Simple K-Means Clustering, International Journal for Research in Applied Science and Engineering Technology, vol. 2, no. 5, pp , [21] D. J. Bora and A. K. Gupta, Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab, International Journal of Computer Science and Information Technologies, vol. 5, no. 2, pp , [22] M. Anggara, H. Sujiani and H. Nasution, Pemilihan Distance Measure Pada K-Means Clustering Untuk Pengelompokkan Member Di Alvaro Fitness, Jurnal Sistem dan Teknologi Informasi (JUSTIN), vol. 1, no. 1, pp. 1-6, [23] H. Prasetyo and A. Purwariati, Comparison of Distance Measures for Clustering Data with Mix Attribute Types, in International Conference on Information Technology Systems and Innovation, Bandung, [24] D. Tomar and S. Agarwal, A survey on Data Mining approaches for Healthcare, International Journal of Bio-Science and Bio- Technology, vol. 5, no. 5, pp , [25] S. Ding, F. Wu, Q. Jun, H. Jia and F. Jin, Research on data stream clustering algorithms, Artificial Intelligence Review, vol. 43, no. 4, pp , [26] J. Yadav and M. Sharma, A Review of K- mean Algorithm, International Journal of Engineering Trends and Technology (IJETT), vol. 4, no. 7, pp , [27] P. Grabust, The Choice of Metrics for Clustering Algorithms, in Proceedings of the 8th International Scientific and Practical Conference, Augstskola, [28] H. K. Sagar and V. Sharma, Error Evaluation on K- Means and Hierarchical Clustering with Effect of Distance Functions for Iris Dataset, International Journal of Computer Applications, vol. 86, no. 18, pp. 1-5, [29] B. K. Mishra, A. Rath, N. R. Nayak and S. Swain, Far Efficient K-Means Clustering Algorithm, in International Conference on Advances in Computing, Communications and Informatics, Chennai, PENULIS Yoga Religia, M.Kom Lulus Sarjana Teknik Informatika Tahun 2015 dan Lulus Magister Teknik Informatika tahun 2016 di Universitas Dian Nuswantoro Semarang. Saat ini bekerja di Kementerian Desa, Pembangunan Daerah Tertinggal dan Transmigrasi Repubik Indonesia sebagai asisten tenaga ahli di Direktorat Jenderal Pembangunan dan Pemberdayaan masyarakat Desa. 12 Karya Ilmiah Data Mining, Agustus 2016