Bab 2 Tinjauan Pustaka

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem Informasi Geografi. Pada penelitian ini, metode Fuzzy K-Mean Clustering diterapkan pada penentuan wilayah usaha pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari penerapan metode tersebut adalah segmentasi wilayah usaha pertambangan yang dapat menggambarkan karakteristik bahan galian pada setiap kelompoknya, sehingga selain dapat mempermudah penetapan rencana umum tata ruang daerah dalam pengalokasian wilayah usaha pertambangan bahan galian, hasil segmentasi ini juga dapat mempermudah peminat dan pelaku usaha tambang dalam memilih wilayah kegiatan usaha tambang yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana, 2010). Penelitian yang berjudul Sistem Market Basket Untuk Menentukan Tata Letak Produk Pada Suatu Swalayan Menggunakan Algoritma K-Means Clustering juga merupakan salah satu penilitian yang berkaitan dengan penilitian ini. Market basket analysis adalah salah satu teknik data mining yang dapat menemukan pola yang berupa produk-produk yang sering dibeli bersamaan dalam sebuah transaksi. Dalam penelitian tersebut, 5

6 dijelaskan bagaimana market basket analysis dengan menggunakan Algoritma K-Means clustering berdasarkan kebiasaan konsumen berbelanja untuk menghasilkan suatu model tata letak produk. Algoritma K-Means clustering digunakan untuk membagi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik berberda dikelompokkan ke dalam cluster lain. Hasil dari penelitian tersebut adalah sebuah model tata letak produk yang dapat digunakan oleh pihak manajemen swalayan (Sebayang, 2012). Penelitian lain yang berkaitan dalam penelitian ini berjudul Implementasi Metode Heatmap 2-D Untuk Visualisasi Data Terdistribusi. Penelitian ini membuat aplikasi sebagai alat bantu untuk menampilkan data terdistribusi dalam bentuk visual sehingga lebih menarik dan mudah dibaca. Adapun aplikasi ini dibuat dengan tujuan mempermudah pengguna dalam mencari data dalam basis data XML serta mudah dalam mengambil kesimpulan dan atau keputusan manajerial (Lisana dan Praman, 2013). Mengacu pada penelitian terdahulu, maka akan dilakukan penelitian yang berjudul Perancangan dan Implementasi Clustering Data Menggunakan Algoritma K-Means Berbasis Heatmap. Dalam penelitian ini, data yang akan dikelompokkan

7 adalah potensi bahan tambang di Provinsi Papua Barat kemudian disajikan dalam sebuah aplikasi web menggunakan Heat Map. 2.2 Clustering Clustering merupakan salah satu teknik dalam data mining. Clustering membagi objek ke dalam kelompok atau cluster tertentu, sehingga objek dalam suatu cluster memiliki kemiripan dengan objek lain dalam cluster yang sama dan berbeda dengan objek pada cluster yang lain. Kemiripan objek umumnya didefinisikan berdasarkan jarak kedekatan antar objek yang ditentukan melalui fungsi jarak (Han dkk, 2011). Gambar 2.1 Clustering Dalam Ruang Dua Dimensi. (a) Inisialisasi Data;(b) Data dalam tiga cluster; (c) Data dalam empat cluster (Kantardzic, 2011) Pada Gambar 2.1 terdapat sembilan objek yang akan dikelompokkan. Gambar 2.1(b) menggambarkan kesembilan objek tersebut dikelompokkan menjadi tiga cluster, objek yang saling berdekatan dikelompokkan dalam satu cluster yang sama.

8 Sedangkan pada Gambar 2.1(c), terlihat kesembilan objek yang ada dikelompokkan menjadi empat cluster. Clustering telah diterapkan pada beberapa bidang seperti berikut ini (Zaiane, 2007): 1. Bidang Pemasaran Dalam bidang pemasaran, algoritma clustering digunakan untuk membantu menemukan perbedaan kelompok pelanggan dan kemudian mengembangkan program pemasaran yang ditargetkan. 2. Bidang Biologi Algoritma clustering ini digunakan dalam bidang biologi untuk menemukan gen-gen yang memiliki fungsi yang serupa untuk digolongkan menjadi suatu cluster tertentu. 3. Bidang Land Use Algoritma clustering ini digunakan dalam bidang land use untuk mengidentifikasi bidang tanah yang sama yang digunakan dalam pengamatan bumi. 4. Bidang Asuransi Algoritma clustering ini digunakan dalam bidang asuransi untuk mengidentifikasi kelompok pemegang polis asuransi motor dengan rata-rata klaim biaya yang tinggi. 5. Bidang Perencanaan Tata Kota Algoritma clustering ini digunakan dalam bidang perencanaan tata kota untuk mengidentifikasi kelompok dari rumah ke rumah sesuai jenis, nilai dan geografis lokasi.

9 Secara umum metode clustering dapat dibagi menjadi beberapa kategori, antara lain metode parsial dan metode hirarki (Han dkk, 2011). 1. Metode Parsial Metode parsial adalah metode clustering yang sederhana dan merupakan konsep dasar dari analisis cluster. Metode parsial mengorganisir sejumlah data tertentu ke dalam kelompok yang lebih spesifik atau cluster. Jumlah cluster yang diberikan merupakan parameter dalam untuk memulai metode parsial. Secara formal, pemberian sejumlah data (D) dari n objek dan jumlah cluster (K) untuk melakukan proses clustering. Sebuah algortima partisi mengorganisir objek ke dalam partisi K dengan K n, sehingga setiap partisi mewakili sebuah cluster. Cluster dibentuk untuk mengoptimalkan sebuah tujuan pembagian kriteria, seperti fungsi perbedaan berdasarkan jarak, sehingga objek dalam satu cluster mirip dengan objek lain dalam cluster tersebut, dan berbeda dengan objek di cluster lain. Algoritma yang sering digunakan dalam metode parsial ini adalah algoritma K-Medoids dan K-Means. 2. Metode Hirarki Metode hirarki dalam clustering mengelompokkan objek data ke dalam sebuah hirarki atau pohon cluster. Menampilkan objek data dalam bentuk sebuah hirarki berguna untuk penyimpulan atau peringkasan serta penyajian data. Sebagai contoh, seorang manajer sumber daya manusia di perusahaan X

10 dapat mengatur karyawannya ke dalam kelompok besar seperti eksekutif, manajer dan staf. Selain itu, pengelompokkan tersebut dapat dilanjutkan menjadi sub kelompok yang lebih kecil. Misalnya untuk kelompok umum untuk semua staf dapat dibagi menjadi sub kelompok pegawai senior, pegawai dan pegawai yang masih dalam masa percobaan. Setelah melakukan pengelompokkan, maka sebuah hirarki dapat terbentuk. Berdasarkan hirarki tersebut, proses penarikan kesimpulan atau klasifikasi data dapat dilakukan dengan mudah. 2.3 Euclidean Distance Euclidean distance adalah metrika yang sering digunakan untuk menghitung kesamaan dua vektor. Euclidean distance menghitung akar dari kuadrat perbedaan dua vektor. Rumus Euclidean distance adalah sebagai berikut (Putra, 2010) : ( ) dengan : Gambar 2.2 Rumus Euclidean Distance (Putra, 2010) = distance = 1, 2, 3,, p = 1, 2, 3,, p = merepresentasikan nilai atribut = dimensi data = objek data

11 Berikut ini adalah contoh penggunaan rumus Euclidean distance : Terdapat dua vektor A dan B, vektor A = [0, 3, 4, 5] dan vector B = [7, 6, 3, -1]. Euclidean distance dari vector A dan B adalah : ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ( )) ( ) ( ) ( ) ( ) Semakin besar jarak antara dua vektor, maka tingkat kesamaan atau kemiripannya kecil. Sebaliknya, semakin kecil jarak antara dua vektor, maka tingkat kesamaan atau kemiripannya besar. 2.4 Algoritma K-Means Algoritma K-Means merupakan salah satu teknik pengelompokan data yang sering digunakan. K-Means mengelompokkan objek yang mirip dalam cluster yang sama. Gambaran umum dari algoritma tersebut adalah sebagai berikut (Aggarwal & Reddy, 2013) : 1. Menentukan nilai K atau jumlah cluster yang diinginkan serta menentukan centroid atau pusat cluster. Centroid

12 ditentukan secara acak dari objek data yang ada sesuai dengan nilai K, jika nilai K adalah dua maka centroid yang ditentukan juga dua. 2. Membagi setiap objek ke dalam cluster yang paling mirip. Cluster yang paling mirip adalah cluster dengan centroid terdekat. Perhitungan kedekatan antara objek dengan centroid dapat dilakukan menggunakan fungsi jarak, seperti Euclidean Distance. 3. Menghitung ulang K cluster dengan rata-rata dari semua objek yang diberikan untuk tiap cluster. 4. Ulangi langkah kedua dan ketiga sampai tidak ada lagi objek yang berpindah cluster. 2.5 Heatmap Heatmap digunakan untuk menggambarkan distribusi dan kepadatan titik pada peta. Heatmap memudahkan viewer untuk memahami distribusi dan intensitas relatif titik data pada peta. Distribusi data pada Heatmap diwakilkan menggunakan warna (Google, 2014).