BAB I PENDAHULUAN 1.1 Latar Belakang Data menjadi sesuatu yang sangat berharga saat ini. Tidak hanya badan pemerintah saja, perusahaan-perusahaan saat ini pun sangat membutuhkan informasi dari data yang dimilikinya guna merancang strategi dalam mengambil keputusan secara efektif dan efisien. Tentunya akan sangat bermanfaat jika data tersebut dapat digali dan mampu memberikan informasi bagi pihak yang berkepentingan. Oleh karena itu, peran ilmu statistika sangat dibutuhkan di sini. Dalam statistika, tentunya tidak hanya analisis statistika univariat yang digunakan, namun analisis statistika multivariat pun menjadi suatu alat yang sangat diperlukan. Analisis statistika multivariat merupakan teori statistika yang dirancang untuk menggali informasi dari data yang terdiri atas beberapa variabel yang dianalisis secara bersama-sama. Salah satu analisis yang sering digunakan pada analisis statistika multivariat adalah analisis klaster (cluster analysis). Analisis klaster merupakan analisis yang bertujuan untuk mengelompokkan objek-objek ke dalam beberapa kelompok di mana objek-objek pada satu kelompok memiliki homogenitas yang tinggi, namun heterogen dengan objekobjek pada kelompok yang lain. Salah satu metode analisis klaster yang sering digunakan adalah partitioning methods. Dengan metode tersebut objek-objek pada data dikelompokkan menjadi klaster dengan banyaknya klaster ( ditentukan oleh peneliti. Salah satu jenis partitioning methods adalah metode k-means. K-means merupakan analisis klaster dengan pusat klaster (centroid) berupa mean dari data pada tiap klaster. Pada praktiknya, sering ditemui data yang mengandung pencilan. Pencilan merupakan observasi yang menyimpang jauh dari pola yang terbentuk dari 1
2 sebagian besar data. Adanya pencilan dapat menjadi salah satu masalah yang mengakibatkan kurang tepatnya hasil analisis yang diperoleh. Pada analisis k-means, adanya pencilan dapat menyebabkan hasil analisis klaster kurang tepat karena digunakan nilai mean sebagai pusat klaster di mana mean merupakan ukuran pusat data yang tidak robust terhadap pencilan. Pengelompokkan yang kurang tepat tentu akan berpengaruh pula pada hasil penilaian karakteristik klaster (profilisasi), sehingga nantinya dapat mengakibatkan kesalahan pada pengambilan keputusan. Untuk mengatasi hal tersebut, dapat digunakan analisis partitioning methods yang lain, yaitu metode k- medoids. K-medoids merupakan metode pengelompokkan dengan menggunakan medoid sebagai pusat klasternya. Medoid adalah objek yang letaknya terpusat di dalam suatu klaster. Karena menggunakan medoid sebagai pusat klaster, maka metode tersebut lebih robust dibandingkan metode k-means. Pada analisis klaster, objek-objek dikelompokkan berdasarkan kemiripannya (similarity). Untuk mengukur tingkat kemiripan digunakan ukuran jarak. Semakin besar nilai jarak, maka semakin jauh letak objek dengan pusat klaster yang terbentuk. Ukuran jarak yang digunakan pada analisis dapat berpengaruh pada hasil yang diperoleh. Oleh karena itu, pada skripsi ini akan digunakan dua ukuran jarak, yaitu jarak Euclidean (Euclidean distance) dan jarak Manhattan (Manhattan distance) untuk mengelompokkan objek-objek dengan metode k-medoids. 1.2 Pembatasan Masalah Pada penulisan skripsi ini, pembatasan masalah sangat diperlukan untuk menjamin keabsahan dari kesimpulan yang diperoleh agar tidak terjadi penyimpangan dari tujuan awal dan pemecahan masalah lebih terkonsentrasi. Pembahasan difokuskan pada penerapan metode k-medoids pada data dengan pencilan. Pada metode tersebut digunakan dua jenis ukuran jarak, yaitu jarak Euclidean dan jarak Manhattan.
3 1.3 Tujuan Penulisan Berdasarkan latar belakang permasalahan di atas, maka penulisan skripsi ini dilaksanakan dengan tujuan sebagai berikut : 1. Mempelajari metode k-medoids. 2. Menerapkan metode k-medoids dengan jarak Euclidean dan jarak Manhattan untuk mengelompokkan data dengan pencilan. 3. Mengukur validitas hasil analisis klaster k-medoids. 4. Melakukan profilisasi pada klaster-klaster yang terbentuk. 1.4 Tinjauan Pustaka Analisis klaster merupakan suatu proses pembentukan partisi dari sekumpulan objek pada data (observasi) ke dalam beberapa bagian (subset). Bagian tersebut disebut klaster. Objek pada suatu klaster mirip antara satu dengan lainnya, namun berbeda dengan objek-objek pada klaster yang lain. Salah satu metode analisis klaster yang sering digunakan adalah metode k- means. K-means merupakan metode pengelompokkan objek menjadi beberapa klaster dengan mean sebagai pusat klasternya. Mean merupakan ukuran pusat data yang memiliki kekurangan yaitu nilainya sangat dipengaruhi oleh nilai ekstrim (Walpole, 1992). Han, et. al. (2012) dalam bukunya Data Mining : Concepts and Techniques menjelaskan bahwa algoritma k-means senstitif terhadap pencilan. Ketika pencilan dikelompokkan ke dalam suatu klaster, maka pencilan tersebut dapat mendistorsi nilai rata-rata dari klaster. Kaufman dan Rousseeuw (1987) dalam jurnalnya Clustering By Means of Medoids memperkenalkan metode k-medoids untuk mengatasi permasalahan pencilan pada metode k-means. Metode k-medoids bertujuan untuk mengelompokkan objek-objek menjadi beberapa klaster dengan menemukan k perwakilan objek, yang disebut medoid, yang mampu meminimumkan rata-rata jarak semua objek pada data ke medoid terdekat. Metode ini dikenal juga dengan istilah Partitioning Around Medoids (PAM).
4 Flowrensia (2010) pada skripsinya Perbandingan Penggerombolan K-Means dan K-Medoid pada Data yang Mengandung Pencilan melakukan perbandingan antara hasil analisis metode k-means dengan k-medoid baik pada saat data mengandung pencilan maupun tidak. Hasil penggerombolan menunjukkan bahwa metode k-medoid mempunyai nilai rataan tingkat salah klasifikasi yang lebih rendah dan signifikan pada kondisi proporsi pencilan 5%, sedangkan pada kondisi proporsi pencilan 10% dan 15% hasil nilai rataan salah klasifikasinya tidak berbeda signifikan dengan metode k-means. Bhat (2014) dalam jurnalnya K-Medoids Clustering Using Partitioning Around Medoids For Performing Face Recognition menjelaskan bahwa metode k-medoids jauh lebih robust dibandingkan metode k-means dalam menangani nilai ekstrim atau pencilan. Arora, et. al. (2016) dalam jurnalnya Analysis of K-Means and K-Medoids Algorithm For Big Data menjelaskan bahwa k-medoids lebih baik dalam waktu eksekusi dan tidak sensitif terhadap pencilan jika dibandingkan dengan k-means. Pada analisis klaster, untuk menentukan suatu objek masuk ke dalam suatu klaster digunakan ukuran jarak. Perbedaan penggunaan ukuran jarak dapat menghasilkan hasil analisis yang berbeda pula. Satoto, et. al. (2015) dalam jurnalnya Pengelompokan Wilayah Madura Berdasar Indikator Pemerataan Pendidikan Menggunakan Partitioning Around Medoids dan Validasi Adjusted Rand Index menerapkan metode PAM dengan tiga jenis ukuran jarak, yaitu jarak Manhattan, Euclidean, dan Canberra, serta menggunakan ukuran validasi Adujusted Rand Index (ARI). Berdasarkan studi kasus yang dilakukan, diperoleh rata-rata nilai ARI dari yang tertinggi hingga terendah, yaitu metode PAM dengan jarak Euclidean, Manhattan, kemudian Canberra. 1.5 Metode Penulisan Metode yang digunakan pada penulisan skripsi ini adalah studi literatur. Pada studi literatur, penulis mempelajari literatur-literatur yang diperoleh dari perpustakaan maupun jurnal-jurnal referensi dari media lain, seperti jurnal dan
5 sumber-sumber lain yang diperoleh dari berbagai situs pendukung di internet. Software yang digunakan dalam penulisan skripsi ini adalah Microsoft Excel 2010, SPSS 19, dan RStudio 1.0.136. Pada RStudio 1.0.136 digunakan beberapa package, yaitu package base, stats, dan cluster. Data yang digunakan dalam penulisan skripsi ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik (BPS) mengenai produksi tanaman pangan pokok menurut provinsi di Indonesia tahun 2015. 1.6 Sistematika Penulisan Sistematika penulisan skripsi ini disusun sebagai berikut : BAB I : PENDAHULUAN Bab ini berisi mengenai latar belakang, pembatasan masalah, tujuan penulisan, tinjauan pustaka, metode penulisan, dan sitematika penulisan. BAB II : LANDASAN TEORI Bab ini berisi tentang teori-teori penunjang dalam pembahasan mengenai metode k-medoids. Beberapa teori penunjang tersebut, antara lain variabel random, matriks, analisis statistika multivariat, analisis klaster, pencilan, dan metode validasi. BAB III : K-MEDOIDS Bab ini berisi mengenai asumsi dalam analisis klaster, ukuran jarak, serta penjelasan dan contoh pembentukan klaster dengan metode k-medoids. BAB IV : STUDI KASUS Bab ini berisi mengenai deskripsi data, asumsi pada analisis klaster, penentuan banyak klaster, pengujian pencilan,
6 proses pembentukan klaster, profilisasi hasil pembentukan klaster, serta perbandingan antara metode k-means dan k- medoids. BAB V : PENUTUP Bab ini berisi mengenai kesimpulan yang diperoleh dari pembahasan pada bab-bab sebelumnya serta saran sebagai akibat dari kekurangan maupun kelebihan hasil penelitian yang dilakukan.