BAB I PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku

BAB III K-MEDIANS CLUSTERING

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 4, Tahun 2015, Halaman Online di:

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB III PEMBAHASAN. survei yang dilakukan BPS pada 31 Oktober Langkah selanjutnya yang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB 1 PENDAHULUAN 1.1. Latar Belakang

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

Bab 2 Tinjauan Pustaka

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA

BAB I PENDAHULUAN 1.1. Latar Belakang Permasalahan

SEGMENTASI IKM MADURA BERDASARKAN PENGGUNAAN TEKNOLOGI INFORMASI DENGAN MENGGUNAKAN METODE HYBRID K-MEANS CLUSTERING

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering


BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

PERBANDINGAN HASIL PENGGEROMBOLAN K-MEANS, FUZZY K- MEANS, DAN TWO STEP CLUSTERING. Lathifaturrahmah

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Pengenalan Pola. K-Means Clustering

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

BAB I PENDAHULUAN Latar Belakang

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

The 6 th University Research Colloquium 2017 Universitas Muhammadiyah Magelang

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Pada penelitian Rismawan dan Kusumadewi (2008) mengelompokkan

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen

Penerapan Algoritma K-Means dalam Data Mining untuk Peminatan Jurusan Bagi Siswa Kelas X (Studi Kasus: SMA Negeri 29 Jakarta)

BAB I PENDAHULUAN 1.1 Latar Belakang

PENGELOMPOKAN WILAYAH MADURA BERDASAR INDIKATOR PEMERATAAN PENDIDIKAN MENGGUNAKAN PARTITION AROUND MEDOIDS DAN VALIDASI ADJUSTED RANDOM INDEX

DAFTAR ISI... HALAMAN JUDUL... HALAMAN PENGESAHAN... HALAMAN PERNYATAAN... HALAMAN PERSEMBAHAN... PRAKATA... DAFTAR LAMBANG... DAFTAR GAMBAR...

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel

Clustering Tagg Status Facebook Dengan Menggunakan Algoritma K-MEDOIDS

PENGELOMPOKAN TINGKAT KELULUSAN MAHASISWA MENGGUNAKAN ALGORITMA K-MEANS

ARTIKEL PENILAIAN PRESTASI KERJA PEGAWAI NEGERI SIPIL

KLASTERISASI KOMPETENSI GURU MENGGUNAKAN HASIL PENILAIAN PORTOFOLIO SERTIFIKASI GURU DENGAN METODE DATA MINING

Pengenalan Pola. Klasterisasi Data

KLUSTER K-MEANS DATA MAHASISWA BARU TERHADAP PROGRAM STUDI YANG DIPILIH

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN YANNE FLOWRENSIA

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

BAB I PENDAHULUAN Latar Belakang

Perancangan dan Implementasi Aplikasi Android Penentu Salient Area pada Video dengan Algoritma K-Medoids

BAB 1 PENDAHULUAN. Universitas Muhammadiyah Surakarta merupakan salah satu dari beberapa instansi

(M.6) FUZZY C-MEANS CLUSTERING DENGAN ANALISIS ROBUST

BAB 2 TINJAUAN PUSTAKA

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

BAB II LANDASAN TEORI

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN I.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

Fuzzy C-means Clustering menggunakan Cluster Center Displacement

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

BAB I PENDAHULUAN 1.1 Latar Belakang Permasalahan

BAB I PENDAHULUAN 1.1. Latar Belakang

PENGELOMPOKAN PROVINSI DI INDONESIA BERDASARKAN PERSENTASE RUMAH TANGGA MENURUT KUALITAS FISIK AIR MINUM DENGAN MENGGUNAKAN K-MEANS CLUSTER

BAB II TINJAUAN PUSTAKA

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

BAB I PENDAHULUAN 1.1. Latar Belakang Permasalahan

Penerapan Metode Clustering Dengan K-Means Untuk Memetakan Potensi Tanaman Padi Di Kota Semarang

BAB I PENDAHULUAN. usaha jasa perjalanan wisata di Bali. Perusahaan ini melayani pelanggan

DOI: /medstat Abstract. Keywords: Central Java, Agricultural Commodities, Cluster Analysis, Non-Hierarchical, k Medoids, Outlier

PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem

MEMANFAATKAN ALGORITMA K-MEANS DALAM MENENTUKAN PEGAWAI YANG LAYAK MENGIKUTI ASESSMENT CENTER UNTUK CLUSTERING PROGRAM SDP

UKDW BAB I PENDAHULUAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENGELOMPOKKAN DESA DI KABUPATEN SORONG PROVINSI PAPUA BARAT TAHUN 2016 BERDASARKAN STATUS KETERTINGGALAN

BAB I PENDAHULUAN 1.1. Latar Belakang

UKDW BAB I PENDAHULUAN Latar Belakang

Analisis Klaster untuk Pengelompokan Kemiskinan di Jawa Barat Berdasarkan Indeks Kemiskinan 2016

*Corresponding Author:

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

BAB I PENDAHULUAN 1.1. Latar Belakang

PENGELOMPOKAN BIMBINGAN BELAJAR MENGGUNAKAN METODE CLUSTERING DI SMA NEGERI 1 CILAKU KABUPATEN CIANJUR

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

Editorial Team. Editor-in-Chief. Associate Editors. Editorial Board Members. Copy & Layout Editors

Analisa Data Mahasiswa Baru Terhadap Program Studi Yang. Dipilih Di Universitas Pembangunan Nasional Veteran Jawa

HI. KERANGKA TEORI. kelompok tersebut menimbulkan pengurangan dimensionalitas suatu tabel data,

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Data menjadi sesuatu yang sangat berharga saat ini. Tidak hanya badan pemerintah saja, perusahaan-perusahaan saat ini pun sangat membutuhkan informasi dari data yang dimilikinya guna merancang strategi dalam mengambil keputusan secara efektif dan efisien. Tentunya akan sangat bermanfaat jika data tersebut dapat digali dan mampu memberikan informasi bagi pihak yang berkepentingan. Oleh karena itu, peran ilmu statistika sangat dibutuhkan di sini. Dalam statistika, tentunya tidak hanya analisis statistika univariat yang digunakan, namun analisis statistika multivariat pun menjadi suatu alat yang sangat diperlukan. Analisis statistika multivariat merupakan teori statistika yang dirancang untuk menggali informasi dari data yang terdiri atas beberapa variabel yang dianalisis secara bersama-sama. Salah satu analisis yang sering digunakan pada analisis statistika multivariat adalah analisis klaster (cluster analysis). Analisis klaster merupakan analisis yang bertujuan untuk mengelompokkan objek-objek ke dalam beberapa kelompok di mana objek-objek pada satu kelompok memiliki homogenitas yang tinggi, namun heterogen dengan objekobjek pada kelompok yang lain. Salah satu metode analisis klaster yang sering digunakan adalah partitioning methods. Dengan metode tersebut objek-objek pada data dikelompokkan menjadi klaster dengan banyaknya klaster ( ditentukan oleh peneliti. Salah satu jenis partitioning methods adalah metode k-means. K-means merupakan analisis klaster dengan pusat klaster (centroid) berupa mean dari data pada tiap klaster. Pada praktiknya, sering ditemui data yang mengandung pencilan. Pencilan merupakan observasi yang menyimpang jauh dari pola yang terbentuk dari 1

2 sebagian besar data. Adanya pencilan dapat menjadi salah satu masalah yang mengakibatkan kurang tepatnya hasil analisis yang diperoleh. Pada analisis k-means, adanya pencilan dapat menyebabkan hasil analisis klaster kurang tepat karena digunakan nilai mean sebagai pusat klaster di mana mean merupakan ukuran pusat data yang tidak robust terhadap pencilan. Pengelompokkan yang kurang tepat tentu akan berpengaruh pula pada hasil penilaian karakteristik klaster (profilisasi), sehingga nantinya dapat mengakibatkan kesalahan pada pengambilan keputusan. Untuk mengatasi hal tersebut, dapat digunakan analisis partitioning methods yang lain, yaitu metode k- medoids. K-medoids merupakan metode pengelompokkan dengan menggunakan medoid sebagai pusat klasternya. Medoid adalah objek yang letaknya terpusat di dalam suatu klaster. Karena menggunakan medoid sebagai pusat klaster, maka metode tersebut lebih robust dibandingkan metode k-means. Pada analisis klaster, objek-objek dikelompokkan berdasarkan kemiripannya (similarity). Untuk mengukur tingkat kemiripan digunakan ukuran jarak. Semakin besar nilai jarak, maka semakin jauh letak objek dengan pusat klaster yang terbentuk. Ukuran jarak yang digunakan pada analisis dapat berpengaruh pada hasil yang diperoleh. Oleh karena itu, pada skripsi ini akan digunakan dua ukuran jarak, yaitu jarak Euclidean (Euclidean distance) dan jarak Manhattan (Manhattan distance) untuk mengelompokkan objek-objek dengan metode k-medoids. 1.2 Pembatasan Masalah Pada penulisan skripsi ini, pembatasan masalah sangat diperlukan untuk menjamin keabsahan dari kesimpulan yang diperoleh agar tidak terjadi penyimpangan dari tujuan awal dan pemecahan masalah lebih terkonsentrasi. Pembahasan difokuskan pada penerapan metode k-medoids pada data dengan pencilan. Pada metode tersebut digunakan dua jenis ukuran jarak, yaitu jarak Euclidean dan jarak Manhattan.

3 1.3 Tujuan Penulisan Berdasarkan latar belakang permasalahan di atas, maka penulisan skripsi ini dilaksanakan dengan tujuan sebagai berikut : 1. Mempelajari metode k-medoids. 2. Menerapkan metode k-medoids dengan jarak Euclidean dan jarak Manhattan untuk mengelompokkan data dengan pencilan. 3. Mengukur validitas hasil analisis klaster k-medoids. 4. Melakukan profilisasi pada klaster-klaster yang terbentuk. 1.4 Tinjauan Pustaka Analisis klaster merupakan suatu proses pembentukan partisi dari sekumpulan objek pada data (observasi) ke dalam beberapa bagian (subset). Bagian tersebut disebut klaster. Objek pada suatu klaster mirip antara satu dengan lainnya, namun berbeda dengan objek-objek pada klaster yang lain. Salah satu metode analisis klaster yang sering digunakan adalah metode k- means. K-means merupakan metode pengelompokkan objek menjadi beberapa klaster dengan mean sebagai pusat klasternya. Mean merupakan ukuran pusat data yang memiliki kekurangan yaitu nilainya sangat dipengaruhi oleh nilai ekstrim (Walpole, 1992). Han, et. al. (2012) dalam bukunya Data Mining : Concepts and Techniques menjelaskan bahwa algoritma k-means senstitif terhadap pencilan. Ketika pencilan dikelompokkan ke dalam suatu klaster, maka pencilan tersebut dapat mendistorsi nilai rata-rata dari klaster. Kaufman dan Rousseeuw (1987) dalam jurnalnya Clustering By Means of Medoids memperkenalkan metode k-medoids untuk mengatasi permasalahan pencilan pada metode k-means. Metode k-medoids bertujuan untuk mengelompokkan objek-objek menjadi beberapa klaster dengan menemukan k perwakilan objek, yang disebut medoid, yang mampu meminimumkan rata-rata jarak semua objek pada data ke medoid terdekat. Metode ini dikenal juga dengan istilah Partitioning Around Medoids (PAM).

4 Flowrensia (2010) pada skripsinya Perbandingan Penggerombolan K-Means dan K-Medoid pada Data yang Mengandung Pencilan melakukan perbandingan antara hasil analisis metode k-means dengan k-medoid baik pada saat data mengandung pencilan maupun tidak. Hasil penggerombolan menunjukkan bahwa metode k-medoid mempunyai nilai rataan tingkat salah klasifikasi yang lebih rendah dan signifikan pada kondisi proporsi pencilan 5%, sedangkan pada kondisi proporsi pencilan 10% dan 15% hasil nilai rataan salah klasifikasinya tidak berbeda signifikan dengan metode k-means. Bhat (2014) dalam jurnalnya K-Medoids Clustering Using Partitioning Around Medoids For Performing Face Recognition menjelaskan bahwa metode k-medoids jauh lebih robust dibandingkan metode k-means dalam menangani nilai ekstrim atau pencilan. Arora, et. al. (2016) dalam jurnalnya Analysis of K-Means and K-Medoids Algorithm For Big Data menjelaskan bahwa k-medoids lebih baik dalam waktu eksekusi dan tidak sensitif terhadap pencilan jika dibandingkan dengan k-means. Pada analisis klaster, untuk menentukan suatu objek masuk ke dalam suatu klaster digunakan ukuran jarak. Perbedaan penggunaan ukuran jarak dapat menghasilkan hasil analisis yang berbeda pula. Satoto, et. al. (2015) dalam jurnalnya Pengelompokan Wilayah Madura Berdasar Indikator Pemerataan Pendidikan Menggunakan Partitioning Around Medoids dan Validasi Adjusted Rand Index menerapkan metode PAM dengan tiga jenis ukuran jarak, yaitu jarak Manhattan, Euclidean, dan Canberra, serta menggunakan ukuran validasi Adujusted Rand Index (ARI). Berdasarkan studi kasus yang dilakukan, diperoleh rata-rata nilai ARI dari yang tertinggi hingga terendah, yaitu metode PAM dengan jarak Euclidean, Manhattan, kemudian Canberra. 1.5 Metode Penulisan Metode yang digunakan pada penulisan skripsi ini adalah studi literatur. Pada studi literatur, penulis mempelajari literatur-literatur yang diperoleh dari perpustakaan maupun jurnal-jurnal referensi dari media lain, seperti jurnal dan

5 sumber-sumber lain yang diperoleh dari berbagai situs pendukung di internet. Software yang digunakan dalam penulisan skripsi ini adalah Microsoft Excel 2010, SPSS 19, dan RStudio 1.0.136. Pada RStudio 1.0.136 digunakan beberapa package, yaitu package base, stats, dan cluster. Data yang digunakan dalam penulisan skripsi ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik (BPS) mengenai produksi tanaman pangan pokok menurut provinsi di Indonesia tahun 2015. 1.6 Sistematika Penulisan Sistematika penulisan skripsi ini disusun sebagai berikut : BAB I : PENDAHULUAN Bab ini berisi mengenai latar belakang, pembatasan masalah, tujuan penulisan, tinjauan pustaka, metode penulisan, dan sitematika penulisan. BAB II : LANDASAN TEORI Bab ini berisi tentang teori-teori penunjang dalam pembahasan mengenai metode k-medoids. Beberapa teori penunjang tersebut, antara lain variabel random, matriks, analisis statistika multivariat, analisis klaster, pencilan, dan metode validasi. BAB III : K-MEDOIDS Bab ini berisi mengenai asumsi dalam analisis klaster, ukuran jarak, serta penjelasan dan contoh pembentukan klaster dengan metode k-medoids. BAB IV : STUDI KASUS Bab ini berisi mengenai deskripsi data, asumsi pada analisis klaster, penentuan banyak klaster, pengujian pencilan,

6 proses pembentukan klaster, profilisasi hasil pembentukan klaster, serta perbandingan antara metode k-means dan k- medoids. BAB V : PENUTUP Bab ini berisi mengenai kesimpulan yang diperoleh dari pembahasan pada bab-bab sebelumnya serta saran sebagai akibat dari kekurangan maupun kelebihan hasil penelitian yang dilakukan.