BAB II TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II KAJIAN PUSTAKA

BABI PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

SEGMENTASI PELANGGAN PERUSAHAAN PERHOTELAN MENGGUNAKAN METODE CLUSTERING DBSCAN DAN MODEL RFM TUGAS AKHIR

BAB 2 TINJAUAN PUSTAKA

Bab 2 Tinjauan Pustaka


BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak

Penerapan Metode Fuzzy C-Means dengan Model Fuzzy RFM (Studi Kasus : Clustering Pelanggan Potensial Online Shop)

BAB II LANDASAN TEORI

SEGMENTASI PELANGGAN PADA PERUSAHAAN RETAIL DENGAN METODE ART 2 DAN MODEL RFM JUDUL TUGAS AKHIR

Jurusan Teknologi Informasi Fakultas Teknik Universitas Udayana

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Pembuatan Aplikasi Pendeteksi Anomali Pada Pola Konsumsi Listrik Pelanggan Kota Surabaya Menggunakan Algoritma Klasterisasi Berbasis Densitas

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB I PENDAHULUAN 1.1. Latar Belakang Rendy, 2013

BAB IV ANALISA DAN PERANCANGAN

UCAPAN TERIMA KASIH. Perbandingan Metode SOM/Kohonen Dengan Adaptive Resonance Theory 2

BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI

2 TINJAUAN PUSTAKA. Ruang Lingkup Penelitian

3 METODOLOGI PENELITIAN

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

BAB II TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

METODE PENELITIAN. Tahapan pengembangan sistem PSP (Penetapan Strategi Penjualan) 1.0 seperti pada Gambar 2 di bawah ini. Mulai

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

BAB II TINJAUAN PUSTAKA. Meyer & Kolbe (2005) dalam papernya yang berjudul Integration of

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB 2 TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

UCAPAN TERIMA KASIH. Perbandingan Metode SOM/Kohonen Dengan Adaptive Resonance Theory 2

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

Perbandingan Metode SOM/Kohonen dengan ART 2 pada Data Mining Perusahaan Retail

BAB 2 TINJAUAN PUSTAKA

PENERAPAN METODE ASOSIASI GSP DAN APRIORI UNTUK STOK DAN REKOMENDASI PRODUK

SEGMENTASI PELANGGAN MENGGUNAKAN METODE PARTICLE SWARM OPTIMIZATION DAN K-MEANS

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

PERBANDINGAN METODE K-MEANS DAN METODE DBSCAN PADA PENGELOMPOKAN RUMAH KOST MAHASISWA DI KELURAHAN TEMBALANG SEMARANG

Perbandingan Kinerja Fuzzy C-Means dan DBSCAN Dalam Segmentasi Citra USG Kepala Janin

PERBANDINGAN METODE K MEANS DAN METODE DBSCAN PADA PENGELOMPOKAN RUMAH KOST MAHASISWA DI KELURAHAN TEMBALANG SEMARANG

dengan Algoritma K Means

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Modifikasi DBSCAN (Density-Based Spatial Clustering With Noise) pada Objek 3 Dimensi

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Segmentasi Nasabah Tabungan Menggunakan Model RFM (Recency, Frequency,Monetary) dan K-Means Pada Lembaga Keuangan Mikro

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

Seminar NasionalTeknologiInformasi 2015

SEGMENTASI PELANGGAN MENGGUNAKAN ALGORITMA K-MEANS UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA HIJAB MIULAN

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB IV IMPLEMENTASI DAN PENGUJIAN

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

DAFTAR ISI Halaman DAFTAR TABEL... vi DAFTAR GAMBAR... DAFTAR LAMPIRAN...

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

Customer Segmentation Dengan Metode Self Organizing Map (Studi Kasus: UD. Fenny)

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

CRM Hello, Goodbye. Babak Baru dalam Kesetiaan Pelanggan

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah PT. ARINDO PRATAMA (PT. AP) merupakan sebuah perusahaan nasional yang berdiri pada tahun 1993 di

DAFTAR ISI. 2.7 Pemasaran

BAB II LANDASAN TEORI

BAB 6 ANALISIS CLUSTER

BAB II TINJAUAN PUSTAKA

METODE CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK REKOMENDASI PEMILIHAN BIDANG KEAHLIAN PADA PROGRAM STUDI TEKNIK INFORMATIKA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB I PENDAHULUAN. Apotek sebagai penyedia obat-obatan sering kali mengalami kesulitan dalam

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN A. Latar Belakang


METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. dunia teknologi informasi. Saat ini dikenal adanya social network dimana chatting

PRESENTASI TUGAS AKHIR KI091391

Customer Relationship Management. Pertemuan 9

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB 2 LANDASAN TEORI

IMPLEMENTASI DENSITY BASED SPATIAL CLUSTERING APPLICATION WITH NOISE (DBSCAN) DALAM PERKIRAAN TERJADI BANJIR DI BANDUNG

BAB I PENDAHULUAN. Dalam era Globalisasi, tingkat ketergantungan antar bangsa tidak dapat dihindari.

BAB 1 PENDAHULUAN. Analisis penerapan..., Anita Firawati, FE UI, Universitas Indonesia

BAB I PENDAHULUAN Latar Belakang

2. Data & Proses Datamining

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Transkripsi:

BAB II TINJAUAN PUSTAKA Hal-hal yang dipaparkan pada Bab Tinjauan Pustaka adalah penelaahan kepustakaan yang mendasari proses perancangan dan pembuatan aplikasi meliputi data mining, Customer Relationship Management, segmentasi pelanggan, Metode DBSCAN, teori pengukuran jarak dan uji validitas cluster. 2.1 State of the Art Penelitian tentang data mining untuk CRM, khususnya untuk proses segmentasi pelanggan, serta Model RFM dan Metode DBSCAN telah beberapa kali dilakukan sebelumnya. Ching-Hsue Cheng menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan Konsep CRM. Proses clustering dilakukan terhadap data konsumen C-company, yaitu perusahaan yang bergerak di bidang industri elektronik. Proses clustering didahului dengan mendefinisikan skala dari Atribut RFM. Atribut inilah yang digunakan sebagai input dalam proses clustering yang dilakukan dengan Algoritma K-Means (Cheng, 2009). Luh Putu Dian Shavitri Handayani sebelumnya melakukan proses segmentasi pelanggan menggunakan Metode Jaringan Syaraf Tiruan ART 2 dan Model RFM untuk mengetahui pelanggan potensial pada Perusahaan Retail UD. Fenny. Proses clustering dilakukan dengan membentuk beberapa cluster dan dicari jumlah cluster optimalnya dengan menggunakan Indeks Validitas Silhouette. Hasil rata-rata keseluruhan nilai indeks validitas tiap cluster mendekati 1, yang mana artinya Metode Jaringan Syaraf Tiruan ART 2 telah dapat melakukan proses segmentasi dengan baik (Luh Putu, 2012). Penelitian lain dilakukan oleh Zakrzewska, D. untuk menerapkan konsep data mining dalam proses segmentasi pelanggan (customer segmentation) pada sebuah bank. Penelitian ini membandingkan tiga algoritma clustering dalam hal high dimensionality data with noise yaitu DBSCAN, K-Means, dan Two-phase Clustering (Zakrzewska, 2005). 5

6 2.2 Data Mining Data mining secara sederhana merujuk pada ekstraksi atau pertambangan pengetahuan dari sejumlah besar data. Data mining juga dikatakan sebagai kegiatan menemukan pattern yang unik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi yang lain. Data mining berkaitan dengan bidang ilmu-ilmu lain seperti database system, data warehousing, statistic, machine learning, information retrieval, dan komputasi tingkat tinggi. Data mining selain itu didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining adalah langkah dalam KDD (Knowledge Discovery in Database) yang terdiri dari penerapan analisis data dan penemuan algoritma untuk menghasilkan daftar pola atau model tertentu terhadap data yang dianalisa (Fayyad, 1996). Gambar 2.1 menunjukkan data mining sebagai bagian dari KDD. Gambar 2.1 Hubungan KDD dengan proses data mining (Fayyad, 1996) Data mining banyak diterapkan untuk memecahkan masalah kepentingan intelektual, ekonomi, dan bisnis. Data mining dapat dibagi kedalam enam tugas, yaitu sebagai berikut (Berry & Linoff, 2004): 1. Klasifikasi Klasifikasi terdiri dari tindakan pengujian pada fitur baru dan mengelompokkannya ke dalam salah satu dari sekumpulan kelas yang telah diidentifikasi.

7 2. Estimasi Estimasi berhubungan dengan nilai kontinyu, jika terdapat beberapa input data, estimasi akan bekerja dengan nilai dari beberapa variabel kontinyu yang tidak diketahui seperti pendapatan, tinggi atau credit card balance. 3. Prediksi Prediksi adalah tugas yang sama seperti pada klasifikasi dan estimasi perbedaannya prediksi mengelompokkan berdasarkan beberapa prediksi yang berkaitan dengan waktu mendatang atau perkiraan waktu mendatang. 4. Afinitas Tugas dari afinitas didefinisikan sebagai tindakan untuk mengelompokkan hal mana yang akan dikelompokkan ke dalam kelompok yang sama. 5. Clustering Tugas dalam clustering yaitu mensegmentasi populasi heterogen ke dalam sub grup homogen atau clusters. Perbedaan dengan klasifikasi adalah pada clustering tidak ditentukan target pengelompokkan. 6. Deskripsi dan Penentuan Profil Sebuah deskripsi yang baik seringkali memberikan penjelasan yang baik juga sehingga proses deskripsi dan penentuan profil ini sangat berguna untuk mengetahui pengetahuan yang terdapat pada database yang rumit. Tiga tugas pertama merupakan contoh data mining yang terawasi (supervised learning), di mana tujuannya adalah untuk menemukan nilai dari variabel target tertentu. Afinitas dan clustering adalah tugas tidak diawasi (unsupervised learning), tujuannya adalah untuk menggungkap pengetahuan yang ada, sedangkan profiling adalah tugas deskriptif yang mungkin akan baik diawasi atau tidak diawasi. 2.3 Profil Aston Inn Tuban Archipelago International atau yang sebelumnya dikenal sebagai Aston International adalah sebuah Hotel Management Chain di Asia Tenggara dan merupakan yang terbesar di Indonesia. Aston International memasuki pasar Asia Tenggara sejak tahun 1997 dan saat ini telah memiliki portfolio yang terdiri lebih dari

8 100 properti yang terdiri dari hotel, condotel, resort, serviced apartment dan boutique villa resort yang mana 86 diantaranya telah beroperasi dan 100 lebih lainnya sedang dalam proses pengembangan. Aston Inn Tuban merupakan satu dari sekian banyak cabang Aston International yang ada di Bali (David Ling, 2012). 2.4 Customer Relationship Management (CRM) Pelanggan adalah aset yang paling penting dari sebuah organisasi. Prospek bisnis tanpa memuaskan pelanggan yang loyal dan mengembangkan hubungan yang baik terhadap perusahaan adalah hal yang tidak mungkin. Perusahaan untuk itu harus merencanakan dan menggunakan strategi yang tepat dalam pelayanan pelanggan. CRM (Customer Relationship Management) adalah strategi untuk membangun, mengelola, dan memperkuat hubungan perusahaan dengan pelanggan yang loyal agar dapat tercipta hubungan yang tahan lama. CRM harus merupakan pendekatan customercentric berdasarkan pandangan pelanggan. Ruang lingkup penanganan pelanggan dalam CRM harus bersifat personal karena setiap pelanggan merupakan entitas yang unik. Upaya tersebut dilakukan untuk mengidentifikasi dan memahami perbedaan kebutuhan, prefensi dan perilaku dari tiap pelanggan yang berbeda-beda (Tsiptsis & Chorianopoulus, 2009). Pengembangan bisnis dengan memusatkan pada hubungan terhadap pelanggan merupakan perubahan yang revolusioner untuk kebanyakan perusahaan. Perusahaan kini telah merubah tujuan dalam pemahaman pelanggan secara individual menjadi melihat nilai yang dimiliki tiap pelanggan sehingga pihak perusahaan mengetahui pelanggan mana yang memiliki nilai yang tinggi dan layak dijadikan investasi dan dipertahankan dan pelanggan mana yang memiliki nilai yang rendah (Berry & Linoff, 2004). Diperkirakan dalam riset American Management Association bahwa untuk menarik pelanggan baru membutuhkan biaya lima kali lebih banyak dibandingkan mempertahankan pelanggan yang telah ada. (Kotler, 1994; Peppers & Rogers, 1996) Perusahaan dapat mempersingkat daur penjualan dan meningkatkan loyalitas pelanggan untuk membangun hubungan yang dekat dengan pelanggan sehingga

9 kemudian dapat mendatangkan keuntungan. Penerapan CRM yang baik membantu perusahaan tetap menjaga pelanggan yang telah ada dan menarik pelanggan baru (Peppard, 2000). Perusahaan harus mampu menganalisa berbagai nilai yang terdapat pada masing-masing pelanggan dan mampu mempertahankan loyalitas pelanggan dalam waktu yang lama untuk memberikan keuntungan yang maksimal dengan memanfaatkan CRM sebagai strategi bisnis. 2.5 Data Mining dalam Kerangka Kerja CRM Data mining dapat menyediakan pandangan dari segi pelanggan yang merupakan elemen penting dalam membangun CRM yang efektif. Hal ini dapat meningkatkan interaksi dengan pelanggan sehingga memaksimalkan tingkat kepuasan pelanggan serta dapat memberikan keuntungan melalui analisis pada data. Hal ini dapat mendukung manajemen pelanggan secara individual dan mengoptimalkan semua life cycle pelanggan mulai dari akuisisi dan membentuk hubungan yang kuat untuk mencegah pengurangan pelanggan. Bagian pemasaran berusaha untuk mendapatkan pangsa pasar yang lebih besar dan mendapatkan pangsa pelanggan yang lebih besar. Bagian pemasaran memiliki tanggung jawab untuk mendapatkan, mengembangkan dan menjaga pelanggan. Aktivitas pemasaran yang dapat didukung dengan data mining secara spesifik meliputi topik berikut (Tsiptsis & Chorianopoulos, 2009): 1. Segmentasi Pelanggan Segmentasi pelanggan adalah proses untuk membagi pelanggan ke dalam kelompok homogen yang unik dalam rangka pengembangan strategi pasar yang berbeda berdasarkan karakteristiknya. Banyak perbedaan tipe yang terdapat dalam segmentasi pelanggan berdasarkan kriteria dan atribut yang spesifik untuk segmentasi 2. Pemasaran Langsung Bagian pemasaran menggunakan pemasaran langsung untuk mengkomunikasikan pesan kepada pelanggan menggunakan surat, internet, e- mail, dan telepon (tele marketing) untuk mengarahkan pelanggan untuk

10 membeli produk yang ditawarkan. Metode tersebut secara lebih spesifik digunakan untuk mendapatkan pelanggan yang potensial. 3. Asosiasi Data mining dan asosiasi model dapat digunakan untuk mengidentifikasikan hubungan antara produk yang biasanya dibeli secara bersamaan. Hal ini digunakan untuk mengetahui produk mana yang dapat dijual secara bersamaan. Hubungan data mining dan CRM dalam perusahaan perhotelan yaitu dapat membantu untuk mengidentifikasi sifat pelanggan dalam bertransaksi, mempertahankan pelanggan dan memberi kepuasan terhadap pelanggan, meningkatkan rasio konsumsi barang, merancang transportasi barang yang baik dan aturan pendistribusian serta mengurangi biaya bisnis (Han, 2006). 2.6 Model RFM Model RFM membagi data kedalam tiga aspek dimensi variabel yaitu Recency (R), Frequency (F), Monetary (M). Deskripsi lengkap dari RFM adalah sebagai berikut (Hughes, 1994): 1. Recency adalah interval waktu antara transaksi terakhir yang dilakukan pelanggan dengan waktu sekarang atau selama periode tertentu. Interval waktu yang semakin dekat antara waktu terakhir melakukan transaksi dengan waktu sekarang atau akhir periode yang ditetapkan maka semakin besar nilai dari Recency. 2. Frequency didefinisikan sebagai jumlah kali transaksi yang dilakukan pelanggan sampai waktu sekarang atau periode yang ditentukan. Jumlah kali transaksi pelanggan (rutin melakukan pembelian) yang semakin banyak, semakin tinggi nilai Frequency-nya. 3. Monetary memiliki definisi sebagai jumlah biaya yang dikeluarkan pelanggan dalam setiap transaksi sampai waktu sekarang atau dalam periode tertentu. Jumlah biaya yang dikeluarkan semakin banyak, maka semakin besar nilai Monetary-nya.

11 Tsiptsis & Chorianopoulos menyatakan terdapat enam pembagian pelanggan berdasarkan nilai RFM yang dimiliki pelanggan, yang didefinisikan secara lebih spesifik pada Tabel 2.1 Tabel 2.1 Pembagian Pelanggan dengan Model RFM Kelas Pelanggan Deskripsi Kelas Pelanggan Superstar - Pelanggan dengan tingkat loyalitas paling tinggi - Memiliki nilai (value) yang paling tinggi - Memiliki frekuensi yang paling tinggi - Melakukan transaksi terbesar Golden Customer - Memiliki nilai (value) terbesar kedua - Memiliki frekuensi tinggi - Melakukan transaksi standar rata-rata Typical Customer - Memiliki nilai (value) dan frekuensi standar ratarata - Melakukan transaksi standar rata-rata Occational Customer - Memiliki frekuensi terendah kedua setelah Dormant Customer - Memiliki recency rendah (memiliki waktu yang lama dengan rentang waktu terakhir kunjungan) - Melakukan pembelanjaan dalam jumlah besar (large basket) Everyday Shopper - Memiliki peningkatan dalam transaksi - Melakukan pembelanjaan dalam jumlah kecil (small basket) - Memiliki nilai dengan skala menengah (medium) hingga rendah (low) Dormant Customer - Memiliki frekuensi dan nilai (value) terendah - Memiliki waktu yang lama ketika masa terakhir kunjungan (memiliki Recency terendah) 2.7 Analisis Cluster 2.7.1 Konsep Clustering Teknik pengelompokkan banyak diterapkan dalam berbagai bidang seperti kedokteran, kesehatan, psikologi, hukum, statistik, astronomi, klimatologi dan sebagainya. Teknik pengelompokkan dalam bidang kedokteran dapat digunakan untuk

12 mengelompokkan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifat-sifat penyakit pasien. Teknik pengelompokkan dalam bidang kesehatan dapat digunakan untuk mengelompokkan jenis-jenis makanan berdasarkan kandungan kalori, vitamin dan protein. Teknik pengelompokkan dalam bidang klimatologi dapat digunakan untuk mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayahwilayah yang rentan terhadap cuaca buruk (Eko Prasetyo, 2014). Analisis cluster adalah pekerjaan mengelompokkan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan hubungan antara objek-objek tersebut (Tan, 2006). Tujuan dari analisis cluster adalah agar objek-objek yang bergabung dalam sebuah kelompok merupakan objek yang mirip atau berhubungan satu sama lain dan berbeda dengan objek dalam kelompok yang lain. Data yang masuk pada Proses Clustering tidak mempunyai label kelas seperti pada klasifikasi tetapi dikelompokkan berdasarkan karakteristiknya. Masingmasing cluster setelah itu diberi label sesuai hasil karakteristik kelompok masingmasing. Clustering karena alasan tersebut disebut juga sebagai unsupervised learning (Eko Prasetyo, 2014). 2.7.2 Tujuan Clustering Tujuan clustering data dapat dibedakan menjadi dua yaitu pengelompokan untuk pemahaman dan pengelompokan untuk penggunaan. Tujuan pemahaman adalah untuk membuat kelompok yang terbentuk dapat menangkap struktur alami data. Proses pengelompokan dalam tujuan pemahaman biasanya hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti seperti peringkasan atau summarization, pelabelan kelas pada setiap kelompok, dan sebagainya. Tujuan yang digunakan untuk pengelompokan biasanya adalah mencari prototype kelompok yang paling representative terhadap data dan memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya (Eko Prasetyo, 2014).

13 2.7.3 Jenis-jenis Clustering Metode yang dikembangkan oleh para ahli sudah sangat banyak. Masingmasing metode mempunyai karakter, kelebihan dan kekurangan masing-masing. Clustering dapat dibedakan menurut struktur kelompok, keanggotaan data dalam kelompok dan kekompakan data dalam kelompok. Metode Clustering menurut strukturnya dibagi menjadi dua yaitu pengelompokan hirarki dan partitioning. Pengelompokan hirarki memiliki aturan satu data tunggal bisa dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi satu kelompok besar dan begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok. Metode Clustering Hirarki merupakan satu-satunya metode yang masuk ke dalam kategori pengelompokan hirarki. Metode Clustering Partitioning membagi set data ke dalam sejumlah kelompok yang tidak tumpang tindih (overlap) antara satu kelompok dengan kelompok yang lain artinya setiap data hanya menjadi anggota satu kelompok. Metode seperti K-Means dan DBSCAN masuk dalam kategori pengelompokan partitioning. Metode Clustering menurut keanggotaan dalam kelompok dibagi menjadi dua, yaitu eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika sebuah data hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Metode Clustering yang masuk dalam kategori ini adalah K- Means dan DBSCAN sedangkan yang masuk kategori tumpang-tindih adalah Metode Clustering yang membolehkan sebuah data menjadi anggota di lebih dari satu kelompok, misalnya Fuzzy C-Means. Metode Clustering menurut kategori kekompakan terbagi menjadi dua yaitu komplet dan parsial. Semua data bisa dikatakan kompak menjadi satu kelompok jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan) namun jika ada sedikit data yang tidak ikut bergabung dalam kelompok mayoritas data tersebut dikatakan mempunyai perilaku menyimpang. Data yang menyimpang ini dikenal dengan sebutan noise. Metode yang tangguh untuk mendeteksi noise ini adalah DBSCAN (Eko Prasetyo, 2014).

14 2.7.4 Density-Based Spatial Clustering of Application with Noise (DBSCAN). Density-Based Spatial Clustering of Application with Noise (DBSCAN) merupakan sebuah Metode Clustering yang membangun area berdasarkan kepadatan yang terkoneksi (density-connected). Setiap objek dari sebuah radius area (cluster) harus mengandung setidaknya sejumlah minimum data. Semua objek yang tidak termasuk di dalam cluster akan dianggap sebagai noise. Istilah yang terdapat di dalam algoritma DBSCAN adalah sebagai berikut: 1. Minpts adalah banyak poin minimal di dalam suatu cluster 2. Eps adalah nilai untuk jarak antar poin yang menjadi dasar pembentukan neighborhood dari suatu titik item 3. Neighborhood yang terletak di dalam suatu radius disebut - neighborhood dari objek data 4. Jika - neighborhood dari suatu objek berisi paling sedikit suatu angka yang minimum (Minpts dari suatu objek), objek tersebut disebut sebagai core object. 5. Directly density-reachable, titik poin dikatakan directly density-reachable dari titik yang lain jika jarak di antara mereka tidak lebih dari nilai Epsilon ( ). Gambar 2.2 menggambarkan kasus directly density-reachable. Gambar 2.2 Directly Density-Reachable Directly density-reachable merupakan pasangan simetris dari core point walaupun begitu secara umum directly density-reachable bisa asimetris jika mengandung satu core point dan satu border point. (Aster, M, 1996) Gambar 2.3 menggambarkan kasus asimetris.

15 Gambar 2.3 Kasus Asimetris Directly density-reachable asimetris mungkin terjadi jika mengandung satu core point dan satu border point. 6. Density reachable adalah dua titik yang dihubungkan oleh rantai yang hanya terdiri dari titik-titik yang directly density-reachable dari titik sebelumnya. Gambar 2.4 menggambarkan kasus density reachable. Gambar 2.4 Density Reachable Gambar 2.4 menggambarkan titik yang density reachable. Density reachable adalah dua titik yang dihubungkan oleh rantai yang hanya terdiri dari titik-titik yang directly density-reachable dari titik sebelumnya. 7. Density connected, dikatakan demikian jika ada sebuah objek o elemen D sehingga p dan q keduanya density-reachable dari o dengan memperhatikan Eps dan Minpts. Gambar 2.5 menggambarkan kasus density connected.

16 Gambar 2.5 Density Connected Gambar 2.5 menunjukkan kasus density connected, dikatakan demikian jika ada sebuah objek o elemen D sehingga p dan q keduanya density-reachable dari o dengan memperhatikan Eps dan Minpts. Berikut merupakan algoritma dari Metode DBSCAN: 1. Pilih poin p secara acak. 2. Inisialisasi nilai minpts dan eps 3. Ambil semua poin yang density reachable terhadap p. 4. Jika p adalah core point maka cluster terbentuk. 5. Jika p adalah border point, tidak ada yang merupakan hubungan densityreachable dari p dan DBSCAN mengunjungi poin selanjutnya dari database. 6. Lanjutkan sampai semua poin telah diproses. Hasil yang didapatkan tidak tergantung dari urutan proses yang diambil. 7. Hitung jarak, apakah masih memenuhi epsilon. Perhitungan menggunakan Jarak Eucledian sebagai berikut: E(x, y) = n i=0 (X i Y i ) 2... (2.1) 8. Jika titik yang memenuhi epsilon lebih dari Minpts maka cluster terbentuk. 9. Setelah didapat titik jarak yang paling besar, titik itu dijadikan core point.

17 Ringkasan karakteristik Metode DBSCAN dapat dipaparkan sebagai berikut (Mumtaz, 2008): 1. DBSCAN tidak perlu mengetahui jumlah data secara sesukanya seperti pada K-Means. Hal ini memberikan keuntungan karena umumnya bentuk dan jumlah kelompok yang sebaiknya diberikan pada data berdimensi tinggi tidak bisa diketahui dengan cara analisis visual data. 2. DBSCAN dapat menemukan bentuk kelompok sembarang, bahkan kelompok berbentuk melingkar yang tidak bisa ditangani K-Means. Hal ini dapat disesuaikan dengan menentukan nilai MinPts. 3. DBSCAN bisa mengenali derau (noise) dengan baik. 4. Metode DBSCAN hanya membutuhkan dua parameter yang kebanyakan tidak sensitif terhadap urutan data dalam database tetapi penentuan parameter Epsilon hanya mudah diberikan ketika melihat data spasial dua dimensi. Data berdimensi tinggi, nilai Epsilon yang tepat sangat sulit ditentukan. 5. Metode DBSCAN hanya memberikan hasil kelompok yang baik jika menggunakan Jarak Euclidian tetapi tidak berguna untuk data berdimensi tinggi. 6. Metode DBSCAN tidak dapat memberikan hasil yang baik untuk data yang mempunyai kelompok kepadatan yang berbeda. Hal ini karena DBSCAN hanya memandang proses pengelompokan berdasarkan radius epsilon sehingga ketika ada dua kelompok atau lebih yang mempunyai kepadatan yang berbeda, DBSCAN tidak bisa memberikan hasil yang baik. 2.8 Validasi Cluster Evaluasi dari model yang digunakan dilakukan dengan melakukan Proses Mining pada data set dalam periode satu tahun. Proses Clustering diuji coba dengan berbagai nilai parameter dari Algoritma Clustering. Hasil clustering diuji tingkat validitasnya menggunakan Indeks Validitas Silhouette untuk menentukan jumlah cluster yang terbaik. Proses yang dilakukan dalam validasi cluster untuk menentukan jumlah cluster optimal adalah sebagai berikut:

18 1. Tentukan jumlah jarak antara core point dengan semua titik yang berada pada cluster yang sama 2. Hitung nilai rata-rata jarak core point dengan semua titik pada cluster yang sama a(i) = (i = objek ke 1, 2, 3,, n) 3. Hitung jumlah jarak antara core point dengan semua titik pada cluster yang berbeda 4. Hitung nilai rata-rata jarak antara core point dengan semua titik pada cluster yang berbeda b(i) = (i = cluster ke 1, 2, 3,, n) 5. Cari nilai minimum b(i) 6. Hitung nilai Indeks Validitas Silhouette tiap titik (Si) dengan rumus (b(i) a(i)) S(i) =... (2.2) max {a(i),b(i)} 7. Hitung nilai rata-rata Indeks Validitas Silhouette dengan rumus n GSu = 1 s(i) n i=1... (2.3) 8. Cluster dengan nilai GSu tertinggi merupakan cluster optimal.