BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

BAB I PENDAHULUAN I.1 Latar Belakang

BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data

DATA MINING DAN WAREHOUSE A N D R I

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

KAJIAN ANALISIS CLUSTERING DAN PENERAPANNYA PADA SISTEM PENDUKUNG KEPUTUSAN

Bab 2 Tinjauan Pustaka

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB 2 LANDASAN TEORI. setelah membandingkan kinerja atau hasil yang dirasakannya dengan. diharapkan konsumen dengan apa yang dirasakan konsumen ketika

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

BAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut :

BAB I PENDAHULUAN. 1.1 Latar Belakang

Jumlah persentase ini tidak harus persis seperti diatas tetapi bisa bervariasi tergantung di perusahaan mana metode ini diterapkan.

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

*Corresponding Author:

Analisis Cluster dengan Average Linkage Method dan Ward s Method untuk Data Responden Nasabah Asuransi Jiwa Unit Link

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB 3 ANALISA SISTEM

BAB III METODE PENELITIAN. Alasan memilih Ciputra Taman Dayu Pandaan dikarenakan Ciputra Taman Dayu

UKDW BAB I PENDAHULUAN

Pengenalan Pola. Klasterisasi Data

PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

SISTEM PENDUKUNG KEPUTUSAN PEMASARAN PRODUK MENGGUNAKAN DATA MINING DENGAN K-MEANS CLUSTERING

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

SISTEM PENDUKUNG KEPUTUSAN 3 SKS

BAB IV ANALISIS DAN PERANCANGAN

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB I PENDAHULUAN. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

Clustering. Virginia Postrel

BAB II TINJAUAN PUSTAKA

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

Outline. Definisi SPK Tujuan SPK Fitur SPK Karakteristik dan Kemampuan SPK Komponen SPK

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 1 PENDAHULUAN 1.1. Latar Belakang

Decision Support System & Sub Sistem (Komponennya) Efraim Turban

BAB I PENDAHULUAN. usaha jasa perjalanan wisata di Bali. Perusahaan ini melayani pelanggan

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA. mengelompokkan anggota-anggota yang mirip atau mempunyai karakteristik yang

ANALISIS CLUSTER PADA DOKUMEN TEKS

Data Mining. Clustering. Oleh : Suprayogi

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

P6 Arsitektur SPK. A. Sidiq P. Program Studi Teknik Informatika Fakultas Teknologi Informasi Universitas Mercu Buana Yogyakarta

BAB 2 TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II LANDASAN TEORI

Pengenalan Pola. K-Means Clustering


CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

Sistem Pendukung Keputusan / Decision Support System. Decision Support Systems & Weighted Product (WP)

BAB I PENDAHULUAN. 1.1 Latar Belakang. Masalah dalam kehidupan sehari-hari tidak hanya didasarkan pada

BAB II LANDASAN TEORI

DECISION SUPPORT SYSTEMS

JULIO ADISANTOSO - ILKOM IPB 1

BAB 2 TINJAUAN PUSTAKA

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

Data Mining Clustering Oleh : Suprayogi

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB II LANDASAN TEORI

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

PENGELOMPOKAN KABUPATEN/KOTA DI KALIMANTAN BARAT BERDASARKAN INDIKATOR DALAM PEMERATAAN PENDIDIKAN MENGGUNAKAN METODE MINIMAX LINKAGE

Sistem Pendukung Keputusan Manajemen

RUANG LINGKUP SISTEM PENDUKUNG KEPUTUSAN

Pengenalan Pola. Hierarchical Clustering

PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

BAB III PEMBAHASAN. survei yang dilakukan BPS pada 31 Oktober Langkah selanjutnya yang

ANALISIS CLUSTER DENGAN METODE K-MEANS (TEORI DAN CONTOH STUDY KASUS)

SISTEM PENDUKUNG KEPUTUSAN. Sistem Informasi Pariwisata

TEKNOSI, Vol. 02, No. 03, Desember Koko Handoko Universitas Putera Batam (cooresponding author)

Dhiani Tresna Absari,ST. Dosen Jurusan Teknik Informatika Universitas Surabaya

BAB II TINJAUAN PUSTAKA. penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis),

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB 2 LANDASAN TEORI

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

Subsistem manajemen data terdiri dari elemen-elemen berikut ini:

SEGMENTASI CITRA. thresholding

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract

P6 Arsitektur SPK. SQ

Transkripsi:

BAB II LANDASAN TEORI II.1 Sistem Pendukung Keputusan II.1.1 Definisi Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, Sistem Pendukung Keputusan (SPK) / Decision Support System (DSS) adalah sebuah sistem yang dibangun untuk mendukung pengambil keputusan manajerial mengambil keputusan. SPK dibangun dengan tujuan untuk membantu para pengambil keputusan untuk mengembangkan kapabilitasnya tetapi tidak untuk mengganti proses pengambilan keputusannya. Definisi lain dari SPK adalah sekumpulan prosedur berbasis model yang digunakan untuk memproses data dan mengambil keputusan untuk membantu manager dalam pembuatan keputusan. II.1.2 Komponen Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, sebuah aplikasi sistem pendukung keputusan dapat disusun dari sub sistem-sub sistem berikut : 1. Sub Sistem Manajemen Data (Data Management Subsystem) Sub sistem ini termasuk sebuah basis data yang berisi data yang relevan dan dikelola oleh perangkat lunak yang disebut sebagai Database Management System (DBMS). 2. Sub Sistem Manajemen Model (Model Management Subsystem) Sub sistem ini biasanya berupa paket perangkat lunak yang berisi modelmodel financial, statistik, manajemen ilmu pengetahuan, atau model kuantitatif lain yang menyediakan kemampuan analitik sistem dan manajemen perangkat lunak yang sesuai. 3. Sub Sistem Antarmuka Pengguna (User Interface Subsystem) Sistem ini digunakan sebagai alat komunikasi antara pengguna dengan SPK. Dengan sub sistem inilah para pengguna dapat mengendalikan semua proses pembuatan keputusan. 6

7 4. Sub Sistem Manajemen berbasis Pengetahuan (Knowledge-based Management Subsystem) Sub sistem ini merupakan sub sistem opsional yang berperan menyediakan kecerdasan untuk mendukung para pembuat keputusan. Sub sistem ini dapat berinterkoneksi dengan tempat penyimpanan ilmu pengetahuan organisasi (basis pengetahuan organisasi). Hubungan antar sub sistem-sub sistem tersebut dapat dilihat pada Gambar II.1 di bawah ini. Sistem berbasis Komputer Lain Jaringan Komputer Data External/Internal Manajemen Data Manajemen Model Model External Basis Pengetahuan Antarmuka Pengguna Basis Pengetahuan Organisasi User/Pengguna Gambar II.1 Hubungan antar sub sistem dalam SPK II.2 Data Mining Data Mining adalah sebuah istilah yang digunakan untuk menjelaskan penemuan pengetahuan (knowledge discovery) dalam basis data. Data mining adalah sebuah proses yang menggunakan teknik-teknik statistik, matematis, kecerdasan buatan dan machine-learning untuk mengambil dan mengidentifikasi informasi yang berguna dan pengetahuan dari sebuah basis data yang besar.

8 Data mining dapat menjadi suatu langkah yang dilakukan untuk pengambilan keputusan. Dalam sistem pengambilan keputusan, data mining dapat dikategorikan dalam sub sistem manajemen model. Hal tersebut dapat dilihat berdasarkan pada Gambar II.2. Gambar II.2. Proses Data Mining dalam Pengambilan Keputusan Data mining dapat mempercepat analisis dengan memfokuskan perhatian terhadap variable-variable yang paling penting. Dengan kemampuan sistem komputer yang semakin cepat, sekarang banyak organisasi-organisasi untuk memulai menerapkan aplikasi data mining. Setiap aplikasi data mining biasanya didukung dengan sekumpulan algoritma sebagai untuk mengambil relasi dalam data. Pendekatan pengambilan keputusan dibedakan berdasarkan kelas masalah yang akan dipecahkan. Adapun kelas-kelas masalah tersebut adalah Classification, Clustering, Association, Sequencing, Regression, Forecasting, Teknik lain(metode-metode kecerdasan buatan yang didalamnya termasuk reasoning, fuzzy logic, dan algoritma genetic). Aplikasi-aplikasi data mining telah banyak digunakan. Diantara contoh penggunaan data mining adalah pada bidang pemasaran, perbankan, retail dan penjualan, manufaktur dan produksi, perdagangan saham, asuransi, pemerintahan dan pertahanan, transportasi, kesehatan, penyiaran dan kepolisian.

9 II.3 Analisis Clustering II.3.1 Definisi Analisis Clustering Berdasarkan Joseph F. Hair dkk, analisis clustering adalah sekumpulan teknik pengolahan data multivariate yang mempunyai tujuan utama untuk mengelompokan obyek-obyek berdasarkan pada karakteristik yang dimilikinya. Analisis clustering mengklasifikasikan obyek-obyek (seperti responden, produk, atau entitas lain) sehingga setiap obyek yang mempunyai kemiripan satu dengan lainnya berada dalam satu cluster dengan memperhatikan kriteria pemilihan yang telah ditetapkan sebelumnya. Cluster obyek yang dihasilkan harus dapat memperlihatkan tingkat homogenitas internal yang tinggi dalam suatu cluster, dan tingkat heterogenitas yang tinggi antar cluster. Sehingga jika suatu klasifikasi berhasil, maka obyek-obyek yang ada dalam suatu cluster akan berdekatan dan obyek yang ada dalam cluster lain akan terpisah jauh. Variable 2 Variable 2 Variable 1 Variable 1 (a) Obyek belum dicluster (b) Obyek setelah dicluster Gambar II.3 Ilustrasi obyek sebelum dan sesudah dicluster Analisis clustering merupakan sebuah teknik pengolahan data multivariate yang bersifat unsupervised. Analisis clustering dapat diterapkan dalam banyak bidang, sebagai contoh adalah seperti di bawah ini. 1. Pemasaran/Marketing. Digunakan untuk mencari kelompok-kelompok customer dengan mempunyai sifat yang mirip.

10 2. Biologi. Digunakan untuk memembuat klasifikasi binatang atau tumbuhan berdasarkan fitur-fiturnya. 3. Perpustakaan. Digunakan untuk penentuan urutan penyimpanan/pengelompokkan buku 4. Asuransi. Digunakan untuk mengidentifikasi kelompok-kelompok pemegang polis asuransi yang mempunyai nilai klaim yang besar atau pun untuk mengidentifikasi penipuan. 5. Perencanaan kota. Digunakan untuk mengidentifikasi kelompok-kelompok rumah berdasarkan tipe rumah, nilai rumah, dan lokasi geografisnya. 6. Penelitian Gempa Bumi. Clustering digunakan untuk mengobservasi pusat gempa bumi untuk mengidentifikasi zona-zona yang berbahaya. 7. World Wide Web (WWW). Clustering digunakan untuk klasifikasi dokumen. II.3.2 Tujuan Analisis Clustering Tujuan utama analisis cluster adalah untuk mempartisi sekumpulan obyekobyek menjadi dua atau lebih kelompok berdasarkan kemiripan dari obyek tersebut terhadap karakteristik yang telah ditentukan. Berdasarkan Joseph F. Hair dkk, setelah suatu cluster ditemukan maka pengguna akan dapat mempunyai keuntungan-keuntungan diantaranya adalah: a. Pendeskripsian Taksonomi Analisis cluster dapat digunakan untuk maksud penelitian atau untuk pembentukan formasi taksonomi (klasifikasi obyek). Kemampuan analisis cluster dalam mempartisi telah banyak digunakan dalam banyak aplikasi misalnya dalam bidang biologi seperti pembuatan sebuah taksonomi biologi untuk klasifikasi berbagai kelompok binatang. Bidang pemasaran juga banyak menggunakan analisis cluster untuk tujuan misalnya membuat segmentasi pasar, memahami perilaku pembeli, mengenali peluang produk baru. b. Penyederhanaan Data Cluster-cluster yang didapat dengan proses clustering dapat dipandang sebagai bentuk sederhana dari keseluruhan obyek penelitian. Analisis cluster dapat digunakan untuk mengkompresi data. Sebagai contoh, jika penelitian yang

11 kita lakukan memiliki obyek penelitian yang banyak maka akan sangat sulit dan lama untuk memprosesnya jika penelitian dilakukan terhadap tiap obyek penelitian tersebut. Oleh karena itu maka solusi yang dapat diambil untuk mengatasi hal tersebut adalah dengan mengelompokkan obyek-obyek tersebut ke dalam cluster-cluster, sehingga penelitian dapat dilakukan terhadap cluster yang terbentuk. c. Pengidentifikasian Hubungan/Relationship Dengan cluster-cluster yang telah ditemukan dan berdasarkan struktur dari data yang direpresentasikan dalam cluster, para peneliti mendapatkan hubungan antar observasi yang mungkin tidak mungkin didapatkan dengan observasi tiap individu/obyek. II.3.3 Klasifikasi Teknik Clustering Berdasarkan teknik-teknik clustering yang umum digunakan, teknik-teknik clustering terdiri dari dua yaitu teknik clustering hierarki dan non-hierarki. Berdasarkan Prof. J. Suprapto, M.A, APU, klasifikasi teknik-teknik clustering adalah tampak pada Gambar II.4. Single Linkage Complete Linkage Teknik Clustering Hierarki Agglomerative Devisive Threshold Sekuensial Average Linkage Variance Linkage Centroid Linkage Non-Hierarki Threshold Parallel Optimizing Procedure Gambar II.4 Klasifikasi teknik-teknik clustering

12 II.3.3.1 Teknik Clustering Hierarki Teknik clustering hierarki adalah suatu teknik clustering yang melibatkan pengkombinasian obyek terhadap cluster-cluster. Ada dua metode yang dapat dilakukan yaitu metode agglomerative dan metode divisive. Hasil dari metodemetode tersebut akan menghasilkan sebuah hierarki atau struktur pohon (dendrogram) yang menggambarkan cluster-cluster yang terbentuk. Kedua metode tersebut akan menghasilkan cluster sebanyak N-1 dimana N adalah banyaknya obyek-obyek yang diteliti. Hasil clustering dengan proses hierarki biasanya ditampilkan dalam bentuk dendrogram atau diagram scatter. Gambar II.5 di bawah ini adalah sebuah contoh proses clustering dan proses pembentukan diagram scatter dan dendrogramnya. Diagram Scatter 3 1 2 4 5 Diagram Scatter 3 1 2 4 5 Dendrogram 1 2 3 4 5 Dendrogram 1 2 3 4 5 (a) Sebelum diclusterkan (b) Cluster 1 & 2 digabung Diagram Scatter 3 1 2 4 5 Diagram Scatter 3 1 2 4 5 Dendrogram 1 2 3 4 5 Dendrogram 1 2 3 4 5 (c) Cluster 4 & 5 digabung (d) Cluster 1-2 & 3 digabung Diagram Scatter 3 1 2 4 5 Dendrogram 1 2 3 4 5 (e) Cluster 1-2-3 & 4-5 digabung Gambar II.5 Contoh clustering dan pembentukan diagram scatter dan dendrogram

13 II.3.3.1.1 Single linkage (keterhubungan tunggal) Metode single linkage adalah metode yang aturan kemiripan antar clusternya dilihat berdasarkan terhadap jarak sebuah obyek yang ada dalam sebuah cluster terhadap obyek lain dalam cluster lain yang mempunyai jarak paling dekat. Metode single linkage dapat juga disebut sebagai minimum distance clustering. Gambar II.6 Pengukuran jarak menggunakan single linkage II.3.3.1.2 Complete linkage (keterhubungan lengkap) Metode complete linkage adalah metode yang aturan kemiripan antar cluster didasarkan kepada jarak maksimal antara sebuah obyek di suatu cluster dengan obyek lain di cluster lain yang mempunyai jarak paling jauh. Metode complete linkage juga disebut maximum distance clustering. Gambar II.7 Pengukuran jarak dengan complete linkage II.3.3.1.3 Average linkage (keterhubungan rata-rata) Metode average linkage adalah metode yang aturan kemiripan antar cluster didasarkan kepada jarak rata-rata semua obyek di suatu cluster dengan semua obyek lain di cluster lain. Gambar II.8 Pengukuran jarak dengan average linkage

14 II.3.3.1.4 Centroid linkage Metode centroid linkage adalah metode penentuan kemiripan 2 buah cluster yang ditentukan dengan mengukur jarak antar centroid cluster 2 buah cluster. Langkah yang dilakukan dalam metode ini adalah dengan menghitung titik pusat cluster berdasarkan obyek-obyek cluster tersebut. Centroid Gambar II.9 Pengukuran jarak dengan centroid linkage II.3.3.1.5 Variance linkage Metode variance linkage yang umum digunakan adalah menggunakan prosedur Ward (Ward s Procedure). Pengukuran jarak ketetanggaan antar cluster dengan metode ini adalah demgan mencari nilai variance dari sebuah cluster dan dibandingkan dengan nilai variance dari cluster lain. II.3.3.2 Teknik Clustering Non-Hierarki Teknik clustering non-hierarki adalah suatu teknik clustering yang melakukan proses clustering dengan cara menentukan terlebih dahulu banyaknya cluster yang diinginkan. Kemudian dari banyaknya cluster yang diinginkan tersebut, dibuatlah suatu cluster awal (cluster seed) yang dihasilkan dengan cara tertentu atau acak. Setiap obyek akan diukur jaraknya terhadap cluster-cluster awal tersebut. Teknik analisis cluster non-hierarki sering disebut pula dengan nama clustering K-mean. Metode yang banyak digunakan dalam analisis menggunakan

15 cara non-hierarki adalah Sequential Threshold Clustering, Parallel Threshold Clustering, Optimizing Procedure Clustering. Dalam clustering non-hierarki, data dibagi menjadi k group atau partisi yang setiap group tersebut merepresentasikan sebuah cluster. Hal inilah yang membedakan dengan teknik clustering hierarki, dimana dalam teknik clustering non-hierarki, banyak cluster yang diinginkan harus sudah diketahui sebelum proses clustering dilakukan. Adapun dasar dari proses teknik clustering nonhierarki adalah sebagai berikut : 1. Tentukan k titik pusat cluster (centroid) awal atau bibit., dimana k adalah banyaknya cluster yang diinginkan. 2. Tempatkan setiap obyek uji ke suatu cluster yang memiliki jarak terdekat dengan titik pusatnya. 3. Tempatkan ulang atau relokasi setiap obyek uji ke salah satu dari k cluster sesuai dengan aturan pemberhentian proses yang telah ditentukan. 4. Proses selesai jika tidak ada relokasi pada obyek uji atau jika relokasi telah memenuhi criteria yang telah ditentukan dalam aturan pemberhentian proses. Jika masih ada relokasi obyek uji atau belum sesuai criteria aturan pemberhentian proses, maka proses dilakukan dengan mengulang langkah dari langkah ke-2. Umumnya algoritma-algoritma clustering non-hierarki dibedakan berdasarkan cara pandang algoritma tersebut terhadap : 1. Metode yang digunakan untuk menentukan centroid awal cluster 2. Aturan yang digunakan untuk penempatan ulang obyek uji. Metode yang dapat digunakan untuk menentukan centroid awal cluster diantaranya adalah : 1. Memilih sebanyak k obyek uji yang memiliki variable data yang lengkap (nonmissing data) sebagai centroid awal cluster, atau 2. Memilih sebuah obyek uji yang memiliki data lengkap sebagai centroid cluster pertama, kemudian untuk menentukan centroid ke-2 dilakukan dengan cara mencari centroid yang sedemikian rupa sehingga mempunyai jarak yang

16 berjauhan dengan centroid cluster pertama, begitu juga dengan pemilihan centroid ke-3 dilakukan dengan cara memilih centroid yang berjauhan dengan centroid sebelumnya. Hal yang sama dilakukan untuk centroid cluter selanjutnya. 3. Secara acak memilih sebanyak k obyek uji yang memiliki data yang lengkap sebagai centroid cluster awal. 4. Memperbaiki centroid awal cluster menggunakan aturan tertentu sedemikian rupa sehingga jarak antar centroid akan mempunyai jarak yang saling berjauhan. 5. Menggunakan proses heuristic untuk mengidentifikasi pusat-pusat cluster sedemikian rupa sehingga mempunyai jarak yang berjauhan 6. Cluster awal ditentukan oleh peneliti Algoritma-algoritma non-hierarki juga dibedakan dengan cara algoritma tersebut memandang prosedur yang digunakan dalam menempatkan obyek uji ke suatu cluster. Beberapa algritma clustering jika dilihat dari aturan-aturan penempatan obyek uji terhadap cluster, dapat dibagi menjadi 3 algoritma yaitu : 1. Algoritma clustering dengan metode Sequential Threshold 2. Algoritma clustering dengan metode Parallel Threshold 3. Algoritma clustering dengan metode Optimizing Procedure II.3.3.2.1 Clustering dengan metode Sequential Threshold Clustering Proses clustering dengan menggunakan metode sequential threshold clustering dimulai dengan memilih sebuah cluster seed dan kemudian menggabungkan setiap obyek yang ada dalam jarak yang telah ditentukan sebelumnya. Cluster tersebut akan disebut sebagai cluster pertama. Setelah cluster pertama terbentuk, maka cluster seed ke-dua digunakan dan kemudian obyekobyek yang mempunyai jarak terdekat akan digabungkan. Jika telah selesai, maka cluster berikutnya akan dibentuk dengan cara yang sama.

17 Metode ini disebut dengan sequential threshold clustering karena proses clustering dilakukan berurutan dari cluster pertama, kedua, ketiga dan berikutnya. Metode ini tidak memperbolehkan suatu obyek pindah ke cluster lain. II.3.3.2.2 Clustering dengan metode Parallel Threshold Clustering Proses clustering dengan menggunakan metode parallel threshold clustering dimulai dengan memilih cluster seed-cluster seed yang akan dijadikan patokan pembuatan cluster. Setiap obyek akan diukur terhadap cluster seed tersebut. Sebuah obyek akan masuk ke suatu cluster jika mempunyai nilai jarak terhadap suatu cluster seed lebih dekat daripada cluster seed yang lain. Langkah ini mengakibatkan penentuan cluster tidak berurutan. Metode ini tidak memperbolehkan suatu obyek yang sudah menjadi anggota suatu cluster berpindah ke cluster lain. II.3.3.2.3 Clustering dengan metode Optimizing Procedure Clustering Proses clustering dengan menggunakan metode ini mirip dengan sequential threshold atau parallel threshold clustering, perbedaannya adalah diperbolehkannya suatu obyek berpindah dari suatu cluster ke cluster lain. Ini terjadi ketika jarak ke suatu cluster ternyata lebih dekat daripada jarak obyek tersebut ke cluster yang sekarang. Proses optimalisasi dilakukan dengen menghitung ulang setiap obyek terhadap semua centroid cluster yang ada. Jika obyek tersebut mempunyai jarak yang lebih kecil terhadap suatu centroid cluster lain daripada centroid cluster sekarang, maka obyek tersebut direlokasi ke cluster terdekat tersebut. Optimalisasi cluster dapat dilakukan dengan langkah-langkah berikut : 1. Pilih sebuah obyek uji 2. Lakukan perbandingan jarak obyek uji dengan centroid cluster sekarang dengan jarak obyek uji dengan centroid cluster lain.

18 3. Jika jarak obyek uji ke centroid cluster lain lebih kecil daripada jarak obyek uji ke centroid sekarang, maka obyek uji direlokasi ke cluster terdekat. 4. Ulangi langkah 1 sampai 3 untuk semua obyek uji. 5. Ulangi langkah 1 sampai 4 jika masih terjadi relokasi. Langkah ini akan berhenti ketika tidak terjadi relokasi obyek uji ke cluster lain. II.3.4 Langkah-Langkah Proses Analisis Clustering Langkah-langkah yang dilakukan untuk proses analisis clustering dapat dilihat pada gambar II.10 di bawah ini. Merumuskan Masalah Memilih Metode Pengukuran Jarak/Similaritas Memilih Prosedur Clustering Menentukan Banyaknya Cluster Menginterpretasikan dan Memprofile Cluster Menguji Keandalan dan Validitas Cluster Gambar II.10 Langkah-langkah proses analisis clustering II.3.4.1 Merumuskan Masalah Hal yang paling penting di dalam perumusan masalah analisis cluster adalah pemilihan variabel-variabel yang akan dipergunakan untuk pengclusteran (pembentukkan cluster). Memasukkan satu atau dua variabel yang tidak relevan dengan masalah clustering akan mengurangi kualitas hasil clustering.

19 Pada dasarnya variable-variabel yang akan dipilih harus menguraikan kemiripan (similaritas) antar obyek, yang memang benar-benar relevan dengan masalah yang dihadapi. Variabel harus dipilih berdasarkan penelitian sebelumnya, teori atau suatu pertimbangan berkenaan dengan hipotesis yang akan diuji. II.3.4.2 Memilih Metode Pengukuran Jarak/Similaritas Karena tujuan clustering adalah untuk mengelompokkan obyek yang mirip ke dalam suatu cluster yang sama, maka beberapa ukuran diperlukan untuk menguji seberapa mirip atau berbeda obyek-obyek tersebut. Pendekatan yang paling biasa ialah mengukur kemiripan dinyatakan dalam jarak antar pasangan obyek. Obyek dengan jarak yang lebih pendek antar mereka akan lebih mirip satu sama lain dibandingkan dengan pasangan dengan jarak yang lebih panjang. Ada beberapa metode untuk mengukur jarak antar dua obyek. P2 P2 a b P1 c jarak p1, p2 = (p1 i p2 i ) 2 P1 n i=1 jarak p1, p2 = ( p1 i p2 i ) (a) Pengukuran Jarak Euclidean (b) Pengukuran Jarak Manhattan Gambar II.11 Perbandingan Pengukuran Jarak Euclidean dan Manhattan Ukuran kemiripan yang paling biasa dipakai adalah euclidean distance (jarak euclidean) atau nilai kuadratnya. Jarak euclidean adalah akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variabel. Gambar II.11 bagian (a) menggambarkan bagaimana jarak antara P1 dan P2 dihitung. Ada juga ukuran jarak lainnya yaitu jarak city-block atau jarak manhattan, yaitu jarak antara dua obyek merupakan jumlah perbedaan mutlak di dalam nilai untuk setiap variabel. Gambar II.11 bagian (b) menjelaskan perhitungan jarak menggunakan n i=1

20 perhitungan jarak manhattan. Ada berbagai cara untuk menghitung jarak antar dua titik dengan menggunakan teknik jarak Manhattan, bisa menggunakan jalur a, b atau c. II.3.4.3 Memilih Prosedur Clustering Langkah selanjutnya dalam proses clustering adalah memilih prosedur clustering. Prosedur clustering yang bisa dipilih boleh menggunakan teknik hierarki atau teknik non-hierarki. Prosedur clustering yang dapat digunakan bisa dilihat di Gambar II.4. II.3.4.4 Menentukan Banyaknya Cluster Isu utama dalam analisis cluster adalah menentukan berapa banyak cluster yang ingin dibentuk. Sebenarnya tidak ada aturan yang baku untuk menentukan berapa banyaknya cluster. Namun demikian ada beberapa petunjuk yang dapat digunakan yaitu : 1. Pertimbangan teoritis, konseptual, dan praktis mungkin bisa disarankan untuk menentukan berapa banyaknya cluster yang sebenarnya. 2. Di dalam clustering hierarki, jarak di mana cluster digabung bisa dipergunakan sebagai kriteria. 3. Di dalam clustering non-hierarki, rasio jumlah varian dalam cluster dengan jumlah varian antar cluster dapat diplotkan terhadap banyaknya cluster. 4. Besarnya relatif cluster seharusnya berguna/bermanfaat. II.3.4.5 Menginterpretasi dan Memprofile Cluster Menginterpretasi dan memprofile cluster meliputi pengkajian mengenai centroid-centroid yaitu rata-rata nilai obyek yang terdapat dalam cluster pada setiap variabel. Nilai centroid memungkinkan kita untuk menguraikan setiap cluster dengan cara memberikan suatu nama atau label.

21 II.3.4.6 Menguji Keandalan dan Validitas Cluster Beberapa pertimbangan perlu diberikan dalam analisis cluster, jangan sampai ada pemecahan clustering diterima tanpa beberapa penilaian atau pengujian tentang keandalan dan validitas clusternya. Ada beberapa prosedur yang dapat dilakukan untuk menguji tingkat validitas proses clustering, yaitu : 1. Lakukan analisis cluster pada data yang sama dengan menggunakan metode pengukuran jarak yang berbeda. 2. Menggunakan metode clustering yang berbeda dan bandingkan hasilnya. 3. Pecah atau bagi data secara acak menjadi dua bagian. Lakukan analisis cluster secara terpisah terhadap kedua bagian tersebut. Hilangkan beberapa variabel secara acak. Lakukan clustering yang didasarkan pada sisa variabel. Bandingkan hasilnya dengan hasil clustering yang didasarkan pada data asli yang masih utuh. 4. Di dalam clustering non-hierarki, pemecahan mungkin tergantung pada urutan obyek dalam seluruh data. Lakukan banyak proses clustering dengan menggunakan urutan obyek yang berbeda sampai pemecahan menjadi stabil.