PENERAPAN METODE PENGGEROMBOLAN BERDASARKAN GAUSSIAN MIXTURE MODELS DENGAN MENGGUNAKAN ALGORITMA EXPECTATION MAXIMIZATION ULA SUSILAWATI

dokumen-dokumen yang mirip
TINJAUAN PUSTAKA. bebas digunakan jarak euclidean - sedangkan bila terdapat. korelasi antar peubah digunakan jarak mahalanobis - -

KAJIAN ANALISIS GEROMBOL BERBASIS MODEL PADA DATA YANG MENYEBAR NORMAL GANDA INDAH RATIH ANGGRIYANI

DATA DAN METODE Sumber Data

KAJIAN METODE BERBASIS MODEL PADA ANALISIS CLUSTER DENGAN PERANGKAT LUNAK MCLUST

PEMODELAN DATA PANEL SPASIAL DENGAN DIMENSI RUANG DAN WAKTU TENDI FERDIAN DIPUTRA

PENERAPAN DAN PERBANDINGAN CARA PENGUKURAN RESPON PADA ANALISIS KONJOIN

PENGGEROMBOLAN DUA TAHAP DESA-DESA DI JAWA TENGAH ALIFTA DIAH AYU RETNANI

PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI KUDSIATI

KAJIAN PENDEKATAN REGRESI SINYAL P-SPLINE PADA MODEL KALIBRASI. Oleh : SITI NURBAITI G

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI KOMPONEN UTAMA MAGRI HANDOKO

METODE LEAST MEDIAN OF SQUARES (LMS) PADA ANALISIS REGRESI DENGAN PENCILAN AMIR A DALIMUNTHE

PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI KUDSIATI

BAB III MODEL HIDDEN MARKOV KONTINU DENGAN PROSES OBSERVASI ZERO DELAY

ANALISIS KINERJA INSTITUT PERTANIAN BOGOR BERDASARKAN SURVEI KEPUASAN MAHASISWA DAN EPBM AHMAD CHAERUS SUHADA

Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier. The Use of Gaussian PCA Kernel in Solving Non Linier Multivariate Plot

ESTIMASI PARAMETER MODEL MIXTURE AUTOREGRESSIVE (MAR) MENGGUNAKAN ALGORITMA EKSPEKTASI MAKSIMISASI (EM) Abstract

KOMPARASI ANALISIS GEROMBOL (CLUSTER) DAN BIPLOT DALAM PENGELOMPOKAN

PENERAPAN METODE CHAID DAN REGRESI LOGISTIK DALAM ANALISIS SEGMENTASI PASAR KONSUMEN AQUA DIMAS FAJAR AIRLANGGA

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER

PENERAPAN REGRESI LOGISTIK ORDINAL MULTILEVEL TERHADAP NILAI AKHIR METODE STATISTIKA FMIPA IPB IIN MAENA

EVALUASI PELAKSANAAN KURIKULUM SISTEM MAYOR-MINOR PROGRAM PENDIDIKAN SARJANA (S1) INSTITUT PERTANIAN BOGOR DICKY PRATAMA YENDRA

Penaksiran Parameter Model Kalibrasi Linier yang Berdistribusi Skew-Normal dengan Algoritma-EM

PERBANDINGAN ANTARA UNWEIGHTED LEAST SQUARES (ULS) DAN PARTIAL LEAST SQUARES (PLS) DALAM PEMODELAN PERSAMAAN STRUKTURAL MUHAMMAD AMIN PARIS

PEMODELAN REGRESI TIGA LEVEL PADA DATA PENGAMATAN BERULANG. Indahwati, Yenni Angraeni, Tri Wuri Sastuti

ANALISIS PENGARUH KARAKTERISTIK RUMAH TANGGA TERHADAP PELUANG PERMINTAAN KREDIT SEPEDA MOTOR OLEH MOCHAMAD GIRI AKBAR H

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

BAB IV MODEL HIDDEN MARKOV

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN YANNE FLOWRENSIA

Tabel 6 Daftar peubah karakteristik

Klasifikasi Kecamatan Berdasarkan Nilai Akhir SMA/MA di Kabupaten Aceh Selatan Menggunakan Analisis Diskriminan

ANALISIS PENGELUARAN ENERGI PEKERJA PENYADAPAN KOPAL DI HUTAN PENDIDIKAN GUNUNG WALAT KABUPATEN SUKABUMI JAWA BARAT AVIANTO SUDIARTO

Model Regresi Multivariat untuk Menentukan Tingkat Kesejahteraan Kabupaten dan Kota di Jawa Timur

(α = 0.01). Jika D i > , maka x i atau pengamatan ke-i dianggap pencilan (i = 1, 2,..., 100). HASIL DAN PEMBAHASAN

Kelas 2. Kelas 1 Mahasiswa. Mahasiswa. Gambar 1 Struktur data kelompok dalam pengukuran berulang pada data Metode Statistika

KAJIAN MODEL HIDDEN MARKOV KONTINU DENGAN PROSES OBSERVASI ZERO DELAY DAN APLIKASINYA PADA HARGA GABAH KERING PANEN T A M U R I H

ESTIMASI PARAMETER MODEL MIXTURE AUTOREGRESSIVE (MAR) MENGGUNAKAN ALGORITMA EKSPEKTASI MAKSIMISASI (EM)

ANALISIS PENERAPAN METODE KUADRAT TERKECIL DAN REGRESI KOMPONEN UTAMA DALAM MULTIKOLINEARITAS OLEH : GUGUN M. SIMATUPANG

PREFERENSI MAHASISWA IPB TERHADAP MATA KULIAH METODE STATISTIKA MENGGUNAKAN ANALISIS KONJOIN

LANDASAN TEORI. menyatakan hubungan antara variabel respon Y dengan variabel-variabel

Pemodelan Data Besar Klaim Asuransi Kendaraan Bermotor Menggunakan Distribusi Mixture Erlang

Analisis Diskriminan untuk Mengetahui Faktor yang Mempengaruhi Pilihan Program Studi Matematika di FMIPA dan FKIP Universitas Sriwijaya

PENDUGAAN FUNGSI SEBARAN DAN FUNGSI KEPEKATAN PELUANG WAKTU TUNGGU PROSES POISSON PERIODIK NADIROH

PERBANDINGAN METODE PENGGEROMBOLAN DENGAN KOMPONEN UTAMA NONLINIER DAN GEROMBOL DUA LANGKAH PADA DATA CAMPURAN YOGI YUNIANTO

DENGAN PENDEKATAN BEN6URAIAN SEBARAN CAMPURAN NORMAL GANIJA PADA DATA MSS LANDSAT

DENGAN PENDEKATAN BEN6URAIAN SEBARAN CAMPURAN NORMAL GANIJA PADA DATA MSS LANDSAT

Fajar Ropi BINUS UNIVERSITTY, Jakarta, Indonesia, Abstrak. Seiring dengan berjalannya waktu persaingan dan kompetisi untuk meraih

: Analisis Diskriminan pada Klasifikasi Desa di Kabupaten. Tabanan Menggunakan Metode K-Fold Cross Validation. 2. I Gusti Ayu Made Srinadi, S.Si, M.

PERBANDINGAN METODE MKT, LTS, WIN, DAN THEIL PADA PENDUGAAN PARAMETER REGRESI APABILA GALATNYA MENYEBAR EKSPONENSIAL HELGA ARINA PRAMUDITYA

PREFERENSI KARAKTERISTIK KOPI 3 IN 1 MENGGUNAKAN METODE POHON REGRESI DAN KLASIFIKASI FITRIYANTO

TINJAUAN PUSTAKA. dianalisis dan hasilnya ditransformasi menjadi matriks berukuran??

ANALISIS PERANAN USAHA KECIL DAN MENENGAH SEKTOR INDUSTRI MAKANAN DAN MINUMAN TERHADAP PEREKONOMIAN INDONESIA OLEH ANGGI DESTRIA H

Penggunaan Analisis Two Step Clustering untuk Data Campuran. Two Step Clustering Analysis for Combination Data

METODE KEMUNGKINAN MAKSIMUM UNTUK KOREKSI SEBARAN BERSYARAT PADA ANALISIS KORELASI

Algoritma Expectation-Maximization(EM) Untuk Estimasi Distribusi Mixture

HASIL DAN PEMBAHASAN. Deskripsi Data

BAB 2 LANDASAN TEORI

ANALISIS REGRESI KELAS LATEN UNTUK DATA KATEGORIK DENGAN SATU KOVARIAT (LATENT CLASS REGRESSION ANALYSIS FOR CATEGORICAL DATA WITH ONE COVARIATE)

JURNAL MATEMATIKA DAN PEMBELAJARANNYA 2016 VOLUME 2, NO. 1. ISSN

ANALISIS DISKRIMINAN KUADRATIK KEKAR (Studi Kasus : Divisi Regional Perum BULOG Tahun 2009) MAYA WULAN ARINI

PERBANDINGAN HASIL PENGGEROMBOLAN K-MEANS, FUZZY K- MEANS, DAN TWO STEP CLUSTERING. Lathifaturrahmah

Semakin besar persentase CCR yang dihasilkan, maka tingkat akurasi yang dihasilkan semakin tinggi (Hair et. al., 1995).

PENGGUNAAN REGRESI SPLINE ADAPTIF BERGANDA UNTUK DATA RESPON BINER AZWIRDA AZIZ SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR 2005

BAB 2 LANDASAN TEORI

SKRIPSI. Anita Nur Qomariah NRP

ANALISIS FAKTOR RISIKO PENYAKIT JANTUNG KORONER DENGAN MENGGUNAKAN METODE REGRESI LOGISTIK DAN CHAID: KASUS DI RSUP DR. WAHIDIN SUDIROHUSODO MAKASSAR

PENYELESAIAN MASALAH PENGIRIMAN PAKET KILAT UNTUK JENIS NEXT-DAY SERVICE DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM. Oleh: WULAN ANGGRAENI G

METODE QUALITY FUNCTION DEPLOYMENT (QFD) DALAM PENENTUAN PRIORITAS PELAYANAN PADA PERUSAHAAN ASURANSI MARLINE SOFIANA PAENDONG

ANALISIS PENGELUARAN ENERGI PEKERJA PENYADAPAN KOPAL DI HUTAN PENDIDIKAN GUNUNG WALAT KABUPATEN SUKABUMI JAWA BARAT AVIANTO SUDIARTO

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR

PENGARUH INTERSTOCK TERHADAP PERTUMBUHAN VEGETATIF DAN GENERATIF JERUK BESAR KULTIVAR NAMBANGAN DAN CIKONENG. Oleh : Ulfah Alifia A

Forum Statistika dan Komputasi, Oktober 2009 p : ISSN :

S 10 Studi Simulasi Tentang Penerapan Grafik Pengendali Berdasarkan Analisis Komponen Utama (Principal Component Analysis)

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

KAJIAN TELBS PADA REGRESI LINIER DENGAN KASUS PENCILAN

ANALISIS KORELASI KANONIK ANTARA CURAH HUJAN GCM DAN CURAH HUJAN DI INDRAMAYU. Oleh : Heru Novriyadi G

PENERAPAN MODEL FINITE LENGTH LINE SOURCE UNTUK MENDUGA KONSENTRASI POLUTAN DARI SUMBER GARIS (STUDI KASUS: JL. M.H. THAMRIN, DKI JAKARTA)

PEMODELAN REGRESI TIGA LEVEL PADA DATA PENGAMATAN BERULANG (Studi Kasus: Nilai Capaian Mahasiswa dalam Mata Kuliah Metode Statistika Tahun 2008/2009)

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB IV KAJIAN SIMULASI: PENDEKATAN BAYES PADA DATA n<<p DAN TERDAPAT KEKOLINEARAN-GANDA

BAB III K-MEDIANS CLUSTERING

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

METODE PAUTAN TERBAIK DALAM PENGELOMPOKAN DESA/KELURAHAN DI KOTA DENPASAR MENURUT INDIKATOR PENDIDIKAN KOMPETENSI STATISTIKA SKRIPSI

TINJAUAN PUSTAKA Analisis Gerombol

Analisis Pengelompokan dengan Metode K-Rataan

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI KEPUTUSAN KONSUMEN MENGGUNAKAN PILIHAN JASA LEMBAGA PEMBIAYAAN (KREDIT KONSUMSI MOBIL)

Didin Astriani P, Oki Dwipurwani, Dian Cahyawati (Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sriwijaya)

PENDUGA PENCILAN BOGOR 2013

UJI SIEGEL TUKEY TERHADAP TINGKAT PARTISIPASI PEMILIH DALAM PEMILU LEGISLATIF (PILEG) DAN PEMILU PRESIDEN (PILPRES) TAHUN 2009

BAB I PENDAHULUAN. Statistika adalah salah satu cabang ilmu yang mempelajari prosedur-prosedur

II. LANDASAN TEORI. beberapa konsep dan teori yang berkaitan dengan penduga parameter distribusi GB2

PRA-PEMPROSESAN DATA LUARAN GCM CSIRO-Mk3 DENGAN METODE TRANSFORMASI WAVELET DISKRIT

PENGELOMPOKAN PROVINSI DI INDONESIA BERDASARKAN PERSENTASE RUMAH TANGGA MENURUT KUALITAS FISIK AIR MINUM DENGAN MENGGUNAKAN K-MEANS CLUSTER

SKRIPSI. Oleh : LAILI ISNA NUR KHIQMAH NIM :

DETEKSI GEROMBOL DENGAN METODE K-RATAAN KERNEL GAUSS BIMANDRA ADIPUTRA DJAAFARA

PENDUGAAN PARAMETER WAKTU PERUBAHAN PROSES PADA 2 CONTROL CHART MENGGUNAKAN PENDUGA KEMUNGKINAN MAKSIMUM SITI MASLIHAH

LANDASAN TEORI. Dalam proses penelitian pendugaan parameter dari suatu distribusi diperlukan

ESTIMATOR BAYES DAN MAKSIMUM LIKELIHOOD UNTUK DATA BERDISTRIBUSI WEIBULL SKRIPSI SUMI SRIARDINA YUSARA

TINJAUAN PUSTAKA. Gambar 1 Diagram kotak garis

KAJIAN PENGARUH NOISE DALAM ANALISIS KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH YANG BERKORELASI FAJRIANZA ADI NUGRAHANTO

Transkripsi:

PENERAPAN METODE PENGGEROMBOLAN BERDASARKAN GAUSSIAN MIXTURE MODELS DENGAN MENGGUNAKAN ALGORITMA EXPECTATION MAXIMIZATION ULA SUSILAWATI DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

RINGKASAN ULA SUSILAWATI. Penerapan Metode Penggerombolan Berdasarkan Gaussian Mixture Models dengan Menggunakan Algoritma Expectation Maximization. Dibimbing oleh BUDI SUSETYO dan UTAMI DYAH SYAFITRI. Model-based clustering bertujuan untuk mengoptimalkan kemiripan antara individu dengan menggunakan pendekatan model probabilistik. Keseluruhan data diasumsikan berasal dari campuran dua atau lebih sebaran peluang dengan proporsi tertentu. Data dapat digerombolkan dengan menggunakan Gaussian Mixture Models (GMM), yaitu mixture dari G sebaran peluang Gaussian. Masing-masing sebaran mewakili suatu gerombol dengan parameter tertentu. Parameter tersebut diduga menggunakan algoritma Expectation Maximization (EM) dengan nilai awal parameter diperoleh dari agglomerative hierarchical clustering. Metode ini menggunakan Bayes Information Criterion (BIC) untuk menentukan jumlah gerombol terbaik dengan berbagai karakteristik geometrik matriks peragam dari sebaran Gaussian. Dalam penelitian ini, GMM diterapkan pada beberapa pola sebaran data. Data dibangkitkan dari sebaran Gaussian dengan beberapa kondisi parameter, antara lain parameter vektor rataan dan matriks peragam ketiga gerombol vektor rataan ketiga gerombol identik dengan matriks peragam yang berbeda, vektor rataan yang berbeda dengan matriks peragam yang dan terakhir adalah parameter vektor rataan dan matriks peragam yang berbeda. Keefektifan GMM pada data tersebut dapat diketahui dengan menghitung rataan tingkat kesalahan klasifikasi. Kondisi lain yang dipertimbangkan dalam membangkitkan data adalah jarak antar pusat gerombol dan keragaman setiap gerombol untuk melihat keefektifan metode jika ketiga gerombol saling berjauhan, saling berdekatan, maupun saling tumpang tindih. Hasil simulasi menunjukkan bahwa GMM efektif memisahkan gerombol yang memiliki pola sebaran dengan ragam setiap peubah pada setiap gerombol bernilai kecil dan dengan jarak antar pusat gerombol yang besar. Rataan tingkat kesalahan klasifikasi berkurang jika jarak antar pusat gerombol semakin besar, hal ini disebabkan oleh semakin sedikitnya amatan yang saling tumpang tindih dengan amatan pada gerombol yang lain. Ragam setiap peubah yang besar juga dapat meningkatkan tingkat kesalahan klasifikasi. Gerombol dengan ragam antar peubah pada setiap gerombol yang lebih besar daripada jarak antar pusat gerombol, memiliki rataan tingkat kesalahan klasifikasi yang sangat besar. Sedangkan untuk kasus dengan atau tanpa adanya korelasi tidak mempengaruhi tingkat kesalahan klasifikasi. Kata kunci : algoritma EM, analisis gerombol, BIC, Gaussian mixture models.

PENERAPAN METODE PENGGEROMBOLAN BERDASARKAN GAUSSIAN MIXTURE MODELS DENGAN MENGGUNAKAN ALGORITMA EXPECTATION MAXIMIZATION ULA SUSILAWATI Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

Judul Skripsi : Penerapan Metode Penggerombolan Berdasarkan Gaussian Mixture Models dengan Menggunakan Algoritma Expectation Maximization Nama : Ula Susilawati NRP : G14061319 Menyetujui: Pembimbing I, Pembimbing II, Dr. Ir. Budi Susetyo, MS Utami Dyah Syafitri, S.Si,M.Si NIP 196211301986031003 NIP 197709172005012001 Mengetahui: Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. Ir. Hari Wijayanto, M.Si NIP 196504211990021001 Tanggal Lulus:

RIWAYAT HIDUP Penulis dilahirkan di Garut pada tanggal 17 Nopember 1988. Penulis merupakan putri ketiga dari pasangan Ayung Wahyudin dan Yeti Sumiati. Penulis menyelesaikan sekolah dasar pada tahun 2000 di SD Negeri Paminggir IV, kemudian melanjutkan studi di SMP Negeri 1 Garut hingga tahun 2003. Selanjutnya, penulis menyelesaikan pendidikan sekolah menengah atas hingga tahun 2006 di SMA Negeri 1 Tarogong Garut. Pada tahun 2006 penulis melanjutkan studi di Institut Pertanian Bogor melalui Undangan Seleksi Masuk IPB (USMI). Setelah satu tahun menjalani perkuliahan Tingkat Persiapan Bersama (TPB), pada tahun 2007 penulis diterima sebagai mahasiswa Departemen Statistika FMIPA IPB, dengan minor Ilmu Konsumen. Selama masa kuliah penulis aktif sebagai anggota himpunan keprofesian Gamma Sigma Beta (GSB). Penulis juga berkesempatan menjadi asisten Metode Statistika dan Perancangan Percobaan I pada tahun 2009. Penulis pernah menjadi tim khusus pada acara Statistika Ria 2008, Pesta Sains 2008 dan Lomba Jajak Pendapat Statistika 2009. Penulis melaksanakan kegiatan praktik lapang di Lembaga Survei Indonesia selama bulan Februari hingga April 2010.

KATA PENGANTAR Assalamu alaikum Wr. Wb. Segala puji dan syukur penulis panjatkan kepada Allah SWT atas segala limpahan rahmat dan karunianya sehingga penulis dapat menyelasaikan karya ilmiah dengan judul Penerapan Metode Penggerombolan Berdasarkan Gaussian Mixture Models dengan Menggunakan Algoritma Expectation Maximization. Shalawat serta salam semoga selalu tercurah kepada Rasulullah Muhammad SAW, beserta keluarga, sahabat, dan umatnya. Karya ilmiah ini merupakan salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Ucapan terima kasih penulis sampaikan kepada semua pihak yang telah membantu penulis dalam penyusunan karya ilmiah ini, yaitu kepada: 1. Bapak Dr. Ir. Budi Susetyo, MS dan Ibu Utami Dyah Syafitri, S.Si, M.Si selaku pembimbing yang telah membimbing, mengarahkan, dan memberikan masukan serta perhatiannya kepada penulis. 2. Ibu Dr. Ir. Erfiani, MS selaku penguji luar pada ujian skipsi saya. Terima kasih atas saran dan masukannya. 3. Kedua orang tua, suami, dan Rasha Abqari Pratama atas doa dan dukungan yang tiada terputus untuk penulis. 4. Staf Dosen, Tata Usaha dan Perpustakaan Departemen Statistika FMIPA IPB. 5. Teman-teman mahasiswa Departemen Statistika FMIPA IPB angkatan 43 dan 44 atas diskusi dan motivasi yang diberikan kepada penulis. Semoga Allah SWT membalas segala kebaikan yang telah diberikan kepada penulis dan semoga karya ilmiah ini dapat bermanfaat bagi pihak yang membutuhkan. Bogor, Mei 2011 Ula Susilawati

DAFTAR ISI Halaman DAFTAR TABEL... viii DAFTAR GAMBAR... viii PENDAHULUAN... 1 Latar Belakang... 1 Tujuan... 1 TINJAUAN PUSTAKA... 1 Gaussian Mixture Models (GMM)... 1 Algoritma Expectation Maximization (EM)... 2 Penentuan Jumlah Gerombol... 3 METODOLOGI... 3 Data... 3 Metode... 5 HASIL DAN PEMBAHASAN... 6 Ketiga Gerombol Berasal dari Populasi Identik... 6 Ketiga Gerombol Berasal dari Populasi Berbeda... 7 SIMPULAN DAN SARAN... 9 Simpulan... 9 Saran... 9 DAFTAR PUSTAKA... 10 LAMPIRAN... 11

viii DAFTAR TABEL Halaman Tabel 1. Interpretasi geometrik dari berbagai parameterisasi sebaran Gaussian pada Mclust... 2 Tabel 2. Deskripsi setiap kasus simulasi yang dibangkitkan... 4 Tabel 3. Rataan tingkat kesalahan klasifikasi setiap kasus simulasi... 8 DAFTAR GAMBAR Gambar 1. Rataan tingkat kesalahan klasifikasi pada kasus simulasi dimana ketiga gerombol berasal dari populasi identik... 7 Gambar 2. Rataan tingkat kesalahan klasifikasi pada kasus simulasi dimana ketiga gerombol berasal dari populasi berbeda... 9 Gambar 3. Rataan miss classification rate pada setiap kasus simulasi... 9 Halaman

1 PENDAHULUAN Latar Belakang Analisis gerombol merupakan suatu metode yang membagi individu ke dalam kelompok yang bermakna dan berguna. Analisis gerombol mengelompokkan objek berdasarkan informasi yang diperoleh pada data yang menggambarkan objek dan keterkaitannya. Tujuannya adalah membentuk gerombol dimana objek-objek yang terletak pada gerombol yang sama relatif lebih homogen dibandingkan dengan objek pada gerombol yang lain. Secara umum terdapat dua metode penggerombolan, yaitu metode hirarki dan metode nonhirarki. Metode hirarki dimulai dengan mengelompokkan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian berlanjut pada objek selanjutnya sehingga gerombol terlihat membentuk hirarki yang jelas antar objek, hasil penggerombolannya dapat digambarkan melalui dendogram. Metode hirarki digunakan bila banyaknya gerombol yang akan dibentuk tidak diketahui sebelumnya dan banyaknya amatan tidak terlalu besar. Sedangkan pada metode nonhirarki, proses penggerombolan dimulai dengan terlebih dahulu menentukan jumlah gerombol. K-means merupakan metode nonhirarki yang paling banyak digunakan (Johnson & Wichern 2002). Metode nonhirarki lainnya adalah metode penggerombolan dengan menggunakan mixture model. Mixture model dapat diterapkan pada data kategorik, kontinyu maupun keduanya, metode ini juga dapat mengidentifikasi pencilan dan pemilihan gerombol berdasarkan kriteria tertentu (McLachlan & Basford 1988). K-means menggunakan jarak metrik dalam mendefinisikan setiap gerombol yang terbentuk, sedangkan metode penggerombolan berdasarkan mixture model menggunakan distribusi statistik dalam mendefinisikan setiap gerombl yang terbentuk. Model-based clustering ini bertujuan untuk mengoptimalkan kemiripan antara individu dengan menggunakan pendekatan model probabilistik. Pendekatan tersebut dapat memodelkan data yang dimiliki dengan menerapkan pengaturan karakteristik yang berbeda-beda dan menentukan jumlah gerombol yang sesuai dengan data seiring proses pemodelan karakteristik dari masingmasing gerombol tersebut. Metode ini mengasumsikan bahwa keseluruhan individu adalah campuran dari G sebaran peluang, mewakili G gerombol, dimana masing-masing sebaran secara khas mempunyai parameter sebaran. Salah satu metode yang digunakan untuk menduga parameter adalah melalui algoritma Expectation Maximization (EM). Algoritma EM merupakan algoritma iteratif populer yang dapat digunakan untuk menemukan penduga parameter dengan memaksimumkan fungsi loglikelihood. EM dimulai dengan inisialisasi nilai awal dugaan parameter mixture model, kemudian secara iteratif memperbaharui dugaan parameternya. Inisialisasi nilai awal diperoleh menggunakan agglomerative hierarchical clustering, sedangkan banyaknya gerombol ditentukan dengan menggunakan Bayes Information Criterion (BIC). Penerapan metode ini pada data kontinyu dapat menggunakan Gaussian Mixture Models (GMM). Tujuan Tujuan penelitian ini adalah menerapkan metode penggerombolan menggunakan Gaussian Mixture Models (GMM) terhadap beberapa pola sebaran data kemudian membandingkan hasil penggerombolan dengan klasifikasi yang sebenarnya. TINJAUAN PUSTAKA Gaussian Mixture Models (GMM) Model-based clustering mengasumsikan bahwa data dibangkitkan oleh campuran dari sebaran peluang dengan masing-masing komponen mewakili gerombol berbeda, sehingga dapat memodelkan atau mengelompokkan individu di dalam suatu data set menjadi kelompok-kelompok data yang sebelumnya tidak terdefinisi. Apabila model merupakan mixture dari G komponen Gaussian, maka disebut Gaussian Mixture Models. Likelihood mixture model dengan G komponen didefinisikan sebagai: dimana y 1, y 2,, y n merupakan pengamatan yang saling bebas dan merupakan fungsi kepekatan peluang dari parameter pada komponen ke-k dalam mixture, merupakan peluang suatu pengamatan berada pada komponen ke-k. Dalam penelitian ini, merupakan fungsi

2 Tabel 1. Interpretasi geometrik dari berbagai parameterisasi sebaran Gaussian pada Mclust (Fraley & Raftery 2010) Pengidentifikasi Model Sebaran Volume Bentuk Orientasi E (univariate) Sama V (univariate) Variabel EII Spherical Sama Sama NA VII Spherical Variabel Sama NA EEI Diagonal Sama Sama Coordinate axes VEI Diagonal Variabel Sama Coordinate axes EVI Diagonal Sama Variabel Coordinate axes VVI Diagonal Variabel Variabel Coordinate axes EEE Ellipsoidal Sama Sama Sama EEV Ellipsoidal Sama Sama Variabel VEV Ellipsoidal Variabel Sama Variabel VVV Ellipsoidal Variabel Variabel Variabel kepekatan peluang normal ganda (Gaussian),, dengan parameter vektor rataan dan matriks peragam didefinisikan sebagai: parameter adalah, maka likelihood data lengkap Pada GMM, setiap gerombol berbentuk ellipsoidal yang terpusat di. Matriks peragam menentukan karakteristik geometrik yaitu bentuk, volume, dan orientasi (Fraley & Raftery 2002). Banfield dan Raftery (1993) mengembangkan kerangka metode ini dengan memparameterisasi matriks peragam melalui dekomposisi nilai ciri dalam bentuk dimana merupakan matriks ortogonal dari vektor ciri, merupakan matriks diagonal yang elemennya proposional terhadap nilai ciri dari dan merupakan skalar. Karakteristik geometrik tersebut dapat dibuat beragam antar gerombol atau dibuat sama. Interpretasi geometrik dari berbagai parameterisasi sebaran Gaussian pada Mclust dapat dilihat pada Tabel 1. Parameter GMM diduga menggunakan algoritma iteratif Expectation Maximization. Algoritma Expectation Maximization (EM) Algoritma EM merupakan pendekatan umum Maximum Likelihood (ML) untuk data yang tidak lengkap. Data terdiri dari n pengamatan peubah ganda yang diperoleh dari, dimana merupakan peubah yang teramati dan merupakan peubah yang tidak teramati, yaitu peubah yang menempatkan objek masuk ke gerombol tertentu. Jika saling bebas dan terdistribusi identik menurut sebaran peluang f dengan sedangkan likelihood data yang tidak lengkap adalah: Penduga ML untuk berdasarkan data teramati dengan memaksimumkan. Algoritma EM merupakan metode iteratif, dimana dalam setiap iterasinya terdiri dari dua tahap. Expectation-Step (E-Step), tahap ini menghitung nilai harapan bersyarat dari fungsi loglikelihood data lengkap menggunakan penduga parameternya. Maximization-Step (M-Step), tahap ini menghitung parameter yang memaksimalkan nilai harapan dari fungsi loglikelihood yang diperoleh pada E- Step. Algoritma EM dalam mixture model menyatakan bahwa data lengkap, dimana merupakan bagian dari data yang tidak teramati, dengan 1 jika berada pada gerombol ke-k 0 lainnya Asumsikan bahwa saling bebas dan terdistribusi identik berdasarkan sebaran multinomial dari G kategori dengan peluang. Fungsi kepekatan peluang dari pengamatan yang diberikan oleh adalah sehingga loglikelihood data lengkap adalah :

3 E-Step pada algoritma EM untuk GMM adalah: Sedangkan pada M-Step, penduga parameter yang memaksimalkan, dihitung menggunakan yang dihitung pada E-Step (Fraley & Raftery 2002). Algoritma EM membutuhkan inisialisasi nilai awal untuk yang dapat ditentukan menggunakan agglomerative hierarchical clustering dengan model. Metode ini dimulai dengan menjadikan setiap individu sebagai gerombol kemudian digabungkan sehingga memaksimalkan classification likelihood (Fraley & Raftery 1998). Ketika dibuat beragam antar gerombol, nilai loglikelihood maksimum dapat diperoleh dengan meminimumkan kriteria: dimana (Fraley 1996). Penentuan Jumlah Gerombol Jumlah gerombol terbaik dapat ditentukan dengan memilih model terbaik. Pendekatan yang umum digunakan sebagai kriteria pemilihan model adalah Bayes Information Criterion (BIC). Nilai untuk BIC dapat diperoleh dengan menggunakan rumus: program R ver 2.12.1. Setiap kasus simulasi terdiri dari tiga gerombol yang dibangkitkan dari sebaran normal ganda (Gaussian) dengan empat peubah. Gerombol yang dibangkitkan masing-masing sebanyak seratus amatan sehingga peluang suatu amatan masuk ke setiap gerombol bernilai sama ( ). Penelitian ini secara garis besar membangkitkan gerombol yang berasal dari sebaran Gaussian dengan empat kondisi parameter yaitu, parameter vektor rataan dan matriks peragam ketiga gerombol vektor rataan ketiga gerombol identik dengan matriks peragam yang berbeda, vektor rataan yang berbeda dengan matriks peragam yang dan terakhir adalah parameter vektor rataan dan matriks peragam yang berbeda. Selain itu peneliti juga mempertimbangkan jarak antar pusat gerombol dan keragaman setiap gerombol untuk melihat keefektifan metode jika ketiga gerombol saling berjauhan, saling berdekatan, maupun saling tumpang tindih. Besarnya jarak antar dua pusat gerombol diperoleh dengan menggunakan rumus jarak antar dua vektor, yaitu. Berdasarkan pertimbangan diatas, parameter vektor rataan dan matriks peragam ketiga gerombol yang dibangkitkan adalah sebagai berikut: 1.. Ketiga gerombol berasal dari sebaran yang sehingga memiliki vektor rataan dan matriks peragam yang identik. Vektor rataan ketiga gerombol adalah: dimana adalah likelihood dari data untuk model, adalah loglikelihood mixture maksimum untuk model dan adalah jumlah parameter bebas yang diduga dalam model. Model terbaik dipilih berdasarkan nilai BIC terbesar. Metode penggerombolan menggunakan algoritma EM dengan nilai awal menggunakan agglomerative hierarchical clustering untuk GMM dapat diterapkan menggunakan paket Mclust ver 3.4.8 pada R ver 2.12.1. METODOLOGI Sedangkan matriks peragam ketiga gerombol adalah: a. ragam peubah pada setiap gerombol bernilai kecil, sehingga memiliki struktur matriks peragam: b. ragam peubah pada setiap gerombol bernilai besar, sehingga memiliki struktur matriks peragam: Data Data yang digunakan dalam penelitian ini adalah data simulasi yang dibangkitkan dengan menggunakan fungsi mvrnorm pada

4 Tabel 2. Deskripsi setiap kasus simulasi yang telah dibangkitkan 1, 9, dan 25 K 1 K 2 K 3 K 4 K 5 K 6 K 7 K 8 K 9 1, 9, dan 25 K 10 K 11 K 12 K 13 K 14 K 15 K 22 K 23 K 24,, dan K 16 K 17 K 18 K 19 K 20 K 21 K 25 K 26 K 27 2.. Ketiga gerombol memiliki vektor rataan yang identik dengan matriks peragam yang berbeda. Vektor rataan ketiga gerombol adalah: yang identik. Kondisi yang diterapkan adalah: a. Jarak antar pusat gerombol kecil d 12 =d 23 =5.830952 dan d 13 =7.071068. Vektor rataan ketiga gerombol adalah: Sedangkan struktur matriks peragam ketiga gerombol adalah: Sedangkan matriks peragam ketiga gerombol yaitu: i. ragam peubah pada setiap gerombol bernilai kecil, struktur matriks peragam seperti pada 1.a ii. ragam peubah pada setiap gerombol bernilai besar, struktur matriks peragam seperti pada 1.b b. jarak antar pusat gerombol besar d 12 =d 23 =20.92845 dan d 13 =25.17936. Vektor rataan ketiga gerombol adalah: 3.. Ketiga gerombol memiliki vektor rataan yang berbeda dengan matriks peragam Sedangkan matriks peragam ketiga gerombol adalah:

5 i. ragam peubah pada setiap gerombol bernilai kecil, struktur matriks peragam seperti pada 1.a ii. ragam peubah pada setiap gerombol bernilai besar, struktur matriks peragam seperti pada 1.b 4.. Ketiga gerombol memiliki vektor rataan dan matriks peragam yang berbeda. Kondisi yang diterapkan adalah: a. jarak antar pusat gerombol kecil d 12 =d 23 =5.830952 dan d 13 =7.071068. Vektor rataan ketiga gerombol seperti pada 3.a dan struktur matriks peragam ketiga gerombol seperti pada 2. b. jarak antar pusat gerombol besar d 12 =d 23 =20.92845 dan d 13 =25.17936. Vektor rataan ketiga gerombol seperti pada 3.b dan struktur matriks peragam ketiga gerombol seperti pada 2. Untuk mengkaji pengaruh adanya korelasi dan besar kecilnya korelasi antar peubah terhadap hasil penggerombolan, maka dicobakan =0, =0.2, dan =0.8 pada setiap kondisi di atas ( ). Setiap kasus simulasi dilakukan sebanyak sepuluh kali ulangan. Untuk mempermudah penelitian, maka setiap kondisi yang diterapkan pada ketiga gerombol hasil bangkitan notasi seperti terlihat pada Tabel 2. Metode Tahapan yang dilakukan dalam membangkitkan individu pada setiap kasus simulasi adalah sebagai berikut: 1. Menentukan banyak gerombol (G=3), banyak peubah (p=4), banyak amatan setiap gerombol (n 1 =n 2 =n 3 =100), dan sebaran setiap gerombol (G k ~Normal Ganda). 2. Menentukan parameter sebaran masingmasing gerombol, yaitu vektor rataan ( dan matriks peragam ( ). Matriks peragam tersebut diperoleh dengan cara sebagai berikut: a. Menentukan matriks yang merupakan matriks diagonal berdimensi 4x4 dengan elemen diagonalnya adalah standar deviasi masing-masing peubah, k=1,2,3. b. Menentukan matriks merupakan matriks berdimensi 4x4 dengan elemennya adalah korelasi antar peubah, k=1,2,3. c. Menghitung matriks peragam masingmasing gerombol dengan masingmasing gerombol, 3. Membangkitkan peubah acak sebanyak n 1 untuk gerombol 1,. 4. Membangkitkan peubah acak sebanyak n 2 untuk gerombol 2, 5. Membangkitkan peubah acak sebanyak n 3 untuk gerombol 3,. 6. Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi. 7. Ulangi tahap 2-6 untuk kondisi penggerombolan yang telah ditentukan. Sedangkan tahapan yang dilakukan dalam analisis data pada setiap kasus simulasi adalah sebagai berikut: 1. Membuat plot skor komponen utama pada setiap kasus simulasi untuk melihat tebaran data dan banyaknya gerombol yang dapat terbentuk. 2. Menerapkan metode penggerombolan berdasarkan GMM dengan menggunakan paket Mclust pada program R dengan prosedur penggerombolan sebagai berikut: a. Melakukan agglomerative hierarchical clustering dengan menggunakan model, sehingga diperoleh untuk G=1,2,,M; M merupakan jumlah gerombol maksimum. Untuk menentukan nilai awal, maka lakukan M-Step saat iterasi m=0. b. M-Step: tergantung model, seperti yang terdapat dalam Ceuleux & Govaert (2006). Setelah diperoleh nilai dan, lakukan E-Step untuk k=1,2,,g. c. E-Step: =

6 d. Menghitung nilai loglikelihood untuk data lengkap, kemudian ulangi E-Step dan M-Step untuk iterasi ke (m+1) hingga diperoleh nilai loglikelihood yang konvergen. e. Menghitung nilai BIC. f. Melakukan tahap a-e untuk banyak geombol berbeda, G=1,2,,M. g. Membandingkan nilai BIC untuk setiap solusi gerombol yang terbentuk. Nilai BIC yang dipilih adalah nilai terbesar sehingga dapat diketahui model dan banyaknya gerombol yang sesuai dengan data. Tahap 2 menghasilkan banyaknya gerombol, dugaan parameter sebaran masing-masing gerombol ),,, dan nilai BIC. 3. Untuk setiap kasus simulasi: a. Membuat plot skor komponen utama dengan menggunakan warna berbeda pada setiap amatan jika berasal dari gerombol berbeda. b. Membandingkan plot skor komponen utama pada tahap 1 dengan tahap 3a. c. Membandingkan banyaknya gerombol yang terbentuk dengan banyak gerombol yang sebenarnya. d. Membandingkan dugaan parameter yang dihasilkan pada tahap 2 dengan parameter yang sebenarnya. e. Membandingkan hasil klasifikasi tiap amatan yang dihasilkan metode tersebut dengan klasifikasi yang sebenarnya, kemudian buat tabel missmatch setiap ulangan untuk menghitung rataan miss classifications rate (tingkat kesalahan klasifikasi) setiap gerombol. 4. Membandingkan persentase rataan miss classifications rate untuk setiap kasus simulasi. Metode GMM dikatakan efektif jika mempunyai rataan tingkat kesalahan klasifikasi kurang dari 10%. HASIL DAN PEMBAHASAN Data yang dibangkitkan untuk setiap kasus simulasi terdiri dari tiga gerombol. Ketiga gerombol tersebut berasal dari sebaran normal ganda (Gaussian) dengan parameter vektor rataan ( dan matriks peragam ( ) yang dibuat sama maupun berbeda. Terdapat 27 kasus simulasi yang dibedakan atas parameter sebaran, jarak antar pusat gerombol, ragam setiap peubah pada setiap gerombol, dan nilai korelasi. Plot skor komponen utama dibuat untuk memperlihatkan pola tebaran data yang terbentuk sesuai dengan kondisi ketiga gerombol yang dibangkitkan pada setiap kasus simulasi. Plot tersebut dapat memberikan gambaran untuk setiap gerombol yang saling berjauhan, saling berdekatan, maupun saling tumpang tindih. Setiap amatan diberikan warna berbeda jika berasal dari gerombol yang berbeda, sesuai dengan klasifikasi yang sebenarnya. Metode penggerombolan berdasarkan GMM diterapkan pada setiap kasus simulasi. Untuk memberikan gambaran mengenai gerombol yang dihasilkan metode ini, dibuat plot skor komponen utama dengan memberikan warna berbeda jika berasal dari gerombol yang berbeda, sesuai dengan hasil penggerombolan berdasarkan metode tersebut. Metode ini dikatakan efektif jika memiliki rataan tingkat kesalahan klasifikasi kurang dari 10%. Semakin kecil rataan tingkat kesalahan klasifikasi, maka metode ini semakin efektif dalam menggerombolkan kasus simulasi tersebut. Kedua plot skor utama setiap kasus simulasi yang dibuat pada salah satu ulangan dapat dilihat pada Lampiran. Misalnya plot skor komponen utama untuk K 7, ketiga gerombol memiliki pusat gerombol yang sama dengan matriks peragam yang berbeda. Data saling tumpang tindih dengan membentuk pola seperti tiga lingkaran yang mempunyai pusat yang sama dengan diameter yang berbeda. Berdasarkan hasil metode, terbentuk dua gerombol yang memiliki pusat gerombol yang hampir sama dengan matriks peragam yang berbeda. Terlihat juga bahwa gerombol 2 dan gerombol 3 didefinisikan sebagai gerombol yang sama. Ketiga Gerombol Berasal dari Populasi Identik [ ] Data yang terdiri dari tiga gerombol dengan vektor rataan dan matriks peragam yang identik terdapat pada K 1, K 2, K 3, K 4, K 5, dan K 6. Tiga kasus pertama memiliki ragam setiap peubah yang kecil sedangkan tiga kasus selanjutnya memiliki ragam setiap peubah yang besar. Metode penggerombolan berdasarkan GMM memisahkan gerombol sehingga masing-masing gerombol memiliki sebaran Gaussian dengan parameter berbeda. Penerapan metode pada kasus simulasi dengan ketiga gerombol yang berasal dari populasi identik telah menghasilkan satu gerombol. Hal ini ditemukan pada K 1, K 3, K 4, dan K 6. Berbeda dengan keempat kasus tersebut,

7 penerapan metode ini pada nilai korelasi antar peubah sebesar 0.2 (K 2 dan K 5 ) telah menghasilkan dua gerombol. Kedua gerombol yang dihasilkan memiliki vektor rataan berbeda dengan matriks peragam yang sama. Rataan tingkat kesalahan klasifikasi yang diperoleh untuk K 2 sebesar 40.9% dan untuk K 5 sebesar 30.7%. Rataan tingkat kesalahan klasifikasi pada tiga nilai korelasi yang dicobakan untuk kasus-kasus tersebut dapat dilihat pada Gambar 1. rataan tingkat kesalahan klasifikasi (%) 60 40 20 0 0 0.2 0.8 korelasi 1.a 1.b Gambar 1. Rataan tingkat kesalahan klasifikasi pada kasus simulasi untuk ketiga gerombol yang berasal dari populasi identik Ketiga Gerombol Berasal dari Populasi Berbeda Matriks peragam ketiga gerombol berbeda [ ] Penerapan metode penggerombolan berdasarkan GMM pada data yang terdiri dari tiga gerombol dengan vektor rataan yang identik dan matriks peragam yang berbeda yaitu pada K 7, K 8, dan K 9 telah menghasilkan dua gerombol yang saling tumpang tindih. Kedua gerombol yang dihasilkan memiliki vektor rataan yang hampir sama dengan matriks peragam yang berbeda. Jumlah gerombol yang seharusnya terbentuk adalah sebanyak tiga gerombol dengan vektor rataan identik dan matriks peragam berbeda (ketiga gerombol saling tumpang tindih). Rataan tingkat kesalahan klasifikasi yang diperoleh untuk K 7, K 8, dan K 9 secara berturut-turut sebesar 38.5%, 39%, dan 38.8%. Metode ini kurang efektif diterapkan pada data yang saling tumpang tindih. Vektor rataan ketiga gerombol berbeda [ ] K 10 terdiri dari tiga gerombol yang memiliki vektor rataan berbeda dengan jarak antar pusat gerombol yang bernilai kecil, matriks peragam identik dengan ragam setiap peubah pada setiap gerombol bernilai kecil, dan tidak terdapat korelasi antar peubah. Penerapan metode ini pada K 10 menghasilkan tiga gerombol dengan vektor rataan berbeda dan matriks peragam yang identik. Rataan tingkat kesalahan klasifikasi yang diperoleh sebesar 0.33%. Sedangkan pada kondisi yang sama dengan korelasi sebesar 0.2 untuk K 11 dan korelasi sebesar 0.8 untuk K 12, setelah metode diterapkan, terbentuk tiga gerombol tanpa adanya kesalahan klasifikasi. Data yang terdiri dari tiga gerombol yang memiliki vektor rataan berbeda dengan jarak antar pusat gerombol yang bernilai kecil, matriks peragam identik dengan ragam antar peubah pada setiap gerombol bernilai besar yaitu terdapat pada K 13, K 14, dan K 15. Metode penggerombolan berdasarkan GMM menghasilkan satu gerombol dengan rataan tingkat kesalahan klasifikasi sebesar 66.67% jika diterapkan pada K 13. Jumlah gerombol berbeda pada beberapa ulangan diperoleh pada K 14 dan K 15. Sebanyak satu gerombol pada lima ulangan dan dua gerombol pada ulangan lainnya dengan rataan tingkat kesalahan klasifikasi sebesar 66.9% diperoleh pada K 14. Sedangkan sebanyak satu gerombol pada tujuh ulangan dan tiga gerombol pada ulangan lainnya dengan rataan tingkat klasifikasi sebesar 50.87% diperoleh pada K 15. Ragam setiap peubah pada setiap gerombol yang bernilai besar menyebabkan amatan menyebar jauh dari rataannya, sehingga jika jarak antar pusat gerombolnya kecil menyebabkan banyak amatan yang tumpang tindih dengan amatan pada gerombol lain. Metode penggerombolan berdasarkan GMM tidak efektif diterapkan untuk kasus simulasi dengan pola tersebut. K 16, K 17, dan K 18 memiliki vektor rataan berbeda dengan jarak antar pusat gerombol bernilai besar dan matriks peragam identik dengan ragam setiap peubah pada setiap gerombol yang bernilai kecil. Setiap amatan cenderung menggerombol di sekitar rataannya. Penerapan metode pada ketiga kasus tersebut menghasilkan tiga gerombol tanpa adanya kesalahan klasifikasi. Hasil penggerombolan pada K 19, K 20, dan K 21 menghasilkan tiga gerombol dengan rataan tingkat kesalahan klasifikasi masingmasing sebesar 2.53%, 1.2% dan 0%. Kasuskasus simulasi tersebut memiliki vektor rataan berbeda dengan jarak antar pusat gerombol yang besar, matriks peragam identik dengan ragam setiap peubah yang besar.

8 Tabel 3. Rataan tingkat kesalahan klasifikasi setiap kasus simulasi 1, 9, dan 25 0 40.9±9.29 0 0 30.7±10.4 0 38.5±0.63 39±1.07 38.8±1.59 1, 9, dan 25 0.33±0.32 0 0 66.67 66.87±0.3 50.87±25.44 13.3±1.03 14.2±1.76 3.50±0.53 1, 9, dan 25 0 0 0 2.53±0.53 1.2±0.39 0 0.53±0.42 0.07±0.14 0 Vektor rataan dan matriks peragam ketiga gerombol berbeda [ ] Kasus simulasi yang memiliki vektor rataan dan matriks peragam berbeda dengan jarak antar pusat gerombol bernilai kecil yaitu terdapat pada K 22, K 23, dan K 24. K 22 mewakili data dengan kondisi tersebut tanpa adanya korelasi antar peubah, K 23 mewakili data dengan korelasi antar peubah sebesar 0.2, dan K 24 mewakili data dengan korelasi antar peubah sebesar 0.8. Penerapan metode penggerombolan berdasarkan GMM pada ketiga kasus tersebut menghasilkan tiga gerombol dengan rataan tingkat kesalahan klasifikasi sebesar 13.3% untuk K 22, sebesar 14.2% untuk K 23, dan sebesar 3.5% untuk K 24. Vektor rataan dengan jarak antar pusat gerombol yang besar dan matriks peragam berbeda untuk setiap gerombol terdapat pada K 25, K 26, dan K 27. Nilai rataan tingkat kesalahan klasifikasi sebesar 0.53% dan 0.07% masing-masing dihasilkan oleh K 25 dan K 26, sedangkan pada K 27 tidak terdapat kesalahan klasifikasi. Tabel 3 menunjukkan bahwa secara umum, rataan tingkat kesalahan klasifikasi berkurang jika jarak antar pusat gerombol semakin besar, hal ini disebabkan oleh semakin sedikitnya amatan yang saling tumpang tindih dengan amatan pada gerombol yang lain. Ragam setiap peubah yang besar juga dapat meningkatkan tingkat kesalahan klasifikasi. Gerombol dengan ragam antar peubah pada setiap gerombol yang lebih besar daripada jarak antar pusat gerombol, memiliki rataan tingkat kesalahan klasifikasi yang sangat besar. Sedangkan untuk kasus dengan atau tanpa adanya korelasi tidak mempengaruhi tingkat kesalahan klasifikasi. Hal ini disebabkan oleh metode penggerombolan berdasarkan GMM mempertimbangkan parameterisasi, dimana untuk data yang memiliki korelasi antar peubah diberikan model dan untuk data yang tidak memiliki korelasi antar peubah diberikan model. Pada kasus dimana terdapat korelasi antar peubah, nilai korelasi antar peubah sebesar 0.8 memberikan rataan tingkat kesalahan yang lebih kecil daripada kasus dengan nilai korelasi antar peubah sebesar 0.2. Penjabaran diatas untuk kasus simulasi dengan ketiga gerombol yang berasal dari populasi berbeda dapat terlihat pada Gambar 2. Gambar 3 memperlihatkan bahwa rataan tingkat kesalahan klasifikasi terbesar

9 diperoleh pada data dengan jarak antar pusat gerombol yang kecil dan ragam setiap peubah yang besar pada berbagai nilai korelasi yang dicobakan. rataan tingkat kesalahan klasifikasi (%) 3.b.ii 4.a 4.b Gambar 2. Rataan tingkat kesalahan klasifikasi pada kasus simulasi dengan ketiga gerombol yang berasal dari populasi berbeda nomor kasus 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 80 60 40 20 0 0 0.2 0.8 korelasi 2 3.a.i 3.a.ii 3.b.i 0 20 40 60 80 rataan tingkat kesalahan klasifikasi (%) Gambar 3. Rataan tingkat kesalahan klasifikasi pada setiap kasus simulasi SIMPULAN DAN SARAN Simpulan Metode penggerombolan berdasarkan Gaussian Mixture Models (GMM) dapat memisahkan gerombol berdasarkan parameter sebaran dengan proporsi tertentu. GMM efektif memisahkan gerombol pada kasus dengan pola sebaran sebagai berikut: 1. dengan ragam setiap peubah pada setiap gerombol bernilai kecil pada beberapa nilai korelasi yang dicobakan, baik untuk jarak antar pusat gerombol yang bernilai kecil maupun besar. 2. dengan jarak antar pusat gerombol bernilai kecil pada tingkat korelasi sebesar 0.8 dan dengan jarak antar pusat gerombol bernilai besar pada berbagai nilai korelasi yang dicobakan. GMM tidak efektif pada kasus dengan pola sebaran sebagai berikut: 1. pada berbagai tingkat korelasi. 2. dengan jarak antar pusat gerombol yang kecil dan ragam setiap peubah yang besar pada berbagai nilai korelasi. 3. dengan jarak antar pusat gerombol yang kecil pada nilai korelasi 0 dan 0.2. Rataan tingkat kesalahan klasifikasi berkurang jika jarak antar pusat gerombol semakin besar, hal ini disebabkan oleh semakin sedikitnya amatan yang saling tumpang tindih dengan amatan pada gerombol yang lain. Ragam setiap peubah yang besar juga dapat meningkatkan tingkat kesalahan klasifikasi. Gerombol dengan ragam antar peubah pada setiap gerombol yang lebih besar daripada jarak antar pusat gerombol, memiliki rataan tingkat kesalahan klasifikasi yang sangat besar. Sedangkan untuk kasus dengan atau tanpa adanya korelasi tidak mempengaruhi tingkat kesalahan klasifikasi. Saran Dalam penelitian ini, ketiga gerombol yang dibangkitkan berasal dari sebaran Gaussian dengan empat peubah, dimana setiap gerombol memiliki parameter vektor rataan dan matriks peragam dengan kondisi berbeda, dan tidak terdapat pencilan. Untuk penelitian selanjutnya, dapat dicobakan nilai korelasi yang lebih beragam, menggunakan sebaran t untuk memisahkan gerombol yang mempunyai pencilan, atau menerapkan

10 metode Bayes untuk menduga parameter dalam mixture models. DAFTAR PUSTAKA Banfield JD, Raftery AE. 1993. Model-based Gaussian and non-gaussian Clustering. Biometrics 49:803-821 Celeux G, Govaert G. 2006. Gaussian Parsimonious Clustering Methods. INRIA. Perancis. Fraley C.1996. Algorithms for Model-Based Gaussian Hierarchical Clustering. Technical Report 311. Fraley C, Raftery AE. 1998. How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer J 41(8). Fraley C, Raftery AE. 2002. Model based clustering, discriminant analysis, and density estimation. J Amer Stat Assoc 97. Fraley C, Raftery AE. 2010. MCLUST version 3 for R: normal mixture modeling and model-based clustering. Technical Report 504. Johnson R.A. dan Wichern D.W. 2002. Applied Multivariate Statistical Analysis. New Jersey: Prentice Hall. McLachlan GJ, Basford KE. 1988. Mixture Models: Inference and Application to Clustering. New York: Marcel Dekker.

LAMPIRAN

-10-5 0 5 10 15-10 -5 0 5 10 15-1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0-3 -2-1 0 1 2-3 -2-1 0 1 2-3 -2-1 0 1 2-3 -2-1 0 1 2 12 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 1 identik kecil, 0% -3-2 -1 0 1 2-3 -2-1 0 1 2 Total keragaman dua KU 50% 50% K 2 identik kecil, 40.9% -3-2 -1 0 1 2 3-3 -2-1 0 1 2 3 Total keragaman dua KU 60% 60% K 3 0 identik kecil, -4-2 0 2 4-4 -2 0 2 4 Total keragaman dua KU 90% 90% K 4 0% identik besar, -10-5 0 5 10 15-10 -5 0 5 10 15 Total keragaman dua KU 50% 50%

-10-5 0 5 10-10 -5 0 5 10-6 -4-2 0 2 4 6-6 -4-2 0 2 4 6-10 -5 0 5 10-10 -5 0 5 10 13 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 5 identik besar, 0% -10 0 10 20-10 0 10 20 Total keragaman dua KU 60% 60% K 6 identik besar, 0% -20-10 0 10 20-20 -10 0 10 20 Total keragaman dua KU 90% 90% K 7 identik berbeda, 38.5% -10-5 0 5 10-10 -5 0 5 10 Total keragaman dua KU 50% 50% K 8 identik berbeda, 39% 15 15 Total keragaman dua KU 60% 60%

-4-3 -2-1 0 1 2 3-4 -3-2 -1 0 1 2 3-4 -2 0 2 4-4 -2 0 2 4-4 -2 0 2 4-4 -2 0 2 4-6 -4-2 0 2 4-6 -4-2 0 2 4 14 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 9 identik berbeda, 38.8% -20-10 0 10 20-20 -10 0 10 20 Total keragaman dua KU 90% 90% K 10 berbeda, d ij kecil 0.33% kecil, -6-4 -2 0 2 4 6-6 -4-2 0 2 4 6 Total keragaman dua KU 88% 88% K 11 berbeda, d ij kecil kecil, 0% -6-4 -2 0 2 4 6-6 -4-2 0 2 4 6 Total keragaman dua KU 88% 88% K 12 berbeda, d ij kecil kecil, 0% -4-2 0 2 4-4 -2 0 2 4 Total keragaman dua KU 79% 79%

-10-5 0 5-10 -5 0 5-10 -5 0 5 10-10 -5 0 5 10 15 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 13 berbeda, d ij kecil besar, 66.67% 15 15 Total keragaman dua KU 64% 64% K 14 berbeda, d ij kecil 66.9% besar, 15 15 Total keragaman dua KU 60% 60% K 15 berbeda, d ij kecil besar, 50.87% -20-10 0 10 20 30-20 -10 0 10 20 30 Total keragaman dua KU 87% 87% K 16 berbeda, d ij besar kecil, 0% 15 15 Total keragaman dua KU 99% 99%

-20-10 0 10-20 -10 0 10-20 -10 0 10 20-20 -10 0 10 20-10 -5 0 5-10 -5 0 5-10 -5 0 5-10 -5 0 5 16 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 17 berbeda, d ij besar kecil, 0% 15 15 Total keragaman dua KU 98.62% 98.62% K 18 berbeda, d ij besar 0% kecil, -10-5 0 5 10-10 -5 0 5 10 Total keragaman dua KU 97.92% 97.92% K 19 berbeda, d ij besar besar, 2.53% -20-10 0 10 20-20 -10 0 10 20 Total keragaman dua KU 81.44% 81.44% K 20 berbeda, d ij besar besar, 1.2% -20-10 0 10 20-20 -10 0 10 20 Total keragaman dua KU 77.73% 77.73%

-15-10 -5 0 5-15 -10-5 0 5-10 -5 0 5 10-10 -5 0 5 10-30 -20-10 0 10 20 30-30 -20-10 0 10 20 30 17 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 21 berbeda, d ij besar besar, 0% 15 15 Total keragaman dua KU 73% 73% K 22 berbeda, d ij kecil berbeda, 13.3% Total keragaman dua KU 61.05% 61.05% K 23 berbeda, d ij kecil berbeda, 14.2% Total keragaman dua KU 60.79% 60.79%

-20-10 0 10-20 -10 0 10-20 -10 0 10-20 -10 0 10-4 -2 0 2 4 6 8 10-4 -2 0 2 4 6 8 10 18 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 24 berbeda, d ij kecil berbeda,.8 3.5% -20-10 0 10 20-20 -10 0 10 20 Total keragaman dua KU 94.15% 94.15% K 25 berbeda, d ij besar berbeda, 0.53% -10 0 10 20-10 0 10 20 Total keragaman dua KU 89.2% 89.2% K 26 berbeda, d ij besar berbeda, 0.07% -30-20 -10 0 10-30 -20-10 0 10 Total keragaman dua KU 87.05% 87.05%

19 Lampiran Plot skor komponen utama setiap kasus simulasi pada ulangan ke 8 dan rataan tingkat kesalahan klasifikasi (TKK) yang dihasilkan metode penggerombolan berdasarkan GMM (lanjutan) Kasus simulasi (kondisi populasi) (hasil penggeromboaln) Rataan TKK K 27 berbeda, d ij besar berbeda,.8 0% Total keragaman dua KU 80.57% 80.57%