PENGUKURAN KEMAMPUAN PREDIKTIF TEKNIK CLUSTERING DENGAN FIGURE OF MERIT 1

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENGUKURAN KEMAMPUAN PREDIKTIF TEKNIK CLUSTERING DENGAN FIGURE OF MERIT 1"

Transkripsi

1 PENGUKURAN KEMAMPUAN PREDIKTIF TEKNIK CLUSTERING DENGAN FIGURE OF MERIT 1 Rosni Lumbantoruan Politeknik Informatika Del Jl. Sisingamangaraja Sitoluama, Laguboti Toba Samosir, Sumatera Utara, Indonesia rosni@del.ac.id Abstract In the recent few decades, molecular biology as well as the gene data grows fast. The present of microarray technology can produce a huge of gene expression data in just once experiment. For the fast growing of gene data, there is a need for analyzing data and finding the information hidden in the data. One technique to analyze microarray data is by using clustering. In this paper, we proposed a software module for clustering microarray data and measuring the predictive power of the clustering algorithm. Clustering algorithms used are Hierarchical Clustering (HC), K-Means with K-Means and K- Medoids method, and Self Organizing Map (SOM). The result of the clustering microarray data is used as the input for measuring the predictive power of the algorithm by using statistical approach, Figure Of Merit (FOM). The index result of applying FOM can be used as a reference to choose the proper algorithm for clustering certain microarray data. We have found that by applying FOM to budding yeast data Saccharomyces cerevisiae, K-Means with K-Median method superiors K-Means method and SOM. Keywords: Clustering, Microarray, Hierarchical Clustering, K-Means, Self Organizing Map, Figure of Merit. Abstrak Dalam beberapa dekade terakhir ini, ilmu biologi terutama bidang molekuler semakin berkembang pesat. Terlebih lagi dengan munculnya teknologi microarray yang mampu menghasilkan data ekspresi gen yang sangat besar hanya dalam sekali eksperimen. Seiring dengan semakin banyaknya data, terutama data yang dihasilkan dari teknologi microarray maka muncul kebutuhan untuk menganalisis data, untuk mencari informasi yang terkandung pada data tersebut. Salah satu teknik untuk menganalisis data microarray adalah dengan teknik clustering. Banyak algoritma clustering yang tersedia untuk menganalisis data ekspresi gen, namun hanya sedikit petunjuk tentang tingkat kemampuan prediktif algoritma. Modul perangkat lunak ini menawarkan solusi terhadap permasalahan tersebut dengan mengaplikasikan Figure Of Merit, yang dapat mengukur kemampuan prediktif algoritma clustering. Data yang digunakan untuk teknik clustering dan pengukuran kemampuan prediktif algoritma adalah data sel ragi / Shaccaromyces Cereviciae. Berdasarkan penghitungan indeks nilai kemampuan prediktif algoritma, diperoleh bahwa K-Means dengan metoda K-Median mempunyai kemampuan prediktif yang lebih tinggi dalam meng-cluster data sel ragi dibandingkan dengan kedua algoritma lainnya. Kata Kunci : Clustering, Microarray, Hierarchical Clustering, K-Means, Self Organizing Map, Figure of Merit. 1 Makalah ini disarikan dari Tugas Akhir Strata 1 di Institut Teknologi Bandung, di bawah bimbingan Ibu Dr. ir. M.M. Inggriani Liem dan Bapak Dr. Adi Pancoro. Pada kesempatan ini, penulis juga mengucapkan terima kasih kepada pihak penyelenggara Seminar Nasional "Conference on Applied Information Technology (CAIT)" yang memberi kesempatan kepada penulis untuk menyampaikan hasil kajian kepada peserta seminar.

2 1 PENDAHULUAN Dalam dekade terakhir, disiplin ilmu biologi mengalami perkembangan pesat terutama di tingkat molekuler. Berbagai teknologi baru telah dikembangkan untuk mendapatkan informasi mengenai gen yaitu satuan terkecil dari makhluk hidup. Banyaknya penelitian yang dilakukan telah menghasilkan data dan informasi biologi dalam jumlah yang sangat besar. Dengan semakin banyak dan kompleksnya informasi yang dihasilkan, diperlukan pendekatan baru untuk memahami fenomena makhluk hidup. Dalam hal ini, pendekatan teknologi informasi sangat dibutuhkan dalam pengelolaan dan pengolahan data biologi terutama dalam hal penyediaan berbagai kakas perangkat lunak untuk membantu analisis data [1]. Munculnya teknologi microarray DNA memungkinkan untuk memonitor ribuan level ekspresi gen secara bersamaan. Hasil dari microarray adalah sebuah matriks dengan baris yang berasosiasi dengan setiap gen dan kolom yang berasosiasi dengan sampel/kondisi. Setiap elemen matriks menunjukkan level ekspresi gen tertentu pada sampel/kondisi tertentu. Salah satu bentuk data microarray adalah time-series microarray yang menyatakan hasil pengukuran terhadap sampel gen secara terurut berdasarkan waktu pengamatan [2]. Salah satu informasi yang diperoleh dengan memonitor level ekspresi gen dalam tahap perkembangan yang berbeda, kondisi kesehatan, dan organisme yang berbeda dapat membantu memahami fungsi gen dan jaringannya, membantu melakukan diagnosis penyakit, dan mengetahui pengaruh dari pengobatan medis. Namun, jumlah data microarray yang sangat besar memunculkan tantangan baru untuk analisis ekspresi gen. Langkah utama dalam analisis data ekspresi gen adalah mengidentifikasi kelompok gen yang mempunyai pola ekspresi yang sama. Salah satu cara yang paling umum dilakukan untuk menganalisis data hasil microarray adalah dengan teknik clustering [3,4]. Terdapat banyak algoritma clustering, diantaranya Hierarchical Clustering [5], K-Means [6], dan Self Organizing Maps [7]. Hierarchical Clustering (HC) mengelompokkan data dalam struktur hierarki, K-Means membagi data menjadi k-jumlah cluster, sedangkan SOM membagi data ke dalam k-partisi. Algoritma-algoritma ini sudah banyak diimplementasikan dan merupakan aplikasi open source [8]. Manfaat dari implementasi beberapa algoritma dalam satu aplikasi berguna dalam penelitian. Peneliti dapat menggunakan beberapa metoda cluster, misalnya menggunakan algoritma hierarchical untuk memprediksikan jumlah cluster yang terbaik yang harus dihasilkan. Dari hasil ini kemudian digunakan algoritma K-Means untuk mendapatkan cluster akhir. Setelah cluster diperoleh, kemudian dapat dilanjutkan dengan proses visualisasi. Banyak algoritma clustering yang tersedia untuk menganalisis data ekspresi gen, namun hanya sedikit petunjuk tentang tingkat kemampuan prediktif algoritma. Misalnya perangkat lunak yang dikembangkan oleh Eisen [8], menerapkan algoritma HC, K-Means, SOM, dan Principal component analysis;namun perangkat lunak ini hanya meng-cluster-kan data gen dan tidak mengukur kualitas dari algoritma yang digunakan. Pilihan untuk memilih hasil clustering yang tepat diserahkan kepada pengguna perangkat lunak. Begitu juga dengan CLICK and EXPANDER [9], sistem untuk clustering dan visualisasi data ekspresi gen. Sistem ini menggunakan algoritma CLICK untuk menghasilkan cluster yang memiliki tingkat kesamaan yang tinggi. Selain itu, sistem ini menyediakan alat untuk memvisualisasikan analisis data ekspresi gen dengan menggunakan EXPANDER, namun sistem ini tidak menyediakan fasilitas untuk mengukur tingkat keakuratan cluster yang dihasilkan. Dengan mempertimbangkan kurangnya petunjuk untuk mengukur tingkat keakuratan/kemampuan prediktif algoritma, modul perangkat lunak ini menawarkan solusi untuk pengukuran tingkat kemampuan prediktif algoritma dengan mengaplikasikan Figure Of Merit (FOM). FOM menggunakan hasil clustering sebagai masukan untuk mengukur kemampuan prediktif algoritma. Hasil perhitungan Figure Of Merit divisualisasikan dalam bentuk grafik.

3 2 METODA/PRODUK TERDAHULU YANG AKAN DIKEMBANGKAN Terdapat banyak algoritma clustering dan sudah banyak diimplementasikan. Salah satu perangkat lunak yang dijadikan sebagai acuan adalah perangkat lunak yang dikembangkan oleh Eisen [8] dan tersedia secara open source. Perangkat lunak ini mengimplementasikan tiga algoritma clustering yaitu HC, K-Means, dan SOM. Perangkat lunak dibangun dengan menggunakan bahasa pemrograman C++. Banyak perangkat lunak yang mengaplikasikan teknik clustering, namun masih jarang ditemukan perangkat lunak yang memberikan informasi tentang pemilihan algoritma yang paling tepat digunakan. Begitu juga dengan perangkat lunak yang dikembangkan oleh Eisen. Permasalahan ini menjadi pertimbangan untuk mengembangkan perangkat lunak yang sudah ada dengan menambahkan fungsi pengukuran kemampuan prediktif algoritma. Kemampuan prediktif algoritma dapat dijadikan sebagai referensi oleh pengguna untuk memilih algoritma yang akan digunakan. 3 METODA PENELITIAN Modul perangkat lunak yang dibangun ditujukan untuk melakukan clustering terhadap data genetik microarray serta mengukur kemampuan prediktif algoritma. Data microarray yang digunakan untuk melakukan penelitian adalah data sel ragi yang tersedia secara publik. Modul perangkat lunak mengaplikasikan tiga jenis algoritma clustering yaitu Hierarchical Clustering (HC), K-Means, dan Self Organizing Map (SOM). Sebelum melakukan clustering, dilakukan proses normalisasi untuk menghindari pengaruh pemilihan metriks jarak yang digunakan pada algoritma clustering. Hasil clustering akan dijadikan sebagai masukan untuk penghitungan tingkat kemampuan prediktif algoritma clustering yang digunakan dengan mengaplikasikan Figure Of Merit (FOM). Penjelasan tentang metoda penelitian yang digunakan akan dijelaskan pada subbab-subbab berikut. 3.1 Data Microarray Keluaran dari microarray DNA adalah matriks dengan baris yang berasosiasi dengan gen, dan baris pada matriks yang berasosiasi dengan kondisi/profil level ekspresi gen. Level ekspresi gen dapat berupa nilai absolut atau relatif. Setiap baris merepresentasikan pola ekspresi gen. Setiap kolom merepresentasikan eksperimen/ profil kondisi. Masukan pada raw data matrix adalah nilai rasio, absolut, atau nilai distribusi. Data ekspresi gen dapat direpresentasikan sebagai matriks, yang disebut dengan raw data matrix. Setiap baris pada matriks berisi data untuk gen tertentu, dan setiap kolom merepresentasikan sebuah kondisi. Dengan demikian, R ij adalah level ekspresi untuk gen i, pada kondisi j. data ekspresi gen dapat direpresentasikan dalam bentuk rasio, nilai absolute, atau nilai distribusi. Pola ekspresi dari gen i adalah baris ke i dari R ij. Pola ekspresi kondisi j adalah kolom ke j dari R ij. Pada beberapa algoritma clustering, raw data matrix diproses terlebih dahulu untuk menghasilkan sebuah matriks similarity [seperti pada gambar 3-1], dengan S ij merefleksikan kesamaan pola ekspresi dari gen i dan gen j. Matriks similarity lebih besar dari raw data matrix karena biasanya gen lebih banyak daripada kondisi (kolom) [2].

4 Gambar 3-1 Pembentukan Raw Data Matrix menjadi Similarity Matrix [2] 3.2 Representasi Data Clustering Algoritma clustering mengelompokkan objek atau data berdasarkan indeks kedekatan antara pasangan objek. Kumpulan objek yang merupakan raw data untuk clustering dapat dinyatakan dengan 2 (dua) format standar yaitu: pattern matrix dan proximity matrix. Data microarray pada umumnya sudah direpresentasikan dalam bentuk pattern matrix, seperti dibahas pada subbab Penjelasan tentang pattern matrix dan proximity matrix, lebih jelasnya akan dibahas pada subbab-subbab sebagai berikut [10] Pattern Matrix Apabila setiap objek pada himpunan n objek (gen) direpresentasikan oleh sebanyak d jenis pengukuran/sampel, setiap objek direpresentasikan dengan sebuah pattern. Himpunan dipandang sebagai n x d pattern matrix. Setiap baris pada matriks mendefinisikan sebuah pattern dan setiap kolom menyatakan feature, atau pengukuran. Misalnya, untuk melakukan cluster terhadap fungsi waktu seperti sinyal biologi, nilai sampel yang diperoleh pada waktu tertentu adalah feature. Himpunan nilai feature dari sebuah sinyal adalah pattern, diharapkan feature yang sama digunakan untuk mengukur semua pola. Misalkan dilakukan cluster terhadap pasien pada suatu rumah sakit, maka setiap baris pada pattern matrix akan merepresentasikan satu individu. Feature atau kolom pada pattern matrix, akan merepresentasikan respon terhadap jawaban pada formulir masuk rumah sakit atau hasil diagnosis. Pertanyaan dan tes diagnosis harus sama untuk setiap pasien untuk eksprerimen tertentu. Informasi yang bersifat kategorikal seperti usia, jenis kelamin, agama, atau warna rambut, biasanya diterjemahkan sebagai hasil dari analisis clustering, bukan bagian dari pattern matrix. Pattern matrix dapat digambarkan sebagai kumpulan objek pada baris dan atribut pada kolom seperti Gambar 3.2 sebagai berikut [11]. Gambar 3-2 Format Data Clustering Baris merupakan objek yang diamati, pada Gambar 3-2 adalah 1, 2,, n. sedangkan atribut dinyatakan dalam kolom 1, 2, m. Nilai pada matriks, misalnya 4.7 untuk objek 1 dan atribut 1 adalah hasil pengukuran berupa level ekspresi pengamatan. Pada umumnya, objek dapat berupa gen maupun sampel. Sampel pada pattern matrix bisa merupakan pengamatan terhadap waktu (time points), pengamatan terhadap sekelompok gen (tissue types), dan pengamatan selama dilakukan treatment tertentu. Jenis-jenis data microarray berdasarkan sampel pengamatan yang digunakan untuk proses clustering adalah time series microarray, tissue types microarray, dan treatment condition microarray [11].

5 Time series microarray Gambar 3-3 Pola data time series microarray Pola pada Gambar 3-3 merupakan pengamatan terhadap n gen dan m lama waktu sebagai atribut. Pola ini dikenal sebagai time series microarray. Data microarray yang digunakan dibatasi hanya time series micrroarray, yaitu sampel berupa hasil pengamatan level ekspresi gen pada perioda tertentu. Format data sampel yang digunakan adalah tab-delimited text. Dalam hal ini sampel dalam bentuk matriks, dengan baris berasosiasi dengan gen, dan kolom berasosiasi dengan kondisi atau waktu pengamatan. Setiap elemen x nm pada matriks X merepresentasikan level ekspresi gen n pada sampel m. Baris pertama pada matrix X berisi nama atribut yang terdiri dari nama gen dan label identifikasi setiap sampel yang tersedia. Berikut adalah contoh data microarray yang diambil dari hasil eksperimen terhadap sekumpulan gen saccharomyces cerevisiae pada suatu perioda tertentu. Gambar 3-4 Data microarray (Saccharomyces Cerevisiae) [12] Nilai data microarray pada gambar 3-4 menyatakan jumlah mrna yang dihasilkan gen pada perioda tertentu. Misalnya gen CLN1, pada pengukuran 10 satuan waktu pertama, transformasi nilai yang diperoleh dari intensitas warna slide microarray adalah minus 1,34; sedangkan 30 satuan waktu berikutnya diperoleh jumlah mrna yang semakin besar yaitu 1,21. Tissue types microarray Gambar 3-5 Pola data microarray berdasarkan jenis tissue Pola pada Gambar 3-5 merupakan pengamatan sebanyak n gen terhadap m jenis tissue.

6 Treatment condition microarray Gambar 3-6 Pola data microarray berdasarkan kondisi treatment Pola data pada Gambar 3-6 merupakan pengamatan terhadap n gen dengan m kondisi treatment, misalnya untuk mengamati pengaruh pengobatan yang dilakukan terhadap sel berpenyakit Proximity Matrix Clutering membutuhkan indeks kedekatan, atau kesamaan antar pasangan pattern. Indeks kedekatan dapat dihitung dari pattern matrix. Proximity matrix mengakumulasikan kedekatan indeks berpasangan pada sebuah matriks dimana setiap baris dan kolom merepresentasikan sebuah pattern. Diagonal matriks diabaikan karena semua pattern diasumsikan mempunyai derajat yang sama dengan dirinya sendiri. Selain itu, diasumsikan bahwa semua proximity matrix adalah simetris, sehingga semua pasangan objek mempunyai indeks kedekatan yang sama, tanpa memperdulikan letak penulisan objek pada matriks. Indeks kedekatan dapat berupa similarity atau dissimilarity. Semakin mirip objek ke-i dengan objek ke-j, maka semakin besar indeks similarity dan semakin kecil indeks dissimilarity [10]. Pada algoritma clustering, penghitungan indeks kedekatan antara dua buah objek merupakan bagian yang sangat fundamental dalam menempatkan objek tersebut di dalam suatu cluster. Analisis microarray juga menerapkan hal yang sama untuk menemukan gen yang mirip dengan menemukan dan mengelompokkan gen-gen yang jaraknya dekat satu dengan yang lain. Pencarian jarak antar gen dilakukan berdasarkan jarak vektor ekspresi untuk setiap gen. Untuk dapat dikelaskan sebagai metrik, jarak d ij, antara dua vektor, i dan j, seperti pada Gambar 3-7, harus memenuhi syarat [13] : 1. Jarak harus positif, d ij 0 2. Jarak harus simetris, d ij = d ji, maka jarak dari i ke j sama dengan jarak j ke i. 3. Jarak objek ke dirinya sendiri adalah 0, d ii = 0. Gambar 3-7 Ruang vektor i dan j [13] Terdapat beberapa metrik yang dapat digunakan untuk menghitung indeks kedekatan antar objek, beberapa diantaranya adalah Euclidean dan Pearson correlation coefficient. Euclidean menghitung indeks kedekatan antar objek dengan mengunakan hukum Phytagoras. Berdasarkan cara kerja hukum Phytagoras, Euclidean memenuhi ketiga syarat yang harus dipenuhi sehingga dapat disebut sebagai metrik. Pearson menghitung indeks kedekatan antar objek berdasarkan korelasi objek. Semakin identik dua gen, maka jarak antar gen tersebut menjadi 1, sehingga jarak antar gen dengan dirinya sendiri adalah 1. Jarak yang dihasilkan oleh Pearson tidak selalu positif. Dengan demikian, berdasarkan ketiga syarat yang harus dipenuhi sehingga dapat disebut sebagai metrik, Pearson tidak memenuhi syarat ke-1 dan ke-3. Disimpulkan bahwa Pearson bukanlah metrik seutuhnya, namun dikategorikan sebagai semi-metrik. Pada pembahasan berikutnya Pearson akan dimasukkan ke dalam metrik, karena Pearson dapat dikonversi sehingga memenuhi ketiga kondisi tersebut.

7 Pembahasan lebih detil tentang metrik similaritas Euclidean dan Pearson dapat dilihat pada subbab dan subbab [14]. Misalkan x = (x 1,..., x n ) dan y = (y 1,..., y n ) adalah dua gen, yang direpresentasikan dengan vektor n-dimensi (n adalah jumlah poin waktu pengamatan) dengan nilai ekspresi berdasarkan eksperimen Euclidean Fungsi jarak Euclidean menghitung jarak antara dua level ekspresi gen dengan menggunakan hukum Phytagoras, dengan rumus: n 2 D (x, y) = (x i yi ) (1) i= 1 Penghitungan menggunakan fungsi jarak Euclidean bergantung kepada magnituda level ekspresi gen. Hasil penghitungan koefisien dengan Euclidean adalah matriks dissimilarity, semakin kecil koefisien dua gen maka semakin identik kedua gen tersebut [15] Pearson Correlation Coefficient Cara yang paling sederhana untuk memahami korelasi koefisien adalah dengan menggambar gen X dan Y sebagai vektor ekspresi, nilai kemiripan bentuk kedua vektor X dan Y dinyatakan dalam nilai korelasi cor (X,Y). Korelasi koefisien Pearson yang selalu berada antara 1 dan 1, dengan kasus khusus: 1 : apabila kedua rangkaian gen (sekumpulan level ekspresi gen terhadap beberapa kondisi pengamatan) identik satu dengan yang lain. Pada Gambar 3-8, label 1 sampai 7 merupakan rangkaian gen. Gen B dan C identik, dengan rangkaian gen yang persis sama. Selain itu, Gen B, C, dan A juga identik karena mempunyai pola rangkaian gen yang sama, hal ini disebabkan level ekspresi Gen A untuk setiap label bertambah 0.2 dari level ekspresi B atau C : apabila kedua rangkaian gen tidak berhubungan/berkorelasi sama sekali, : apabila rangkaian gen yang satu merupakan kebalikan dari rangkaian gen yang lain. Contoh rangkaian gen dan korelasi antar gen dapat dilihat pada gambar 3-8. Contoh kasus rangkaian gen yang berkebalikan yang menghasilkan korelasi 1, terjadi pada Gen C dan Gen F. Sedangkan contoh kasus yang tidak memiliki korelasi sama sekali terjadi pada Gen C dengan Gen D. Gambar 3-8 Kasus Khusus Korelasi Rangkaian Gen

8 Koefisien korelasi tidak berubah terhadap operasi transformasi linier terhadap data. Sehingga apabila semua nilai Y ditambah dengan 2, atau ditambah 7, maka korelasi antara nilai X dan Y tidak akan berubah. Hal ini disebabkan, bentuk kedua vektor tetap sama, tetapi magnitudanya yang berbeda. n 1 ( x )( ) i µ x yi µ y cor( x, y) =, (2) n i= 1 σ xσ y dengan µ dan the standar deviasi σ didefinisikan sebagai berikut: n 1 µ x = E[x] = x i (3) n i= 1 n σx = E [(x µ x ) ] = E[x ] µ x = xi µ x (4) n i= 1 Koefisien korelasi merupakan ukuran kedekatan gen x dan y. Apabila x dan y identik, maka koefisien = 1, dan 0 untuk sebaliknya. Dengan demikian E[xy] = E[x]E[y]. Koefiesien korelasi Pearson menghasilkan matriks similarity, semakin kecil koefisien antara dua gen, maka semakin tidak identik kedua gen tersebut [15]. 3.3 Normalisasi Normalisasi bertujuan untuk menjamin bahwa perbedaan intensitas pada data microarray memang diakibatkan oleh ekspresi gen yang berbeda-beda. Normalisasi akan mengidentifikasi dan menghilangkan dampak dari akibat variasi yang terjadi akibat pengukuran pencahayaan yang berpijar, selain dari perbedaan ekspresi, misalnya [16]. 1. Perbedaan efisiensi pelabelan dyes. 2. Perbedaan jumlah label Cy3- dan Cy5 mrna. 3. Perbedaan paramater scanning. 4. Pencetakan (print-tip), dan lain sebagainya. Normalisasi dapat diterapkan untuk menghilangkan efek pemilihan metrik jarak pada saat melakukan clustering. Normalisasi dilakukan dengan cara mentransformasi semua data ke dalam skala yang sama dengan mengurangi data dengan nilai tengah dan membagikan dengan varian data [17]. Proses pada normalisasi adalah menjadikan nilai jarak atau kuadrat penjumlahan nilai vektor baris/kolom menjadi 1.0 [8]. 3.4 Algoritma Clustering Pada subbab berikut diuraikan teknik-teknik clustering yang digunakan, yaitu Hierarchical Clustering, K-Means, dan Self Organizing Maps Hierarchical Clustering (HC) HC menempatkan elemen masukan dalam bentuk struktur hierarki pohon dengan jarak dalam pohon merefleksikan kesamaan elemen. Elemen ditempatkan sebagai daun pada pohon. Elemen dengan kemiripan paling tinggi dihubungkan dengan cabang yang pendek, dengan demikian semakin panjang cabang yang menghubungkan elemen, maka semakin menurun tingkat kemiripan kedua elemen tersebut [2].

9 Gambar 3-9 TreeView Data Cluster Hasil Penerapan Algoritma HC Pada contoh Gambar 3-9, B dan C lebih mirip dibandingkan dengan B terhadap A. Keuntungan dari HC adalah sederhana dan hasilnya lebih mudah direalisasikan. HC merupakan teknik yang paling banyak digunakan untuk analisis data ekspresi gen. HC merupakan algoritma dengan pendekatan agglomerative dengan profile ekspresi tunggal digabungkan membentuk kelompok, yang akan terus digabungkan sehingga terbentuk satu pohon hierarki. Proses HC adalah sebagai berikut [13] : 1. Hitung distance matrix untuk semua gen yang akan di-cluster. 2. Temukan dua gen yang paling mirip dari distance matrix atau cluster; pada tahap awal, setiap cluster hanya terdiri dari satu gen. Apabila terdapat beberapa pasangan yang mempunyai jarak, aturan penentuan digunakan untuk pemilihan dari beberapa alternatif tersebut. 3. Gabungkan kedua cluster yang dipilih menjadi satu cluster baru, sehingga menjadi terdiri dari paling sedikit dua objek. 4. Hitung jarak antara cluster yang baru dihasilkan terhadap semua cluster yang lain. Penghitungan semua jarak tidak dibutuhkan karena hanya yang terlibat dengan cluster baru yang berubah. 5. Ulangi langkah 2-4 sehingga semua objek berada dalam satu cluster. Terdapat beberapa jenis algoritma HC yang dapat diaplikasikan untuk data microarray yaitu [15] : 1. Single-linkage clustering: Jarak antara dua cluster, i dan j, dihitung sebagai jarak minimum antara sebuah anggota cluster i dan sebuah anggota cluster j. Metoda ini cenderung menghasilkan cluster yang loose karena cluster dapat digabungkan apabila ada dua anggota yang dekat satu dengan yang lain. 2. Complete-linkage clustering: Complete linkage clustering juga dikenal sebagai metoda ketetanggaan maksimum. Jarak antara dua cluster dihitung sebagai jarak maksimum dari anggota cluster yang relevan. Metoda ini cenderung menghasilkan cluster yang ukurannya sama dan elemen cluster yang banyak. 3. Average-linkage clustering: Jarak antara cluster dihitung dengan menggunakan nilai rata-rata. Terdapat bermacam-macam metoda untuk menghitung nilai rata-rata. Metoda yang paling umum digunakan adalah unweighted pair-group method average (UPGMA). Jarak rata-rata dihitung dari jarak antara setiap poin pada cluster dengan semua poin pada cluster lainnya. Dua cluster dengan jarak rata-rata yang paling rendah akan digabungkan untuk membentuk satu cluster yang baru.

10 3.4.2 K-Means K-Means mengelompokkan objek ke dalam k cluster, k adalah jumlah cluster akhir yang akan dihasilkan, dispesifikasikan oleh pengguna. K-Means mempunyai dua metoda yaitu K-Means dan K-Medoids. K-Means menghitung ratarata (mean) dari cluster yang terbentuk, sedangkan K-Medoids menghitung nilai tengah (median) cluster yang terbentuk sehingga data dengan nilai tertinggi dan terendah tidak mempengaruhi clustering. Proses pada algoritma K-Means dengan metoda K-Means dan K-Medoids adalah [13] : 1. Pilih k objek secara acak untuk dijadikan sebagai cluster center (centroid). 2. Kelompokkan semua objek secara acak ke dalam salah satu dari k cluster center yang ada. 3. Apabila: a. Menggunakan metoda K-Means, hitung rata-rata vektor ekspresi dari setiap cluster yang akan digunakan untuk menghitung jarak antar cluster. b. Menggunakan metoda K-Medoids, hitung nilai tengah vektor ekspresi cluster dari setiap cluster yang akan digunakan untuk menghitung jarak antar cluster. 4. Dengan menggunakan metoda iteratif, objek dipindahkan antar cluster dan jarak intra dan intercluster dihitung untuk setiap perpindahan. Objek dimungkinkan untuk tetap pada cluster yang baru hanya jika jarak baru lebih dekat dibandingkan dengan jarak pada cluster sebelumnya. 5. Untuk setiap perpindahan, dilakukan penghitungan ulang terhadap vektor ekspresi dari setiap cluster. 6. Acak proses sehingga pemindahan objek mengakibatkan cluster lebih bervariasi, menaikkan jarak intra-cluster dan menurunkan ketidaksamaan inter-cluster Self Organizing Map (SOM) SOM adalah teknik clustering neural network yang berbasis pendekatan divisive. SOM menempatkan gen-gen ke dalam rangkaian partisi berdasarkan similaritas vektor ekspresi gen dengan vektor referensi yang ditentukan untuk setiap partisi. Proses penentuan vektor referensi membedakan SOM dengan K-Means. Sebelum memulai analisis, pengguna menentukan konfigurasi geometri untuk partisi, biasanya ruang dua dimensi atau grid heksagonal. Pada setiap partisi dihasilkan vektor secara acak, namun sebelum gen-gen dapat ditempatkan pada partisi, vektor terlebih dahulu uji dengan menggunakan proses secara iterative sehingga data terpisah satu dengan yang lain dengan baik [13] : Tahapan proses SOM adalah [13] : 1. Vektor acak dibangun dan ditempatkan pada masing-masing k-partisi. 2. Sebuah gen dipilih secara acak. Identifikasi vektor referensi yang paling dekat dengan gen, dengan menggunakan distance metric. 3. Vektor referensi disesuaikan sehingga lebih mirip dengan vektor gen yang dialokasikan (assign). Vektor referensi yang berada pada grid dua dimensi disesuaikan sehingga vektor tersebut lebih mirip dengan vektor gen yang dialokasikan. 4. Langkah 2 dan 3 diulangi beberapa atau ribuan kali, menurunkan jumlah dengan menyesuaikan vektor referensi dan meningkatkan paramater yang digunakan untuk menentukan kemiripan pada setiap langkah. 5. Gen dipetakan ke dalam partisi yang relevan berdasarkan kemiripan gen terhadap vektor referensi. 3.5 Validasi Hasil Clustering Validasi cluster merupakan prosedur yang mengevaluasi hasil dari analisis clustering dengan cara yang objektif dan kuantitatif.

11 Indeks validasi cluster untuk mengukur ketepatan struktur yang diperoleh dari analisis clustering, dalam hal dapat diterjemahkan secara objektif, adalah probabilitas. Ketepatan struktrur cluster menyatakan bahwa struktur menyediakan informasi yang benar mengenai data, atau kemampuan struktrur yang diperoleh untuk merefleksikan karakter intrinsik data. Tiga jenis struktur tersebut adalah hierarchies, partitions, dan clusters. Hierarchies adalah sekumpulan sekuens partisi. Partitions adalah hasil dari algoritma clustering partitional/non hierarkis, dan cluster adalah himpunan bagian individual dari pattern. Terdapat tiga kriteria prosedur untuk validasi struktur clustering yaitu kriteria eksternal, internal, dan relatif. Kriteria eksternal mengukur performansi dengan membandingkan struktur clustering dengan informasi yang sudah ada sebelumnya (priori information). Misalnya, kriteria eksternal mengukur derajat koresponden antara jumlah cluster yang diperoleh dari sebuah algoritma clustering dengan kategori label sebagai informasi priori. Kriteria internal memperkirakan kecocokan antara struktur dan data, menggunakan data itu sendiri. Misalnya, kriteria internal akan mengukur derajat sebuah partisi yang diperoleh dari algoritma clustering akan ditempatkan oleh proximity matrix yang diberikan. Kriteria relatif menentukan struktur yang lebih baik bila dibandingkan dengan struktur yang lain, seperti lebih stabil atau lebih cocok untuk data tertentu. Misalnya, kriteria relatif akan mengukur secara kuatitatif kesesuaian data dengan penerapan single-link atau complete-link pada hierarkis [10]. Untuk validasi hasil clustering, kriteria eksternal memiliki keunggulan karena melakukan penilaian kualitas cluster yang terpisah dan tidak mengandung perkiraaan-perkiraan atau prasangka. Namun, kriteria eksternal juga memiliki kerugian karena untuk pengukuran data ekspresi gen, gold standard eksternal jarang sekali ada. Kriteria internal menghindari penggunaan standar, tetapi memiliki alternatif yaitu melakukan validasi terhadap cluster dengan menggunakan informasi yang sama dengan informasi untuk clustering [18]. Pendekatan untuk menggunakan kriteria eksternal adalah dengan mengasumsikan bahwa tidak dibutuhkan standar eksternal. Evaluasi penilaian kualitas cluster menggunakan satu kondisi (kolom) saja dari raw data yang akan digunakan sebagai masukan validasi. Contoh penerapan kriteria eksternal adalah Figure Of Merit (FOM) Figure Of Merit (FOM) Figure Of Merit adalah pengukuran kemampuan prediktif suatu algoritma clustering. Himpunan data ekspresi gen terdiri dari ukuran level ekspresi dari n gen yang diukur terhadap m kondisi. Misalkan sebuah algoritma clustering diaplikasikan terhadap data dari kondisi 1,., (e-1), (e+1),., m, dan kondisi e digunakan untuk memperkirakan kemampuan prediktif algoritma. Misalkan terdapat cluster sebanyak k, C 1, C 2,, C k. R(g,e) adalah level ekspresi gen g untuk kondisi e pada raw data matriks (gambar 3-10). µc 1 (e) adalah nilai rata-rata level ekspresi pada kondisi e dari gen pada cluster C 1. Normalisasi ke-2 dari FOM adalah deviasi akar kuadrat nilai tengah pada kondisi e dari level ekspresi gen relatif terhadap nilai tengah cluster dirumuskan,. (5) Setiap m kondisi dapat digunakan sebagai kondisi eksperimen yang dibuang (left-out). Aggregate FOM, FOM tot (k) =, adalah estimasi dari total kemampuan prediktif algoritma terhadap semua kondisi untuk sebanyak k cluster pada himpunan data.

12 Gambar 3-10 Perhitungan FOM terhadap Raw Data Matrix Gambar Perbandingan Algoritma A dan B Pada kasus penggunaan nilai rata-rata dari kuadrat jarak nilai tengah sebagai FOM, aggregate FOM yang kecil menandakan tingkat prediktif algoritma yang tinggi. Contohnya, pada gambar 3-11 algoritma B mempunyai kemampuan prediktif yang lebih tinggi daripada algoritma A [18]. 4 ANALISIS Indeks validasi kemampuan prediktif algoritma dapat digunakan sebagai acuan dalam pemilihan algoritma clustering. Hasil pengaplikasian FOM terhadap data hasil clustering sel ragi dapat dilihat pada gambar 4-1 berikut. Pada gambar 4-1 diperoleh bahwa algoritma K-Medoids mempunyai tingkat kemampuan prediktif yang paling tinggi, kemudian diikuti oleh algoritma K-Means dan algoritma SOM. Untuk jumlah cluster sama dengan 3, algoritma K-Medoids dan K-Means mempunyai indeks FOM yang sama. Sedangkan untuk jumlah cluster lebih besar dari 3 K-Medoids menunjukkan tingkat kemampuan prediktif dibandingkan K-Means dan SOM.

13 Gambar 4-1 Indeks FOM Algoritma Pada gambar 4-2 diperoleh bahwa untuk jumlah cluster 2 sampai 3 SOM menunjukkan indeks FOM yang lebih rendah (tingkat kemampuan prediktif tinggi) dibandingkan K-Means dan K-Medoids. Sedangkan untuk jumlah cluster lebih besar 3, K-Medoids menunjukkan tingkat kemampuan prediktif yang lebih tinggi dibandingkan dengan K-Means dan SOM. Gambar 4-2 Indeks FOM Algoritma 5 KESIMPULAN DAN SARAN Berdasarkan perbandingan kemampuan prediktif algoritma non-hierarki dengan menggunakan data sel ragi, maka disimpulkan bahwa Algoritma K-Means bagus digunakan untuk mengelompokkan data ke dalam jumlah cluster yang banyak. Algoritma K-Medoids, digunakan sebagai algoritma tambahan untuk perbandingan kemampuan prediktif. Dari beberapa kali percobaan K-Medoids lebih bagus daripada algoritma K-Means dalam menghasilkan jumlah cluster yang besar, namun berlaku sebaliknya untuk jumlah cluster yang kecil. Hal ini dikarenakan K-Medoids tidak dipengaruhi oleh data yang terlalu besar atau terlalu kecil. Algoritma SOM, cenderung menunjukkan performansi yang stabil. Dari segi kemampuan prediktif dengan FOM, SOM tidak lebih bagus dari K-Means dan K-Medoids. Algoritma HC banyak digunakan untuk clustering data secara hirarkis saja, sementara itu, tidak semua data merupakan bagian dari data yang lain (terstruktur secara hierarkis). Dengan demikian untuk data yang membutuhkan beberapa cluster dan data yang tidak terstruktur secara hierarki digunakan algoritma non-hierarki seperti K-Means dan SOM.

14 Karena teknik clustering dengan algoritma K-Means dan SOM dimulai dengan inisialisasi cluster secara random, maka hasil yang diperoleh setiap melakukan clustering akan berbeda-beda. Hal ini mengakibatkan nilai FOM yang dihasilkan setiap menjalankan clustering akan berbeda-beda pula. Algoritma non-hierarki/partisional seperti K-Means dan SOM membagi data menjadi k-cluster. Namun untuk data dengan level ekspresi yang sama, algoritma partisional ini tetap mengelompokkan data menjadi satu cluster saja. Validasi hasil clustering dengan menggunakan FOM, diterapkan pada algoritma clustering yang menghasilkan lebih dari satu cluster. Dengan demikian, pada modul perangkat lunak ini FOM tidak dapat diterapkan pada Hierarchical Clustering, karena hanya menghasilkan satu cluster. FOM dapat diaplikasikan untuk algoritma hierarki yang menghasilkan hanya satu cluster seperti Hierachical Clustering (HC). HC dapat menghasilkan beberapa cluster dengan cara memotong cabangcabang pada pohon sehingga akan dihasilkan cluster-cluster sesuai dengan jumlah cluster/gen yang berada dibawah cabang tersebut. Untuk menghasilkan n-jumlah cluster, maka cabang dipotong pada n- 1 cabang terdekat dari induk. Penomoran cabang dilakukan dari daun. Penghitungan FOM untuk algoritma hierarki ini diperlukan untuk perbandingan kemampuan prediktif antara algoritma clustering hierarki dengan non-hierarki atau partisional. Pemilihan jumlah cluster sebagai salah satu parameter dalam clustering sangat mempengaruhi cluster yang dihasilkan. Alangkah baiknya apabila ada pembahasan berikutnya tentang cara pemilihan jumlah cluster dan metrik jarak untuk memperoleh cluster yang akurat. 6 DAFTAR PUSTAKA 1. Zubir, Henny Y, Pemodelan Informasi untuk Pemahaman Sistem Regulatori Genetik In-Silico. Prosiding pada Konferensi Nasional Sistem Informasi 2005 di Bandung. 2. Shamir, Ron, Analysis of Gene Expression Data, Tel Aviv University, 2004, Lecture D.K Toulis; V.P. Palgianakos; M.N. Vrahatis, Unsupervised Clustering of Bioinformatics Data, European Simposium on Inteligent Technologies, Hybrid Systems and their implementation on Smart Adaptive Systems, Aachen, Germany, S, Alexander; Q.John; T. Zlatko Cluster Analysis of Microarray Data. Bioinformatics, Application Note Vol.18 no JA. Hartigan, Clustering Algorithms New York: John Wiley and Sons J. MacQueen: Some methods for classification and analysis of multivariate observations, In Proc 5th Berkeley Symp Math Stat Probability (Edited by: University of California Press). Cam LML, Neyman J 1965, T. Kohonen, Self Organizing Maps, Berlin/Heidelberg: Springer-Verlag Eisen M et al, Cluster Analysis and Visualization, PNAS 95:14863, Roded Sharan, Adi Maron-Katz, Ron Shamir, CLICK and EXPANDER : a system for clustering and visualizing gene expression data, Berkeley, Anil K. Jain, Richard C. Dubes, Algorithm for Clustering Data, Prentice Hall Advanced Reference Series, Dan Nettleton, Cluster and Classification Analysis of Microarray Data, tanggal akses 4 Agustus Botstein, David, Bruce Futcher, Patrick Brown, Michael Zhang. Yeast Cell Cycle Analysis Project. Stanford University. stanford.edu/, tanggal akses 28 Juni John Quakenbush, Computational Analysis of Microarray Data, Nature Reviews, Genetic, Macmilan Magazines Ltd, Volume 2, Juni Yu Bai, Microarray Analysis and Clustering, Lecture 15, Rainer Breitling, Analysis of Gene Expression Data, Bioinformatics Research Centre and Institute of Biomedical and Life Sciences University Glasglow, Vince Carey, Sandrine Dudoit, Short course : Practical Analysis of DNA Microarray Data, Bioconductor, Denmark, Gepas Team, Tutorian on DNA Array Data Clustering, Bioinformatics Department, 2006.

15 18. K.Y. Yeung, D. R. Haynor, W. L. Ruzzo, Validating clustering for gene expression data, Bioinformatics, volume 17, number 4, April 2001.

BAB II DASAR TEORI. 2.1 DNA (Deoxy-Ribonucleic Acid)

BAB II DASAR TEORI. 2.1 DNA (Deoxy-Ribonucleic Acid) BAB II DASAR TEORI Pada bagian ini dijelaskan mengenai teori-teori yang mendukung pengelompokan data ekspresi gen, bentuk data ekspresi gen dan jenis analisis dari data ekspresi gen tersebut. Dasar-dasar

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Bab ini menjelaskan mengenai analisis dan proses perancangan. Bagian analisis meliputi deskripsi umum sistem yang dibangun, spesifikasi kebutuhan perangkat lunak, data

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

Clustering. Virginia Postrel

Clustering. Virginia Postrel 8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect

Lebih terperinci

Pengenalan Pola. Klasterisasi Data

Pengenalan Pola. Klasterisasi Data Pengenalan Pola Klasterisasi Data PTIIK - 2014 Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi Konsep Dasar Klusterisasi Data, atau Data Clustering

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE

PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER ENSEMBLE Jurnal Matematika UNAND Vol. 3 No. 4 Hal. 13 23 ISSN : 2303 2910 c Jurusan Matematika FMIPA UNAND PENGGEROMBOLAN SMA/MA DI KOTA PADANG BERDASARKAN INDIKATOR MUTU PENDIDIKAN DENGAN MENGGUNAKAN METODE CLUSTER

Lebih terperinci

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster Analisis Cluster Analisis Cluster adalah suatu analisis statistik yang bertujuan memisahkan kasus/obyek ke dalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain.

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster

Lebih terperinci

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam BAB I PENDAHULUAN 1.1 LATAR BELAKANG Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya. Data mining sendiri

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II CLUSTERING TUJUA PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam

Lebih terperinci

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016 Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering Viga Apriliana Sari, Nur Insani Jurusan Pendidikan

Lebih terperinci

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING A-99 PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING Rachmad Zaini Alberto 1, Winda Kurnia Sari 2, Samsuryadi 3, Anggina Primanita 4 1,2,3,4 Fakultas

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode BAB III K-MEANS CLUSTERING 3.1 Analisis Klaster Analisis klaster merupakan salah satu teknik multivariat metode interdependensi (saling ketergantungan). Oleh karena itu, dalam analisis klaster tidak ada

Lebih terperinci

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami METODE CLUSTERING DENGAN ALGORITMA K-MEANS Oleh : Nengah Widya Utami 1629101002 PROGRAM STUDI S2 ILMU KOMPUTER PROGRAM PASCASARJANA UNIVERSITAS PENDIDIKAN GANESHA SINGARAJA 2017 1. Definisi Clustering

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS Muhammad Toha, 1), I Ketut Edy Purnama 2) dan Surya Sumpeno 3) 1) Bidang Keahlian Telematika (Konsentrasi CIO) Jurusan Teknik Elektro

Lebih terperinci

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Chandra Purnamaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami No 36 A Surakarta cpurnamaningsih@gmail.com

Lebih terperinci

BAB III PEMBAHASAN. survei yang dilakukan BPS pada 31 Oktober Langkah selanjutnya yang

BAB III PEMBAHASAN. survei yang dilakukan BPS pada 31 Oktober Langkah selanjutnya yang BAB III PEMBAHASAN Data yang digunakan dalam skripsi ini merupakan data sekunder yang diperoleh dari buku saku Ikhtisar Data Pendidikan Tahun 2016/2017. Data tersebut dapat dilihat pada Lampiran 1. Data

Lebih terperinci

Student Clustering Based on Academic Using K-Means Algoritms

Student Clustering Based on Academic Using K-Means Algoritms Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata marlon.leong@gmail.com

Lebih terperinci

DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA

DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA Akmal Hidayat 1) & Entin Martiana 2) 1) Teknik Elektro Politeknik Bengkalis Jl.

Lebih terperinci

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) Nur Wakhidah Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang Abstract Classification is the process of organizing

Lebih terperinci

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS WULAN ANGGRAENI wulangussetiyo@gmail.com Program Studi Pendidikan Matematika Universitas Indraprasta PGRI Abstract. The purpose of this study was to

Lebih terperinci

Bab 2 Tinjauan Pustaka

Bab 2 Tinjauan Pustaka Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering

Lebih terperinci

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster) Volume 05, No. 2 (2016), hal 97 102. PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE Nicolaus, Evy Sulistianingsih,

Lebih terperinci

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING Yoga Bhagawad Gita 1, Ahmad Saikhu 2 1,2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini akan diuraikan mengenai landasan teori yang akan digunakan dalam bab selanjutnya. 2.1 Matriks Sebuah matriks, biasanya dinotasikan dengan huruf kapital tebal seperti A,

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bagian ini akan diuraikan teori-teori dasar yang dijadikan sebagai landasan dalam penulisan tugas akhir ini. 2.1 Ilmu Bioinformatika Bioinformatika merupakan kajian yang mengkombinasikan

Lebih terperinci

Implementasi Pencocokan String Tidak Eksak dengan Algoritma Program Dinamis

Implementasi Pencocokan String Tidak Eksak dengan Algoritma Program Dinamis Implementasi Pencocokan String Tidak Eksak dengan Algoritma Program Dinamis Samudra Harapan Bekti 13508075 Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung,

Lebih terperinci

Gambar 3.1 Contoh Citra yang digunakan

Gambar 3.1 Contoh Citra yang digunakan BAB III DATASET DAN RANCANGAN PENELITIAN Pada bab ini dijelaskan tentang dataset citra yang digunakan dalam penelitian ini serta rancangan untuk melakukan penelitian. 3.1 DATASET PENELITIAN Penelitian

Lebih terperinci

Fuzzy C-means Clustering menggunakan Cluster Center Displacement

Fuzzy C-means Clustering menggunakan Cluster Center Displacement Fuzzy C-means Clustering menggunakan Cluster Center Displacement Fitri Hidayah Sundawati 1), Jadi Suprijadi 2), Titi Purwandari 3) 1) Mahasiswa Statistika Terapan, UniversitasPadjadjaran-Indonesia 2) Pengajar

Lebih terperinci

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means, K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS

Pertemuan 14 HIERARCHICAL CLUSTERING METHODS Pertemuan 14 HIERARCHICAL CLUSTERING METHODS berdasar gambar berdasar warna A A A A Q Q Q Q K K K K J J J J 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6 6 6 7 7 7 7 8 8 8 8 9 9 9 9 10 10 10 10 A K Q J (a). Individual

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

DATA MINING DAN WAREHOUSE A N D R I

DATA MINING DAN WAREHOUSE A N D R I DATA MINING DAN WAREHOUSE A N D R I CLUSTERING Secara umum cluster didefinisikan sebagai sejumlah objek yang mirip yang dikelompokan secara bersama, Namun definisi dari cluster bisa beragam tergantung

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Clustering Analysis Clustering analysis merupakan metode pengelompokkan setiap objek ke dalam satu atau lebih dari satu kelompok,sehingga tiap objek yang berada dalam satu kelompok

Lebih terperinci

BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data

BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data Data sudah menjadi bagian penting dalam pengambilan keputusan. Data telah banyak terkumpul baik itu data transaksi perbankan, data kependudukan,

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Traveling Salesmen Problem (TSP) Travelling Salesman Problem (TSP) merupakan sebuah permasalahan optimasi yang dapat diterapkan pada berbagai kegiatan seperti routing. Masalah

Lebih terperinci

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Gede Aditra

Lebih terperinci

PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI

PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI PENGGUNAAN PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI Entin Martiana S.Kom,M.Kom, Nur Rosyid Mubtada i S. Kom, Edi Purnomo Jurusan Teknik Informatika

Lebih terperinci

IMPLEMENTASI METODE HIERARCHICAL CLUSTERING PADA DATA GENETIK MIKROARRAY

IMPLEMENTASI METODE HIERARCHICAL CLUSTERING PADA DATA GENETIK MIKROARRAY IMPLEMENTASI METODE HIERARCHICAL CLUSTERING PADA DATA GENETIK MIKROARRAY Humasak T.A. Simanjuntak 1) 1) Sistem Informasi, Institut Teknologi Del Jl Sisingamangaraja, Sitoluama, Laguboti, Toba Samosir,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Sistem Pendukung Keputusan II.1.1 Definisi Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, Sistem Pendukung Keputusan (SPK) / Decision Support System (DSS) adalah sebuah

Lebih terperinci

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam

Lebih terperinci

Resume Regresi Linear dan Korelasi

Resume Regresi Linear dan Korelasi Rendy Dwi Ardiansyah Putra 7410040018 / 2 D4 IT A Statistika Resume Regresi Linear dan Korelasi 1. Regresi Linear Regresi linear merupakan suatu metode analisis statistik yang mempelajari pola hubungan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini menjelaskan landasan teori dari metode yang digunakan dalam proses pengenalan wajah, yaitu terdiri atas: metode Eigenface, dan metode Jarak Euclidean. Metode Eigenface digunakan

Lebih terperinci

P E N D A H U L U A N Latar Belakang

P E N D A H U L U A N Latar Belakang KLASIFIKASI KEKERAPAN KUNJUNGAN LOKASI BERBASIS LOCATION BASED SERVICE (LBS) MENGGUNAKAN SELF-ORGANIZING MAP (SOM) Oleh : Dhanang Fitra Riaji (NRP : 2208205737) PROGRAM MAGISTER JURUSAN TEKNIK INDUSTRI

Lebih terperinci

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks BAB II KAJIAN TEORI Pada bab II akan dibahas tentang materi-materi dasar yang digunakan untuk mendukung pembahasan pada bab selanjutnya, yaitu matriks, kombinasi linier, varian dan simpangan baku, standarisasi

Lebih terperinci

Pengenalan Pola. K-Means Clustering

Pengenalan Pola. K-Means Clustering Pengenalan Pola K-Means Clustering PTIIK - 2014 Course Contents 1 Definisi k-means 2 Algoritma k-means 3 Studi Kasus 4 Latihan dan Diskusi K-Means Clustering K-Means merupakan salah satu metode pengelompokan

Lebih terperinci

PERANCANGAN KONFIGURASI JARINGAN DISTRIBUSI PRODUK BISKUIT MENGGUNAKAN METODE ALGORITMA GENETIKA (Studi Kasus: PT. EP)

PERANCANGAN KONFIGURASI JARINGAN DISTRIBUSI PRODUK BISKUIT MENGGUNAKAN METODE ALGORITMA GENETIKA (Studi Kasus: PT. EP) PERANCANGAN KONFIGURASI JARINGAN DISTRIBUSI PRODUK BISKUIT MENGGUNAKAN METODE ALGORITMA GENETIKA (Studi Kasus: PT. EP) Rezki Susan Ardyati dan Dida D. Damayanti Program Studi Teknik Industri Institut Teknologi

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

Perbandingan Antara Metode Kohonen Neural Network dengan Metode Learning Vector Quantization Pada Pengenalan Pola Tandatangan

Perbandingan Antara Metode Kohonen Neural Network dengan Metode Learning Vector Quantization Pada Pengenalan Pola Tandatangan Jurnal Sains & Matematika (JSM) ISSN Kajian 0854-0675 Pustaka Volume14, Nomor 4, Oktober 2006 Kajian Pustaka: 147-153 Perbandingan Antara Metode Kohonen Neural Network dengan Metode Learning Vector Quantization

Lebih terperinci

(M.6) FUZZY C-MEANS CLUSTERING DENGAN ANALISIS ROBUST

(M.6) FUZZY C-MEANS CLUSTERING DENGAN ANALISIS ROBUST (M.6) FUZZY C-MEANS CLUSTERING DENGAN ANALISIS ROBUST 1Nor Indah FitriyaNingrum, 2 Suwanda, 3 Anna Chadidjah 1Mahasiswa JurusanStatistika FMIPA UniversitasPadjadjaran 2Jurusan Statistika FMIPA Universitas

Lebih terperinci

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN : Clustering Data Status Tugas Belajar Dan Ijin Belajar Menggunakan Metode Fuzzy C-Means (Studi Kasus : Di Lingkungan Pemerintah Provinsi Kalimantan Timur) Fevin Triyas Rantika 1, Indah Fitri Astuti, M.Cs

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling

Lebih terperinci

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang

BAB I PENDAHULUAN. Analisis statistik multivariat adalah metode statistik di mana masalah yang BAB I PENDAHULUAN 1.1. LATAR BELAKANG MASALAH Analisis statistik multivariat adalah metode statistik di mana masalah yang diteliti bersifat multidimensional dengan menggunakan tiga atau lebih variabel

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN

PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Aloysius Nugroho W / 13501042 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

PERBANDINGAN METODE MINIMUM DISTANCE PATTERN CLASSIFIER DAN NEURAL NETWORK BACKPROPAGATION DALAM MENGENALI WAJAH MANUSIA DENGAN EKSPRESI YANG BERBEDA

PERBANDINGAN METODE MINIMUM DISTANCE PATTERN CLASSIFIER DAN NEURAL NETWORK BACKPROPAGATION DALAM MENGENALI WAJAH MANUSIA DENGAN EKSPRESI YANG BERBEDA PERBANDINGAN METODE MINIMUM DISTANCE PATTERN CLASSIFIER DAN NEURAL NETWORK BACKPROPAGATION DALAM MENGENALI WAJAH MANUSIA DENGAN EKSPRESI YANG BERBEDA Bharasaka Krisnandhika 51412445 Dr. Dewi Agushinta

Lebih terperinci

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo

Lebih terperinci

PENGELOMPOKAN DATA KORDINAT BTS MENGGUNAKAN k-means DAN VISUALISASI BERBASIS GOOGLE MAP

PENGELOMPOKAN DATA KORDINAT BTS MENGGUNAKAN k-means DAN VISUALISASI BERBASIS GOOGLE MAP PENGELOMPOKAN DATA KORDINAT BTS MENGGUNAKAN k-means DAN VISUALISASI BERBASIS GOOGLE MAP Rudy Hermayadi 1), Hery M. Purnomo 2) dan I Ketut Eddy Purnama 3) 1) Jurusan Teknik Elektro, Fakultas Teknologi Industri

Lebih terperinci

Penerapan Logika Samar dalam Peramalan Data Runtun Waktu

Penerapan Logika Samar dalam Peramalan Data Runtun Waktu Penerapan Logika Samar dalam Peramalan Data Runtun Waktu Seng Hansun Program Studi Teknik Informatika, Universitas Multimedia Nusantara, Tangerang, Indonesia hansun@umn.ac.id Abstract Recently, there are

Lebih terperinci

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1), Wahyu Catur Wibowo 2) 1) Program Studi Sistem Informasi, Universitas Jember 2) Fakultas Ilmu Komputer,

Lebih terperinci

MENGUKUR KINERJA ALGORITMA GENETIK PADA PEMAMPATAN MATRIKS JARANG

MENGUKUR KINERJA ALGORITMA GENETIK PADA PEMAMPATAN MATRIKS JARANG MENGUKUR KINERJA ALGORITMA GENETIK PADA PEMAMPATAN MATRIKS JARANG Nico Saputro dan Joice Aritonang Email : nico@home.unpar.ac.id, jo_aritonang@yahoo.com A matrix that has lots of zero elements is called

Lebih terperinci

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage 61 DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage Abdi Pandu Kusuma, Rini Nur Hasanah, dan Harry Soekotjo Dachlan Abstrak - ph tanah merupakan ukuran jumlah ion hidrogen dalam

Lebih terperinci

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA Aseptian Nugraha, Acep Irham Gufroni, Rohmat Gunawan Teknik Informatika Fakultas

Lebih terperinci

PERBANDINGAN KINERJA DIAGRAM KONTROL MULTIVARIAT UNTUK VARIABILITAS BERDASARKAN MATRIKS KOVARIANSI DAN MATRIKS KORELASI. Abstrak

PERBANDINGAN KINERJA DIAGRAM KONTROL MULTIVARIAT UNTUK VARIABILITAS BERDASARKAN MATRIKS KOVARIANSI DAN MATRIKS KORELASI. Abstrak PERBANDINGAN KINERJA DIAGRAM KONTROL MULTIVARIAT UNTUK VARIABILITAS BERDASARKAN MATRIKS KOVARIANSI DAN MATRIKS KORELASI Dwi Yuli Rakhmawati, Muhammad Mashuri 2,2) Institut Teknologi Sepuluh Nopember dwiyuli_rakhmawati@yahoo.com,

Lebih terperinci

SISTEM PENDUKUNG KEPUTUSAN PEMASARAN PRODUK MENGGUNAKAN DATA MINING DENGAN K-MEANS CLUSTERING

SISTEM PENDUKUNG KEPUTUSAN PEMASARAN PRODUK MENGGUNAKAN DATA MINING DENGAN K-MEANS CLUSTERING Seminar Nasional Sistem Informasi Indonesia, 22 September 2014 SISTEM PENDUKUNG KEPUTUSAN PEMASARAN PRODUK MENGGUNAKAN DATA MINING DENGAN K-MEANS CLUSTERING Arief Samuel Gunawan 1), Evasaria Magdalena

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Dalam dunia bisnis pada jaman sekarang, para pelaku bisnis senantiasa selalu berusaha mengembangkan cara-cara untuk dapat mengembangkan usaha mereka dan memperhatikan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini berisi penjelasan mengenai image clustering, pengukuran kemiripan dan pengukuran jarak, representasi citra, ruang warna, algoritma clustering, dan penelitian yang berhubungan.

Lebih terperinci

Ahmad Mauliyadi M, Hizir Sofyan, dan Muhammad Subianto. Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Syiah Kuala

Ahmad Mauliyadi M, Hizir Sofyan, dan Muhammad Subianto. Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Syiah Kuala Tersedia di www.fmipa.unsyiah.ac.id Jurnal Matematika 00 (2013) 01 05 PERBANDINGAN METODE FUZZY C-MEANS (FCM) DAN FUZZY GUSTAFSON-KESSEL (FGK) MENGGUNAKAN DATA CITRA SATELIT QUICKBIRD (Studi Kasus Desa

Lebih terperinci

Pengenalan Pola Karakter Tulisan Tangan Dengan Menggunakan Metoda Clustering Melalui Similarity Measure Approach

Pengenalan Pola Karakter Tulisan Tangan Dengan Menggunakan Metoda Clustering Melalui Similarity Measure Approach Pengenalan Pola Karakter Tulisan Tangan Dengan Menggunakan Metoda Clustering Melalui Similarity Measure Approach Erry Febriansyah Prananta / 0422071 Email : erry_prananta@yahoo.com Jurusan Teknik Elektro,

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA 4 BAB 2 TINJAUAN PUSTAKA 2.1 Metode Clustering Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data

Lebih terperinci

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem BAB I PENDAHULUAN A. Latar Belakang Dalam memajukan kualitas pendidikan, baik dalam konteks sumber daya mahasiswa atau sistem pembelajaran, setiap Perguruan Tinggi (PT) memiliki cara pengelolaan tersendiri.

Lebih terperinci

UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES

UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES 1 Uji Kinerja Face Recognition Menggunakan Eigenfaces UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES ABDUL AZIS ABDILLAH 1 1STKIP Surya, Tangerang, Banten, abdillah.azul@gmail.com Abstrak. Pada paper

Lebih terperinci

PENGELOMPOKAN PROVINSI DI INDONESIA BERDASARKAN PERSENTASE RUMAH TANGGA MENURUT KUALITAS FISIK AIR MINUM DENGAN MENGGUNAKAN K-MEANS CLUSTER

PENGELOMPOKAN PROVINSI DI INDONESIA BERDASARKAN PERSENTASE RUMAH TANGGA MENURUT KUALITAS FISIK AIR MINUM DENGAN MENGGUNAKAN K-MEANS CLUSTER PENGELOMPOKAN PROVINSI DI INDONESIA BERDASARKAN PERSENTASE RUMAH TANGGA MENURUT KUALITAS FISIK AIR MINUM DENGAN MENGGUNAKAN K-MEANS CLUSTER Artanti Indrasetianingsih Dosen Program Studi Statistika, FMIPA

Lebih terperinci

PENYEDERHANAAN PEMETAAN STRUKTUR KETERGANTUNGAN VARIABEL MENGGUNAKAN TEKNIK PRINSIPAL KOMPONEN

PENYEDERHANAAN PEMETAAN STRUKTUR KETERGANTUNGAN VARIABEL MENGGUNAKAN TEKNIK PRINSIPAL KOMPONEN ABSTRAK PENYEDERHANAAN PEMETAAN STRUKTUR KETERGANTUNGAN VARIABEL MENGGUNAKAN TEKNIK PRINSIPAL KOMPONEN Mike Susmikanti *) PENYEDERHANAAN PEMETAAN STRUKTUR KETERGANTUNGAN VARIABEL MENGGUNAKAN TEKNIK PRINSIPAL

Lebih terperinci

Bab 7 Analisa Kinerja Multi Parameter dengan Teknik Karakterisasi Beban kerja (Workload)

Bab 7 Analisa Kinerja Multi Parameter dengan Teknik Karakterisasi Beban kerja (Workload) Bab 7 Analisa Kinerja Multi Parameter dengan Teknik Karakterisasi Beban kerja (Workload) Dr. Yeffry Handoko Putra, M.T UNIVERSITAS KOMPUTER INDONESIA Page 1 KARAKTERISASI BEBAN KERJA Merupakan proses memodelkan

Lebih terperinci

Pengelompokan Data dengan Metode...(Luh Joni Erawati Dewi)

Pengelompokan Data dengan Metode...(Luh Joni Erawati Dewi) ISSN0216-3241 17 PENGELOMPOKAN DATA DENGAN METODE KLASTERISASI HIRARKI Oleh Luh Joni Erawati Dewi Jurusan Manajemen Informatika, FTK, Undiksha Abstrak Pengelompokan data sangat diperlukan untuk mengetahui

Lebih terperinci

BAB III METODE PENELITIAN. Alasan memilih Ciputra Taman Dayu Pandaan dikarenakan Ciputra Taman Dayu

BAB III METODE PENELITIAN. Alasan memilih Ciputra Taman Dayu Pandaan dikarenakan Ciputra Taman Dayu BAB III METODE PENELITIAN 1.1 Lokasi Penelitian Lokasi penelitian ini di Ciputra Taman Dayu Property Pandaan Pasuruan yang terletak di Jl. Raya Surabaya Km. 48 Pandaan 67156 Pasuruan Jawa Timur. Alasan

Lebih terperinci

CLUSTERING PENGGUNAAN BANDWIDTH MENGGUNAKAN METODE K-MEANS ALGORITHM PADA PENERAPAN SINGLE SIGN ON (SSO) UNIVERSITAS SEBELAS MARET

CLUSTERING PENGGUNAAN BANDWIDTH MENGGUNAKAN METODE K-MEANS ALGORITHM PADA PENERAPAN SINGLE SIGN ON (SSO) UNIVERSITAS SEBELAS MARET CLUSTERING PENGGUNAAN BANDWIDTH MENGGUNAKAN METODE K-MEANS ALGORITHM PADA PENERAPAN SINGLE SIGN ON (SSO) UNIVERSITAS SEBELAS MARET Vignasari Kokasih 1, Wiranto 2, Afrizal Doewes 3 1,2,3 Program Studi Informatika,

Lebih terperinci

CONTOH KASUS DATA MINING

CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan

Lebih terperinci

OPTIMASI PUSAT KLASTER MENGGUNAKAN ALGORITMA FAST GENETIC KMEAN PADA DATA BERDISTRIBUSI NORMAL

OPTIMASI PUSAT KLASTER MENGGUNAKAN ALGORITMA FAST GENETIC KMEAN PADA DATA BERDISTRIBUSI NORMAL OPTIMASI PUSAT KLASTER MENGGUNAKAN ALGORITMA FAST GENETIC KMEAN PADA DATA BERDISTRIBUSI NORMAL Budi Nur Iman, Entin Martiana K, Umi Sa adah Politeknik Elektronika Negeri Surabaya (PENS), ITS Surabaya,

Lebih terperinci

Klasifikasi Kecamatan Berdasarkan Nilai Akhir SMA/MA di Kabupaten Aceh Selatan Menggunakan Analisis Diskriminan

Klasifikasi Kecamatan Berdasarkan Nilai Akhir SMA/MA di Kabupaten Aceh Selatan Menggunakan Analisis Diskriminan Statistika, Vol. 15 No. 2, 87-97 November 215 Klasifikasi Kecamatan Berdasarkan Nilai Akhir SMA/MA di Kabupaten Aceh Selatan Menggunakan Analisis Diskriminan Fitriana A.R. 1, Nurhasanah 2, Ririn Raudhatul

Lebih terperinci

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut: . Menyiapkan gugus data pencilan dengan membangkitkan peubah acak normal ganda dengan parameter µ yang diekstrimkan dari data contoh dan dengan matriks ragam-peragam yang sama dengan data contoh. Proses

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Beberapa penelitian terdahulu telah banyak yang menerapkan data mining, yang bertujuan dalam menyelesaikan beberapa permasalahan seputar dunia pendidikan. Khususnya

Lebih terperinci

dengan Algoritma K Means

dengan Algoritma K Means K Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

Review of Multiple Input Multiple Output Causal Strategies for Gene Selection

Review of Multiple Input Multiple Output Causal Strategies for Gene Selection Review of Multiple Input Multiple Output Causal Strategies for Gene Selection Abstract Feature extraction is one of a problem in bioinformatics. Bioinformatics research using many feature in their dataset.

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA 7 BAB 2 TINJAUAN PUSTAKA 21 Anatomi Ayam Pengetahuan tentang anatomi ayam sangat diperlukan dan penting dalam pencegahan dan penanganan penyakit Hal ini karena pengetahuan tersebut dipakai sebagai dasar

Lebih terperinci

Identifikasi Tanda Tangan Menggunakan Transformasi Gabor Wavelet dan Jarak Minskowski

Identifikasi Tanda Tangan Menggunakan Transformasi Gabor Wavelet dan Jarak Minskowski Identifikasi Tanda Tangan Menggunakan Transformasi Gabor Wavelet dan Jarak Minskowski Junia Kurniati Computer Engineering Department Faculty of Computer Science Sriwijaya University South Sumatera Indonesia

Lebih terperinci

BAB I PENDAHULUAN I.1 Latar Belakang

BAB I PENDAHULUAN I.1 Latar Belakang BAB I PENDAHULUAN I.1 Latar Belakang Di tengah laju kemajuan teknologi telekomunikasi dan informatika, informasi yang cepat dan akurat semakin menjadi kebutuhan pokok para pengambil keputusan. Informasi

Lebih terperinci

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak

Cluster Analysis. Hery Tri Sutanto. Jurusan Matematika MIPA UNESA. Abstrak S-17 Cluster Analysis Hery Tri Sutanto Jurusan Matematika MIPA UNESA Abstrak Dalam analisis cluster mempelajari hubungan interdependensi antara seluruh set variabel perlu diteliti. Tujuan utama analisis

Lebih terperinci

Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian

Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian Wiji Lestari, Singgih Purnomo STMIK Duta Bangsa Surakarta ABSTRAK Clustering adalah suatu metode

Lebih terperinci

yang menunjang dalam pengembangan program cluster. Aplikasi cluster ini dikembangkan pada laptop, dengan spesifikasi terdapat

yang menunjang dalam pengembangan program cluster. Aplikasi cluster ini dikembangkan pada laptop, dengan spesifikasi terdapat BAB IV IMPLEMENTASI Bab ini akan menjelaskan mengenai implementasi dari sistem yang akan dikembangkan, berdasarkan hasil analisis yang telah diperoleh sebelumnya. Bab ini terdiri dari penjelasan mengenai

Lebih terperinci