METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAPREDUCE FATHURROHMAN

Ukuran: px
Mulai penontonan dengan halaman:

Download "METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAPREDUCE FATHURROHMAN"

Transkripsi

1 METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAPREDUCE FATHURROHMAN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016

2

3 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa Tesis berjudul Metagenome Fragment Clustering Menggunakan Algoritme Pillar K-Means Secara Paralel Dalam Model MapReduce adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Oktober 2016 Fathurrohman NRP G

4 RINGKASAN FATHURROHMAN. Metagenome Fragment Clustering Menggunakan Algoritme Pillar K-Means Secara Paralel Dalam Model MapReduce. Dibimbing oleh WISNU ANANTA KUSUMA dan HERU SUKOCO. Metagenom adalah DNA yang berasal dari komunitas mikroba yang dapat mengandung dari berbagai jenis spesies. Hal ini membuat rekonstruksi DNA dari metagenom tidak dapat langsung dilakukan. Mikroba yang heterogen pada metegenom tersebut, memungkinkan terjadinya kesalahan perakitan fragmen metagenom yaitu munculnya interspecies chimeras akibat tersambungnya fragmen antara spesies. Oleh karena itu diperlukan sebuah metode untuk mecegah terjadinya kesalahan tersebut. Salah satu cara untuk melakukan pencegahan terjadinya kesalahan perakitan fragmen metagenom sebelum rekonstruksi DNA dilakukan adalah dengan melakukan proses binning. Clustering merupakan sebuah cara untuk mengelompokan objek-objek yang mempunyai kemiripan ke dalam kelompok tertetntu, sehingga dapat digunakan untuk melakukan binning. Salah satu algoritme clustering adalah K-Means. K-Means Clustering tidak menjamin hasil clustering yang unik. Untuk mendapatkan hasil clustering optimal dapat dilakukan dengan melakukan penentuan centroid awal terlebih dahulu dengan menggunakan algoritme Pillar sebelum proses clustering dilakukan. Algoritme Pillar sangat efektif untuk menentukan posisi awal centroid pada K- Means dan meningkatkan ketepatan hasil clustering. Selain itu, data metagenom merupakan data dengan ukuran yang sangat besar, sehingga bisa digolongkan sebagai big data. Data berukuran besar dapat menjadi sebuah masalah komputasi dalam pengelolaan data secara sekuensial. Salah satu solusi untuk menangani masalah data berukuran besar ialah dengan memproses data secara paralel. MapReduce merupakan sebuah model pemrograman yang penerapannya digunakan untuk memproses data berukuran besar secara paralel. Hasil clustering data metagenom, baik dengan algoritme K-Means maupun dengan algoritme Pillar K-Means pada masing-masing data uji pada penelitian ini menunjukkan kesimpulan hasil yang sama, di mana secara dominan genus Agrobacterium selalu menggerombol dalam satu cluster, sedangkan genus Bacillus and Staphylococcus secara dominan selalu bergerombol dalam cluster yang sama. Jumlah iterasi dan waktu eksekusi pada penerapan Pillar K-Means dalam clustering data lebih efisien dibandingkan pada penerapan metode K- Means. Penggunaan model MapReduce memberikan kinerja yang lebih baik dibandingkan dengan proses sekuensial, di mana speedup yang dihasilkan berkisar antara 60,00 sampai 69,03 dengan nilai efisiensi rata-rata sebesar 400%. Penentuan nilai centroid awal pada algoritme Pillar menambah waktu total clustering dibandingkan dengan penentuan centroid dengan K-Means, sehingga masih bisa memungkinkan untuk dilakukan optimalisasi algoritme Pillar pada penelitian selanjutnya. Kata kunci: K-Means, MapReduce, Metagenome, Parallel Computing, Pillar Algorithm

5 SUMMARY FATHURROHMAN. Metagenome Fragment Clustering Using Pillar K-Means Algorithm in Parallel Using MapReduce Model. Supervised by WISNU ANANTA KUSUMA and HERU SUKOCO. Metagenome is DNA of the microbial community that contains a wide variety of species, it makes reconstruction of the desired DNA of microorganisms that could not perform directly. Various microbes on the metagenome can possibly cause an error in metagenome fragment assembly, that is, the occurrence of interspecies chimeras due to the connection of fragments among species. Therefore, it is necessary to construct a method that can avoid that error. One of the ways to make the prevention of the occurrence of mistakes in metagenome assembly is required a binning process before reconstruction of DNA. Clustering is a way to group objects that have similarities in certain clusters, so it can be used to perform the binning process. One of clustering algorithm is K-Means. Although the implementation of K- Means to clustering metagenome data have been performed successfully, but it allows for the development of the application of optimization in the initialization centroid phase to obtain a more optimal result. K-Means does not guarantee the product of a unique cluster. To get the optimal clustering can be done by determining the initial centroid using Pillar algorithm before the clustering process is done. Pillar highly effective algorithm for determining the initial position of the centroid of K-Means clustering and increase the accuracy of the results. Besides, metagenome data is data with an enormous size so it can be classified as big data. It can be a computation problem in data processing sequentially. One solution for dealing with large data is to process the data in parallel. MapReduce is a programming model to process significant amounts of data in parallel. The results of metagenome binning, both with K-Means or by a combination of Pillar and K-Means on each of the data test in this study showed the same conclusion, which is agrobacterium dominantly always huddled together in one cluster, while the bacillus and staphylococcus dominantly always clustered in the same group. The number of iterations and execution time on the Pillar K-Means clustering more efficiently than of K-Means. Likewise, using the MapReduce model provide better performance than the sequential process. The result showed that speedup values ranged from to Thoroughly, the efficiency of the parallelization process produced an average of 400%. However, the determination of the value of the initial centroid on Pillar algorithm add the total time of clustering compared with the K-Means, so it could still be possible to do the optimization of Pillar in future studies. Keywords: K-Means, MapReduce, metagenome, parallel computing, Pillar algorithm

6 Hak Cipta Milik IPB, Tahun 2016 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB

7 METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAP-REDUCE FATHURROHMAN Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Komputer pada Program Studi Ilmu Komputer SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016

8 Penguji Luar Komisi pada Ujian Tesis : Irman Hermadi, SKom MS PhD

9 Judul Tesis : Metagenome Fragment Clustering Menggunakan Algoritme Pillar K-Means Secara Paralel Dalam Model MapReduce Nama : Fathurrohman NRP : G Disetujui oleh Komisi Pembimbing DrEng Wisnu Ananta Kusuma, ST MT Ketua DrEng Heru Sukoco, SSi MT Anggota Diketahui oleh Ketua Program Studi Ilmu Komputer Dekan Sekolah Pascasarjana Dr Ir Sri Wahjuni, MT Dr Ir Dahrul Syah, MScAgr Tanggal Ujian: 9 September 2016 Tanggal Lulus:

10 PRAKATA Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Kuasa atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2016 ini ialah clustering fragmen metagenom, dengan judul Metagenome Fragment Clustering Menggunakan Algoritme Pillar K-Means Secara Paralel Dalam Model MapReduce. Terima kasih penulis ucapkan kepada ibu, istri dan anak-anak serta seluruh keluarga, atas segala do a dan kasih sayangnya. Ungkapan terima kasih juga disampaikan kepada Bapak DrEng Wisnu Ananta Kusuma, ST, MT dan Bapak DrEng Heru Sukoco, SSi, MT selaku pembimbing, serta Bapak Irman Hermadi, SKom, MS, PhD yang telah banyak memberi saran. Semoga karya ilmiah ini bermanfaat. Bogor, Oktober 2016 Fathurrohman

11 DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN 1 PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 3 Ruang Lingkup Penelitian 3 2 TINJAUAN PUSTAKA 4 Metagenom 4 K-Means Clustering 4 Algoritme Pillar 4 Parallel Computing 5 MapReduce 6 3 METODE 8 Pengumpulan Data 8 Ekstrasi Fitur 8 Penentuan nilai centroid awal 9 Clustering Data 9 Evaluasi Hasil Clustering 10 Menghitung Speedup dan Efisiensi Paralelisasi 11 4 HASIL DAN PEMBAHASAN 12 Waktu dan Lokasi Penelitian 12 Hasil Pengumpulan Data 12 Hasil Ekstraksi Fitur 14 Hasil Penentuan Nilai Centroid Awal dan Clustering Data 14 5 SIMPULAN DAN SARAN 19 Simpulan 19 Saran 19 DAFTAR PUSTAKA 20 RIWAYAT HIDUP 41 LAMPIRAN vi vi vi

12 DAFTAR TABEL 1 Data uji ke-1 ( fragmen) 12 2 Data uji ke-2 ( fragmen) 13 3 Data uji ke-3 ( fragmen) 13 4 Spesifikasi Perangkat Keras 14 5 Perbandingan hasil clustering 3 cluster 17 6 Perbandingan hasil clustering 4 cluster 17 7 Kualitas clustering 18 8 Nilai speedup untuk pengujian fragmen pada 3 cluster 18 9 Nilai speedup untuk pengujian fragmen pada 4 cluster 18

13 DAFTAR GAMBAR 1 Perbedaan serial computing dan parallel computing 6 2 Ilustrasi model MapReduce 7 3 Tahapan Penelitian 8 4 Ilustrasi proses k-mers frequency 9 5 Algoritme Pillar (Barakbah 2009) 10 6 Clustering fragmen pada 3 cluster dengan : (a) K-Means (b) Pillar K-Means 15 7 Clustering fragmen pada 3 cluster dengan : (a) K-Means (b) Pillar K-Means 15 8 Clustering fragmen pada 3 cluster dengan : (a) K-Means (b) Pillar K-Means 15 9 Clustering fragmen pada 4 cluster dengan: (a) K-Means (b) Pillar K-Means Clustering fragmen pada 4 cluster dengan: (a) K-Means (b) Pillar K-Means Clustering fragmen pada 4 cluster dengan: (a) K-Means (b) Pillar K-Means 16

14

15 DAFTAR LAMPIRAN 1 Contoh Isi File Hasil Simulasi MetaSim 23 2 Contoh Isi File Ekstraksi Fitur 23 3 Contoh Keluaran Hasil Clustering 24 4 Contoh keluaran perhitungan silhouette coefficient 24 5 Rekap clustering setiap genus dalam 3 cluster untuk tiap data uji menggunakan algoritme Pillar K-Means 25 6 Rekap clustering setiap genus dalam 3 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-1) 25 7 Rekap clustering setiap genus dalam 3 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-2) 25 8 Rekap clustering setiap genus dalam 3 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-3) 26 9 Rekap clustering setiap genus dalam 3 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-4) Rekap clustering setiap genus dalam 3 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-5) Rekap clustering setiap genus dalam 4 cluster untuk tiap data uji menggunakan algoritme Pillar K-Means Rekap clustering setiap genus dalam 4 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-1) Rekap clustering setiap genus dalam 4 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-2) Rekap clustering setiap genus dalam 4 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-3) Rekap clustering setiap genus dalam 4 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-4) Rekap clustering setiap genus dalam 4 cluster untuk tiap data uji menggunakan algoritme K-Means (percobaan ke-5) Waktu clustering dengan algoritme K-Means untuk data uji-1 ( fragmen) pada 3 cluster Waktu clustering dengan algoritme K-Means untuk data uji-2 ( fragmen) pada 3 cluster Waktu clustering dengan algoritme K-Means untuk data uji-1 ( fragmen) pada 4 cluster Kode Program 30

16

17 1 1 PENDAHULUAN Latar Belakang Metagenom adalah DNA yang berasal dari komunitas mikroba yang heterogen, kadang-kadang mengandung lebih dari spesies dengan urutan data yang banyak mengandung noise dan parsial (Wooley et al. 2010). Hal ini membuat rekonstruksi DNA dari mikroorganisme yang diinginkan tidak dapat langsung dilakukan (Wooley et al. 2010). Sebuah DNA utuh merupakan hasil rekonstruksi dari fragmen-fragmen metagenom. Sehubungan dengan mikroba yang heterogen pada metegenom tersebut, maka diperlukan sebuah metode untuk mencegah terjadinya kesalahan perakitan terhadap fragmen metagenom, yaitu munculnya interspecies chimeras akibat tersambungnya fragmen antara spesies (Pekuwali et al. 2015). Salah satu cara untuk melakukan pencegahan terjadinya kesalahan perakitan metagenom adalah dengan melakukan proses binning sebelum rekonstruksi DNA dilakukan (Overbeek et al. 2013). Clustering yang termasuk dalam metode yang bersifat unsupervised learning merupakan salah satu cara untuk melakukan binning. Clustering merupakan sebuah cara untuk mengelompokkan objek-objek yang mempunyai kemiripan ke dalam kelompok tertentu (Zaki dan Meira 2014). Selain isu yang terkait sulitnya melakukan perakitan sekuens metagenom, data metagenom merupakan data dengan ukuran yang sangat besar, sehingga bisa digolongkan sebagai big data. Data berukuran besar dapat menjadi sebuah masalah komputasi dalam pengelolaan data secara sekuensial. Salah satu solusi untuk menangani masalah data berukuran besar ialah dengan memproses data secara paralel. MapReduce merupakan sebuah model pemrograman yang penerapannya digunakan untuk memproses data berukuran besar secara paralel yang diperkenalkan oleh Dean dan Ghemawat (2004). Sejak model pemrograman MapReduce dikembangan pada tahun 2004, serta munculnya Hadoop, model MapReduce menjadi pusat perhatian dan banyak digunakan dalam berbagai domain aplikasi sebagai strategi umum untuk paralelisasi pengolahan data yang besar. Penggunaan model MapReduce dan algoritme K-Means sudah dilakukan dalam beberapa penelitian. Model pemrograman MapReduce secara efektif dapat berhasil mengurangi waktu komputasi dalam melakukan penjajaran sekuen dibandingkan dengan melakukan penjajaran sekuen dengan algoritme sekuensial (Che-Lun et al. 2012). Arumugam et al (2012) telah melakukan penelitian yang menghasilkan kesimpulan bahwa penggunaan algoritme pada lingkungan cloud computing lebih efisien dibandingkan dengan pelaksanaan pada node tunggal untuk input data yang besar. Penelitian menggunakan pendekatan MapReduce juga dilakukan oleh Rasheed dan Rangwala (2013) mengenai clustering fragmen metagenom yang berhasil diimplementasikan dengan model MapReduce pada platform Hadoop. Zhao et al (2009) juga telah berhasil melakukan implementasi MapReduce untuk algoritme K-Means. Penerapan algoritme K-Means juga telah berhasil diimplementasikan menggunakan model MapReduce untuk mengelompokkan fragmen metagenom (Farino et al. 2015).

18 2 Walaupun implementasi model MapReduce pada K-Means untuk clustering metagenom telah berhasil dilakukan, namun masih memungkinkan untuk pengembangan dalam penerapan optimisasi pada tahap inisialisasi cluster untuk mendapatkan hasil yang lebih optimal. Algoritme K-Means tidak menjamin hasil clustering yang unik. Hasil clustering dari algoritme K-Means sulit untuk mencapai global optimum. Hasil lebih baik pada clustering menggunakan K- Means dapat dicapai setelah melaksanakan lebih dari satu kali, namun sulit untuk menentukan batas eksekusi yang memberikan kinerja terbaik (Bhusare et al. 2014). Untuk mendapatkan inisialisasi clustering optimal dapat dilakukan dengan melakukan penentuan centroid awal terlebih dahulu dengan menggunakan algoritme Pillar sebelum proses clustering dilakukan. Algoritme Pillar sangat efektif untuk menentukan posisi awal centroid pada K-Means dan meningkatkan ketepatan hasil clustering (Bhusare et al. 2014). Bhusare et al (2014) juga telah melakukan pengembangan algoritme Pillar K-Means pada penelitiannya dalam clustering data UCI Repository yang terdiri atas beberapa dataset antara lain iris, dan new thyroid. Modifikasi pengembangan algoritme Pillar yang dilakukan adalah dengan mengurangi proses pengulangan dalam mencari jarak anggota terhadap titik centroid yang sudah terpilih saat inisialisasi. Pada penelitian ini, penulis melakukan pengembangan penelitian berdasarkan penelitian-penelitian terkait yang sudah dilakukan oleh peneliti sebelumnya. Penelitian berfokus pada implementasi model pemrograman MapReduce dalam proses clustering data fragmen metagenom secara paralel dengan menerapkan algoritme Pillar K-Means. Algoritme Pillar digunakan dalam menentukan centroid awal untuk kemudian dilakukan clustering dengan algoritma K-Means. Perumusan Masalah Rumusan masalah pada penelitian ini adalah: 1. Apakah penggunaan algoritme Pillar dapat digunakan dalam clustering fragmen metagenom secara paralel menggunakan model pemrograman MapReduce? 2. Apakah hasil clustering fragmen metagenom menggunakan algoritme Pillar K-Means dapat meningkatkan kinerja dibandingkan dengan menggunakan algoritme K-Means? Tujuan Penelitian Tujuan penelitian ini, yaitu : 1. Melakukan clustering data fragmen metagenom menggunakan algoritme Pillar K-Means secara parallel dengan model MapReduce. 2. Mengevaluasi hasil clustering fragmen metagenom dengan mengukur kualitas hasil clustering dan waktu komputasi yang dibutuhkan dan membandingkan hasil clustering antara algoritme K-Means dengan algoritme Pillar K-Means.

19 3 Manfaat Penelitian Manfaat dari penelitian ini adalah untuk memberikan peningkatan kinerja lebih baik dalam melakukan clustering fragmen metagenom, sehingga dapat bermanfaat dalam rekonstruksi DNA. Ruang Lingkup Penelitian Ruang lingkup pembahasan dalam penelitian ini adalah: 1. Data yang digunakan adalah data penelitian Kusuma (2012) yang terdiri atas tiga genus dan 10 spesies. 2. Fragmen yang dihasilkan tidak mengandung sequencing error.

20 4 2 TINJAUAN PUSTAKA Metagenom Metagenom adalah DNA yang berasal dari komunitas mikroba yang heterogen dari mikroorganisme yang diambil langsung dari lingkungan (Wooley et al. 2010). Sekuensing DNA atau pengurutan DNA adalah proses atau teknik penentuan urutan basa nukleotida pada suatu molekul DNA. Urutan tersebut dikenal sebagai sekuens DNA yang merupakan informasi paling mendasar suatu gen atau genom karena mengandung instruksi yang dibutuhkan untuk pembentukan tubuh makhluk hidup (Rogers 2011). Sekuensing DNA dapat dimanfaatkan untuk menentukan identitas maupun fungsi gen atau fragmen DNA lainnya dengan cara membandingkan sekuens-nya dengan sekuens DNA lain yang sudah diketahui (Glick et al. 2010). Fragmen-fragmen yang diperoleh dari metagenom mengandung berbagai organisme sehingga perlu dilakuan proses binning untuk mencegah terjadinya kesalahan perakitan terhadap fragmen metagenom, yaitu munculnya interspecies chimeras akibat tersambungnya fragmen antara spesies (Pekuwali et al. 2015). K-Means Clustering K-Means merupakan salah satu algoritme yang digunakan untuk mengelompokkan data. Tujuan algoritme ini yaitu untuk membagi data menjadi beberapa kelompok (Wu dan Kumar 2009). Algoritme ini menerima masukan berupa data tanpa label kelas. Hal ini berbeda dengan supervised learning yang menerima masukan berupa vektor (x 1, y 1 ), (x 2, y 2 ),, (x i, y i ), di mana x i merupakan data dari suatu data pelatihan dan y i merupakan label kelas untuk x i (Russell dan Norvig 2010). Pada algoritme pembelajaran ini, komputer mengelompokkan sendiri datadata yang menjadi masukannya tanpa mengetahui terlebih dulu target kelasnya (Wu dan Kumar 2009). Pembelajaran ini termasuk dalam unsupervised learning. Masukan yang diterima pada K-Means Clustering adalah data atau objek dan k buah kelompok (cluster) yang diinginkan. Algoritme ini akan mengelompokkan data atau objek ke dalam k buah kelompok tersebut. Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut. Proses clustering data ke dalam suatu cluster dapat dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid (Wu dan Kumar 2009). Algoritme Pillar K-Means mempunyai masalah pada penentuan centroid awal, di mana centroid yang dipilih secara acak cenderung memiliki ketidakstabilan dalam penentuan cluster, terlebih untuk menangani data berukuran besar akan menghabiskan waktu dalam melakukannya. Masalah kedua adalah, jumlah cluster harus diamati secara menyeluruh untuk mendapatkan solusi cluster terbaik (Wahyudin et al. 2015). Untuk menagani permasalahan tersebut, maka disediakan

21 modifikasi K-Means clustering, dengan menerapkan optimasi centroid menggunakan algoritme Pillar. Algoritme Pillar mengadopsi fungsi pilar pada sebuah gedung yang digunakan pada setiap tepi atau sudut bangunan, sehingga berat bangunan terkonsentrasi pada tiap pilar. Ide yang sama dilakukan untuk tugas clustering di mana centroid awal terbaik diduga ada di tepi dataset, atau dengan kata lain, data objek k-terjauh dalam dataset dipilih sebagai centroid awal, di mana k adalah jumlah cluster yang diamati (Wahyudin et al. 2015). Bhusare et al (2014) telah melakukan pengembangan terhadap algoritme Pillar sehingga dapat memperbaiki waktu kompleksitas yang diperoleh oleh waktu kompleksitas K-Means. Waktu kompleksitas Pillar adalah (( ) ), di mana k adalah jumlah cluster, n adalah jumlah item dan h adalah jumlah outlier pada dataset. Dalam kasus jika tidak ada outlier dalam kumpulan data, kompleksitas menjadi (( ) ), atau sama dengan (( ) ), di mana i adalah jumlah iterasi. Untuk kasus yang lebih buruk di mana ada sejumlah outlier dekat dengan ( ) kompleksitas menjadi ( ) Dengan perbaikan algoritme Pillar yang tidak memasukkan anggota centroid untuk setiap centroid yang dipilih, jumlah item data n akan menurun setiap iterasi. Ketika anggota centroid awal tidak disertakan dan tidak terlibat dalam perhitungan jarak untuk langkah-langkah selanjutnya, n di iterasi akan menurun. Sehingga dengan perbaikan ini, dalam kasus di mana tidak ada outlier, kompleksitas menjadi ( ) Kompleksitas akan ( ) untuk kasus ada sejumlah outiler (Bhusare et al. 2014). Komputasi Paralel Komputasi paralel adalah penggunaan lebih dari satu Central Processing Unit (CPU) untuk menjalankan sebuah program secara simultan. Ide pemrosesan paralel adalah membagi tugas pengolahan data yang tadinya dibebankan kepada satu komputer, sekarang dibebankan ke beberapa komputer dalam sebuah cluster. Idealnya, parallel processing membuat program berjalan lebih cepat karena semakin banyak CPU yang digunakan (Barney 2015). Komputasi paralel merupakan teknik melakukan komputasi secara bersamaan dengan memanfaatkan beberapa komputer independen secara bersamaan. Ini umumnya diperlukan saat kapasitas yang diperlukan sangat besar, baik karena harus mengolah data dalam jumlah besar ataupun karena tuntutan proses komputasi yang banyak (Barney 2015). Tujuan utama dari pemrosesan paralel adalah untuk meningkatkan performa komputasi. Semakin banyak hal yang bisa dilakukan secara bersamaan (dalam waktu yang sama), semakin banyak pekerjaan yang bisa diselesaikan. Untuk melakukan aneka jenis komputasi paralel ini diperlukan infrastruktur mesin paralel yang terdiri atas banyak komputer yang dihubungkan dengan jaringan dan mampu bekerja secara paralel untuk menyelesaikan satu masalah. Untuk itu diperlukan aneka perangkat lunak pendukung yang biasa disebut sebagai middleware yang berperan untuk mengatur distribusi pekerjaan antar node dalam satu mesin paralel. Selanjutnya pemakai harus membuat pemrograman paralel untuk merealisasikan komputasi (Barney 2015). 5

22 6 Pemrograman paralel sendiri adalah teknik pemrograman komputer yang memungkinkan eksekusi perintah atau operasi secara bersamaan. Beberapa komputer terpisah yang digunakan secara bersamaan dan terhubung dalam satu jaringan komputer, biasanya disebut sistem terdistribusi. Komputasi paralel berbeda dengan multitasking. Pengertian multitasking adalah komputer dengan processor tunggal mengeksekusi beberapa tugas secara bersamaan. Sedangkan komputasi paralel melakukan tugas menggunakan beberapa processor atau komputer. Pada dasarnya, secara tradisional, perangkat lunak dibuat untuk melakukan tugas komputasi secara serial (serial computing), di mana satu instruksi dijalankan setelah instruksi lain dilakukan (berurutan) dan menggunakan satu processor. Gambaran perbedaan antara komputasi serial dengan komputasi paralel dapat dilihat pada Gambar 1 (Barney 2015). Serial Computing Parallel Computing Gambar 1 Perbedaan serial computing dan parallel computing (Barney 2015) MapReduce MapReduce adalah salah satu model pemrograman paralel yang diciptakan untuk pengolahan data berukuran besar. Pengguna menentukan fungsi map yang memproses suatu pasangan key/value untuk menghasilkan satu set pasangan intermediate key/value, dan fungsi reduce yang menggabungkan semua nilai yang terkait. Program yang ditulis dalam model ini bersifat diparalelkan dan dijalankan pada sekelompok mesin/komputer. Sistem run-time mengurus rincian dari partisi data input, penjadwalan eksekusi program pada satu set mesin, penanganan kegagalan mesin, dan mengelola komunikasi antar mesin yang diperlukan. Hal ini memungkinkan pemrogram yang belum pengalaman dengan sistem paralel dan sistem terdistribusi mudah memanfaatkan sumber daya dari sistem terdistribusi. MapReduce dapat memproses banyak data dalam ukuran terabytes pada ribuan mesin. Ratusan program MapReduce telah diimplementasikan dan ribuan tugas MapReduce dijalankan pada cluster Google setiap hari (Dean dan Ghemawat 2004). Salah satu perangkat lunak yang mendukung model MapReduce adalah Apache Hadoop. Hadoop merupakan perangkat lunak yang berfungsi untuk mengolah data secara paralel pada sebuah kelompok komputer yang terkoneksi dalam sebuah jaringan. Hadoop mendukung pengolahan data secara terdistribusi. Istilah pengolahan data secara terdistribusi ini disebut dengan Hadoop Distribute File System (HDFS). HDFS terdiri atas komponen namnode dan datanode yang saling berhubungan. Namenode adalah komponen yang bertugas pada komputer

23 yang berfungsi sebagai master, sedangkan datanode adalah komponen yang bertugas pada komputer yang berfungsi sebagai slave (Khusumanegara 2013). Pada sebuah cluster komputer dalam hadoop terdiri atas sebuah master node dan beberapa slave node. Namenode pada sebuah master node bertugas sebagai jobtracker, yaitu mengkoordinasi datanode-datanode untuk melakukan beberapa tugas. Datanode pada sebuah slave node bertugas sebagai tasktracker, yaitu untuk menyimpan dan mengambil data pada slave node pada setiap permintaan yang dilakukan oleh namenode (Khusumanegara 2013). 7 Sumber : Gambar 2 Ilustrasi model MapReduce

24 8 3 METODE Tahapan-tahapan yang dilakukan dalam penelitian ini terdiri atas lima tahapan. Kelima tahapan tersebut adalah pengumpulan data, penyiapan data, ekstraksi fitur, penentuan centroid awal, clustering data, dan evaluasi hasil. Tahapan-tahapan tersebut dapat dilihat seperti pada Gambar 3. Mulai Pengumpulan data Ekstrasi fitur Penentuan nilai centroid awal Selesai Evaluasi hasil Clustering data Gambar 3 Tahapan Penelitian Pengumpulan Data Data yang digunakan dalam penelitian ini menggunakan beberapa spesies mikroorganisme yang berasal dari beberapa genus. Data mikroorganisme tersebut didapatkan dengan cara mendapatkan dari sebuah organisasi yang diberi mandat menyimpan semua data metagenom (Thomas et al. 2012), yaitu National Centre For Biotechnology Information (NCBI) melalui alamat situs dengan format file FASTA (*.fna). Data mikroorganisme yang digunakan dalam penelitian ini terdiri atas 3 genus dengan klasifikasi terdiri atas 10 spesies (Kusuma 2012). Data merupakan hasil simulasi sequencing menggunakan MetaSim dengan error model exact, di mana hasil simulasi tidak memiliki kesalahan insersi, subtitusi, dan delesi pada proses sequencing (Farino et al. 2015). Ekstrasi Fitur Data fragmen metagenom yang dihasilkan berupa string panjang, kemudian diekstraksi fiturnya dengan menggunakan metode k-mers frequency. Feature vector akan dihasilkan dari proses ekstraksi fitur ini. K-mers frequency merupakan frekuensi kemunculan seluruh substring dengan panjang k pada suatu String. Nilai k yang digunakan dalam penelitian ini adalah 3-mer, sehingga akan menghasilkan 64 kombinasi. Ilustrasi proses clustering k string dari string fragmen metagenom dapat dilihat pada Gambar 4. Clustering kombinasi string yang dihasilkan akan dijumlahkan untuk setiap kombinasi yang sama.

25 9 Gambar 4 Ilustrasi proses k-mers frequency (Kusuma 2012) Penentuan nilai centroid awal Data fragmen metagenom yang sudah diekstraksi menjadi feature vector, kemudian dilakukan penentuan centroid awal untuk digunakan dalam proses clustering dengan metode K-Means. Algoritme Pillar digunakan sebagai metode untuk memilih kandidat centroid awal dalam data fragmen metagenom. Adapun algoritme Pillar yang digunakan dapat dilihat pada Gambar 5. Clustering Data Fragmen metagenom yang telah diekstraksi fiturnya selanjutnya akan dikelompokkan dengan menggunakan metode K-Means berdasarkan centroid awal yang sudah ditentukan dengan algoritme Pillar pada tahapan sebelumnya. Algoritme K-Means ialah sebagai berikut (Zaki dan Meira 2014): a. Inisialisasi secara random k titik untuk dijadikan pusat cluster atau centroid. b. Tempatkan setiap objek pada sebuah cluster. Sebuah objek akan ditempatkan ke dalam sebuah cluster dengan jarak terkecil (cluster assigment). c. Update/Perbaharui centroid dari masing-masing cluster (update centroid). d. Lakukan kembali tahap b dan c hingga tidak ada perubahan dari centroid setiap cluster. Langkah awal pada algoritme K-Means, diganti dengan penentuan k titik sebagai pusat cluster atau centroid dengan menggunakan data hasil penentuan centroid awal menggunakan algoritme Pillar pada tahapan sebelumnya. Pada penelitian ini, ukuran jarak antar fragmen yang digunakan adalah jarak Euclid. Jarak Euclid dirumuskan sebagai (Zaki dan Meira 2014): ( ) dengan: D i : jarak antara objek x ik dan y ik, m : jumlah fitur objek, i : objek ke i, x ik : fitur ke k dari objek x ik, y ik : fitur ke k dari objek y ik. 1)

26 10 1. C = 0; SX = 0 ; DM=[] 2. Calculate D dis(x,m) 3. Set number of neighbors nmin = α * (n/k) 4. Assign dmax argmax(d) 5. Set neighborhood boundary nbdis = β * dmax 6. Set i as counter to determine the i th initial centroid 7. DM = DM + D 8. Select x x argmax (DM) as the candidate for i th initial centroids 9. SX = SX + x 10. Set D as the distance metric between X to x 11. Set no number of data points fulfilling D nbdis 12. Assign DM(x) = If no < nmin, go to step Assign D(SX) = C = C υ x 16. i = i If i < k, go back to step Finish in which C is the solution as optimized initial centroids Gambar 5 Algoritme Pillar (Barakbah 2009) Evaluasi Hasil Clustering Data hasil clustering harus dilakukan evaluasi untuk menentukan kualitas cluster. Salah satu metode yang popular untuk menilai kualitas cluster adalah Silhouette Coefficient (Zoubi dan Rawi. 2008). Nilai silhouette adalah sebuah ukuran tentang bagaimana kemiripan sebuah objek dalam cluster-nya (cohesion) dibandingkan terhadap cluster lain (separation). Nilai silhouette berkisar antara -1 sampai 1, di mana nilai tertinggi mengindikasikan bahwa objek berada pada cluster yang tepat dan tidak cocok berada pada cluster tetangganya. Jika objekobjek lebih banyak bernilai tinggi, maka hasil clustering telah sesuai. Jika lebih banyak nilai rendah atau nilai negatif, maka clustering kurang sesuai (Rousseeuw. 1987). Nilai silhouette dapat dihitung dengan menggunakan metode distance metric, seperti Euclidean distance atau manhattan distance (Rousseeuw. 1987). Silhouette Coefficient digunakan untuk melihat kualitas dan kekuatan cluster, seberapa baik suatu objek ditempatkan dalam suatu cluster. Metode ini merupakan gabungan dari metode cohesion dan separation. Rumus Silhouette Coefficient (Rousseeuw. 1987) adalah sebagai berikut: ( ) ( ) 2) ( ) ( ( ) ( )) dengan: s(i) : nilai silhouette coefficient data ke i, a(i) : rata-rata jarak data ke i terhadap data lain pada cluster yang sama, b(i) : rata-rata jarak data ke i terhadap data lain pada cluster yang berbeda dan diambil nilai terkecil.

27 11 Hasil semua nilai s(i) pada cluster yang sama dijumlahkan, kemudian dihitung rata-rata terhadap jumlah data pada cluster tersebut. Nilai rata-rata yang diperoleh menyatakan ukuran seberapa tepat data telah berkelompok pada cluster tersebut (Amorim dan Hennig. 2015). Nilai a(i) adalah seberapa berbeda titik ke-i pada cluster-nya sendiri, nilai a(i) yang rendah menyatakan bahwa titik tersebut sangat tepat berada pada kelompoknya. Nilai b(i) menyatakan jarak titik i ke titik lain pada cluster berbeda, semakin besar nilai b(i) menyatakan bahwa titik i cocok berada pada cluster-nya. Nilai b(i) yang sangat jauh lebih besar dari nilai a(i) mengindikasikan bahwa titik i tersebut berada pada kelompok yang tepat (Amorim dan Hennig. 2015). Nilai s(i) merupakan nilai rata-rata perbandingan jarak titik i antara jarak rata-rata pada cluster-nya terhadap jarak rata pada cluster lainnya. Nilai s(i) yang mendekati nilai satu menyatakan bahwa data ada pada cluster yang tepat. Nilai s(i) mendekati nilai negatif satu menyatakan bahwa data berada pada cluster yang kurang tepat, sedangkan s(i) mendekati nilai nol, menyatakan bahwa data ada pada posisi border di antara dua cluster. Rata-rata s(i) dari seluruh data pada sebuah cluster menyatakan bagaimana ukuran sebuah kelompok rapat pada kelompok tersebut. Rata-rata s(i) atas semua data dari dataset menyatakan ukuran seberapa tepat data telah berkelompok (Amorim dan Hennig. 2015). Menghitung Speedup dan Efisiensi Paralelisasi Proses mengetahui efisiensi hasil program paralelisasi dilakukan dengan cara menghitung waktu yang diperlukan dalam mengeksekusi data secara sekuensial dibandingkan waktu eksekusi dengan hasil yang diperloh secara paralelisasi. Pada tahapan ini dihitung waktu eksekusi masing-masing, baik secara paralel maupun secara sekuensial. Setelah didapatkan waktu eksekusinya, dihitung speedup (Sp) dan efisiensi (Ep) program paralel. Speedup adalah berapa kali lebih cepat waktu eksekusi program paralel (Tp) dibandingkan dengan program biasa (Ts). Efisiensi adalah ukuran seberapa besar waktu prosesor dipakai dengan baik, yaitu dengan menghitung speedup dibagi dengan jumlah prosesor (p). Rumus menghitung speedup dan efisiensi (Willmore 2012) adalah sebagai berikut : 3) 4)

28 12 4 HASIL DAN PEMBAHASAN Waktu dan Lokasi Penelitian Periode pengambilan, pengumpulan data penelitian serta pengujian dilakukan mulai dari Januari 2016 sampai dengan Juli Tempat penelitian dilakukan pada laboratorium Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Hasil Pengumpulan Data Data simulasi dibuat dalam tiga kelompok data uji dengan ukuran tiap fragmen metagenom pada masing-masing data uji berbeda-beda. Data uji ke-1 terdiri atas fragmen metagenom dengan masing-masing fragmen berukuran 500bp, data uji ke-2 terdiri atas fragmen metagenom dengan masing-masing fragmen berukuran 300bp, dan data uji ke-3 terdiri atas fragmen metagenom dengan masing-masing fragmen berukuran 150bp. Setiap file.fna yang digunakan disimulasikan dengan menggunakan perangkat lunak MetaSim untuk menghasilkan fragmen-fragmen metagenom pada tiap data uji tersebut. Contoh data hasil simulasi dapat dilihat pada Lampiran 1, sedangkan rincian hasil simulasi diperlihatkan pada Tabel 1, Tabel 2 dan Tabel 3. Tabel 1 Data uji ke-1 ( fragmen) No Spesies Genus Jumlah Fragmen Ukuran Fragmen 1 Agrobacterium radiobacter K bp chromosome 2 2 Agrobacterium tumefaciens str. Agrobacterium bp C58 chromosome circular 3 Agrobacterium vitis S bp chromosome 4 Bacillus amyloliquefaciens bp FZB42 5 Bacillus anthracis str. Ames Bacillus bp Ancestor 6 Bacillus cereus 03BB bp 7 Bacillus pseudofarmus OF bp chromosome 8 Staphylococcus aureus subsp bp Aureus JH 9 Staphylococcus epidermis ATCC Staphylococcus bp Staphylococcus haemolyticus JCSC bp

29 Tabel 2 Data uji ke-2 ( fragmen) No Spesies Genus Jumlah Fragmen Ukuran Fragmen 1 Agrobacterium radiobacter bp K84 chromosome 2 2 Agrobacterium tumefaciens Agrobacterium bp str. C58 chromosome circular 3 Agrobacterium vitis S bp chromosome 4 Bacillus amyloliquefaciens bp FZB42 5 Bacillus anthracis str. Ames Bacillus bp Ancestor 6 Bacillus cereus 03BB bp 7 Bacillus pseudofarmus OF bp chromosome 8 Staphylococcus aureus subsp bp Aureus JH 9 Staphylococcus epidermis Staphylococcus bp ATCC Staphylococcus haemolyticus JCSC bp Tabel 3 Data uji ke-3 ( fragmen) No Spesies Genus Jumlah Fragmen Ukuran Fragmen 1 Agrobacterium radiobacter K bp chromosome 2 2 Agrobacterium tumefaciens str. Agrobacteriu bp C58 chromosome circular m 3 Agrobacterium vitis S bp chromosome 1 4 Bacillus amyloliquefaciens bp FZB42 5 Bacillus anthracis str. Ames Bacillus bp Ancestor 6 Bacillus cereus 03BB bp 7 Bacillus pseudofarmus OF bp chromosome 8 Staphylococcus aureus subsp bp Aureus JH 9 Staphylococcus epidermis Staphylococc bp ATCC us 10 Staphylococcus haemolyticus JCSC bp 13

30 14 Hasil Ekstraksi Fitur Setiap data uji yang dihasilkan pada pada langkah sebelumnya, diekstrak untuk didapatkan jumlah tiap kombinasi karakter dengan mengunakan metode k- mers frequency. Nilai k yang digunakan dalam penelitian ini adalah 3, sehingga akan diperoleh jumlah kombinasi 3 karakter sebanyak 64 kombinasi. Hasil ekstraksi fitur berupa file text (.txt) yang berisi informasi jumlah tiap fitur (kombinasi) dari kombinasi AAA, AAC, AAG, sampai TTT, serta informasi identitas fragmen tersebut. Contoh format isi file ekstraksi fitur dapat dilihat pada Lampiran 2. Hasil Penentuan Nilai Centroid Awal dan Clustering Data Serangkaian uji coba dilakukan untuk mengelompokan tiga data uji fragmen metagenom yang dihasilkan dari proses ekstraksi fitur 3-mers ke dalam 3 dan 4 cluster. Jumlah iterasi clustering pada setiap uji coba dibatasi sampai maksimal 20 iterasi. Percobaan yang dilakukan menggunakan tiga personal komputer dengan spesifikasi perangkat keras seperti terlihat pada Tabel 4. Tabel 4 Spesifikasi Perangkat Keras PC Processor RAM Hard disk Operating System PC 1 Intel Core i5 CPU 650@3,20GHz 4 GB 300 GB Ubuntu LTS PC 2 Pentium Dual Core 2 GB 150 GB Ubuntu LTS CPU PC 3 Pentium Dual Core 2 GB 150 GB Ubuntu LTS CPU Pengujian dilakukan menggunakan dua metode algoritme yaitu K-Means dan Pillar K-Means. Pada metode Pillar K-Means, proses clustering dikerjakan setelah dilakukan penentuan centroid awal menggunakan algoritme Pillar. Kode program yang digunakan dalam penelitian ini dapat dilihat pada Lampiran 20, sedangkan contoh keluaran hasil proses clustering dapat dilihat pada Lampiran 3. Hasil pengujian dari dua metode yang digunakan, yaitu K-Means dan Pillar K-Means, menunjukkan bahwa kedua metode tersebut menghasilkan kesimpulan yang sama pada clustering 3 cluster seperti terlihat pada Gambar 6, Gambar 7 dan Gambar 8. Berdasarkan hasil dari masing-masing metode clustering, memperlihatkan bahwa genus Agrobacterium secara dominan selalu bergerombol sendiri pada satu cluster, sementara genus Bacillus dan Staphylococcus secara dominan selalu bergerombol secara bersamaan dalam cluster yang sama. Hal ini dikarenakan karena genus Bacillus dan Staphylococcus merupakan mikroorganisme yang berada pada satu ordo. Kesimpulan hasil clustering tersebut sesuai dengan kesimpulan yang diperoleh dari hasil penelitian yang dilakukan oleh Farino et al (2015). Rincian hasil jumlah fragmen metagenom tiap cluster pada data uji ke-1, data uji ke-2, dan data uji ke-3 dari serangkaian uji coba yang dilakukan dapat dilihat pada Lampiran 5, Lampiran 6, Lampiran 7, Lampiran 8, Lampiran 9, Lampiran 10, Lampiran 11, Lampiran 12, Lampiran 13, Lampiran 14, Lampiran 15, dan Lampiran 16.

31 Persentase Persentase Cluster 1 Cluster 2 Cluster 3 0 Cluster 1 Cluster 2 Cluster 3 Agrobacterium Bacillus Staphylococcus Agrobacterium Bacillus Staphylococcus (a) (b) Gambar 6 Clustering fragmen pada 3 cluster dengan : (a) K-Means (b) Pillar K-Means Persentase Persentase Cluster 1 Cluster 2 Cluster 3 0 Cluster 1 Cluster 2 Cluster 3 Agrobacterium Bacillus Staphylococcus Agrobacterium Bacillus Staphylococcus (a) (b) Gambar 7 Clustering fragmen pada 3 cluster dengan : (a) K-Means (b) Pillar K-Means Persentase Cluster 1 Cluster 2 Cluster 3 Agrobacterium Bacillus Staphylococcus Persentase Cluster 1 Cluster 2 Cluster 3 Agrobacterium Bacillus Staphylococcus (a) (b) Gambar 8 Clustering fragmen pada 3 cluster dengan : (a) K-Means (b) Pillar K-Means Kesimpulan hasil clustering pada 3 cluster tidak jauh berbeda dengan clustering pada 4 cluster. Gambar 9, Gambar 10 dan Gambar 11 merupakan grafik hasil pengelompkan metagenom pada 4 cluster. Hasil clustering tetap memperlihatkan bahwa genus Agrobacterium secara dominan selalu bergerombol

32 16 sendiri pada satu cluster, sementara genus Bacillus dan Staphylococcus secara dominan selalu bergerombol secara bersamaan dalam cluster yang sama. Persentase Cluster 1 Cluster 2 Cluster 3 Cluster 4 Agrobacterium Bacillus Staphylococcus Persentase Cluster 1 Cluster 2 Cluster 3 Cluster 4 Agrobacterium Bacillus Staphylococcus (a) (b) Gambar 9 Clustering fragmen pada 4 cluster dengan: (a) K-Means (b) Pillar K-Means Persentase Cluster 1 Cluster 2 Cluster 3 Cluster 4 Agrobacterium Bacillus Staphylococcus Persentase Cluster 1 Cluster 2 Cluster 3 Cluster 4 Agrobacterium Bacillus Staphylococcus (a) Gambar 10 Clustering fragmen pada 4 cluster dengan: (a) K-Means (b) Pillar K-Means (b) Persentase Cluster 1 Cluster 2 Cluster 3 Cluster 4 Agrobacterium Bacillus Staphylococcus Persentase Cluster 1 Cluster 2 Cluster 3 Cluster 4 Agrobacterium Bacillus Staphylococcus (a) (b) Gambar 11 Clustering fragmen pada 4 cluster dengan: (a) K-Means (b) Pillar K-Means Tabel 5 dan Tabel 6 menunjukan bahwa metode Pillar K-Means memberikan performa kinerja lebih baik dan efisien dalam hal jumlah iterasi dan waktu eksekusi dalam mengelompokan data dibandingkan dengan metode K- Means. Metode Pillar K-Means mempunyai waktu eksekusi lebih cepat dibandingkan dengan metode K-Means. Demikian juga jumlah iterasi yang

33 dibutuhkan oleh metode Pillar K-Means lebih sedikit dibandingkan dengan metode K-Means. Pencatatan jumlah iterasi dan waktu eksekusi dari metode K- Means, dilakukan percobaan sebanyak 5 kali pada setiap data uji, kemudian diambil nilai rata-ratanya. Hal ini dilakukan karena hasil dari metode K-Means berbeda-beda pada setiap percobaan. Rincian detil pencatatan jumlah iterasi dan waktu eksekusi dengan menggunakan metode K-Means dapat dilihat pada Lampiran 17, Lampiran 18, dan Lampiran 19. Tabel 5 Perbandingan hasil clustering 3 cluster Pengukuran Fragments 1) Fragments 1) Fragments 2) Pillar K- Pillar Pillar K-Means K-Means K-Means Means K-Means K-Means Waktu inisialisasi Waktu clustering Total waktu Jumlah iterasi > 20 > 20 Catatan : 1) dalam satuan detik ; 2) dalam satuan menit Tabel 6 Perbandingan hasil clustering 4 cluster Fragments 1) Fragments 1) Fragments 2) Pengukuran K- Pillar K- Pillar K- Pillar Means K-Means Means K-Means Means K-Means Waktu inisialisasi Waktu clustering Total waktu Jumlah iterasi > > 20 > 20 Catatan : 1) dalam satuan detik ; 2) dalam satuan menit Pada tahapan selanjutnya dilakukan pengujian terhadap kualitas cluster hasil clustering dengan menghitung silhouette coefficient. Nilai kualitas tiap cluster yang dihasilkan pada setiap data uji menunjukan bahwa clustering data menghasilkan kelompok data dengan kualitas yang baik, di mana setiap data tepat berada pada kelompoknya masing-masing. Hal ini bisa ditunjukan dengan nilai hasil pengujian terhadap kualitas tiap cluster yang berada pada kisaran nilai antara sampai seperti dapat dilihat pada Tabel 7. Namun demikian, hasil pengujian kualitas cluster pada clustering data fragmen menunjukan nilai kualitas cluster lebih rendah dibandingkan dengan kualitas cluster hasil clustering data fragmen dan fragmen. Hal ini disebabkan clustering data pada fragmen tersebut tidak selesai sampai semua titik sudah tepat pada kelompoknya masing-masing. Proses clustering berhenti pada batas maksimal iterasi yang ditetapkan, yaitu 20 iterasi. Hal tersebut masih memungkinkan hasil clustering mencapai pada kualitas cluster lebih baik jika tidak ada batasan iterasi. Contoh keluaran hasil perhitungan silhouette coefficient dapat dilihat pada Lampiran 4. 17

34 18 Tabel 7 Kualitas clustering Data Uji K-Means Pillar K-Means Cluster 1 Cluster 2 Cluster 3 Cluster 1 Cluster 2 Cluster Fragmen Fragmen Fragmen Setelah menghasilkan kualitas cluster yang tepat, tahapan terakhir dari penelitian ini adalah melakukan perhitungan nilai speedup dengan cara membandingkan waktu eksekusi secara paralel dengan waktu eksekusi secaa sekuensial serta menghitung nilai efisiensi proses paralelisasi dengan cara membandingkan nilai speedup dengan jumlah core processor yang digunakan pada proses paralelisasi. Data uji yang digunakan dalam menghitung nilai speedup adalah data uji fragmen. Pelaksanaan eksekusi secara sekuensial dilakukan dengan menggunakan PC1 dan tanpa menggunakan model MapReduce. Komputer PC1 dipilih untuk melakukan proses secara sekuensial karena PC1 mempunyai spesifikasi perangkat keras lebih baik dari pada komputer lainnya. Tabel 8 dan Tabel 9 menampilkan hasil nilai speedup dan nilai efisiensi pada penerapan metode K-Means dan Pillar K-Means untuk clustering pada 3 dan 4 cluster. Hasil yang diperoleh menunjukan bahwa nilai speedup pada penerapan Pillar K-Means memiliki nilai speedup lebih tinggi dibandingkan dengan nilai speedup pada penerapan K-Means. Rata-rata efisiensi yang dihasilkan dari proses paralelisasi adalah 400%. Tabel 8 Nilai speedup untuk pengujian fragmen pada 3 cluster Algoritme Proses Sekuansial Pareses Paralel Efisiensi Speedup (detik) (detik) (%) K-Means 2, Pillar K-Means 1, Tabel 9 Nilai speedup untuk pengujian fragmen pada 4 cluster Algoritme Proses Sekuansial (detik) Paralel Paralel (detik) Speedup Efisiensi (%) K-Means 3, Pillar K-Means 2,

35 19 5 SIMPULAN DAN SARAN Simpulan Berdasarkan pada hasil pengujian dapat diambil beberapa kesimpulan sebagai berikut: 1. Hasil clustering data metagenom pada masing-masing metode yang digunakan menunjukan kesimpulan hasil yang sama, di mana secara dominan genus Agrobacterium selalu menggerombol secara bersama dalam satu cluster, sedangkan genus Bacillus and Staphylococcus secara dominan selalu bergerombol dalam cluster yang sama. 2. Jumlah iterasi dan waktu eksekusi pada penerapan Pillar K-Means dalam clustering data lebih efisien dibandingkan pada penerapan metode K- Means. 3. Penggunaan model MapReduce memberikan speedup dan kinerja lebih efisien dibandingkan dengan proses sekuensial. Nilai speedup yang dihasilkan berkisar antara 60,00 sampai 69,03 dengan nilai efisiensi ratarata sebesar 400% Saran Penentuan nilai centroid awal pada algoritme Pillar dapat menambah waktu eksekusi secara keseluruhan dalam clustering K-Means. Kekurangan algoritme Pillar tersebut dapat dijadikan celah yang bisa dilakukan dalam penelitian selanjutnya untuk mencari sebuah metode dalam menyediakan optimalisasi penentuan nilai centroid awal pada algoritme Pillar untuk clustering data.

36 20 DAFTAR PUSTAKA Amorim RCD, Hennig C (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences 324: doi: /j.ins Arumugam K, Tan YS, Lee BS, Kanagasabai R Cloud-enabling sequence alignment with hadoop mapreduce: A performance analysis. 4th International Conference on Bioinformatics and Biomedical Technology IPCBEE. 29: Barakbah AR, Kiyoki Y A pillar algorithm for k-means optimization by distance maximization for initial centroid designation. Di dalam: 2009 IEEE Symposium on Computational Intelligence and Data Mining; 2009;. Piscataway (US): I E E E. hlm Barney B Introduction to parallel computing. Lawrence Livermore National Laboratory. [Diunduh 2015 Nov 05]. Tersedia pada Bhusare BB, Bansode SM Centroids initialization for k-means clustering using improved pillar algorithm. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET). 3(4): doi:issn: Che-Lun H, Yaw-Ling L, Chen-En H, Guan-Jie H Efficient protein structure alignment algorithms under the MapReduce framework. Cloud Computing Technology and Science (CloudCom), IEEE 4th International Conference. Dean J, Ghemawat S Mapreduce: simplified data processing on large clusters. Di dalam: Proceedings of the 6th Conference on Symposium on Opearting Systems Design & Implementation; 2004 Dec 6-8; San Francisco, California, Amerika Serikat. Berkeley (US): USENIX Association Berkeley. hlm Farino, Haryanto T, Kusuma WA Implementasi mapreduce pada k-means untuk clustering metagenome [skripsi]. Bogor (ID): Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Glick, B.R., Pasternak, J.J., Patten, C.L Molecular biotechnology: principles and applications of recombinant DNA (4 ed.). Washington, DC: ASM Press. pp Kusuma WA Combined approaches for improving the performance of denovo DNA sequence assembly and metagenomic classification of short fragments from next generation sequencer [disertasi]. Tokyo (JP): Tokyo Institute of Technology. Khusumanegara P Analisa pengaruh block size pada HDFS terhadap kecepatan proses mapreduce [skripsi]. Jakarta (ID): Universitas Indonesia. Overbeek MV, Kusuma WA, Buono A Clustering metagenome fragments using growing self organizing map. Di dalam: International Conference on Advanced Computer Science and Information System (ICACSIS); 2013 Sep 28-29; Bali, Indonesia. Depok (ID): IEEE. hlm Pekuwali R.A, Kusuma WA, Buono A Optimasi pengekstraksi fitur spaced k-mers frekuensi menggunakan algoritme genetika pada pengklasifikasian

37 fragmen metagenome [tesis]. Bogor (ID): Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rasheed Z, Rangwala H A MapReduce framework for clustering metagenomes. Di dalam: HiCOMB 2013 Online Proceedings [internet] Mei 20; Cambridge, Amerika Serikat. [tempat tidak diketahui]: IEEE. hlm ; [diunduh 2015 Okt 12]. Tersedia pada /HiCOMB2013/papers/HICOMB pdf. Rogers, K New thinking about Genetics, New York: Britannica Educational Publishing, p Rousseeuw PJ Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis. Computational and Applied Mathematics 20: doi: / (87) Russell S.J, Norvig P Artificial intelligence a modern approach. Upper Saddle River, New Jersey 07458: Pearson Education, Inc., 3 ed. Seung-Jin S, Tovchigrechko A., Craig J Parallelizing BLAST and SOM algorithms with MapReduce-MPI library. IEEE International Parallel & Distributed Processing Symposium. Thomas T., Gilbert J., Meyer F Metagenomics - a guide from sampling to data Analysis;[diunduh 2015 Okt 12]. Tersedia pada Wahyudin I, Djatna T, Kusuma WA Modeling Risk Cluster Based on Sentiment Analysis in Bahasa Indonesia for SME Business Financing Risk Analysis Documents [tesis]. Bogor (ID): Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Willmore F Introduction to parallel computing. Texas Advanced Computing Cnter, 2012 Feb.. The University of Texas at Austin. Wooley JC, Godzik A, Friedberg I A primer on metagenomics. PLos Computational Biology. 6(2):1 13. doi: /journal.pcbi Wu X, Kumar V The Top Ten Algorithms in Data Mining.Chapman and Hall. Zaki MJ, Meira W Data mining and analysis: Fundamental concepts and algorithms. New York (US): Cambridge Pr. Zhao W, Ma H, He Q Parallel k-means clustering based on mapreduce. Di dalam: Jaatun MG, Zhao G, Rong C, editor. CloudCom 2009, 2009 Des 14; Beijing, China. [tempat tidak diketahui]: Springer-Verlag Berlin Heidelberg. hlm Zoubi MBA, Rawi MA An efficient approach for computing silhouette coefficients. Journal of Computer Science. 4(3): doi:issn

38 22 LAMPIRAN

39 23 Lampiran 1 Contoh Isi File Hasil Simulasi MetaSim Lampiran 2 Contoh Isi File Ekstraksi Fitur

40 24 Lampiran 3 Contoh Keluaran Hasil Clustering Lampiran 4 Contoh keluaran perhitungan silhouette coefficient

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER LATHIFATURRAHMAH SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2010 PERNYATAAN MENGENAI TUGAS AKHIR DAN SUMBER

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO ANALISIS PERBANDINGAN PROSES CLUSTER MENGGUNAKAN K- MEANS CLUSTERING DAN K-NEAREST NEIGHBOR PADA PENYAKIT DIABETES MELLITUS SKRIPSI RONNY BENEDIKTUS SIRINGORINGO 131421021 PROGRAM STUDI S1 ILMU KOMPUTER

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

KAJIAN MODEL HIDDEN MARKOV KONTINU DENGAN PROSES OBSERVASI ZERO DELAY DAN APLIKASINYA PADA HARGA GABAH KERING PANEN T A M U R I H

KAJIAN MODEL HIDDEN MARKOV KONTINU DENGAN PROSES OBSERVASI ZERO DELAY DAN APLIKASINYA PADA HARGA GABAH KERING PANEN T A M U R I H KAJIAN MODEL HIDDEN MARKOV KONTINU DENGAN PROSES OBSERVASI ZERO DELAY DAN APLIKASINYA PADA HARGA GABAH KERING PANEN T A M U R I H SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI

Lebih terperinci

ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING

ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING Ni Putu Eka Merliana, Ernawati, Alb. Joko Santoso Program Studi Magister Teknik Informatika, Fakultas Teknik Industri, Universitas

Lebih terperinci

TESIS ADYA ZIZWAN PUTRA

TESIS ADYA ZIZWAN PUTRA ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI CENTROID TESIS ADYA ZIZWAN PUTRA 147038003 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Ni Made Anindya Santika Devi, I Ketut Gede Darma Putra, I Made Sukarsa Jurusan Teknologi Informasi, Universitas Udayana Bukit Jimbaran,

Lebih terperinci

PENERAPAN METODE ANT COLONY OPTIMIZATION PADA METODE K-HARMONIC MEANS UNTUK KLASTERISASI DATA HALAMAN JUDUL

PENERAPAN METODE ANT COLONY OPTIMIZATION PADA METODE K-HARMONIC MEANS UNTUK KLASTERISASI DATA HALAMAN JUDUL PENERAPAN METODE ANT COLONY OPTIMIZATION PADA METODE K-HARMONIC MEANS UNTUK KLASTERISASI DATA KOMPETENSI JARINGAN KOMPUTER SKRIPSI HALAMAN JUDUL I MADE KUNTA WICAKSANA NIM : 0708605050 PROGRAM STUDI TEKNIK

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

ANALISIS OPTIMISASI FORMULA DISTRIBUTED QUERY DALAM BASIS DATA RELASIONAL R. SUDRAJAT

ANALISIS OPTIMISASI FORMULA DISTRIBUTED QUERY DALAM BASIS DATA RELASIONAL R. SUDRAJAT ANALISIS OPTIMISASI FORMULA DISTRIBUTED QUERY DALAM BASIS DATA RELASIONAL R. SUDRAJAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 RINGKASAN ii Proses join query dalam sistem basis data terdistribusi

Lebih terperinci

OPTIMALISASI ALGORITMA DAN QUERY DENGAN MENGEKSPLOITASI KEMAMPUAN PROSESOR MULTI-CORE STUDI KASUS: PENGEMBANGAN SISTEM PENGOLAHAN DATA PERPAJAKAN PNS

OPTIMALISASI ALGORITMA DAN QUERY DENGAN MENGEKSPLOITASI KEMAMPUAN PROSESOR MULTI-CORE STUDI KASUS: PENGEMBANGAN SISTEM PENGOLAHAN DATA PERPAJAKAN PNS i Tesis OPTIMALISASI ALGORITMA DAN QUERY DENGAN MENGEKSPLOITASI KEMAMPUAN PROSESOR MULTI-CORE STUDI KASUS: PENGEMBANGAN SISTEM PENGOLAHAN DATA PERPAJAKAN PNS ANTONIUS BIMA MURTI WIJAYA No. Mhs.: 115301622/PS/MTF

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang 1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering

Lebih terperinci

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU

A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU SEKOLAH PASCASARJA A I STITUT PERTA IA BOGOR BOGOR 2009 PER YATAA ME GE AI TESIS DA SUMBER

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

Analisis Kinerja Matrix Multiplication Pada Lingkungan Komputasi Berkemampuan Tinggi (Cuda Gpu)

Analisis Kinerja Matrix Multiplication Pada Lingkungan Komputasi Berkemampuan Tinggi (Cuda Gpu) Analisis Kinerja Matrix Multiplication Pada Lingkungan Komputasi Berkemampuan Tinggi (Cuda Gpu) 1 Machudor Yusman, 2 Anie Rose Irawati, 3 Achmad Yusuf Vidyawan 1 Jurusan Ilmu Komputer FMIPA Unila 2 Jurusan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Bab ini menjelaskan mengenai analisis dan proses perancangan. Bagian analisis meliputi deskripsi umum sistem yang dibangun, spesifikasi kebutuhan perangkat lunak, data

Lebih terperinci

PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER

PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER FERDINAN ANDREAS MANGASI SIMAMORA DEPARTEMEN ILMU KOMPUTER FAKULTAS

Lebih terperinci

ABSTRAK. Kata kunci: Big Data, Hadoop, Karakteristik, Kecepatan Transfer, Stabilitas. v Universitas Kristen Maranatha

ABSTRAK. Kata kunci: Big Data, Hadoop, Karakteristik, Kecepatan Transfer, Stabilitas. v Universitas Kristen Maranatha ABSTRAK Big Data dianggap sebagai solusi untuk pertumbuhan data yang sangat pesat, salah satu aplikasi yang menerapkan hal ini adalah Hadoop. Maka akan dilakukan pengujian terhadap Hadoop untuk membuktikan

Lebih terperinci

STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH

STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH i STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016 iii PERNYATAAN

Lebih terperinci

ABSTRAK. Keyword : big data, distribusi, Hadoop, sistem file. vi Universitas Kristen Maranatha

ABSTRAK. Keyword : big data, distribusi, Hadoop, sistem file. vi Universitas Kristen Maranatha ABSTRAK Pertumbuhan data ternyata sangat mempengaruhi perkembangan volume dan jenis data yang terus meningkat di dunia maya. Jenis data, mulai dari data yang berupa teks, gambar atau foto, video hingga

Lebih terperinci

IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY

IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 PERNYATAAN MENGENAI

Lebih terperinci

SINKRONISASI DATA DENGAN PEMROSESAN PARALEL MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE

SINKRONISASI DATA DENGAN PEMROSESAN PARALEL MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE SINKRONISASI DATA DENGAN PEMROSESAN PARALEL MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE Murti Retnowo Jurusan Manajemen Informatika, UTY, Yogyakarta e-mail: nowo.yogya@gmail.com ABSTRAK Penelitian dalam pemrosesan

Lebih terperinci

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING A-99 PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING Rachmad Zaini Alberto 1, Winda Kurnia Sari 2, Samsuryadi 3, Anggina Primanita 4 1,2,3,4 Fakultas

Lebih terperinci

PARALELISASI ALGORITMA K-MEDOID PADA GPU MENGGUNAKAN OPEN CL

PARALELISASI ALGORITMA K-MEDOID PADA GPU MENGGUNAKAN OPEN CL PARALELISASI ALGORITMA K-MEDOID PADA GPU MENGGUNAKAN OPEN CL Muhammad Tanzil Furqon 1, Achmad Ridok 2, Wayan Firdaus Mahmudy 3 1,2,3 PTIIK, Universitas Brawijaya Jl. Veteran no. 8, Malang, Jawa Timur 65145

Lebih terperinci

OPTIMASI PENGEKSTRAKSI FITUR SPACED K-MERS FREKUENSI MENGGUNAKAN ALGORITME GENETIKA PADA PENGKLASIFIKASIAN FRAGMEN METAGENOME ARINI AHA PEKUWALI

OPTIMASI PENGEKSTRAKSI FITUR SPACED K-MERS FREKUENSI MENGGUNAKAN ALGORITME GENETIKA PADA PENGKLASIFIKASIAN FRAGMEN METAGENOME ARINI AHA PEKUWALI OPTIMASI PENGEKSTRAKSI FITUR SPACED K-MERS FREKUENSI MENGGUNAKAN ALGORITME GENETIKA PADA PENGKLASIFIKASIAN FRAGMEN METAGENOME ARINI AHA PEKUWALI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Gede Aditra

Lebih terperinci

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521 JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: 2301-9271 A-521 Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data (Studi kasus : Problem Kerja Praktek Jurusan

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

BAB II DASAR TEORI. 2.1 DNA (Deoxy-Ribonucleic Acid)

BAB II DASAR TEORI. 2.1 DNA (Deoxy-Ribonucleic Acid) BAB II DASAR TEORI Pada bagian ini dijelaskan mengenai teori-teori yang mendukung pengelompokan data ekspresi gen, bentuk data ekspresi gen dan jenis analisis dari data ekspresi gen tersebut. Dasar-dasar

Lebih terperinci

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam BAB I PENDAHULUAN 1.1 LATAR BELAKANG Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya. Data mining sendiri

Lebih terperinci

K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

K-Means Clustering. Tim Asprak Metkuan. What is Clustering? K-Means Clustering Tim Asprak Metkuan What is Clustering? Also called unsupervised learning, sometimes called classification by statisticians and sorting by psychologists and segmentation by people in

Lebih terperinci

Seminar Nasional Sains & Teknologi VI Lembaga Penelitian dan Pengabdian Universitas Lampung 3 November 2015

Seminar Nasional Sains & Teknologi VI Lembaga Penelitian dan Pengabdian Universitas Lampung 3 November 2015 PENGEMBANGAN SISTEM INFORMASI KULIAH KERJA NYATA (KKN) DENGAN ALGORTIMA GREEDY UNTUK MENENTUKAN PENGELOMPOKAN PESERTA KKN (STUDI KASUS: UNIVERSITAS LAMPUNG) Harisa Eka Septiarani 1), Aristoteles 1) dan

Lebih terperinci

Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM)

Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM) Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM) Irvan Nur Aziz 1, Fitriyani 2, Kemas Rahmat Saleh W 3 Fakultas Informatika, School of Computing,

Lebih terperinci

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA 1 Yulison Herry Chrisnanto, 2 Gunawan Abdillah 1,2 Jurusan Informatika Fakultas

Lebih terperinci

PERBAIKAN DAN EVALUASI KINERJA ALGORITMA PIXEL- VALUE DIFFERENCING ( PVD) ROJALI

PERBAIKAN DAN EVALUASI KINERJA ALGORITMA PIXEL- VALUE DIFFERENCING ( PVD) ROJALI PERBAIKAN DAN EVALUASI KINERJA ALGORITMA PIXEL- VALUE DIFFERENCING ( PVD) ROJALI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya

Lebih terperinci

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 ANALISA PERBANDINGAN METODE HIERARCHICAL CLUSTERING, K-MEANS DAN GABUNGAN KEDUANYA DALAM MEMBENTUK CLUSTER DATA (STUDI KASUS : PROBLEM KERJA PRAKTEK JURUSAN

Lebih terperinci

PENGARUH SERTIFIKASI GURU TERHADAP KESEJAHTERAAN DAN KINERJA GURU DI KABUPATEN SUMEDANG RIZKY RAHADIKHA

PENGARUH SERTIFIKASI GURU TERHADAP KESEJAHTERAAN DAN KINERJA GURU DI KABUPATEN SUMEDANG RIZKY RAHADIKHA 1 PENGARUH SERTIFIKASI GURU TERHADAP KESEJAHTERAAN DAN KINERJA GURU DI KABUPATEN SUMEDANG RIZKY RAHADIKHA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI PENYALURAN KREDIT DI BANK UMUM MILIK NEGARA PERIODE TAHUN RENALDO PRIMA SUTIKNO

ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI PENYALURAN KREDIT DI BANK UMUM MILIK NEGARA PERIODE TAHUN RENALDO PRIMA SUTIKNO ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI PENYALURAN KREDIT DI BANK UMUM MILIK NEGARA PERIODE TAHUN 2004-2012 RENALDO PRIMA SUTIKNO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA

EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

Analisis Perbandingan Metode K-Means Dengan Improved Semi- Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)

Analisis Perbandingan Metode K-Means Dengan Improved Semi- Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM) Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 9, Juni 2017, hlm. 813-824 http://j-ptiik.ub.ac.id Analisis Perbandingan Metode K-Means Dengan Improved Semi- Supervised

Lebih terperinci

SKRIPSI KONSTRUKSI DENDROGRAM DAN PENGELOMPOKAN DENGAN ALGORITMA AGGLOMERATIVE PADA SISTEM TERDISTRIBUSI HADOOP

SKRIPSI KONSTRUKSI DENDROGRAM DAN PENGELOMPOKAN DENGAN ALGORITMA AGGLOMERATIVE PADA SISTEM TERDISTRIBUSI HADOOP SKRIPSI KONSTRUKSI DENDROGRAM DAN PENGELOMPOKAN DENGAN ALGORITMA AGGLOMERATIVE PADA SISTEM TERDISTRIBUSI HADOOP GDE WIRADITYA SUARJANA NPM: 2012730042 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI

Lebih terperinci

KETERKONTROLAN BEBERAPA SISTEM PENDULUM SAKIRMAN

KETERKONTROLAN BEBERAPA SISTEM PENDULUM SAKIRMAN KETERKONTROLAN BEBERAPA SISTEM PENDULUM SAKIRMAN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis Keterkontrolan

Lebih terperinci

ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA

ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

EKSPLORASI MASALAH LOGARITMA DISKRET PADA FINITE FIELD ( ) Y A N A

EKSPLORASI MASALAH LOGARITMA DISKRET PADA FINITE FIELD ( ) Y A N A EKSPLORASI MASALAH LOGARITMA DISKRET PADA FINITE FIELD ( ) Y A N A SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TUGAS AKHIR DAN SUMBER INFORMASI Dengan ini saya menyatakan

Lebih terperinci

Partitional clustering KLASTERING DENGAN METODE K-MEANS

Partitional clustering KLASTERING DENGAN METODE K-MEANS Partitional clustering KLASTERING DENGAN METODE K-MEANS PENDAHULUAN K-mean merupakan teknik klastering yang paling umum dan sederhana. Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok.

Lebih terperinci

Super computer . Perkembangan Science dan Komputasi Numerik Fenomena Alam Observasi Hypotesis Percobaan untuk Pembuktian Percobaa n fisik Teori Komputasi numerik (simulasi) Fenomena Alam : Suatu kejadian

Lebih terperinci

ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK

ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK ALGORITMA K-MEDOIDS UNTUK PENENTUAN STRATEGI PEMASARAN PRODUK Wiwit Agus Triyanto Fakultas Teknik, Program Studi Sistem Informasi Universitas Muria Kudus Email: at.wiwit@yahoo.co.id ABSTRAK Strategi pemasaran

Lebih terperinci

ANALISIS MODEL PELUANG BERTAHAN HIDUP DAN APLIKASINYA SUNARTI FAJARIYAH

ANALISIS MODEL PELUANG BERTAHAN HIDUP DAN APLIKASINYA SUNARTI FAJARIYAH ANALISIS MODEL PELUANG BERTAHAN HIDUP DAN APLIKASINYA SUNARTI FAJARIYAH SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 2 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2011/2012

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2011/2012 Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2011/2012 CLUSTERING DATA PENJUALAN DAN PERSEDIAAN BARANG PADA PT SAYAP MAS UTAMA DENGAN METODE K-MEANS Ahmad Afif 2008250031

Lebih terperinci

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016 PERNYATAAN

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling

Lebih terperinci

MODEL OPTIMASI JADWAL UJIAN DAN IMPLEMENTASINYA PADA UNIVERSITAS TERBUKA ASMARA IRIANI TARIGAN

MODEL OPTIMASI JADWAL UJIAN DAN IMPLEMENTASINYA PADA UNIVERSITAS TERBUKA ASMARA IRIANI TARIGAN MODEL OPTIMASI JADWAL UJIAN DAN IMPLEMENTASINYA PADA UNIVERSITAS TERBUKA ASMARA IRIANI TARIGAN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Pengaruh Formula dengan Penambahan Bumbu untuk Makanan Rumah Sakit pada Status Gizi dan Kesehatan Pasien LIBER

Pengaruh Formula dengan Penambahan Bumbu untuk Makanan Rumah Sakit pada Status Gizi dan Kesehatan Pasien LIBER Pengaruh Formula dengan Penambahan Bumbu untuk Makanan Rumah Sakit pada Status Gizi dan Kesehatan Pasien LIBER SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) Nur Wakhidah Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang Abstract Classification is the process of organizing

Lebih terperinci

MANAJEMEN RISIKO DI PERUSAHAAN BETON (STUDI KASUS UNIT READYMIX PT BETON INDONESIA) MUAMMAR TAWARUDDIN AKBAR

MANAJEMEN RISIKO DI PERUSAHAAN BETON (STUDI KASUS UNIT READYMIX PT BETON INDONESIA) MUAMMAR TAWARUDDIN AKBAR MANAJEMEN RISIKO DI PERUSAHAAN BETON (STUDI KASUS UNIT READYMIX PT BETON INDONESIA) MUAMMAR TAWARUDDIN AKBAR SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN 3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan

Lebih terperinci

PROSEDUR PARALELISASI PERKALIAN MATRIKS PADA GRAPHICS PROCESSING UNIT (GPU)

PROSEDUR PARALELISASI PERKALIAN MATRIKS PADA GRAPHICS PROCESSING UNIT (GPU) PROSEDUR PARALELISASI PERKALIAN MATRIKS PADA GRAPHICS PROCESSING UNIT (GPU) Murni Pusat Studi Komputasi Matematika, Universitas Gunadarma Jl. Margonda Raya no. 100, Depok 16424, Jawa Barat murnipskm@staff.gunadarma.ac.id

Lebih terperinci

ARTIKEL SISTEM PEMBAGIAN KELOMPOK BELAJAR SISWA MENGGUNAKAN METODE K-MEANS CLUSTERING DI SD NEGERI 1 NGEBONG KABUPATEN TULUNGAGUNG

ARTIKEL SISTEM PEMBAGIAN KELOMPOK BELAJAR SISWA MENGGUNAKAN METODE K-MEANS CLUSTERING DI SD NEGERI 1 NGEBONG KABUPATEN TULUNGAGUNG ARTIKEL SISTEM PEMBAGIAN KELOMPOK BELAJAR SISWA MENGGUNAKAN METODE K-MEANS CLUSTERING DI SD NEGERI 1 NGEBONG KABUPATEN TULUNGAGUNG Oleh: BAGUS YAYANG FATKHURRAHMAN 13.1.03.02.0180 Dibimbing oleh : 1. Ahmad

Lebih terperinci

PROGRAM KOMPUTASI RANKED POSITIONAL WEIGHT UNTUK KESEIMBANGAN LINTASAN PERAKITAN

PROGRAM KOMPUTASI RANKED POSITIONAL WEIGHT UNTUK KESEIMBANGAN LINTASAN PERAKITAN PROGRAM KOMPUTASI RANKED POSITIONAL WEIGHT UNTUK KESEIMBANGAN LINTASAN PERAKITAN Engelina C. Dengah Program Studi Teknik Industri Fakultas Teknik Unika De La Salle Manado Kampus Kairagi I Kombos Manado

Lebih terperinci

IMPLEMENTASI ALGORITMA BRUTE FORCE DAN ALGRITMA KNUTH-MORRIS-PRATT (KMP) DALAM PENCARIAN WORD SUGGESTION SKRIPSI ADLI ABDILLAH NABABAN

IMPLEMENTASI ALGORITMA BRUTE FORCE DAN ALGRITMA KNUTH-MORRIS-PRATT (KMP) DALAM PENCARIAN WORD SUGGESTION SKRIPSI ADLI ABDILLAH NABABAN IMPLEMENTASI ALGORITMA BRUTE FORCE DAN ALGRITMA KNUTH-MORRIS-PRATT (KMP) DALAM PENCARIAN WORD SUGGESTION SKRIPSI ADLI ABDILLAH NABABAN 131421065 PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER

Lebih terperinci

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA Optimization Techniques Modi ed k Nearest Neighbor Classi cation Using Genetic Algorithm Siti Mutro n 1, Abidatul

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

ANALISIS REGRESI TERPOTONG BEBERAPA NILAI AMATAN NURHAFNI

ANALISIS REGRESI TERPOTONG BEBERAPA NILAI AMATAN NURHAFNI ANALISIS REGRESI TERPOTONG DENGAN BEBERAPA NILAI AMATAN NOL NURHAFNI SEKOLAH PASCASARJANAA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan

Lebih terperinci

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan sehingga dapat diproses dengan SOM. Pada tahap seleksi data, dipilih data perkembangan anak berdasarkan kategori dan rentang usianya. Kategori perkembangan tersebut merupakan perkembangan kognitif, motorik

Lebih terperinci

ANALISIS PERBANDINGAN ALGORITMA QUICKSORT, 3 WAY QUICKSORT, DAN RADIXSORT SKRIPSI PLOREN PERONICA PASARIBU

ANALISIS PERBANDINGAN ALGORITMA QUICKSORT, 3 WAY QUICKSORT, DAN RADIXSORT SKRIPSI PLOREN PERONICA PASARIBU ANALISIS PERBANDINGAN ALGORITMA QUICKSORT, 3 WAY QUICKSORT, DAN RADIXSORT SKRIPSI PLOREN PERONICA PASARIBU 131421038 PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

Penggunaan Teknologi Map-Reduce dalam Pengolahan Survei dan Sensus

Penggunaan Teknologi Map-Reduce dalam Pengolahan Survei dan Sensus Penggunaan Teknologi Map-Reduce dalam Pengolahan Survei dan Sensus Oleh: Arbi Setiyawan Badan Pusat Statistik merupakan lembaga pemerintah yang mempunyai tugas menyediakan kebutuhan data bagi pemerintah

Lebih terperinci

Penerapan Algoritma Program Dinamis pada Penyejajaran Sekuens dengan Algoritma Smith Waterman

Penerapan Algoritma Program Dinamis pada Penyejajaran Sekuens dengan Algoritma Smith Waterman Penerapan Algoritma Program Dinamis pada Penyejajaran Sekuens dengan Algoritma Smith Waterman Afif Bambang Prasetia (13515058) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut

Lebih terperinci

MODEL DISTRIBUSI PERTUMBUHAN EKONOMI ANTARKELOMPOK PADA DUA DAERAH ADE LINA HERLIANI

MODEL DISTRIBUSI PERTUMBUHAN EKONOMI ANTARKELOMPOK PADA DUA DAERAH ADE LINA HERLIANI MODEL DISTRIBUSI PERTUMBUHAN EKONOMI ANTARKELOMPOK PADA DUA DAERAH ADE LINA HERLIANI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya

Lebih terperinci

BAB I PENDAHULUAN. seiring perkembangan teknologi mikroprosesor, proses komputasi kini dapat

BAB I PENDAHULUAN. seiring perkembangan teknologi mikroprosesor, proses komputasi kini dapat BAB I PENDAHULUAN I.1 Latar Belakang Proses komputasi yang dapat dilakukan oleh komputer telah berkembang dengan pesat. Pada awalnya proses komputasi hanya dapat dilakukan secara sekuensial saja. Sebuah

Lebih terperinci

Distributed Indexing dengan MapReduce. Arif N

Distributed Indexing dengan MapReduce. Arif N Distributed Indexing dengan MapReduce Arif N Overview Motivation MapReduce Distributed indexing Inverted Index Motivation Seberapa besar sih data yang kita hasilkan? Big Data New York Stock Exchange :

Lebih terperinci

OPTIMISASI ALGORITMA A* PADA LINGKUNGAN BERBASIS HEXAGON MENGGUNAKAN PARALLEL BIDIRECTIONAL SEARCH

OPTIMISASI ALGORITMA A* PADA LINGKUNGAN BERBASIS HEXAGON MENGGUNAKAN PARALLEL BIDIRECTIONAL SEARCH TESIS OPTIMISASI ALGORITMA A* PADA LINGKUNGAN BERBASIS HEXAGON MENGGUNAKAN PARALLEL BIDIRECTIONAL SEARCH PRATYAKSA OCSA NUGRAHA SAIAN No Mhs.: 155302328/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

PERSOALAN OPTIMASI FAKTOR KEAMANAN MINIMUM DALAM ANALISIS KESTABILAN LERENG DAN PENYELESAIANNYA MENGGUNAKAN MATLAB

PERSOALAN OPTIMASI FAKTOR KEAMANAN MINIMUM DALAM ANALISIS KESTABILAN LERENG DAN PENYELESAIANNYA MENGGUNAKAN MATLAB PERSOALAN OPTIMASI FAKTOR KEAMANAN MINIMUM DALAM ANALISIS KESTABILAN LERENG DAN PENYELESAIANNYA MENGGUNAKAN MATLAB TUGAS AKHIR Sebagai Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Pertambangan Oleh:

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Big data merupakan data yang tidak dapat diproses menggunakan alat pengolahan data tradisional karena berukuran sangat besar dan rumit [1]. Pada era digital ini, data

Lebih terperinci

MODIFIKASI ALGORITMA J-BIT ENCODING UNTUK MENINGKATKAN RASIO KOMPRESI

MODIFIKASI ALGORITMA J-BIT ENCODING UNTUK MENINGKATKAN RASIO KOMPRESI TESIS MODIFIKASI ALGORITMA J-BIT ENCODING UNTUK MENINGKATKAN RASIO KOMPRESI Johanes K. M. Lobang No. Mhs. : 135302016/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCASARJANA UNIVERSITAS ATMA

Lebih terperinci

ANALISIS IMPLEMENTASI MASTERPLAN PERCEPATAN DAN PERLUASAN PEMBANGUNAN EKONOMI INDONESIA ( STUDI KASUS PENGEMBANGAN PELABUHAN MAKASSAR )

ANALISIS IMPLEMENTASI MASTERPLAN PERCEPATAN DAN PERLUASAN PEMBANGUNAN EKONOMI INDONESIA ( STUDI KASUS PENGEMBANGAN PELABUHAN MAKASSAR ) ANALISIS IMPLEMENTASI MASTERPLAN PERCEPATAN DAN PERLUASAN PEMBANGUNAN EKONOMI INDONESIA ( STUDI KASUS PENGEMBANGAN PELABUHAN MAKASSAR ) TEGUH PAIRUNAN PUTRA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

Lebih terperinci

METODE BINOMIAL UNTUK MENENTUKAN HARGA OPSI CALL INDONESIA DAN STRATEGI LINDUNG NILAINYA JAENUDIN

METODE BINOMIAL UNTUK MENENTUKAN HARGA OPSI CALL INDONESIA DAN STRATEGI LINDUNG NILAINYA JAENUDIN METODE BINOMIAL UNTUK MENENTUKAN HARGA OPSI CALL INDONESIA DAN STRATEGI LINDUNG NILAINYA JAENUDIN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PERBANDINGAN KINERJA METODE K-HARMONIC MEANS DAN PARTICLE SWARM OPTIMIZATION UNTUK KLASTERISASI DATA

PERBANDINGAN KINERJA METODE K-HARMONIC MEANS DAN PARTICLE SWARM OPTIMIZATION UNTUK KLASTERISASI DATA PERBANDINGAN KINERJA METODE K-HARMONIC MEANS DAN PARTICLE SWARM OPTIMIZATION UNTUK KLASTERISASI DATA Ahmad Saikhu, Yoke Okta 2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi

Lebih terperinci

UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES

UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES 1 Uji Kinerja Face Recognition Menggunakan Eigenfaces UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES ABDUL AZIS ABDILLAH 1 1STKIP Surya, Tangerang, Banten, abdillah.azul@gmail.com Abstrak. Pada paper

Lebih terperinci

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK TESIS Karya tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari

Lebih terperinci

Komputasi Paralel Sebagai Alternatif Solusi Peningkatan Kinerja Komputasi

Komputasi Paralel Sebagai Alternatif Solusi Peningkatan Kinerja Komputasi Thomas Anung Basuki Komputasi Paralel Sebagai Alternatif Solusi Peningkatan Kinerja Komputasi Intisari Makalah ini membahas komputasi paralel pada jaringan komputer menggunakan PVM. Untuk memperjelas,

Lebih terperinci

EVALUASI KINERJA KEUANGAN SATUAN USAHA KOMERSIAL PERGURUAN TINGGI NEGERI BADAN HUKUM DARSONO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014

EVALUASI KINERJA KEUANGAN SATUAN USAHA KOMERSIAL PERGURUAN TINGGI NEGERI BADAN HUKUM DARSONO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 1 EVALUASI KINERJA KEUANGAN SATUAN USAHA KOMERSIAL PERGURUAN TINGGI NEGERI BADAN HUKUM DARSONO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA

Lebih terperinci

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI Gunawan 1, Fandi Halim 2, Tony Saputra Debataraja 3, Julianus Efrata Peranginangin 4

Lebih terperinci

KOMPUTASI PARALEL RENDER OBYEK 3D BERBASIS CLUSTER LAN

KOMPUTASI PARALEL RENDER OBYEK 3D BERBASIS CLUSTER LAN KOMPUTASI PARALEL RENDER OBYEK 3D BERBASIS CLUSTER LAN Anritsu S.Ch. Polii (Staf Pengajar Teknik Elektro Politeknik Negeri Manado) Abstract; The background of this research is the length of time required

Lebih terperinci

HUBUNGAN EFEKTIVITAS SISTEM PENILAIAN KINERJA DENGAN KINERJA KARYAWAN PADA KANTOR PUSAT PT PP (PERSERO), TBK JULIANA MAISYARA

HUBUNGAN EFEKTIVITAS SISTEM PENILAIAN KINERJA DENGAN KINERJA KARYAWAN PADA KANTOR PUSAT PT PP (PERSERO), TBK JULIANA MAISYARA HUBUNGAN EFEKTIVITAS SISTEM PENILAIAN KINERJA DENGAN KINERJA KARYAWAN PADA KANTOR PUSAT PT PP (PERSERO), TBK JULIANA MAISYARA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

ANALISIS KINERJA DAN IMPLEMENTASI ALGORITMA KOMPRESI ARITHMETIC CODING PADA FILE TEKS DAN CITRA DIGITAL SKRIPSI SARIFAH

ANALISIS KINERJA DAN IMPLEMENTASI ALGORITMA KOMPRESI ARITHMETIC CODING PADA FILE TEKS DAN CITRA DIGITAL SKRIPSI SARIFAH ANALISIS KINERJA DAN IMPLEMENTASI ALGORITMA KOMPRESI ARITHMETIC CODING PADA FILE TEKS DAN CITRA DIGITAL SKRIPSI SARIFAH 061401090 PROGRAM STUDI S1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA

Lebih terperinci

MODEL MATEMATIKA PERPINDAHAN KELOMPOK BELALANG DENGAN METODE GELOMBANG BERJALAN NURUDIN MAHMUD

MODEL MATEMATIKA PERPINDAHAN KELOMPOK BELALANG DENGAN METODE GELOMBANG BERJALAN NURUDIN MAHMUD MODEL MATEMATIKA PERPINDAHAN KELOMPOK BELALANG DENGAN METODE GELOMBANG BERJALAN NURUDIN MAHMUD SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

MENINGKATKAN KECEPATAN KOMPUTASI UNTUK PENGAMBILAN KEPUTUSAN (KLASIFIKASI) MELALUI REDUKSI DIGIT NUMERIK TAK SIGNIFIKAN

MENINGKATKAN KECEPATAN KOMPUTASI UNTUK PENGAMBILAN KEPUTUSAN (KLASIFIKASI) MELALUI REDUKSI DIGIT NUMERIK TAK SIGNIFIKAN MENINGKATKAN KECEPATAN KOMPUTASI UNTUK PENGAMBILAN KEPUTUSAN (KLASIFIKASI) MELALUI REDUKSI DIGIT NUMERIK TAK SIGNIFIKAN Kuspriyanto, Samiran, Tri Aulat Junarwoto Sekolah Teknik Elektro dan Informatika

Lebih terperinci

Decision Support on Supply Chain Management System Using Apriori Data Mining Algorithm

Decision Support on Supply Chain Management System Using Apriori Data Mining Algorithm Decision Support on Supply Chain Management System Using Apriori Data Mining Algorithm Eka Widya Sari, Ahmad Rianto, Siska Diatinari Andarawarih College Of Informatics And Computer Engineering Indonesia

Lebih terperinci

Analisa Hadoop Cluster Dengan Raspberry pi Model B+ dan Raspberry pi 2 Model B Studi Kaskus Wordcount

Analisa Hadoop Cluster Dengan Raspberry pi Model B+ dan Raspberry pi 2 Model B Studi Kaskus Wordcount 1 Analisa Hadoop Cluster Dengan Raspberry pi Model B+ dan Raspberry pi 2 Model B Studi Kaskus Wordcount Muhammad Rusyadi-1251531118-Sistem Komputer, Rio Marrowsi-12515311156-Sistem Komputer, dan Hermawan

Lebih terperinci

oleh LILIS SETYORINI NIM. M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

oleh LILIS SETYORINI NIM. M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika PERAMALAN JUMLAH PEMINAT PROGRAM STUDI MATEMATIKA FMIPA UNS MENGGUNAKAN RUNTUN WAKTU FUZZY PADA PENENTUAN INTERVAL DENGAN METODE BERBASIS RATA-RATA DAN PENGELOMPOKAN OTOMATIS oleh LILIS SETYORINI NIM.

Lebih terperinci