KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG"

Transkripsi

1 KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tulisan ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2015 Victoria Febrina Romauli Simangunsong NIM G

4 ABSTRAK VICTORIA FEBRINA ROMAULI SIMANGUNSONG. Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor. Dibimbing oleh WISNU ANANTA KUSUMA. Metagenomika adalah ilmu yang mempelajari tentang analisis metagenom yang materi genetiknya diperoleh langsung dari sampel lingkungan. Ketika mengsekuens sampel metagenom ini maka akan dihasilkan fragmen-fragmen. Pada saat fragmen-fragmen tersebut dirakit akan dihasilkan chimeric contigs atau gabungan fragmen dari berbagai organisme. Selanjutnya diperlukan proses binning yang bertujuan untuk mengklasifikasikan fragmen-fragmen tersebut ke dalam tingkat taksonomi tertentu. Pada penelitian ini peneliti melakukan klasifikasi fragmen metagenom yang diekstrasi menggunakan n-mers kemudian direduksi dimensinya menggunakan principal component analysis dan diklasifikasi menggunakan k- nearest neighbor. Nilai k yang terbaik pada KNN adalah 7. Nilai n tertinggi pada n-mers adalah 4. Akurasi pada organisme dikenal dari fold terbaik dengan menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp sampai 10 Kbp berkisar antara 91.6% sampai 99,9%. Untuk organisme tidak dikenal dengan PCA 95% tingkat akurasi berkisar antara 89.64% sampai 99.32%. Kata kunci : Fragmen metagenom,n-mers, PCA, KNN ABSTRACT VICTORIA FEBRINA ROMAULI SIMANGUNSONG. Fragments Metagenome Classification using Principal Component Analysis and K-Nearest Neighbor. Supervised by WISNU ANANTA KUSUMA. Metagenomics is a study of metagenom analysis which its genetic materials is obtained directly from environmental samples. The process of metagenome sequencing produce fragments from mixture organisms. Thus, assembling fragments directly will generate chimeric contigs. Furthermore, a bining process is required to classify these fragments into a particular taxonomic level. In this study, the classification of metagenome fragment were extracted using n-mers, reduced its dimension using principal component analysis and classified using k- nearest neighbor. The experiments were conducted from in the various fragment length from 0.5 Kbp to 10 Kbp. The best results were obtained using KNN with k=7 and implementing 4-mers frequency. The accuracies of classifying known organisms obtained using PCA 95% were ranged from 91.6% to 99.9%. Moreover, the accuracies were slightly decreased when classifying unknown organisms, from 89.64% to 99.32%. Keywords: Fragments metagenom, n-mers, PCA, KNN

5 KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji : 1 Aziz Kustiyo, SSi, MKom 2 Toto Haryanto, SKom, MSi

7 Judul Skripsi : Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor Nama : Victoria Febrina Romauli Simangunsong NIM : G Disetujui oleh Dr. Wisnu Ananta Kusuma, ST, MT Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi, MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Mei 2014 ini ialah Bioinformatika, dengan judul Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor. Terima kasih penulis ucapkan kepada Bapak Dr. Wisnu Ananta Kusuma, ST, MT selaku pembimbing. Bapak Aziz Kustiyo SSi, MKom dan Bapak Toto Haryanto SKom, MSi selaku penguji atas saran dan masukan untuk penelitian ini. Ungkapan terima kasih juga disampaikan kepada Bapak Elman Simangunsong SH, MH, dan Ibu Dra. Sorta Mariany Sibuea, serta seluruh keluarga, dan temanteman Alih Jenis Ilmu Komputer IPB angkatan 7 atas segala doa, dukungan semangat dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat. Bogor, Januari 2015 Victoria Febrina Romauli Simangunsong

9 DAFTAR ISI DAFTAR TABEL viii DAFTAR GAMBAR viii DAFTAR LAMPIRAN x PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Ruang Lingkup Penelitian 2 Manfaat Penelitian 3 METODE PENELITIAN 3 Data Metagenome NCBI 4 Ekstrasi Ciri 4 Normalisasi 5 Reduksi Dimensi dengan PCA 5 F-Fold Cross Validation 6 K-Nearest Neighbor 7 Pengujian dengan Organisme Tidak Dikenal 8 Analisis 8 Ruang Lingkup Sistem 8 HASIL DAN PEMBAHASAN 8 Penyiapan Data 8 Ekstrasi Ciri 9 Normalisasi 10 Reduksi Dimensi menggunakan PCA 10 F-Fold Cross Validation 10 Klasifikasi KNN 11 Akurasi 11 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN 12 Pengujian pada organisme tidak dikenal 13

10 Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme dikenal 13 Perbandingan Penelitian Terkait 15 SIMPULAN DAN SARAN 16 Simpulan 16 Saran 16 DAFTAR PUSTAKA 16 RIWAYAT HIDUP 22 DAFTAR TABEL 1 Organisme Dikenal 4 2 Dimensi yang diperoleh setelah direduksi dengan PCA 10 3 Akurasi organisme dikenal menggunakan k=3 pada KNN (dalam %) 11 4 Akurasi organisme dikenal menggunakan k=5 pada KNN (dalam %) 11 5 Akurasi organisme dikenal menggunakan k=7 pada KNN (dalam %) 12 6 Hasil pengujian organisme tidak dikenal dengan PCA 95 (dalam %) 13 7 Perbandingan waktu komputasi data testing (organisme tidak dikenal) dengan PCA dan tanpa PCA pada 7-NN (satuan dalam detik) 15 8 Perbandingan Penelitian terkait organisme tidak dikenal 15 9 Perbandingan Penelitian terkait organisme dikenal Akurasi organisme dikenal menggunakan k=3 panjang 1 Kbp & 5 Kbp (dalam%) Akurasi organisme dikenal menggunakan k=5 panjang 1 Kbp & 5 Kbp (dalam%) Akurasi organisme dikenal menggunakan k=7 panjang 1 Kbp & 5 Kbp (dalam%) 20 DAFTAR GAMBAR 1Metode Penelitian 3 2 Ekstrasi Ciri N-Mers 4 3 Ilustrasi proses normalisasi 5 4 Ilustrasi dimensi m x n 6 5 Ilustrasi 5-Fold Cross Validation 7 6 Hasil ekstrasi ciri n=3 panjang fragmen 0,5 Kbp 9 7 Screenshot file FASTA dibangkitkan menggunakan METASIM 9 8 Normalisasi 3-mers panjang 0,5Kbp 10 9 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 0.5 Kbp Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme dikenal 13

11 11 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme tidak dikenal Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 1 Kbp Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 5 Kbp Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 10 Kbp 21

12 DAFTAR LAMPIRAN 1 Dataset organisme tidak dikenal 18 2 Jumlah Fragmen tiap organisme dikenal 18 3 Jumlah Fragmen tiap organisme tidak dikenal 19 4 Akurasi yang diperoleh untuk organisme dikenal 19 5 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN 20

13 PENDAHULUAN Latar Belakang Penelitian tentang analisis metagenom dalam lingkup bioinformatika terus berkembang. Secara umum, analisis materi genetik dilakukan dengan cara membudidayakannya di laboratorium, kemudian di-sequencing dan dilakukan perakitan. Proses ini dilakukan untuk menghasilkan urutan rantai DNA yang berisi informasi genetik suatu organisme. Akan tetapi, dari banyak mikroorganisme hanya 1% yang dapat dikulturkan. Sisanya harus mengambil sampel langsung dari lingkungan. Ilmu yang mempelajari tentang analisis metagenom dan materi genetiknya diperoleh langsung dari sampel lingkungan disebut metagenomika (Wu 2008). Sampel ini ketika di-sequencing akan menghasilkan fragmen-fragmen. Fragmen-fragmen yang berasal dari berbagai organisme. Pada saat dilakukan perakitan fragmen-fragmen ini, akan menghasilkan chimeric contigs gabungan fragmen yang berasal dari organisme berbeda. Untuk itu diperlukan proses binning yang bertujuan untuk mengklasifikasikan fragmen-fragmen tersebut ke dalam tingkat taksonomi tertentu. Proses binning dapat dilakukan dengan dua pendekatan, yaitu pendekatan dengan homologi dan komposisi. Binning berdasarkan homologi dilakukan penjajaran sekuens dengan membandingkan fragmen metagenom dengan basis data sekuens National Centre for Biotechnology Information (NCBI), kemudian hasilnya akan disimpulkan pada level taksonomi. Penelitian metode yang menggunakan pendekatan homologi adalah BLAST (Wu 2008), dan MEGAN (Huson et al. 2007). Pendekatan yang kedua adalah, binning berdasarkan komposisi. Pendekatan komposisi tidak membandingkan sekuens kueri dengan sekuens referensi sehingga pengelompokannya lebih cepat dibandingkan dengan homologi. Pendekatan ini menggunakan pasangan basa hasil ekstrasi ciri sebagai masukkan untuk pembelajaran dengan observasi (unsupervised) atau pembelajaran dengan contoh (supervised) (Kusuma dan Akiyama 2011). Pembelajaran unsupervised digunakan ketika tidak diketahui label dari data yang harus dikelompokkan. Keluaran dari pendekatan ini adalah data yang telah dikelompokkan. Clustering termasuk ke dalam pembelajaran unsupervised. Adapun pembelajaran supervised, telah memiliki informasi mengenai label dari tiap-tiap kelompok. Klasifikasi termasuk dalam pembelajaran supervised. Penelitian metode yang menggunakan pembelajaran unsupervised yang diterapkan pada kasus metagenom adalah TETRA (Teeling et al. 2004), GSOM atau Growing Self Organizing (Hsu dan Halgamuge 2002; Overbeek 2013), SOC atau Self Organizing Clustering (Amano et al. 2007). Adapun metode pembelajaran supervised yang digunakan untuk menyelesaikan masalah metagenom adalah Naïve Bayessian Classification (Rosen et al. 2008) dan PhyloPythia (McHardy et al. 2007). Penelitian Kusuma dan Akiyama (2011) melakukan binning fragmen metagenom berdasarkan characterization vector. Penelitian ini menggunakan dua data set yang dibangkitkan menggunakan MetaSim (Richter et al. 2008). Untuk dataset organisme yang diketahui menggunakan sepuluh spesies dari tiga genus

14 2 dan dataset organisme baru menggunakan sembilan spesies dari tiga genus. Metode yang digunakan sebagai ekstrasi ciri adalah n-mers. Panjang fragmen yang digunakan 0.5 Kbp, 1 kbp, 5 kbp, 10 kbp. Akurasi yang didapat dengan menggunakan data latih adalah 81% sampai 92%. Adapun untuk data uji, akurasi didapat adalah 78% sampai dengan 87%. Secara umum, kinerja metode ini menurun untuk pengklasifikasian pada data uji. Salah satu alasan kesalahan pengklasifikasian karena adanya urutan rantai yang tumpang tindih dari spesies yang berbeda, tetapi berada dalam genus yang sama. Penelitian terkait juga dilakukan oleh Ellyana (2014) dengan melakukan pengklasifikasian fragmen metagenom menggunakan fitur spaced n-mers dan k-nearest neighbor. Hasil akurasi yang diperoleh untuk dataset organisme yang diketahui adalah 88.77% sampai 99.65%. Oleh karena itu, penelitian ini melakukan klasifikasi fragmen metagenom menggunakan n-mers sebagai ekstrasi ciri, kemudian dilakukan pereduksian dimensi menggunakan principal component analysis dan diklasifikasikan menggunakan algoritme k-nearest neighbor. Akurasi yang diperoleh akan dibandingkan dengan penelitian Ellyana (2014), dan Kusuma dan Akiyama (2011). Perumusan Masalah Berdasarkan latar belakang yang telah diuraikan, masalah yang akan diteliti dapat dirumuskan sebagai berikut: 1 Bagaimana pengaruh terhadap akurasi KNN? 2 Bagaimana pengaruh nilai k pada KNN terhadap hasil akurasi? 3 Bagaimana pengaruh nilai n pada n-mers terhadap hasil akurasi KNN? 4 Bagaimana hasil akurasi yang diterapkan pada organisme tidak dikenal? 5 Berapa lama waktu komputasi terhadap pengujian selama proses klasifikasi? Tujuan Penelitian Tujuan dari penelitian ini membuat model k-nearest neighbor dengan reduksi dimensi principal component analysis. Setelah itu hasilnya dibandingkan dengan penelitian sebelumnya. Ruang Lingkup Penelitian Ruang lingkup penelitian meliputi: 1. Data diperoleh dari NCBI yang dibangkitkan oleh perangkat lunak MetaSim. Dataset merepresentasikan organisme yang dikenal dengan organisme tidak dikenal. 2. Data yang digunakan merujuk pada penelitian Kusuma dan Akiyama (2011) & Ellyana (2014).

15 3. Panjang fragmen untuk dataset organisme yang dikenal dan organisme dikenal meliputi 0.5 kbp, 1 kbp, 5 kbp, dan 10 kbp. Dataset tersebut dipilih dari genus Agrobacterium, Bacillus, dan Staphylococcus. 4. Sekuens DNA direpresentasikan sebagai empat karakter A, T, G, dan C. Data berformat FASTA dan bebas error. 3 Manfaat Penelitian Penelitian ini diharapkan dapat membantu para peneliti dalam pengklasifikasian fragmen metagenom berdasarkan tingkat genus. METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 1 Mulai Data Metagenome NCBI Generate Data Ekstrasi Ciri Normalisasi Data Uji KNN Reduksi PCA 95% Pembagian Data Data Latih F-Fold Cross Validation Data Organisme Tidak Dikenal Ekstrasi Ciri Normalisasi Eigenvector Model terbaik Analisis Selesai Gambar 1 Metode Penelitian

16 4 Data Metagenome NCBI Data diunduh dari situs NCBI (National Center for Biotechnology Information) pada ftp://ftp.ncbi.nlm.nih.gov/genomes/bacteria/all.fna.tar.gz. Kemudian data metagenom dibangkitkan menggunakan MetaSim, dengan format FASTA. Dataset terdiri atas dataset organisme dikenal dan dataset organisme tidak dikenal. Dataset organisme latih terdiri atas sepuluh spesies yang dibagi menjadi data latih dan data uji dapat dilihat pada Tabel 1. Adapun dataset organisme tidak dikenal terdiri atas sembilan spesies (Lampiran 1). Panjang fragmen untuk setiap dataset terdiri atas 0.5 Kbp, 1 Kbp, 5 Kbp, dan 10 Kbp. Jumlah fragmen untuk dataset organisme dikenal adalah dan organisme tidak dikenal adalah Tabel 1 Organisme dikenal Species Agrobacterium radiobacter K84 chromosome 2 Agrobacterium tumefaciens str. C58 chromosome circular Agrobacterium vitis S4 chromosome 1 Bacillus amyloliquefaciens FZB42 Bacillus anthracis str. Ames Ancestor Bacillus cereus 03BB102 Bacillus pseudofirmus OF4 chromosome Staphylococcus aureus subsp. Aureus JH1 Staphylococcus epidermidis ATCC Staphylococcus haemolyticus JCSC1435 Genus Agrobacterium Bacillus Staphylococcus Ekstrasi Ciri Pada tahapan ekstrasi ciri dilakukan menggunakan metode n-mers. Metode ini digunakan untuk mengetahui intensitas atau banyaknya kemunculan substring tertentu pada sebuah string. Intensitas kemunculan string tersebut dapat dijadikan sebagai penciri dari suatu kelompok string. Data sekuens DNA merupakan data string, oleh karena itu ekstraksi ciri yang digunakan pada penelitian ini untuk data set DNA adalah n-mers dengan n = 3, 4, 5. Pola kemunculan dalam sekuens dihitung menggunakan empat basa utama (A, T, G, dan C) dipangkat dengan rangkaian pasangan basa yang ingin digunakan (pola kemunculan : 4 n, dengan n>= 1) (Kusuma 2011). Gambar 2 merupakan ilustrasi ekstrasi ciri n-mers. Gambar 2 Ekstrasi Ciri N-Mers

17 5 Normalisasi Jumlah substring pada fragmen yang telah diekstrasi sangatlah bervariasi. Ada yang memiliki nilai yang sangat besar atau sangat kecil, dan jika dikurangkan akan menghasilkan selisih yang sangat besar. Maka dari itu perlu dilakukan normalisasi sehingga nilai yang diperoleh dapat diskalakan ke dalam batas nilai tertentu. Skala nilai berada pada rentang [0.0,1.0]. Normalisasi min-max menggunakan transformasi linear. Proses normalisasi dilakukan dengan mengurangkan nilai data asli dengan nilai minimal, lalu dibagi dengan nilai maksimal dikurangkan dengan nilai minimal. Diperoleh dengan persamaan berikut (Han et al. 2011), v ' = v-min max-min new max-new min +new min Berikut merupakan ilustrasi dari tahapan normalisasi (Gambar 3). AAA AAT... CCC Normalisasi AAA AAT... CCC 0, ,3636 0, ,5454 Gambar 3 Ilustrasi proses normalisasi Reduksi Dimensi dengan PCA Pada tahap ini, reduksi dimensi dari fragmen metagenom dilakukan menggunakan teknik Principal Component Analysis. PCA merupakan teknik multivariate yang paling banyak digunakan pada hampir semua bidang. Teknik ini mereduksi dimensi himpunan peubah yang biasanya terdiri atas peubah yang banyak dan saling berkorelasi menjadi peubah baru yang tidak berkorelasi. Teknik ini mempertahankan sebanyak mungkin keragaman dalam himpunan data tersebut serta menghilangkan peubah-peubah asal yang mempunyai sumbangan informasi yang relatif kecil. Hal yang pertama dilakukan adalah mendapatkan dimensi data yang ingin direduksi. Setelah itu, rata-rata dari dimensi tersebut dihitung dengan rumus sebagai berikut: X= n i=1 n Kemudian nilai data tiap dimensi dikurangkan dengan nilai rata-rata dimensi, dengan rumus sebagai berikut: Data adjust = (X i -X) Lalu langkah selanjutnya adalah menghitung nilai matriks kovarian dari data adjust dengan rumus sebagai berikut (Smith 2002): var(x) cov(x,y) C= cov(y,x) var(y) X i var X = n i=1 X i -X X i -X (n-1)

18 6 n i=1 X i -X Y i -Y cov X,Y = (n-1) Selanjutnya nilai eigenvector, eigenvalues, dan explained dihitung. Untuk menghitung eigenvalues, diperlukan matriks persegi A (k x k) dan matriks identitas kemudian dihitung dengan rumus sebagai berikut: A-λ I = 0 Kemudian hitung determinan matriks persegi A (k x k) dan, λ menjadi x eigenvalues dari A. Jika adalah nonzero vector x 0, sehingga A x= λ x. x (k=1) adalah eigen vector (characteristic vector) dari matriks A yang terkait dengan eigenvalue λ. Kolom dari A-λ I tergantung sehingga A-λ I =0. Eigenvalues sendiri menunjukan tingkat kepentingan suatu kolom dari eigenvector (Johnson RA dan Wichern DW 2007). Nilai explained dihitung dengan rumus sebagai berikut: explained= eigenvalue eigenvalue 100% Tahapan terakhir yaitu kita memilih komponen eigenvector yang menyimpan data asli dan membentuk feature vector, kemudian di transpose lalu dikalikan dengan data adjust transpose, kemudian di transpose lagi dengan menggunakan rumus (Smith 2002): Final Data=(RowFeatureVector T RowDataAdjust T ) T Pada penelitian ini nilai proporsi kumulatif keragaman data asal yang dipilih adalah sebesar 95%. Berikut merupakan ilustrasi dimensi m n, dimana nilai m = pembacaan data, dan n = 64 diperoleh dari frekuensi n-mers (Gambar 4). Gambar 4 Ilustrasi dimensi m x n F-Fold Cross Validation F-fold cross-validation digunakan untuk membagi data menjadi data latih dan data uji. Metode ini melakukan perulangan sebanyak f kali untuk membagi sebuah himpunan contoh secara acak menjadi f-subset yang saling bebas. Setiap ulangan disisakan satu subset untuk pengujian, dan sisanya digunakan untuk

19 pelatihan (Fu 1994). Jumlah dataset organisme yang diketahui framen, f yang digunakan menggunakan 5-Fold. Untuk data latih digunakan 8000 fragmen, sedangkan data uji digunakan 2000 fragmen. Diilustrasikan pada Gambar 5. 7 Gambar 5 Ilustrasi 5-Fold Cross Validation K-Nearest Neighbor Metode klasifikasi yang digunakan pada penelitian ini yaitu K-Nearest Neighbor (KNN). KNN banyak diterapkan dalam pengenalan pola dan data mining untuk klasifikasi. KNN merupakan algoritme supervised dalam klasifikasi dimana hasil dari kueri instance yang baru diklasifikasikan berdasarkan mayoritas kategori pada k tetangga terdekat. KNN mengklasifikasi objek baru berdasarkan atribut dan training samples (Larose 2001). Konsep dasar dari KNN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan k tetangga terdekatnya. Nilai dari jarak antara data uji dengan data latih diurutkan dari nilai terendah. Kelas dari nilai dengan jarak terendah diperiksa. Kelas yang memiliki nilai vote tertinggi menjadi kelas dari data uji tersebut. Jarak antara dua titik dalam ruang fitur dapat didefiniskan dengan banyak cara, salah satunya menggunakan jarak Euclid. Hasil dari perhitungan jarak Euclid digunakan untuk menentukan kemiripan antara data latih dan data uji. Kecocokan dilihat dari nilai (jarak) yang paling minimum. Jarak Euclid diperoleh dengan menggunakan persamaan berikut. dengan :dist(p,q) p i q i n dist(p,q)= (p i -q i ) 2 n i=1 = jarak sampel = data sampel ke-i = data input ke-i = jumlah sampel Tahapan algoritme KNN adalah sebagai berikut (Song et al. 2007) : 1 Menentukan nilai k, dengan k merupakan jumlah tetangga terdekat. 2 Menghitung jarak data pada setiap data latih dengan menggunakan jarak Euclid. 3 Mendapatkan k data yang memiliki jarak terdekat.

20 8 Pengujian dengan Organisme Tidak Dikenal Pengujian organisme tidak dikenal dilakukan dengan melakukan klasifikasi terlebih dahulu pada fragmen organisme dikenal. Setelah itu diperoleh akurasi tertinggi dari organisme dikenal yang kemudian dijadikan sebagai data latih. Data ujinya diperoleh dari organisme tidak dikenal. Kemudian, data uji diujikan ke data latih menggunakan algoritme KNN. Analisis Hasil penelitian diukur dengan menghitung tingkat akurasi dari data set uji. Persamaan untuk menghitung akurasi diperoleh sebagai berikut. data uji benar akurasi= x 100% data uji Ruang Lingkup Sistem Penelitian dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut: 1. Perangkat keras berupa komputer personal dengan spesifikasi: Processor Intel(R) Dual Core(TM) RAM 2 GB 160 GB 2. Perangkat lunak : Sistem operasi Windows bit Sistem operasi Ubuntu MetaSim Matlab R2013a Notepad++ Codeblocks HASIL DAN PEMBAHASAN Penyiapan Data Data metagenome berupa sequens DNA yang diunduh dari situs NCBI. Sequens DNA tersebut berasal dari sepuluh organisme untuk organisme yang dikenal dan sembilan organisme tidak dikenal.jumlah fragmen untuk organisme dikenal adalah 10000, sedangkan organisme tidak dikenal Kemudian jumlah fragmen tersebut dibagi secara merata untuk tiga genus yang terdiri dari 10 organisme. Genus agrobacterium, jumlah fragmennya Genus bacillus, jumlah fragmennya Sedangkan genus staphylococcus, berjumlah Untuk jumlah fragmen organisme tidak dikenal sebanyak Dibagi secara merata untuk terhadap 9 organisme dari 3 genus.

21 Jumlah fragmen untuk genus agrobacterium sebesar 1700, genus bacillus jumlah fragmennya 1600, dan genus staphylococcus jumlah fragmennya Untuk pembagian selengkapnya dapat dilihat pada Lampiran 3 dan 4. Langkah selanjutnya yang dilakukan adalah, membangkitkan sekuens DNA setiap organisme sesuai dengan jumlahnya menggunakan MetaSim (Gambar 6). Panjang fragmen yang digunakan untuk kedua dataset adalah 0,5 Kbp, 1 Kbp, 5 Kbp, 10 Kbp. 9 Gambar 6 Screenshot file FASTA dibangkitkan menggunakan METASIM Ekstrasi Ciri Ekstrasi ciri pada penelitian ini menggunakan n-mers dengan nilai n=3, 4, 5. Proses ekstrasi ciri menghasilkan banyaknya pasangan trinukleotida, tetranukleotida, pentanukleotida. Untuk n = 3 pola kemunculan yang dihasilkan 4 3 = 64 yang menghasilkan substring dari AAA sampai CCC. Untuk n = 4 pola kemunculan yang didapatkan 4 4 = 256 yang menghasilkan substring dari AAAA sampai CCCC. Kemudian n = 5 pola kemunculan yang dihasilkan 4 5 = 1024 dan menghasilkan substring dari AAAAA sampai CCCCC. Ekstrasi ciri menghasilkan array jumlah fragmen m x n kombinasi. Pada organisme dikenal jika n=3, maka array dimensinya x 64, selanjutnya n= 4, array dimensinya x 256, dan n= 5 array dimensinya x 1024.Hal yang sama dilakukan terhadap organisme tidak dikenal. Array dimensinya 5000 x 64 untuk n=3. Berikut merupakan screenshoot hasil ekstrasi ciri dari n=3 dengan panjang 0,5 Kbp (Gambar 7). Gambar 7 Hasil ekstrasi ciri n=3 panjang fragmen 0,5 Kbp

22 10 Normalisasi Normalisasi bertujuan untuk mengurangi hasil ekstrasi ciri yang bervariasi. Skala nilai matriks komposisi berada pada rentang 0 dan 1 yang menggunakan metode scaling. Berikut merupakan screenshot hasil normalisasi pada organisme dikenal dengan n=3, panjang fragmen 0,5 Kbp (Gambar 8). Gambar 8 Normalisasi 3-mers panjang 0,5Kbp Reduksi Dimensi menggunakan PCA Analisis komponen utama bertujuan untuk mereduksi dimensi asal yang semula terdapat p variabel bebas menjadi q komponen utama (dimana q<p). Dimana q adalah proporsi kumulatif keragaman data dan pada penelitian ini nilai q sebesar 95%. Hasil reduksi dimensi selengkapnya dapat dilihat pada Tabel 2. Tabel 2 Dimensi yang diperoleh setelah direduksi dengan PCA Ekstrasi Ciri Panjang Fragmen Dimensi awal Setelah direduksi PCA 3-mers 0,5 Kbp mers 1 Kbp mers 5 Kbp mers 10 Kbp mers 0,5 Kbp mers 1 Kbp mers 5 Kbp mers 10 Kbp mers 0,5 Kbp mers 1 Kbp mers 5 Kbp mers 10 Kbp F-Fold Cross Validation Setelah direduksi menggunakan PCA, data set organisme dikenal tersebut dilatih dengan menggunakan f-fold cross validation untuk membagi data latih dan

23 data uji. Penelitian ini menetapkan f yang digunakan 5-fold, dimana jumlah fragmen organisme dikenal Data organisme dikenal dibagi menjadi 5 bagian, 4 untuk data latih, 1 untuk data uji. Data latih menggunakan 8000 fragmen, dan data uji menggunakan 2000 fragmen. Klasifikasi KNN Penelitian ini menggunakan algoritme KNN, dimana k yang digunakan = 3,5,7. Dengan menggunakan 5-fold cross validation, setiap fold-nya diujicobakan dengan panjang fragmen 0,5 Kbp, 1 Kbp, 5 Kbp, 10 Kbp. Akurasi Akurasi didapat setelah melakukan percobaan menggunakan algoritme KNN pada organisme yang dikenal. Berikut hasil akurasi beberapa percobaan yang telah dilakukan pada penelitian ini. Percobaan I: dataset organisme dikenal, 3-mers, 4-mers,5-mers, PCA 95%, 5-foldcross validation, rantai terpendek (panjang fragmen 0,5 Kbp) dan rantai terpanjang (panjang fragmen 10 Kbp), 3-NN (Tabel 3). Tabel 3 Akurasi organisme dikenal menggunakan k=3 pada KNN (dalam %) F- 3-mers 4-mers 5-mers Fold/KBp 0,5 10 0,5 10 0, Fold 89,95 99,3 88,75 99,6 88,5 99,9 2-Fold 89,1 99,35 90,35 99,45 88,4 99,8 3-Fold 87,5 99,6 89,35 99,75 86,95 99,95 4-Fold 88,55 99,1 89,1 99,9 87,25 99,75 5-Fold 87,95 99,3 89,25 99,55 88,3 99,65 Rata 88,61 99,33 89,36 99,66 87,88 99,81 Akurasi tertinggi untuk percobaan I pada panjang fragmen 0,5 Kbp terhadap 3-mers adalah 89,95% di fold-1, untuk 10 Kbp akurasinya 99,6% pada fold-3. Sedangkan untuk 4-mers panjang 0,5 Kbp akurasi tertinggi adalah 90,35% di fold- 2, pada panjang 10 Kbp 99,9% pada fold-4. Untuk 5-mers nilai akurasi tertinggi pada panjang 0,5 Kbp adalah 88,5% di fold-1, untuk panjang 10 Kbp 99,95% pada fold-3. Percobaan II: dataset organisme dikenal, 3-mers, 4-mers,5-mers, PCA 95%, 5-foldcross validation, panjang fragmen 0,5 Kbp dan 10 Kbp, 5-NN (Tabel 4). Tabel 4 Akurasi organisme dikenal menggunakan k=5 pada KNN (dalam %) F- 3-mers 4-mers 5-mers Fold/KBp 0,5 10 0,5 10 0, Fold 91,5 99,35 89,05 99,6 89,85 99,9 2-Fold 90,5 99,25 90,5 99,5 89,55 99,8 3-Fold 88,55 99,55 90,3 99,65 87,8 99,85 4-Fold 89,35 99,05 89,75 99,9 88,55 99,65 5-Fold 90,1 99,2 89,65 99,55 89,1 99,7 Rata 90 99,56 89,85 99,71 89,03 99,78 11

24 12 Percobaan III: dataset organisme dikenal, 3-mers, 4-mers,5-mers, PCA 95%, 5- foldcross validation, panjang fragmen 0,5 Kbp dan 10 Kbp, 7-NN (Tabel 5). Tabel 5 Akurasi organisme dikenal menggunakan k=7 pada KNN (dalam %) F- 3-mers 4-mers 5-mers Fold/KBp 0,5 10 0,5 10 0, Fold 91 99,3 89,35 99,6 90,7 99,85 2-Fold 90,95 99,3 91,6 99,55 90,3 99,75 3-Fold 89,3 99,5 90,7 99, ,9 4-Fold 89,5 98,9 89,3 99, ,75 5-Fold 90,2 99,3 90,55 99,4 89,7 99,7 Rata 90,19 99,26 90,3 99,63 89,74 99,79 Dari hasil akurasi di atas untuk organisme dikenal, setiap nilai fold tertinggi dari beragam nilai n-mers dan KNN akan digunakan untuk pengujian organisme tidak dikenal. Hasil akurasi selengkapnya untuk panjang fragmen 1 Kbp dan 5 Kbp dapat dilihat pada Lampiran 4. Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN Akurasi (%) NN 5-NN 7-NN Nilai k pada KNN 3mers 4mers 5mers Gambar 9 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 0.5 Kbp Akurasi yang digunakan diambil dari nilai rata-rata ke-5 fold. Dari Gambar 9 dapat disimpulkan bahwa semakin tinggi nilai k, maka semakin tinggi pula akurasi yang diperoleh. Walaupun, perbedaan akurasi antara k= 3, 5, dan 7 tidak terlalu jauh, tetapi dapat dilihat bahwa nilai k = 7 yang memiliki akurasi tertinggi. Sedangkan, nilai n pada n-mers untuk setiap panjang fragmen cukup memengaruhi nilai akurasi. Pada panjang fragmen 0,5 Kbp akurasi tertinggi berada pada n=4. Panjang fragmen 1 Kbp akurasi tertinggi saat n=4. Panjang fragmen 5 Kbp akurasi tertinggi pada n=5. Dan untuk panjang fragmen 10 Kbp akurasi tertinggi berada pada n=5. Sehingga dapat disimpulkan, untuk panjang fragmen 1 Kbp akurasi tertinggi pada saat n=4. Sedangkan panjang 5 Kbp, tertinggi pada n=5. Grafik selengkapnya dapat dilihat pada Lampiran 5.

25 13 Pengujian pada organisme tidak dikenal Tahapan pengujian dilakukan dengan mengambil akurasi tertinggi dari ke-5 fold pada organisme dikenal, lalu akurasi tersebut diubah menjadi data latih. Untuk data uji diambil dari organisme tidak dikenal. Kemudian data uji, diujikan ke data latih menggunakan algoritme KNN. Berikut merupakan hasil pengujian untuk organisme tidak dikenal (Tabel 4). Tabel 6 Hasil pengujian organisme tidak dikenal dengan PCA 95 (dalam %) Panjang 3-mers 4-mers 5-mers Fragmen k=3 k=5 k=7 0.5 Kbp 86,14 87,2 87,5 87,9 88,72 89,64 86,84 87,94 88,36 1 Kbp 91,58 92,1 92,26 92,98 93,46 93,44 90,5 92,14 92,24 5 Kbp 96,72 96,46 96,58 98,64 98,58 98,42 96,46 96,2 96,32 10 Kbp 98,2 98,12 98,14 99,16 99,2 99,32 99,44 99,56 99,56 Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme dikenal Perbandingan akurasi organisme menggunakan PCA dan tanpa PCA untuk organisme dikenal dapat dilihat pada Gambar 11. Secara umum, hasil akurasi yang diperoleh menggunakan PCA dan tanpa PCA tidak jauh berbeda. Untuk panjang fragmen 0,5 Kbp dan 5 Kbp akurasi PCA lebih tinggi. Tetapi untuk panjang 1 Kbp lebih tinggi akurasi tanpa PCA. Untuk panjang 10Kbp akurasinya sama. Sehingga dapat ditarik kesimpulan, walaupun dimensi matriks sudah direduksi tetapi akurasi menggunakan PCA dan tanpa PCA tidak berbeda jauh. Perbandingan Akurasi Organisme Dikenal Tanpa PCA PCA 95% 91,3 91,6 95,4 95,15 99,35 99,65 99,9 99,9 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Akurasi diambil dari 7-NN, 4-mers, dan nilai fold yang tertinggi Gambar 10 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme dikenal

26 14 Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme tidak dikenal Perbandingan akurasi organisme menggunakan PCA dan tanpa PCA untuk organisme tidak dikenal dapat dilihat pada Gambar 12. Hasil yang diperoleh tidak berbeda jauh dengan organisme dikenal. Untuk panjang fragmen 0,5 Kbp dan 5 Kbp akurasi PCA lebih tinggi. Tetapi untuk panjang 1 Kbp dan 10 Kbp lebih tinggi akurasi tanpa PCA. Sehingga dapat disimpulkan, walaupun dimensi matriks sudah direduksi tetapi akurasi menggunakan PCA dan tanpa PCA tidak berbeda jauh. Perbandingan Organisme Tidak Dikenal Tanpa PCA PCA 95% 89,44 89,64 93,76 93,44 98,28 98,42 99,34 99,32 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Akurasi diambil dari nilai 7-NN dan 4-mers (dalam %) Gambar 11 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme tidak dikenal Waktu training yang diperlukan dengan menggunakan PCA dan tanpa PCA Waktu komputasi pada saat testing ( pengujian organisme tidak dikenal) dapat dilihat di Tabel 7. Secara umum, waktu yang diperoleh pada tiap panjang fragmen yang telah direduksi menggunakan PCA mengalami penurunan. Tetapi, tanpa menggunakan PCA mengalami peningkatan. Untuk ekstrasi ciri 3-mers selisih waktu terkecil 5,196 detik pada panjang 1 Kbp. Selisih waktu terbesar 18,077 detik pada panjang 10 Kbp. Untuk ekstrasi ciri 4-mers selisih waktu terkecil 12,72 detik pada panjang 0.5 Kbp. Selisih waktu terbesar 36,013 detik pada panjang 10 Kbp. Untuk ekstrasi ciri 5-mers selisih waktu terkecil 39,534 detik pada panjang 0.5 Kbp. Selisih waktu terbesar 88,109 detik pada panjang 10 Kbp.

27 Tabel 7 Perbandingan waktu komputasi data testing (organisme tidak dikenal) dengan PCA dan tanpa PCA pada 7-NN (satuan dalam detik) Panjang PCA 95% Tanpa PCA fragmen 3-mers 4-mers 5-mers 3-mers 4-mers 5-mers 0,5 Kbp 7,001 21,711 80,362 12,416 34, ,896 1 Kbp 9,384 22,703 77,688 14,58 36, ,253 5 Kbp 6,72 12,883 62,863 14,782 37, , Kbp 3,44 9,408 44,337 21,517 45, ,446 Perbandingan Penelitian Terkait Berikut merupakan perbandingan terkait penelitian ini. Membandingkan penelitian Kusuma & Akiyama 2011, Ellyana 2014, dan penelitian yang telah dilakukan (Tabel 6 dan Tabel 8). Penelitian Kusuma & Akiyama (2011) menerapkan algoritme characterization vector dalam ekstrasi fitur dan mengimplementasikan SVM sebagai classifier dan menghasilkan akurasi tertinggi sebesar 92% pada panjang fragmen. Sedangkan, Ellyana (2014) menerapkan spaced n-mers sebagai ekstrasi fitur dan KNN sebagai classifier dan mendapatkan akurasi tertinggi sebesar 99.65%. Penelitian ini menerapkan k-mers sebagai ekstrasi ciri kemudian direduksi dimensinya menggunakan principal component analysis dan KNN sebagai classifier dan menghasilkan akurasi tertinggi sebesar 99,9%. Juga dapat disimpulkan pada akurasi yang diperoleh pada penelitian ini lebih tinggi dari yang sebelumnya. Tabel 8 Perbandingan Penelitian terkait organisme tidak dikenal Panjang Fragmen 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Kusuma (2011) 81.00% 85.00% 90.00% 92.00% Ellyana (2014) 88.77% 95.68% 99.17% 99.65% Penelitian ini (2015) 91.60% 95.15% 99.65% 99.90% 15 Tabel 9 Perbandingan Penelitian terkait organisme dikenal Panjang Fragmen 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Kusuma (2011) 78.00% 80.00% 86.00% 87.00% Ellyana (2014) 86.11% 91.77% 96.60% 97.96% Penelitian ini (2015) 89.64% 93.44% 98.42% 99.32%

28 16 SIMPULAN DAN SARAN Simpulan Pada penelitian ini dilakukan klasifikasi fragmen metagenom menggunakan metode K-Nearest Neighbor dan direduksi dimensi menggunakan Principal Component Analysis. Untuk nilai k yang terbaik pada KNN adalah 7-NN. Untuk nilai n tertinggi pada n-mers adalah 4-mers. Akurasi pada organisme dikenal dari fold terbaik dengan menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp sampai10 Kbp berkisar antara 91.6% sampai 99,9%. Tanpa PCA diperoleh akurasi berkisar antara 91.3% sampai 99.9%. Untuk organisme tidak dikenal dengan PCA 95% akurasi yang diperoleh berkisar antara 89.64% sampai 99.32%. Sedangkan tanpa PCA akurasi yang diperoleh berkisar antara 89.44% sampai 99.34%. Selain itu, waktu komputasi dengan menggunakan PCA mengalami penurunan walaupun panjang fragmen semakin meningkat. Selisih waktu komputasi setelah direduksi mencapai 88,109 detik pada 5-mers dengan panjang 10 Kbp. Hasil akurasi yang diperoleh seluruhnya cukup baik, baik menggunakan PCA dan tanpa PCA. PCA mampu menghasilkan akurasi yang tidak berbeda jauh dengan tanpa PCA, selain itu waktu komputasi juga dapat direduksi. Setelah dibandingkan dengan penelitian terkait Kusuma & Akiyama 2011, Ellyana 2014, dapat dilihat bahwa akurasi yang diperoleh pada penelitian ini lebih tinggi dari penelitian sebelumnya. Saran Saran untuk penelitian selanjutnya: 1. Dataset dicobakan menggunakan organisme yang lebih banyak dengan kelas yang lebih banyak. 2. Menggunakan metode klasifikasi, dan reduksi dimensi yang berbeda. DAFTAR PUSTAKA Ellyana, F Klasifikasi Fragmen Metagenom Menggunakan Fitur Spaced N- Mers dan K-Nearest Neighbor [skripsi]. Bogor(ID): Institut Pertanian Bogor. Han J, Kamber M, Pei J Data Mining Concepts and Techniques Third Edition. USA: Morgan Kaufmann. hlm

29 Hsu AL, Halgamuge SK Enhancement of topology preservation and hierarchical dynamic self-organizing maps for data visualisation. International Journal of Approximate Reasoning. 32(2003): Huson DH, Auch AF. Qi J, Schuster SC MEGAN analysis of metagenomic data. Genome Research. 17 : doi : /gr/ Johnson RA, Wichern DW Applied Multivariate Statistical Analysis-Sixth Edition. (US): Pearson Education, Inc. Kusuma WA, Akiyama Y Metagenome fragment binning based on characterization vector. International Conference on Bioinformatics and Biomedical Technology (ICBBT 2011); 2011 Mar 25 27; Sanya, China. Larose DT DiscoveringKnowledge in Data:An Introduction to Data Mining.New Jersey (US): Wiley. McHardy AC, Martín HG, Tsirigos A, Hugenholtz P, Rigoutsos I Accurate phylogonetic classification of variabel-length DNA fragments. Nature Methods. 4(1): doi: /nmeth976. Overbeek, MV Pengelompokan Fragmen Metagenom Dengan Metode Growing Self Organizing Map [tesis]. Bogor (ID): Institut Pertanian Bogor. Richter DC, Ott F, Auch AF, Schmid R, Huson DH MetaSim-A Sequencing Simulator for Genomics and Metagenomics. PLoS ONE 3(10): e3373.doi: /journal.pone Smith LI A tutorial on Principal Component Analysis. [26 Februari 2002] Song Y, Huang J, Zhou D, Zha H, Giles CL IKNN: Informative k-nearest neighborpattern classification.knowledge Discovery in Databases: PKDD hlm Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO TETRA : a web service and stand-alone program for the analysis and comparison of tetranucleotide usage pattern in sequence DNAs. BMC Informatics. 5(163). doi: / Wu H PCA-Based Linear Combinations Of Oligonucleotide Frequencies For Metagenomic Dna Fragment Binning.Computational Intelligence in Bioinformatics and Computational Biology hlm

30 18 Lampiran 1 Dataset organisme tidak dikenal Species Agrobacterium radiobacter K84 chromosome 1 Agrobacterium tumefaciens str. C58 chromosome linear Agrobacterium vitis S4 chromosome 2 Bacillus thuringiensis str Al Hakam Bacillus subtilis subsp. Subtilis str 168 Bacillus pumilus SAFR-032 Staphylococcus carnosus subsp. Carnosus Staphylococcus saprophyticus subsp. Saprophyticus ATCC Staphylococcus Lugdunensis HKU09-01 Genus Agrobacterium Bacillus Staphylococcus Lampiran 2 Jumlah Fragmen tiap organisme dikenal Genus Nama Organisme Jumlah Fragmen Agrobacterium radiobacter K chromose Agrobacterium Agrobacterium tumefaciens str. C58 chromosome circular Agrobacterium vitis S4 chromosome Bacillus Staphylococcus Bacillus amyloliquefaciens FZB42 Bacillus anthracis str. Ames Ancestor Bacillus cereus 03BB102 Bacillus pseudofirmus OF4 chromosome Staphylococcus aureus subsp. Aureus JH1 Staphylococcus epidermidis ATCC Staphylococcus JCSC1435 haemolyticus

31 19 Lampiran 3 Jumlah Fragmen tiap organisme tidak dikenal Genus Nama Organisme Jumlah Fragmen Agrobacterium radiobacter K chromosome 1 Agrobacterium Agrobacterium tumefaciens str. C chromosome linear Agrobacterium vitis S4 chromosome Bacillus thuringiensis str Al Hakam 550 Bacillus Bacillus subtilis subsp. Subtilis str Bacillus pumilus SAFR Staphylococcus carnosus subsp. 550 Carnosus Staphylococcus Staphylococcus saprophyticus subsp. 550 Saprophyticus ATCC Staphylococcus Lugdunensis HKU Lampiran 4 Akurasi yang diperoleh untuk organisme dikenal Tabel 10 Akurasi organisme dikenal menggunakan k=3 panjang 1 Kbp & 5 Kbp (dalam%) F- 3-mers 4-mers 5-mers Fold/KBp Fold 93,2 98,55 94,1 94,1 94,1 99,5 2-Fold 94,55 98, ,05 3-Fold 93,95 98,9 94,8 94,65 94,65 99,5 4-Fold 93, ,05 94,05 94,05 99,55 5-Fold 93,7 98,85 95,2 94,35 95,2 99,75 Rata 93,82 98,77 94,63 94,23 94,63 99,47 Tabel 11 Akurasi organisme dikenal menggunakan k=5 panjang 1 Kbp & 5 Kbp (dalam%) F- 3-mers 4-mers 5-mers Fold/KBp Fold 93,9 98,45 94,7 99, ,45 2-Fold 94,3 98,35 93,8 99,25 94,25 99,15 3-Fold 94,6 98,8 94, ,6 99,45 4-Fold 93,95 99,05 95,1 98,7 94,4 99,45 5-Fold 94,2 98,7 95,55 99,2 94,85 99,45 Rata 94,19 98,67 94,81 99,14 94,62 99,39

32 20 Tabel 12 Akurasi organisme dikenal menggunakan k=7 panjang 1 Kbp & 5 Kbp (dalam%) F- 3-mers 4-mers 5-mers Fold/KBp Fold 93,2 98,55 94,75 99,65 95,45 99,4 2-Fold 94,65 98,3 94,2 99,2 94,6 99,15 3-Fold 94,1 98,8 95,15 99,05 94,6 99,5 4-Fold 93,9 98,75 95,15 98,9 94,65 99,05 5-Fold 93,95 98,4 95,05 99,2 94,8 99,3 Rata 93,96 98,56 94,86 99,2 94,82 99,28 Lampiran 5 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN Akurasi (%) NN 5-NN 7-NN 3mers 4mers 5mers Nilai k pada KNN Gambar 12 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 1 Kbp Akurasi (%) NN 5-NN 7-NN 3mers 4mers 5mers Nilai k pada KNN Gambar 13 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 5 Kbp

33 Akurasi (%) NN 5-NN 7-NN 3mers 4mers 5mers Nilai k pada KNN Gambar 14 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 10 Kbp

34 22 RIWAYAT HIDUP Penulis dilahirkan di Medan, Sumatera Utara pada tanggal 12 Februari 1992 dari Bapak Elman Simangunsong, SH, MH dan Ibu Dra Sorta Mariany Sibuea. Penulis merupakan putri bungsu dari 5 bersaudara. Penulis menyelesaikan pendidikan menengah atas di SMA Negeri 3 Medan pada tahun 2009 dan melanjutkan pendidikan diploma 3 di Institut Pertanian Bogor melalui jalur undangan Jurusan Manajemen Informatika dan menyelesaikannya pada tahun Kemudian pada tahun yang sama, penulis terdaftar sebagai mahasiswa Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Institut Pertanian Bogor dan bekerja sebagai guru komputer (Oktober Juni 2014) di SD Katolik Mardi Yuana Bogor. Penulis merupakan pengurus aktif di Komunitas Mahasiswa Kristen Alih Jenis IPB periode

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER

PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER FERDINAN ANDREAS MANGASI SIMAMORA DEPARTEMEN ILMU KOMPUTER FAKULTAS

Lebih terperinci

Klasifikasi Metagenom dengan Metode Naïve Bayes Classifier. Metagenome Classification Using Naïve Bayes Classifier Method

Klasifikasi Metagenom dengan Metode Naïve Bayes Classifier. Metagenome Classification Using Naïve Bayes Classifier Method Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 3 Nomor 1 halaman 9-18 ISSN: 2089-6026 Klasifikasi Metagenom dengan Metode Naïve Bayes Classifier Metagenome Classification Using

Lebih terperinci

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016 PERNYATAAN

Lebih terperinci

OPTIMASI PENGEKSTRAKSI FITUR SPACED K-MERS FREKUENSI MENGGUNAKAN ALGORITME GENETIKA PADA PENGKLASIFIKASIAN FRAGMEN METAGENOME ARINI AHA PEKUWALI

OPTIMASI PENGEKSTRAKSI FITUR SPACED K-MERS FREKUENSI MENGGUNAKAN ALGORITME GENETIKA PADA PENGKLASIFIKASIAN FRAGMEN METAGENOME ARINI AHA PEKUWALI OPTIMASI PENGEKSTRAKSI FITUR SPACED K-MERS FREKUENSI MENGGUNAKAN ALGORITME GENETIKA PADA PENGKLASIFIKASIAN FRAGMEN METAGENOME ARINI AHA PEKUWALI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN

PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN Herfina 1) 1) Program Studi Ilmu Komputer, FMIPA Universitas Pakuan Jl. Pakuan PO BOX 452, Ciheuleut Bogora email : herfinario@yahoo.com

Lebih terperinci

Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil

Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil Ronny Susetyoko, Elly Purwantini Politeknik Elektronika Negeri Surabaya

Lebih terperinci

PENGENALAN WAJAH MENGGUNAKAN ALGORITMA EIGENFACE DAN EUCLIDEAN DISTANCE

PENGENALAN WAJAH MENGGUNAKAN ALGORITMA EIGENFACE DAN EUCLIDEAN DISTANCE PENGENALAN WAJAH MENGGUNAKAN ALGORITMA EIGENFACE DAN EUCLIDEAN DISTANCE Widodo Muda Saputra, Helmie Arif Wibawa, S.Si, M.Cs, dan Nurdin Bahtiar, S.Si, M.T Fakultas Sains dan Matematika, Jurusan Ilmu Komputer

Lebih terperinci

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN

Lebih terperinci

PERBANDINGAN KINERJA BEBERAPA METODE KLASIFIKASI HASIL REDUKSI DATA BERDIMENSI TINGGI

PERBANDINGAN KINERJA BEBERAPA METODE KLASIFIKASI HASIL REDUKSI DATA BERDIMENSI TINGGI ISSN 1858-4667 JURNAL LINK Vol 16/No. 1/Februari 212 PERBANDINGAN KINERJA BEBERAPA METODE KLASIFIKASI HASIL REDUKSI DATA BERDIMENSI TINGGI Ronny Susetyoko 1, Elly Purwantini 2 1,2 Departemen Teknik Elektro,

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) ARINY

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) ARINY KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) ARINY DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN

Lebih terperinci

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor PENGENALAN KADAR TOTAL PADAT TERLARUT PADA BUAH BELIMBING BERDASAR CITRA RED-GREEN-BLUE MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS (PCA) SEBAGAI EKSTRAKSI CIRI DAN KLASIFIKASI K-NEAREST NEIGHBORHOOD (KNN)

Lebih terperinci

PENGELOMPOKAN FRAGMEN METAGENOM DENGAN METODE GROWING SELF ORGANIZING MAP MARLINDA VASTY OVERBEEK

PENGELOMPOKAN FRAGMEN METAGENOM DENGAN METODE GROWING SELF ORGANIZING MAP MARLINDA VASTY OVERBEEK PENGELOMPOKAN FRAGMEN METAGENOM DENGAN METODE GROWING SELF ORGANIZING MAP MARLINDA VASTY OVERBEEK SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES

UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES 1 Uji Kinerja Face Recognition Menggunakan Eigenfaces UJI KINERJA FACE RECOGNITION MENGGUNAKAN EIGENFACES ABDUL AZIS ABDILLAH 1 1STKIP Surya, Tangerang, Banten, abdillah.azul@gmail.com Abstrak. Pada paper

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAPREDUCE FATHURROHMAN

METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAPREDUCE FATHURROHMAN METAGENOME FRAGMENT CLUSTERING MENGGUNAKAN ALGORITME PILLAR K-MEANS SECARA PARALEL DALAM MODEL MAPREDUCE FATHURROHMAN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016 PERNYATAAN MENGENAI TESIS

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN KNN DAN PNN DENGAN EKSTRAKSI FITUR GRAY LEVEL CO-OCCURRENCE MATRIX (GLCM) PADA VARIASI PANJANG FRAGMEN

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN KNN DAN PNN DENGAN EKSTRAKSI FITUR GRAY LEVEL CO-OCCURRENCE MATRIX (GLCM) PADA VARIASI PANJANG FRAGMEN KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN KNN DAN PNN DENGAN EKSTRAKSI FITUR GRAY LEVEL CO-OCCURRENCE MATRIX (GLCM) PADA VARIASI PANJANG FRAGMEN MUHAMMAD DHIRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA

Lebih terperinci

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Jurnal Ilmiah Ilmu Komputer, Vol 15 No. 2, Desember 2010 : 38-41 Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Vera Yunita, Yeni Herdiyeni Departemen Ilmu

Lebih terperinci

Identifikasi Daun Shorea menggunakan KNN dengan Ekstraksi Fitur 2DPCA. Shorea Leaves Identification using KNN with 2DPCA Feature Extraction

Identifikasi Daun Shorea menggunakan KNN dengan Ekstraksi Fitur 2DPCA. Shorea Leaves Identification using KNN with 2DPCA Feature Extraction Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 3 Nomor 1 halaman 19-27 ISSN: 2089-6026 Identifikasi Daun Shorea menggunakan KNN dengan Ekstraksi Fitur 2DPCA Shorea Leaves Identification

Lebih terperinci

KLASIFIKASI METAGENOM DENGAN METODE NAÏVE BAYES CLASSIFIER DIAN KARTIKAUTAMI

KLASIFIKASI METAGENOM DENGAN METODE NAÏVE BAYES CLASSIFIER DIAN KARTIKAUTAMI KLASIFIKASI METAGENOM DENGAN METODE NAÏVE BAYES CLASSIFIER DIAN KARTIKAUTAMI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK

Lebih terperinci

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

METODE PENELITIAN HASIL DAN PEMBAHASAN

METODE PENELITIAN HASIL DAN PEMBAHASAN 5. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 1, Januari 2018, hlm. 184-189 http://j-ptiik.ub.ac.id Klasifikasi Standar Produk Baja PT. Krakatau Steel (Persero)

Lebih terperinci

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Yuandri Trisaputra, Indriyani, Shellafuri Mardika Biru, Muhammad Ervan Departemen Ilmu Komputer, FMIPA,

Lebih terperinci

KOMPRESI CITRA DIGITAL DENGAN MENGGUNAKAN HEBBIAN BASED PRINCIPAL COMPONENT ANALYSIS

KOMPRESI CITRA DIGITAL DENGAN MENGGUNAKAN HEBBIAN BASED PRINCIPAL COMPONENT ANALYSIS KOMPRESI CITRA DIGITAL DENGAN MENGGUNAKAN HEBBIAN BASED PRINCIPAL COMPONENT ANALYSIS 1 Sofyan Azhar Ramba 2 Adiwijaya 3 Andrian Rahmatsyah 12 Departemen Teknik Informatika Sekolah Tinggi Teknologi Telkom

Lebih terperinci

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 1 PERNYATAAN MENGENAI

Lebih terperinci

CLUSTERING FRAGMEN METAGENOM MENGGUNAKAN K-MEANS DAN EKSTRAKSI FITUR GLCM DENGAN VARIASI COVERAGE GAZA VIRYAGIE

CLUSTERING FRAGMEN METAGENOM MENGGUNAKAN K-MEANS DAN EKSTRAKSI FITUR GLCM DENGAN VARIASI COVERAGE GAZA VIRYAGIE CLUSTERING FRAGMEN METAGENOM MENGGUNAKAN K-MEANS DAN EKSTRAKSI FITUR GLCM DENGAN VARIASI COVERAGE GAZA VIRYAGIE DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO ANALISIS PERBANDINGAN PROSES CLUSTER MENGGUNAKAN K- MEANS CLUSTERING DAN K-NEAREST NEIGHBOR PADA PENYAKIT DIABETES MELLITUS SKRIPSI RONNY BENEDIKTUS SIRINGORINGO 131421021 PROGRAM STUDI S1 ILMU KOMPUTER

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

Apa itu is K-Nearest Neighbor (KNN) Algorithm? K-Nearest Neighbor Pendahuluan K-Nearest Neighbour atau KNN adalah salah dari algoritma instance based learning atau case-based reasoning. Definisi case based reasoning: KNN digunakan dalam banyak aplikasi

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini akan diuraikan mengenai landasan teori yang akan digunakan dalam bab selanjutnya. 2.1 Matriks Sebuah matriks, biasanya dinotasikan dengan huruf kapital tebal seperti A,

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

SISTEM PINTU OTOMATIS BERDASARKAN PENGENALAN WAJAH MENGGUNAKAN METODE NEAREST FEATURE LINE

SISTEM PINTU OTOMATIS BERDASARKAN PENGENALAN WAJAH MENGGUNAKAN METODE NEAREST FEATURE LINE SISTEM PINTU OTOMATIS BERDASARKAN PENGENALAN WAJAH MENGGUNAKAN METODE NEAREST FEATURE LINE Agus Budi Dharmawan 1), Lina 2) 1), 2) Teknik Informatika FTI - UNTARJakarta Jl S. Parman No.1, Jakarta 11440

Lebih terperinci

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 1 PERNYATAAN MENGENAI

Lebih terperinci

Identifikasi Jenis Kayu Menggunakan Support Vector Machine Berbasis Data Citra

Identifikasi Jenis Kayu Menggunakan Support Vector Machine Berbasis Data Citra Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 3 Nomor 1 halaman 1-8 ISSN: 2089-6026 Identifikasi Jenis Kayu Menggunakan Support Vector Machine Berbasis Data Citra Wood Type

Lebih terperinci

PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA

PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA 1 Muhammad Hafiz Ardiansyah, 2 Wahyu Nurjaya WK 1 Program Studi Teknik Informatika,

Lebih terperinci

PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB)

PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB) JIMT Vol. 12 No. 2 Desember 2016 (Hal 115-124) ISSN : 2450 766X PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB) Nurfajri 1,

Lebih terperinci

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier. The Use of Gaussian PCA Kernel in Solving Non Linier Multivariate Plot

Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier. The Use of Gaussian PCA Kernel in Solving Non Linier Multivariate Plot Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier Bernhard M. Wongkar 1, John S. Kekenusa 2, Hanny A.H. Komalig 3 1 Program Studi Matematika, FMIPA, UNSRAT Manado, bernhard.wongkar2011@gmail.com

Lebih terperinci

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012 ISSN: 2339-2541 JURNAL GAUSSIAN, Volume 3, Nomor 4, Tahun 2014, Halaman 831-838 Online di: http://ejournal-s1.undip.ac.id/index.php/gaussian PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR

Lebih terperinci

Hasil Ekstraksi Algoritma Principal Component Analysis (PCA) untuk Pengenalan Wajah dengan Bahasa Pemograman Java Eclipse IDE

Hasil Ekstraksi Algoritma Principal Component Analysis (PCA) untuk Pengenalan Wajah dengan Bahasa Pemograman Java Eclipse IDE Hasil Ekstraksi Algoritma Principal Component Analysis (PCA) untuk Pengenalan dengan Bahasa Pemograman Java Eclipse IDE Fiqih Ismawan Dosen Program Studi Teknik Informatika, FMIPA Universitas Indraprasta

Lebih terperinci

ISSN: JURNAL GAUSSIAN, Volume 3, Nomor 3, Tahun 2014, Halaman Online di:

ISSN: JURNAL GAUSSIAN, Volume 3, Nomor 3, Tahun 2014, Halaman Online di: ISSN: 339-541 JURNAL GAUSSIAN, Volume 3, Nomor 3, Tahun 014, Halaman 313-3 Online di: http://ejournal-s1.undip.ac.id/index.php/gaussian PERBANDINGAN ANALISIS KLASIFIKASI MENGGUNAKAN METODE K-NEAREST NEIGHBOR

Lebih terperinci

KLASIFIKASI KEIKUTSERTAAN KELUARGA DALAM PROGRAM KELUARGA BERENCANA (KB) DI KOTA SEMARANG MENGGUNAKAN METODE MARS DAN FK-NNC

KLASIFIKASI KEIKUTSERTAAN KELUARGA DALAM PROGRAM KELUARGA BERENCANA (KB) DI KOTA SEMARANG MENGGUNAKAN METODE MARS DAN FK-NNC KLASIFIKASI KEIKUTSERTAAN KELUARGA DALAM PROGRAM KELUARGA BERENCANA (KB) DI KOTA SEMARANG MENGGUNAKAN METODE MARS DAN FK-NNC SKRIPSI Oleh : ARYONO RAHMAD HAKIM NIM : 24010211140104 DEPARTEMEN STATISTIKA

Lebih terperinci

PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO)

PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO) PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO) Levina Fitri Rahmawati, Isnandar Slamet, dan Diari Indriati Program

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

Minggu XI ANALISIS KOMPONEN UTAMA. Utami, H

Minggu XI ANALISIS KOMPONEN UTAMA. Utami, H Minggu XI ANALISIS KOMPONEN UTAMA Utami, H Outline 1 Pendahuluan 2 Tujuan 3 Analisis Komponen Utama 4 Contoh Utami, H Minggu XIANALISIS KOMPONEN UTAMA 2 / 16 Outline 1 Pendahuluan 2 Tujuan 3 Analisis Komponen

Lebih terperinci

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA TESIS KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA MEGA KARTIKA SARI No. Mhs : 135302022/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCASARJANA UNIVERSITAS

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( )

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( ) Sidang Tugas Akhir September 2009 Implementasi Metode Ant Colony Optimization untuk Pemilihan Fitur pada Kategorisasi Dokumen Teks DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Penelitian mengenai pengenalan wajah termotivasi oleh banyaknya aplikasi praktis yang diperlukan dalam identifikasi wajah. Pengenalan wajah sebagai salah satu dari teknologi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini akan dibahas teori yang berkaitan dengan pemrosesan data untuk sistem pengenalan gender pada skripsi ini, meliputi cropping dan resizing ukuran citra, konversi citra

Lebih terperinci

(α = 0.01). Jika D i > , maka x i atau pengamatan ke-i dianggap pencilan (i = 1, 2,..., 100). HASIL DAN PEMBAHASAN

(α = 0.01). Jika D i > , maka x i atau pengamatan ke-i dianggap pencilan (i = 1, 2,..., 100). HASIL DAN PEMBAHASAN 4 karena adanya perbedaan satuan pengukuran antar peubah. 1.. Memastikan tidak adanya pencilan pada data dengan mengidentifikasi adanya pencilan pada data. Pengidentifikasian pencilan dilakukan dengan

Lebih terperinci

PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA

PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Adi Radili 1, Suwanto Sanjaya 2 1,2 Teknik Informatika UIN Sultan Syarif Kasim Riau Jl. H.R. Soebrantas no. 155 KM. 18

Lebih terperinci

S 10 Studi Simulasi Tentang Penerapan Grafik Pengendali Berdasarkan Analisis Komponen Utama (Principal Component Analysis)

S 10 Studi Simulasi Tentang Penerapan Grafik Pengendali Berdasarkan Analisis Komponen Utama (Principal Component Analysis) PROSIDING ISBN : 978 979 6353 6 3 S 0 Studi Simulasi Tentang Penerapan Grafik Pengendali Berdasarkan Analisis Komponen Utama (Principal Component Analysis) Wirayanti ), Adi Setiawan ), Bambang Susanto

Lebih terperinci

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1 Abstract

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1  Abstract Penerapan K-Optimal Pada Algoritma Knn untuk Prediksi Kelulusan Tepat Waktu Mahasiswa Program Studi Ilmu Komputer Fmipa Unlam Berdasarkan IP Sampai Dengan Semester 4 Mutiara Ayu Banjarsari 1, H. Irwan

Lebih terperinci

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Jurnal Teknik Komputer Unikom Komputika Volume 3, No.2-2014 TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Selvia Lorena Br Ginting 1), Wendi Zarman

Lebih terperinci

EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA

EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS

Lebih terperinci

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz Data yang pada awalnya berupa chanel stereo diubah ke dalam chanel mono. Kemudian data tersebut disimpan dengan file berekstensi WAV. Praproses Pada tahap ini dilakukan ekstraksi ciri menggunakan metode

Lebih terperinci

PEMANFAATAAN BIOMETRIKA WAJAH PADA SISTEM PRESENSI MENGGUNAKAN BACKPROPAGATION NEURAL NETWORK

PEMANFAATAAN BIOMETRIKA WAJAH PADA SISTEM PRESENSI MENGGUNAKAN BACKPROPAGATION NEURAL NETWORK PEMANFAATAAN BIOMETRIKA WAJAH PADA SISTEM PRESENSI MENGGUNAKAN BACKPROPAGATION NEURAL NETWORK Program Studi Matematika FMIPA Universitas Negeri Semarang Abstrak. Saat ini, banyak sekali alternatif dalam

Lebih terperinci

100% Akurasi = (11) Lingkungan Pengembangan

100% Akurasi = (11) Lingkungan Pengembangan Algoritme Dekomposisi Wavelet Dekomposisi wavelet Haar dapat dijelaskan sebagai berikut : 1 Transformasi linear digunakan untuk mengubah ruang warna secara linear menjadi warna dasar. Karena citra yang

Lebih terperinci

ANALISA PENGUKURAN SIMILARITAS BERDASARKAN JARAK MINIMUM PADA PENGENALAN WAJAH 2D MENGGUNAKAN DIAGONAL PRINCIPAL COMPONENT ANALYSIS

ANALISA PENGUKURAN SIMILARITAS BERDASARKAN JARAK MINIMUM PADA PENGENALAN WAJAH 2D MENGGUNAKAN DIAGONAL PRINCIPAL COMPONENT ANALYSIS ANALISA PENGUKURAN SIMILARITAS BERDASARKAN JARAK MINIMUM PADA PENGENALAN WAJAH 2D MENGGUNAKAN DIAGONAL PRINCIPAL COMPONENT ANALYSIS Fetty Tri Anggraeny, Wahyu J.S Saputra Jurusan Teknik Informatika, Universitas

Lebih terperinci

MODIFIKASI PEMBENTUKAN SPECTRUM PADA METODE SPECTRAL ALIGNMENT UNTUK PENGOREKSIAN DNA SEQUENCING ERROR GERRY INDRAMADES ALMI

MODIFIKASI PEMBENTUKAN SPECTRUM PADA METODE SPECTRAL ALIGNMENT UNTUK PENGOREKSIAN DNA SEQUENCING ERROR GERRY INDRAMADES ALMI MODIFIKASI PEMBENTUKAN SPECTRUM PADA METODE SPECTRAL ALIGNMENT UNTUK PENGOREKSIAN DNA SEQUENCING ERROR GERRY INDRAMADES ALMI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

Kelas. Kelas. p q r s t u v w x y Level Transformasi.

Kelas. Kelas. p q r s t u v w x y Level Transformasi. Fitur yang digunakan untuk pelatihan pada algoritme VFI5 diperoleh dari tiap-tiap piksel pada citra tanda tangan. Fitur pada pelatihan yang semula berupa matriks berukuran 3 4 piksel disusun menjadi matriks

Lebih terperinci

PENGEMBANGAN MODEL PENGENALAN WAJAH DENGAN JARAK EUCLID PADA RUANG EIGEN DENGAN 2DPCA PRATIWI. Final

PENGEMBANGAN MODEL PENGENALAN WAJAH DENGAN JARAK EUCLID PADA RUANG EIGEN DENGAN 2DPCA PRATIWI. Final PENGEMBANGAN MODEL PENGENALAN WAJAH DENGAN JARAK EUCLID PADA RUANG EIGEN DENGAN 2DPCA PRATIWI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2010 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Penentuan Jurusan Sekolah Menengah Atas Menggunakan Metode K-Nearest Neighbor Classifier Pada SMAN 16 Semarang

Penentuan Jurusan Sekolah Menengah Atas Menggunakan Metode K-Nearest Neighbor Classifier Pada SMAN 16 Semarang 1 Penentuan Jurusan Sekolah Menengah Atas Menggunakan Metode K-Nearest Neighbor Classifier Pada SMAN 16 Semarang Ari Sulistiyo 1 1,3 Jurusan Teknik Informatika, FASILKOM UDINUS Jln. Nakula 1 No.5-11 Semarang

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam BAB I PENDAHULUAN 1.1 LATAR BELAKANG Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya. Data mining sendiri

Lebih terperinci

BAB III DATA DAN METODOLOGI

BAB III DATA DAN METODOLOGI 17 BAB III DATA DAN METODOLOGI 3.1 Data Pada penelitian ini, ada dua jenis data yang akan digunakan. Jenis data pertama adalah data curah hujan bulanan dan yang kedua adalah data luaran GCM. 3.1.1 Data

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

DAFTAR ISI. BAB I PENDAHULUAN 1.1 Latar Belakang Tujuan Penelitian Manfaat Penelitian... 4

DAFTAR ISI. BAB I PENDAHULUAN 1.1 Latar Belakang Tujuan Penelitian Manfaat Penelitian... 4 DAFTAR ISI Halaman Judul... Halaman Pengesahan... Halaman Pernyataan... Halaman Pernyataan Publikasi... Kata Pengantar... Daftar Isi... Daftar Gambar... Daftar Tabel... Daftar Arti Lambang... Daftar Singkatan...

Lebih terperinci

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR Eko Prasetyo 1), Rifki Fahrial Zainal 2), Harunur Rosyid 3) 1), 2) Teknik Informatika Universitas Bhayangkara Surabaya Jl. A. Yani 114, Surabaya, 60231 3) Teknik

Lebih terperinci

ADAPTIVE NEURO FUZZY INFERENCE SYSTEM (ANFIS) UNTUK DIAGNOSA DAN TATALAKSANA PENYAKIT DEMAM BERDARAH DENGUE MUHAMMAD SYAFII

ADAPTIVE NEURO FUZZY INFERENCE SYSTEM (ANFIS) UNTUK DIAGNOSA DAN TATALAKSANA PENYAKIT DEMAM BERDARAH DENGUE MUHAMMAD SYAFII ADAPTIVE NEURO FUZZY INFERENCE SYSTEM (ANFIS) UNTUK DIAGNOSA DAN TATALAKSANA PENYAKIT DEMAM BERDARAH DENGUE MUHAMMAD SYAFII SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 ABSTRAK Kematian akibat

Lebih terperinci

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan BAB I PENDAHULUAN Sebagai negara berkembang, perekonomian Indonesia didorong untuk tumbuh dengan pesat. Salah satu indikator pertumbuhan perekonomian yang baik adalah tingginya daya beli masyarakat. Tingginya

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA

ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA ANALISIS BIPLOT UNTUK MEMETAKAN MUTU SEKOLAH YANG SESUAI DENGAN NILAI UJIAN NASIONAL SUJITA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Bab ini menjelaskan mengenai analisis dan proses perancangan. Bagian analisis meliputi deskripsi umum sistem yang dibangun, spesifikasi kebutuhan perangkat lunak, data

Lebih terperinci

KAJIAN PENGARUH NOISE DALAM ANALISIS KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH YANG BERKORELASI FAJRIANZA ADI NUGRAHANTO

KAJIAN PENGARUH NOISE DALAM ANALISIS KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH YANG BERKORELASI FAJRIANZA ADI NUGRAHANTO KAJIAN PENGARUH NOISE DALAM ANALISIS KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH YANG BERKORELASI FAJRIANZA ADI NUGRAHANTO DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si PEMBUATAN APLIKASI DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD (Studi Kasus Data Akademik Jurusan Teknik Komputer-S1 Universitas Komputer Indonesia)

Lebih terperinci

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU

Lebih terperinci

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA

PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA PERBANDINGAN ANALISIS KLASIFIKASI ANTARA DECISION TREE DAN SUPPORT VECTOR MACHINE MULTICLASS UNTUK PENENTUAN JURUSAN PADA SISWA SMA (Studi Kasus Nilai Mata Pelajaran Pokok di SMA Negeri 1 Jepara) SKRIPSI

Lebih terperinci

PERBANDINGAN PENGENALAN WAJAH BERBASIS FITUR DAN BERBASIS CITRA DENGAN PRAPROSES ANALISIS KOMPONEN UTAMA ENDANG WOROKESTI

PERBANDINGAN PENGENALAN WAJAH BERBASIS FITUR DAN BERBASIS CITRA DENGAN PRAPROSES ANALISIS KOMPONEN UTAMA ENDANG WOROKESTI PERBANDINGAN PENGENALAN WAJAH BERBASIS FITUR DAN BERBASIS CITRA DENGAN PRAPROSES ANALISIS KOMPONEN UTAMA ENDANG WOROKESTI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011 PERNYATAAN MENGENAI TESIS

Lebih terperinci