KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG

Transkripsi

1 KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tulisan ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2015 Victoria Febrina Romauli Simangunsong NIM G

4 ABSTRAK VICTORIA FEBRINA ROMAULI SIMANGUNSONG. Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor. Dibimbing oleh WISNU ANANTA KUSUMA. Metagenomika adalah ilmu yang mempelajari tentang analisis metagenom yang materi genetiknya diperoleh langsung dari sampel lingkungan. Ketika mengsekuens sampel metagenom ini maka akan dihasilkan fragmen-fragmen. Pada saat fragmen-fragmen tersebut dirakit akan dihasilkan chimeric contigs atau gabungan fragmen dari berbagai organisme. Selanjutnya diperlukan proses binning yang bertujuan untuk mengklasifikasikan fragmen-fragmen tersebut ke dalam tingkat taksonomi tertentu. Pada penelitian ini peneliti melakukan klasifikasi fragmen metagenom yang diekstrasi menggunakan n-mers kemudian direduksi dimensinya menggunakan principal component analysis dan diklasifikasi menggunakan k- nearest neighbor. Nilai k yang terbaik pada KNN adalah 7. Nilai n tertinggi pada n-mers adalah 4. Akurasi pada organisme dikenal dari fold terbaik dengan menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp sampai 10 Kbp berkisar antara 91.6% sampai 99,9%. Untuk organisme tidak dikenal dengan PCA 95% tingkat akurasi berkisar antara 89.64% sampai 99.32%. Kata kunci : Fragmen metagenom,n-mers, PCA, KNN ABSTRACT VICTORIA FEBRINA ROMAULI SIMANGUNSONG. Fragments Metagenome Classification using Principal Component Analysis and K-Nearest Neighbor. Supervised by WISNU ANANTA KUSUMA. Metagenomics is a study of metagenom analysis which its genetic materials is obtained directly from environmental samples. The process of metagenome sequencing produce fragments from mixture organisms. Thus, assembling fragments directly will generate chimeric contigs. Furthermore, a bining process is required to classify these fragments into a particular taxonomic level. In this study, the classification of metagenome fragment were extracted using n-mers, reduced its dimension using principal component analysis and classified using k- nearest neighbor. The experiments were conducted from in the various fragment length from 0.5 Kbp to 10 Kbp. The best results were obtained using KNN with k=7 and implementing 4-mers frequency. The accuracies of classifying known organisms obtained using PCA 95% were ranged from 91.6% to 99.9%. Moreover, the accuracies were slightly decreased when classifying unknown organisms, from 89.64% to 99.32%. Keywords: Fragments metagenom, n-mers, PCA, KNN

5 KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji : 1 Aziz Kustiyo, SSi, MKom 2 Toto Haryanto, SKom, MSi

7 Judul Skripsi : Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor Nama : Victoria Febrina Romauli Simangunsong NIM : G Disetujui oleh Dr. Wisnu Ananta Kusuma, ST, MT Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi, MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Mei 2014 ini ialah Bioinformatika, dengan judul Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor. Terima kasih penulis ucapkan kepada Bapak Dr. Wisnu Ananta Kusuma, ST, MT selaku pembimbing. Bapak Aziz Kustiyo SSi, MKom dan Bapak Toto Haryanto SKom, MSi selaku penguji atas saran dan masukan untuk penelitian ini. Ungkapan terima kasih juga disampaikan kepada Bapak Elman Simangunsong SH, MH, dan Ibu Dra. Sorta Mariany Sibuea, serta seluruh keluarga, dan temanteman Alih Jenis Ilmu Komputer IPB angkatan 7 atas segala doa, dukungan semangat dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat. Bogor, Januari 2015 Victoria Febrina Romauli Simangunsong

9 DAFTAR ISI DAFTAR TABEL viii DAFTAR GAMBAR viii DAFTAR LAMPIRAN x PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Ruang Lingkup Penelitian 2 Manfaat Penelitian 3 METODE PENELITIAN 3 Data Metagenome NCBI 4 Ekstrasi Ciri 4 Normalisasi 5 Reduksi Dimensi dengan PCA 5 F-Fold Cross Validation 6 K-Nearest Neighbor 7 Pengujian dengan Organisme Tidak Dikenal 8 Analisis 8 Ruang Lingkup Sistem 8 HASIL DAN PEMBAHASAN 8 Penyiapan Data 8 Ekstrasi Ciri 9 Normalisasi 10 Reduksi Dimensi menggunakan PCA 10 F-Fold Cross Validation 10 Klasifikasi KNN 11 Akurasi 11 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN 12 Pengujian pada organisme tidak dikenal 13

10 Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme dikenal 13 Perbandingan Penelitian Terkait 15 SIMPULAN DAN SARAN 16 Simpulan 16 Saran 16 DAFTAR PUSTAKA 16 RIWAYAT HIDUP 22 DAFTAR TABEL 1 Organisme Dikenal 4 2 Dimensi yang diperoleh setelah direduksi dengan PCA 10 3 Akurasi organisme dikenal menggunakan k=3 pada KNN (dalam %) 11 4 Akurasi organisme dikenal menggunakan k=5 pada KNN (dalam %) 11 5 Akurasi organisme dikenal menggunakan k=7 pada KNN (dalam %) 12 6 Hasil pengujian organisme tidak dikenal dengan PCA 95 (dalam %) 13 7 Perbandingan waktu komputasi data testing (organisme tidak dikenal) dengan PCA dan tanpa PCA pada 7-NN (satuan dalam detik) 15 8 Perbandingan Penelitian terkait organisme tidak dikenal 15 9 Perbandingan Penelitian terkait organisme dikenal Akurasi organisme dikenal menggunakan k=3 panjang 1 Kbp & 5 Kbp (dalam%) Akurasi organisme dikenal menggunakan k=5 panjang 1 Kbp & 5 Kbp (dalam%) Akurasi organisme dikenal menggunakan k=7 panjang 1 Kbp & 5 Kbp (dalam%) 20 DAFTAR GAMBAR 1Metode Penelitian 3 2 Ekstrasi Ciri N-Mers 4 3 Ilustrasi proses normalisasi 5 4 Ilustrasi dimensi m x n 6 5 Ilustrasi 5-Fold Cross Validation 7 6 Hasil ekstrasi ciri n=3 panjang fragmen 0,5 Kbp 9 7 Screenshot file FASTA dibangkitkan menggunakan METASIM 9 8 Normalisasi 3-mers panjang 0,5Kbp 10 9 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 0.5 Kbp Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme dikenal 13

11 11 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme tidak dikenal Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 1 Kbp Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 5 Kbp Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 10 Kbp 21

12 DAFTAR LAMPIRAN 1 Dataset organisme tidak dikenal 18 2 Jumlah Fragmen tiap organisme dikenal 18 3 Jumlah Fragmen tiap organisme tidak dikenal 19 4 Akurasi yang diperoleh untuk organisme dikenal 19 5 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN 20

13 PENDAHULUAN Latar Belakang Penelitian tentang analisis metagenom dalam lingkup bioinformatika terus berkembang. Secara umum, analisis materi genetik dilakukan dengan cara membudidayakannya di laboratorium, kemudian di-sequencing dan dilakukan perakitan. Proses ini dilakukan untuk menghasilkan urutan rantai DNA yang berisi informasi genetik suatu organisme. Akan tetapi, dari banyak mikroorganisme hanya 1% yang dapat dikulturkan. Sisanya harus mengambil sampel langsung dari lingkungan. Ilmu yang mempelajari tentang analisis metagenom dan materi genetiknya diperoleh langsung dari sampel lingkungan disebut metagenomika (Wu 2008). Sampel ini ketika di-sequencing akan menghasilkan fragmen-fragmen. Fragmen-fragmen yang berasal dari berbagai organisme. Pada saat dilakukan perakitan fragmen-fragmen ini, akan menghasilkan chimeric contigs gabungan fragmen yang berasal dari organisme berbeda. Untuk itu diperlukan proses binning yang bertujuan untuk mengklasifikasikan fragmen-fragmen tersebut ke dalam tingkat taksonomi tertentu. Proses binning dapat dilakukan dengan dua pendekatan, yaitu pendekatan dengan homologi dan komposisi. Binning berdasarkan homologi dilakukan penjajaran sekuens dengan membandingkan fragmen metagenom dengan basis data sekuens National Centre for Biotechnology Information (NCBI), kemudian hasilnya akan disimpulkan pada level taksonomi. Penelitian metode yang menggunakan pendekatan homologi adalah BLAST (Wu 2008), dan MEGAN (Huson et al. 2007). Pendekatan yang kedua adalah, binning berdasarkan komposisi. Pendekatan komposisi tidak membandingkan sekuens kueri dengan sekuens referensi sehingga pengelompokannya lebih cepat dibandingkan dengan homologi. Pendekatan ini menggunakan pasangan basa hasil ekstrasi ciri sebagai masukkan untuk pembelajaran dengan observasi (unsupervised) atau pembelajaran dengan contoh (supervised) (Kusuma dan Akiyama 2011). Pembelajaran unsupervised digunakan ketika tidak diketahui label dari data yang harus dikelompokkan. Keluaran dari pendekatan ini adalah data yang telah dikelompokkan. Clustering termasuk ke dalam pembelajaran unsupervised. Adapun pembelajaran supervised, telah memiliki informasi mengenai label dari tiap-tiap kelompok. Klasifikasi termasuk dalam pembelajaran supervised. Penelitian metode yang menggunakan pembelajaran unsupervised yang diterapkan pada kasus metagenom adalah TETRA (Teeling et al. 2004), GSOM atau Growing Self Organizing (Hsu dan Halgamuge 2002; Overbeek 2013), SOC atau Self Organizing Clustering (Amano et al. 2007). Adapun metode pembelajaran supervised yang digunakan untuk menyelesaikan masalah metagenom adalah Naïve Bayessian Classification (Rosen et al. 2008) dan PhyloPythia (McHardy et al. 2007). Penelitian Kusuma dan Akiyama (2011) melakukan binning fragmen metagenom berdasarkan characterization vector. Penelitian ini menggunakan dua data set yang dibangkitkan menggunakan MetaSim (Richter et al. 2008). Untuk dataset organisme yang diketahui menggunakan sepuluh spesies dari tiga genus

14 2 dan dataset organisme baru menggunakan sembilan spesies dari tiga genus. Metode yang digunakan sebagai ekstrasi ciri adalah n-mers. Panjang fragmen yang digunakan 0.5 Kbp, 1 kbp, 5 kbp, 10 kbp. Akurasi yang didapat dengan menggunakan data latih adalah 81% sampai 92%. Adapun untuk data uji, akurasi didapat adalah 78% sampai dengan 87%. Secara umum, kinerja metode ini menurun untuk pengklasifikasian pada data uji. Salah satu alasan kesalahan pengklasifikasian karena adanya urutan rantai yang tumpang tindih dari spesies yang berbeda, tetapi berada dalam genus yang sama. Penelitian terkait juga dilakukan oleh Ellyana (2014) dengan melakukan pengklasifikasian fragmen metagenom menggunakan fitur spaced n-mers dan k-nearest neighbor. Hasil akurasi yang diperoleh untuk dataset organisme yang diketahui adalah 88.77% sampai 99.65%. Oleh karena itu, penelitian ini melakukan klasifikasi fragmen metagenom menggunakan n-mers sebagai ekstrasi ciri, kemudian dilakukan pereduksian dimensi menggunakan principal component analysis dan diklasifikasikan menggunakan algoritme k-nearest neighbor. Akurasi yang diperoleh akan dibandingkan dengan penelitian Ellyana (2014), dan Kusuma dan Akiyama (2011). Perumusan Masalah Berdasarkan latar belakang yang telah diuraikan, masalah yang akan diteliti dapat dirumuskan sebagai berikut: 1 Bagaimana pengaruh terhadap akurasi KNN? 2 Bagaimana pengaruh nilai k pada KNN terhadap hasil akurasi? 3 Bagaimana pengaruh nilai n pada n-mers terhadap hasil akurasi KNN? 4 Bagaimana hasil akurasi yang diterapkan pada organisme tidak dikenal? 5 Berapa lama waktu komputasi terhadap pengujian selama proses klasifikasi? Tujuan Penelitian Tujuan dari penelitian ini membuat model k-nearest neighbor dengan reduksi dimensi principal component analysis. Setelah itu hasilnya dibandingkan dengan penelitian sebelumnya. Ruang Lingkup Penelitian Ruang lingkup penelitian meliputi: 1. Data diperoleh dari NCBI yang dibangkitkan oleh perangkat lunak MetaSim. Dataset merepresentasikan organisme yang dikenal dengan organisme tidak dikenal. 2. Data yang digunakan merujuk pada penelitian Kusuma dan Akiyama (2011) & Ellyana (2014).

15 3. Panjang fragmen untuk dataset organisme yang dikenal dan organisme dikenal meliputi 0.5 kbp, 1 kbp, 5 kbp, dan 10 kbp. Dataset tersebut dipilih dari genus Agrobacterium, Bacillus, dan Staphylococcus. 4. Sekuens DNA direpresentasikan sebagai empat karakter A, T, G, dan C. Data berformat FASTA dan bebas error. 3 Manfaat Penelitian Penelitian ini diharapkan dapat membantu para peneliti dalam pengklasifikasian fragmen metagenom berdasarkan tingkat genus. METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 1 Mulai Data Metagenome NCBI Generate Data Ekstrasi Ciri Normalisasi Data Uji KNN Reduksi PCA 95% Pembagian Data Data Latih F-Fold Cross Validation Data Organisme Tidak Dikenal Ekstrasi Ciri Normalisasi Eigenvector Model terbaik Analisis Selesai Gambar 1 Metode Penelitian

16 4 Data Metagenome NCBI Data diunduh dari situs NCBI (National Center for Biotechnology Information) pada ftp://ftp.ncbi.nlm.nih.gov/genomes/bacteria/all.fna.tar.gz. Kemudian data metagenom dibangkitkan menggunakan MetaSim, dengan format FASTA. Dataset terdiri atas dataset organisme dikenal dan dataset organisme tidak dikenal. Dataset organisme latih terdiri atas sepuluh spesies yang dibagi menjadi data latih dan data uji dapat dilihat pada Tabel 1. Adapun dataset organisme tidak dikenal terdiri atas sembilan spesies (Lampiran 1). Panjang fragmen untuk setiap dataset terdiri atas 0.5 Kbp, 1 Kbp, 5 Kbp, dan 10 Kbp. Jumlah fragmen untuk dataset organisme dikenal adalah dan organisme tidak dikenal adalah Tabel 1 Organisme dikenal Species Agrobacterium radiobacter K84 chromosome 2 Agrobacterium tumefaciens str. C58 chromosome circular Agrobacterium vitis S4 chromosome 1 Bacillus amyloliquefaciens FZB42 Bacillus anthracis str. Ames Ancestor Bacillus cereus 03BB102 Bacillus pseudofirmus OF4 chromosome Staphylococcus aureus subsp. Aureus JH1 Staphylococcus epidermidis ATCC Staphylococcus haemolyticus JCSC1435 Genus Agrobacterium Bacillus Staphylococcus Ekstrasi Ciri Pada tahapan ekstrasi ciri dilakukan menggunakan metode n-mers. Metode ini digunakan untuk mengetahui intensitas atau banyaknya kemunculan substring tertentu pada sebuah string. Intensitas kemunculan string tersebut dapat dijadikan sebagai penciri dari suatu kelompok string. Data sekuens DNA merupakan data string, oleh karena itu ekstraksi ciri yang digunakan pada penelitian ini untuk data set DNA adalah n-mers dengan n = 3, 4, 5. Pola kemunculan dalam sekuens dihitung menggunakan empat basa utama (A, T, G, dan C) dipangkat dengan rangkaian pasangan basa yang ingin digunakan (pola kemunculan : 4 n, dengan n>= 1) (Kusuma 2011). Gambar 2 merupakan ilustrasi ekstrasi ciri n-mers. Gambar 2 Ekstrasi Ciri N-Mers

17 5 Normalisasi Jumlah substring pada fragmen yang telah diekstrasi sangatlah bervariasi. Ada yang memiliki nilai yang sangat besar atau sangat kecil, dan jika dikurangkan akan menghasilkan selisih yang sangat besar. Maka dari itu perlu dilakukan normalisasi sehingga nilai yang diperoleh dapat diskalakan ke dalam batas nilai tertentu. Skala nilai berada pada rentang [0.0,1.0]. Normalisasi min-max menggunakan transformasi linear. Proses normalisasi dilakukan dengan mengurangkan nilai data asli dengan nilai minimal, lalu dibagi dengan nilai maksimal dikurangkan dengan nilai minimal. Diperoleh dengan persamaan berikut (Han et al. 2011), v ' = v-min max-min new max-new min +new min Berikut merupakan ilustrasi dari tahapan normalisasi (Gambar 3). AAA AAT... CCC Normalisasi AAA AAT... CCC 0, ,3636 0, ,5454 Gambar 3 Ilustrasi proses normalisasi Reduksi Dimensi dengan PCA Pada tahap ini, reduksi dimensi dari fragmen metagenom dilakukan menggunakan teknik Principal Component Analysis. PCA merupakan teknik multivariate yang paling banyak digunakan pada hampir semua bidang. Teknik ini mereduksi dimensi himpunan peubah yang biasanya terdiri atas peubah yang banyak dan saling berkorelasi menjadi peubah baru yang tidak berkorelasi. Teknik ini mempertahankan sebanyak mungkin keragaman dalam himpunan data tersebut serta menghilangkan peubah-peubah asal yang mempunyai sumbangan informasi yang relatif kecil. Hal yang pertama dilakukan adalah mendapatkan dimensi data yang ingin direduksi. Setelah itu, rata-rata dari dimensi tersebut dihitung dengan rumus sebagai berikut: X= n i=1 n Kemudian nilai data tiap dimensi dikurangkan dengan nilai rata-rata dimensi, dengan rumus sebagai berikut: Data adjust = (X i -X) Lalu langkah selanjutnya adalah menghitung nilai matriks kovarian dari data adjust dengan rumus sebagai berikut (Smith 2002): var(x) cov(x,y) C= cov(y,x) var(y) X i var X = n i=1 X i -X X i -X (n-1)

18 6 n i=1 X i -X Y i -Y cov X,Y = (n-1) Selanjutnya nilai eigenvector, eigenvalues, dan explained dihitung. Untuk menghitung eigenvalues, diperlukan matriks persegi A (k x k) dan matriks identitas kemudian dihitung dengan rumus sebagai berikut: A-λ I = 0 Kemudian hitung determinan matriks persegi A (k x k) dan, λ menjadi x eigenvalues dari A. Jika adalah nonzero vector x 0, sehingga A x= λ x. x (k=1) adalah eigen vector (characteristic vector) dari matriks A yang terkait dengan eigenvalue λ. Kolom dari A-λ I tergantung sehingga A-λ I =0. Eigenvalues sendiri menunjukan tingkat kepentingan suatu kolom dari eigenvector (Johnson RA dan Wichern DW 2007). Nilai explained dihitung dengan rumus sebagai berikut: explained= eigenvalue eigenvalue 100% Tahapan terakhir yaitu kita memilih komponen eigenvector yang menyimpan data asli dan membentuk feature vector, kemudian di transpose lalu dikalikan dengan data adjust transpose, kemudian di transpose lagi dengan menggunakan rumus (Smith 2002): Final Data=(RowFeatureVector T RowDataAdjust T ) T Pada penelitian ini nilai proporsi kumulatif keragaman data asal yang dipilih adalah sebesar 95%. Berikut merupakan ilustrasi dimensi m n, dimana nilai m = pembacaan data, dan n = 64 diperoleh dari frekuensi n-mers (Gambar 4). Gambar 4 Ilustrasi dimensi m x n F-Fold Cross Validation F-fold cross-validation digunakan untuk membagi data menjadi data latih dan data uji. Metode ini melakukan perulangan sebanyak f kali untuk membagi sebuah himpunan contoh secara acak menjadi f-subset yang saling bebas. Setiap ulangan disisakan satu subset untuk pengujian, dan sisanya digunakan untuk

19 pelatihan (Fu 1994). Jumlah dataset organisme yang diketahui framen, f yang digunakan menggunakan 5-Fold. Untuk data latih digunakan 8000 fragmen, sedangkan data uji digunakan 2000 fragmen. Diilustrasikan pada Gambar 5. 7 Gambar 5 Ilustrasi 5-Fold Cross Validation K-Nearest Neighbor Metode klasifikasi yang digunakan pada penelitian ini yaitu K-Nearest Neighbor (KNN). KNN banyak diterapkan dalam pengenalan pola dan data mining untuk klasifikasi. KNN merupakan algoritme supervised dalam klasifikasi dimana hasil dari kueri instance yang baru diklasifikasikan berdasarkan mayoritas kategori pada k tetangga terdekat. KNN mengklasifikasi objek baru berdasarkan atribut dan training samples (Larose 2001). Konsep dasar dari KNN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan k tetangga terdekatnya. Nilai dari jarak antara data uji dengan data latih diurutkan dari nilai terendah. Kelas dari nilai dengan jarak terendah diperiksa. Kelas yang memiliki nilai vote tertinggi menjadi kelas dari data uji tersebut. Jarak antara dua titik dalam ruang fitur dapat didefiniskan dengan banyak cara, salah satunya menggunakan jarak Euclid. Hasil dari perhitungan jarak Euclid digunakan untuk menentukan kemiripan antara data latih dan data uji. Kecocokan dilihat dari nilai (jarak) yang paling minimum. Jarak Euclid diperoleh dengan menggunakan persamaan berikut. dengan :dist(p,q) p i q i n dist(p,q)= (p i -q i ) 2 n i=1 = jarak sampel = data sampel ke-i = data input ke-i = jumlah sampel Tahapan algoritme KNN adalah sebagai berikut (Song et al. 2007) : 1 Menentukan nilai k, dengan k merupakan jumlah tetangga terdekat. 2 Menghitung jarak data pada setiap data latih dengan menggunakan jarak Euclid. 3 Mendapatkan k data yang memiliki jarak terdekat.

20 8 Pengujian dengan Organisme Tidak Dikenal Pengujian organisme tidak dikenal dilakukan dengan melakukan klasifikasi terlebih dahulu pada fragmen organisme dikenal. Setelah itu diperoleh akurasi tertinggi dari organisme dikenal yang kemudian dijadikan sebagai data latih. Data ujinya diperoleh dari organisme tidak dikenal. Kemudian, data uji diujikan ke data latih menggunakan algoritme KNN. Analisis Hasil penelitian diukur dengan menghitung tingkat akurasi dari data set uji. Persamaan untuk menghitung akurasi diperoleh sebagai berikut. data uji benar akurasi= x 100% data uji Ruang Lingkup Sistem Penelitian dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut: 1. Perangkat keras berupa komputer personal dengan spesifikasi: Processor Intel(R) Dual Core(TM) RAM 2 GB 160 GB 2. Perangkat lunak : Sistem operasi Windows bit Sistem operasi Ubuntu MetaSim Matlab R2013a Notepad++ Codeblocks HASIL DAN PEMBAHASAN Penyiapan Data Data metagenome berupa sequens DNA yang diunduh dari situs NCBI. Sequens DNA tersebut berasal dari sepuluh organisme untuk organisme yang dikenal dan sembilan organisme tidak dikenal.jumlah fragmen untuk organisme dikenal adalah 10000, sedangkan organisme tidak dikenal Kemudian jumlah fragmen tersebut dibagi secara merata untuk tiga genus yang terdiri dari 10 organisme. Genus agrobacterium, jumlah fragmennya Genus bacillus, jumlah fragmennya Sedangkan genus staphylococcus, berjumlah Untuk jumlah fragmen organisme tidak dikenal sebanyak Dibagi secara merata untuk terhadap 9 organisme dari 3 genus.

21 Jumlah fragmen untuk genus agrobacterium sebesar 1700, genus bacillus jumlah fragmennya 1600, dan genus staphylococcus jumlah fragmennya Untuk pembagian selengkapnya dapat dilihat pada Lampiran 3 dan 4. Langkah selanjutnya yang dilakukan adalah, membangkitkan sekuens DNA setiap organisme sesuai dengan jumlahnya menggunakan MetaSim (Gambar 6). Panjang fragmen yang digunakan untuk kedua dataset adalah 0,5 Kbp, 1 Kbp, 5 Kbp, 10 Kbp. 9 Gambar 6 Screenshot file FASTA dibangkitkan menggunakan METASIM Ekstrasi Ciri Ekstrasi ciri pada penelitian ini menggunakan n-mers dengan nilai n=3, 4, 5. Proses ekstrasi ciri menghasilkan banyaknya pasangan trinukleotida, tetranukleotida, pentanukleotida. Untuk n = 3 pola kemunculan yang dihasilkan 4 3 = 64 yang menghasilkan substring dari AAA sampai CCC. Untuk n = 4 pola kemunculan yang didapatkan 4 4 = 256 yang menghasilkan substring dari AAAA sampai CCCC. Kemudian n = 5 pola kemunculan yang dihasilkan 4 5 = 1024 dan menghasilkan substring dari AAAAA sampai CCCCC. Ekstrasi ciri menghasilkan array jumlah fragmen m x n kombinasi. Pada organisme dikenal jika n=3, maka array dimensinya x 64, selanjutnya n= 4, array dimensinya x 256, dan n= 5 array dimensinya x 1024.Hal yang sama dilakukan terhadap organisme tidak dikenal. Array dimensinya 5000 x 64 untuk n=3. Berikut merupakan screenshoot hasil ekstrasi ciri dari n=3 dengan panjang 0,5 Kbp (Gambar 7). Gambar 7 Hasil ekstrasi ciri n=3 panjang fragmen 0,5 Kbp

22 10 Normalisasi Normalisasi bertujuan untuk mengurangi hasil ekstrasi ciri yang bervariasi. Skala nilai matriks komposisi berada pada rentang 0 dan 1 yang menggunakan metode scaling. Berikut merupakan screenshot hasil normalisasi pada organisme dikenal dengan n=3, panjang fragmen 0,5 Kbp (Gambar 8). Gambar 8 Normalisasi 3-mers panjang 0,5Kbp Reduksi Dimensi menggunakan PCA Analisis komponen utama bertujuan untuk mereduksi dimensi asal yang semula terdapat p variabel bebas menjadi q komponen utama (dimana q<p). Dimana q adalah proporsi kumulatif keragaman data dan pada penelitian ini nilai q sebesar 95%. Hasil reduksi dimensi selengkapnya dapat dilihat pada Tabel 2. Tabel 2 Dimensi yang diperoleh setelah direduksi dengan PCA Ekstrasi Ciri Panjang Fragmen Dimensi awal Setelah direduksi PCA 3-mers 0,5 Kbp mers 1 Kbp mers 5 Kbp mers 10 Kbp mers 0,5 Kbp mers 1 Kbp mers 5 Kbp mers 10 Kbp mers 0,5 Kbp mers 1 Kbp mers 5 Kbp mers 10 Kbp F-Fold Cross Validation Setelah direduksi menggunakan PCA, data set organisme dikenal tersebut dilatih dengan menggunakan f-fold cross validation untuk membagi data latih dan

23 data uji. Penelitian ini menetapkan f yang digunakan 5-fold, dimana jumlah fragmen organisme dikenal Data organisme dikenal dibagi menjadi 5 bagian, 4 untuk data latih, 1 untuk data uji. Data latih menggunakan 8000 fragmen, dan data uji menggunakan 2000 fragmen. Klasifikasi KNN Penelitian ini menggunakan algoritme KNN, dimana k yang digunakan = 3,5,7. Dengan menggunakan 5-fold cross validation, setiap fold-nya diujicobakan dengan panjang fragmen 0,5 Kbp, 1 Kbp, 5 Kbp, 10 Kbp. Akurasi Akurasi didapat setelah melakukan percobaan menggunakan algoritme KNN pada organisme yang dikenal. Berikut hasil akurasi beberapa percobaan yang telah dilakukan pada penelitian ini. Percobaan I: dataset organisme dikenal, 3-mers, 4-mers,5-mers, PCA 95%, 5-foldcross validation, rantai terpendek (panjang fragmen 0,5 Kbp) dan rantai terpanjang (panjang fragmen 10 Kbp), 3-NN (Tabel 3). Tabel 3 Akurasi organisme dikenal menggunakan k=3 pada KNN (dalam %) F- 3-mers 4-mers 5-mers Fold/KBp 0,5 10 0,5 10 0, Fold 89,95 99,3 88,75 99,6 88,5 99,9 2-Fold 89,1 99,35 90,35 99,45 88,4 99,8 3-Fold 87,5 99,6 89,35 99,75 86,95 99,95 4-Fold 88,55 99,1 89,1 99,9 87,25 99,75 5-Fold 87,95 99,3 89,25 99,55 88,3 99,65 Rata 88,61 99,33 89,36 99,66 87,88 99,81 Akurasi tertinggi untuk percobaan I pada panjang fragmen 0,5 Kbp terhadap 3-mers adalah 89,95% di fold-1, untuk 10 Kbp akurasinya 99,6% pada fold-3. Sedangkan untuk 4-mers panjang 0,5 Kbp akurasi tertinggi adalah 90,35% di fold- 2, pada panjang 10 Kbp 99,9% pada fold-4. Untuk 5-mers nilai akurasi tertinggi pada panjang 0,5 Kbp adalah 88,5% di fold-1, untuk panjang 10 Kbp 99,95% pada fold-3. Percobaan II: dataset organisme dikenal, 3-mers, 4-mers,5-mers, PCA 95%, 5-foldcross validation, panjang fragmen 0,5 Kbp dan 10 Kbp, 5-NN (Tabel 4). Tabel 4 Akurasi organisme dikenal menggunakan k=5 pada KNN (dalam %) F- 3-mers 4-mers 5-mers Fold/KBp 0,5 10 0,5 10 0, Fold 91,5 99,35 89,05 99,6 89,85 99,9 2-Fold 90,5 99,25 90,5 99,5 89,55 99,8 3-Fold 88,55 99,55 90,3 99,65 87,8 99,85 4-Fold 89,35 99,05 89,75 99,9 88,55 99,65 5-Fold 90,1 99,2 89,65 99,55 89,1 99,7 Rata 90 99,56 89,85 99,71 89,03 99,78 11

24 12 Percobaan III: dataset organisme dikenal, 3-mers, 4-mers,5-mers, PCA 95%, 5- foldcross validation, panjang fragmen 0,5 Kbp dan 10 Kbp, 7-NN (Tabel 5). Tabel 5 Akurasi organisme dikenal menggunakan k=7 pada KNN (dalam %) F- 3-mers 4-mers 5-mers Fold/KBp 0,5 10 0,5 10 0, Fold 91 99,3 89,35 99,6 90,7 99,85 2-Fold 90,95 99,3 91,6 99,55 90,3 99,75 3-Fold 89,3 99,5 90,7 99, ,9 4-Fold 89,5 98,9 89,3 99, ,75 5-Fold 90,2 99,3 90,55 99,4 89,7 99,7 Rata 90,19 99,26 90,3 99,63 89,74 99,79 Dari hasil akurasi di atas untuk organisme dikenal, setiap nilai fold tertinggi dari beragam nilai n-mers dan KNN akan digunakan untuk pengujian organisme tidak dikenal. Hasil akurasi selengkapnya untuk panjang fragmen 1 Kbp dan 5 Kbp dapat dilihat pada Lampiran 4. Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN Akurasi (%) NN 5-NN 7-NN Nilai k pada KNN 3mers 4mers 5mers Gambar 9 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 0.5 Kbp Akurasi yang digunakan diambil dari nilai rata-rata ke-5 fold. Dari Gambar 9 dapat disimpulkan bahwa semakin tinggi nilai k, maka semakin tinggi pula akurasi yang diperoleh. Walaupun, perbedaan akurasi antara k= 3, 5, dan 7 tidak terlalu jauh, tetapi dapat dilihat bahwa nilai k = 7 yang memiliki akurasi tertinggi. Sedangkan, nilai n pada n-mers untuk setiap panjang fragmen cukup memengaruhi nilai akurasi. Pada panjang fragmen 0,5 Kbp akurasi tertinggi berada pada n=4. Panjang fragmen 1 Kbp akurasi tertinggi saat n=4. Panjang fragmen 5 Kbp akurasi tertinggi pada n=5. Dan untuk panjang fragmen 10 Kbp akurasi tertinggi berada pada n=5. Sehingga dapat disimpulkan, untuk panjang fragmen 1 Kbp akurasi tertinggi pada saat n=4. Sedangkan panjang 5 Kbp, tertinggi pada n=5. Grafik selengkapnya dapat dilihat pada Lampiran 5.

25 13 Pengujian pada organisme tidak dikenal Tahapan pengujian dilakukan dengan mengambil akurasi tertinggi dari ke-5 fold pada organisme dikenal, lalu akurasi tersebut diubah menjadi data latih. Untuk data uji diambil dari organisme tidak dikenal. Kemudian data uji, diujikan ke data latih menggunakan algoritme KNN. Berikut merupakan hasil pengujian untuk organisme tidak dikenal (Tabel 4). Tabel 6 Hasil pengujian organisme tidak dikenal dengan PCA 95 (dalam %) Panjang 3-mers 4-mers 5-mers Fragmen k=3 k=5 k=7 0.5 Kbp 86,14 87,2 87,5 87,9 88,72 89,64 86,84 87,94 88,36 1 Kbp 91,58 92,1 92,26 92,98 93,46 93,44 90,5 92,14 92,24 5 Kbp 96,72 96,46 96,58 98,64 98,58 98,42 96,46 96,2 96,32 10 Kbp 98,2 98,12 98,14 99,16 99,2 99,32 99,44 99,56 99,56 Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme dikenal Perbandingan akurasi organisme menggunakan PCA dan tanpa PCA untuk organisme dikenal dapat dilihat pada Gambar 11. Secara umum, hasil akurasi yang diperoleh menggunakan PCA dan tanpa PCA tidak jauh berbeda. Untuk panjang fragmen 0,5 Kbp dan 5 Kbp akurasi PCA lebih tinggi. Tetapi untuk panjang 1 Kbp lebih tinggi akurasi tanpa PCA. Untuk panjang 10Kbp akurasinya sama. Sehingga dapat ditarik kesimpulan, walaupun dimensi matriks sudah direduksi tetapi akurasi menggunakan PCA dan tanpa PCA tidak berbeda jauh. Perbandingan Akurasi Organisme Dikenal Tanpa PCA PCA 95% 91,3 91,6 95,4 95,15 99,35 99,65 99,9 99,9 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Akurasi diambil dari 7-NN, 4-mers, dan nilai fold yang tertinggi Gambar 10 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme dikenal

26 14 Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme tidak dikenal Perbandingan akurasi organisme menggunakan PCA dan tanpa PCA untuk organisme tidak dikenal dapat dilihat pada Gambar 12. Hasil yang diperoleh tidak berbeda jauh dengan organisme dikenal. Untuk panjang fragmen 0,5 Kbp dan 5 Kbp akurasi PCA lebih tinggi. Tetapi untuk panjang 1 Kbp dan 10 Kbp lebih tinggi akurasi tanpa PCA. Sehingga dapat disimpulkan, walaupun dimensi matriks sudah direduksi tetapi akurasi menggunakan PCA dan tanpa PCA tidak berbeda jauh. Perbandingan Organisme Tidak Dikenal Tanpa PCA PCA 95% 89,44 89,64 93,76 93,44 98,28 98,42 99,34 99,32 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Akurasi diambil dari nilai 7-NN dan 4-mers (dalam %) Gambar 11 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA untuk organisme tidak dikenal Waktu training yang diperlukan dengan menggunakan PCA dan tanpa PCA Waktu komputasi pada saat testing ( pengujian organisme tidak dikenal) dapat dilihat di Tabel 7. Secara umum, waktu yang diperoleh pada tiap panjang fragmen yang telah direduksi menggunakan PCA mengalami penurunan. Tetapi, tanpa menggunakan PCA mengalami peningkatan. Untuk ekstrasi ciri 3-mers selisih waktu terkecil 5,196 detik pada panjang 1 Kbp. Selisih waktu terbesar 18,077 detik pada panjang 10 Kbp. Untuk ekstrasi ciri 4-mers selisih waktu terkecil 12,72 detik pada panjang 0.5 Kbp. Selisih waktu terbesar 36,013 detik pada panjang 10 Kbp. Untuk ekstrasi ciri 5-mers selisih waktu terkecil 39,534 detik pada panjang 0.5 Kbp. Selisih waktu terbesar 88,109 detik pada panjang 10 Kbp.

27 Tabel 7 Perbandingan waktu komputasi data testing (organisme tidak dikenal) dengan PCA dan tanpa PCA pada 7-NN (satuan dalam detik) Panjang PCA 95% Tanpa PCA fragmen 3-mers 4-mers 5-mers 3-mers 4-mers 5-mers 0,5 Kbp 7,001 21,711 80,362 12,416 34, ,896 1 Kbp 9,384 22,703 77,688 14,58 36, ,253 5 Kbp 6,72 12,883 62,863 14,782 37, , Kbp 3,44 9,408 44,337 21,517 45, ,446 Perbandingan Penelitian Terkait Berikut merupakan perbandingan terkait penelitian ini. Membandingkan penelitian Kusuma & Akiyama 2011, Ellyana 2014, dan penelitian yang telah dilakukan (Tabel 6 dan Tabel 8). Penelitian Kusuma & Akiyama (2011) menerapkan algoritme characterization vector dalam ekstrasi fitur dan mengimplementasikan SVM sebagai classifier dan menghasilkan akurasi tertinggi sebesar 92% pada panjang fragmen. Sedangkan, Ellyana (2014) menerapkan spaced n-mers sebagai ekstrasi fitur dan KNN sebagai classifier dan mendapatkan akurasi tertinggi sebesar 99.65%. Penelitian ini menerapkan k-mers sebagai ekstrasi ciri kemudian direduksi dimensinya menggunakan principal component analysis dan KNN sebagai classifier dan menghasilkan akurasi tertinggi sebesar 99,9%. Juga dapat disimpulkan pada akurasi yang diperoleh pada penelitian ini lebih tinggi dari yang sebelumnya. Tabel 8 Perbandingan Penelitian terkait organisme tidak dikenal Panjang Fragmen 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Kusuma (2011) 81.00% 85.00% 90.00% 92.00% Ellyana (2014) 88.77% 95.68% 99.17% 99.65% Penelitian ini (2015) 91.60% 95.15% 99.65% 99.90% 15 Tabel 9 Perbandingan Penelitian terkait organisme dikenal Panjang Fragmen 0,5 Kbp 1 Kbp 5 Kbp 10 Kbp Kusuma (2011) 78.00% 80.00% 86.00% 87.00% Ellyana (2014) 86.11% 91.77% 96.60% 97.96% Penelitian ini (2015) 89.64% 93.44% 98.42% 99.32%

28 16 SIMPULAN DAN SARAN Simpulan Pada penelitian ini dilakukan klasifikasi fragmen metagenom menggunakan metode K-Nearest Neighbor dan direduksi dimensi menggunakan Principal Component Analysis. Untuk nilai k yang terbaik pada KNN adalah 7-NN. Untuk nilai n tertinggi pada n-mers adalah 4-mers. Akurasi pada organisme dikenal dari fold terbaik dengan menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp sampai10 Kbp berkisar antara 91.6% sampai 99,9%. Tanpa PCA diperoleh akurasi berkisar antara 91.3% sampai 99.9%. Untuk organisme tidak dikenal dengan PCA 95% akurasi yang diperoleh berkisar antara 89.64% sampai 99.32%. Sedangkan tanpa PCA akurasi yang diperoleh berkisar antara 89.44% sampai 99.34%. Selain itu, waktu komputasi dengan menggunakan PCA mengalami penurunan walaupun panjang fragmen semakin meningkat. Selisih waktu komputasi setelah direduksi mencapai 88,109 detik pada 5-mers dengan panjang 10 Kbp. Hasil akurasi yang diperoleh seluruhnya cukup baik, baik menggunakan PCA dan tanpa PCA. PCA mampu menghasilkan akurasi yang tidak berbeda jauh dengan tanpa PCA, selain itu waktu komputasi juga dapat direduksi. Setelah dibandingkan dengan penelitian terkait Kusuma & Akiyama 2011, Ellyana 2014, dapat dilihat bahwa akurasi yang diperoleh pada penelitian ini lebih tinggi dari penelitian sebelumnya. Saran Saran untuk penelitian selanjutnya: 1. Dataset dicobakan menggunakan organisme yang lebih banyak dengan kelas yang lebih banyak. 2. Menggunakan metode klasifikasi, dan reduksi dimensi yang berbeda. DAFTAR PUSTAKA Ellyana, F Klasifikasi Fragmen Metagenom Menggunakan Fitur Spaced N- Mers dan K-Nearest Neighbor [skripsi]. Bogor(ID): Institut Pertanian Bogor. Han J, Kamber M, Pei J Data Mining Concepts and Techniques Third Edition. USA: Morgan Kaufmann. hlm

29 Hsu AL, Halgamuge SK Enhancement of topology preservation and hierarchical dynamic self-organizing maps for data visualisation. International Journal of Approximate Reasoning. 32(2003): Huson DH, Auch AF. Qi J, Schuster SC MEGAN analysis of metagenomic data. Genome Research. 17 : doi : /gr/ Johnson RA, Wichern DW Applied Multivariate Statistical Analysis-Sixth Edition. (US): Pearson Education, Inc. Kusuma WA, Akiyama Y Metagenome fragment binning based on characterization vector. International Conference on Bioinformatics and Biomedical Technology (ICBBT 2011); 2011 Mar 25 27; Sanya, China. Larose DT DiscoveringKnowledge in Data:An Introduction to Data Mining.New Jersey (US): Wiley. McHardy AC, Martín HG, Tsirigos A, Hugenholtz P, Rigoutsos I Accurate phylogonetic classification of variabel-length DNA fragments. Nature Methods. 4(1): doi: /nmeth976. Overbeek, MV Pengelompokan Fragmen Metagenom Dengan Metode Growing Self Organizing Map [tesis]. Bogor (ID): Institut Pertanian Bogor. Richter DC, Ott F, Auch AF, Schmid R, Huson DH MetaSim-A Sequencing Simulator for Genomics and Metagenomics. PLoS ONE 3(10): e3373.doi: /journal.pone Smith LI A tutorial on Principal Component Analysis. [26 Februari 2002] Song Y, Huang J, Zhou D, Zha H, Giles CL IKNN: Informative k-nearest neighborpattern classification.knowledge Discovery in Databases: PKDD hlm Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO TETRA : a web service and stand-alone program for the analysis and comparison of tetranucleotide usage pattern in sequence DNAs. BMC Informatics. 5(163). doi: / Wu H PCA-Based Linear Combinations Of Oligonucleotide Frequencies For Metagenomic Dna Fragment Binning.Computational Intelligence in Bioinformatics and Computational Biology hlm

30 18 Lampiran 1 Dataset organisme tidak dikenal Species Agrobacterium radiobacter K84 chromosome 1 Agrobacterium tumefaciens str. C58 chromosome linear Agrobacterium vitis S4 chromosome 2 Bacillus thuringiensis str Al Hakam Bacillus subtilis subsp. Subtilis str 168 Bacillus pumilus SAFR-032 Staphylococcus carnosus subsp. Carnosus Staphylococcus saprophyticus subsp. Saprophyticus ATCC Staphylococcus Lugdunensis HKU09-01 Genus Agrobacterium Bacillus Staphylococcus Lampiran 2 Jumlah Fragmen tiap organisme dikenal Genus Nama Organisme Jumlah Fragmen Agrobacterium radiobacter K chromose Agrobacterium Agrobacterium tumefaciens str. C58 chromosome circular Agrobacterium vitis S4 chromosome Bacillus Staphylococcus Bacillus amyloliquefaciens FZB42 Bacillus anthracis str. Ames Ancestor Bacillus cereus 03BB102 Bacillus pseudofirmus OF4 chromosome Staphylococcus aureus subsp. Aureus JH1 Staphylococcus epidermidis ATCC Staphylococcus JCSC1435 haemolyticus

31 19 Lampiran 3 Jumlah Fragmen tiap organisme tidak dikenal Genus Nama Organisme Jumlah Fragmen Agrobacterium radiobacter K chromosome 1 Agrobacterium Agrobacterium tumefaciens str. C chromosome linear Agrobacterium vitis S4 chromosome Bacillus thuringiensis str Al Hakam 550 Bacillus Bacillus subtilis subsp. Subtilis str Bacillus pumilus SAFR Staphylococcus carnosus subsp. 550 Carnosus Staphylococcus Staphylococcus saprophyticus subsp. 550 Saprophyticus ATCC Staphylococcus Lugdunensis HKU Lampiran 4 Akurasi yang diperoleh untuk organisme dikenal Tabel 10 Akurasi organisme dikenal menggunakan k=3 panjang 1 Kbp & 5 Kbp (dalam%) F- 3-mers 4-mers 5-mers Fold/KBp Fold 93,2 98,55 94,1 94,1 94,1 99,5 2-Fold 94,55 98, ,05 3-Fold 93,95 98,9 94,8 94,65 94,65 99,5 4-Fold 93, ,05 94,05 94,05 99,55 5-Fold 93,7 98,85 95,2 94,35 95,2 99,75 Rata 93,82 98,77 94,63 94,23 94,63 99,47 Tabel 11 Akurasi organisme dikenal menggunakan k=5 panjang 1 Kbp & 5 Kbp (dalam%) F- 3-mers 4-mers 5-mers Fold/KBp Fold 93,9 98,45 94,7 99, ,45 2-Fold 94,3 98,35 93,8 99,25 94,25 99,15 3-Fold 94,6 98,8 94, ,6 99,45 4-Fold 93,95 99,05 95,1 98,7 94,4 99,45 5-Fold 94,2 98,7 95,55 99,2 94,85 99,45 Rata 94,19 98,67 94,81 99,14 94,62 99,39

32 20 Tabel 12 Akurasi organisme dikenal menggunakan k=7 panjang 1 Kbp & 5 Kbp (dalam%) F- 3-mers 4-mers 5-mers Fold/KBp Fold 93,2 98,55 94,75 99,65 95,45 99,4 2-Fold 94,65 98,3 94,2 99,2 94,6 99,15 3-Fold 94,1 98,8 95,15 99,05 94,6 99,5 4-Fold 93,9 98,75 95,15 98,9 94,65 99,05 5-Fold 93,95 98,4 95,05 99,2 94,8 99,3 Rata 93,96 98,56 94,86 99,2 94,82 99,28 Lampiran 5 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN Akurasi (%) NN 5-NN 7-NN 3mers 4mers 5mers Nilai k pada KNN Gambar 12 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 1 Kbp Akurasi (%) NN 5-NN 7-NN 3mers 4mers 5mers Nilai k pada KNN Gambar 13 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 5 Kbp

33 Akurasi (%) NN 5-NN 7-NN 3mers 4mers 5mers Nilai k pada KNN Gambar 14 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 10 Kbp

34 22 RIWAYAT HIDUP Penulis dilahirkan di Medan, Sumatera Utara pada tanggal 12 Februari 1992 dari Bapak Elman Simangunsong, SH, MH dan Ibu Dra Sorta Mariany Sibuea. Penulis merupakan putri bungsu dari 5 bersaudara. Penulis menyelesaikan pendidikan menengah atas di SMA Negeri 3 Medan pada tahun 2009 dan melanjutkan pendidikan diploma 3 di Institut Pertanian Bogor melalui jalur undangan Jurusan Manajemen Informatika dan menyelesaikannya pada tahun Kemudian pada tahun yang sama, penulis terdaftar sebagai mahasiswa Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Institut Pertanian Bogor dan bekerja sebagai guru komputer (Oktober Juni 2014) di SD Katolik Mardi Yuana Bogor. Penulis merupakan pengurus aktif di Komunitas Mahasiswa Kristen Alih Jenis IPB periode