KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA"

Transkripsi

1 KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2014 Fitria Elliyana NIM G

4 ABSTRAK FITRIA ELLIYANA. Klasifikasi Fragmen Metagenom Menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour. Dibimbing oleh WISNU ANANTA KUSUMA. Metagenom merupakan studi DNA total dari sumber lingkungan yang diisolasi secara langsung. Studi tersebut dilakukan dengan membaca seluruh DNA dari suatu ekosistem lengkap (bukan hanya satu organisme). Metagenom mengacu pada kandungan genomik dari ekosistem mikroba lengkap. Karena sampel mikroba yang diambil dari ekosistem mengandung bermacam-macam organisme maka perlu dilakukan proses binning untuk klasifikasi. Pada penelitian ini digunakan algoritme k-nearest neighbour (KNN) untuk mengklasifikasi fragmen metagenom dan spaced n-mers untuk ekstraksi fitur. Penelitian dilakukan pada dua kelompok dataset yaitu organisme latih dan organisme uji dengan panjang fragmen 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Hasil akurasi terbaik yang diperoleh dari dataset organisme latih mencapai 99.75% pada pengujian fragmen dengan panjang 10 kbp dan nilai k = 3. Nilai sensitivitas dan spesifisitas tertinggi juga diperoleh dari dataset organisme yang sama yaitu 99.71% dan 99.85%. Kata kunci: DNA, k-nearest neighbour, metagenom, oligonucleotide frequency, sensitivitas, spaced n-mers, spesifisitas. ABSTRACT FITRIA ELLIYANA. Metagenome Fragment Classification using Spaced N-Mers Features and K-Nearest Neighbour. Supervised by WISNU ANANTA KUSUMA. Metagenome is a study of total DNA from some environmental sources that are directly isolated. The study is conducted by reading the entire DNA of a complete ecosystem (not just one organism). Metagenome refers to the genomic content of complete microbial ecosystems. Since the samples taken from the ecosystems may contain a variety of organisms, it requires a binning process to classify. In this research, k-nearest neighbour (KNN) algorithm was used to classify metagenome fragments and spaced n-mers was used for feature extraction. The research was conducted on two groups of datasets, namely the training organisms and testing organisms with fragment length of 500 bp, 1 kbp, 5 kbp, and 10 kbp. The best accuracy obtained from the training organism dataset reached 99.75% on the fragment test with a length of 10 kbp and k = 3. The highest value of its sensitivity and specificity was also obtained from the same organism dataset, 99.71% and 99.85% respectively. Keywords: DNA, k-nearest neighbour, metagenome, oligonucleotide frequency, sensitivity, spaced n-mers, specificity.

5 KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

6 Penguji: 1 Dr Irman Hermadi, SKom MT 2 Toto Haryanto, SKom MSi

7 Judul Skripsi : Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced N- Mers dan K-Nearest Neighbour Nama : Fitria Elliyana NIM : G Disetujui oleh Dr Wisnu Ananta Kusuma, ST MT Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 Judul Skripsi: Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced N Mel's dan K-Nearest Neighbour Nama : Fitria Elliyana NJM: : G Disetujui oleh Dr Wisnu Ananta usuma Pembim ing ST MT Ketua Departemen Tanggal Lulus: 29 JAN 2,014

9 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah dengan judul Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour ini berhasil diselesaikan. Adapun penulis mengucapkan terima kasih kepada: 1 Kedua orangtua serta seluruh keluarga yang telah memberikan dukungan, perhatian, dan doa sehingga penulis dapat menyelesaikan penelitian ini. 2 Bapak Dr Wisnu Ananta Kusuma, ST MT selaku pembimbing yang telah banyak memberi saran. 3 Dosen penguji, Bapak Dr Irman Hermadi, SKom MS dan Bapak Toto Haryanto, SKom MSi atas saran dan bimbingannya. 4 Teman-teman satu bimbingan Agung, Fariz, Haris, Bernita, dan Galih, terima kasih atas kerja samanya. 5 Teman-teman Ekstensi Ilkom angkatan 5 atas kerja samanya selama penelitian. 6 Guru, sahabat, sekaligus temanku Bayu Widodo yang bersedia mendengarkan keluh kesah dan selalu memberikan dukungan. 7 Semua pihak yang telah memberikan bantuan selama pengerjaan penelitian ini yang tidak dapat penulis tuliskan satu per satu. Semoga penelitian ini bermanfaat bagi semua pihak yang membutuhkan. Bogor, Januari 2014 Fitria Elliyana

10 DAFTAR ISI DAFTAR TABEL vii DAFTAR GAMBAR vii DAFTAR LAMPIRAN viii PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 3 Penyiapan Data 4 Ekstraksi Fitur 4 F-Fold Cross Validation 5 Klasifikasi 5 Pengujian 6 Evaluasi dan Analisis Hasil 6 Lingkungan Implementasi 7 HASIL DAN PEMBAHASAN 7 Penyiapan Data 7 Percobaan 1 : Dataset Organisme Latih dengan Panjang Fragmen 500 bp 9 Percobaan 2 : Dataset Organisme Latih dengan Panjang Fragmen 1 kbp 9 Percobaan 3 : Dataset Organisme Latih dengan Panjang Fragmen 5 kbp 10 Percobaan 4 : Dataset Organisme Latih dengan Panjang Fragmen 10 kbp 11 Percobaan 5 : Dataset Organisme Uji dengan Panjang Fragmen 500 bp 13 Percobaan 6 : Dataset Organisme Uji dengan Panjang Fragmen 1 kbp 14 Percobaan 7 : Dataset Organisme Uji dengan Panjang Fragmen 5 kbp 14 Percobaan 8 : Dataset Organisme Uji dengan Panjang Fragmen 10 kbp 15 Perbandingan Akurasi, Sensitivitas, dan Spesifisitas antara Dataset Organisme Latih dengan Organisme Uji 16 SIMPULAN DAN SARAN 20 Simpulan 20 Saran 20

11 DAFTAR PUSTAKA 20 LAMPIRAN 22 RIWAYAT HIDUP 28

12 DAFTAR TABEL 1 Confusion matrix 2 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 500 bp 3 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 1 kbp 4 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 5 kbp 5 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 10 kbp 6 Hasil akurasi fold tertinggi pada pengujian dataset organisme latih 7 Hasil sensitivitas organisme latih 8 Hasil spesifisitas organisme latih 9 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih 10 Confusion matrix dataset organisme uji dengan panjang fragmen 500 bp 11 Confusion matrix datset organisme uji dengan panjang fragmen 1 kbp 12 Confusion matrix dataset organisme uji dengan panjang fragmen 5 kbp 13 Confusion matrix dataset organisme uji dengan panjang fragmen 10 kbp 14 Hasil akurasi pada pengujian dataset organisme uji 15 Hasil sensitivitas dan spesifisitas organisme uji 16 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme uji 17 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih dan uji 18 Hasil sensitivitas organisme latih 19 Hasil sensitivitas organisme uji 20 Hasil spesifisitas organisme latih 21 Hasil spesifisitas organisme uji 22 Perbandingan hasil akurasi penelitian terkait DAFTAR GAMBAR 1 Skema metode penelitian 2 Fitur spaced n-mers 3 Data berformat FASTA 3 4 8

13 DAFTAR LAMPIRAN 1 Pembagian subset untuk panjang fragmen 500 bp 2 Pembagian subset untuk panjang fragmen 1 kbp 3 Pembagian subset untuk panjang fragmen 5 kbp 4 Pembagian subset untuk panjang fragmen 10 kbp 5 Dataset organisme latih 6 Dataset organisme uji 7 Confusion matrix percobaan 1 pada dataset organisme latih dengan panjang fragmen 500 bp 8 Confusion matrix percobaan 1 pada panjang fragmen 500 bp dengan nilai fold terbaik 9 Confusion matrix percobaan 2 pada dataset organisme latih dengan panjang fragmen 1 kbp 10 Confusion matrix percobaan 2 pada panjang fragmen 1 kbp dengan nilai fold terbaik 11 Confusion matrix percobaan 3 pada dataset organisme latih dengan panjang fragmen 5 kbp 12 Confusion matrix percobaan 3 pada panjang fragmen 5 kbp dengan nilai fold terbaik 13 Confusion matrix percobaan 4 pada dataset organisme latih dengan panjang fragmen 10 kbp 14 Confusion matrix percobaan 4 pada panjang fragmen 10 kbp dengan nilai fold terbaik

14 PENDAHULUAN Latar Belakang Para peneliti di dunia ilmiah telah banyak menghasilkan perkembangan baru dalam sains dan teknologi, tak terkecuali di bidang biologi. Metagenom merupakan studi DNA total dari sumber lingkungan yang diisolasi secara langsung (Fanani 2011). Penggunaan pendekatan metagenom untuk eksplorasi gen dari DNA total yang berasal dari sampel lingkungan memberikan beberapa kelebihan di antaranya yaitu dapat diperoleh gen yang berasal dari mikroorganisme yang tidak dapat dikulturkan, mikroorganisme yang hidup di daerah ekstrim, misalnya kadar garam tinggi, temperatur panas, temperatur rendah, dan lingkungan yang sangat asam-basa. Namun dari sekian banyak mikroorganisme yang terdapat di dunia, hanya sekitar 1% yang dapat dikulturkan dengan menggunakan metode standar. Sisanya harus diambil langsung dari ekosistemnya. Sampel yang diambil langsung dari ekosistem ini mengandung bermacam-macam organisme sehingga perlu dilakukan proses klasifikasi. Genom adalah set lengkap molekul DNA dalam setiap sel dari organisme hidup yang diturunkan dari satu generasi ke generasi berikutnya. Deoxyribo nucleic acid (DNA) merupakan pembawa informasi genetik dari makhluk hidup. DNA merupakan rantai ganda dari molekul sederhana (nukleotida) yang diikat bersama-sama dalam struktur helix yang dikenal dengan double helix. Nukleotida tersebut tersusun atas empat basa nitrogen yaitu adenin, timin, guanin, dan sitosin yang dapat direpresentasikan dalam abjad A, T, G, dan C (de Carvalho 2003). Sekuens DNA suatu organisme berasal dari sekuens generasi yang telah ada sebelumnya. Jika ditemukan sekuens baru yang belum diketahui sebelumnya, maka sekuens baru dibandingkan dengan sekuens yang sudah ada sehingga dapat diperoleh informasi genetik dari sekuens yang baru. Klasifikasi adalah satu cara yang digunakan untuk menentukan suatu fragmen DNA termasuk ke dalam tingkat taksonomi tertentu. Hal ini diperlukan karena dimungkinkan terdapat DNA yang memiliki perbedaan dalam fragmennya namun ternyata masih termasuk dalam satu genus yang sama. Metode yang umum digunakan untuk mengekstraksi fitur fragmen metagenom adalah dengan menghitung frekuensi n-mers. Wu (2008) menggunakan principal component analysis (PCA) dengan oligonucleotide frekuensi n-mers untuk melakukan ekstraksi fitur. Hasil penelitian dengan empat jenis pengklasifikasi yaitu klasifikasi linear, klasifikasi kuadrat, k-nearest neighbour, dan decision tree menunjukkan bahwa PCA dengan n-mers mampu menangkap karakteristik intrinsik dari fragmen DNA sehingga memadai sebagai fitur klasifikasi. PCA dengan n-mers cenderung lebih efektif dan stabil ketika panjang fragmen DNA meningkat. Pengklasifikasi linear sederhana dapat mencapai akurasi yang tinggi untuk klasifikasi fragmen metagenom pada tingkat berbagai taksonomi, bahkan pada tingkat spesifik seperti spesies. Oligonucleotide frekuensi n-mers telah banyak digunakan untuk prediksi gen, konstruksi pohon filogenetik, dan klasifikasi metagenom. Namun, penggunaan n-mers akan mengakibatkan dimensi fitur yang tinggi bahkan untuk nilai n kecil. Untuk mereduksi dimensi fitur yang tinggi pada n-mers, Wu (2008) menerapkan PCA pada penelitiannya. Sebagai contoh, untuk nilai n = 5 pada n-

15 2 mers, maka akan diperoleh dimensi sebesar 4 5 yaitu 1024 fitur. Apabila dibandingkan dengan spaced n-mers dengan nilai n = 3 akan diperoleh dimensi sebesar yaitu 192. Spaced 3-mers menghasilkan nilai 192 karena nilai don t care yang dilambangkan dengan simbol (*) tidak dihitung, sehingga menghasilkan dimensi yang lebih sedikit namun lebih kaya fitur. Pada penelitian yang dilakukan oleh Wu (2008) diperoleh rata-rata tingkat akurasi klasifikasi tertinggi dicapai oleh pengklasifikasi yang lebih sederhana, seperti; pengklasifikasi linear sederhana, kuadrat, dan 3-NN. Klasifikasi linear sederhana mampu mencapai tingkat akurasi di atas 85% untuk mengklasifikaskan fragmen DNA pada tingkat yang lebih spesifik. 3-NN mencapai akurasi 92% untuk level taksonomi genus. Kusuma dan Akiyama (2011) juga melakukan penelitian klasifikasi fragmen metagenom menggunakan algoritme SVM berbasis characterization vector. Penelitian tersebut dilakukan pada dua kelompok dataset yang merepresentasikan organisme latih dan organisme uji dengan panjang fragmen 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Akurasi yang dicapai dari penelitian tersebut yaitu 78% untuk panjang fragmen 500 bp, 80% untuk panjang fragmen 1 kbp, 86% untuk panjang fragmen 5 kbp, dan 87% untuk panjang fragmen 10 kbp. Oleh karena itu pada penelitian ini akan dilakukan klasifikasi fragmen metagenom menggunakan algoritme k-nearest neighbour (KNN) dengan spaced n-mers sebagai ekstraksi fitur dan merujuk pada data penelitian Kusuma dan Akiyama (2011), untuk kemudian hasilnya akan dibandingkan. Tujuan Penelitian Tujuan penelitian ini adalah untuk melakukan klasifikasi fragmen metagenom pada tingkat genus dengan fitur spaced n-mers dan algoritme KNN serta membandingkan tingkat akurasi dengan penelitian sebelumnya (Kusuma dan Akiyama 2011). Manfaat Penelitian Penelitian ini diharapkan dapat membantu para peneliti dalam mengidentifikasi dan mengklasifikasi fragmen metagenom sesuai dengan tingkat taksonomi. Ruang Lingkup Penelitian Ruang lingkup penelitian ini yaitu: 1 Data yang digunakan merujuk referensi data dari penelitian Kusuma dan Akiyama (2011). Data terdiri dari dua kelompok dataset yang dibangkitkan oleh perangkat lunak MetaSim, dengan format FASTA, yang merepresentasikan organisme latih dan organisme uji. 2 Panjang fragmen untuk dataset organisme latih dan organisme uji meliputi 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Dataset tersebut dipilih dari genus Agrobacterium, Bacillus, dan Staphylococcus.

16 3 3 Sekuens DNA direpresentasikan sebagai empat karakter A, T, G, dan C yang mewakili basa nitrogen adenin, timin, guanin, dan sitosin. Sekuens DNA diasumsikan bebas error yaitu tidak ada karakter huruf lain selain A, T, G, dan C. METODE Penelitian ini dilakukan dengan beberapa tahapan proses, yaitu penyiapan data fragmen metagenom, ekstraksi fitur fragmen metagenom dengan spaced n- mers, pembagian data uji dengan f-fold cross validation, dan klasifikasi fragmen metagenom dengan menggunakan algoritme KNN, dan analisis hasil akurasi, sensitivitas, dan spesifisitas. Skema metode penelitian dapat dilihat pada Gambar 1. Mulai Penyiapan Data Spaced N-Mers Organisme Uji Organisme Uji Data Latih Data Uji F-Fold Cross Validation K-Nearest Neighbor Pengujian Analisis Selesai Gambar 1 Skema metode penelitian

17 4 Penyiapan Data Data yang digunakan berupa dua kelompok dataset yang dibangkitkan oleh MetaSim, dengan format FASTA. MetaSim merupakan sebuah perangkat lunak yang berfungsi sebagai simulator penderetan untuk genomik dan metagenomik. MetaSim memungkinkan pengguna untuk mensimulasikan pembacaan dataset individu yang dapat digunakan sebagai skenario pengujian standar untuk perencanaan proyek sekuensing atau untuk sebagai tolok ukur perangkat lunak metagenomik. Dataset terdiri dari dataset organisme latih dan dataset organisme uji. Dataset organisme latih terdiri atas 10 spesies. Sedangkan dataset organisme uji terdiri atas sembilan spesies. Panjang fragmen untuk setiap dataset adalah tetap yaitu terdiri dari 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Jumlah fragmen untuk dataset organisme latih adalah dan organisme uji Ekstraksi Fitur Tahapan ini dilakukan untuk mendapatkan fitur yang akan digunakan dalam klasifikasi dan pengujian. Metode ekstraksi fitur yang digunakan dalam penelitian ini adalah spaced n-mers frequency. Spaced n-mers frequency digunakan untuk mencari sequence-composition-spaced pada fragmen DNA (Kusuma 2012). ww Spaced n-mers perlu didefinisikan ππ dd sebagai pola spaced, dimana w mendefinisikan bobot sequence-composition-spaced dan merepresentasikan jumlah posisi yang cocok atau match, disimbolkan dengan 1, dan d ww merepresentasikan jumlah posisi don t care, disimbolkan dengan (*). Pola ππ dd digunakan untuk mendaftarkan pola nukleotida seperti {AA, AT, AG, AC,, GG, A*A, A*T, }. ww =3 Ekstraksi fitur spaced n-mers yang digunakan adalah pola ππ dd=0,1,2 yang direpresentasikan dengan {111 1*11 1**11} sehingga diperoleh pola fitur {AAA, AAT, AAG, AAC,, CCC, A*AA, A*AT,, C*CC, A**AA, A**AT,, C**CC}. Dimensi yang didapat sebesar yaitu 192. Spaced n-mers menghasilkan nilai 192 karena nilai don t care yang dilambangkan dengan simbol (*) tidak dihitung. Frekuensi kemunculan tiap fragmen DNA dihitung dengan pola ww =3 fitur tersebut. Spaced n-mers dengan ππ dd=0,1,2 dan pola {111 1*11 1**11} dengan sekuens ATGCTTACGTAGCATG, maka diperoleh fitur seperti pada Gambar 2. AAA AAT AAG AAC ATA ATT ATG... CCC A*AA A*AT A*AG A*AC A*TA A*TT A*TG... C*CC A**AA A**AT A**AG A**AC A**TA A**TT A**TG... C**CC Gambar 2 Fitur spaced n-mers

18 5 F-Fold Cross Validation F-fold cross validation merupakan metode untuk melakukan pembagian data menjadi f subset dengan ukuran yang sama antara subset satu dengan subset lainnya. Perulangan dilakukan sebanyak f kali, dimana salah satu subset dijadikan data uji dan f-1 subset lainnya dijadikan data latih. Tingkat akurasi dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua data uji. Jumlah fragmen metagenom yang merepresentasikan organisme latih, yang terdiri dari fragmen, akan dibagi menjadi 5 (lima) subset untuk masingmasing panjang fragmen. Pembagian subset untuk setiap panjang fragmen dapat dilihat pada lampiran. Klasifikasi Metode klasifikasi yang digunakan pada penelitian ini yaitu KNN. KNN banyak diterapkan dalam pengenalan pola dan data mining untuk klasifikasi. KNN merupakan algoritme supervised dalam klasifikasi dimana hasil dari kueri instance yang baru diklasifikasikan berdasarkan mayoritas kategori pada k tetangga terdekat. KNN mengklasifikasi objek baru berdasarkan atribut dan training samples (Larose 2005). Konsep dasar dari KNN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan k tetangga terdekatnya. Nilai dari jarak antara data uji dengan data latih diurutkan dari nilai terendah. Kelas dari nilai dengan jarak terendah diperiksa. Kelas yang memiliki nilai vote tertinggi menjadi kelas dari data uji tersebut. Jarak antara dua titik dalam ruang fitur dapat didefiniskan dengan banyak cara, salah satunya menggunakan jarak Euclid. Hasil dari perhitungan jarak euclides digunakan untuk menentukan kemiripan antara data latih dan data uji. Kecocokan dilihat dari nilai (jarak) yang paling minimum. Jarak Euclid diperoleh dengan menggunakan Persamaan 1. dist(p,q) = (p i -q i ) 2 n i=1 (1) dengan : dist(p,q) p i q i n = jarak sampel = data sampel ke-i = data input ke-i = jumlah sampel Tahapan algoritme KNN adalah sebagai berikut (Song et al. 2007): 1 Menentukan nilai k, dengan k merupakan jumlah tetangga terdekat. 2 Menghitung jarak data pada setiap data latih dengan menggunakan jarak Euclid. 3 Mendapatkan k data yang memiliki jarak terdekat.

19 6 Pengujian Pengujian dilakukan dengan melakukan klasifikasi pada fragmen uji. Hasil prediksi tersebut kemudian dibandingkan dengan kelas aktual yang telah diketahui sebelumnya, apakah fragmen uji benar diklasifikasi atau salah diklasifikasi. Evaluasi dan Analisis Hasil Analisis merupakan tahapan yang bertujuan memperoleh informasi yang terdapat pada hasil klasifikasi. Alat ukur klasifikasi yang digunakan yaitu confusion matrix. Confusion matrix adalah sebuah matriks yang menunjukkan nilai aktual dan nilai prediksi dari klasifikasi (Kohavi dan Provost 1998). Hasil penelitian diukur dengan menghitung tingkat akurasi dari fragmen metagenom yang diuji dan diamati. Akurasi dihitung dengan Persamaan 2. Melalui confusion matrix selain dapat diketahui tingkat akurasi juga dapat diketahui nilai sensitivitas dan spesifisitas. Sensitivitas dan spesifisitas masing-masing akan dihitung dengan Persamaan 3 dan Persamaan 4. Akurasi menghitung proporsi dari data uji yang diklasifikasikan dengan benar dari keseluruhan data uji. Sensitivitas dapat didefinisikan sebagai nilai true positive (Kohavi dan Provost 1998). Sensitivitas merupakan kemampuan suatu classifier untuk menunjukkan hasil positif pada genus yang sedang diamati, sedangkan spesifisitas merupakan kemampuan suatu classifier untuk menunjukkan hasil yang negatif pada genus yang sedang diamati. Sensitivitas memberi informasi seberapa baik sebuah classifier untuk mengidentifikasi hasil prediksi positif jika diberikan sampel aktual positif. Sensitivitas tidak memberi informasi tentang sampel aktual negatif namun diprediksi sebagai positif (Akobeng 2007). Spesifisitas merupakan nilai true negative (Kohavi dan Provost 1998). Spesifisitas hanya memberi informasi proporsi dari hasil prediksi negatif jika diberikan sampel aktual negatif. Spesifisitas tidak memberi informasi tentang sampel aktual positif namun diprediksi negatif (Akobeng 2007). Dengan menggunakan Tabel 1 dapat diketahui nilai akurasi, sensitivitas, dan spesifisitas dari suatu hasil klasifikasi. Untuk mendapatkan nilai sensitivitas dapat dihitung dengan menggunakan Persamaan 2, dengan true positive (TP) berarti banyaknya data dari kelas aktual yang benar dan berhasil diprediksi oleh classifier dengan benar. false negative (FN) terjadi jika data yang secara aktual benar diprediksi menjadi kelas yang salah. Spesifisitas dihitung dengan menggunakan Persamaan 3, dengan true negative (TN) didefinisikan banyaknya data dari kelas aktual yang salah dan berhasil diprediksi sebagai kelas yang salah. False positive (FP) adalah ketika data yang secara aktual salah namun diprediksi sebagai kelas yang benar. Tabel 1 Confusion matrix Kelas Kelas prediksi aktual A A A TP FN

20 7 A FP TN Tes yang ideal ialah selalu positif apabila kelas aktualnya positif (sensitivitas 100%) dan selalu negatif apabila kelas aktualnya negatif (spesifisitas 100%). Sensitivitas mengukur efektivitas suatu classifier untuk mengidentifikasi label positif. Spesifisitas mengukur efektivitas suatu classifier untuk mengidentifikasi label negatif. Akurasi = Sensitivitas = Spesifisitas = TP + TN TP + TN + FP + FN 100% (2) TP 100% (3) TP + FN TN 100% (4) TN + FP Lingkungan Implementasi Lingkungan implementasi penelitian ini menggunakan perangkat keras dan perangkat lunak sebagai berikut: 1 Perangkat keras berupa notebook: Intel Core i3 CPU 2.40 GHz Memori 2 GB Harddisk kapasitas 500 GB Monitor dengan resolusi piksel 2 Perangkat lunak: Sistem operasi Microsoft Windows 7 Professional Simulator metagenom MetaSim versi Bloodshed Dev-C++ Matlab 7.7 (R2008b) HASIL DAN PEMBAHASAN Penyiapan Data Pada penelitian ini digunakan fragmen metagenom dari 3 genus yaitu Agrobacterium, Bacillus, dan Staphylococcus. Fragmen metagenom tersebut terbagi menjadi dua yaitu fragmen metagenom organisme latih dan fragmen metagenom organisme uji. Total jumlah fragmen untuk pelatihan dan pengujian masing-masing adalah dan Fragmen metagenom yang digunakan dapat dilihat pada Lampiran 1 dan Lampiran 2. Data dibangkitkan menggunakan MetaSim dan berformat FASTA. Contoh data dengan format FASTA dapat dilihat pada Gambar 3. Data dengan format FASTA ini kemudian akan diekstraksi dan

21 8 dihitung frekuensi kemunculan fiturnya menggunakan spaced n-mers. Fitur spaced n-mers dengan n = 3 akan menghasilkan fitur sebanyak 192. Sehingga akan dihasilkan matriks dataset organisme latih berukuran dan dataset organisme uji berukuran Penelitian ini terdiri dari 8 percobaan dengan menggunakan fragmen dengan panjang dan nilai k bervariasi 3, 5, dan 7. Percobaan 1 sampai Percobaan 4 dilakukan dengan menggunakan dataset organisme latih sedangkan Percobaan 5 hingga Percobaan 8 menggunakan dataset organisme uji. Percobaan 1 dan 5 menggunakan panjang fragmen 500 bp. Percobaan 2 dan 6 menggunakan dataset dengan panjang fragmen 1 kbp. Percobaan 3 dan 7 akan menggunakan fragmen dengan panjang 5 kbp sedangakan Percobaan 4 dan 8 dengan panjang fragmen 10 kbp. Daftar fragmen metagenom yang digunakan dapat dilihat pada Lampiran 5 dan 6. >gi ref NC_ Corynebacterium diphtheriae NCTC chromosome, complete genome GTGTCGGAAACGCCATCCGTGTGGAACGAGACG TGGAATGAGATCACCAATGAACTCATTCAGCTA TCTCGCGAACCCGAAAGCGAGATTCCACGAATC ACTGCTGAACAACGCGCTTATCTCAAACTCGTC CGACCTGCGGCTTTTGTCGAAGGCATCGCCGTT TTACGGGTACCGCACTCCCGCGCCAAGGAGACG ATTGAAACCCATTTGGGGCAAGCGATAACCTCC GTGCTCTCCCGTCGTATGGGACGCCCCTTTACT GTGGCAGTCACCGTCGACCCCACGTTGGACGTC Gambar 3 Data berformat FASTA Klasifikasi Sebuah himpunan fragmen metagenom latih dengan klasifikasi label yang akurat harus diketahui pada awal algoritme. Kemudian untuk fragmen metagenom yang belum diketahui labelnya dihitung jaraknya. Setelah hasil perhitungan jarak diurutkan, keputusan label kelas dapat dibuat sesuai dengan label k terdekat dalam himpunan fragmen metagenom latih. Fragmen metagenom latih maupun fragmen metagenom uji diproses dengan spaced n-mers frequency terlebih dahulu. Kemudian proses klasifikasi data dilakukan dengan menggunakan metode KNN dengan jarak Euclid sebagai metode pengukuran jarak kemiripan. Sebelum proses klasifikasi dilakukan, nilai k, yaitu jumlah tetangga terdekat yang akan dilihat kelasnya untuk menentukan kelas terbanyak yang merupakan kelas dari titik baru, harus ditentukan terlebih dahulu. Pembagian data akan dibagi menjadi kelompok data menggunakan 5-fold cross validation. Setiap fold akan diujicobakan dengan kombinasi panjang fragmen 500 bp, 1 kbp, 5 kbp, dan 10 kbp serta nilai untuk KNN dengan k = 3, 5, dan 7 yang akan diuraikan pada percobaan 1, 2, 3, dan 4. Sehingga untuk setiap data latih akan terbentuk matriks berukuran dan data uji berukuran Jumlah kelas dalam klasifikasi adalah 3 sesuai dengan jumlah genus. Setelah semua dataset organisme latih diklasifikasi kemudian dataset tersebut akan digunakan untuk proses pengujian dataset organisme uji.

22 9 Percobaan 1: Dataset Organisme Latih dengan Panjang Fragmen 500 bp Pada percobaan 1 ini dataset yang digunakan adalah dataset organisme latih dengan panjang fragmen 500 bp. Hasil akurasi yang didapatkan pada percobaan ini dilihat pada Tabel 2 untuk panjang fragmen 500 bp. Hasil dari percobaan 1 pada pengujian dataset organisme latih dengan panjang fragmen 500 bp diperoleh fold dengan nilai akurasi tertinggi untuk masing-masing nilai k tetangga terdekat. Untuk panjang fragmen 500 bp didapatkan fold 5 dengan nilai akurasi tertinggi pada semua nilai k. Pada nilai k = 3 diperoleh akurasi 87.15%, k = 5 sebesar 89.20%, dan k = 7 sebesar 89.95%. Nilai fold ini akan digunakan sebagai data latih untuk pengujian dataset organisme uji. Rata-rata akurasi maksimum sebesar 86.19% pada k = 7. Tabel 2 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 500 bp Fold Akurasi (%) k = 3 k = 5 k = Rata-rata Pada fold 1 dan 2 terjadi penurunan akurasi pada k = 7 menjadi 77.45% dan 87.65%. Pada fold 1 terjadi bias yang menyebabkan banyak fragmen yang berasal dari genus Bacillus diprediksi sebagai genus Agrobacterium. Pada fold 2 terjadi bias yang menyebabkan banyak fragmen yang berasal dari genus Bacillus diprediksi sebagai genus Staphylococcus dan sebaliknya dari genus Staphylococcus diprediksi sebagai genus Bacillus. Untuk mengetahui record yang salah diklasifikasi dapat dilihat pada confusion matrix yang dilampirkan pada Lampiran 7. Percobaan 2: Dataset Organisme Latih dengan Panjang Fragmen 1 kbp Percobaan 2 ini menggunakan dataset organisme latih dengan panjang fragmen 1 kbp. Untuk panjang fragmen 1 kbp didapatkan fold 5 dengan nilai akurasi tertinggi pada semua nilai k. Pada nilai k = 3 diperoleh akurasi 94.50%, pada k = 5 sebesar 95.80%, dan k = 7 sebesar 96.75%. Rata-rata akurasi maksimum dari diperoleh sebesar 93.53% pada k = 7. Hasil akurasi yang didapatkan pada percobaan ini dilihat pada Tabel 3 untuk panjang fragmen 1 kbp. Pada fold 1 terjadi penurunan akurasi pada k = 7 dari 92.25% menjadi 91.25%. Fold 1 terjadi bias yang menyebabkan banyak fragmen yang berasal dari genus Bacillus diprediksi sebagai genus Agrobacterium. Untuk mengetahui record yang salah diklasifikasi dapat dilihat pada confusion matrix yang dilampirkan pada Lampiran 9.

23 10 Tabel 3 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 1 kbp Fold Akurasi (%) k = 3 k = 5 k = Rata-rata Percobaan 3: Dataset Organisme Latih dengan Panjang Fragmen 5 kbp Tabel 4 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 5 kbp Fold Akurasi (%) k = 3 k = 5 k = Rata-rata Hasil dari percobaan 3 pada pengujian dataset organisme latih dengan panjang fragmen 5 kbp didapatkan 2 nilai fold dengan akurasi tertinggi. Pada nilai k = 3 dan k = 5 dipilih dari fold 1. Sedangkan pada nilai k = 7 dipilih dari fold 5. Dengan fold 1 diperoleh nilai akurasi dari k = 3 sebesar 99.20% dan k = 5 sebesar 99.25%. Sedangkan k = 7 diperoleh nilai akurasi sebesar 99.05% dari fold 5. Ratarata akurasi maksimum sebesar 98.84% pada k = 3. Pada fold 1 terjadi penurunan akurasi pada k = 7 menjadi Hal ini terjadi karena banyak fragmen yang berasal dari genus Bacillus diprediksi sebagai genus Agrobacterium dan genus Bacillus diprediksi sebagai genus Staphylococcus dan sebaliknya. Pada fold 2 terjadi penurunan namun tidak terlalu signifikan dari 98.40% menjadi 98.35%. Ini terjadi karena ada penambahan satu fragmen yang awalnya berasal dari genus Staphylococcus namun diprediksi sebagai genus Bacillus. Untuk mengetahui record yang salah diklasifikasi dapat dilihat pada confusion matrix yang dilampirkan pada Lampiran 11.

24 11 Percobaan 4: Dataset Organisme Latih dengan Panjang Fragmen 10 kbp Pada percobaan 4 ini dataset yang digunakan adalah dataset organisme latih dengan panjang fragmen 10 kbp. Hasil akurasi yang didapatkan pada percobaan ini dilihat pada Tabel 5 untuk panjang fragmen 10 kbp. Dari percobaan 4 didapatkan 2 nilai fold dengan akurasi tertinggi. Pada nilai k = 3 dan k = 5 dipilih dari fold 3. Sedangkan pada nilai k = 7 dipilih dari fold 5. Dengan fold 3 diperoleh nilai akurasi dari k = 3 sebesar 99.75% dan k = 5 sebesar 99.65%. Sedangkan k = 7 diperoleh nilai akurasi sebesar 99.55% dari fold 5. Rata-rata akurasi maksimum sebesar 99.59% pada k = 3. Pada fold 1 terjadi penurunan akurasi pada k = 5 dari 99.55% menjadi 99.40%. Fold 1 terjadi bias yang menyebabkan banyak fragmen yang berasal dari genus Staphylococcus diprediksi sebagai genus Bacillus. Fold 2 dan fold 3 juga mengalami penurunan akurasi pada k = 5 dan k = 7. Pada fold 2 dan fold 3 terjadi bias yang menyebabkan fragmen dari genus Bacillus diprediksi menjadi genus Staphylococcus dan sebaliknya dari genus Staphylococcus menjadi genus Bacillus. Tabel 5 Hasil akurasi pengujian dataset organisme latih dengan panjang fragmen 10 kbp Akurasi (%) Fold k = 3 k = 5 k = Rata-rata Untuk mengetahui record yang salah diklasifikasi dapat dilihat pada confusion matrix yang dilampirkan pada Lampiran 13. Fold dengan akurasi tertinggi dari setiap panjang fragmen akan digunakan sebagai data latih untuk pengujian dataset organisme uji. Hasil akurasi tertinggi dari setiap percobaan dengan bermacam panjang fragmen yang akan digunakan sebagai dataset organisme latih dapat dilihat pada Tabel 6. Dari pengujian dataset organisme latih terlihat bahwa semakin panjang fragmen yang diklasifikasi, nilai akurasi, sensitiviy, dan spesifisitas semakin meningkat. Namun hal ini tidak berlaku jika diterapkan nilai k yang beragam. Terdapat penurunan tingkat akurasi, sensitivitas dan spesifisitas pada percobaan 4 menggunakan data organisme latih dengan panjang fragmen 10 kbp dengan nilai k = 5 dan k = 7. Sebelumnya akurasi bernilai 99.75% pada nilai k = 3, kemudian menurun pada nilai k = 5 menjadi 99.65% dan kembali turun pada k = 7 hingga 99.55%. Begitu juga dengan nilai sensitivitas dan spesifisitas. Hal ini disebabkan karena pada proses pengujian dengan menggunakan klasifikasi KNN, akurasi sangat dipengaruhi oleh jumlah k tetangga terdekat. Pada proses pengujian dataset organisme latih banyak terdapat fragmen yang salah prediksi dan diidentifikasi ke kelas yang tidak sesuai. Sensitivitas dan spesifisitas tidak mampu memberikan informasi mengenai fragmen yang salah prediksi. Tabel 6 Hasil akurasi fold tertinggi pada pengujian dataset organisme latih Panjang Akurasi (%) fragmen k = 3 k = 5 k = bp kbp kbp kbp

25 12 Sensitivitas dan spesifisitas organisme latih dihitung dari fold pengujian dataset organisme latih yang memperoleh nilai akurasi terbaik. Pada percobaan 1 dengan panjang fragmen 500 bp dan percobaan 2 dengan panjang fragmen 1 kbp dipilih fold 5. Pada percobaan 3 dengan panjang fragmen 5 kbp ambil dari 2 fold yaitu fold 1 untuk k = 1 dan k = 3 dan fold 5 untuk k = 7. Percobaan 4 dengan panjang fragmen 10 kbp juga dipilih dari 2 fold yaitu fold 3 untuk k = 1 dan k = 3 dan fold 5 untuk k = 7. Hasil sensitivitas dan spesifisitas dari pengujian dataset organisme latih bisa dilihat pada Tabel 7 dan Tabel 8. Tabel 7 Hasil sensitivitas organisme latih Panjang Sensitivitas (%) fragmen k = 3 k = 5 k = bp kbp kbp kbp Tabel 8 Hasil spesifisitas organisme latih Panjang Spesifisitas (%) fragmen k = 3 k = 5 k = bp kbp kbp kbp Penurunan sensitivitas dan spesifisitas terjadi pada percobaan 3 dengan panjang fragmen 5 kbp dengan k = 5 namun kembali mengalami peningkatan pada k = 7. Penurunan ini disebabkan karena ada salah prediksi fragmen dari genus Bacillus sebagai genus Agrobacterium. Selain itu juga banyak terdapat fragmen dari genus Bacillus yang diprediksi sebagai genus Staphylococcus dan sebaliknya dari genus Staphylococcus diprediksi sebagai genus Bacillus. Peningkatan kembali terjadi pada k = 7 karena tidak lagi ada fragmen dari genus Bacillus yang diprediksi sebagai genus Agrobacterium. Penurunan sensitivitas dan spesifisitas juga terjadi pada panjang fragmen 10

26 13 kbp dengan nilai k = 5 dan k = 7. Hal ini disebabkan karena masih terdapat kesalahan prediksi fragmen yang berasal dari genus Bacillus menjadi genus Staphylococcus. Pada k = 7 terdapat satu kesalahan prediksi genus Agrobacterium menjadi genus Bacillus. Namun demikian nilai sensitivitas dan spesifisitas terbaik diperoleh dari percobaan 4 dengan panjang fragmen 10 kbp dengan nilai k = 3. Nilai sensitivitas dan spesifisitas yang diperoleh berturut-turut yaitu 99.71% dan 99.85%. Hasil akurasi tertinggi dari percobaan 4 dengan menggunakan nilai k = 3 sebesar 99.75%. Perbandingan tingkat akurasi, sensitivitas, dan spesifisitas dari dataset organisme latih ditunjukkan pada Tabel 9. Kriteria Tabel 9 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih Tingkat (%) k = 3 k = 5 k = bp 1 kbp 5 kbp 10 kbp 500 bp 1 kbp 5 kbp 10 kbp 500 bp 1 kbp 5 kbp 10 kbp Akurasi Sensitivitas Spesifisitas Percobaan 5: Dataset Organisme Uji dengan Panjang Fragmen 500 bp Percobaan 5 dilakukan dengan menguji dataset organisme uji pada panjang fragmen 500 bp. Nilai k atau jumlah tetangga terdekat yang digunakan yaitu 3, 5, dan 7. Dari pengujian dataset organisme latih diperoleh fold dengan akurasi nilai tertinggi. Fold dengan akurasi nilai tertinggi tersebut kemudian digunakan sebagai data latih dalam pengujian dataset organisme uji. Sehingga, diperoleh data latih sebanyak 8000 data dan data uji sebanyak 5000 data. Hasil akurasi organisme uji mengalami peningkatan dengan bertambahnya nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi 85.64%. Untuk nilai k = 5 dan k = 7 masing-masing diperoleh akurasi sebesar 86.18% dan 86.52%. Hal serupa juga terjadi pada hasil sensitivitas dan spesifisitas yang mengalami peningkatan dengan bertambahnya nilai k tetangga terdekat. Sensitivitas dan spesifisitas pada k = 3 sebesar dan 91.61%. Sensitivitas pada k = 5 dan k = 7 masing-masing sebesar 84.65% dan 84.89%. Sedangkan spesifisitas pada k = 5 dan k = 7 masng-masing sebesar 91.85% dan 92%. Tabel 10 Confusion matrix dataset organisme uji dengan panjang fragmen 500 bp Kelas prediksi Kelas aktual k = 3 k = 5 k = 7 Agr Bac Sta Agr Bac Sta Agr Bac Sta Agrobacterium Bacillus Staphylococcus Peningkatan sensitivitas dan spesifisitas terjadi karena tidak ada fragmen dari genus Staphylococcus yang salah diprediksi menjadi genus Agrobacterium. Selain itu juga terjadi penurunan jumlah fragmen yang salah prediksi dari genus

27 14 Agrobacterium menjadi genus Bacillus dan sebaliknya, serta salah prediksi untuk fragmen Bacillus menjadi Staphylococcus. Untuk mengetahui fragmen yang salah diklasifikasi dapat dilihat pada confusion matrix pada Tabel 10. Percobaan 6: Dataset Organisme Uji dengan Panjang Fragmen 1 kbp Percobaan 6 dilakukan dengan menguji dataset organisme uji pada panjang fragmen 1 kbp. Hasil akurasi organisme uji ini juga mengalami peningkatan dengan bertambahnya nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi 91.34%. Untuk nilai k = 5 dan k = 7 masing-masing diperoleh akurasi sebesar 91.92% dan 92.04%. Peningkatan juga terjadi pada hasil sensitivitas dan spesifisitas dengan bertambahnya nilai k tetangga terdekat. Sensitivitas dan spesifisitas pada k = 3 sebesar 90.69% dan 95.04%. Sensitivitas pada k = 5 dan k = 7 masing-masing sebesar 91.30% dan 91.32%. Sedangkan spesifisitas pada k = 5 dan k = 7 masng-masing sebesar 95.37% dan 95.40%. Fragmen dari genus Staphylococcus tidak ada yang salah diprediksi menjadi genus Agrobacterium. Namun, ada genus Agrobacterium yang diprediksi menjadi genus Staphylococcus. Peningkatan sensitivitas dan spesifisitas terjadi karena terdapat penurunan jumlah fragmen yang salah prediksi dari genus Bacillus menjadi genus Agrobacterium. Serta penurunan salah prediksi untuk fragmen Bacillus menjadi Staphylococcus. Hasil akurasi, sensitivitas, dan spesifisitas yang didapatkan pada percobaan ini masing-masing dapat dilihat pada Tabel 14 dan Tabel 15. Untuk mengetahui fragmen yang salah diklasifikasi dapat dilihat pada confusion matrix pada Tabel 11. Tabel 11 Confusion matrix datset organisme uji dengan panjang fragmen 1 kbp Kelas prediksi Kelas aktual k = 3 k = 5 k = 7 Agr Bac Sta Agr Bac Sta Agr Bac Sta Agrobacterium Bacillus Staphylococcus Percobaan 7: Dataset Organisme Uji dengan Panjang Fragmen 5 kbp Percobaan 7 menguji dataset organisme uji pada panjang fragmen 5 kbp. Hasil akurasi organisme uji mengalami penurunan dengan bertambahnya nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi 96.78%. Untuk nilai k = 5 dan k = 7 masing-masing diperoleh akurasi sebesar 96.60% dan 96.42%. Hal serupa juga terjadi pada hasil sensitivitas dan spesifisitas yang mengalami penurunan. Pada k = 3 diperoleh sensitivitas 96.40%. Pada k = 5 dan k = 7 terjadi penurunan menjadi 96.17% dan 95.92%. Pada k = 3 diperoleh spesifisitas sebesar 98.08%. Pada k = 5 dan k = 7 terjadi penurunan menjadi 97.96% dan 97.84%. Fragmen dari genus Staphylococcus tidak ada yang salah diprediksi menjadi genus Agrobacterium begitu juga sebaliknya. Pada k = 5 dan k = 7 terjadi peningkatan fragmen yang salah prediksi dari genus Agrobacterium menjadi Bacillus dan Staphylococcus menjadi Bacillus. Hasil akurasi, sensitivitas, dan

28 15 spesifisitas yang didapatkan pada percobaan ini masing-masing dapat dilihat pada Tabel 14 dan Tabel 15. Hasil prediksi mengalami peningkatan ketika melakukan klasifikasi pada genus Bacillus. Untuk mengetahui fragmen yang salah diklasifikasi dapat dilihat pada confusion matrix pada Tabel 12. Tabel 12 Confusion matrix dataset organisme uji dengan panjang fragmen 5 kbp Kelas prediksi Kelas aktual k = 3 k = 5 k = 7 Agr Bac Sta Agr Bac Sta Agr Bac Sta Agrobacterium Bacillus Staphylococcus Percobaan 8: Dataset Organisme Uji dengan Panjang Fragmen 10 kbp Pada percobaan 8 digunakan dataset organisme uji dengan panjang fragmen 10 kbp. Hasil akurasi organisme uji juga mengalami penurunan dengan bertambahnya nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi 98.28%. Untuk nilai k = 5 dan k = 7 masing-masing diperoleh akurasi sebesar 98.02% dan 97.58%. Penurunan juga terjadi pada hasil sensitivitas dan spesifisitas dengan bertambahnya nilai k tetangga terdekat. Sensitivitas dan spesifisitas pada k = 3 sebesar 98.06% dan 98.95%. Sensitivitas pada k = 5 dan k = 7 masing-masing sebesar 97.77% dan 97.27%. Sedangkan spesifisitas pada k = 5 dan k = 7 masingmasing sebesar 98.80% dan 98.53%. Tabel 13 Confusion matrix dataset organisme uji dengan panjang fragmen 10 kbp Kelas prediksi Kelas aktual k = 3 k = 5 k = 7 Agr Bac Sta Agr Bac Sta Agr Bac Sta Agrobacterium Bacillus Staphylococcus Fragmen dari genus Agrobacterium tidak ada yang salah diprediksi menjadi genus Bacillus maupun Staphylococcus begitu juga sebaliknya. Fragmen dari genus Bacillus dan Staphylococcus tidak ada yang salah prediksi menjadi genus Agrobacterium. Pada k = 5 dan k = 7 terjadi peningkatan fragmen yang salah prediksi dari genus Bacillus menjadi Staphylococcus dan sebaliknya dari Staphylococcus menjadi Bacillus. Hasil akurasi, sensitivitas, dan spesifisitas yang didapatkan pada percobaan ini masing-masing dapat dilihat pada Tabel 14 dan Tabel 15. Untuk mengetahui fragmen yang salah diklasifikasi dapat dilihat pada confusion matrix pada Tabel 13. Pada pengujian dataset organisme uji diperoleh nilai akurasi yang semakin meningkat berdasarkan jumlah fragmen yang diuji. Hal yang serupa juga ditunjukkan oleh sensitivity dan specificity. Hasil akurasi terbaik diperoleh dari

29 16 Percobaan 1 dengan nilai k = 3 mencapai 98.28%. Sensitivitas dan spesifisitas dengan nilai terbaik juga didapat dari percobaan yang sama. Nilai sensitivitas dan spesifisitas yang diperoleh berturut-turut yaitu 98.06% dan 98.95% sebagaimana dilihat dari Tabel 16. Tabel 14 Hasil akurasi pada pengujian dataset organisme uji Panjang Akurasi (%) fragmen k = 3 k = 5 k = bp kbp kbp kbp Tabel 15 Hasil sensitivitas dan spesifisitas organisme uji Panjang Sensitivitas (%) Spesifisitas (%) fragmen k = 3 k = 5 k = 7 k = 3 k = 5 k = bp kbp kbp kbp Tabel 16 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme uji Tingkat (%) Kriteria k = 3 k = 5 k = bp 1 kbp 5 kb 10 kbp 500 bp 1 kbp 5 kbp 10 kbp 500 bp 1 kbp 5 kbp 10 kbp Akurasi Sensitivitas Spesifisitas Perbandingan Akurasi, Sensitivitas, dan Spesifisitas antara Dataset Organisme Latih dengan Organisme Uji Perbandingan akurasi, sensitivitas, dan spesifisitas dari dataset organisme latih dan organisme uji ditunjukkan pada Tabel 17. Dari tabel tersebut tampak bahwa hasil akurasi, sensitivitas, dan spesifisitas antara organisme latih lebih tinggi daripada organisme uji. Ini mungkin disebabkan karena ada tumpang tindih urutan antara fragmen yang berbeda dalam spesies atau antar spesies dalam genus yang sama. Sehingga menyebabkan salah klasifikasi dengan menetapkan fragmen ke genus yang berbeda. Nilai k Tabel 17 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih dan uji Panjang fragmen Akurasi Sensitivitas Spesifisitas Latih Uji Latih Uji Latih Uji k = bp kbp kbp

30 17 Pengujian Dataset Organisme Latih dan Organisme Uji Berdasarkan Genus Tabel 18 dan Tabel 19 menunjukkan nilai sensitivitas dari setiap genus dengan panjang fragmen berbeda masing-masing dari organisme latih dan organisme uji. Sensitivitas dari penelitian ini sangat tinggi ketika menggunakan spesies dari genus Agrobacterium, bahkan ketika hanya menggunakan fragmen dengan panjang 500 bp. Kinerja algoritme meningkat dengan meningkatnya panjang fragmen. Untuk organisme latih, sensitivitas dengan panjang fragmen 500 bp rata-rata mencapai 96.05%. Kecenderungan ini juga diperlihatkan oleh dataset yang mewakili organisme uji yang mencapai rata-rata sensitivitas 98.10%. Ini berarti pengujian yang dilakukan berhasil mengenali fragmen dari spesies yang berasal dari genus Agrobacterium sekitar 96% dengan benar. Namun, sensitivitas dari penelitian ini hanya mencapai rata-rata 74% untuk organisme latih dan 63.34% untuk organisme uji ketika mengklasifikasi fragmen spesies yang termasuk dalam genus Staphylococcus dengan panjang fragmen 500 bp. Penyebab hal tersebut mungkin karena terdapat banyak fragmen dari genus Staphylococcus yang diprediksi ke dalam Bacillus. Hal ini dimungkinkan karena Staphylococcus dan Bacillus berasal dari satu ordo yang sama yaitu Bacilalles. Kesalahan klasifikasi fragmen mungkin terjadi karena terdapat overlap sekuens antara strain yang berbeda dalam spesies di ordo yang sama. Sehingga perlu dipertimbangkan untuk memperluas penelitian ini untuk mengklasifikasikan fragmen ke tingkat taksonomi yang lebih tinggi. Panjang fragmen Tabel 18 Hasil sensitivitas organisme latih Agrobacterium (%) Bacillus (%) Staphylococcus (%) k = 3 k = 5 k = 7 k = 3 k = 5 k = 7 k = 3 k = 5 k = bp kbp kbp

31 18 Panjang fragmen Tabel 19 Hasil sensitivitas organisme uji Agrobacterium (%) Bacillus (%) Staphylococcus (%) k = 3 k = 5 k = 7 k = 3 k = 5 k = 7 k = 3 k = 5 k = bp kbp kbp kbp Tabel 20 dan Tabel 21 menunjukkan nilai spesifisitas dari setiap genus dengan panjang fragmen berbeda masing-masing dari organisme latih dan organisme uji. Hasil spesifisitas dari penelitian ini juga sangat tinggi ketika menggunakan spesies dari genus Agrobacterium, walaupun hanya memakai fragmen dengan panjang 500 bp. Kinerja algoritme meningkat dengan meningkatnya panjang fragmen. Untuk organisme latih, spesifisitas dengan panjang fragmen 500 bp rata-rata mencapai 99.26%. Kecenderungan ini juga diperlihatkan oleh dataset yang mewakili organisme uji yang mencapai rata-rata akurasi 99.10%. Spesifisitas yang didapat dari genus Bacillus dengan panjang fragmen 500 bp hanya mencapai rata-rata 85.91% untuk organisme latih dan 80.42% untuk organisme uji. Hal tersebut mungkin disebabkan karena terdapat banyak fragmen dari genus Bacillus yang diprediksi ke dalam Staphylococcus. Hal ini dimungkinkan karena Bacillus dan Staphylococcus berasal dari satu ordo yang sama yaitu Bacilalles. Panjang fragmen Tabel 20 Hasil spesifisitas organisme latih Agrobacterium (%) Bacillus (%) Staphylococcus (%) k = 3 k = 5 k = 7 k = 3 k = 5 k = 7 k = 3 k = 5 k = bp kbp kbp kbp Panjang fragmen Tabel 21 Hasil spesifisitas organisme uji Agrobacterium (%) Bacillus (%) Staphylococcus (%) k = 3 k = 5 k = 7 k = 3 k = 5 k = 7 k = 3 k = 5 k = bp kbp kbp

32 19 Objek penelitian Fragmen metagenom (Kusuma 2011) Fragmen metagenom (Penelitian ini) Tabel 22 Perbandingan hasil akurasi penelitian terkait Metode klasifikasi SVM KNN Dataset Organisme latih Organisme uji Organisme latih Organisme uji Panjang fragmen Hasil (%) 500 bp kbp kbp kbp bp kbp kbp kbp bp kbp kbp kbp bp kbp kbp kbp Dari Tabel 24 dapat dilihat bahwa penelitian ini memiliki kesamaan objek penelitian dengan penelitian Kusuma dan Akiyama (2011) yaitu fragmen metagenom. Penelitian Kusuma dan Akiyama (2011) menerapkan algoritme characterization vector dalam ekstraksi fitur dan mengimplementasikan SVM sebagai classifier menghasilkan akurasi terbaik sebesar 92% pada Percobaan 4 untuk fragmen latih dengan panjang 10 kbp. Penelitian ini merujuk pada data yang sama (Kusuma dan Akiyama 2011) dengan menerapkan spaced n-mers sebagai ekstraksi fitur dan KNN sebagai classifier dan mendapatkan akurasi tertinggi pada percobaan yang sama mencapai rata-rata sebesar 99.65%.

PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER

PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER PEMODELAN BIPLOT PADA KLASIFIKASI FRAGMEN METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER FERDINAN ANDREAS MANGASI SIMAMORA DEPARTEMEN ILMU KOMPUTER FAKULTAS

Lebih terperinci

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016 PERNYATAAN

Lebih terperinci

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA

KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi 4 Perangkat keras berupa Notebook: Processor intel Core i3 2.2 GHz. RAM kapasitas 2. GB. Harddisk Kapasitas 5 GB. Monitor pada resolusi 1366 x 768 piksel. Merek Acer Aspire 475. Perangkat lunak berupa:

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor PENGENALAN KADAR TOTAL PADAT TERLARUT PADA BUAH BELIMBING BERDASAR CITRA RED-GREEN-BLUE MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS (PCA) SEBAGAI EKSTRAKSI CIRI DAN KLASIFIKASI K-NEAREST NEIGHBORHOOD (KNN)

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB 4 IMPLEMENTASI DAN PENGUJIAN

BAB 4 IMPLEMENTASI DAN PENGUJIAN BAB 4 IMPLEMENTASI DAN PENGUJIAN 4.1 Implementasi Tahap implementasi merupakan tahap pengimplementasian metode kedalam perangkat lunak simulasi, tahap lanjut dari tahap perancangan simulasi di bab sebelumnya.

Lebih terperinci

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI 2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma

Lebih terperinci

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

Lingkungan Pengembangan HASIL DAN PEMBAHASAN aturan 3--5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam

Lebih terperinci

PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE

PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE Gray Level Co-occurrence Matrix (GLCM) dan GABOR FILTER DALAM PENGENALAN MOTIF BATIK OLEH : ANUGRAH SURADIPURWO NIM : 41508110061

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz Data yang pada awalnya berupa chanel stereo diubah ke dalam chanel mono. Kemudian data tersebut disimpan dengan file berekstensi WAV. Praproses Pada tahap ini dilakukan ekstraksi ciri menggunakan metode

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

dan 3. Jumlah partisi vertikal (m) dari kiri ke kanan beturut-turut adalah 1, 2, 3, 4, dan 5. akurasi =.

dan 3. Jumlah partisi vertikal (m) dari kiri ke kanan beturut-turut adalah 1, 2, 3, 4, dan 5. akurasi =. dan 3. Jumlah partisi vertikal (m) dari kiri ke kanan beturut-turut adalah 1, 2, 3, 4, dan 5. Gambar 5 Macam-macam bentuk partisi citra. Ekstraksi Fitur Pada tahap ini semua partisi dari citra dihitung

Lebih terperinci

1. PENDAHULUAN 1.1. Latar Belakang

1. PENDAHULUAN 1.1. Latar Belakang 1. PENDAHULUAN 1.1. Latar Belakang Kanker merupakan salah satu penyakit yang dapat beresiko pada kematian atau lebih dikenal dengan penyakit pembunuh. Salah satu penyakit pembunuh diantaranya kanker prostat

Lebih terperinci

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN

Lebih terperinci

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN

PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN Herfina 1) 1) Program Studi Ilmu Komputer, FMIPA Universitas Pakuan Jl. Pakuan PO BOX 452, Ciheuleut Bogora email : herfinario@yahoo.com

Lebih terperinci

Lingkungan Pengembangan Pelatihan HASIL DAN PEMBAHASAN Seleksi Fitur Pelatihan (deskripsi training Klasifikasi Akurasi

Lingkungan Pengembangan Pelatihan HASIL DAN PEMBAHASAN Seleksi Fitur Pelatihan (deskripsi training Klasifikasi Akurasi 6 diberikan sesuai dengan beban SKS mata kuliah yang bersangkutan, sedangkan fitur IP TPB disesuaikan. Untuk fitur mata kuliah yang sudah terseleksi, bobot yang dipakai sesuai dengan beban SKS, sedangkan

Lebih terperinci

Kelas. Kelas. p q r s t u v w x y Level Transformasi.

Kelas. Kelas. p q r s t u v w x y Level Transformasi. Fitur yang digunakan untuk pelatihan pada algoritme VFI5 diperoleh dari tiap-tiap piksel pada citra tanda tangan. Fitur pada pelatihan yang semula berupa matriks berukuran 3 4 piksel disusun menjadi matriks

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Klasifikasi merupakan salah satu bidang kajian pada machine learning. Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

Identifikasi DNA dengan Rantai Markov Orde Satu dan Probabilistic Neural Network

Identifikasi DNA dengan Rantai Markov Orde Satu dan Probabilistic Neural Network Seminar Nasional Teknologi Informasi 2013 1 Identifikasi DNA dengan Rantai Markov Orde Satu dan Probabilistic Neural Network Toto Haryanto 1) Habib Rijzaani 2) Muhammad Luthfi Fajar 3) 1) Laboratorium

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO ANALISIS PERBANDINGAN PROSES CLUSTER MENGGUNAKAN K- MEANS CLUSTERING DAN K-NEAREST NEIGHBOR PADA PENYAKIT DIABETES MELLITUS SKRIPSI RONNY BENEDIKTUS SIRINGORINGO 131421021 PROGRAM STUDI S1 ILMU KOMPUTER

Lebih terperinci

METODE PENELITIAN HASIL DAN PEMBAHASAN

METODE PENELITIAN HASIL DAN PEMBAHASAN 5. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain : BAB 3 METODE PENELITIAN 3.1 Instrumen Penelitian Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain : 3.1.1 Bahan Bahan yang digunakan dalam penelitian ini yaitu data siswa kelas SMA

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 3.1 Alat dan Bahan Penelitian BAB III METODOLOGI PENELITIAN 3.1.1 Alat Alat yang digunakan dalam penelitian ini adalah: a. Hardware a. Prosesor : Intel Core i5-3230m CPU @ 2.60GHz b. Memori : 4.00 GB c.

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Jurnal Ilmiah Ilmu Komputer, Vol 15 No. 2, Desember 2010 : 38-41 Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Vera Yunita, Yeni Herdiyeni Departemen Ilmu

Lebih terperinci

Bab III METODOLOGI PENELITIAN. Pada penelitian ini menggunakan ala penelitian berupa perangkat keras

Bab III METODOLOGI PENELITIAN. Pada penelitian ini menggunakan ala penelitian berupa perangkat keras Bab III METODOLOGI PENELITIAN 3.1 Alat dan Bahan Penelitian Pada penelitian ini menggunakan ala penelitian berupa perangkat keras dan perangkat lunak, yaitu: a. Perangkat keras 1. Processor Intel Core

Lebih terperinci

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Yuandri Trisaputra, Indriyani, Shellafuri Mardika Biru, Muhammad Ervan Departemen Ilmu Komputer, FMIPA,

Lebih terperinci

Identifikasi Jenis Kayu Menggunakan Support Vector Machine Berbasis Data Citra

Identifikasi Jenis Kayu Menggunakan Support Vector Machine Berbasis Data Citra Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 3 Nomor 1 halaman 1-8 ISSN: 2089-6026 Identifikasi Jenis Kayu Menggunakan Support Vector Machine Berbasis Data Citra Wood Type

Lebih terperinci

IDENTIFIKASI DAUN SHOREA MENGGUNAKAN KNN BERDASARKAN KOMPONEN WARNA DENGAN PRAPROSES DISCRETE WAVELET TRANSFORM SEPTY KURNIAWATI MASYHUD

IDENTIFIKASI DAUN SHOREA MENGGUNAKAN KNN BERDASARKAN KOMPONEN WARNA DENGAN PRAPROSES DISCRETE WAVELET TRANSFORM SEPTY KURNIAWATI MASYHUD IDENTIFIKASI DAUN SHOREA MENGGUNAKAN KNN BERDASARKAN KOMPONEN WARNA DENGAN PRAPROSES DISCRETE WAVELET TRANSFORM SEPTY KURNIAWATI MASYHUD DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

BAB I PENDAHULUAN. I.1. Latar Belakang

BAB I PENDAHULUAN. I.1. Latar Belakang BAB I PENDAHULUAN Bab ini menjelaskan mengenai gambaran umum keseluruhan penelitian yang telah dilakukan. Penjelasan mengenai latar belakang, tujuan, ruang lingkup penelitian dan metodologi penelitian.

Lebih terperinci

PENGENALAN AKSARA BALI MENGGUNAKAN METODE MODIFIED DIRECTION FEATURE DAN ALGORITMA GENERALIZED LEARNING VECTOR QUANTIZATION (GLVQ)

PENGENALAN AKSARA BALI MENGGUNAKAN METODE MODIFIED DIRECTION FEATURE DAN ALGORITMA GENERALIZED LEARNING VECTOR QUANTIZATION (GLVQ) PENGENALAN AKSARA BALI MENGGUNAKAN METODE MODIFIED DIRECTION FEATURE DAN ALGORITMA GENERALIZED LEARNING VECTOR QUANTIZATION (GLVQ) KOMPETENSI KOMPUTASI SKRIPSI NI WAYAN DEVIYANTI SEPTIARI NIM. 1108605004

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

Apa itu is K-Nearest Neighbor (KNN) Algorithm? K-Nearest Neighbor Pendahuluan K-Nearest Neighbour atau KNN adalah salah dari algoritma instance based learning atau case-based reasoning. Definisi case based reasoning: KNN digunakan dalam banyak aplikasi

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA

EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2009 EKSPLORASI

Lebih terperinci

IDENTIFIKASI JAMUR MENGGUNAKAN METODE K-NEAREST NEIGHBOR DENGAN EKSTRAKSI CIRI MORFOLOGI

IDENTIFIKASI JAMUR MENGGUNAKAN METODE K-NEAREST NEIGHBOR DENGAN EKSTRAKSI CIRI MORFOLOGI IDENTIFIKASI JAMUR MENGGUNAKAN METODE K-NEAREST NEIGHBOR DENGAN EKSTRAKSI CIRI MORFOLOGI Anis Zubair 1), Ahmad Rofiqul Muslikh 2) 1,2) Fakultas Teknologi Informasi, Universitas Merdeka Malang Email: anis.zubair@unmer.ac.id

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Genre musik adalah pengelompokan musik sesuai dengan kemiripan satu dengan yang lain, seperti kemiripan dalam hal frekuensi musik, struktur ritmik, dan konten harmoni. Genre

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Penelitian mengenai pengenalan wajah termotivasi oleh banyaknya aplikasi praktis yang diperlukan dalam identifikasi wajah. Pengenalan wajah sebagai salah satu dari teknologi

Lebih terperinci

Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra Penampang Daun Freycinetia

Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra Penampang Daun Freycinetia Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 2 Nomor 1 halaman 20-28 ISSN: 2089-6026 Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra

Lebih terperinci

DIAGNOSA KETIDAKLURUSAN (MISALIGNMENT) POROS MENGGUNAKAN METODE MULTICLASS SUPPORT VECTOR MACHINE (SVM)

DIAGNOSA KETIDAKLURUSAN (MISALIGNMENT) POROS MENGGUNAKAN METODE MULTICLASS SUPPORT VECTOR MACHINE (SVM) DIAGNOSA KETIDAKLURUSAN (MISALIGNMENT) POROS MENGGUNAKAN METODE MULTICLASS SUPPORT VECTOR MACHINE (SVM) SKRIPSI Diajukan sebagai salah satu syarat Untuk memperoleh gelar Sarjana Teknik Oleh: WANTO NIM.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

LAPORAN SKRIPSI DATA MINING PENENTUAN LAGU DANGDUT TERLARIS MENGGUNAKAN ALGORITMA NAIVE BAYES. Oleh : VINA KHILMIYATI

LAPORAN SKRIPSI DATA MINING PENENTUAN LAGU DANGDUT TERLARIS MENGGUNAKAN ALGORITMA NAIVE BAYES. Oleh : VINA KHILMIYATI LAPORAN SKRIPSI DATA MINING PENENTUAN LAGU DANGDUT TERLARIS MENGGUNAKAN ALGORITMA NAIVE BAYES Oleh : VINA KHILMIYATI 2010-51-216 SKRIPSI DIAJUKAN SEBAGAI SALAH SATU SYARAT UNTUK MEMPEROLEH GELAR SARJANA

Lebih terperinci

Akurasi. Perangkat Lunak: Sistem operasi: Windows Vista Home Premium Aplikasi pemrograman: Matlab 7.0

Akurasi. Perangkat Lunak: Sistem operasi: Windows Vista Home Premium Aplikasi pemrograman: Matlab 7.0 Tabel 1 Dimensi citra di tiap level Level transformasi Dimensi citra 1 46 56 2 23 28 3 12 14 4 6 7 5 3 4 6 2 2 Pada Gambar 5 disajikan visualisasi transformasi wavelet hingga level 3. Deskripsi citra dekomposisi

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

BAB I PENDAHULUAN. manusia karena faktor ini mampu mengarahkan dan menunjukkan kualitas hidup

BAB I PENDAHULUAN. manusia karena faktor ini mampu mengarahkan dan menunjukkan kualitas hidup 1 BAB I PENDAHULUAN 1.1. Latar Belakang Pendidikan merupakan salah satu faktor utama dalam hidup seorang manusia karena faktor ini mampu mengarahkan dan menunjukkan kualitas hidup setiap orang. Namun keberadaan

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK) IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK) Diana Septiari Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bagian ini akan diuraikan teori-teori dasar yang dijadikan sebagai landasan dalam penulisan tugas akhir ini. 2.1 Ilmu Bioinformatika Bioinformatika merupakan kajian yang mengkombinasikan

Lebih terperinci

PENENTUAN PARAMATER PADA ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR BERBASIS ALGORITMA GENETIKA

PENENTUAN PARAMATER PADA ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR BERBASIS ALGORITMA GENETIKA PENENTUAN PARAMATER PADA ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR BERBASIS ALGORITMA GENETIKA Karno Pusat Inovasi, Lembaga Ilmu Pengetahuan Indonesia Jln. Raya Jakarta-Bogor Km. 47 Cibinong 16912, Bogor,

Lebih terperinci

PENGENALAN KUALITAS BUAH JERUK KINTAMANI MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) KOMPETENSI KOMPUTASI SKRIPSI KOMANG SONIYA GUNAWAN

PENGENALAN KUALITAS BUAH JERUK KINTAMANI MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) KOMPETENSI KOMPUTASI SKRIPSI KOMANG SONIYA GUNAWAN PENGENALAN KUALITAS BUAH JERUK KINTAMANI MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) KOMPETENSI KOMPUTASI SKRIPSI KOMANG SONIYA GUNAWAN 1008605032 JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Salah satu persoalan lingkungan yang muncul hampir setiap tahun di Indonesia terutama pasca tahun 2000 adalah kebakaran hutan, termasuk di wilayah provinsi Riau. Kebakaran hutan

Lebih terperinci

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( )

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( ) Sidang Tugas Akhir September 2009 Implementasi Metode Ant Colony Optimization untuk Pemilihan Fitur pada Kategorisasi Dokumen Teks DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara

Lebih terperinci

ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT

ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT Ahmad Khusaeri 1, Septian Ilham 2, Desi Nurhasanah 3, Derrenz Delpidat 4, Anggri 5, Aji Primajaya 6, Betha Nurina

Lebih terperinci

PENGENALAN WAJAH MENGGUNAKAN ALGORITMA EIGENFACE DAN EUCLIDEAN DISTANCE

PENGENALAN WAJAH MENGGUNAKAN ALGORITMA EIGENFACE DAN EUCLIDEAN DISTANCE PENGENALAN WAJAH MENGGUNAKAN ALGORITMA EIGENFACE DAN EUCLIDEAN DISTANCE Widodo Muda Saputra, Helmie Arif Wibawa, S.Si, M.Cs, dan Nurdin Bahtiar, S.Si, M.T Fakultas Sains dan Matematika, Jurusan Ilmu Komputer

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan

Lebih terperinci

Analisis Perbandingan Algoritma ID3 Dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum Pada PDAM Kabupaten Kendal

Analisis Perbandingan Algoritma ID3 Dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum Pada PDAM Kabupaten Kendal 234 Analisis Perbandingan Algoritma ID3 Dan C4.5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum Pada PDAM Kabupaten Kendal Comparative Analysis Of ID3 And C4.5 Algorithm For Classification Of Grant

Lebih terperinci

APLIKASI PENGENALAN DAUN UBI JALAR UNTUK JENIS UBI JALAR UNGU, MERAH, PUTIH DAN KUNING MENGGUNAKAN METODE PRINCIPAL COMPONENT ANALYSIS

APLIKASI PENGENALAN DAUN UBI JALAR UNTUK JENIS UBI JALAR UNGU, MERAH, PUTIH DAN KUNING MENGGUNAKAN METODE PRINCIPAL COMPONENT ANALYSIS APLIKASI PENGENALAN DAUN UBI JALAR UNTUK JENIS UBI JALAR UNGU, MERAH, PUTIH DAN KUNING MENGGUNAKAN METODE PRINCIPAL COMPONENT ANALYSIS SKRIPSI Diajukan Untuk Penulisan Skripsi Guna Memenuhi Salah Satu

Lebih terperinci

KLASIFIKASI PROTEIN FAMILY MENGGUNAKAN METODE RANTAI MARKOV SONY MUHAMMAD

KLASIFIKASI PROTEIN FAMILY MENGGUNAKAN METODE RANTAI MARKOV SONY MUHAMMAD KLASIFIKASI PROTEIN FAMILY MENGGUNAKAN METODE RANTAI MARKOV SONY MUHAMMAD DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN MENGENAI

Lebih terperinci

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN Bab ini membahas langkah-langkah dari implementasi dan pembahasan dari hasil penelitian yang telah dilakukan tentang klasifikasi aktivitas menggunakan algoritma k-nearest neighbor

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

BAB IV PEMBAHASAN. A. Hasil Model Radial Basis Function Neural Network (RBFNN) Langkah-langkah untuk menentukan model terbaik Radial Basis Function

BAB IV PEMBAHASAN. A. Hasil Model Radial Basis Function Neural Network (RBFNN) Langkah-langkah untuk menentukan model terbaik Radial Basis Function BAB IV PEMBAHASAN A. Hasil Model Radial Basis Function Neural Network (RBFNN) Langkah-langkah untuk menentukan model terbaik Radial Basis Function Neural Network (RBFNN) untuk diagnosis penyakit jantung

Lebih terperinci

BAB III METODE PENELITIAN. tangan dengan menggunakan metode Support Vector Machine (SVM).

BAB III METODE PENELITIAN. tangan dengan menggunakan metode Support Vector Machine (SVM). BAB III METODE PENELITIAN 3.1 Desain Penelitian Di dalam desain penelitian ini akan menggambarkan proses pengenalan tulisan tangan dengan menggunakan metode Support Vector Machine (SVM). Praproses Input

Lebih terperinci