KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA"

Transkripsi

1 KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Metagenom pada Kasus Imbalanced Data dengan Metode Mahalanobis Distance Based Sampling adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2015 Majesty Eksa Permana NIM G

4 ABSTRAK MAJESTY EKSA PERMANA. Klasifikasi Metagenom pada Kasus Imbalanced Data dengan Metode Mahalanobis Distance Based Sampling. Dibimbing oleh TOTO HARYANTO. Metagenom merupakan materi genetis yang diambil secara langsung dari lingkungan tanpa melalui proses isolasi. Pengambilan unsur genetis secara langsung dari lingkungan mengakibatkan banyak organisme yang bukan menjadi subjek penelitian ikut terambil sehingga perlu dilakukan proses klasifikasi. Namun, proses klasifikasi terkendala kasus imbalance data pada data sampel. Tujuan dari penelitian ini adalah menerapkan metode mahalanobis distance based sampling untuk mengatasi masalah imbalance data pada proses klasifikasi fragmen metagenom. Proses ekstraksi fitur dilakukan dengan metode n-mers dan pembentukan classifier dilakukan dengan metode k-nearest neighbor. Berdasarkan hasil penelitian ini dapat diketahui bahwa akurasi rata-rata pada kelas minoritas setelah dilakukan penyeimbangan data mengalami peningkatan sebesar 6.72% untuk k = 3 dan 5.79% untuk k = 5. Adapun akurasi rata-rata pada kelas minoritas untuk k = 7 setelah dilakukan penyeimbangan justru mengalami penurunan sebesar 1.11%. Kata kunci: imbalance data, k-nearest neighbor, mahalanobis distance based sampling, metagenom, n-mers. ABSTRACT MAJESTY EKSA PERMANA. Metagenome Classification in Imbalanced Data with Mahalanobis Distance Based Sampling. Supervised by TOTO HARYANTO. Metagenome is genetic material obtained from the environment without going through isolation. Genetic material obtained from the environment may contain many organisms that are not the subject of research, so it requires classification process. However, the classification process is plagued by case of imbalance data on the sample. The purpose of this research is to apply mahalanobis distance based sampling method to overcome the problem of imbalance data on metagenome fragment classification process. Feature extraction is performed using n-mers and classifier building process performed by k-nearest neighbor. The evaluation results show that the average accuracy on minority class after balancing process balancing data increased by 6.72% for k = 3 and 5.79% for k = 5. The average accuracy of the minority class for k = 7 after balancing process decreased by 1.11%. Keywords: imbalance data, k-nearest neighbor, mahalanobis distance based sampling, metagenome, n-mers

5 KLASIFIKASI METAGENOM PADA KASUS IMBALANCED DATA DENGAN METODE MAHALANOBIS DISTANCE BASED SAMPLING MAJESTY EKSA PERMANA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji: 1 Aziz Kustiyo, SSi MKom 2 Dr Eng Wisnu Ananta Kusuma, ST MT

7

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah yang berjudul Klasifikasi Metagenom pada Kasus Imbalanced Data dengan Metode Mahalanobis Distance based Sampling dapat diselesaikan. Karya tulis ini bertujuan untuk menerapkan metode mahalanobis distance based samping (MDS) untuk mengatasi masalah distribusi data yang tidak seimbang pada proses klasifikasi. Penulisan karya tulis ini tidak lepas dari bantuan berbagai pihak, yaitu: Kedua orang tua, Bapak Suharyono dan Ibu Mujinah atas segala dukungan yang telah diberikan. Bapak Toto Haryanto SKom, MSi selaku dosen pembimbing skripsi yang telah memberikan banyak saran, bantuan dan koreksi sehingga penulis dapat menyelesaikan karya tulis ini. Bapak Aziz Kustiyo, SSi MKom dan Bapak Dr Eng Wisnu Ananta Kusuma, ST MT sebagai dosen penguji. Teman-teman laboratorium riset bioinformatika atas segala saran, dukungan dan bantuan dalam proses penyusunan karya tulis ini. Seluruh rekan-rekan dari Departemen Ilmu Komputer atas segala saran dan dukungan dalam proses penyusunan karya tulis ini. Semoga karya tulis ini dapat memberikan manfaat bagi perkembangan teknologi informasi, khususnya dalam bidang bioinformatika. Bogor, Agustus 2015 Majesty Eksa Permana

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup 2 METODE PENELITIAN 3 Pengumpulan Data 3 Praproses Data 3 Ekstraksi Fitur 4 Menghitung Jarak Mahalanobis 4 Menentukan Threshold 5 Pembagian Data 5 Membentuk Classifier 6 Evaluasi 6 Implementasi 7 HASIL DAN PEMBAHASAN 7 Pengumpulan Data 7 Praproses Data 8 Ekstraksi Fitur 8 Jarak Mahalanobis 8 Menentukan Threshold 11 Pembagian Data 11 Membentuk Classifier 12 Evaluasi 13 SIMPULAN DAN SARAN 17 Simpulan 17 Saran 18 DAFTAR PUSTAKA 18

10 DAFTAR TABEL 1 Confusion matrix (Chen et al. 2009) 6 2 Komposisi data penelitian 7 3 Komposisi data setelah proses thresholding 11 4 Perbandingan data latih dan data uji sebelum penyeimbangan 12 5 Perbandingan data latih dan data uji setelah penyeimbangan 12 6 Confusion matrix level genus dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan 13 7 Confusion matrix level genus dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan 13 8 Confusion matrix level ordo dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan 14 9 Confusion matrix level ordo dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan Confusion matrix level kelas dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan Confusion matrix level kelas dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan Confusion matrix level filum dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan Confusion matrix level filum dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan PA, NA, dan OA sebelum penyeimbangan data Akurasi data latih seimbang 17 DAFTAR GAMBAR 1 Alur penelitian 3 2 Ilustrasi n-mers dengan n = Thresholding (Chen et al. 2009) 5 4 Hasil praproses data dengan jumlah fragmen 1000 dan panjang fragmen 400 bp 8 5 Contoh hasil proses ekstraksi fitur 8 6 Grafik distribusi jarak antarorganisme pada genus Lactobacillus dan Streptococcus 9 7 Grafik distribusi jarak antarorganisme pada ordo Lactobacillales dan Bacillales 9 8 Grafik distribusi jarak antarorganisme pada kelas Bacilli dan Clostridia 10 9 Grafik distribusi jarak antarorganisme pada filum Firmicutes dan Actinobacteria 10

11 1 PENDAHULUAN Latar Belakang Hanya sebagian kecil dari mikroorganisme dapat dikulturkan di laboratorium atau dibiakkan dalam media tumbuh buatan. Sebagian besar masih belum dapat dikulturkan dengan teknologi isolasi dan kultivasi yang ada pada saat ini. Padahal mikrob yang tidak dapat dikulturkan ini kemungkinan menyimpan gen-gen baru yang dapat diaplikasikan dalam industri ataupun bermanfaat bagi peningkatan kesejahteraan manusia. Tetapi melalui pendekatan metagenome, peneliti dimungkinkan dapat mengekstraksi DNA dari sampel yang diambil langsung dari lingkungan tanpa perlu mengidentifikasi makhluk hidup yang menjadi sumber DNA (Helianti 2008). Banyak keuntungan yang diperoleh dengan menggunakan pendekatan metagenom dalam eksplorasi gen dari DNA, misalnya mendapatkan gen dengan sifat unggul. Namun, sampel yang diperoleh langsung dari lingkungan mengandung beraneka ragam organisme sehingga harus dilakukan klasifikasi sebelum diolah lebih lanjut. Menurut Chen et al. (2009), imbalance data merupakan kondisi ketidakseimbangan jumlah instance antara dua buah kelas. Kelas mayoritas adalah kelas yang memiliki jumlah data yang lebih besar sedangkan kelas minoritas adalah kelas yang memiliki jumlah data lebih kecil kecil. Proses klasifikasi menggunakan classifier yang berasal dari kelas mayoritas sudah memberikan akurasi yang cukup tinggi, akan tetapi untuk kelas minoritas masih memberikan nilai error yang cukup tinggi (Chen et al. 2009). Pada umumnya yang menjadi objek utama dalam sebuah penelitian adalah kelas minoritas (Su et al. 2006). Oleh karena itu, diperlukan suatu metode yang dapat mengklasifikasikan suatu objek ke dalam suatu kelas dengan tepat. Metode yang paling dasar untuk menanggulangi masalah imbalance data adalah random oversampling dan random undersampling. Random undersampling dilakukan dengan menghapus instance dari kelas mayoritas sementara random oversampling dilakukan dengan menduplikasi instance dari kelas minoritas. Kedua teknik tersebut mampu menengani masalah imbalance data. Namun kedua metode tersebut memiliki beberapa kelamahan. Metode random oversampling tidak efektif untuk meningkatkan proses pengenalan pada kelas minoritas dan meningkatkan waktu proses pembentukan classifier. Metode random undersampling berpotensi membuang instance dari kelas mayoritas yang dianggap penting (He dan Ma 2013). Chen et al. (2009) melakukan penelitian untuk mengatasi masalah imbalanced data dengan metode mahalanobis distace based sampling (MDS). MDS merupakan metode untuk mengatasi masalah imbalance data dengan cara mengurangi jumlah instance dari kelas mayoritas berdasarkan sebaran jarak mahalanobis (Chen et al. 2009). Chen et al. (2009) menggunakan decision tree, logistic regression dan mahalanobis distance sebagai metode untuk melakukan evaluasi terhadap hasil penyeimbangan data. Berdasarkan hasil penelitian (Chen et al. 2009) metode MDS mampu mengatasi masalah imbalance data dengan menggunakan ketiga metode klasifikasi tersebut.

12 2 Salah satu metode klasifikasi yang umum digunakan adalah k-nearest neighbor (KNN). Metode klasifikasi KNN berusaha untuk mencari k tetangga terdekat dari suatu objek dan menggunakan mayoritas vote untuk menentukan objek dari kelas tersebut. Performa dari metode KNN sangat dipengaruhi oleh nilai k yang ditentukan. KNN biasanya menggunakan euclidean distance sebagai metode pengukuran antara data uji dengan data latih. Meskipun ini sangat sederhana dan mudah untuk diimplementasikan tetapi masih bisa memberikan hasil yang cukup baik seperti metode klasifikasi yang lain (Song et al. 2007). Oleh sebab itu dilakukan penelitian untuk mengatasi masalah imbalance data pada proses klasifikasi menggunakan metode MDS dan menggunakan metode KNN untuk melakukan evaluasi terhadap hasil penyeimbangan data. Penelitian ini merujuk pada penelitian yang telah dilakukan oleh Chen et al. (2009) namun menggunakan KNN sebagai metode untuk mengevaluasi terhadap hasil penyeimbangan data. Perumusan Masalah Proses klasifikasi sudah memberikan hasil yang baik untuk classifier dari kelas mayoritas, akan tetapi memberikan hasil yang kurang memuaskan untuk classifier dari kelas minoritas. Karena pada umumnya data pada kelas minoritas menjadi objek utama dalam suatu penelitian maka muncul pertanyaan bagaimana cara meningkatkan akurasi dari classifier yang dihasilkan dari kelas minoritas. Tujuan Penelitian Tujuan dari penelitian ini adalah menerapkan metode MDS untuk mengatasi masalah imbalance data pada proses klasifikasi. Kemudian melakukan evaluasi hasil dari proses penyeimbangan data yang dihasilkan oleh metode MDS. Manfaat Penelitian Penelitian ini diharapkan dapat memberikan kontribusi dalam bidang bioinformatika terutama pada proses klasifikasi kasus imbalance data sehingga mampu meningkatkan akurasi dari kelas minoritas. Ruang Lingkup Lingkup dari penelitian ini, yaitu: 1 Data metagenom yang digunakan berasal dari National Centre for Biotechnology Information (NCBI). 2 Fragmen yang dihasilkan dari proses simulasi memiliki panjang yang tetap dan diasumsikan bebas sequencing error. 3 Menggunakan level taksonomi genus, ordo, kelas dan filum. 4 Menggunakan metode KNN dalam proses pembentukan classifier. 5 Menggunakan binary classification.

13 3 METODE PENELITIAN Penelitian ini dilakukan melalui beberapa tahapan, yaitu pengumpulan data, praproses data, ekstraksi fitur, menghitung jarak mahalanobis, membentuk threshold, pembagian data, pembentukan classifier, evaluasi dan implementasi. Tahapan-tahapan yang dilakukan pada penelitian ini dapat dilihat pada Gambar 1. Pengumpulan Data Data yang digunakan pada penelitian ini adalah data metagenom yang diunduh dari situs NCBI ftp://ftp.ncbi.nlm.nih.gov/genomes/bacteria/. NCBI merupakan suatu institusi yang fokus sebagai sumber informasi perkembangan biologi molekuler. Data metagenome yang digunakan merupakan sequence DNA organisme dengan format fasta. Gambar 1 Alur penelitian Praproses Data Sekuens DNA metagenom yang sudah terpilih diuraikan fragmennya menggunakan perangkat lunak MetaSim. MetaSim merupakan perangkat lunak yang berguna untuk melakukan simulasi sekuens DNA metagenom yang telah

14 4 terpilih. Pada saat simulasi menggunakan perangkat lunak MetaSim data dibaca sebanyak 1000 kali dengan panjang tiap dragmen 400 bp. Ekstraksi Fitur Metode ekstraksi fitur yang digunakan ialah n-mers. Metode ini memeriksa frekuensi kemunculan subsekuens nukleotida dari setiap fragmen DNA dengan panjang n. Fragmen DNA yang diperiksa dapat berupa basa jenis apapun, baik A, C, T, atau G. Jika n = 3, maka metode n-mers akan menghitung frekuensi kemunculan setiap subsekuens dari AAA sampai dengan GGG. Proses ekstraksi fitur menggunakan metode n-mers diilustrasikan pada Gambar 2. Gambar 2 Ilustrasi n-mers dengan n = 7 Proses ekstraksi fitur dengan metode n-mers diawali dengan menentukan nilai n yang akan digunakan sebagai panjang subsekuens basa nukleotida yang akan dihitung frekuensinya. Nilai n akan mempengaruhi jumlah fitur yang didapatkan, semakin tinggi nilai n maka semakin banyak fitur yang diperoleh. Sebuah fragmen DNA akan dihitung frekuensi kemunculan subsekuens dari awal hingga akhir dengan metode sliding window. Menghitung Jarak Mahalanobis Mahalanobis distance adalah metode pengukuran jarak yang memperhatikan distribusi dari suatu objek yang ditandai dengan memperhitungkan matriks kovarian. Jarak mahalanobis digunakan dalam metode klasifikasi dengan mengukur jarak suatu objek terhadap pusat kelas (Varmuza dan Filzmoser 2009). Persamaan yang digunakan untuk menghitung jarak mahalanobis dapat dilihat pada Persamaan 1 (Varmuza dan Filzmoser 2009). d mahalanobis = [(Z a -Z b ) C -1 (Z a -Z b ) T ] 0.5 (1) dengan Z merupakan vektor yang berisi nilai x i yang dinormalisasi dan C 1 merupakan invers matriks kovarian dari fitur suatu level taksonomi. Proses ekstraksi fitur memberikan hasil berupa kombinasi basa nukleotida dengan nilai frekuensi yang cukup besar. Oleh karena itu, perlu diperkecil untuk mempermudah proses penghitungan jarak. Fitur yang dihasilkan merupakan

15 variabel kontinu maka dilakukan proses normalisasi menggunakan Z-score standardization. Proses normalisasi dilakukan dengan Persamaan 2 (Larose 2005). 5 Z = x ij-mean(x i ) std(x i ) (2) dengan x ij : fitur ke-j pada organisme ke-i. mean(x i ): rata-rata dari fitur organisme ke-i. std(x i ): standar deviasi dari fitur organisme ke-i. Menentukan Threshold Langkah selanjutnya adalah menentukan threshold atau batasan yang berguna untuk memisahkan antara data pada kelas mayoritas dan data pada kelas minoritas. Pada tahap ini dilakukan penghapusan sampel mayoritas yang ada di luar titik threshold yang ditentukan. Proses thresholding diilustrasikan pada Gambar 3. Threshold Mayoritas Minoritas Gambar 3 Thresholding (Chen et al. 2009) Titik threshold ditentukan dengan menggeser sebanyak jumlah sampel minoritas dari titik perpotongan antara sampel mayoritas dengan sampel minoritas ke arah sampel mayoritas. Proses thresholding bertujuan untuk menentukan instance dari kelas mayoritas yang akan dihapus atau dijadikan data latih baru. Pada proses ini data dari kelas mayoritas akan dikurangi berdasarkan distribusi jarak mahalanobis sedemikian sehingga jumlah instance kelas mayoritas sama dengan kelas minoritas. Proses ini diharapkan mampu memindahkan peluang kesalahan klasifikasi dari kelas minoritas ke dalam kelas mayoritas sehingga dapat meningkatkan akurasi pada kelas minoritas (Chen et al. 2009). Pembagian Data Total data yang digunakan terdiri atas 1088 organisme dari level genus, ordo, kelas dan filum. Proses penentuan data latih dan data uji dilakukan dengan membagi data menjadi 40% data uji dan 60% data latih. Data uji yang dipilih berasal dari level taksonomi yang sama namun dengan organisme yang berbeda dengan data latih.

16 6 Membentuk Classifier Proses pembentukan classifier dilakukan dengan menggunakan metode KNN. KNN merupakan metode klasifikasi yang mengelompokkan data berdasarkan berdasarkan k tetangga terdekat dari data uji (Larose 2005). Nilai jarak antara data uji dan data latih diurutkan dari mulai yang terkecil sampai yang terbesar sejumlah nilai k yang ditentukan. Metode KNN memiliki 3 tahapan utama (Song et al. 2007), yaitu: 1 Menentukan nilai k tetangga terdekat. 2 Menghitung jarak antara data uji dengan data latih. 3 Melakukan pengurutan data berdasarkan jarak terkecil sebanyak k. Proses penghitungan jarak pada metode KNN dapat dilakukan dengan menggunakan euclidean distance. Jarak euclid dapat diperoleh dengan Persamaan 3 (Larose 2005). dist(x,y)= n i=1 (x i y i ) 2 (3) dengan dist(x,y): jarak antara latih x dengan data uji y. x i : data latih ke-i. n: jumlah data latih. y i : data uji ke-i. Evaluasi Proses evaluasi akan dilakukan dengan menggunakan confusion matrix seperti ditunjukkan pada Tabel 1. Confusion matrix dapat membantu dalam proses evaluasi karena menunjukkan kemampuan classifier dalam mengidentifikasi data uji. Tabel 1 Confusion matrix (Chen et al. 2009) Uji mayor Uji minor Terdeteksi kelas mayor TP FN Terdeteksi kelas minor FP TN Performa dari classifier yang dihasilkan dievaluasi berdasarkan overall accuracy (OA), positive accuracy (PA), dan negative accuracy (NA). Possitive accuracy merupakan kemampuan classifier untuk mengklasifikasikan kelas mayoritas pada data uji. Proses penghitungan nilai PA ditunjukkan pada Persamaan 4 (Chen et al. 2009). PA= TP TP+FN (4) Negative accuracy merupakan kemampuan classifier dalam mengidentifikasi kelas minoritas pada data uji. Proses penghitungan nilai NA ditunjukkan pada Persamaan 5 (Chen et al. 2009).

17 NA= TN FP+TN 7 (5) Overrall accuracy merupakan kemampuan classifier dalam mengidentifikasi keseluruhan objek dalam data uji. Proses penghitungan nilai OA ditunjukkan pada Persamaan 6 (Chen et al. 2009). OA= TP+TN TP+FP+TN+FN (6) Implementasi Implementasi sistem akan dilakukan dalam lingkungan pengembangan sebagai berikut: bahasa pemrograman : Python 2.7. library komputasi : Biopython, Sklearn, Matplotlib, Numpy, Scipy. Sistem yang dikembangkan memiliki fungsi utama yaitu melakukan klasifikasi tingkat taksonomi pada suatu sequence DNA. Data masukan berupa sequence DNA dan keluarannya berupa klasifikasi berdasarkan tingkat taksonominya. HASIL DAN PEMBAHASAN Pengumpulan Data Data yang diunduh dari situs NCBI dengan alamat ftp://ftp.ncbi.nlm.nih.gov/genomes/bacteria/ terdiri atas 1088 organisme. Komposisi data yang digunakan pada penelitian ini ditunjukkan pada Tabel 2. Tabel 2 Komposisi data penelitian Level Data tiap level taksonomi Jumlah Genus Streptococcus 123 organisme Lactobacillus 30 organisme 153 Ordo Lactobacillales 187 organisme Bacillades 33 organisme 220 Kelas Bacilli 257 organisme Clostridia 60 organisme 317 Filum Firmicutes 318 organisme Actinobacteria 80 organisme 398

18 8 Praproses Data Pada tahap praproses data, sequence DNA metagenome akan diuraikan fragmennya menggunakan perangkat lunak MetaSim. Proses simulasi menghasilkan fragmen dengan panjang yang sama dan tidak mengandung sequencing error. Contoh hasil praproses data menggunakan perangkat lunak MetaSim dengan jumlah fragmen 1000 dan panjang fragmen 400 bp ditunjukkan pada Gambar 4. Gambar 4 Hasil praproses data dengan jumlah fragmen 1000 dan panjang fragmen 400 bp Ekstraksi Fitur Proses ekstraksi fitur dilakukan dengan menggunakan metode n-mers dengan nilai n = 3 sehingga akan terdapat 64 kombinasi basa nukleotida mulai dari AAA sampai GGG. Frekuensi kemunculan basa nukleotida yang dihasilkan sudah terurut dari mulai AAA, AAC, AAG, AAT, sampai dengan GGG. Contoh hasil proses ekstraksi fitur ditunjukkan pada Gambar 5. Gambar 5 Contoh hasil proses ekstraksi fitur Jarak Mahalanobis Data kelas mayoritas dan minoritas disatukan kemudian dihitung jarak antarorganisme menggunakan jarak mahalanobis. Metode ini diawali dengan menentukan nilai rata-rata dan standar deviasi dari setiap fitur organisme serta kovarian dari seluruh organisme dari level takson yang akan dihitung jaraknya. Banyak jarak yang terbentuk adalah nc2, dengan n adalah banyaknya organisme gabungan antara kelas mayoritas dan kelas minoritas. Setelah diketahui jarak antarorganisme dilakukan pembuatan grafik histogram untuk mengetahui sebaran jarak antarorganisme yang terbentuk.

19 Pada level genus terdapat genus Lactobacillus sebagai kelas minortas dengan jumlah instance sebanyak 30 organisme. Adapun untuk kelas mayoritas terdapat genus Streptococcus dengan jumlah instance sebanyak 123. Grafik distribusi jarak antarorganisme pada genus Lactobacillus dan Streptococcus ditunjukkan pada Gambar 6. 9 Gambar 6 Grafik distribusi jarak antarorganisme pada genus Lactobacillus dan Streptococcus Proses penghitungan jarak mahalanobis juga dilakukan pada level ordo. Pada level ordo terdapat ordo Lactobacillales sebagai kelas mayoritas dengan jumlah instance sebanyak 187 organisme. Adapun untuk kelas minoritas terdapat ordo Bacillales dengan jumlah instance sebanyak 33 organisme. Grafik distribusi jarak antara organisme pada ordo Lactobacillales dan Bacillales ditunjukkan pada Gambar 7. Gambar 7 Grafik distribusi jarak antarorganisme pada ordo Lactobacillales dan Bacillales

20 10 Pada level kelas terdapat kelas Bacilli sebagai kelas mayoritas dengan jumlah instance sebanyak 257 organisme. Adapun kelas Clostridia sebagai kelas minoritas dengan jumlah instance sebanyak 60 organisme. Grafik distribusi jarak antarorganisme pada kelas Bacilli dan Clostridia ditunjukkan pada Gambar 8. Gambar 8 Grafik distribusi jarak antarorganisme pada kelas Bacilli dan Clostridia Pada level filum terdapat filum Firmicutes sebagai kelas mayoritas dengan jumlah instance sebanyak 318 organisme. Adapun kelas Actinobacteria sebagai kelas minoritas dengan jumlah instance sebanyak 80 organisme. Grafik distribusi jarak antarorganisme pada filum Firmicutes dan Actinobacteria ditunjukkan pada Gambar 9. Gambar 9 Grafik distribusi jarak antarorganisme pada filum Firmicutes dan Actinobacteria

21 11 Menentukan Threshold Proses thresholding dilakukan untuk menghapus data yang sudah dipastikan masuk ke dalam kelas mayoritas dan menggabungkan data kelas minoritas dengan data kelas mayoritas yang masuk ke dalam threshold. Proses thresholding dilakukan berdasarkan sebaran jarak mahalanobis yang telah diketahui pada tahapan sebelumnya. Jumlah data yang diambil dari kelas mayoritas adalah sebanyak data pada kelas minoritas, sehingga didapatkan data latih yang seimbang. Namun jumlah pasangan jarak tidak sama dengan jumlah organisme yang ada, sehingga penentuan titik threshold dilakukan dengan pendekatan proporsi jumlah data kelas minoritas pada data gabuangan data antara kelas minoritas dan kelas mayoritas terhadap jumlah pasangan jarak yang terbentuk. Data latih baru yang telah terbentuk masih berupa gabungan antara kelas mayoritas dan kelas minoritas, sehingga masih perlu dipisahkan untuk mendapatkan data latih kelas mayoritas yang baru. Perbandingan antara kelas mayor dan minor sudah sama sehingga hanya perlu membagi data tersebut menjadi dua bagian sesuai dengan grafik histogram data latih baru. Data pasangan kelas mayor yang tersisa masih berupa pasangan jarak antarorganisme, sehingga pasangan tersebut perlu dipisahkan. Pemisahan dilakukan dengan memilih pasangan jarak sesama kelas mayoritas, kemudian dilakukan pemilihan organisme frekuensi kemunculan tertinggi sebagai data latih kelas mayoritas yang baru. Tabel 3 menunjukkan perbandingan jumlah organisme pada tiap level taksonomi setelah dilakukan proses penyeimbangan data. Sudah tidak terdapat kesenjangan antara data pada kelas mayoritas dan kelas minoritas setelah dilakukan proses penyeimbangan data. Tabel 3 Komposisi data setelah proses thresholding Level Data tiap level taksonomi Jumlah Genus Streptococcus 30 organisme Lactobacillus 30 organisme 60 Ordo Lactobacillales 33 organisme Bacillades 33 organisme 66 Kelas Bacilli 60 organisme Clostridia 60 organisme 120 Filum Firmicutes 80 organisme Actinobacteria 80 organisme 160 Pembagian Data Proses pemilihan data uji dilakukan dengan mengambil 40% dari total data dalam satu level taksonomi yang sama. Adapun untuk data latih dilakukan dengan mengambil 60% dari dari data dalam satu level taksonomi yang sama. Dengan demikian, jumlah data uji antara sebelum dan sesudah proses penyeimbangan akan berbeda. Perbandingan antara data latih dan data uji untuk data yang belum dilakukan proses penyeimbangan ditunjukkan pada Tabel 4. Data uji yang

22 12 digunakan merupakan organisme selain data latih yang masih berada pada satu level taksonomi yang sama. Tabel 4 Perbandingan data latih dan data uji sebelum penyeimbangan Level Data latih Data uji Genus Streptococcus 75 organisme Streptococcus 48 organisme Lactobacillus 16 organisme Lactobacillus 14 organisme Ordo Lactobacillales 111 organisme Lactobacillales 76 organisme Bacillales 21 organisme Bacillales 12 organisme Kelas Filum Bacilli 149 organisme Bacilli 127 organisme Clostridia 41 organisme Clostridia 19 organisme Firmicutes 189 organisme Firmicutes 129 organisme Actinobacteria 49 organisme Actinobacteria 31 organisme Pada Tabel 4 terlihat kesenjangan yang cukup besar antara jumlah instance pada kelas mayoritas dengan jumlah instance pada kelas minoritas. Adapun perbandingan antara data latih dan data uji setelah dilakukan proses penyeimbangan ditunjukkan pada Tabel 5. Pada Tabel 5 kesenjangan jumlah instance antara kelas mayoritas dan kelas minoritas sudah tidak terlalu mencolok. Tabel 5 Perbandingan data latih dan data uji setelah penyeimbangan Level Data latih Data uji Genus Streptococcus 20 organisme Streptococcus 10 organisme Lactobacillus 16 organisme Lactobacillus 14 organisme Ordo Lactobacillales 19 organisme Lactobacillales 14 organisme Bacillales 20 organisme Bacillales 13 organisme Kelas Bacilli 37 organisme Bacilli 23 organisme Clostridia 35 organisme Clostridia 25 organisme Filum Firmicutes 49 organisme Firmicutes 31 organisme Actinobacteria 47 organisme Actinobacteria 33 organisme Membentuk Classifier Proses pembentukan classifier dilakukan dengan menggunakan metode KNN dengan nilai k = 3, 5, dan 7. Atribut yang digunakan merupakan frekuensi dari kombinasi basa nukleotida yang dihasilkan dari proses ekstraksi fitur n-mers untuk masing-masing organisme. Terdapat 64 atribut yang digunakan dari mulai AAA, AAC, AAG, sampai dengan TTT jika menggunakan n = 3. Jarak antara organisme data latih dan organisme data uji diukur menggunakan jarak euclid.

23 13 Evaluasi Evaluasi dilakukan dengan menghitung PA, NA, dan OA untuk setiap level taksonomi. Pada kasus ini PA dan NA merupakan kemampuan classifier untuk mengidentifikasi kelas mayoritas dan minoritas. Untuk mempermudah proses penghitungan PA, NA, dan OA digunakan confusion matrix. Confusion matrix untuk level genus dengan nilai k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan ditunjukkan pada Tabel 6. Dari Tabel 6 dapat diketahui bahwa genus Streptococcus dengan k = 3, k = 5, dan k = 7 dapat teridentifikasi dengan benar seluruhnya. Adapun untuk genus Lactobacillus dengan k = 3 dan k = 5 terdapat 9 organisme teridentifikasi dengan benar dan 5 organisme sebagai genus Streptococcus, sedangkan untuk k = 7 terdapat 8 organisme teridentifikasi dengan benar dan 8 organisme teridentifikasi sebagai genus Streptococcus. Tabel 6 Confusion matrix level genus dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan Kelas prediksi Kelas aktual Streptococcus Lactobacillus 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Streptococcus Lactobacillus Confusion matrix untuk level genus dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan data ditunjukkan pada Tabel 7. Dari Tabel 7 dapat diketahui bahwa keseluruhan data uji dapat diklasifikasikan dengan benar untuk genus Streptococcus untuk k = 3, k = 5, dan k = 7. Adapun untuk genus Lactobacillus terdapat 12 organisme teridentifikasi dengan benar dan 2 organisme sebagai genus Streptococcus. Tabel 7 Confusion matrix level genus dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan Kelas prediksi Kelas aktual Streptococcus Lactobacillus 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Streptococcus Lactobacillus Confusion matrix untuk level ordo dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan data ditunjukkan pada Tabel 8. Dari Tabel 8 dapat diketahui bahwa pada ordo Lactobacillales dengan k = 3 dapat mengidentifikasi 75 organisme dengan benar, sedangkan untuk k = 5 dan k = 7 dapat mengidentifikasi 76 organisme dengan benar. Adapun pada ordo Bacillales dengan k = 3, k = 5, dan k = 7 teridentifikasi 11 organisme sebagai ordo Bacillales dan 1 organisme sebagai ordo Lactobacillales.

24 14 Tabel 8 Confusion matrix level ordo dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan Kelas prediksi Kelas aktual Lactobacillales Bacillales 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Lactobacillales Bacillales Confusion matrix untuk level ordo dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan data ditunjukkan pada Tabel 9. Dari Tabel 9 dapat diketahui bahwa pada ordo Lactobacillales dengan k = 3 dan k = 5 terdapat 13 organisme teridentifikasi dengan benar dan 1 organisme teridentifikasi sebagai ordo Bacillales. Adapun pada ordo Bacillales dengan k = 3 keseluruhan data uji dapat teridentifikasi sengan benar, k = 7 terdapat 12 organisme teridentifikasi dengan benar dan 1 organisme teridentifikasi sebagai ordo Lactobacillales sedangkan k = 7 terdapat 8 organisme teridentifikasi dengan benar. Tabel 9 Confusion matrix level ordo dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan Kelas prediksi Kelas aktual Lactobacillales Bacillales 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Lactobacillales Bacillales Confusion matrix untuk level kelas dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan data ditunjukkan pada Tabel 10. Dari Tabel 10 dapat diketahui bahwa keseluruhan data uji pada kelas Bacilli untuk k = 3, k = 5, dan k = 7 dapat teridentifikasi dengan benar. Adapun pada kelas Clostridia untuk k = 3, k = 5, dan k = 7 terdapat 18 organisme dapat teridentifikasi dengan benar dan 1 organisme teridentifikasi sebagai kelas Bacilli. Tabel 10 Confusion matrix level kelas dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan Kelas prediksi Kelas aktual Bacilli Clostridia 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Bacilli Clostridia Confusion matrix untuk level kelas dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan data ditunjukkan pada Tabel 11. Dari Tabel 11 dapat diketahui bahwa pada kelas Bacilli keseluruhan organisme dapat teridentifikasi dengan benar untuk k = 3, k = 5, dan k = 7. Adapun pada kelas Clostridia terdapat 23 organisme dapat teridentifikasi dengan benar dan 2 organisme teridentifikasi sebagai kelas Bacilli untuk k = 3 dan k = 7 sedangkan untuk k = 5 terdapat 24 dari 25 organisme yang teridentifikasi dengan benar.

25 15 Tabel 11 Confusion matrix level kelas dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan Kelas prediksi Kelas aktual Bacilli Clostridia 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Bacilli Clostridia Confusion matrix untuk level filum dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan data ditunjukkan pada Tabel 12. Tabel 12 menunjukkan bahwa seluruh data uji pada filum Firmicutes dapat teridentifikasi dengan benar untuk k = 3 sedangkan untuk k = 5 dan k = 7 terdapat 1 organisme teridentifikasi sebagai filum Clostridia. Adapun pada filum Actinobacteria keseluruhan organisme dapat teridentifikasi dengan benar untuk k = 3, k = 5, dan k = 7. Tabel 12 Confusion matrix level filum dengan k = 3, k = 5, dan k = 7 sebelum dilakukan penyeimbangan Kelas prediksi Kelas aktual Firmicutes Actinobacteria 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Firmicutes Actinobacteria Confusion matrix untuk level filum dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan data ditunjukkan pada Tabel 13. Tabel 13 menunjukkan bahwa data uji pada filum Firmicutes dan filum Actinobacteria dapat teridentifikasi dengan benar untuk k = 3, k = 5, dan k = 7. Tabel 13 Confusion matrix level filum dengan k = 3, k = 5, dan k = 7 setelah dilakukan penyeimbangan Kelas prediksi Kelas aktual Firmicutes Actinobacteria 3-NN 5-NN 7-NN 3-NN 5-NN 7-NN Firmicutes Actinobacteria Hasil penghitungan nilai PA, NA dan OA sebelum dilakukan penyeimbangan data ditunjukkan pada Tabel 14. Dari Tabel 14 dapat diketahui bahwa akurasi rata-rata pada kelas mayoritas lebih tinggi dibandingkan kelas minoritas. Hal tersebut disebabkan jumlah data latih kelas mayoritas sebelum dilakukan penyeimbangan lebih banyak dibandingkan kelas minoritas.

26 16 Tabel 14 PA, NA, dan OA sebelum penyeimbangan data Level KNN PA NA OA Genus k = % 64.28% 91.93% k = % 64.28% 91.93% k = % 57.14% 90.32% Ordo k = % 91.67% 97.72% k = % 91.67% 98.86% k = % 91.67% 98.86% Kelas k = % 94.73% 99.21% k = % 94.73% 99.21% k = % 94.73% 99.21% Filum k = % % % k = % % 99.37% k = % % 98.75% Rata-rata k = % 87.67% 97.21% k = % 87.67% 97.34% k = % 85.88% 96.78% Namun untuk level filum dengan k = 3, k = 5, dan k = 7 akurasi kelas mayoritas dan kelas minoritas sudah memberikan hasil yang sangat baik. Hal tersebut disebabkan terdapat perbedaan yang sangat jelas pada frekuensi kemunculan kombinasi basa nukleotida antara filum Firmicutes dan Actinobacteria. Adapun hasil penghitungan nilai PA, NA, dan OA setelah dilakukan proses penyeimbangan data ditunjukkan pada Tabel 15. Tabel 15 menunjukkan bahwa terjadi penurunan akurasi rata-rata dari kelas mayoritas dan peningkatan akurasi rata-rata kelas minoritas untuk k = 3, k = 5. Hal tersebut disebabkan oleh proses pengurangan jumlah data latih pada kelas mayoritas, sedangkan pada kelas minoritas tidak dilakukan pengurangan data latih. Adapun akurasi rata-rata untuk kelas minoritas dengan k = 7 setelah dilakukan proses penyeimbangan data justru mengalami penurunan. Hal tersebut diakibatkan karena penentuan niai k yang terlalu tinggi sehingga mengakibatkan bias pada proses klasifikasi. Kejadian serupa juga terjadi pada level ordo dan kelas, tingkat akurasi pada kelas minoritas setelah dilakukan penyeimbangan mengalami ketika nilai k = 7. Penyeimbangan jumlah data latih antara kelas mayor dan kelas minor mengakibatkan perpindahan peluang kesalahan klasifikasi dari kelas minoritas ke dalam kelas mayoritas. Hal tersebut mengakibatkan akurasi rata-rata pada kelas minoritas mengalami peningkatan dan terjadi penurunan akurasi rata-rata pada kelas mayoritas. Adapun untuk nilai OA rata-rata juga mengalami penurunan setelah dilakukan proses penyeimbangan data.

27 17 Tabel 15 Akurasi data latih seimbang Level KNN PA NA OA Genus k = % 85.57% 91.66% k = % 85.57% 91.66% k = % 85.57% 91.66% Ordo k = % % 96.29% k = % 92.30% 92.59% k = % 61.53% 70.37% Kelas k = % 92.00% 95.84% k = % 96.00% 97.91% k = % 92.00% 95.84% Filum k = % % % k = % % % k = % % % Rata-rata k = % 94.39% 95.94% k = % 93.46% 95.54% k = % 84.77% 89.46% SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang telah dilakukan dapat disimpulkan bahwa: 1 Proses penanggulangan masalah imbalance data pada data latih telah berhasil diterapkan dengan menggunakan metode MDS. 2 Pengujian menggunakan data latih yang sebelum dilakukan penyeimbangan data memberikan akurasi rata-rata kelas mayoritas lebih tinggi dibandingkan akurasi rata-rata kelas minoritas untuk nilai k. Pengujian data latih yang telah dilakukan penyeimbangan data menunjukkan bahwa akurasi rata-rata kelas mayoritas mengalami penurunan dan akurasi rata-rata kelas minoritas mengalami peningkatan untuk nilai k = 3 dan k = 5. 3 Setelah dilakukan proses penyeimbangan data pada kelas minoritas mengaami pengingkatan akurasi rata-rata sebesar 6.72% uuntuk k = 3 dan 5.79% untuk k = 5. Adapun untuk nilai k = 7 akurasi rata-rata kelas minoritas justru mengaami penurunan sebesar 1,11%. 4 Penurunan akurasi rata-rata pada kelas minoritas setelah dilakukan penyeimbangan data terjadi karena penentuan nilai k yang terlalu tinggi sehingga terjadi bias pada saat proses klasifikasi.

28 18 5 Berdasarkan hasil pengujian proses penyeimbangan data mampu memindahkan peluang kesalahan klasifikasi pada kelas minoritas ke dalam kelas mayoritas (Chen et al. 2009). Saran Beberapa saran untuk penelitian selanjutnya yaitu: 1 Melakukan optimasi terhadap metode thresholding. 2 Menggunakan data latih dan data uji yang lebih besar untuk lebih mengetahui pengaruh penyeimbangan data latih. 3 Melakukan uji coba menggunakan metode klasifikasi lain misalnya SVM, logistic regression atau decision tree. DAFTAR PUSTAKA Chen LS, Hsu CC, Chang YS MDS: a novel method for class imbalance learning, Di dalam: Proceedings of the 3rd International Conference on Ubiquitous Information Management and Communication; 2009 Jan 15-16; Suwon, Korea. New York (US): ACM. hlm He H, Ma Y Imbalanced Learning: Foundations, Algorithms, and Applications. New Jersey (US): J Wiley. Helianti Metagenomik era baru bioteknologi [internet]. [diunduh 30 Mar 2015] Tersedia pada: php/2008/06/metagenomik-era-baru-bioteknologi/. Larose DT Discovering Knowledge in Data: An Introduction to Data Mining. 2nd ed. New Jersey (US): J Wiley. Song Y, Huang J, Zhou D, Zha H, Giles CL IKNN: informative k-nearest neighbor pattern classification. Di dalam: Knowledge Discovery in Databases: PKDD hlm Su CT, Chen LS, Yih, Y Knowledge acquisition through information granulation for imbalanced data. Expert System with Applications. 31(3) Varmuza K, Filzmoser P Introduction to Multivariate Statistical Analysis in Chemometrics. Boca Raton (US): CRC Press.

29 19 RIWAYAT HIDUP Penulis dilahirkan di Yogyakarta pada tanggal 15 Mei 1993 dari ayah bernama Suharyono dan ibu bernama Mujinah. Penulis merupakan anak sulung dari tiga bersaudara. Penulis beserta keluarga pindah dan menetap di Depok, Jawa Barat pada tahun 1998 karena urusan pekerjaan ayah. Penulis menyelesaikan pendidikan menengah atas di SMA Negeri 5 Depok pada tahun 2011 dan pada tahun yang sama penulis terdaftar sebagai mahasiswa Ilmu Komputer Institut Pertanian Bogor dari jalur undangan. Saat aktif menjadi mahasiswa penulis sempat menjadi asisten praktikum matakuliah Metode Kuantitatif (2014) dan Penerapan Komputer (2015). Pada bulan Juli sampai dengan Agustus 2014, penulis melaksanakan kegiatan Praktik Kerja Lapangan di Pusat Konservasi Tumbuhan Kebun Raya Bogor.

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI

PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016 PERNYATAAN

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR FITRIA ELLIYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA FIQROTUL ULYA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017

ISSN: Yogyakarta, 27 Juli 2017 CITEE 2017 Analisis Perbandingan Metode Over-Sampling Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADSYN-kNN) untuk Data dengan Fitur Nominal-Multi Categories Sri Rahayu 1, Teguh Bharata Adji

Lebih terperinci

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4725 Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel Handling Imbalanced Data

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor Yuandri Trisaputra, Indriyani, Shellafuri Mardika Biru, Muhammad Ervan Departemen Ilmu Komputer, FMIPA,

Lebih terperinci

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor PENGENALAN KADAR TOTAL PADAT TERLARUT PADA BUAH BELIMBING BERDASAR CITRA RED-GREEN-BLUE MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS (PCA) SEBAGAI EKSTRAKSI CIRI DAN KLASIFIKASI K-NEAREST NEIGHBORHOOD (KNN)

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN OBLIQUE DECISION TREE DENGAN OPTIMASI ALGORITME GENETIKA ALFAT SAPUTRA HARUN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER MUHAMMAD LUTHFI FAJAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU

Lebih terperinci

KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK AISYAH SYAHIDAH

KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK AISYAH SYAHIDAH KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK AISYAH SYAHIDAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI

PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI PERBANDINGAN ALGORITME C4.5 DAN CART PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RISIKO KREDIT DEBITUR KARTU KREDIT DHIETA ANGGRAINI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, 233-240 233 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id Prediksi Ketepatan Waktu Lulus Mahasiswa dengan k- Nearest Neighbor dan Naïve Bayes

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

K NEAREST NEIGHBOR DALAM IMPUTASI MISSING DATA. Susanti, Shantika Martha, Evy Sulistianingsih INTISARI

K NEAREST NEIGHBOR DALAM IMPUTASI MISSING DATA. Susanti, Shantika Martha, Evy Sulistianingsih INTISARI Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster) Volume 07, No. 1 (2018), hal 9-14. K NEAREST NEIGHBOR DALAM IMPUTASI MISSING DATA Susanti, Shantika Martha, Evy Sulistianingsih INTISARI Missing data

Lebih terperinci

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI

IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI IDENTIFIKASI VARIETAS DURIAN BERDASARKAN TEKSTUR DAUN MENGGUNAKAN K-NEAREST NEIGHBOR DENGAN CIRI STATISTICAL TEXTURES ROSITA TRI INDRATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan

Lebih terperinci

KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU

KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT DEWI SRI RAHAYU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

ALGORITMA k-nearest NEIGHBOR DALAM KLASIFIKASI DATA HASIL PRODUKSI KELAPA SAWIT PADA PT. MINAMAS KECAMATAN PARINDU

ALGORITMA k-nearest NEIGHBOR DALAM KLASIFIKASI DATA HASIL PRODUKSI KELAPA SAWIT PADA PT. MINAMAS KECAMATAN PARINDU Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster) Volume 02, No.1(2013), hal. 33-38. ALGORITMA k-nearest NEIGHBOR DALAM KLASIFIKASI DATA HASIL PRODUKSI KELAPA SAWIT PADA PT. MINAMAS KECAMATAN PARINDU

Lebih terperinci

KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI

KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI KLASIFIKASI NASABAH KARTU KREDIT MENGGUNAKAN ALGORITME FUZZY K-NEAREST NEIGHBOR PADA DATA TIDAK SEIMBANG RETNO WIJAYANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST NEIGHBOR VICTORIA FEBRINA ROMAULI SIMANGUNSONG DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama pembuatan penelitian tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Sistem Pakar Identifikasi Varietas Ikan Mas (Cyprinus carpio) Berdasarkan Karakteristik Morfologi dan Tingkah Laku

Sistem Pakar Identifikasi Varietas Ikan Mas (Cyprinus carpio) Berdasarkan Karakteristik Morfologi dan Tingkah Laku Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 4 Nomor 1 halaman 6-13 ISSN: 2089-6026 Sistem Pakar Identifikasi Varietas Ikan Mas (Cyprinus carpio) Berdasarkan Karakteristik

Lebih terperinci

Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra Penampang Daun Freycinetia

Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra Penampang Daun Freycinetia Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 2 Nomor 1 halaman 20-28 ISSN: 2089-6026 Perbandingan Metode Ekstraksi Ciri Histogram dan PCA untuk Mendeteksi Stoma pada Citra

Lebih terperinci

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA oleh NADYA AL FITRIANI M0111060 SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi 4 Perangkat keras berupa Notebook: Processor intel Core i3 2.2 GHz. RAM kapasitas 2. GB. Harddisk Kapasitas 5 GB. Monitor pada resolusi 1366 x 768 piksel. Merek Acer Aspire 475. Perangkat lunak berupa:

Lebih terperinci

LAPORAN SKRIPSI EKSTRAKSI CIRI PENGENALAN GENDER MENGGUNAKAN FITUR GEOMETRIS CITRA WAJAH DENGAN METODE FUZZY C-MEANS (FCM)

LAPORAN SKRIPSI EKSTRAKSI CIRI PENGENALAN GENDER MENGGUNAKAN FITUR GEOMETRIS CITRA WAJAH DENGAN METODE FUZZY C-MEANS (FCM) LAPORAN SKRIPSI EKSTRAKSI CIRI PENGENALAN GENDER MENGGUNAKAN FITUR GEOMETRIS CITRA WAJAH DENGAN METODE FUZZY C-MEANS (FCM) Oleh : NIHAYATUS SA ADAH 2010-51-206 SKRIPSI DIAJUKAN SEBAGAI SALAH SATU SYARAT

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

Apa itu is K-Nearest Neighbor (KNN) Algorithm? K-Nearest Neighbor Pendahuluan K-Nearest Neighbour atau KNN adalah salah dari algoritma instance based learning atau case-based reasoning. Definisi case based reasoning: KNN digunakan dalam banyak aplikasi

Lebih terperinci

Identifikasi DNA dengan Rantai Markov Orde Satu dan Probabilistic Neural Network

Identifikasi DNA dengan Rantai Markov Orde Satu dan Probabilistic Neural Network Seminar Nasional Teknologi Informasi 2013 1 Identifikasi DNA dengan Rantai Markov Orde Satu dan Probabilistic Neural Network Toto Haryanto 1) Habib Rijzaani 2) Muhammad Luthfi Fajar 3) 1) Laboratorium

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI SPACED K-MERS DENGAN JARINGAN SYARAF TIRUAN SEBAGAI CLASSIFIER CUT MALISA IRWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Chandra Purnamaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami No 36 A Surakarta cpurnamaningsih@gmail.com

Lebih terperinci

ii

ii KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5 SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika Disusun

Lebih terperinci

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine.

ABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine. ABSTRAK Klasifikasi dalam data mining adalah proses untuk menemukan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data atau konsep. Salah satu permasalahan klasifikasi adalah distribusi

Lebih terperinci

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO ANALISIS PERBANDINGAN PROSES CLUSTER MENGGUNAKAN K- MEANS CLUSTERING DAN K-NEAREST NEIGHBOR PADA PENYAKIT DIABETES MELLITUS SKRIPSI RONNY BENEDIKTUS SIRINGORINGO 131421021 PROGRAM STUDI S1 ILMU KOMPUTER

Lebih terperinci

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN ALGORITME GENETIKA INNA SABILY KARIMA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN

Lebih terperinci

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Siti Mutrofin 1, Arrie Kurniawardhani 2, Abidatul Izzah 3, Mukhamad Masrur 4 Universitas Pesantren Tinggi Darul Ulum

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana

Lebih terperinci

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Deteksi Kualitas Pemasangan Ubin Berbasis Ekstraksi Ciri Bunyi Dengan Klasifikasi K-Nearest Neighbor

Deteksi Kualitas Pemasangan Ubin Berbasis Ekstraksi Ciri Bunyi Dengan Klasifikasi K-Nearest Neighbor Deteksi Kualitas Pemasangan Ubin Berbasis Ekstraksi Ciri Bunyi Dengan Klasifikasi K-Nearest Neighbor Regha Julian Pradhana 1,*, Bambang Hidayat 1, Ratri Dwi Atmaja 1 1 Fakultas Teknik Elektro, Universitas

Lebih terperinci

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN

METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN Metode Klasifikasi Data Mining dan Teknik Sampling Smote... METODE KLASIFIKASI DATA MINING DAN TEKNIK SAMPLING SMOTE MENANGANI CLASS IMBALANCE UNTUK SEGMENTASI CUSTOMER PADA INDUSTRI PERBANKAN Hairani

Lebih terperinci

A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU

A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU SEKOLAH PASCASARJA A I STITUT PERTA IA BOGOR BOGOR 2009 PER YATAA ME GE AI TESIS DA SUMBER

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 1 PERNYATAAN MENGENAI

Lebih terperinci

KLASIFIKASI DEBITUR KARTU KREDIT DENGAN PEMILIHAN FITUR MENGGUNAKAN VOTING FEATURE INTERVALS 5 SRI RAHAYU NATASIA

KLASIFIKASI DEBITUR KARTU KREDIT DENGAN PEMILIHAN FITUR MENGGUNAKAN VOTING FEATURE INTERVALS 5 SRI RAHAYU NATASIA KLASIFIKASI DEBITUR KARTU KREDIT DENGAN PEMILIHAN FITUR MENGGUNAKAN VOTING FEATURE INTERVALS 5 SRI RAHAYU NATASIA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1 Abstract

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1  Abstract Penerapan K-Optimal Pada Algoritma Knn untuk Prediksi Kelulusan Tepat Waktu Mahasiswa Program Studi Ilmu Komputer Fmipa Unlam Berdasarkan IP Sampai Dengan Semester 4 Mutiara Ayu Banjarsari 1, H. Irwan

Lebih terperinci

PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE

PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE PERBANDINGAN KINERJA EKSTRAKSI FITUR TINGKAT RENDAH MENGGUNAKAN METODE Gray Level Co-occurrence Matrix (GLCM) dan GABOR FILTER DALAM PENGENALAN MOTIF BATIK OLEH : ANUGRAH SURADIPURWO NIM : 41508110061

Lebih terperinci

1. Pendahuluan 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Perkembangan teknologi sekarang ini semakin pesat. Kebutuhan akan informasi dan komunikasi bertambah. Telah ditemukan berbagai perangkat teknologi yang memudahkan manusia

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI 2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma

Lebih terperinci

ANALISIS BIAYA KONSUMSI PANGAN, PENGETAHUAN GIZI, SERTA TINGKAT KECUKUPAN GIZI SISWI SMA DI PESANTREN LA TANSA, BANTEN SYIFA PUJIANTI

ANALISIS BIAYA KONSUMSI PANGAN, PENGETAHUAN GIZI, SERTA TINGKAT KECUKUPAN GIZI SISWI SMA DI PESANTREN LA TANSA, BANTEN SYIFA PUJIANTI ANALISIS BIAYA KONSUMSI PANGAN, PENGETAHUAN GIZI, SERTA TINGKAT KECUKUPAN GIZI SISWI SMA DI PESANTREN LA TANSA, BANTEN SYIFA PUJIANTI DEPARTEMEN GIZI MASYARAKAT FAKULTAS EKOLOGI MANUSIA INSTITUT PERTANIAN

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Pustaka Sebagai tinjauan pustaka, berikut beberapa contoh penelitian telapak kaki yang sudah dilakukan oleh para peneliti yang dapat digunakan sebagai

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA Irwan Budiman 1, Dodon Turianto Nugrahadi 2, Radityo Adi Nugroho 3 Universitas Lambung Mangkurat 1,2,3 irwan.budiman@unlam.ac.id

Lebih terperinci

EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA

EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA EKSTRAKSI FITUR MENGGUNAKAN ELLIPTICAL FOURIER DESCRIPTOR UNTUK PENGENALAN VARIETAS TANAMAN KEDELAI HERMAWAN SYAHPUTRA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS

Lebih terperinci

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 1 PERNYATAAN MENGENAI

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

PEMETAAN BIDANG ILMU BERDASARKAN ARTIKEL JURNAL PENDIDIKAN UNIVERSITAS TERBUKA TAHUN : MENGGUNAKAN ANALISIS CO-WORDS

PEMETAAN BIDANG ILMU BERDASARKAN ARTIKEL JURNAL PENDIDIKAN UNIVERSITAS TERBUKA TAHUN : MENGGUNAKAN ANALISIS CO-WORDS PEMETAAN BIDANG ILMU BERDASARKAN ARTIKEL JURNAL PENDIDIKAN UNIVERSITAS TERBUKA TAHUN 1999 2007: MENGGUNAKAN ANALISIS CO-WORDS M.PANDU RISTIYONO G652060034 MAGISTER TEKNOLOGI INFORMASI Untuk PERPUSTAKAAN

Lebih terperinci

dengan metode penelitian yang dapat dilihat pada Gambar 9. Data Citra Tumbuhan

dengan metode penelitian yang dapat dilihat pada Gambar 9. Data Citra Tumbuhan dengan metode penelitian yang dapat dilihat pada Gambar 9. Data Citra Tumbuhan Gambar 8 Struktur PNN. 1. Lapisan pola (pattern layer) Lapisan pola menggunakan 1 node untuk setiap data pelatihan yang digunakan.

Lebih terperinci

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA

PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA PEMODELAN BIPLOT PADA KLASIFIKASI DATA METAGENOM DENGAN K-MERS SEBAGAI EKSTRAKSI CIRI DAN LVQ SEBAGAI CLASSIFIER RINDI ANTIKA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

Lebih terperinci

APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS

APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS Naila Fitriah 52409455 Teknologi Industri Teknik Informatika AGENDA Saham? Manfaat Prediksi Saham KNN? 2

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION Hamsir Saleh Hamsir.saleh@gmail.com Fakultas Ilmu Komputer Universitas Ichsan Gorontalo Abstrak Memprediksi kebangkrutan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bagian ini akan diuraikan teori-teori dasar yang dijadikan sebagai landasan dalam penulisan tugas akhir ini. 2.1 Ilmu Bioinformatika Bioinformatika merupakan kajian yang mengkombinasikan

Lebih terperinci

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring

Lebih terperinci

BAB IV MEMBANGUN POHON FILOGENETIK. 4.1 Membangun Pohon Filogenetik Menggunakan Aljabar Hipergraf

BAB IV MEMBANGUN POHON FILOGENETIK. 4.1 Membangun Pohon Filogenetik Menggunakan Aljabar Hipergraf BAB IV MEMBANGUN POHON FILOGENETIK 4.1 Membangun Pohon Filogenetik Menggunakan Aljabar Hipergraf Langkah-langkah membangun pohon filogenetik dengan menggunakan Aljabar Hipergraf, berdasarkan jaringan metabolik

Lebih terperinci

PERBANDINGAN TEKNIK SAMPLING DALAM RANDOM FOREST PADA KELAS IMBALANCED

PERBANDINGAN TEKNIK SAMPLING DALAM RANDOM FOREST PADA KELAS IMBALANCED PERBANDINGAN TEKNIK SAMPLING DALAM RANDOM FOREST PADA KELAS IMBALANCED Studi Kasus Perilaku Seksual Remaja di Indonesia Hasil SDKI 2012 Yogo Aryo Jatmiko 1, Septiadi Padmadisastra 2, Anna Chadidjah 3 Prodi

Lebih terperinci

SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN)

SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN) Journal of Environmental Engineering & Sustainable Technology JEEST http://jeest.ub.ac.id SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN) Indriati

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Pengolahan Citra Digital [3] Citra atau gambar didefinisikan sebagai sebuah fungsi dua dimensi, f(x,y), di mana x dan y adalah koordinat bidang datar, dan harga fungsi f di setiap

Lebih terperinci

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Techno.COM, Vol. 15, No. 3, Agustus 2016: 241-245 PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Didik Srianto 1, Edy Mulyanto 2 1,2 Teknik Informatika,

Lebih terperinci

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI) K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI) Disusun Oleh : Alfian Sukma 081116007 Dian Ramadhan 081211631003 Bagus Puji Santoso 081211631061 Tiara Ratna Sari 081211632014 Ni

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB)

PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB) JIMT Vol. 12 No. 2 Desember 2016 (Hal 115-124) ISSN : 2450 766X PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB) Nurfajri 1,

Lebih terperinci

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif Khafiizh Hastuti 1, Erwin Yudi Hidayat 2 1, 2 Fakultas Ilmu Komputer, Universitas Dian Nuswantoro, Semarang 50131 E-mail : 1 afis@dsn.dinus.ac.id,

Lebih terperinci

PERBANDINGAN ALGORITMA TEMPLATE MATCHING DAN FEATURE EXTRACTION PADA OPTICAL CHARACTER RECOGNITION

PERBANDINGAN ALGORITMA TEMPLATE MATCHING DAN FEATURE EXTRACTION PADA OPTICAL CHARACTER RECOGNITION Jurnal Komputer dan Informatika (KOMPUTA) 29 PERBANDINGAN ALGORITMA TEMPLATE MATCHING DAN FEATURE EXTRACTION PADA OPTICAL CHARACTER RECOGNITION Raden Sofian Bahri 1, Irfan Maliki 2 1,2 Program Studi Teknik

Lebih terperinci

ANALISIS DAN PERANCANGAN SISTEM

ANALISIS DAN PERANCANGAN SISTEM ANALISIS DAN PERANCANGAN SISTEM 3.1 Analisis Masalah Dalam mengetahui suatu bahan jenis kulit cukup sulit karena bahan jenis kulit memeliki banyak jenis. Setiap permukaan atau tekstur dari setiap jenisnya

Lebih terperinci

PEMETAAN BIDANG ILMU BERDASARKAN ARTIKEL JURNAL PENDIDIKAN UNIVERSITAS TERBUKA TAHUN : MENGGUNAKAN ANALISIS CO-WORDS

PEMETAAN BIDANG ILMU BERDASARKAN ARTIKEL JURNAL PENDIDIKAN UNIVERSITAS TERBUKA TAHUN : MENGGUNAKAN ANALISIS CO-WORDS PEMETAAN BIDANG ILMU BERDASARKAN ARTIKEL JURNAL PENDIDIKAN UNIVERSITAS TERBUKA TAHUN 1999 2007: MENGGUNAKAN ANALISIS CO-WORDS M.PANDU RISTIYONO G652060034 MAGISTER TEKNOLOGI INFORMASI Untuk PERPUSTAKAAN

Lebih terperinci