Bab II Dasar Teori. 2.1 Estimasi Akurasi Classifier Metode Holdout

Ukuran: px
Mulai penontonan dengan halaman:

Download "Bab II Dasar Teori. 2.1 Estimasi Akurasi Classifier Metode Holdout"

Transkripsi

1 Bab II Dasar Teori 2.1 Estimasi Akurasi Classifier Estimasi akurasi classifier penting dilakukan untuk mengevaluasi seberapa akurat sebuah classifier mengklasifikasikan future data, yaitu data yang belum pernah digunakan di dalam pembelajaran untuk membentuk classifier. Estimasi akurasi juga dapat digunakan untuk membandingkan beberapa buah classifier yang berbeda-beda. Berikut ini akan dibahas beberapa buah teknik untuk mengestimasi akurasi classifier. [HAN01] Metode Holdout Pada metode holdout, data secara acak dibagi menjadi dua buah bagian yang independent yaitu sebuah training set dan sebuah test set. Pada umumnya perbandingan yang digunakan yaitu 2:1 untuk training set berbanding test set. [HAN01] Metode holdout termasuk pessimistic estimator karena hanya sebagian data yang diberikan untuk melakukan pembelajaran. Semakin banyak instance yang diambil untuk test set, maka semakin tinggi pula bias estimasinya. Akan tetapi jika semakin kecil jumlah instance dalam test set maka interval kepercayaan untuk akurasi yang dihasilkan akan semakin besar. Metode holdout bergantung pada pembagian training set dan test set yang dilakukan secara acak. [KOH07] Random subsampling merupakan variasi dari metode holdout dimana metode holdout diulangi sebanyak k kali. Estimasi akurasi secara keseluruhan didapat dengan menghitung rata-rata akurasi yang dihasilkan di setiap iterasi.[han01] II-1

2 II Bootstrap Bootstrap adalah sebuah metode perhitungan nilai akurasi yang menggunakan sampling dengan penggantian untuk membentuk training set. Sebuah dataset yang terdiri dari n buah instance akan dilakukan sampling dengan penggantian sebanyak n kali untuk membentuk training set. Sedangkan test set dibentuk dari instance yang tidak muncul pada training set. Metode bootstrap ini sangat cocok untuk dataset yang berukuran kecil.[ccs07] K-fold Cross Validation K-fold cross validation adalah sebuah teknik intensif komputer yang menggunakan keseluruhan data yang ada sebagai training set dan test set [BEN04]. Seluruh data secara acak dibagi menjadi K buah subset B k dengan ukuran yang sama dimana B k B k k =,.., dan = 1 K merupakan himpunan bagian dari {1,...,n} sedemikian sehingga { 1 n} B j B k = ( j k). Setelah itu dilakukan iterasi sebanyak K kali. Pada iterasi ke k, subset B k menjadi test set, sedangkan subset yang lain menjadi training set. Setelah itu dihitung nilai rata-rata error dengan menggunakan hasil dari K buah iterasi. [SCH97] Kelebihan dari metode ini adalah tidak adanya masalah dalam pembagian data. Setiap data akan menjadi test set sebanyak satu kali dan akan menjadi training set sebanyak K-1 kali. Kekurangan dari metode ini adalah algoritma pembelajaran harus dilakukan sebanyak K kali yang berarti menggunakan K kali waktu komputasi.[sch97] Leave One Out Cross Validation (LOO CV) merupakan n-fold Cross Validation dimana n adalah jumlah data yang tersedia. LOO CV sangat membutuhkan komputasi yang tinggi jika terdapat data dalam jumlah besar. [SCH97]

3 II Algoritma C4.5 Algoritma C4.5 yang dirancang oleh J.R. Quinlan merupakan suksesor dari algoritma ID3. Algoritma C4.5 ini dirancang untuk menghindari terjadinya overfitting pada decision tree yang dihasilkan dengan cara melakukan post-prune pada pohon yang telah dibangun. Default kriteria pembagi yang dipakai oleh C4.5 adalah gain-ratio. Misalkan C adalah jumlah kelas yang ada, p(d,j) adalah proporsi dari kasus D pada kelas j. Maka sisa ketidakpastian (residual uncertainty) dari kelas dimana D berada dapat dirumuskan sebagai : C Info( D) = p( D, j) log 2 ( p( D, j)) (II-1) j= 1 Sedangkan information gain untuk atribut T yang mempunyai k buah nilai adalah : k Di Gain( D, T ) = Info( D) Info( Di ) (II-2) D i= 1 Information gain sebuah atribut dipengaruhi dengan kuat oleh banyaknya nilai atribut tersebut dan akan maksimal ketika terdapat satu kasus untuk setiap subset D i. Sebaliknya, potensial informasi yang didapatkan dengan membagi sekumpulan kasus adalah berdasarkan kepastian subset D i dimana kasus tersebut berada, split information dapat dihitung dengan menggunakan rumus : k Di Di Split( D, T ) = log 2 (II-3) i= 1 D D Split information cenderung untuk meningkat seiring dengan meningkatnya jumlah keluaran dari tes. Kriteria gain ratio menilai desirability dari sebuah tes sebagai rasio dari information gain dengan split information yang dimilikinya. Rumus untuk menghitung gain ratio dapat dilihat pada rumus (II-4). [MIT97]

4 II-4 Gain( D, T ) GainRatio ( D, T ) = (II-4) Split( D, T ) Gain ratio dari setiap tes dihitung lalu pembagian dengan maksimum gain ratio akan dipilih. [QUI96A] Pada beberapa situasi, setiap tes yang mungkin dapat membagi D ke dalam subset dengan distribusi kelas yang sama. Seluruh tes kemudian akan diberikan nilai gain 0, dan C4.5 menggunakan ini sebagai kriteria tambahan untuk berhenti. [QUI96A] Strategi pembagian secara rekursif di atas menghasilkan pohon yang konsisten dengan data latih, jika hal ini memungkinkan. Hampir semua sistem memotong pohon awal tersebut, mengindentifikasikan subpohon yang berperan kecil dalam keakuratan prediksi dan menggantikannya dengan sebuah daun atau sebuah subpohon yang berasal dari salah satu cabangnya. [QUI96A] Berikut ini adalah algoritma global untuk membangkitkan decision tree dari sekumpulan data latih D [QUI96A] : 1) jika D memenuhi kriteria untuk berhenti (stopping criterion), maka pohon untuk D adalah sebuah daun yang diisi dengan frekuensi kelas terbanyak di dalam D. Salah satu kriteria berhenti adalah D hanya mengandung kasus dari kelas ini, akan tetapi kriteria lain juga dapat digunakan. 2) sebuah atribut T dengan nilai yang berbeda satu sama lain T 1, T 2,..., T k digunakan untuk membagi D menjadi subset D 1, D 2,..., D k dimana D i hanya mengandung kasus-kasus yang mempunyai nilai T i. Pohon untuk D dengan tes T sebagai akarnya dengan sebuah subpohon untuk setiap keluaran T i yang dibangun dengan menerapkan prosedur yang sama secara rekursif untuk kasus di dalam D i. Adapun tes default yang dipakai di C4.5 sebagai kriteria pembagi yaitu [QUI96A] : 1) A= x untuk atribut diskrit A, dengan x adalah sebuah keluaran untuk setiap nilai dari A. 2) A t untuk atribut kontinyu A, dengan dua keluaran yaitu true dan false. Untuk menentukan treshold t yang memaksimalkan kriteria pembagi, data latih D diurutkan berdasarkan nilai atribut A yang dimilikinya untuk memperlihatkan

5 II-5 perbedaan nilai v 1, v 2,..., v N. Setiap pasang nilai yang berbatasan memberikan potensial treshold t yang dihitung dengan cara : ( v i + vi ) t = (II-5) 2 Treshold yang memberikan nilai kriteria pembagi yang paling baik yang akan dipilih. [MIT97] menyebutkan bahwa C4.5 menggunakan rule post pruning yang tahapantahapannya adalah sebagai berikut: 1) Melakukan inferensi decision tree dari training set, pohon ditumbuhkan hingga sesuai mungkin dengan data latih, tidak masalah walaupun akan terjadi overfitting. 2) Pohon yang telah dihasilkan dikonversi menjadi sekumpulan aturan ekuivalen dengan membuat sebuah aturan untuk setiap jalur dari akar ke daun. Sintak aturan yang dipakai adalah IF prekondisi THEN postkondisi Setiap atribut tes sepanjang jalur dari akar ke daun menjadi prekondisi dan klasifikasi pada node daun akan menjadi postkondisi. 3) Potong/generalisasi setiap rule dengan menghilangkan prekondisi sedemikian sehingga akan meningkatkan keakuratan. 4) Urutkan aturan-aturan yang sudah dipotong tersebut berdasarkan nilai estimasi keakuratannya, lalu dipakai secara terurut ketika melakukan klasifikasi. Akan tetapi, C4.5 pada WEKA hanya mengimplementasikan tahap 1 dan 3 saja. Contoh hasil pruning dengan menggunakan rule post pruning dapat dilihat pada Gambar II IF (outlook=sunny) and (humidity<=75) THEN yes 2. IF (outlook=sunny) and (humidity>75) THEN no 3. IF (outlook=overcast) THEN yes 4. IF (outlook=rainy) and (windy=true) THEN no 5. IF (outlook=rainy) and (windy=false) THEN yes Gambar II-1 Hasil pruning dengan menggunakan rule post pruning Sedangkan hasil pruning dengan menggunakan C4.5 pada WEKA dapat dilihat pada Gambar II-2.

6 II-6 overcast Gambar II-2 Hasil pruning dengan menggunakan C4.5 pada WEKA Metode yang digunakan oleh C4.5 untuk mengestimasi keakuratan sebuah aturan adalah dengan melakukan evaluasi performansi dari training set itu sendiri dengan menggunakan pessimistic estimate yaitu dengan menghitung akurasi aturan terhadap training examples yang menerapkannya lalu menghitung standar deviasi pada estimated akurasi ini mengasumsikan distribusi binomial. [MIT97] 2.3 Delegating Classifiers Delegating classifiers dirancang untuk mengatasi kekurangan yang terdapat di dalam multi-classifiers yaitu loss of comprehensibility dan penggunaan resource komputasi yang berlebihan. Delegating-classifiers dibuat dengan motto let others do the things that you cannot do well. Cautious classifier digunakan hanya untuk mengklasifikasikan data yang diprediksi mempunyai nilai confidence yang tinggi, menyerahkan data yang memiliki nilai confidence rendah (abstain) kepada classifier yang lain. Perancangan delegating classifiers mempunyai dua buah isu yaitu menentukan nilai batas ambang confidence atau aturan pendelegasian serta penentuan teknik yang baik untuk membuat classifier kedua yang memiliki performansi yang lebih baik daripada classifier pertama. [FER04] Classifier pertama, f (1), menentukan classifier mana yang akan dipakai untuk melakukan klasifikasi data. Proses penentuan ini dilakukan dengan menggunakan

7 II-7 nilai confidence klasifikasi data dan nilai batas ambang confidence. Oleh karena itu classifier pertama haruslah merupakan probability estimator yang baik. [KHO06] Classifier kedua, f (2), bertugas khusus untuk menangani data yang didelegasikan oleh classifier pertama. Classifier kedua dibangun dengan melakukan pembelajaran terhadap subset dari training set classifier pertama. Training set untuk classifier kedua ini berisi data dari training set classifier pertama yang diprediksi mempunyai nilai confidence yang lebih rendah dari nilai batas ambang classifier pertama. [KHO06] Gambar II-3 Proses pembangunan umum delegating classifiers [KHO06] Gambar II-3 menunjukkan proses pembangunan delegating classifiers secara umum. Training set digunakan untuk melakukan pembelajaran membentuk classifier pertama, f (1), yang kemudian diubah menjadi cautious classifier. Dengan menggunakan classifier pertama yang berbentuk cautious classifier, dilakukan partisi training set untuk membentuk delegated set. Delegated set yang dihasilkan akan digunakan dalam pembelajaran untuk membentuk classifier kedua, f (2). Jika cautious classifier, f (1), memutuskan untuk tidak melakukan prediksi terhadap suatu data, e, maka f (1) akan mendelegasikan data tersebut ke classifier yang lain. Jika ada classifier kedua, f (2), dan sebuah nilai batas ambang confidence τ, maka aturan pendelegasian adalah sebagai berikut. [FER04] IF f (1) CONF(e) > τ THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e)

8 II-8 Terdapat dua buah metode untuk menentukan nilai batas ambang confidence, yaitu [FER04]: 1. Global Absolute Precentage (GAP) Jika ada sebuah bagian ρ, sebuah classifier f dan sebuah training set Tr maka rumus untuk menentukan nilai batas ambang confidence τ adalah sebagai berikut: τ = max{t: {e Tr : f CONF (e) > t} ρ Tr } (II-6) Dengan demikian τ adalah nilai batas ambang maksimum sedemikan sehingga sedikitnya ρ data dari training set mempunyai nilai confidence yang lebih tinggi. Aturan pendelegasian untuk metode ini adalah sebagai berikut: IF f (1) CONF(e) > τ THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e) 2. Stratified Absolute Precentage (SAP) Metode ini digunakan untuk mengatasi training set yang tidak seimbang. Setiap kelas c akan mempunyai nilai batas ambang confidence masing-masing τ c. Rumus untuk menentukan τ c adalah sebagai berikut: τ c = max{t: {e Tr c : f PROBc (e) > t} ρ Tr c } (II-7) Dengan demikian τ c adalah nilai batas ambang maksimum untuk setiap kelas c sedemikan sehingga sedikitnya sejumlah ρ bagian dari training set Tr dengan kategori c memiliki nilai confidence yang lebih tinggi. Aturan pendelegasian untuk metode ini adalah sebagai berikut: IF f (1) CONF(e) > τ c THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e) WHERE c = f (1) CLASS(e)

9 II-9 Penelitian yang dilakukan oleh [FER04] menggunakan tiga buah skenenario, yaitu : 1. Two-Stage Pada skenario ini, classifier pertama akan mendelegasikan data yang diklasifikasikannya dengan nilai confidence lebih rendah daripada nilai batas ambang confidence yang dimilikinya kepada classifier kedua. Hasil klasifikasi dari classifier kedua inilah yang akan digunakan. Skenario ini merupakan skenario dasar delegating classifier. Aturan pendelagasian skenario ini adalah sebagai berikut: IF f (1) CONF(e) > τ THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e) 2. Round rebound Skenario round rebound merupakan varian dari skenario two-stage. Perbedaannya adalah jika classifier kedua akan mendelegasikan kembali data yang diklasifikasikannya dengan nilai confidence lebih rendah daripada nilai batas ambang confidence yang dimilikinya kepada classifier pertama. Alasannya adalah jika data tersebut sama-sama menghasilkan nilai confidence yang rendah pada kedua buah classifier maka data tersebut akan lebih baik diklasifikasikan oleh classifier pertama daripada classifier kedua karena classifier pertama bersifat lebih umum dan kemungkinan terjadinya overfitting lebih kecil. Aturan pendelegasian skenario ini adalah sebagai berikut: IF f (1) CONF(e) > τ (1) THEN prediksi f (1) CLASS(e) ELSEIF f (2) CONF(e) > τ (2) THEN prediksi f (2) CLASS(e) ELSE prediksi f (1) CLASS(e) Penentuan nilai batas ambang confidence untuk classifier kedua τ (2) dapat dilakukan dengan menggunakan training set lengkap (Absolute Precentage) atau dapat menggunakan data yang didelegasikan oleh classifier pertama (Relative Precentage). Adapun rumus penentuan nilai confidence batas ambang untuk classifier kedua τ (2) dapat dilihat pada rumus (II-8). τ (2) = max{t: {e Tr f (1) : f (2) CONF(e) > t} ρ Tr f (1) } (II-8)

10 II Iterative Skenario ini juga merupakan varian dari skenario two-stage. Pada skenario ini, dilakukan iterasi terhadap beberapa delegating classifiers. Aturan pendelegasian untuk skenario ini adalah sebagai berikut: IF f (1) CONF(e)>τ THEN prediksi f (1) CLASS(e) ELSEIF f (2) CONF(e)>τ (2) THEN prediksi f (2) CLASS(e)... ELSEIF f (n-1) CONF(e)>τ (n-1) THEN prediksi f (n-1) CLASS(e) ELSE prediksi f (n) CLASS(e) Hasil penelitian [FER04] menunjukkan bahwa nilai keakuratan yang dihasilkan oleh delegating classifiers tidak jauh berbeda dengan yang dihasilkan oleh multi classifiers. Untuk masalah penggunaan resource, delegating classifiers menggunakan resource yang lebih sedikit dibandingkan dengan multi classifiers Parameter Terbaik Delegating Classifiers Parameter terbaik delegating classifiers yang terdapat dalam [FER04], yaitu : 1. Metode penentuan batas ambang yang paling baik adalah GAP. Hal ini didapat setelah melakukan eksperimen untuk membangun delegating classifiers skema two-stage dan metode batas ambang GAP serta SAP menggunakan 22 buah dataset lalu dihitung nilai rata-rata akurasi serta rata-rata nilai AUC untuk berbagai macam persentase delegasi. Dari hasil eksperimen ini didapat bahwa nilai rata-rata akurasi dan rata-rata AUC dengan menggunakan GAP untuk berbagai persentasi delegasi lebih baik daripada menggunakan SAP. 2. Persentase delegasi yang memberikan nilai akurasi terbaik adalah 50%. Hal ini didapat setelah melakukan eksperimen untuk membangun delegating classifiers skema two-stage dan metode batas ambang GAP serta SAP menggunakan 22 buah dataset lalu dihitung nilai rata-rata akurasi serta rata-rata nilai AUC untuk persentase delegasi 20%, 33%, 45%, 50%, 55%, 67%, dan 80%. Dari hasil eksperimen ini didapat bahwa persentase delegasi 50% memberikan rata-rata nilai akurasi dan rata-rata nilai AUC yang paling baik.

11 II Skema round rebound menghasilkan nilai akurasi yang lebih baik dibandingkan dengan skema two-stage. Hal ini didapat dengan membandingkan rata-rata nilai akurasi dan nilai AUC untuk skema round rebound dan skema two-stage menggunakan metode penentuan batas ambang SAP dan GAP untuk persentase delegasi 33%, 45%, 50%, 55%, dan 67%. Skema round rebound memberikan rata-rata nilai akurasi dan nilai AUC yang lebih baik daripada skema two-stage untuk seluruh persentase delegasi. 4. Untuk delegating classifiers yang jumlah base classifier-nya lebih dari dua buah, skema iterative dengan persentase delegasi 1% dan 2% merupakan parameter terbaik Soft Classifier Classifier merupakan suatu fungsi f:e C dimana E adalah kumpulan data yang tidak berlabel, sedangkan C adalah sejumlah c kelas/kategori. Biasanya classifier ini cukup untuk permasalahan klasifikasi dan aplikasi. Akan tetapi, beberapa aplikasi membutuhkan nilai reliability, yaitu sebuah angka yang merepresentasikan kualitas dari setiap klasifikasi. Dengan kata lain, dibutuhkan sebuah classifier yang selain dapat memberikan label kelas hasil klasifikasi untuk setiap data juga dapat memberikan estimasi reliability. Classifier jenis ini disebut dengan soft classifier. [FER03] Istilah reliability sering juga disebut dengan confidence. Nilai confidence merupakan probabilitas bahwa label yang diberikan classifier bernilai benar dan menggambarkan kepercayaan terhadap hasil klasifikasi suatu classifier. Semakin besar nilai confidence dari suatu label kelas yang diberikan, semakin besar probabilitas kelas yang diberikan merupakan label kelas yang benar. [KHO06] Bentuk paling umum dari soft classifier adalah probability estimator, yaitu sebuah model yang mengestimasi probabilitas p i (e) untuk setiap anggota di dalam kelas i C untuk setiap data e E. Sebuah decision tree dapat dengan mudah diubah menjadi sebuah probability estimator dengan menggunakan frekuensi kelas absolut untuk setiap daun yang ada pada pohon tersebut. Sebagai contoh, jika sebuah daun

12 II-12 mempunyai nilai frekuensi absolut n 1, n 2,..., n i (didapatkan dari training set) maka estimasi probabilitas untuk daun tersebut dapat dihitung dengan menggunakan rumus sebagai berikut (II-9). [FER03] ni p i = (II-9) n i Probability Estimator Tree Untuk decision tree classifier, nilai confidence ditentukan per daun. Banyaknya nilai confidence yang mungkin pada suatu pohon sama dengan banyaknya daun pada pohon tersebut. Nilai confidence, p, diestimasi dengan menggunakan distribusi data latih dari suatu daun dengan rumus berikut ini. p i = N i + 1 N + c (II-10) dengan N i adalah jumlah data latih yang berlabel kelas i pada suatu daun, N adalah jumlah total data latih pada daun, dan c adalah jumlah kelas. [KHO06] Decision tree yang setiap daunnya terdapat distribusi probabilitas setiap kelas disebut probability estimator tree (PET). Proses klasifikasi pada PET sama dengan proses klasifikasi pada decision tree, yaitu dengan melakukan penelusuran pohon mulai dari akar hingga mencapai daun. Jalur penelusuran ditentukan oleh jawaban setiap pertanyaan pada simpul yang bukan daun. Setelah mencapai daun, kelas yang diberikan sebagai hasil klasifikasi adalah kelas yang memiliki probabilitas terbesar pada daun tersebut. [KHO06] Salah satu contoh dari PET dapat dilihat pada Gambar II-4. PET ini terdiri dari 5 buah daun, yaitu D1, D2, D3, D4, dan D5. Pada setiap daun, baris pertama merupakan keseluruhan nilai kelas yang ada, baris kedua menunjukkan jumlah data latih yang dimiliki masing-masing kelas pada daun tersebut, dan pada baris terakhir merupakan nilai distribusi data latih untuk masing-masing kelas tersebut.

13 II-13 overcast Gambar II-4 Contoh PET Cautious Classifier Pada beberapa area, sebuah classifier yang memilih untuk abstain dalam melakukan klasifikasi ketika classifier tersebut tidak merasa yakin dapat menghasilkan keputusan yang benar dianggap lebih baik daripada sebuah greedy classifier atau classifier lengkap yang selalu memberikan keputusan. Cautious classifier adalah suatu classifier yang akan memberikan keputusan (memberikan hasil klasifikasi) jika classifier tersebut merasa yakin dengan keputusannya dan memilih untuk abstain jika classifier tersebut tidak merasa yakin. Dengan kata lain, cautious classifier merupakan fungsi parsial. [FER04] Jika classifier lengkap didefinisikan sebagai fungsi f:e C, dengan E adalah himpunan data yang tidak berlabel, dan C adalah himpunan c kelas/kategori yang telah ditentukan sebelumnya. Secara formal, cautious classifier didefinisikan sebagai fungsi d:e C, dimana C = C { }, dan adalah kelas unknown. Jika cautious classifier memberikan label klasifikasi untuk suatu data, hasil klasifikasi ini disebut abstain. Hal ini terjadi jika hasil klasifikasi mempunyai nilai confidence lebih kecil dari nilai batas ambang yang telah ditentukan. Dikarenakan cautious classifier tidak dapat memberikan label untuk beberapa data, maka cautious classifier merupakan fungsi parsial. [KHO06]

14 II-14 Berikut ini adalah aturan untuk proses klasifikasi yang dilakukan oleh cautious classifier : IF f CONF (e)> τ THEN prediksi f CLASS (e) ELSE abstain dengan f CONF (e) adalah fungsi yang menghasilkan nilai confidence dari prediksi yang dilakukan oleh classifier f untuk data e, f CLASS (e) adalah fungsi yang menghasilkan label kelas yang diberikan oleh classifier f untuk data e, dan τ adalah nilai batas ambang yang dimiliki oleh cautious classifier. [FER04] Sebuah soft classifer dapat dikonversi menjadi cautious classifier dengan menentukan nilai batas ambang confidence. Secara umum, aturan konversinya adalah sebagai berikut: [KHO06] confidence max(p i ) IF confidence τ THEN kelas argmax(p i ) ELSE kelas 2.4 Multi-Classifiers Multi-classifiers atau biasa disebut dengan ensemble classifiers atau classifier committees adalah suatu jenis classifier yang terdiri dari beberapa buah base classifier. Keuntungan yang didapat dengan menggunakan ensemble classifiers adalah meningkatnya efektifitas dan ketahanan dari tidak terjadinya overfitting [ESP06]. Berdasarkan tipe classifier yang membentuknya, ada dua kelompok ensemble classfiers yaitu homogenous ensembles dan heterogenous ensembles. homogenous ensembles menggunakan beberapa buah base classifier yang bertipe sama, tetapi masing-masing base classifier dilatih dengan subset subsample yang berbeda-beda dari keseluruhan dataset. Teknik subsampling yang dapat digunakan diantaranya adalah bagging dan boosting. Sedangkan heterogenous ensembles menggunakan beberapa buah base classifier yang berbeda tipe. [KHO06]

15 II Bagging Bagging merupakan sebuah metode bootstrap ensemble yang membuat masingmasing base classifier yang membentuknya dengan cara melatih setiap base classifier tersebut menggunakan pembagian kembali training set secara acak. Training set untuk setiap base classifier dibuat dengan cara mengacak, dengan melakukan penggantian, N buah data dimana N adalah jumlah training set secara keseluruhan. Dikarenakan bagging menggunakan resamples training set maka akan terdapat beberapa buah data yang akan berulang, sedangkan yang lain akan dihilangkan [OPI99]. Contoh pembagian training set pada bagging dapat dilihat pada Tabel II-1. Algoritma pembelajaran pada bagging dapat dilihat pada Gambar II-5. Tabel II-1 Contoh pembagian data dengan menggunakan Bagging [OPI99] Data asli 1, 2, 3, 4, 5, 6, 7, 8 Training-set-1 2, 7, 8, 3, 7, 6, 3, 1 Training-set-2 7, 8, 5, 6, 4, 2, 7, 1 Training-set-3 3, 6, 2, 7, 5, 6, 2, 2 Training-set-4 4, 5, 1, 4, 6, 4, 3, 8 Untuk melakukan klasifikasi sebuah data x, setiap base classifier akan melakukan klasifikasi data tersebut. Hasil klasifikasi dari seluruh base classifier lalu disimpan. Kemudian data x akan diberi label kelas yang jumlahnya paling banyak dari hasil klasifikasi seluruh base classifier. [QUI96B] Bagging efektif pada algoritma pembelajaran yang tidak stabil dimana perubahan kecil yang terdapat di dalam training set mengakibatkan perubahan yang besar di dalam prediksi. Bagging hampir selalu lebih akurat dibandingkan dengan classifier tunggal, akan tetapi bagging terkadang kurang akurat dibandingkan dengan boosting. Bagging lebih tahan terhadap noise dibandingkan dengan boosting. [OPI99]

16 II-16 Input: training set S, Inducer I, integer T (number of bootstrap samples) 1. for i = 1 to T { 2. S = boostrap sample from S (i.i.d sample with replacement) 3. C i = I(S ) 4. } 5. C*(x) = arg max arg max y Y 1 (the most often predicted label y) i: Ci ( x) = y Output: classifier C* Gambar II-5 Algoritma Bagging [KOH98] Boosting Fokus dari metode ini adalah untuk menghasilkan serangkaian base classifiers. Training set yang digunakan untuk setiap base classifier dipilih berdasarkan performansi dari classifier sebelumnya. Di dalam boosting, sampel yang tidak diprediksikan dengan benar oleh classifier di dalam rangkaian akan dipilih lebih sering dibandingkan dengan sampel yang telah diprediksikan dengan benar. Dengan demikian, boosting mencoba menghasilkan base classifier baru yang lebih baik untuk memprediksikan sampel yang pada base classifier sebelumnya memiliki performansi yang buruk. Salah satu contoh pembentukan training set pada boosting dapat dilihat pada Tabel II-2 dengan asumsi data 1 susah diprediksikan dengan benar. [OPI99] Tabel II-2 Contoh pembagian data dengan menggunakan Boosting [OPI99] Data asli 1, 2, 3, 4, 5, 6, 7, 8 Training-set-1 2, 7, 8, 3, 7, 6, 3, 1 Training-set-2 1, 4, 5, 4, 1, 5, 6, 4 Training-set-3 7, 1, 5, 8, 1, 8, 1, 4 Training-set-4 1, 1, 6, 1, 1, 3, 1, 5 Dalam pembelajaran classifier t, setiap data latih <d j,c i > diberi bobot, yang merepresentasikan seberapa sulit mendapatkan prediksi yang tepat untuk data ini bagi classifier 1,..., classifier t-1. Lalu, classifier t akan diaplikasikan ke data latih, dan bobot akan diperbaharui. Jika prediksi data latih tersebut benar, bobot akan dikurangi, dan sebaliknya jika terjadi salah klasifikasi, bobot akan ditambah [KHO06]. Salah satu contoh algoritma boosting AdaBoost.M1 yang dapat dilihat pada Gambar II-6.

17 II-17 Algorithm AdaBoost.M1 Input : sequence of m examples {(x 1, y 1 ),...,(x m, y m )} with labels y i Y = {1,...,k} weak learning algorithm WeakLearn integer T specifying number of iterations Initialize D 1 (i) = 1/m for all i. Do For t = 1, 2,..., T: 1. Call WeakLearn, providing it with the distribution D t. 2. Get back a hypothesis h t : X Y. 3. Calculate the error of h t : ε t = D t ( i) i: ht ( xi ) y i If ε t > 1/2, then set T = t -1 and abort loop. 4. Set β t = ε t /( 1 ε t ). 5. Update distribution D t : Where Z t is a normalization constant (chosen so that D t+1 will be a distribution). Output : the final hypothesis :β 1 h fin ( x) = arg max log y Y β t: ht ( x) = y t Gambar II-6 Algoritma AdaBoost.M1 [FRE96] Pada boosting, classifier akhir juga berupa agregasi classifier dengan voting. Akan tetapi, setiap classifier mempunyai bobot yang merupakan suatu fungsi dari nilai akurasinya. [QUI96B]

Bab I Pendahuluan. 1.1 Latar Belakang

Bab I Pendahuluan. 1.1 Latar Belakang Bab I Pendahuluan 1.1 Latar Belakang Klasifikasi merupakan task dari data mining yang bertujuan untuk memberikan label kelas terhadap suatu data. Pemberian label kelas ini dilakukan oleh classifier. Suatu

Lebih terperinci

Pohon Keputusan. 6.1 Inductive Learning

Pohon Keputusan. 6.1 Inductive Learning 6 Pohon Keputusan Sometimes you make the right decision, sometimes you make the decision right. Phil McGraw Bab ini akan menelaskan salah satu varian pohon keputusan yaitu ID3 oleh Quinlan [27, 28] yang

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB II INDUCT/RIPPLE-DOWN RULE (RDR)

BAB II INDUCT/RIPPLE-DOWN RULE (RDR) BAB II INDUCT/RIPPLE-DOWN RULE (RDR) Bab ini berisi tentang uraian mengenai teori Ripple-Down Rules (RDR), yang meliputi RDR dengan pengembangan manual dan RDR yang menerapkan algoritma Induct untuk pengembangannya.

Lebih terperinci

Bab IV Eksperimen. 4.1 Dataset. 4.2 Kakas

Bab IV Eksperimen. 4.1 Dataset. 4.2 Kakas Bab IV Eksperimen 4.1 Dataset Eksperimen dilakukan dengan menggunakan 28 buah dataset yang diambil dari UCI dataset repository. LAMPIRAN B berisi mengenai properti dari 28 buah dataset yang digunakan dalam

Lebih terperinci

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

POHON KEPUTUSAN DENGAN ALGORITMA C4.5 POHON KEPUTUSAN DENGAN ALGORITMA C4.5 1. Pengantar Algoritma C4.5 Klasifikasi merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga dari data yang berukuran relatif

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Decision Tree Definisi Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika Classification Decision Tree Classification Decision Tree Pengertian Pohon Keputusan Pohon keputusan adalah

Lebih terperinci

Penggunaan Pohon Keputusan untuk Data Mining

Penggunaan Pohon Keputusan untuk Data Mining Penggunaan Pohon Keputusan untuk Data Mining Indah Kuntum Khairina NIM 13505088 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha

Lebih terperinci

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru Wahyudin Program Pendidikan Ilmu Komputer, Universitas Pendidikan Indonesia Abstrak Konsep pohon merupakan salah satu

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree Scientific Journal of Informatics Vol. 3, No. 1, Mei 2016 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan

BAB IV EKSPERIMEN. 4.1 Tujuan BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. BAB 3 ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. A. Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan

Lebih terperinci

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien 1 Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien Ketut Wisnu Antara 1, Gede Thadeo Angga Kusuma 2 Jurusan Pendidikan Teknik Informatika Universitas Pendidikan Ganesha

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta

Lebih terperinci

ID3 : Induksi Decision Tree

ID3 : Induksi Decision Tree ID3 : Induksi Decision Tree Singkatan: Iterative Dichotomiser 3 Induction of Decision "3" (baca: Tree Pembuat: Ross Quinlan, sejak akhir dekade 70-an. Pengembangan Lanjut: Cikal bakal algoritma C4.5, pada

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan

Lebih terperinci

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4 Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Catatan Kuliah untuk Bab 4 Pengantar Data Mining oleh Tan, Steinbach, Kumar dialihbahasakan oleh Tim Pengajar Konsep Data Mining

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK

TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK 1 Nurma Jayanti Sulistyo Puspitodjati 3 Tety Elida 1 jurusan sistem informasi, universitas gunadarma

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2. 1. Dasar Teori 2. 1. 1 Data mining Data mining merupakan suatu proses penemuan pola dan pengetahuan atau informasi yang menarik dari data dengan jumlah yang

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN

Lebih terperinci

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA 53 ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA Marwana*) Abstract : Abstract-This study is a simulation for memperiksi victory in a football game using the C4.5 data

Lebih terperinci

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN 116 IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN Rismayanti 1 1 Dosen Tetap Program Studi Teknik Informatika, Sekolah Tinggi Teknik Harapan Medan Jl. H.M Joni No.70

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom DATA MINING KLASIFIKASI BERBASIS DECISION TREE Ramadhan Rakhmat Sani, M.Kom Text Book Outline 1. Algoritma Data Mining Algoritma ID3 Algoritma C4.5 Algoritma C4.5 Introduction Algoritma C4.5 merupakan

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio 21 BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) 3.1 Regresi Logistik Biner Regresi logistik berguna untuk meramalkan ada atau tidaknya karakteristik berdasarkan prediksi

Lebih terperinci

BAB. III. ANALISA PERMASALAHAN

BAB. III. ANALISA PERMASALAHAN BAB. III. ANALISA PERMASALAHAN Pada Bab II telah diuraikan beberapa teori dasar yang akan menjadi acuan / referensi ilmiah dalam melakukan penelitian. Bab ini akan berisi studi kasus yang dibangun dari

Lebih terperinci

PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R)

PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R) Arifin, Perbandingan Akurasi Klasifikasi Dari Algoritma Naïve Bayes, C4.5, PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R) M Zainal Arifin Abstrak : Artikel ini menjabarkan

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala Materi Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala Dosen Pengasuh Dr. Taufik Fuadi Abidin, M.Tech Dr. Muhammad Subianto, M.Si {tfa,subianto}@informatika.unsyiah.ac.id

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Klasifikasi merupakan salah satu bidang kajian pada machine learning. Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep

Lebih terperinci

LANDASAN TEORI. Universitas Indonesia

LANDASAN TEORI. Universitas Indonesia BAB LANDASAN TEORI Bab ini berisi penjelasan mengenai sejumlah teori yang digunakan penulis dalam penelitian ini. Adapun teori yang dijelaskan meliputi sistem penunjang keputusan, metode prakiraan cuaca

Lebih terperinci

Modul IV KLASIFIKASI

Modul IV KLASIFIKASI LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul IV KLASIFIKASI TUJUAN PRAKTIKUM Setelah mengikuti praktikum modul ini diharapkan: 1. Mahasiswa

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3) Kecerdasan Buatan Materi 6 Iterative Dichotomizer Three (ID3) Pengertian ID3 Singkatan dari Iterative Dichotomiser Three. Atau Induction of Decision Tree. Diperkenalkan pertama kali oleh Ross Quinlan (1979)

Lebih terperinci

LEARNING ARTIFICIAL INTELLIGENT

LEARNING ARTIFICIAL INTELLIGENT LEARNING ARTIFICIAL INTELLIGENT Outline Decision tree learning Jaringan Syaraf Tiruan K-Nearest Neighborhood Naïve Bayes Data Latih 1 Decision Tree??? Pelamar IPK Wawancara Diterima P1 Bagus Tinggi P2

Lebih terperinci

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN: KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas

Lebih terperinci

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION Hamsir Saleh Hamsir.saleh@gmail.com Fakultas Ilmu Komputer Universitas Ichsan Gorontalo Abstrak Memprediksi kebangkrutan

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

Pembangunan Model Prediksi Defect Menggunakan Metode Ensemble Decision Tree Dan Cost Sensitive Learning

Pembangunan Model Prediksi Defect Menggunakan Metode Ensemble Decision Tree Dan Cost Sensitive Learning 1 Pembangunan Model Prediksi Defect Menggunakan Metode Ensemble Decision Tree Dan Cost Sensitive Learning Satrio Agung Wicaksono, Daniel Oranova S dan Sarwosri Abstrak - Rencana project pengembangan perangkat

Lebih terperinci

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas

Lebih terperinci

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

Lingkungan Pengembangan HASIL DAN PEMBAHASAN aturan 3--5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA 6 BAB 2 TINJAUAN PUSTAKA 2.1. Sistem Pendukung Keputusan Konsep Sistem Pendukung Keputusan (SPK) atau Decision Support Systems (DSS) pertama kali diungkapkan pada awal tahun 1970-an oleh Michael S. Scott

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

Scientific Journal of Informatics Vol. 2, No. 1, Mei 2015

Scientific Journal of Informatics Vol. 2, No. 1, Mei 2015 Scientific Journal of Informatics Vol. 2, No. 1, Mei 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 JUDUL ARTIKEL Identifikasi Kualitas Beras dengan Citra Digital Arissa

Lebih terperinci

Classification (1) Classification (3) Classification (2) Contoh Classification. Classification (4)

Classification (1) Classification (3) Classification (2) Contoh Classification. Classification (4) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #5: Classification (Bagian 1) Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Revisi 14 Agustus 2007 Classification

Lebih terperinci

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA Penyusun Tugas Akhir : Astris Dyah Perwita (NRP : 5110.100.178)

Lebih terperinci

BAB II Dasar Teori II.1 Data Mining II.1.1 Pengantar Data Mining

BAB II Dasar Teori II.1 Data Mining II.1.1 Pengantar Data Mining BAB II Dasar Teori Bab ini membahas teori-teori yang mendukung penulisan tesis. Teori ini mencakup teori tentang data mining secara umum, concept drift, data streams, ensemble classifier, streaming ensemble

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

Manfaat Pohon Keputusan

Manfaat Pohon Keputusan DECISION TREE (POHON KEPUTUSAN) Latar Belakang Pohon Keputusan Di dalam kehidupan manusia sehari-hari, manusia selalu dihadapkan oleh berbagai macam masalah dari berbagai macam bidang. Masalah-masalah

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Fuzzy Local Binary Pattern (FLBP) Fuzzifikasi pada pendekatan LBP meliputi transformasi variabel input menjadi variabel fuzzy, berdasarkan pada sekumpulan fuzzy rule. Dalam

Lebih terperinci

Pendahuluan : Evaluasi*

Pendahuluan : Evaluasi* MMA10991 Topik Khusus - Machine Learning Pendahuluan : Evaluasi* Dr. rer. nat. Hendri Murfi * Beberapa bagian dari slide ini adalah terjemahan dari slide Data Mining oleh I. H. Witten, E. Frank dan M.

Lebih terperinci

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program Studi Sistem

Lebih terperinci

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro

Lebih terperinci

BAB III ANALISIS DAN DESAIN SISTEM

BAB III ANALISIS DAN DESAIN SISTEM BAB III ANALISIS DAN DESAIN SISTEM III.1. Analisa Masalah Dalam pengoperasian pekerjaan gondola di ketinggian membutuhkan keahlian khusus dan pengetahuan dibidangnya agar tidak terjadi kendala yang dapat

Lebih terperinci

BAB III ANALISIS. Mekanisme Penyimpanan dan Pengambilan Sequence

BAB III ANALISIS. Mekanisme Penyimpanan dan Pengambilan Sequence BAB III ANALISIS Mula-mula, Bab ini akan mengemukakan analisis yang dilakukan terhadap algoritma PrefixSpan [PEI01]. Kemudian dilakukan rancangan dan implementasi algoritma tersebut. Setelah itu, program

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN Penelitian ini adalah penelitian eksperimen dengan langkah-langkah atau metode penelitian sebagai berikut: 1. Penentuan Masalah Penentuan masalah ini diperoleh dari studi literature

Lebih terperinci

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA Yasinta Agustyani, Yuliana Susanti, dan Vika Yugi Program Studi Matematika Fakultas

Lebih terperinci

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS IPLEENTASI DECISION TREE UNTUK EPREDIKSI JULAH AHASISWA PENGABIL ATAKULIAH DENGAN ENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORATIKA ITS Romauli anullang - 5108100501 Latar Belakang Pembuatan jadwal pada

Lebih terperinci

BAB III LANDASAN TEORI

BAB III LANDASAN TEORI BAB III LANDASAN TEORI 3.1 Data, Informasi, Pengetahuan Data adalah bilangan, terkait dengan angka angka atau atribut atribut yang bersifat kuantitas, yang berasal dari hasil observasi, eksperimen, atau

Lebih terperinci

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis NO OUTLOOK TEMPERATURE HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE No

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM 1.1. Analisa Masalah 3.1.1. Analisa Algoritma Midi (Musical Instrument Digital Interface) merupakan sebuah teknologi yang memungkinkan alat musik elektrik, komputer,

Lebih terperinci

BAB 2 KAJIAN PUSTAKA

BAB 2 KAJIAN PUSTAKA BAB 2 KAJIAN PUSTAKA 2.1 Cacat Perangkat Lunak (Software Defect) Cacat perangkat lunak (software defect) didefinisikan sebagai cacat pada perangkat lunak seperti cacat pada dokumentasi, pada kode program,

Lebih terperinci

Data Mining II Estimasi

Data Mining II Estimasi Data Mining II Estimasi Matakuliah Data warehouse Universitas Darma Persada Oleh: Adam AB Data Mining-2012-a@b 1 Tahapan proses datamining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/

Lebih terperinci

PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3

PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3 32 PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3 Yo el Pieter Sumihar* 1, Idris Efendi 2 1,2,3 Jurusan Komputer, Teknik Informatika, Fakultas Sains dan Komputer,

Lebih terperinci

PENGEMBANGAN SISTEM PENDUKUNG KEPUTUSAN PENERIMAAN KARYAWAN MENGGUNAKAN METODA POHON KEPUTUSAN ID3

PENGEMBANGAN SISTEM PENDUKUNG KEPUTUSAN PENERIMAAN KARYAWAN MENGGUNAKAN METODA POHON KEPUTUSAN ID3 PENGEMBANGAN SISTEM PENDUKUNG KEPUTUSAN PENERIMAAN KARYAWAN MENGGUNAKAN METODA POHON KEPUTUSAN ID3 Youllia Indrawaty N 1), Mira Musrini Barmawi 2), Andreas Sinaga 3) 1,2,3) Jurusan Teknik Informatika,

Lebih terperinci

PENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL

PENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL PENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL Besse Helmi Mustawinar Teknik Informatika FTKOM Universitas Cokroaminoto Palopo Jl Latamacelling Nomor 19 Palopo,

Lebih terperinci

PRAKTIKUM KE-5 KLASIFIKASI I

PRAKTIKUM KE-5 KLASIFIKASI I PRAKTIKUM KE-5 KLASIFIKASI I 1. Tujuan Praktikum 1) Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian pengetahuan / pola data dari sejumlah data dengan menggunakan teknik klasifikasi.

Lebih terperinci

2.2 Data Mining. Universitas Sumatera Utara

2.2 Data Mining. Universitas Sumatera Utara Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record

Lebih terperinci

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Selly Artaty Zega Program Studi Teknik Multimedia dan Jaringan, Jurusan Teknik Informatika, Politeknik

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN

ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN SCAN VOL. IX NOMOR JUNI 014 ISSN : 1978-0087 ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN Windy Julianto 1, Rika Yunitarini, Mochammad Kautsar Sophan 3 Universitas Trunojoyo Madura windy.julianto@gmail.com

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER Burhan Alfironi Muktamar Program Studi Teknik Informatika STMIK Jenderal Achmad Yani burhanalfironimuktamar@gmail.com Abstrak Naïve Bayes Classifier

Lebih terperinci

METODOLOGI PENELITIAN

METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN A. Kerangka Pemikiran Perusahaan dalam era globalisasi pada saat ini, banyak tumbuh dan berkembang, baik dalam bidang perdagangan, jasa maupun industri manufaktur. Perusahaan

Lebih terperinci

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi IJCCS, Vol.x, No.x, July xxxx, pp. 1~5 ISSN: 1978-1520 39 Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi Irwan

Lebih terperinci

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa Winda Widya Ariestya 1, Yulia Eka Praptiningsih 2, Wahyu Supriatin 3 Program Studi Sistem Informasi Fakultas Ilmu Komputer dan Teknologi

Lebih terperinci

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1 BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA

PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA *Holisatul Munawaroh, **Bain Khusnul K,S.T.,M.Kom ***Yeni Kustiyahningsih,S.Kom.,M.Kom Program Studi Teknik Informatika, Universitas

Lebih terperinci

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA IMPLEMENTATION OF DATA MINING WITH C4.5 ALGORITHM TO PREDICT STUDENT ACHIEVEMENT Oleh: SITI MUHIMATUL KHOIROH NPM

Lebih terperinci