Bab II Dasar Teori. 2.1 Estimasi Akurasi Classifier Metode Holdout
|
|
- Yuliana Hermawan
- 7 tahun lalu
- Tontonan:
Transkripsi
1 Bab II Dasar Teori 2.1 Estimasi Akurasi Classifier Estimasi akurasi classifier penting dilakukan untuk mengevaluasi seberapa akurat sebuah classifier mengklasifikasikan future data, yaitu data yang belum pernah digunakan di dalam pembelajaran untuk membentuk classifier. Estimasi akurasi juga dapat digunakan untuk membandingkan beberapa buah classifier yang berbeda-beda. Berikut ini akan dibahas beberapa buah teknik untuk mengestimasi akurasi classifier. [HAN01] Metode Holdout Pada metode holdout, data secara acak dibagi menjadi dua buah bagian yang independent yaitu sebuah training set dan sebuah test set. Pada umumnya perbandingan yang digunakan yaitu 2:1 untuk training set berbanding test set. [HAN01] Metode holdout termasuk pessimistic estimator karena hanya sebagian data yang diberikan untuk melakukan pembelajaran. Semakin banyak instance yang diambil untuk test set, maka semakin tinggi pula bias estimasinya. Akan tetapi jika semakin kecil jumlah instance dalam test set maka interval kepercayaan untuk akurasi yang dihasilkan akan semakin besar. Metode holdout bergantung pada pembagian training set dan test set yang dilakukan secara acak. [KOH07] Random subsampling merupakan variasi dari metode holdout dimana metode holdout diulangi sebanyak k kali. Estimasi akurasi secara keseluruhan didapat dengan menghitung rata-rata akurasi yang dihasilkan di setiap iterasi.[han01] II-1
2 II Bootstrap Bootstrap adalah sebuah metode perhitungan nilai akurasi yang menggunakan sampling dengan penggantian untuk membentuk training set. Sebuah dataset yang terdiri dari n buah instance akan dilakukan sampling dengan penggantian sebanyak n kali untuk membentuk training set. Sedangkan test set dibentuk dari instance yang tidak muncul pada training set. Metode bootstrap ini sangat cocok untuk dataset yang berukuran kecil.[ccs07] K-fold Cross Validation K-fold cross validation adalah sebuah teknik intensif komputer yang menggunakan keseluruhan data yang ada sebagai training set dan test set [BEN04]. Seluruh data secara acak dibagi menjadi K buah subset B k dengan ukuran yang sama dimana B k B k k =,.., dan = 1 K merupakan himpunan bagian dari {1,...,n} sedemikian sehingga { 1 n} B j B k = ( j k). Setelah itu dilakukan iterasi sebanyak K kali. Pada iterasi ke k, subset B k menjadi test set, sedangkan subset yang lain menjadi training set. Setelah itu dihitung nilai rata-rata error dengan menggunakan hasil dari K buah iterasi. [SCH97] Kelebihan dari metode ini adalah tidak adanya masalah dalam pembagian data. Setiap data akan menjadi test set sebanyak satu kali dan akan menjadi training set sebanyak K-1 kali. Kekurangan dari metode ini adalah algoritma pembelajaran harus dilakukan sebanyak K kali yang berarti menggunakan K kali waktu komputasi.[sch97] Leave One Out Cross Validation (LOO CV) merupakan n-fold Cross Validation dimana n adalah jumlah data yang tersedia. LOO CV sangat membutuhkan komputasi yang tinggi jika terdapat data dalam jumlah besar. [SCH97]
3 II Algoritma C4.5 Algoritma C4.5 yang dirancang oleh J.R. Quinlan merupakan suksesor dari algoritma ID3. Algoritma C4.5 ini dirancang untuk menghindari terjadinya overfitting pada decision tree yang dihasilkan dengan cara melakukan post-prune pada pohon yang telah dibangun. Default kriteria pembagi yang dipakai oleh C4.5 adalah gain-ratio. Misalkan C adalah jumlah kelas yang ada, p(d,j) adalah proporsi dari kasus D pada kelas j. Maka sisa ketidakpastian (residual uncertainty) dari kelas dimana D berada dapat dirumuskan sebagai : C Info( D) = p( D, j) log 2 ( p( D, j)) (II-1) j= 1 Sedangkan information gain untuk atribut T yang mempunyai k buah nilai adalah : k Di Gain( D, T ) = Info( D) Info( Di ) (II-2) D i= 1 Information gain sebuah atribut dipengaruhi dengan kuat oleh banyaknya nilai atribut tersebut dan akan maksimal ketika terdapat satu kasus untuk setiap subset D i. Sebaliknya, potensial informasi yang didapatkan dengan membagi sekumpulan kasus adalah berdasarkan kepastian subset D i dimana kasus tersebut berada, split information dapat dihitung dengan menggunakan rumus : k Di Di Split( D, T ) = log 2 (II-3) i= 1 D D Split information cenderung untuk meningkat seiring dengan meningkatnya jumlah keluaran dari tes. Kriteria gain ratio menilai desirability dari sebuah tes sebagai rasio dari information gain dengan split information yang dimilikinya. Rumus untuk menghitung gain ratio dapat dilihat pada rumus (II-4). [MIT97]
4 II-4 Gain( D, T ) GainRatio ( D, T ) = (II-4) Split( D, T ) Gain ratio dari setiap tes dihitung lalu pembagian dengan maksimum gain ratio akan dipilih. [QUI96A] Pada beberapa situasi, setiap tes yang mungkin dapat membagi D ke dalam subset dengan distribusi kelas yang sama. Seluruh tes kemudian akan diberikan nilai gain 0, dan C4.5 menggunakan ini sebagai kriteria tambahan untuk berhenti. [QUI96A] Strategi pembagian secara rekursif di atas menghasilkan pohon yang konsisten dengan data latih, jika hal ini memungkinkan. Hampir semua sistem memotong pohon awal tersebut, mengindentifikasikan subpohon yang berperan kecil dalam keakuratan prediksi dan menggantikannya dengan sebuah daun atau sebuah subpohon yang berasal dari salah satu cabangnya. [QUI96A] Berikut ini adalah algoritma global untuk membangkitkan decision tree dari sekumpulan data latih D [QUI96A] : 1) jika D memenuhi kriteria untuk berhenti (stopping criterion), maka pohon untuk D adalah sebuah daun yang diisi dengan frekuensi kelas terbanyak di dalam D. Salah satu kriteria berhenti adalah D hanya mengandung kasus dari kelas ini, akan tetapi kriteria lain juga dapat digunakan. 2) sebuah atribut T dengan nilai yang berbeda satu sama lain T 1, T 2,..., T k digunakan untuk membagi D menjadi subset D 1, D 2,..., D k dimana D i hanya mengandung kasus-kasus yang mempunyai nilai T i. Pohon untuk D dengan tes T sebagai akarnya dengan sebuah subpohon untuk setiap keluaran T i yang dibangun dengan menerapkan prosedur yang sama secara rekursif untuk kasus di dalam D i. Adapun tes default yang dipakai di C4.5 sebagai kriteria pembagi yaitu [QUI96A] : 1) A= x untuk atribut diskrit A, dengan x adalah sebuah keluaran untuk setiap nilai dari A. 2) A t untuk atribut kontinyu A, dengan dua keluaran yaitu true dan false. Untuk menentukan treshold t yang memaksimalkan kriteria pembagi, data latih D diurutkan berdasarkan nilai atribut A yang dimilikinya untuk memperlihatkan
5 II-5 perbedaan nilai v 1, v 2,..., v N. Setiap pasang nilai yang berbatasan memberikan potensial treshold t yang dihitung dengan cara : ( v i + vi ) t = (II-5) 2 Treshold yang memberikan nilai kriteria pembagi yang paling baik yang akan dipilih. [MIT97] menyebutkan bahwa C4.5 menggunakan rule post pruning yang tahapantahapannya adalah sebagai berikut: 1) Melakukan inferensi decision tree dari training set, pohon ditumbuhkan hingga sesuai mungkin dengan data latih, tidak masalah walaupun akan terjadi overfitting. 2) Pohon yang telah dihasilkan dikonversi menjadi sekumpulan aturan ekuivalen dengan membuat sebuah aturan untuk setiap jalur dari akar ke daun. Sintak aturan yang dipakai adalah IF prekondisi THEN postkondisi Setiap atribut tes sepanjang jalur dari akar ke daun menjadi prekondisi dan klasifikasi pada node daun akan menjadi postkondisi. 3) Potong/generalisasi setiap rule dengan menghilangkan prekondisi sedemikian sehingga akan meningkatkan keakuratan. 4) Urutkan aturan-aturan yang sudah dipotong tersebut berdasarkan nilai estimasi keakuratannya, lalu dipakai secara terurut ketika melakukan klasifikasi. Akan tetapi, C4.5 pada WEKA hanya mengimplementasikan tahap 1 dan 3 saja. Contoh hasil pruning dengan menggunakan rule post pruning dapat dilihat pada Gambar II IF (outlook=sunny) and (humidity<=75) THEN yes 2. IF (outlook=sunny) and (humidity>75) THEN no 3. IF (outlook=overcast) THEN yes 4. IF (outlook=rainy) and (windy=true) THEN no 5. IF (outlook=rainy) and (windy=false) THEN yes Gambar II-1 Hasil pruning dengan menggunakan rule post pruning Sedangkan hasil pruning dengan menggunakan C4.5 pada WEKA dapat dilihat pada Gambar II-2.
6 II-6 overcast Gambar II-2 Hasil pruning dengan menggunakan C4.5 pada WEKA Metode yang digunakan oleh C4.5 untuk mengestimasi keakuratan sebuah aturan adalah dengan melakukan evaluasi performansi dari training set itu sendiri dengan menggunakan pessimistic estimate yaitu dengan menghitung akurasi aturan terhadap training examples yang menerapkannya lalu menghitung standar deviasi pada estimated akurasi ini mengasumsikan distribusi binomial. [MIT97] 2.3 Delegating Classifiers Delegating classifiers dirancang untuk mengatasi kekurangan yang terdapat di dalam multi-classifiers yaitu loss of comprehensibility dan penggunaan resource komputasi yang berlebihan. Delegating-classifiers dibuat dengan motto let others do the things that you cannot do well. Cautious classifier digunakan hanya untuk mengklasifikasikan data yang diprediksi mempunyai nilai confidence yang tinggi, menyerahkan data yang memiliki nilai confidence rendah (abstain) kepada classifier yang lain. Perancangan delegating classifiers mempunyai dua buah isu yaitu menentukan nilai batas ambang confidence atau aturan pendelegasian serta penentuan teknik yang baik untuk membuat classifier kedua yang memiliki performansi yang lebih baik daripada classifier pertama. [FER04] Classifier pertama, f (1), menentukan classifier mana yang akan dipakai untuk melakukan klasifikasi data. Proses penentuan ini dilakukan dengan menggunakan
7 II-7 nilai confidence klasifikasi data dan nilai batas ambang confidence. Oleh karena itu classifier pertama haruslah merupakan probability estimator yang baik. [KHO06] Classifier kedua, f (2), bertugas khusus untuk menangani data yang didelegasikan oleh classifier pertama. Classifier kedua dibangun dengan melakukan pembelajaran terhadap subset dari training set classifier pertama. Training set untuk classifier kedua ini berisi data dari training set classifier pertama yang diprediksi mempunyai nilai confidence yang lebih rendah dari nilai batas ambang classifier pertama. [KHO06] Gambar II-3 Proses pembangunan umum delegating classifiers [KHO06] Gambar II-3 menunjukkan proses pembangunan delegating classifiers secara umum. Training set digunakan untuk melakukan pembelajaran membentuk classifier pertama, f (1), yang kemudian diubah menjadi cautious classifier. Dengan menggunakan classifier pertama yang berbentuk cautious classifier, dilakukan partisi training set untuk membentuk delegated set. Delegated set yang dihasilkan akan digunakan dalam pembelajaran untuk membentuk classifier kedua, f (2). Jika cautious classifier, f (1), memutuskan untuk tidak melakukan prediksi terhadap suatu data, e, maka f (1) akan mendelegasikan data tersebut ke classifier yang lain. Jika ada classifier kedua, f (2), dan sebuah nilai batas ambang confidence τ, maka aturan pendelegasian adalah sebagai berikut. [FER04] IF f (1) CONF(e) > τ THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e)
8 II-8 Terdapat dua buah metode untuk menentukan nilai batas ambang confidence, yaitu [FER04]: 1. Global Absolute Precentage (GAP) Jika ada sebuah bagian ρ, sebuah classifier f dan sebuah training set Tr maka rumus untuk menentukan nilai batas ambang confidence τ adalah sebagai berikut: τ = max{t: {e Tr : f CONF (e) > t} ρ Tr } (II-6) Dengan demikian τ adalah nilai batas ambang maksimum sedemikan sehingga sedikitnya ρ data dari training set mempunyai nilai confidence yang lebih tinggi. Aturan pendelegasian untuk metode ini adalah sebagai berikut: IF f (1) CONF(e) > τ THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e) 2. Stratified Absolute Precentage (SAP) Metode ini digunakan untuk mengatasi training set yang tidak seimbang. Setiap kelas c akan mempunyai nilai batas ambang confidence masing-masing τ c. Rumus untuk menentukan τ c adalah sebagai berikut: τ c = max{t: {e Tr c : f PROBc (e) > t} ρ Tr c } (II-7) Dengan demikian τ c adalah nilai batas ambang maksimum untuk setiap kelas c sedemikan sehingga sedikitnya sejumlah ρ bagian dari training set Tr dengan kategori c memiliki nilai confidence yang lebih tinggi. Aturan pendelegasian untuk metode ini adalah sebagai berikut: IF f (1) CONF(e) > τ c THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e) WHERE c = f (1) CLASS(e)
9 II-9 Penelitian yang dilakukan oleh [FER04] menggunakan tiga buah skenenario, yaitu : 1. Two-Stage Pada skenario ini, classifier pertama akan mendelegasikan data yang diklasifikasikannya dengan nilai confidence lebih rendah daripada nilai batas ambang confidence yang dimilikinya kepada classifier kedua. Hasil klasifikasi dari classifier kedua inilah yang akan digunakan. Skenario ini merupakan skenario dasar delegating classifier. Aturan pendelagasian skenario ini adalah sebagai berikut: IF f (1) CONF(e) > τ THEN prediksi f (1) CLASS(e) ELSE prediksi f (2) CLASS(e) 2. Round rebound Skenario round rebound merupakan varian dari skenario two-stage. Perbedaannya adalah jika classifier kedua akan mendelegasikan kembali data yang diklasifikasikannya dengan nilai confidence lebih rendah daripada nilai batas ambang confidence yang dimilikinya kepada classifier pertama. Alasannya adalah jika data tersebut sama-sama menghasilkan nilai confidence yang rendah pada kedua buah classifier maka data tersebut akan lebih baik diklasifikasikan oleh classifier pertama daripada classifier kedua karena classifier pertama bersifat lebih umum dan kemungkinan terjadinya overfitting lebih kecil. Aturan pendelegasian skenario ini adalah sebagai berikut: IF f (1) CONF(e) > τ (1) THEN prediksi f (1) CLASS(e) ELSEIF f (2) CONF(e) > τ (2) THEN prediksi f (2) CLASS(e) ELSE prediksi f (1) CLASS(e) Penentuan nilai batas ambang confidence untuk classifier kedua τ (2) dapat dilakukan dengan menggunakan training set lengkap (Absolute Precentage) atau dapat menggunakan data yang didelegasikan oleh classifier pertama (Relative Precentage). Adapun rumus penentuan nilai confidence batas ambang untuk classifier kedua τ (2) dapat dilihat pada rumus (II-8). τ (2) = max{t: {e Tr f (1) : f (2) CONF(e) > t} ρ Tr f (1) } (II-8)
10 II Iterative Skenario ini juga merupakan varian dari skenario two-stage. Pada skenario ini, dilakukan iterasi terhadap beberapa delegating classifiers. Aturan pendelegasian untuk skenario ini adalah sebagai berikut: IF f (1) CONF(e)>τ THEN prediksi f (1) CLASS(e) ELSEIF f (2) CONF(e)>τ (2) THEN prediksi f (2) CLASS(e)... ELSEIF f (n-1) CONF(e)>τ (n-1) THEN prediksi f (n-1) CLASS(e) ELSE prediksi f (n) CLASS(e) Hasil penelitian [FER04] menunjukkan bahwa nilai keakuratan yang dihasilkan oleh delegating classifiers tidak jauh berbeda dengan yang dihasilkan oleh multi classifiers. Untuk masalah penggunaan resource, delegating classifiers menggunakan resource yang lebih sedikit dibandingkan dengan multi classifiers Parameter Terbaik Delegating Classifiers Parameter terbaik delegating classifiers yang terdapat dalam [FER04], yaitu : 1. Metode penentuan batas ambang yang paling baik adalah GAP. Hal ini didapat setelah melakukan eksperimen untuk membangun delegating classifiers skema two-stage dan metode batas ambang GAP serta SAP menggunakan 22 buah dataset lalu dihitung nilai rata-rata akurasi serta rata-rata nilai AUC untuk berbagai macam persentase delegasi. Dari hasil eksperimen ini didapat bahwa nilai rata-rata akurasi dan rata-rata AUC dengan menggunakan GAP untuk berbagai persentasi delegasi lebih baik daripada menggunakan SAP. 2. Persentase delegasi yang memberikan nilai akurasi terbaik adalah 50%. Hal ini didapat setelah melakukan eksperimen untuk membangun delegating classifiers skema two-stage dan metode batas ambang GAP serta SAP menggunakan 22 buah dataset lalu dihitung nilai rata-rata akurasi serta rata-rata nilai AUC untuk persentase delegasi 20%, 33%, 45%, 50%, 55%, 67%, dan 80%. Dari hasil eksperimen ini didapat bahwa persentase delegasi 50% memberikan rata-rata nilai akurasi dan rata-rata nilai AUC yang paling baik.
11 II Skema round rebound menghasilkan nilai akurasi yang lebih baik dibandingkan dengan skema two-stage. Hal ini didapat dengan membandingkan rata-rata nilai akurasi dan nilai AUC untuk skema round rebound dan skema two-stage menggunakan metode penentuan batas ambang SAP dan GAP untuk persentase delegasi 33%, 45%, 50%, 55%, dan 67%. Skema round rebound memberikan rata-rata nilai akurasi dan nilai AUC yang lebih baik daripada skema two-stage untuk seluruh persentase delegasi. 4. Untuk delegating classifiers yang jumlah base classifier-nya lebih dari dua buah, skema iterative dengan persentase delegasi 1% dan 2% merupakan parameter terbaik Soft Classifier Classifier merupakan suatu fungsi f:e C dimana E adalah kumpulan data yang tidak berlabel, sedangkan C adalah sejumlah c kelas/kategori. Biasanya classifier ini cukup untuk permasalahan klasifikasi dan aplikasi. Akan tetapi, beberapa aplikasi membutuhkan nilai reliability, yaitu sebuah angka yang merepresentasikan kualitas dari setiap klasifikasi. Dengan kata lain, dibutuhkan sebuah classifier yang selain dapat memberikan label kelas hasil klasifikasi untuk setiap data juga dapat memberikan estimasi reliability. Classifier jenis ini disebut dengan soft classifier. [FER03] Istilah reliability sering juga disebut dengan confidence. Nilai confidence merupakan probabilitas bahwa label yang diberikan classifier bernilai benar dan menggambarkan kepercayaan terhadap hasil klasifikasi suatu classifier. Semakin besar nilai confidence dari suatu label kelas yang diberikan, semakin besar probabilitas kelas yang diberikan merupakan label kelas yang benar. [KHO06] Bentuk paling umum dari soft classifier adalah probability estimator, yaitu sebuah model yang mengestimasi probabilitas p i (e) untuk setiap anggota di dalam kelas i C untuk setiap data e E. Sebuah decision tree dapat dengan mudah diubah menjadi sebuah probability estimator dengan menggunakan frekuensi kelas absolut untuk setiap daun yang ada pada pohon tersebut. Sebagai contoh, jika sebuah daun
12 II-12 mempunyai nilai frekuensi absolut n 1, n 2,..., n i (didapatkan dari training set) maka estimasi probabilitas untuk daun tersebut dapat dihitung dengan menggunakan rumus sebagai berikut (II-9). [FER03] ni p i = (II-9) n i Probability Estimator Tree Untuk decision tree classifier, nilai confidence ditentukan per daun. Banyaknya nilai confidence yang mungkin pada suatu pohon sama dengan banyaknya daun pada pohon tersebut. Nilai confidence, p, diestimasi dengan menggunakan distribusi data latih dari suatu daun dengan rumus berikut ini. p i = N i + 1 N + c (II-10) dengan N i adalah jumlah data latih yang berlabel kelas i pada suatu daun, N adalah jumlah total data latih pada daun, dan c adalah jumlah kelas. [KHO06] Decision tree yang setiap daunnya terdapat distribusi probabilitas setiap kelas disebut probability estimator tree (PET). Proses klasifikasi pada PET sama dengan proses klasifikasi pada decision tree, yaitu dengan melakukan penelusuran pohon mulai dari akar hingga mencapai daun. Jalur penelusuran ditentukan oleh jawaban setiap pertanyaan pada simpul yang bukan daun. Setelah mencapai daun, kelas yang diberikan sebagai hasil klasifikasi adalah kelas yang memiliki probabilitas terbesar pada daun tersebut. [KHO06] Salah satu contoh dari PET dapat dilihat pada Gambar II-4. PET ini terdiri dari 5 buah daun, yaitu D1, D2, D3, D4, dan D5. Pada setiap daun, baris pertama merupakan keseluruhan nilai kelas yang ada, baris kedua menunjukkan jumlah data latih yang dimiliki masing-masing kelas pada daun tersebut, dan pada baris terakhir merupakan nilai distribusi data latih untuk masing-masing kelas tersebut.
13 II-13 overcast Gambar II-4 Contoh PET Cautious Classifier Pada beberapa area, sebuah classifier yang memilih untuk abstain dalam melakukan klasifikasi ketika classifier tersebut tidak merasa yakin dapat menghasilkan keputusan yang benar dianggap lebih baik daripada sebuah greedy classifier atau classifier lengkap yang selalu memberikan keputusan. Cautious classifier adalah suatu classifier yang akan memberikan keputusan (memberikan hasil klasifikasi) jika classifier tersebut merasa yakin dengan keputusannya dan memilih untuk abstain jika classifier tersebut tidak merasa yakin. Dengan kata lain, cautious classifier merupakan fungsi parsial. [FER04] Jika classifier lengkap didefinisikan sebagai fungsi f:e C, dengan E adalah himpunan data yang tidak berlabel, dan C adalah himpunan c kelas/kategori yang telah ditentukan sebelumnya. Secara formal, cautious classifier didefinisikan sebagai fungsi d:e C, dimana C = C { }, dan adalah kelas unknown. Jika cautious classifier memberikan label klasifikasi untuk suatu data, hasil klasifikasi ini disebut abstain. Hal ini terjadi jika hasil klasifikasi mempunyai nilai confidence lebih kecil dari nilai batas ambang yang telah ditentukan. Dikarenakan cautious classifier tidak dapat memberikan label untuk beberapa data, maka cautious classifier merupakan fungsi parsial. [KHO06]
14 II-14 Berikut ini adalah aturan untuk proses klasifikasi yang dilakukan oleh cautious classifier : IF f CONF (e)> τ THEN prediksi f CLASS (e) ELSE abstain dengan f CONF (e) adalah fungsi yang menghasilkan nilai confidence dari prediksi yang dilakukan oleh classifier f untuk data e, f CLASS (e) adalah fungsi yang menghasilkan label kelas yang diberikan oleh classifier f untuk data e, dan τ adalah nilai batas ambang yang dimiliki oleh cautious classifier. [FER04] Sebuah soft classifer dapat dikonversi menjadi cautious classifier dengan menentukan nilai batas ambang confidence. Secara umum, aturan konversinya adalah sebagai berikut: [KHO06] confidence max(p i ) IF confidence τ THEN kelas argmax(p i ) ELSE kelas 2.4 Multi-Classifiers Multi-classifiers atau biasa disebut dengan ensemble classifiers atau classifier committees adalah suatu jenis classifier yang terdiri dari beberapa buah base classifier. Keuntungan yang didapat dengan menggunakan ensemble classifiers adalah meningkatnya efektifitas dan ketahanan dari tidak terjadinya overfitting [ESP06]. Berdasarkan tipe classifier yang membentuknya, ada dua kelompok ensemble classfiers yaitu homogenous ensembles dan heterogenous ensembles. homogenous ensembles menggunakan beberapa buah base classifier yang bertipe sama, tetapi masing-masing base classifier dilatih dengan subset subsample yang berbeda-beda dari keseluruhan dataset. Teknik subsampling yang dapat digunakan diantaranya adalah bagging dan boosting. Sedangkan heterogenous ensembles menggunakan beberapa buah base classifier yang berbeda tipe. [KHO06]
15 II Bagging Bagging merupakan sebuah metode bootstrap ensemble yang membuat masingmasing base classifier yang membentuknya dengan cara melatih setiap base classifier tersebut menggunakan pembagian kembali training set secara acak. Training set untuk setiap base classifier dibuat dengan cara mengacak, dengan melakukan penggantian, N buah data dimana N adalah jumlah training set secara keseluruhan. Dikarenakan bagging menggunakan resamples training set maka akan terdapat beberapa buah data yang akan berulang, sedangkan yang lain akan dihilangkan [OPI99]. Contoh pembagian training set pada bagging dapat dilihat pada Tabel II-1. Algoritma pembelajaran pada bagging dapat dilihat pada Gambar II-5. Tabel II-1 Contoh pembagian data dengan menggunakan Bagging [OPI99] Data asli 1, 2, 3, 4, 5, 6, 7, 8 Training-set-1 2, 7, 8, 3, 7, 6, 3, 1 Training-set-2 7, 8, 5, 6, 4, 2, 7, 1 Training-set-3 3, 6, 2, 7, 5, 6, 2, 2 Training-set-4 4, 5, 1, 4, 6, 4, 3, 8 Untuk melakukan klasifikasi sebuah data x, setiap base classifier akan melakukan klasifikasi data tersebut. Hasil klasifikasi dari seluruh base classifier lalu disimpan. Kemudian data x akan diberi label kelas yang jumlahnya paling banyak dari hasil klasifikasi seluruh base classifier. [QUI96B] Bagging efektif pada algoritma pembelajaran yang tidak stabil dimana perubahan kecil yang terdapat di dalam training set mengakibatkan perubahan yang besar di dalam prediksi. Bagging hampir selalu lebih akurat dibandingkan dengan classifier tunggal, akan tetapi bagging terkadang kurang akurat dibandingkan dengan boosting. Bagging lebih tahan terhadap noise dibandingkan dengan boosting. [OPI99]
16 II-16 Input: training set S, Inducer I, integer T (number of bootstrap samples) 1. for i = 1 to T { 2. S = boostrap sample from S (i.i.d sample with replacement) 3. C i = I(S ) 4. } 5. C*(x) = arg max arg max y Y 1 (the most often predicted label y) i: Ci ( x) = y Output: classifier C* Gambar II-5 Algoritma Bagging [KOH98] Boosting Fokus dari metode ini adalah untuk menghasilkan serangkaian base classifiers. Training set yang digunakan untuk setiap base classifier dipilih berdasarkan performansi dari classifier sebelumnya. Di dalam boosting, sampel yang tidak diprediksikan dengan benar oleh classifier di dalam rangkaian akan dipilih lebih sering dibandingkan dengan sampel yang telah diprediksikan dengan benar. Dengan demikian, boosting mencoba menghasilkan base classifier baru yang lebih baik untuk memprediksikan sampel yang pada base classifier sebelumnya memiliki performansi yang buruk. Salah satu contoh pembentukan training set pada boosting dapat dilihat pada Tabel II-2 dengan asumsi data 1 susah diprediksikan dengan benar. [OPI99] Tabel II-2 Contoh pembagian data dengan menggunakan Boosting [OPI99] Data asli 1, 2, 3, 4, 5, 6, 7, 8 Training-set-1 2, 7, 8, 3, 7, 6, 3, 1 Training-set-2 1, 4, 5, 4, 1, 5, 6, 4 Training-set-3 7, 1, 5, 8, 1, 8, 1, 4 Training-set-4 1, 1, 6, 1, 1, 3, 1, 5 Dalam pembelajaran classifier t, setiap data latih <d j,c i > diberi bobot, yang merepresentasikan seberapa sulit mendapatkan prediksi yang tepat untuk data ini bagi classifier 1,..., classifier t-1. Lalu, classifier t akan diaplikasikan ke data latih, dan bobot akan diperbaharui. Jika prediksi data latih tersebut benar, bobot akan dikurangi, dan sebaliknya jika terjadi salah klasifikasi, bobot akan ditambah [KHO06]. Salah satu contoh algoritma boosting AdaBoost.M1 yang dapat dilihat pada Gambar II-6.
17 II-17 Algorithm AdaBoost.M1 Input : sequence of m examples {(x 1, y 1 ),...,(x m, y m )} with labels y i Y = {1,...,k} weak learning algorithm WeakLearn integer T specifying number of iterations Initialize D 1 (i) = 1/m for all i. Do For t = 1, 2,..., T: 1. Call WeakLearn, providing it with the distribution D t. 2. Get back a hypothesis h t : X Y. 3. Calculate the error of h t : ε t = D t ( i) i: ht ( xi ) y i If ε t > 1/2, then set T = t -1 and abort loop. 4. Set β t = ε t /( 1 ε t ). 5. Update distribution D t : Where Z t is a normalization constant (chosen so that D t+1 will be a distribution). Output : the final hypothesis :β 1 h fin ( x) = arg max log y Y β t: ht ( x) = y t Gambar II-6 Algoritma AdaBoost.M1 [FRE96] Pada boosting, classifier akhir juga berupa agregasi classifier dengan voting. Akan tetapi, setiap classifier mempunyai bobot yang merupakan suatu fungsi dari nilai akurasinya. [QUI96B]
Bab I Pendahuluan. 1.1 Latar Belakang
Bab I Pendahuluan 1.1 Latar Belakang Klasifikasi merupakan task dari data mining yang bertujuan untuk memberikan label kelas terhadap suatu data. Pemberian label kelas ini dilakukan oleh classifier. Suatu
Lebih terperinciPohon Keputusan. 6.1 Inductive Learning
6 Pohon Keputusan Sometimes you make the right decision, sometimes you make the decision right. Phil McGraw Bab ini akan menelaskan salah satu varian pohon keputusan yaitu ID3 oleh Quinlan [27, 28] yang
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining
Lebih terperinciBAB III METODOLOGI PENELITIAN. Dataset
BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar
Lebih terperinciPENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO
PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika
Lebih terperinciBAB II INDUCT/RIPPLE-DOWN RULE (RDR)
BAB II INDUCT/RIPPLE-DOWN RULE (RDR) Bab ini berisi tentang uraian mengenai teori Ripple-Down Rules (RDR), yang meliputi RDR dengan pengembangan manual dan RDR yang menerapkan algoritma Induct untuk pengembangannya.
Lebih terperinciBab IV Eksperimen. 4.1 Dataset. 4.2 Kakas
Bab IV Eksperimen 4.1 Dataset Eksperimen dilakukan dengan menggunakan 28 buah dataset yang diambil dari UCI dataset repository. LAMPIRAN B berisi mengenai properti dari 28 buah dataset yang digunakan dalam
Lebih terperinciPOHON KEPUTUSAN DENGAN ALGORITMA C4.5
POHON KEPUTUSAN DENGAN ALGORITMA C4.5 1. Pengantar Algoritma C4.5 Klasifikasi merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga dari data yang berukuran relatif
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Decision Tree Definisi Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciUniversitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree
Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika Classification Decision Tree Classification Decision Tree Pengertian Pohon Keputusan Pohon keputusan adalah
Lebih terperinciPenggunaan Pohon Keputusan untuk Data Mining
Penggunaan Pohon Keputusan untuk Data Mining Indah Kuntum Khairina NIM 13505088 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha
Lebih terperinciMetode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru
Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru Wahyudin Program Pendidikan Ilmu Komputer, Universitas Pendidikan Indonesia Abstrak Konsep pohon merupakan salah satu
Lebih terperinciPEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5
PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,
Lebih terperinciBAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang
Lebih terperinciBAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah
BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan
Lebih terperinciModel Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree
Scientific Journal of Informatics Vol. 3, No. 1, Mei 2016 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan
Lebih terperinciBAB IV EKSPERIMEN. 4.1 Tujuan
BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education
Lebih terperinciBAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.
BAB 3 ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. A. Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan
Lebih terperinciPenerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien
1 Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien Ketut Wisnu Antara 1, Gede Thadeo Angga Kusuma 2 Jurusan Pendidikan Teknik Informatika Universitas Pendidikan Ganesha
Lebih terperinciTINJAUAN PUSTAKA. Definisi Data Mining
TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data
Lebih terperinciBAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel
BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta
Lebih terperinciID3 : Induksi Decision Tree
ID3 : Induksi Decision Tree Singkatan: Iterative Dichotomiser 3 Induction of Decision "3" (baca: Tree Pembuat: Ross Quinlan, sejak akhir dekade 70-an. Pengembangan Lanjut: Cikal bakal algoritma C4.5, pada
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan
Lebih terperinciData Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4
Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Catatan Kuliah untuk Bab 4 Pengantar Data Mining oleh Tan, Steinbach, Kumar dialihbahasakan oleh Tim Pengajar Konsep Data Mining
Lebih terperinciBAB 2 LANDASAN TEORI
6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database
Lebih terperinciTEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK
TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK 1 Nurma Jayanti Sulistyo Puspitodjati 3 Tety Elida 1 jurusan sistem informasi, universitas gunadarma
Lebih terperinciPEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE
PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK
Lebih terperinciBAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2. 1. Dasar Teori 2. 1. 1 Data mining Data mining merupakan suatu proses penemuan pola dan pengetahuan atau informasi yang menarik dari data dengan jumlah yang
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan
Lebih terperinciJurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN
Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN
Lebih terperinciALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA
53 ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA Marwana*) Abstract : Abstract-This study is a simulation for memperiksi victory in a football game using the C4.5 data
Lebih terperinciIMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN
116 IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN Rismayanti 1 1 Dosen Tetap Program Studi Teknik Informatika, Sekolah Tinggi Teknik Harapan Medan Jl. H.M Joni No.70
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur
Lebih terperinciDATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom
DATA MINING KLASIFIKASI BERBASIS DECISION TREE Ramadhan Rakhmat Sani, M.Kom Text Book Outline 1. Algoritma Data Mining Algoritma ID3 Algoritma C4.5 Algoritma C4.5 Introduction Algoritma C4.5 merupakan
Lebih terperinciKlasifikasi. Diadaptasi dari slide Jiawei Han
Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi
Lebih terperinciKLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION
KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi
Lebih terperinciBAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio
21 BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) 3.1 Regresi Logistik Biner Regresi logistik berguna untuk meramalkan ada atau tidaknya karakteristik berdasarkan prediksi
Lebih terperinciBAB. III. ANALISA PERMASALAHAN
BAB. III. ANALISA PERMASALAHAN Pada Bab II telah diuraikan beberapa teori dasar yang akan menjadi acuan / referensi ilmiah dalam melakukan penelitian. Bab ini akan berisi studi kasus yang dibangun dari
Lebih terperinciPERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R)
Arifin, Perbandingan Akurasi Klasifikasi Dari Algoritma Naïve Bayes, C4.5, PERBANDINGAN AKURASI KLASIFIKASI DARI ALGORITMA NAIVE BAYES, C4.5, DAN ONER (1R) M Zainal Arifin Abstrak : Artikel ini menjabarkan
Lebih terperinciKLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK
KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang
Lebih terperinciMateri Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala
Materi Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala Dosen Pengasuh Dr. Taufik Fuadi Abidin, M.Tech Dr. Muhammad Subianto, M.Si {tfa,subianto}@informatika.unsyiah.ac.id
Lebih terperinciPenghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori
Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan
Lebih terperinciPENDAHULUAN TINJAUAN PUSTAKA
Latar Belakang PENDAHULUAN Klasifikasi merupakan salah satu bidang kajian pada machine learning. Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep
Lebih terperinciLANDASAN TEORI. Universitas Indonesia
BAB LANDASAN TEORI Bab ini berisi penjelasan mengenai sejumlah teori yang digunakan penulis dalam penelitian ini. Adapun teori yang dijelaskan meliputi sistem penunjang keputusan, metode prakiraan cuaca
Lebih terperinciModul IV KLASIFIKASI
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul IV KLASIFIKASI TUJUAN PRAKTIKUM Setelah mengikuti praktikum modul ini diharapkan: 1. Mahasiswa
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau
Lebih terperinciKecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)
Kecerdasan Buatan Materi 6 Iterative Dichotomizer Three (ID3) Pengertian ID3 Singkatan dari Iterative Dichotomiser Three. Atau Induction of Decision Tree. Diperkenalkan pertama kali oleh Ross Quinlan (1979)
Lebih terperinciLEARNING ARTIFICIAL INTELLIGENT
LEARNING ARTIFICIAL INTELLIGENT Outline Decision tree learning Jaringan Syaraf Tiruan K-Nearest Neighborhood Naïve Bayes Data Latih 1 Decision Tree??? Pelamar IPK Wawancara Diterima P1 Bagus Tinggi P2
Lebih terperinciJurnal String Vol. 1 No. 1 Tahun 2016 ISSN:
KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas
Lebih terperinciPREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION
PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION Hamsir Saleh Hamsir.saleh@gmail.com Fakultas Ilmu Komputer Universitas Ichsan Gorontalo Abstrak Memprediksi kebangkrutan
Lebih terperinciBAB IV HASIL PENELITIAN DAN PEMBAHASAN
BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini
Lebih terperinciPembangunan Model Prediksi Defect Menggunakan Metode Ensemble Decision Tree Dan Cost Sensitive Learning
1 Pembangunan Model Prediksi Defect Menggunakan Metode Ensemble Decision Tree Dan Cost Sensitive Learning Satrio Agung Wicaksono, Daniel Oranova S dan Sarwosri Abstrak - Rencana project pengembangan perangkat
Lebih terperinciKLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE
KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas
Lebih terperinciLingkungan Pengembangan HASIL DAN PEMBAHASAN
aturan 3--5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam
Lebih terperinciKlasifikasi. Diadaptasi dari slide Jiawei Han
Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
6 BAB 2 TINJAUAN PUSTAKA 2.1. Sistem Pendukung Keputusan Konsep Sistem Pendukung Keputusan (SPK) atau Decision Support Systems (DSS) pertama kali diungkapkan pada awal tahun 1970-an oleh Michael S. Scott
Lebih terperinciVersi Online tersedia di : JURNAL TECH-E (Online)
JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada
Lebih terperinciHASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.
6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika
Lebih terperinciScientific Journal of Informatics Vol. 2, No. 1, Mei 2015
Scientific Journal of Informatics Vol. 2, No. 1, Mei 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 JUDUL ARTIKEL Identifikasi Kualitas Beras dengan Citra Digital Arissa
Lebih terperinciClassification (1) Classification (3) Classification (2) Contoh Classification. Classification (4)
Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #5: Classification (Bagian 1) Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Revisi 14 Agustus 2007 Classification
Lebih terperinciPRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA
PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA Penyusun Tugas Akhir : Astris Dyah Perwita (NRP : 5110.100.178)
Lebih terperinciBAB II Dasar Teori II.1 Data Mining II.1.1 Pengantar Data Mining
BAB II Dasar Teori Bab ini membahas teori-teori yang mendukung penulisan tesis. Teori ini mencakup teori tentang data mining secara umum, concept drift, data streams, ensemble classifier, streaming ensemble
Lebih terperinciMoch. Ali Machmudi 1) 1) Stmik Bina Patria
UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama
Lebih terperinciManfaat Pohon Keputusan
DECISION TREE (POHON KEPUTUSAN) Latar Belakang Pohon Keputusan Di dalam kehidupan manusia sehari-hari, manusia selalu dihadapkan oleh berbagai macam masalah dari berbagai macam bidang. Masalah-masalah
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Fuzzy Local Binary Pattern (FLBP) Fuzzifikasi pada pendekatan LBP meliputi transformasi variabel input menjadi variabel fuzzy, berdasarkan pada sekumpulan fuzzy rule. Dalam
Lebih terperinciPendahuluan : Evaluasi*
MMA10991 Topik Khusus - Machine Learning Pendahuluan : Evaluasi* Dr. rer. nat. Hendri Murfi * Beberapa bagian dari slide ini adalah terjemahan dari slide Data Mining oleh I. H. Witten, E. Frank dan M.
Lebih terperinciAPLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3
APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program Studi Sistem
Lebih terperinciPENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU
PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro
Lebih terperinciBAB III ANALISIS DAN DESAIN SISTEM
BAB III ANALISIS DAN DESAIN SISTEM III.1. Analisa Masalah Dalam pengoperasian pekerjaan gondola di ketinggian membutuhkan keahlian khusus dan pengetahuan dibidangnya agar tidak terjadi kendala yang dapat
Lebih terperinciBAB III ANALISIS. Mekanisme Penyimpanan dan Pengambilan Sequence
BAB III ANALISIS Mula-mula, Bab ini akan mengemukakan analisis yang dilakukan terhadap algoritma PrefixSpan [PEI01]. Kemudian dilakukan rancangan dan implementasi algoritma tersebut. Setelah itu, program
Lebih terperinciBAB 2 LANDASAN TEORI
6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN Penelitian ini adalah penelitian eksperimen dengan langkah-langkah atau metode penelitian sebagai berikut: 1. Penentuan Masalah Penentuan masalah ini diperoleh dari studi literature
Lebih terperinciPENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA
PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA Yasinta Agustyani, Yuliana Susanti, dan Vika Yugi Program Studi Matematika Fakultas
Lebih terperinciIMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS
IPLEENTASI DECISION TREE UNTUK EPREDIKSI JULAH AHASISWA PENGABIL ATAKULIAH DENGAN ENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORATIKA ITS Romauli anullang - 5108100501 Latar Belakang Pembuatan jadwal pada
Lebih terperinciBAB III LANDASAN TEORI
BAB III LANDASAN TEORI 3.1 Data, Informasi, Pengetahuan Data adalah bilangan, terkait dengan angka angka atau atribut atribut yang bersifat kuantitas, yang berasal dari hasil observasi, eksperimen, atau
Lebih terperinciALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis
ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis NO OUTLOOK TEMPERATURE HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE No
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
BAB III ANALISA DAN PERANCANGAN SISTEM 1.1. Analisa Masalah 3.1.1. Analisa Algoritma Midi (Musical Instrument Digital Interface) merupakan sebuah teknologi yang memungkinkan alat musik elektrik, komputer,
Lebih terperinciBAB 2 KAJIAN PUSTAKA
BAB 2 KAJIAN PUSTAKA 2.1 Cacat Perangkat Lunak (Software Defect) Cacat perangkat lunak (software defect) didefinisikan sebagai cacat pada perangkat lunak seperti cacat pada dokumentasi, pada kode program,
Lebih terperinciData Mining II Estimasi
Data Mining II Estimasi Matakuliah Data warehouse Universitas Darma Persada Oleh: Adam AB Data Mining-2012-a@b 1 Tahapan proses datamining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/
Lebih terperinciPROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3
32 PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3 Yo el Pieter Sumihar* 1, Idris Efendi 2 1,2,3 Jurusan Komputer, Teknik Informatika, Fakultas Sains dan Komputer,
Lebih terperinciPENGEMBANGAN SISTEM PENDUKUNG KEPUTUSAN PENERIMAAN KARYAWAN MENGGUNAKAN METODA POHON KEPUTUSAN ID3
PENGEMBANGAN SISTEM PENDUKUNG KEPUTUSAN PENERIMAAN KARYAWAN MENGGUNAKAN METODA POHON KEPUTUSAN ID3 Youllia Indrawaty N 1), Mira Musrini Barmawi 2), Andreas Sinaga 3) 1,2,3) Jurusan Teknik Informatika,
Lebih terperinciPENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL
PENERAPAN DECISION TREEALGORITMA C4.5 DALAM PENGAMBILAN KEPUTUSAN HUNIAN TEMPAT TINGGAL Besse Helmi Mustawinar Teknik Informatika FTKOM Universitas Cokroaminoto Palopo Jl Latamacelling Nomor 19 Palopo,
Lebih terperinciPRAKTIKUM KE-5 KLASIFIKASI I
PRAKTIKUM KE-5 KLASIFIKASI I 1. Tujuan Praktikum 1) Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian pengetahuan / pola data dari sejumlah data dengan menggunakan teknik klasifikasi.
Lebih terperinci2.2 Data Mining. Universitas Sumatera Utara
Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record
Lebih terperinciPenggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah
Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah Selly Artaty Zega Program Studi Teknik Multimedia dan Jaringan, Jurusan Teknik Informatika, Politeknik
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN
SCAN VOL. IX NOMOR JUNI 014 ISSN : 1978-0087 ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN Windy Julianto 1, Rika Yunitarini, Mochammad Kautsar Sophan 3 Universitas Trunojoyo Madura windy.julianto@gmail.com
Lebih terperinciPENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI
PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon
Lebih terperinciPERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI
PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT
Lebih terperinciANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak
ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER Burhan Alfironi Muktamar Program Studi Teknik Informatika STMIK Jenderal Achmad Yani burhanalfironimuktamar@gmail.com Abstrak Naïve Bayes Classifier
Lebih terperinciMETODOLOGI PENELITIAN
III. METODOLOGI PENELITIAN A. Kerangka Pemikiran Perusahaan dalam era globalisasi pada saat ini, banyak tumbuh dan berkembang, baik dalam bidang perdagangan, jasa maupun industri manufaktur. Perusahaan
Lebih terperinciPenerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi
IJCCS, Vol.x, No.x, July xxxx, pp. 1~5 ISSN: 1978-1520 39 Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi Irwan
Lebih terperinciDecision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa
Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa Winda Widya Ariestya 1, Yulia Eka Praptiningsih 2, Wahyu Supriatin 3 Program Studi Sistem Informasi Fakultas Ilmu Komputer dan Teknologi
Lebih terperinciBAB 1 PENDAHULUAN 1-1
BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet
Lebih terperinciPERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA
PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA *Holisatul Munawaroh, **Bain Khusnul K,S.T.,M.Kom ***Yeni Kustiyahningsih,S.Kom.,M.Kom Program Studi Teknik Informatika, Universitas
Lebih terperinciJURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA
JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA IMPLEMENTATION OF DATA MINING WITH C4.5 ALGORITHM TO PREDICT STUDENT ACHIEVEMENT Oleh: SITI MUHIMATUL KHOIROH NPM
Lebih terperinci