ABSTRAKSI 2 DECISION TREE 1 PENDAHULUAN

dokumen-dokumen yang mirip
ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

ARTIKEL SISTEM PAKAR PENDETEKSI GIZI BURUK PADA ANAK MENGGUNAKAN METODE DECISSION TREEC4.5

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

TEKNIK KLASIFIKASI POHON KEPUTUSAN UNTUK MEMPREDIKSI KEBANGKRUTAN BANK BERDASARKAN RASIO KEUANGAN BANK

PENENTUAN JENIS FUMIGASI DENGAN MENGGUNAKAN METODE DECISION TREE ID3

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

Manfaat Pohon Keputusan

Penggunaan Pohon Keputusan untuk Data Mining

BAB III METODE PENELITIAN

PENENTUAN JENIS FUMIGASI DENGAN MENGGUNAKAN METODE DECISION TREE

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

BAB 2 LANDASAN TEORI

PROGRAM BANTU SELEKSI AWAL DOSEN BERPRESTASI MENGGUNAKAN METODE ITERATIVE DICHOTOMISER 3

BAB 2 LANDASAN TEORI

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

BAB I PENDAHULUAN 1.1 Latar Belakang

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB 2 TINJAUAN PUSTAKA

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

BAB II LANDASAN TEORI

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

BAB II TINJAUAN PUSTAKA

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

TINJAUAN PUSTAKA. Definisi Data Mining

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.

SISTEM REKOMENDASI PEMILIHAN TIKET PESAWAT ONLINE MENGGUNAKAN METODE DECISION TREE DI PT. ANTA UTAMA KEDIRI

Belajar Mudah Algoritma Data Mining : C4.5

Klasifikasi & Prediksi

IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK PENJURUSAN SISWA (STUDI KASUS: SMA NEGERI 1 PONTIANAK)

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

2. Data & Proses Datamining

Supervised Learning Misalkan kita ingin membuat suatu program komputer yang ketika diberi gambar seseorang, dapat menentukan apakah orang dalam

BAB IV PERANCANGAN DAN IMPLEMENTASI PERANGKAT LUNAK

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

BAB II LANDASAN TEORI

PRESENTASI TUGAS AKHIR KI091391

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

OPTIMASI PENCAPAIAN TARGET PADA SIMULASI PERENCANAAN JALUR ROBOT BERGERAK DI LINGKUNGAN DINAMIS

PROSES DATA MINING DALAM MENINGKATKAN SISTEM PEMBELAJARAN PADA PENDIDIKAN SEKOLAH MENENGAH PERTAMA

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Versi Online tersedia di : JURNAL TECH-E (Online)

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

BAB II INDUCT/RIPPLE-DOWN RULE (RDR)

METODE PENELITIAN HASIL DAN PEMBAHASAN

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

JURNAL APLIKASI PEMILIHAN HOTEL DI KOTA KEDIRI MENGGUNAKAN METODE DECISSION TREE APPLICATION OF HOTEL ELECTIONS IN KEDIRI USING DECISSION TREE METHOD

PENENTUAN PENERIMAAN SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

MODUL 12 Model Prediktif

Pohon Keputusan. 6.1 Inductive Learning

PENERAPAN ALGORITME J48 UNTUK PREDIKSI PENYAKIT DEMAM BERDARAH ABSTRAK

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI UNTUK PREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN ALGORITMA GENETIKA, STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

PENERAPAN ALGORITMA C4.5 UNTUK MENGETAHUI POLA MINAT KERJA DAN BAKAT MAHASISWA DI STMIK LPKIA BANDUNG

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penerimaan Mahasiswa Baru

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

BAB II LANDASAN TEORI

IMPLEMENTASI ALGORITMA C4.5 UNTUK KLASIFIKASI BIDANG KERJA ALUMNI DI STMIK LPKIA BANDUNG

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

BAB III. METODOLOGI. kegiatan manusia membuat penelitian dengan domain teknik informatika

Penerapan Data Mining dalam Memprediksi Pembelian cat

Modul IV KLASIFIKASI

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

BAB 2 LANDASAN TEORI

PEMBELAJARAN BERTINGKAT PADA ARSITEKTUR JARINGAN SARAF FUNGSI RADIAL BASIS

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

PROGRAM BANTU PEMILIHAN PAKAIAN DAN BAHAN BATIK BAGI KONSUMEN DENGAN PENDEKATAN DECISION TREE Studi Kasus : Toko InBATIK

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA CART ( CLASSIFICATION AND REGRESSION TREES ) ( STUDI KASUS PENYAKIT DIABETES SUKU PIMA INDIAN )

PENGAMBILAN KEPUTUSAN UNTUK PENENTUAN BEASISWA TEPAT SASARAN MENGGUNAKAN METODE DECISION TREE DI SMK TARUNA BAKTI KERTOSONO

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Prediksi Indeks Saham Syariah Indonesia Menggunakan Model Hidden Markov

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

Komparasi Algoritma Klasifikasi untuk dataset iris dengan rapid miner

Transkripsi:

IMPLEMENTASI METODE POHON KEPUTUSAN UNTUK KLASIFIKASI DATA DENGAN NILAI FITUR YANG TIDAK PASTI Ratih Ariadni 1, Isye Arieshanti 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS), Surabaya, 60111, Indonesia Email : ratih.ariadni@gmail.com 1, isye.arieshanti@gmail.com 2 ABSTRAKSI Decision tree merupakan salah satu metode untuk mengklasifikasikan data. Model decision tree merupakan sebuah tree yang terdiri dari root node, internal node dan terminal node. Sementara root node dan internal node merupakan variabel/fitur, terminal node adalah label kelas. Dalam melakukan klasifikasi, sebuah data query akan menelusuri root node dan internal node samapi mencapai terminal node. Pelabelan kelas data query berdasarkan label di internal node. Pada Decision Tree tradisional, data yang digunakan adalah data dengan nilai fitur yang sudah pasti. Pada penelitian ini bertujuan untuk membangun suatu Decision Tree yang dapat menangani data dengan nilai fitur yang tidak pasti yaitu data yang memiliki range nilai. Selama ini penanganan data dengan fitur yang tidak pasti menggunakan metode averaging. Akan tetapi ada penelitian lain yang menyebutkan bahwa ada metode lain yang lebih handal dalam menangani data dengan nilai fitur yang tidak pasti. Metode tersebut adalah metode berbasis distribusi. Tugas akhir ini bertujuan untuk mengimplementasikan metode decision tree yang mampu menghandle fitur dengan nilai yang tidak pasti dengan menggunakan metode yang berbasis distribusi. Akurasi dari metode ini dibandingkan dengan akurasi metode averaging. Berdasarkan hasil uji coba, terbukti bahwa metode berbasis distribusi memiliki akurasi yang lebih tinggi jika dibandingkan dengan akurasi metode yang berbasis averaging. Uji coba dilakukan dengan menggunakan data iris dan data breast dari UCI. Kata kunci : Klasifikasi, DecisionTree, Uncertain Data 1 PENDAHULUAN Klasifikasi adalah masalah klasik pada machine learning dan data mining untuk meramalkan suatu nilai pada sekumpulan data[1]. Klasifikasi sendiri merupakan suatu proses menemukan kumpulan pola atau fungsi yang mendeskripsikan serta memisahkan kelas data yang satu dengan yang lainnya untuk menyatakan objek tersebut masuk pada kategori tertentu yang sudah ditentukan. Salah satu metode klasifikasi yang populer adalah metode pohon keputusan atau decision tree. Metode ini populer karena mampu melakukan klasifikasi sekaligus menunjukkan hubungan antar atribut. Berbagai macam algoritma yang dapat membangun suatu decision tree salah satunya adalah C45[2]. Dalam proses klasifikasi pohon keputusan tradisional, fitur (atribut) dari tupel adalah kategorikal atau numerikal. Biasanya definisi ketepan nilai (point value) sudah didefinisikan di awal. Pada banyak aplikasi nyata, terkadang muncul suatu nilai yang tidak pasti[3]. Suatu data yang tidak pasti muncul secara alami pada aplikasi karena berbagai alasan. Alasan alasan tersebut yaitu kesalahan pengukuran dan pengukuran berulang[3]. Berdasarkan alasan permasalahan tersebut, Metode ini merupakan cara yang sederhana untuk menangani uncertain data yaitu dengan cara membuat ringkasan data-data statistik seperti mean dari probabilitas distribusi. Namun, pendekatan averaging memiliki beberapa kekurangan salah satunya adalah memiliki akurasi yang kurang baik. Untuk menutupi kekurangan tersebut, maka terdapat penelitian lain yang menggunakan pendekatan distribution based yang mempertimbangkan keseluruhan informasi pada probabilitas distribusi untuk membangun decision tree. Pendekatan ini memiliki beberapa kelebihan yaitu dapat berpotensi membangun decision tree yang lebih akurat dibandingkan dengan pendekatan averaging. Berdasarkan kelebihan tersebut, maka tugas akhir ini mengimplementasikan metode decision tree untuk uncertain data, menggunakan metode distribution based. Nantinya akan dibandingkan dengan metode berbasis averaging. 2 DECISION TREE Pohon Keputusan atau dikenal dengan Decision Tree adalah salah satu metode klasifikasi yang menggunkan representasi suatu struktur pohon yang yang berisi alternatif-alternatif untuk pemecahan suatu masalah. Pohon ini juga menunjukkan faktor-faktor yang mempengaruhi hasil alternatif dari keputusan tersebut disertai dengan estimasi hasil akhir bila kita mengambil keputusan tersebut. Peranan pohon keputusan ini adalah sebagai Decision Support Tool untuk membantu manusia dalam mengambil suatu keputusan[3]. Manfaat dari decision tree adalah melakukan break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga orang yang mengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Konsep yang digunakan oleh decision tree adalah mengubah data menjadi suatu keputusan pohon dan aturan-aturan keputusan(rule). 1

Decision tree menggunakan struktur hierarki untuk pembelajaran supervised. Proses dari decision tree dimulai dari root node hingga leaf node yang dilakukan secara rekursif[4]. Di mana setiap percabangan menyatakan suatu kondisi yang harus dipenuhi dan pada setiap ujung pohon menyatakan kelas dari suatu data. Pada decision tree terdiri dari tiga bagian yaitu[4]: a. Root node Node ini merupakan node yang terletak paling atas dari suatu pohon. b. Internal node Node ini merupakan node percabangan, hanya terdapat satu input serta mempunyai minimal dua output. c. Leaf node. Node ini merupakan node akhir, hanya memiliki satu input, dan tidak memiliki output. 3 ALGORITMA DECISION TREE C45 Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik (kontinyu) dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value (A) ε X dimana X domain(a). Jika suatu set data mempunyai beberapa pengamatan dengan missing value yaitu record dengan beberapa nilai variabel tidak ada, Jika jumlah pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai rata-rata dari variabel yang bersangkutan. Dalam melakukan pemisahan obyek (split) dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul (node). Pada algoritma C.45 menggunakan rasio perolehan (gain ratio). Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi. Rumus untuk menghitung entropi adalah sebagai berikut: = S adalah ruang (data) sampel yang digunakan untuk pelatihan, p + adalah jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu dan p - adalah jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu. Entropi(S) sama dengan 0, jika semua contoh pada S berada dalam kelas yang sama. Entropi(S) sama dengan 1, jika jumlah contoh positif dan negative dalam S adalah sama. Entropi(S) lebih dari 0 tetapi kurang dari 1, jika jumlah contoh positif dan negative dalam S tidak sama. Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (y,a). Perolehan informasi, gain (y,a), dari atribut A relative terhadap output data y adalah:,= Nilai (A) adalah semua nilai yang mungkin dari atribut A, dan y c adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan diatas adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi (SplitInfo). Pemisahan informasi dihitung dengan cara :,= S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya rasio perolehan (gain ratio) dihitung dengan cara :,,=, 4 KLASIFIKASI VOTED PERCEPTRON Uncertain data adalah suatu data yang tidak dapat direpresentasikan dengan suatu point data atau nilai tunggal[3]. Suatu data uncertain memiliki interval nilai. Biasanya, data dengan informasi uncertainty diwakili oleh pdf atas suatu wilayah yang terbatas dan dibatasi oleh suatu nilai yang mungkin[6]. Hal ini sering muncul dalam beberapa kasus yang disebabkan oleh: a. Kesalahan Pengukuran Data yang diperoleh dari pengukuran dengan menggunakan perangkat fisik sering tidak tepat akibat kesalahan pengukuran. Sebagai contoh, sebuah termometer tympanic (telinga) mengukur suhu tubuh dengan cara mengukur temperatur gendang telinga melalui sebuah sensor inframerah[3]. b. Pengukuran Berulang Sumber ketidakpastian data yang paling umum adalah dari pengukuran berulang. Sebagai contoh, suhu tubuh pasien dapat diambil beberapa kali sehari. Suhu pasien setiap jam belum tentu[3]. Dalam menangani permasalahan uncertain data terdapat metode yang dapat menangani permasalahan tersebut yaitu: 2

a. Averaging Averaging adalah suatu algoritma greedy yang membangun tree top-down. Ketika akan memproses suatu node, harus diperiksa juga semua kumpulan dari tupel S. Algoritma ini dimulai dari root node dengan S sebagai kumpulan dari tupel. Pada setiap node n, yang harus dilakukan pertama kali adalah mengecek apakah semua tupel memiliki kelas label c. Selanjutnya adalah memilih atribut Ajn dan split point zn dan membagi tupel menjadi dua subset yaitu left dan right. Untuk tupel zn diletakkan di bagian left dan tupel zn diletakkan di bagian right. Algoritma ini berjalan secara rekursif untuk mengecek semua tupel dan meletakkan pada left atau right. Dalam menentukan split point diperlukan suatu best split. Best split digunakan untuk memilih atribut dan split point dengan derajat dispersi yang minimal. Derajat dispersi dapat diukur dengan berbagai cara seperti entropi atau gini index[5]. Pemilihan dispersi akan berpengaruh pada struktur pohon yang dihasilkan. Berikut ini merupakan ilustrasi dari penggunaan averaging untuk membangun suatu pohon yang ditunjukkan oleh tabel 1: tupel l Tabel 1 Contoh Penggunaan Averaging Kela s mea n Distribusi Probabilitas -10-1,0 0,0 +1,0 +10 1 A +2,0 8/1 1 2 A -2,0 1/9 8/9 3 A +2,0 5/8 1/8 2/8 4 B -2,0 5/9 1/1 9 13/1 9 5 B +2,0 1/3 5 30/3 5 4/3 5 6 B -2,0 3/1 1 8/11 Sebagai contoh tupel 3 memiliki kelas label A dan mempunyai nilai atribut -1, +1, dan +10 dengan probabilitas 5/8, 1/8, dan 2/8. Berdasarkan masing-masing probabilitas dari nilai atribut dilakukan perhitungan mean dan didapatkan hasil yaitu sebesar +2. Berdasarkan averaging, didapatkan suatu partisi yaitu untuk tupel yang bernomor ganjil akan terletak di left dan tupel bernomor genap akan terletak di right. b. Distribution Based Untuk data yang tidak pasti mengadopsi framework decision tree yang sama untuk menangani data point. Setelah atribut A jn dan split poin z n telah dipilih untuk node n, kita harus membagi himpunan tupel menjadi dua S himpunan bagian L dan R. Pdf dari tuple t i S dalam atribut A jn direntangkan pada interval [a i,jn, b i,jn ]. Dengan a i,jn, adalah nilai minimal dan b i,jn adalah nilai maksimal pada suatu atribut. Jika b i, jn z n, pdf dari t i sepenuhnya terletak di sebelah kiri split point dan dengan demikian t i ditugaskan sebagai L. Jika pdf berisi split point, yaitu, a i,jn z n < b i,jn, dibagi menjadi dua tupel t i fraksional t L dan t R dengan cara yang sama dan menambahkannya ke L dan R. Kunci untuk membangun decision tree yang baik adalah pilihan dari sebuah atribut A jn dan split point z n untuk setiap node n. Dengan data uncertain, pemilihan split point tidak terbatas pada m-1 nilai point. Hal ini karena t i tuple pdf merentang pada interval kontinyu [ai,j, bi,j ]. Perubahan sedikit pada tuple t L dan t R akan mengubah hasil pada tree. Jika kita memodelkan pdf dengan nilai-nilai sampel s, kita mendekatkan pdf dengan distribusi diskrit. Dalam hal ini, split point berpindah dari satu end point a i,j ke end poin b i,j. dari interval tersebut. Dengan tuple m, ada di titik sampel total ms. Jadi, terdapat pada ms-1 kemungkinan split point untuk dipertimbangkan. Untuk mendapatkan atribut terbaik pada pada k atribut, maka harus melakukan pencarian atribut terbaik sebanyak k(ms-1). Oleh karena itu, distribution based membutuhkan waktu yang lebih lama dibandingkan averaging. 5 PROSES GENERATE DATA CERTAIN MENJADI UNCERTAIN Pada tahapan ini proses generate data digunakan untuk membuat data uncertain dari data certain. Data certain berisi suatu point value tanpa uncertainty. Untuk mengontrol uncertainty pada data certain perlu ditambahkan suatu informasi uncertainty pada masingmasing dataset. Untuk memodelkan dataset menjadi informasi yang mengandung uncertainty adalah dengan cara membuat error model pada data point. Pada setiap tupel t i dan setiap atribut A j, suatu nilai point v i,j pada dataset digunakan sebagai nilai mean pada pdf dan ditemukan pada interval [a i,j, b i,j ]. Rentang nilai A j pada seluruh dataset dicatat dan width dari [a i,j, b i,j ] diatur sebagai w. A j menunjukkan lebar dari jangkauan untuk A j dan w adalah parameter yang mengontrol lebar jangkauan interval. Dalam melaukan proses generate data, langkahlangkah yang dilakukan adalah sebagai berikut: 1. Menentukan range dari setiap atribut. Pada langkah pertama ini, untuk menentukan range dari setiap atribut yang harus dilakukan adalah mengetahui nilai minimal dan maksimal dari setiap atribut. Selanjutnya adalah menentukan width yang akan digunakan sebagai parameter untuk mengontrol lebar jangkauan. Rumus yang digunakan untuk menentukan range dari setiap atribut yaitu: Range atribut A j = (max atributa j min atributa j ) x width 3

2. Menentukan error dari masing-masing nilai point. Pada langkah kedua ini, generate error dibagi menjadi dua untuk masing-masing nilai point. Pembagiannya yaitu left dan right. Untuk mendapatkan nilai generate error left dan right digunakan rumus sebagai berikut: Gen error left = nilai point range Aj Gen error right = nilai point + range Aj Perhitungan ini dilakukan pada semua nilai point yang dimiliki oleh dataset. Pada langkah kedua ini yang dihasilkan adalah suatu interval yakni nilai left dan right. 3. Membuat PDF Pada langkah ketiga ini, nilai interval yang dihasilkan dari langkah kedua selanjutnya akan diuji menggunakan distribusi Gaussian. Dalam distribusi Gaussian dilakukan penentuan jumlah sampel yang akan digunakan. Pada tugas akhir ini sampel yang digunakan sebanyak 100. Fungsi random.gaussian akan dilakukan selama nilai interval >= NUM_STDEV/2 atau nilai interval <= -NUM_STDEV/2. Hasil dari distribusi ini selanjutnya akan dilakukan proses sorting untuk mengurutkan data dari yang terkecil hingga terbesar. Setelah proses sorting, akan didapatkan interval yang baru hasil dari proses distribusi Gaussian. 6 PROSES PEMBUATAN TREE Pada bagian ini dijelaskan tentang perancangan proses untuk mengetahui alur dari proses pembuatan tree. Data yang digunakan adalah data yang dihasilkan dari proses generate data yaitu berupa data yang memiliki interval. Selanjutnya, dari masing-masing data interval tersebut [a,b] digunakan untuk membangun decision tre dengan split point tertntu yaitu sesuai dengan algoritma yang dipilih oleh user. jika lagoritma yang dipilih adalah averaging, maka masing-masing data interval diubah menjadi nilai mean dengan rumus sebagai berikut: = Sedangkan untuk algoritma distribution based, masingmasing data interval diubah menjadi nilai probabilitas dengan rumus sebagai berikut: = Pada tugas akhir ini, distribusi yang dipilih adalah distribusi Gaussian atau distribusi normal sehingga fungsi probabilitasnya adalah sebagai berikut: = 1 2 Secara umum proses membuat data uncertain dari data certain dapat digambarkan dengan diagram alir sebagai berikut : Selanjutnya dilakukan pencarian atribut terbaik untuk menentukan root node dan internal node. Secara garis besar proses ini dapat ditunjukkan diagram alir sebagai berikut: Gambar 1 Diagram alir proses generate data Gambar 2 Diagram Alir Proses Pembuatan Tree 4

7 UJI COBA DAN PEMBAHASAN Total data yang digunakan berjumlah 100 untuk masing-masing dataset. Dataset yang tersedia adalah dataset Iris dan Breast. Dari 100 data tersebut, diambil 90 data untuk proses pembelajaran(traning set) dan 10 data untuk proses pelatihan sistem (testing set). Pada bagian ini dijelaskan mengenai skenario uji coba yang telah dilakukan untuk mengetahui kemampuan sistem dalam memprediksi hasil klasifikasi data menggunakan decision tree. Skenario ini dibagi menjadi dua bagian yaitu skenario dengan pemilihan algortima Averaging (AVG) dan skenario dengan pemilihan algoritma Distribution Based (UDT). Kedua skenario tersebut dijelaskan pada subbab berikut ini. 7.1 Uji Coba Decision Tree dengan Averaging Tahap uji coba algoritma averaging dilakukan pada kedua dataset yaitu dataset Iris dan Breast. Untuk melakukan skenario uji coba ini, jumlah dataset yang digunakan sebanyak 100 data dengan pembagian 90 untuk traning set dan 10 untuk testing set. Kemudian uji coba ini dilakukan sebanyak 10 kali dengan perbedaan komposisi data traning dan data testing. Tabel 2 menunjukkan hasil tahap uji coba untuk algoritma averaging. Sedangkan hasil dari proses pembuatan tree untuk dataset Iris dengan algoritma averaging ditunjukkan oleh gambar 3 sebagai berikut: Rule yang dihasilkan untuk data Iris dari proses decision tree dengan algoritma averaging pada data iris adalah sebagai berikut: 1. (Petal length > 1,9) Kelas 1 2. (Petal length > 1,9) ^ (Petal width 1,7) ^ (Petal length 4,9 ) ^ (Petal width 1,6 ) Kelas 2 3. (Petal length > 1,9) ^ (Petal width 1,7) ^ (Petal length 4,9 ) ^ (Petal width > 1,6 ) Kelas 3 4. (Petal length > 1,9) ^ (Petal width 1,7) ^ (Petal length >4,9 ) ^ (Petal width 1,5 ) Kelas 3 5. (Petal length > 1,9) ^ (Petal width 1,7) ^ (Petal length >4,9 ) ^ (Petal width > 1,5) ^ Sepal length 6,7 ) Kelas 2 6. (Petal length > 1,9) ^ (Petal width 1,7) ^ (Petal length >4,9 ) ^ (Petal width > 1,5) ^ Sepal length >6,7 ) Kelas 3 7. (Petal length >1,9) ^ (Petal width >1,7) ^ (Petal length 4,8 ) ^ (Sepal Length 5,9) Kelas 2 8. (Petal length >1,9) ^ (Petal width >1,7) ^ (Petal length 4,8 ) ^ (Sepal Length >5,9) Kelas 2 9. (Petal length >1,9) ^ (Petal width >1,7) ^ (Petal length >4,8 ) Kelas 3 Dataset Iris Breast Tabel 2 Hasil Uji Coba dengan Averaging Akurasi 0,94598 0,935 7.2 Uji Coba Algoritma Decision Tree dengan Distribution Based Tahap uji coba algoritma distribution based dilakukan pada kedua dataset yaitu dataset Iris dan Breast. Untuk melakukan skenario uji coba ini, jumlah dataset yang digunakan sebanyak 100 data dengan pembagian 90 untuk traning set dan 10 untuk testing set. Kemudian uji coba ini dilakukan sebanyak 10 kali dengan perbedaan komposisi data traning dan data testing. Tabel 3 menunjukkan hasil tahap uji coba untuk algoritma distribution based. Hasil proses pembentukan tree untuk kedua dataset menggunakan algoritma distributuion based ditunjukkan oleh gambar 4 untuk dataset Iris sedangkan Breast ditunjukkan oleh gambar 5 sebagai berikut: Gambar 3 Hasil Pembuatan Tree dengan Averaging untuk Data Iris 5

10. (Petal length>1,96) ^ (Petal width>1,72) ^ (Petal length 4,85) Kelas 3 Gambar 4 Hasil Pembuatan Tree dengan Distribution Based untuk Data Iris Rule yang dihasilkan untuk data Iris dari proses decision tree dengan algoritma distribution based pada data iris adalah sebagai berikut: 1. (Petal length 1,96 ) Kelas 1 2. (Petal length>1,96) ^ (Petal width 1,72) ^ (Petal length 4,94) ^ (Petal width 1,62) Kelas 2 3. (Petal length>1,96) ^ (Petal width 1,72) ^ (Petal length 4,94) ^ (Petal width>1,62) Kelas 3 4. (Petal length>1,96) ^ (Petal width 1,72) ^ (Petal length >4,94) ^ (Petal width 1,52) ^ (Sepal Length 6,33) Kelas 2 5. (Petal length>1,96) ^ (Petal width 1,72) ^ (Petal length >4,94) ^ (Petal width 1,52) ^ (Sepal Length>6,33) Kelas 3 6. (Petal length>1,96) ^ (Petal width 1,72) ^ (Petal length >4,94) ^ (Petal width>1,52) ^ (Sepal Length 6,7) Kelas 2 7. (Petal length>1,96) ^ (Petal width 1,72) ^ (Petal length >4,94) ^ (Petal width>1,52) ^ (Sepal Length>6,7) Kelas 3 8. (Petal length>1,96) ^ (Petal width>1,72) ^ (Petal length 4,85) ^ (Sepal width 3,02) Kelas 3 9. (Petal length>1,96) ^ (Petal width>1,72) ^ (Petal length 4,85) ^ (Sepal width>3,02) Kelas 2 Gambar 5 Hasil Pembuatan Tree dengan Distribution Based untuk DataBreast Rule yang dihasilkan untuk data Breast dari proses decision tree dengan algoritma distribution based pada data iris adalah sebagai berikut: 1. (F23 115,68) ^ (F28 0,137) ^ (F23 107,03) ^ (F11 0,62) Kelas B 2. (F23 115,68) ^ (F28 0,137) ^ (F23 107,03) ^ (F11>0,62) ^ (F9 0,161) Kelas M 3. (F23 115,68) ^ (F28 0,137) ^ (F23 107,03) ^ (F11>0,62) ^ (F9>0,161) Kelas B 4. (F23 115,68) ^ (F28 0,137) ^ (F23>107,03) ^ (F2 18,77) Kelas B 5. (F23 115,68) ^ (F28 0,137) ^ (F23>107,03) ^ (F2>18,77) ^ (F21 16,8) ^ (F8 0,041) ^ (F22 32,66) Kelas B 6. (F23 115,68) ^ (F28 0,137) ^ (F23>107,03) ^ (F2>18,77) ^ (F21 16,8) ^ (F8 0,041) ^ (F22>32,66) Kelas M 7. (F23 115,68) ^ (F28 0,137) ^ (F23>107,03) ^ (F2>18,77) ^ (F21 16,8) ^ (F8>0,041) Kelas M 8. (F23 115,68) ^ (F28 0,137) ^ (F23>107,03) ^ (F2>18,77) ^ (F21>16,8) ^ (F28 0,122) Kelas M 6

9. (F23 115,68) ^ (F28 0,137) ^ (F23>107,03) ^ (F2>18,77) ^ (F21>16,8) ^ (F28>0,122) Kelas M 10. (F23 115,68) ^ (F28>0,137) ^ (F22 27,55) ^ (F24 702,29) Kelas B 11. (F23 115,68) ^ (F28>0,137) ^ (F22 27,55) ^ (F24>702,29) ^ (F22 20,21) Kelas B 12. (F23 115,68) ^ (F28>0,137) ^ (F22 27,55) ^ (F24>702,29) ^ (F22>20,21) ^ (F6 0,122) ^ (F2 20,41) Kelas B 13. (F23 115,68) ^ (F28>0,137) ^ (F22 27,55) ^ (F24>702,29) ^ (F22>20,21) ^ (F6 0,122) ^ (F2>20,41) Kelas M 14. (F23 115,68) ^ (F28>0,137) ^ (F22 27,55) ^ (F24>702,29) ^ (F22>20,21) ^ (F6>0,122) ^ (F2 17,29) Kelas M 15. (F23 115,68) ^ (F28>0,137) ^ (F22 27,55) ^ (F24>702,29) ^ (F22>20,21) ^ (F6>0,122) ^ (F2>17,29) Kelas M 16. (F23 115,68) ^ (F28>0,137) ^ (F22>27,55) Kelas M 17. (F23>115,67) ^ (F7 0,64) ^ (F30 0.061) Kelas B 18. (F23>115,67) ^ (F7 0,64) ^ (F30>0.061) ^ (F2 15,40) Kelas B 19. (F23>115,67) ^ (F7 0,64) ^ (F30>0.061) ^ (F2>15,40) Kelas M 20. (F23>115,67) ^ (F7>0,64) Kelas M Tabel 3 Hasil Akurasi dengan Distribution Based dataset Iris Breast Akurasi 0,9467 0,94044 7.3 Perbandingan Nilai Akurasi Antara Decision Tree dengan Averaging dan Distribution Based Berdasarkan tabel 2 dan 3 yang menunjukkan hasil akurasi antara algoritma averaging dan distribution based pada kedua dataset. Berikut ini akan diberikan tabel untuk perbandingan antara hasil akurasi anatar kedua metode yang ditunjukkan oleh tabel 4sebagi berikut: Dari tabel 4 terlihat bahwa hasil akurasi dari distribution based lebih tinggi jika dibandingkan dengan averaging. Terbukti bahwa distribution based lebih baik jika dibandingkan dengan averaging. 8 KESIMPULAN Kesimpulan yang dapat diambil berdasarkan hasil uji coba yang telah dilakukan pada Tugas Akhir ini yaitu : Kesimpulan yang dapat diambil dari hasil uji coba dari Tugas Akhir ini adalah sebagai berikut: 1. Algortima distribution based lebih baik daripada averaging dibuktikan dengan hasil akurasi yang lebih tinggi. 2. Waktu yang diperlukan untuk membangun tree dengan algoritma distribution based lebih lama jika dibandingkan dengan aloritma averaging. REFERENSI [1] Agrawal,R, T.Imielinski, and A. N. Swami. Database Mining: A Performance Perspective. IEEE Trans.vol 5. pp.914-925. 1993 [2] Kaufmann, Morgan (1993).C4.5: Programs for Machine Learning. ISBN 1-55860-238-0 [3] Tsang, Smith, Ben Kao, Kevin Y.Yipi, Wai shing Ho, and sau Dan Lee. Decision Tree for Uncertain Data. IEEE Computer Society. 2009 [4] Alpaydin,Ethem (2004). Introduction to Machine Learning. The MIT Press [7] Breiman,L, J. H. Friedman, R. A. Olshen, and C. J. Stone (1984). Classification and Regression Trees. Wadsworth Tabel 0Perbandingan Akurasi Antara Averaging dan Distribution Based Iris Breast dataset Averaging 0,94598 0,935 Akurasi Distribution Based 0,9467 0,94044 7

1