METODE PENELITIAN HASIL DAN PEMBAHASAN

dokumen-dokumen yang mirip
PENDAHULUAN TINJAUAN PUSTAKA

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

PENERAPAN TEKNIK KLASIFIKASI MENGGUNAKAN METODE FUZZY DECISION TREE DENGAN ALGORITMA ID3 PADA DATA DIABETES FIRAT ROMANSYAH G

Fuzzy Decision Tree dengan Algoritme ID3 pada Data Diabetes

OPTIMASI FUZZY DECISION TREE MENGGUNAKAN ALGORITME GENETIKA PADA DATA DIABETES WELLYA SEPTIN

BAB III METODE PENELITIAN. Desain penelitian yang dikembangkan dalam pengembangan sistem. keputusan jantung ini adalah sebagai berikut.

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA DATA DIABETES INDIAN PIMA

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PREDIKSI CUSTOMER CHURN MENGGUNAKAN ALGORITMA FUZZY ITERATIVE DICHOTOMISER 3

Fuzzy Decision Tree dengan Algoritma C4.5 pada Data Diabetes Indian Pima (Januari 2011)

PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI

KLASIFIKASI DATA SPASIAL UNTUK KEMUNCULAN HOTSPOT DI PROVINSI RIAU MENGGUNAKAN ALGORITME ID3 VIKHY FERNANDO

UNNES Journal of Mathematics. Implementasi Fuzzy Decision Tree untuk Mendiagnosa Penyakit Hepatitis

MENGIDENTIFIKASI DATA REKAM MEDIS. (Studi Kasus Penyakit Diabetes Mellitus di Balai Kesehatan Kementerian. Perindustrian, Jakarta) SKRIPSI

Bab III METODOLOGI PENELITIAN. Pada penelitian ini menggunakan ala penelitian berupa perangkat keras

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

HASIL DAN PEMBAHASAN. Data

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

Akurasi. Perangkat Lunak: Sistem operasi: Windows Vista Home Premium Aplikasi pemrograman: Matlab 7.0

dan 3. Jumlah partisi vertikal (m) dari kiri ke kanan beturut-turut adalah 1, 2, 3, 4, dan 5. akurasi =.

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

Crossover Probability = 0.5 Mutation Probability = 0.1 Stall Generation = 5

PRUNING PADA FUZZY DECISION TREE DALAM KLASIFIKASI DATA IKLIM DAN TITIK API DI DAERAH TJILIK RIWUT, PALANGKARAYA, KALIMANTAN SELATAN AKHMAD AKBAR

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

ANALISIS DAN IMPLEMENTASI FUZZY DECISION TREE(FDT) DENGAN ALGORITMA GENETIKA

BAB I PENDAHULUAN 1.1 Latar Belakang

PERBANDINGAN DECISION TREE

BAB 5 UJI COBA DAN ANALISA HASIL

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN. digunakan pada proses rekomendasi penjurusan pada jenjang menengah. Merumuskan Masalah

HASIL DAN PEMBAHASAN. B fch a. d b

BAB III METODE PENELITIAN

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

BAB III METODOLOGI PENELITIAN

BAB III METODELOGI PENELITIAN. Alat yang digunakan dalam penelitian ini adalah: a. Prosesor : Intel Core i5-6198du (4 CPUs), ~2.

Implementasi Sistem HASIL DAN PEMBAHASAN Data Penelitian

LEARNING ARTIFICIAL INTELLIGENT

a. Prosesor yang digunakan adalah Intel Core i3 1.9 Ghz b. RAM dengan ukuran 2GB c. Harddisk dengan ukuran 500GB d. Layar monitor 14.

Penerapan Algoritme C4.5 Pada Klasifikasi Produksi Ubi Jalar di Pulau Jawa

BAB III METODOLOGI PENELITIAN

MEMBANGUN TOOLBOX ALGORITMA EVOLUSI FUZZY UNTUK MATLAB

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

BAB 4 IMPLEMENTASI DAN PENGUJIAN

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 2, Tahun 2015, Halaman Online di:

BAB III METODE PENELITIAN. a. Menentukan kebutuhan data yang dibutuhkan. b. Mengumpulkan semua data yang dibutuhkan.

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB III METODOLOGI PENELITIAN. Desain penelitian ini mengacu pada tahapan proses yang ada pada sistem

METODE PENELITIAN. Gambar 2 Tahapan penelitian. Praproses Data

Mahasiswa mampu memformulasikan permasalahan yang mengandung fakta dengan derajad ketidakpastian tertentu ke dalam pendekatan Sistem Fuzzy.

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO)

STUDI ALGORITMA CART DENGAN INDUKSI FUZZY DALAM MENGKLASIFIKASIKAN DATA

PERBANDINGAN PRODUKSI KOPI OPTIMUM ANTARA METODE F UZZY MAMDANI DENGAN F UZZY SUGENO PADA PT XYZ. Rianto Samosir, Iryanto, Rosman Siregar

BAB III METODOLOGI PENELITIAN. pengembangan sistem pemugaran citra digital dengan algoritma exemplar-based

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah 1.2. Rumusan Masalah

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

BAB III METODOLOGI PENELITIAN. Desain penelitian adalah tahapan atau gambaran yang akan dilakukan

BAB 2 LANDASAN TEORI

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

TINJAUAN PUSTAKA. Definisi Data Mining

PEMANFAATAN ALGORITMA FUZZY EVOLUSI UNTUK PENYELESAIAN KASUS TRAVELLING SALESMAN PROBLEM

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

BAB 3. METODOLOGI PENELITIAN

HASIL DAN PEMBAHASAN. Generalisasi =

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

SPK PENENTUAN TINGKAT KEPUASAN KONSUMEN PADA RESTORAN XYZ

ABSTRAK. Kata kunci : sistem pakar, penyakit gigi, konsultasi, algoritma ID3. vi Universitas Kristen Maranatha

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

BAB III ANALISA DAN PERANCANGAN SISTEM. ditujukan untuk menangani pencarian spesifikasi komputer yang sesuai dengan

Student Clustering Based on Academic Using K-Means Algoritms

Presentasi TA DETEKSI PENYAKIT PARU-PARU OBSTRUKTIF KRONIS MENGGUNAKAN METODE FUZZY : STUDI KASUS DI RUMAH SAKIT XYZ. Muhammad Reza Budiman

Transkripsi:

5. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi jika tree akan diekspansi, yaitu: Fuzziness control threshold (FCT) / Jika proporsi dari himpunan data dari kelas C k lebih besar atau sama dengan nilai threshold, maka hentikan ekspansi tree. Sebagai contoh: jika pada sebuah subdataset rasio dari kelas 1 adalah 90%, maka kelas 2 adalah 10% dan adalah 85%, maka hentikan ekspansi tree. Leaf decision threshold (LDT) / Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari threshold, hentikan ekspansi tree. Sebagai contoh: sebuah himpunan data memiliki 600 contoh dengan adalah 2%. Jika jumlah data contoh pada sebuah node lebih kecil dari 12 (2% dari 600), maka hentikan ekspansi tree. K-fold Cross Validation K-fold cross validation dilakukan untuk membagi training set dan test set. K-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang paling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Data METODE PENELITIAN Penelitian ini menggunakan data diabetes yang merupakan hasil pemeriksaan laboratorium pasien dari sebuah rumah sakit. Data hasil pemeriksaan lab pasien yang digunakan dalam penelitian ini meliputi GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam Pasca Puasa), HDL (Kolesterol HDL), TG (Trigliserida), serta diagnosa pasien berdasarkan nilai GLUN, GPOST, HDL dan TG. Nilai GLUN, GPOST, HDL, TG dinyatakan dalam satuan Mg/DL. Diagnosa pasien ditransformasi menjadi dua kategori, yaitu negatif diabetes yang direpresentasikan dengan angka 1 dan positif diabetes yang direpresentasikan dengan angka 2. Total data yang digunakan dalam penelitian ini berjumlah 290 record. Metode Tahapan penelitian yang digunakan dapat dilihat pada Gambar 3. Proses pembersihan data tidak dilakukan, karena tahapan ini telah dilakukan pada penelitian sebelumnya. Dalam penelitian ini, percobaan dibagi ke dalam tiga kelompok seperti dalam Tabel 1. Lingkup Pengembangan Sistem Perangkat keras yang digunakan berupa notebook dengan spesifikasi: processor: Intel Core 2 Duo 2.0 GHz, memori: 1 GB, dan harddisk: 120 GB. Perangkat lunak yang digunakan yaitu: sistem operasi: Window XP, Matlab 7.0.1 sebagai bahasa pemrograman, dan Microsoft Excel 2007 sebagai tempat penyimpanan data. Tabel 1 Kelompok percobaan Algoritme Kelompok yang digunakan FDT PFDT(1) PFDT(2) Fuzzy ID3 Probabilistic Fuzzy ID3 Probabilistic Fuzzy ID3 Fungsi Keanggotaan s-shaped, gaussian, p- shaped triangle, trapezoid s-shaped, gaussian, p- shaped HASIL DAN PEMBAHASAN Data yang digunakan dalam penelitian ini menggunakan data dari penelitian sebelumnya (Romansyah 2007). Data ini terdiri dari 6 buah kolom yaitu, no.rm (nomor rekam medis/mrn), GLUN, GPOST, HDL, TG dan diagutama (hasil pemeriksaan lab / diagnosis). Transformasi Data Pada penelitian ini, teknik data mining yang digunakan adalah fuzzy decision tree (FDT) dan probabilistic fuzzy decision tree (PFDT), oleh karena itu data yang digunakan harus direpresentasikan ke dalam bentuk himpunan fuzzy. Dari 5 (lima) atribut yang digunakan pada penelitian ini 4 diantaranya merupakan atribut yang kontinu, yaitu GLUN, GPOST, HDL, dan TG. Berdasarkan hasil laboratorium range normal untuk atribut GLUN, GPOST, HDL, dan TG diperlihatkan pada Tabel 2.

6 Tabel 2 Daftar range normal untuk setiap atribut Kode Pemeriksaan Satuan Nilai Normal GLUN Mg/DL 70 100 GPOST Mg/DL 100 140 HDL Mg/DL 40 60 TG Mg/DL 50 150 Atribut GLUN Atribut GLUN dibagi menjadi 4 kelompok atau linguistic term, yaitu (GLUN < 70 mg/dl), (70 mg/dl <= GLUN < 110 mg/dl), (110 mg/dl <= GLUN < 140 mg/dl), dan sangat (GLUN >= 140 mg/dl) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,,, dan sangat untuk atribut GLUN yaitu: x ;x 65 1-2 x-65 2 10 ;65 x 70 2 75-x 2 10 ;70 x 75 0 ;x 75 e - 2σ 2 e - 2σ 2 Gambar 3 Diagram alur proses klasifikasi PFDT. Atribut-atribut pada Tabel 2 ditransformasikan ke dalam himpunan fuzzy dengan menggunakan dua pendekatan yaitu dengan pendekatan well-defined sample space dan without well-defined sample space. Fungsi keanggotaan dibuat menggunakan toolbox fuzzy dalam Matlab 7.0.1. Fungsi keanggotaan untuk penelitian sebelumnya dapat dilihat pada Lampiran 1 (Romansyah 2007). Pendekatan Without Well-Defined Sample Space Dalam pendekatan without well-defined sample space jumlah derajat keanggotaan suatu objek dalam setiap himpunan fuzzy adalah tidak sama dengan 1. Berikut adalah bentuk-bentuk himpunan fuzzy untuk setiap atribut. menggunakan kurva z-shaped, untuk linguistic term dan menggunakan kurva Gaussian kan untuk linguistic term sangat menggunakan kurva s-shaped. Gambar 4 menunjukkan himpunan fuzzy untuk atribut GLUN. sangattinggi Gambar 4 Himpunan fuzzy atribut GLUN untuk FDT. Atribut GPOST Atribut GPOST dibagi menjadi 4 kelompok atau linguistic term, yaitu (GPOST < 100 mg/dl), (100 mg/dl <= GPOST < 140 mg/dl), (140 mg/dl <= GPOST < 200 mg/dl), dan sangat (GPOST >= 200 mg/dl) (Herwanto 2006).

7 Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,,, dan sangat untuk atribut GPOST yaitu: menggunakan kurva z-shaped, untuk linguistic term dan menggunakan kurva Gaussian kan untuk linguistic term sangat menggunakan kurva s-shaped. Gambar 5 menunjukkan himpunan fuzzy untuk atribut GPOST. Gambar 5 Himpunan fuzzy atribut GPOST untuk FDT. Atribut HDL Atribut HDL dibagi menjadi 3 kelompok atau linguistic term, yaitu (HDL < 40 mg/dl), (40 mg/dl <= HDL < 60 mg/dl), dan (HDL >= 60 mg/dl) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,, dan untuk atribut HDL yaitu: sangattinggi menggunakan kurva z-shaped, untuk linguistic term menggunakan kurva Gaussian kan untuk linguistic term menggunakan kurva s-shaped. Gambar 6 menunjukkan himpunan fuzzy untuk atribut HDL. Gambar 6 Himpunan fuzzy atribut HDL untuk FDT. Atribut TG Atribut TG dibagi menjadi 3 kelompok atau linguistic term, yaitu (TG < 50 mg/dl), (50 mg/dl <= TG < 150 mg/dl), dan (TG >= 150 mg/dl) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,, dan untuk atribut TG yaitu: menggunakan kurva z-shaped, untuk linguistic term menggunakan kurva Gaussian kan untuk linguistic term menggunakan kurva s-shaped. Gambar

8 7 menunjukkan himpunan fuzzy untuk atribut TG. menggunakan kurva z-shaped, linguistic term dan menggunakan kurva phi-shaped, dan untuk linguistic term sangat menggunakan kurva s-shaped. Gambar 8 menunjukkan himpunan fuzzy untuk atribut GLUN. sangattinggi Gambar 7 Himpunan fuzzy atribut TG untuk FDT. Pendekatan Well-Defined Sample Space Dalam pendekatan well-defined sample space jumlah derajat keanggotaan suatu objek dalam setiap himpunan fuzzy adalah sama dengan 1. Berikut adalah bentuk-bentuk himpunan fuzzy untuk setiap atribut. Atribut GLUN Atribut GLUN dibagi menjadi 4 kelompok atau linguistic term, yaitu,,, dan sangat (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,,, dan sangat untuk atribut GLUN yaitu: Gambar 8 Himpunan fuzzy atribut GLUN untuk PFDT. Atribut GPOST Atribut GPOST dibagi menjadi 4 kelompok atau linguistic term, yaitu,,, dan sangat (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,,, dan sangat untuk atribut GPOST yaitu:

9 menggunakan kurva z-shaped, linguistic term dan menggunakan kurva phi-shaped, dan untuk linguistic term sangat menggunakan kurva s-shaped. Gambar 9 menunjukkan himpunan fuzzy untuk atribut GPOST. Gambar 9 Himpunan fuzzy atribut HDL untuk PFDT. Atribut HDL Atribut HDL dibagi menjadi 3 kelompok atau linguistic term, yaitu,, dan (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,, dan untuk atribut HDL yaitu: sangattinggi menggunakan kurva z-shaped, linguistic term menggunakan kurva phi-shaped, dan untuk linguistic term menggunakan kurva s-shaped. Gambar 10 menunjukkan himpunan fuzzy untuk atribut HDL. Gambar 10 Himpunan fuzzy atribut HDL untuk PFDT. Atribut TG Atribut TG dibagi menjadi 3 kelompok atau linguistic term, yaitu,, dan (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy,, dan untuk atribut TG yaitu: menggunakan kurva z-shaped, linguistic term menggunakan kurva phi-shaped, dan untuk linguistic term menggunakan kurva s-shaped. Gambar 11 menunjukkan himpunan fuzzy untuk atribut TG. Gambar 11 Himpunan fuzzy atribut TG untuk PFDT.

10 Atribut Diagnosis Atribut Diagnosis selanjutnya akan disebut sebagai CLASS, direpresentasikan oleh dua buah peubah linguistik yaitu negatif diabetes dan positif diabetes. Kedua linguistic term-nya didefinisikan sebagai berikut: negatif diabetes = 0 positif diabetes = 1 Untuk atribut diagnosis ini tidak ada perbedaan antara FDT dan PFDT. Nilai setiap record atribut GLUN, GPOST, HDL, dan TG kemudian akan ditransformasi ke dalam bentuk himpunan fuzzy dengan menggunakan program Matlab. Nilai-nilai dari atribut CLASS yang awalnya berisi hasil diagnosis laboratorium akan ditransformasikan menjadi 2 (dua) kategori saja, yaitu negatif diabetes yang direpresentasikan dengan angka 1, dan positif diabetes yang direpresentasikan dengan angka 2. Data Mining Pada tahap ini dilakukan teknik data mining menggunakan algoritma FID3 untuk membangun fuzzy decision tree (FDT) dan algoritma PFID3 untuk membangun probabilistic fuzzy decision tree (PFDT). Proses data mining ini dilakukan dengan menggunakan program Matlab 7.0.1 yang telah dibuat oleh peneliti sebelumnya (Romansyah 2007). Program untuk membangun PFDT ini sama dengan program untuk membangun FDT karena tidak ada perbedaan coding antara FDT dan PFDT. Training set dan testing set yang digunakan sama persis dengan penelitian sebelumnya, hal ini bertujuan membandingkan hasil antara penelitian sebelumnya (PFDT(1)), FDT, dan PFDT(2). Untuk selanjutnya hasil penelitian sebelumnya dituliskan dengan PFDT(1), kan PFDT(2) untuk penelitian saat ini. Perbedaan PFDT(1) dengan PFDT(2) adalah PFDT(1) menggunakan fungsi membership function dengan kurva berbentuk trapesium kan PFDT(2) menggunakan z-shaped, phi-shaped, dan s-shaped (Liang 2005). Fase Pembentukan Pohon Keputusan Fase training dilakukan untuk membangun FDT dan PFDT dengan algoritma FID3 dan PFID3. Proses training dilakukan sama dengan proses training yang dilakukan pada penelitian sebelumnya (Romansyah 2007). Proses training dilakukan sebanyak 480 kali, untuk masing-masing metode (FDT dan PFDT) sebanyak 240 kali. Untuk tiap training set, proses training dilakukan sebanyak 24 kali, dengan mengubah nilai sebanyak 6 kali yaitu 75%, 80%, 85%, 90%, 95%, dan 98%, dan untuk masing-masing nilai yang sama diberikan nilai yang berbeda-beda yaitu 3%, 5%, 8%, dan 10%. Jumlah aturan dan waktu eksekusi untuk masing-masing training set secara keseluruhan dapat dilihat pada Lampiran 2 dan Lampiran 3 secara berturut-turut. Perbandingan rata-rata jumlah aturan yang dihasilkan pada proses training dan waktu eksekusi yang dibutuhkan dapat dilihat pada Tabel 3, Tabel 4, dan Tabel 5. Tabel 3 Rata-rata jumlah aturan FDT FCT LDT ( ) 75% 4 4 4 4 80% 7 7 6 6 85% 10 10 10 9 90% 18 18 17 16 95% 27 27 26 24 98% 41 40 39 37 Tabel 4 Rata-rata jumlah aturan PFDT(1) FCT LDT ( ) 75% 4 4 4 4 80% 7 7 7 6 85% 11 10 10 8 90% 12 11 10 8 95% 20 18 15 11 98% 27 24 20 16 Tabel 5 Rata-rata jumlah aturan PFDT(2) FCT LDT ( ) 75% 4 4 4 4 80% 7 7 7 6 85% 10 10 9 8 90% 11 10 10 8 95% 21 18 15 12 98% 26 23 20 16 Dari Tabel 3, Tabel 4, dan Tabel 5 dapat dilihat perbandingan rata-rata jumlah aturan yang dihasilkan oleh masing-masing metode. Hasil PFDT(1) dan PFDT(2) tidak mengalami perubahan yang siginifikan dalam jumlah

11 aturan, kan jika dibandingkan dengan hasil FDT terdapat perbedaan rata-rata jumlah aturan yang cukup mencolok. Hal ini disebabkan pada training set FDT, jumlah nilai dari membership function tidak sama dengan satu, kan pada PFDT jumlah nilai dari membership function untuk masingmasing atribut sama dengan satu. Hal ini berimplikasi pada proses ekspansi dalam pembentukan tree yang menghasilkan aturan. Proses ekspansi ini juga dipengaruhi oleh leaf decision threshold ( ). Pada kasus ini, training set PFDT memiliki beberapa nilai linguistic term sama dengan nol, kan pada FDT dapat memiliki sebuah nilai yang bernilai nol pada PFDT. Contoh perbedaan hasil FDT dan PFDT pada training set 30 dan 33 dapat dilihat pada Tabel 6. Perbedaan hasil ini menyebabkan jumlah data yang tersisa pada FDT menjadi lebih banyak dibandingkan dengan PFDT. Jika jumlah record dalam suatu node lebih banyak, maka kemungkinan besar program melakukan ekspansi node tersebut karena tidak memenuhi leaf decision threshold ( ). Tabel 6 Contoh perbandingan hasil FDT dan PFDT No. Nilai Derajat Data Atribut Keanggotaan Training GLUN FDT PFDT 30 262 0 0 Rendah 33 130 0 0 30 262 8.09E-11 0 Sedang 33 130 0.284572 0 30 262 3.96E-07 0 Tinggi 33 130 0.980555 1 Sangat Tinggi 30 262 1 1 33 130 0 0 Jika diamati dengan seksama pada Tabel 3, 4, dan 5, walaupun nilai LDT ( ) ditingkatkan, jumlah aturan yang dihasilkan tidak mengalami penurunan yang signifikan. Berdasarkan pengamatan yang dilakukan pada penelitian sebelumnya, ternyata karakteristik data pada training set yang digunakan tidak terlalu berbeda, pada saat terjadi ekspansi tree data tidak akan terlalu menyebar, karenanya jumlah data yang ada pada sub-node tidak berbeda jauh dengan jumlah data yang ada pada root-node. Dengan adanya situasi yang demikian, syarat untuk menghentikan ekspansi tree yaitu jumlah data atau record pada sub-node harus lebih kecil dari nilai sulit untuk tercapai. Nilai yang terlalu dan atau yang terlalu akan menghasilkan tree dengan ukuran yang kecil sehingga jumlah aturan yang dihasilkan juga sangat sedikit. Hal ini terjadi karena tree yang dibangun mengalami pemangkasan (pruning) pada saat model masih mempelajari struktur dari training set. Sebaliknya, nilai yang terlalu dan atau yang terlalu kadang kala akan menyebabkan FDT dan PFDT berperilaku seperti decision tree biasa yang tidak memerlukan adanya threshold sehingga menghasilkan tree dengan ukuran sangat besar dan jumlah aturan yang juga sangat banyak, karena tree akan terus diekspansi sampai leafnode terdalam. Gambar 12 Perbandingan rata-rata jumlah aturan untuk nilai sebesar 10%. Gambar 12 menunjukkan perbandingan rata-rata jumlah aturan yang dihasilkan oleh FDT, PFDT(1), dan PFDT(2) pada proses training untuk LDT ( ) 10%. Dapat terlihat bahwa dalam semua metode yang metode yang digunakan semakin nilai akan menyebabkan jumlah aturan yang dihasilkan juga meningkat dan peningkatan yang signifikan terjadi pada FDT. Gambar 13 Perbandingan rata-rata waktu eksekusi proses training untuk nilai sebesar 10%. Dari Gambar 12 dan Gambar 13, dapat disimpulkan bahwa, semakin nilai yang digunakan akan menghasilkan jumlah aturan yang semakin banyak sehingga waktu yang dibutuhkan untuk menghasilkan aturanaturan tersebut juga meningkat. Hal ini terjadi karena proses yang harus dilakukan untuk membangun tree semakin banyak. Dari Tabel 3, Tabel 4, dan Tabel 5 dapat dilihat bahwa untuk nilai FCT ( ) sebesar 98% dan LDT ( ) sebesar 3% dapat

12 disimpulkan bahwa rata-rata jumlah aturan yang dihasilkan oleh FDT dan PFDT jauh berbeda. Rata-rata aturan yang dihasilkan FDT sebanyak 41 aturan, PFDT(1) sebanyak 27 aturan, dan PFDT(2) sebanyak 26 aturan. Akurasi FDT, PFDT(1), dan PFDT(2) Untuk mengukur tingkat akurasi dari model yang dihasilkan pada fase training, proses testing dilakukan sebanyak 480 kali, masing-masing 240 kali untuk model FDT dan PFDT(2). Proses testing dilakukan dengan cara memasukkan aturan yang diperoleh dari proses training ke dalam sebuah FIS Mamdani untuk menentukan kelas dari masing-masing record dan test set. Untuk satu kali proses training dilakukan satu kali proses testing. Hasil proses testing secara keseluruhan dari masing-masing model dapat dilihat pada Lampiran 4. walaupun penurunan yang terjadi tidaklah signifikan sehingga masih dapat ditoleransi. Tabel 7 Rata-rata akurasi FDT FCT LDT ( ) 75% 94.1% 94.1% 94.1% 94.1% 80% 93.1% 93.1% 93.5% 93.5% 85% 93.1% 93.1% 93.5% 93.5% 90% 93.1% 93.1% 93.5% 93.5% 95% 93.1% 93.1% 93.5% 93.5% 98% 92.8% 93.1% 93.5% 93.5% Tabel 8 Rata-rata akurasi PFDT(1) FCT LDT ( ) 75% 94.14% 94.14% 94.15% 94.15% 80% 92.07% 92.07% 93.45% 93.45% 85% 92.07% 92.07% 93.45% 93.45% 90% 92.07% 92.07% 93.45% 93.45% 95% 90.69% 91.73% 93.10% 93.45% 98% 90.69% 91.73% 93.10% 93.45% Gambar 14 Perbandingan rata-rata akurasi untuk nilai sebesar 10%. Dengan melihat Gambar 14 dapat disimpulkan bahwa nilai akurasi pada metode FDT dan PFDT tidak jauh berbeda untuk kasus ini. Hal ini dikarenakan data training dan testing yang digunakan terlalu seragam. Training set yang digunakan mayoritas (90%) merupakan kelas negatif diabetes, sehingga aturan yang dihasilkan hanya memiliki keluaran kelas negatif diabetes. Apabila aturan yang dihasilkan semuanya memiliki kelas negatif diabetes, maka ketika melakukan proses testing akan menghasilkan keluaran yang seragam yaitu negatif diabetes. Perbandingan evaluasi kinerja dari algoritma FID3 dan PFID3 pada nilai dan yang berbeda dapat dilihat pada Tabel 7, Tabel 8, dan Tabel 9. Gambar 15 menunjukkan perbandingan rata-rata akurasi FDT, PFDT(1), dan PFDT(2) untuk 10%. Dari Tabel 7, Tabel 8, Tabel 9, dan Gambar 15 dapat disimpulkan bahwa nilai akurasi pada masing-masing metode tidak jauh berbeda. Akurasi algoritma FID3 dan PFID3 mengalami penurunan jika nilai semakin besar dan atau nilai semakin kecil, Tabel 9 Rata-rata akurasi PFDT(2) FCT LDT ( ) 75% 94.14% 94.14% 94.14% 94.14% 80% 92.07% 92.07% 93.45% 93.45% 85% 92.07% 92.07% 93.45% 93.45% 90% 92.07% 92.07% 93.45% 93.45% 95% 90.00% 91.72% 93.10% 93.45% 98% 90.00% 91.72% 93.10% 93.45% Gambar 15 Akurasi FDT, PFDT(1), dan PFDT(2) untuk nilai sebesar 10%. Dari Tabel 7, Tabel 8, dan Tabel 9 juga dapat dilihat untuk nilai FCT ( ) sebesar 98% dan LDT ( ) sebesar 3% dapat disimpulkan bahwa rata-rata akurasi FDT lebih besar dari PFDT walaupun tidak terlalu

13 jauh berbeda. Rata-rata akurasi untuk FDT sebesar 92.8%, PFDT(1) sebesar 90.69%, dan PFDT(2) sebesar 90%. Representasi Pengetahuan Model hasil proses training digunakan untuk mengetahui label kelas pada data yang baru. Model tersebut dipilih berdasarkan 3 (tiga) kriteria berikut yang diurutkan berdasarkan prioritas (Romansyah 2007): 1 Model yang mencakup semua kelas target yang mungkin muncul dalam test set, dalam penelitian ini kelas target yang mungkin muncul yaitu kelas target 1 (negatif diabetes) dan kelas 2 (positif diabetes). 2 Model dengan akurasi yang, semakin akurasinya maka semakin baik model tersebut. 3 Model dengan jumlah aturan yang paling banyak. Berdasarkan kriteria tersebut maka model yang dipilih adalah hasil training dengan nilai dan masing-masing 98% dan 3 % dari pasangan training set dan test set ke-8 untuk FDT dan ke-10 untuk PFDT(2). Aturan-Aturan dari FDT Terdapat 46 aturan yang dihasilkan dari FDT, dimana hanya 1 aturan yang mengandung kelas target positif diabetes. Model yang dihasilkan dapat dilihat pada Lampiran 5. Aturan-aturan dari PFDT(2) Terdapat 30 aturan yang dihasilkan PFDT(2), dimana hanya 1 aturan yang mengandung kelas target positif diabetes. Model yang dihasilkan dapat dilihat pada Lampiran 6. KESIMPULAN DAN SARAN Kesimpulan Dari berbagai percobaan yang dilakukan dengan menggunakan data training dan testing yang sama dengan penelitian sebelumya, dapat disimpulkan bahwa pembentukan pohon keputusan dengan menggunakan algoritma FID3 dengan pendekatan tanpa well-defined sample space pada fungsi keanggotaan dan algoritma PFID3 dengan pendekatan well-defined sample space memiliki jumlah aturan yang berbeda. Jumlah aturan yang dihasilkan FDT lebih banyak dari jumlah aturan PFDT. Untuk nilai FCT ( ) sebesar 98% dan LDT ( ) sebesar 3%, jumlah rata-rata aturan yang dihasilkan FDT sebanyak 41 aturan, PFDT(1) sebanyak 27 aturan, dan PFDT(2) sebanyak 26 aturan. Nilai akurasi FDT lebih besar dari PFDT denagn rata-rata akurasi FDT sebesar 92.8%, PFDT(1) sebesar 90.69%, dan PFDT(2) sebesar 90%. Hal ini disebabkan karena adanya perbedaan jumlah aturan yang dihasilkan oleh FDT lebih banyak dari PFDT(1) dan PFDT(2) sehingga nilai akurasi yang memiliki jumlah aturan yang banyak akan mempunyai nilai akurasi yang lebih besar. Saran Pada penelitian ini masih terdapat beberapa kekurangan yang dapat diperbaiki pada penelitian selanjutnya. Pada penelitian ini, data yang digunakan kurang representatif karena jumlah data yang positif diabetes hanya 17 record, kan yang negatif diabetes sebanyak 273 record. Dengan data yang ada, belum dapat dinyatakan bahwa PFDT tidak lebih baik dibandingkan dengan FDT. Pada penelitian selanjutnya diharapkan menggunakan data yang lebih representatif dengan perbandingan jumlah data yang positif dan negatif diabetes yang sama besar, sehingga aturan klasifikasi yang dihasilkan memiliki akurasi yang lebih baik lagi. DAFTAR PUSTAKA Cox E. 2005. Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. USA: Academic Press. Han J, Kamber M. 2001. Data Mining: Concepts and Techniques. USA: Academic Press. Herwanto. 2006. Pengembangan Sistem Data Mining untuk Diagnosis Penyakit Diabetes Menggunakan Algoritme Classification Based Association [Tesis]. Bogor. Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Jang JSR, Sun CT, Mizutani Eiji. 1997. Neuro-Fuzzy and Soft Computing. London: Prentice-Hall International, Inc. Kantardzic M. 2003. Data Mining: Concepts, Models, Methods, and Algorithms. Wiley-Interscience.