PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA CART ( CLASSIFICATION AND REGRESSION TREES ) ( STUDI KASUS PENYAKIT DIABETES SUKU PIMA INDIAN )

dokumen-dokumen yang mirip
SKRIPSI. Disusun Oleh : ZULFA WAHYU MARDIKA NIM. J2E

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

PERBANDINGAN ANALISIS KLASIFIKASI NASABAH MENGGUNAKAN REGRESI LOGISTIK BINER DAN (CLASSIFICATION AND REGRESSION TREES)

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST (QUICK, UNBIASED, AND EFFICIENT STATISTICAL TREE) PADA DATA PASIEN LIVER

BAB I PENDAHULUAN. Universitas Pendidikan Indonesia repository.upi.edu

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

PERBANDINGAN KLASIFIKASI NASABAH KREDIT MENGGUNAKAN REGRESI LOGISTIK BINER DAN CART (CLASSIFICATION AND REGRESSION TREES) Abstract

PERBANDINGAN ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN REGRESI LOGISTIK BINER DAN CART (CLASSIFICATION AND REGRESSION TREES)

BAB I PENDAHULUAN. atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri.

Klasifikasi Nilai Peminat SBMPTN (Seleksi Bersama Masuk Perguruan Tinggi Negeri) ITS dengan Pendekatan Classification and Regression Trees (CART)

APLIKASI ALGORITMA CART UNTUK MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA

IDENTIFIKASI VARIABEL YANG MEMPENGARUHI BESAR PINJAMAN DENGAN METODE POHON REGRESI (Studi Kasus di Unit Pengelola Kegiatan PNPM Mandiri)

Model Credit Scoring Menggunakan Metode Classification and Regression Trees (CART) pada Data Kartu Kredit

KLASIFIKASI PENYAKIT DIABETES MELITUS DENGAN METODE CHAID (CHI SQUARE AUTOMATIC INTERACTION DETECTION) DAN CART (CLASSIFICATION AND REGRESSION TREE)

ISSN: JURNAL GAUSSIAN, Volume 5, Nomor 3, Tahun 2016, Halaman Online di:

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

Seminar Tugas Akhir. Analisis Klasifikasi Kesejahteraan Rumah Tangga di Propinsi Jawa Timur dengan Pendekatan CART ARCING. Surabaya, Juli 2011

BAB 1 PENDAHULUAN. 1.1 Latar belakang

Klasifikasi Kegiatan Partisipasi Ekonomi Perempuan Di Jawa Timur Dengan Pendekatan CART (Classification And Regression Trees)

ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN BOOTSTRAP AGGREGATING CLASSIFICATION AND REGRESSION TREES (BAGGING CART)

PENENTUAN KONDISI OPTIMUM PADA PEMBENTUKAN POHON TERBAIK DENGAN METODE POHON KLASIFIKASI (CLASSIFICATION TREE)

PENERAPAN METODE CART

METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI KEMISKINAN DI KABUPATEN JOMBANG

PPDAFTAR GAMBAR Gambar Halaman Yuni Melawati, 2013

JURNAL SAINS DAN SENI POMITS Vol. 3, No.1, (2014) ( X Print) D-54

PREFERENSI KARAKTERISTIK KOPI 3 IN 1 MENGGUNAKAN METODE POHON REGRESI DAN KLASIFIKASI FITRIYANTO

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1.Latar Belakang Masalah

STUDI ALGORITMA CART DENGAN INDUKSI FUZZY DALAM MENGKLASIFIKASIKAN DATA

PENGARUH PERAN DOSEN PEMBIMBING TERHADAP KUALITAS TUGAS AKHIR (Studi Kasus : Mahasiswa Fmipa Unsyiah)

BAB I PENDAHULUAN 1.1 Latar Belakang Penelitian Ayu Wulandary,2014

BAB III METODE POHON KLASIFIKASI QUEST

ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN BOOTSTRAP AGGREGATING CLASSIFICATION AND REGRESSION TREES (BAGGING CART)

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Seminar Hasil Tugas Akhir

JURNAL PREDIKSI PRESTASI SISWA SEKOLAH DASAR MENGGUNAKAN ALGORITMA CART PREDICTION ELEMENTARY SCHOOL STUDENT ACHIEVEMENT USING CART ALGORITHM

PREDIKSI NASABAH POTENSIAL MENGGUNAKAN METODE KLASIFIKASI POHON BINER

BAGGING CLASSIFICATION TREES UNTUK PREDIKSI RISIKO PREEKLAMPSIA (Studi Kasus : Ibu Hamil Kategori Penerima Jampersal di RSUD Dr. Moewardi Surakarta)

Model Machine Learning CART Diabetes Melitus

BAGGING CART PADA KLASIFIKASI ANAK PUTUS SEKOLAH

PEMANFAATAN CLASSIFICATION AND REGRESSION TREES (CART) UNTUK MEMPREDIKSI KELULUSAN SISWA PADA SUATU MATA PELAJARAN DI E-LEARNING SMAN 1 PARE ABSTRAK

Hary Mega Gancar Prakosa Dosen Pembimbing Dr. Suhartono, S.Si, M.Sc Co Pembimbing Dr. Bambang Wijanarko Otok, S.Si, M.

BAB II LANDASAN TEORI

Analisis CART (Classification And Regression Trees) pada Faktor-Faktor yang Mempengaruhi Kepala Rumah Tangga di Jawa Timur Melakukan Urbanisasi

BAB I PENDAHULUAN 1.1 Latar Belakang

Pendekatan Metode Classification and Regression Tree untuk Diagnosis Tingkat Keganasan Kanker pada Pasien Kanker Tiroid

Pendekatan Metode Classification and Regression Tree untuk Diagnosis Tingkat Keganasan Kanker pada Pasien Kanker Tiroid

MENGIDENTIFIKASI DATA REKAM MEDIS. (Studi Kasus Penyakit Diabetes Mellitus di Balai Kesehatan Kementerian. Perindustrian, Jakarta) SKRIPSI

SKRIPSI. Disusun Oleh : YUSUF ARIFKA RAHMAN

Klasifikasi Risiko Infeksi pada Bayi Baru Lahir di Rumah Sakit Umum Daerah Sidoarjo Menggunakan Metode Classification Trees

Klasifikasi Hasil Pap Smear Test Kanker Serviks Berdasarkan Faktor Resiko (Studi Kasus Di Rumah Sakit Swasta Surabaya

ANALISIS KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA FEM DAN FAPERTA MENGGUNAKAN METODE CHART

KLASIFIKASI RUMAH TANGGA MISKIN DI KABUPATEN JOMBANG DENGAN PENDEKATAN RANDOM FOREST CART

BAB II TINJAUAN PUSTAKA

SEGMENTASI PASAR MENGGUNAKAN METODE CHI-SQUARED AUTOMATIC INTERACTION DETECTION (CHAID) (Studi Kasus di PD. BPR-BKK Purwokerto Utara)

Bambang Widjanarko Otok (1), dan Dian Seftiana (2) (1,2) Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh Nopember (ITS)

BINER UNTUK KETEPATAN KLASIFIKASI KESEJAHTERAAN RUMAH TANGGA DI KOTA PATI

PENERAPAN METODE RANDOM FOREST DALAM DRIVER ANALYSIS NARISWARI KARINA DEWI

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST SKRIPSI SARJANA MATEMATIKA. Oleh: YONA MALANI

PEMODELAN PADA PERCOBAAN MIXTURE UNTUK PROPORSI KOMPONEN YANG MEMILIKI BATAS ATAS ATAU BATAS BAWAH. PT Jasa Marga ro) C. abang Semarang SKRIPSI

PENDEKATAN CART UNTUK MENDAPATKAN FAKTOR YANG MEMPENGARUHI TERJANGKITNYA PENYAKIT DEMAM TIFOID DI ACEH UTARA

PERBANDINGAN ANALISIS DISKRIMINAN FISHER DAN NAIVE BAYES UNTUK KLASIFIKASI RISIKO KREDIT

METODE POHON REGRESI UNTUK EKSPLORATORI DATA DENGAN PEUBAH YANG BANYAK DAN KOMPLEKS

BAB I PENDAHULUAN Latar Belakang

PENENTUAN FAKTOR-FAKTOR MEMILIH MEREK DENGAN METODE CART DAMAS ESMU HAJI

Klasifikasi Penderita Diabetes Melitus dengan Metode CHAID (Chi-Squared Automatic Interaction Detection) dan CART (Classification and Regression Tree)

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU

SKRIPSI. Disusun Oleh : DINI PUSPITA JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

PENDEKATAN CART UNTUK MENDAPATKAN FAKTOR YANG MEMPENGARUHI TERJANGKITNYA PENYAKIT DEMAM TIFOID DI ACEH UTARA


KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

KLASIFIKASI KESEJAHTERAAN RUMAH TANGGA DI PROVINSI JAWA TIMUR DENGAN PENDEKATAN CART ARCING

EVALUASI KELAYAKAN KREDIT DENGAN METODE CLASSIFICATION AND REGRESION TREE (CART)

Amalia Maharani, Dewi Retno Sari Saputro, dan Bowo Winarno Program Studi Matematika FMIPA UNS

PENERAPAN METODE QUICK, UNBIASED, EFFICIENT STATISTICAL TREES

KLASIFIKASI KETAHANAN PANGAN RUMAH TANGGA DI SURABAYA DENGAN PENDEKATAN CART ARCING

BAB I PENDAHULUAN 1.1. Latar Belakang

POHON KLASIFIKASI DAN POHON REGRESI KEBERHASILAN MAHASISWA PASCASARJANA PROGRAM STUDI STATISTIKA IPB

PENERAPAN METODE REGRESI BERSTRUKTUR POHON PADA PENDUGAAN LAMA PENYUSUNAN SKRIPSI MAHASISWA ARTIKEL ILMIAH

METODE KLASIFIKASI BERSTRUKTUR POHON BINER (STUDI KASUS PADA PRAKIRAAN SIFAT HUJAN BULANAN DI BOGOR) 1) T

PEMODELAN TERHADAP KELULUSAN SISWA MASUK KELAS AKSELERASI MENGGUNAKAN ANALISIS REGRESI LOGISTIK DAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS)

BAB I PENDAHULUAN. akut maupun komplikasi vaskuler jangka panjang, baik mikroangiopati maupun

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

KETEPATAN KLASIFIKASI PEMILIHAN METODE KONTRASEPSI REGRESI LOGISTIK MULTINOMIAL

1. Pendahuluan 1.1 Latar Belakang

ANALISIS DAN IMPLEMENTASI ALGORITMA ID3 DAN CART PADA PENILAIAN KINERJA PEGAWAI. Fathurahman Alhikmah, Erwin Budi Setiawan, Mahmud Imrona

SKRIPSI. Oleh : LAILI ISNA NUR KHIQMAH NIM :

PENERAPAN METODE RANDOM FOREST DALAM DRIVER ANALYSIS (The Application of Random Forest in Driver Analysis)

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

Volume 1, Nomor 2, Desember 2007

Penggunaan Pohon Keputusan untuk Data Mining

TAKSIRAN MODEL POHON REGRESI PIECEWISE LINEAR DENGAN ALGORITMA GUIDE

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II LANDASAN TEORI

SKRIPSI ANALISIS RASIO KEUANGAN DALAM MEMPREDIKSI PERUBAHAN LABA DIMASA YANG AKAN DATANG PADA PERUSAHAAN MANUFAKTUR YANG TERDAFTAR DI BEJ

IDENTIFIKASI FAKTOR-FAKTOR YANG MEMPENGARUHI MAHASISWA PASCASARJANA IPB BERHENTI STUDI MENGGUNAKAN ANALISIS CHAID DAN REGRESI LOGISTIK

BAB I PENDAHULUAN. sewajarnya untuk mempelajari cara bagaimana variabel-variabel itu dapat

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

Transkripsi:

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA CART ( CLASSIFICATION AND REGRESSION TREES ) ( STUDI KASUS PENYAKIT DIABETES SUKU PIMA INDIAN ) PT Jasa Marga ro) C abang Semarang SKRIPSI Disusun Oleh : KRISAN APRIAN WIDAGDO J2E 005 233 PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS DIPONEGORO 2010

DAFTAR ISI Halam an HALAMAN JUDUL... i HALAMAN PENGESAHAN I...ii HALAMAN PENGESAHAN II... iii KATA PENGANTAR... iv ABSTRAK... vi ABSTRACT... vii DAFTAR ISI...viii DAFTAR GAMBAR... xi DAFTAR TABEL...xiii DAFTAR LAMPIRAN... xv DAFTAR SIMBOL... xvi BAB I PENDAHULUAN 1.1 Latar Belakang... 1 1.2 Perumusan Masalah... 3 1.3 Pembatasan Masalah... 3 1.4 Tujuan Penelitian... 3 1.6 Sistematika Penulisan... 4 BAB II KONSEP DASAR 2.1 Teori Probabilitas... 5 2.2 Pernyataan... 10 2.3 Analisis Klasifikasi... 11

2.4 Bentuk atau Struktur Pohon Klasifikasi... 13 2.5 Masalah Umum Klasifikasi... 17 2.6 Diabetes Mellitus... 21 BAB III METODE POHON KLASIFIKASI BINER DENGAN ALGORITMA CART 3.1 CART (Classification And Regression Trees)... 29 3.2 Struktur atau Bentuk Pohon CART... 30 3.3 Binary Recursive Partitioning... 33 3.4 Himpunan Pertanyaan Standar (The Standar Set Of Questions)... 35 3.5 Langkah-Langkah Kerja CART... 36 3.5.1 Proses Pemecahan Node... 37 3.5.2 Pelabelan Kelas (Class Assignment)... 44 3.5.3 Proses Penghentian Pemecahan... 46 3.5.4 Proses Pemangkasan Pohon... 47 3.5.5 Pohon Klasifikasi Optimal... 52 3.6 Predictive Accuracy... 58 3.7 Intepretasi Pohon Klasifikasi... 61 3.8 Contoh Kasus... 63 3.8.1 Pembentukan Pohon Klasifikasi Kondisi Pertama... 64 3.8.2 Pembentukan Pohon Klasifikasi Kondisi Kedua... 73 3.8.3 Pembentukan Pohon Klasifikasi Kondisi Ketiga... 82 3.8.4 Pemilihan Kondisi yang Tepat... 92 3.8.1 Intepretasi Pohon Klasifikasi Terbaik... 93 BAB IV KESIMPULAN... 98

DAFTAR PUSTAKA... 100 LAMPIRAN... 102

ABSTRAK Metode klasifikasi CART (Classification And Regression Trees) merupakan metode nonparametrik yang berguna untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Metode klasifikasi CART terdiri dari dua metode yaitu metode pohon regresi dan pohon klasifikasi. Jika variabel dependen yang dimiliki bertipe kategorik maka CART menghasilkan pohon klasifikasi (classification trees). Sedangkan jika variabel dependen yang dimiliki bertipe kontinu atau numerik maka CART menghasilkan pohon regresi (regression trees). Proses pembentukan pohon klasifikasi terbagi menjadi 4 tahapan yaitu pembentukan pohon, pelabelan kelas, proses pemangkasan pohon klasifikasi dan pemilihan pohon klasifikasi optimal. Contoh penerapan metode pohon klasifikasi dipergunakan data penyakit diabetes mellitus suku Pima Indian. Data tersebut diperlakukan dalam tiga kondisi berbeda yaitu proporsi jumlah pembagian data learning lebih kecil dari data testing, proporsi jumlah pembagian data learning sama dengan data testing dan proporsi jumlah pembagian data learning lebih besar testing. Metode klasifikasi menghasilkan ketepatan klasifikasi terbaik pada proporsi jumlah pembagian data learning sama dengan data testing yaitu sebesar 84.83 %. Kedua kondisi lainnya menghasilkan nilai ketepatan klasifikasi sebesar 81.42% dan 81.75%. Kata Kunci : pohon klasifikasi, CART, diabetes mellitus

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah klasifikasi (pengelompokkan) sering dijumpai pada kehidupan seharihari, baik mengenai data sosial, data industri, data kesehatan maupun data perbankan. Masalah tersebut dapat diselesaikan dengan metode klasifikasi. Namun, pada penyelesaian masalah klasifikasi perlu diperhatikan dalam memilih metode klasifikasi yang tepat. Sebagai contoh dalam masalah kesehatan, apabila ingin mengelompokkan pasien yang terkena penyakit diabetes dan tidak terkena diabetes. Jika mengelompokkan pasien yang terkena penyakit diabetes ke dalam kelompok pasien yang tidak terkena penyakit diabetes merupakan kesalahan yang dapat berakibat cukup fatal. Metode klasifikasi dapat dilakukan dengan pendekatan parametrik dan pendekatan nonparametrik. Dalam pendekatan parametrik terdapat beberapa metode klasifikasi yang sering digunakan antara lain : Analisis Regresi Logistik, Analisis Diskriminan dan Analisis Regresi Probit. Regresi logistik dan regresi probit memiliki kelemahan, yaitu nilai yang dihasilkan model regresi logistik dan probit berupa nilai probabilitas yang dirasa kurang praktis (Webb dan Yohannes, 1999). Pada analisis diskriminan, data diharuskan memenuhi beberapa asumsi yaitu data harus berdistribusi normal multivariat dan matrik kovarian yang sama untuk setiap populasi (Breiman et al, 1984). Dengan adanya keterbatasan metode klasifikasi parametrik, maka digunakan pendekatan nonparametrik. Karena pendekatan tidak bergantung pada asumsi tertentu

sehingga memberikan fleksibilitas yang lebih besar dalam menganalisa data tetapi tetap mempunyai tingkat akurasi yang tinggi dan mudah dalam penggunaannya. Ada beberapa metode klasifikasi dengan pendekatan nonparametrik yang sering digunakan, salah satunya metode klasifikasi berstruktur pohon yang diperkenalkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone. Pada tahun 1984, keempat ilmuwan memperkenalkan metode klasifikasi CART (Classification And Regression Trees) yaitu metode pohon regresi dan pohon klasifikasi. Jika variabel dependen yang dimiliki bertipe kategorik maka CART menghasilkan pohon klasifikasi (classification trees), sedangkan jika variabel dependen yang dimiliki bertipe kontinu atau numerik maka CART menghasilkan pohon regresi (regression trees). Proses pembentukan pohon klasifikasi (CART) dikenal dengan istilah binary recursive partition. Proses disebut binary karena setiap parent node akan selalu mengalami pemecahan kedalam tepat dua child node. Sedangkan recursive berarti bahwa proses pemecahan tersebut akan diulang kembali pada setiap child nodes sebagai hasil pemecahan terdahulu, sehingga child nodes tersebut sekarang menjadi parent nodes. Proses pemecahan ini akan terus dilakukan sampai tidak ada kesempatan lagi untuk melakukan pemecahan berikutnya. Istilah partitioning berarti bahwa learning sample yang dimiliki dipecah kedalam bagian-bagian atau partisi-partisi yang lebih kecil (Lewis, 2000). Beberapa kelebihan metode pohon regresi dan pohon klasifikasi antara lain struktur datanya dapat dilihat secara visual, proses pengklasifikasian lebih mudah dilakukan dengan menelusuri pohon klasifikasi yang dihasilkan, dapat mengeksplorasi struktur data yang kompleks serta bersifat nonparametrik sehingga tidak memerlukan asumsi

tertentu yang sering tidak terpenuhi oleh data. 1.2 Perumusan Masalah Berdasarkan latar belakang tersebut maka digunakan klasifikasi dengan pendekatan nonparametrik yaitu pohon klasifikasi (CART). Permasalahan yang muncul adalah bagaimana cara pembentukan pohon klasifikasi biner dengan algoritma CART. 1.3 Pembatasan Masalah CART ( Classification And Regression Trees ) terdiri dari dua metode yang berbeda yaitu pohon klasifikasi dan pohon regresi. Dalam tugas akhir ini pembahasan hanya dilakukan pada pembentukan pohon klasifikasi. 1.4 Tujuan Tujuan penulisan tugas akhir ini adalah : 1. Membentuk pohon klasifikasi biner terbaik untuk melakukan sebuah prediksi. 2. Mengetahui interpretasi dari pohon klasifikasi biner yang terbentuk. 3. Mengaplikasikan pohon klasifikasi biner pada masalah kesehatan (penyakit diabetes). 1.5 Sistematika Penulisan Sistematika penulisan tugas akhir ini adalah sebagai berikut : Bab I merupakan bab pendahuluan yang berisi garis besar permasalahan yang akan dibahas dan diselesaikan sesuai dengan tujuan yang telah dirumuskan. Bab II berisi teori-teori yang mendukung dan mendasari penulisan ini yaitu mengenai konsep atau landasan teori mengenai teknik pohon klasifikasi dengan

menggunakan algoritma CART dan diabetes mellitus. Bab III merupakan bagian utama dari penulisan tugas akhir ini, mengenai aplikasi teknik pohon klasifikasi dengan menggunakan algoritma CART. Pembahasan difokuskan pada prinsipprinsip kerja dari algoritma CART. Beberapa bagian disertakan dengan contoh dan penerapan terhadap data penyakit diabetes beserta analisisnya. Bab IV berisi kesimpulan secara umum dari keseluruhan penelitian dan saran untuk pengembangan selanjutnya.