PRAKIRAAN SIFAT HUJAN MENGGUNAKAN METODE POHON KLASIFIKASI

dokumen-dokumen yang mirip
METODE KLASIFIKASI BERSTRUKTUR POHON BINER (STUDI KASUS PADA PRAKIRAAN SIFAT HUJAN BULANAN DI BOGOR) 1) T

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

PENENTUAN KONDISI OPTIMUM PADA PEMBENTUKAN POHON TERBAIK DENGAN METODE POHON KLASIFIKASI (CLASSIFICATION TREE)

Klasifikasi Kegiatan Partisipasi Ekonomi Perempuan Di Jawa Timur Dengan Pendekatan CART (Classification And Regression Trees)

Seminar Tugas Akhir. Analisis Klasifikasi Kesejahteraan Rumah Tangga di Propinsi Jawa Timur dengan Pendekatan CART ARCING. Surabaya, Juli 2011

PREFERENSI KARAKTERISTIK KOPI 3 IN 1 MENGGUNAKAN METODE POHON REGRESI DAN KLASIFIKASI FITRIYANTO

PENGARUH PERAN DOSEN PEMBIMBING TERHADAP KUALITAS TUGAS AKHIR (Studi Kasus : Mahasiswa Fmipa Unsyiah)

ANALISIS KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA FEM DAN FAPERTA MENGGUNAKAN METODE CHART

PENERAPAN METODE REGRESI BERSTRUKTUR POHON PADA PENDUGAAN LAMA PENYUSUNAN SKRIPSI MAHASISWA ARTIKEL ILMIAH

dari tahun pada stasiun pengamat yang berada di daerah Darmaga, Bogor.

JURNAL SAINS DAN SENI POMITS Vol. 3, No.1, (2014) ( X Print) D-54

KLASIFIKASI PENYAKIT DIABETES MELITUS DENGAN METODE CHAID (CHI SQUARE AUTOMATIC INTERACTION DETECTION) DAN CART (CLASSIFICATION AND REGRESSION TREE)

POHON KLASIFIKASI DAN POHON REGRESI KEBERHASILAN MAHASISWA PASCASARJANA PROGRAM STUDI STATISTIKA IPB

PENERAPAN METODE CART

HASIL DAN PEMBAHASAN

PENENTUAN FAKTOR-FAKTOR MEMILIH MEREK DENGAN METODE CART DAMAS ESMU HAJI

PERBANDINGAN KLASIFIKASI NASABAH KREDIT MENGGUNAKAN REGRESI LOGISTIK BINER DAN CART (CLASSIFICATION AND REGRESSION TREES) Abstract

BAB II TINJAUAN PUSTAKA. konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

PERBANDINGAN ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN REGRESI LOGISTIK BINER DAN CART (CLASSIFICATION AND REGRESSION TREES)

Analisis CART (Classification And Regression Trees) pada Faktor-Faktor yang Mempengaruhi Kepala Rumah Tangga di Jawa Timur Melakukan Urbanisasi

KLASIFIKASI SIFAT CURAH HUJAN BERDASARKAN INDIKATOR ENSO (EL-NINO SOUTHERN OSCILLATION) DI KABUPATEN NGAWI DENGAN MENGGUNAKAN METODE KLASIFIKASI POHON

BAB II LANDASAN TEORITIS

Klasifikasi Nilai Peminat SBMPTN (Seleksi Bersama Masuk Perguruan Tinggi Negeri) ITS dengan Pendekatan Classification and Regression Trees (CART)

TAKSIRAN MODEL POHON REGRESI PIECEWISE LINEAR DENGAN ALGORITMA GUIDE

Lampiran 1.1 Data Curah Hujan 10 Tahun Terakhir Stasiun Patumbak

PERBANDINGAN ANALISIS KLASIFIKASI NASABAH MENGGUNAKAN REGRESI LOGISTIK BINER DAN (CLASSIFICATION AND REGRESSION TREES)

BAB III METODE POHON KLASIFIKASI QUEST

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA CART ( CLASSIFICATION AND REGRESSION TREES ) ( STUDI KASUS PENYAKIT DIABETES SUKU PIMA INDIAN )

Persamaan Regresi Prediksi Curah Hujan Bulanan Menggunakan Data Suhu dan Kelembapan Udara di Ternate

Prediksi Nilai Indeks Harga Konsumen (IHK) Kota Jambi Menggunakan Radial Basis Function Neural Network (RBFNN) dengan Metode Fuzzy C-Means Clustering

METODE POHON REGRESI DAN PROSEDUR REGRESI BERTATAR UNTUK SEGMENTASI DATA

Model Machine Learning CART Diabetes Melitus

Pendekatan Metode Classification and Regression Tree untuk Diagnosis Tingkat Keganasan Kanker pada Pasien Kanker Tiroid

BAB IV PENGOLAHAN DATA

Perbaikan Metode Prakiraan Cuaca Bandara Abdulrahman Saleh dengan Algoritma Neural Network Backpropagation

METODOLOGI PENELITIAN

METODE POHON GABUNGAN PADA CART UNTUK ANALISA KESEJAHTERAAN RUMAH TANGGA DI BANJARMASIN

IDENTIFIKASI FAKTOR-FAKTOR YANG MEMPENGARUHI MAHASISWA PASCASARJANA IPB BERHENTI STUDI MENGGUNAKAN ANALISIS CHAID DAN REGRESI LOGISTIK

BAB 3 METODOLOGI PENELITIAN. maka di kembangkan kerangka pemikiran penelitian sebagai berikut: ketinggian

Klasifikasi Risiko Infeksi pada Bayi Baru Lahir di Rumah Sakit Umum Daerah Sidoarjo Menggunakan Metode Classification Trees

TINJAUAN PUSTAKA. Matriks adalah suatu susunan bilangan berbentuk segi empat. Bilangan-bilangan

ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN BOOTSTRAP AGGREGATING CLASSIFICATION AND REGRESSION TREES (BAGGING CART)

IV HASIL DAN PEMBAHASAN

PENERAPAN ANALISIS POHON REGRESI PADA DATA PERLINDUNGAN SOSIAL PUTRI DWI ANDINI

ANALISA KETERSEDIAAN AIR

Klasifikasi Variabel Penentu Kelulusan Mahasiswa FMIPA Unpatti Menggunakan Metode CHAID

KATA PENGANTAR. Kami ucapkan terima kasih yang sebesar-besarnya kepada semua pihak yang telah membantu penerbitan publikasi prakiraan musim hujan ini.

PREDIKSI NASABAH POTENSIAL MENGGUNAKAN METODE KLASIFIKASI POHON BINER

L A M P I R A N D A T A H A S I L A N A L I S I S

PENDEKATAN CART UNTUK MENDAPATKAN FAKTOR YANG MEMPENGARUHI TERJANGKITNYA PENYAKIT DEMAM TIFOID DI ACEH UTARA

PERAMALAN CURAH HUJAN KOTA PONTIANAK DENGAN DEKOMPOSISI SENSUS II

PEMODELAN FREKUENSI PETIR DI BOGOR MENGGUNAKAN PENDEKATAN LOGIKA FUZZY PENDAHULUAN

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

BAB I PENDAHULUAN. A. Latar Belakang

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

Pendekatan Metode Classification and Regression Tree untuk Diagnosis Tingkat Keganasan Kanker pada Pasien Kanker Tiroid

KLASIFIKASI KETAHANAN PANGAN RUMAH TANGGA DI SURABAYA DENGAN PENDEKATAN CART ARCING

APLIKASI ALGORITMA CART UNTUK MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA

KAJIAN TELBS PADA REGRESI LINIER DENGAN KASUS PENCILAN

CH BULANAN. Gambar 3. Curah hujan bulanan selama percobaan lapang

PENERAPAN METODE RANDOM FOREST DALAM DRIVER ANALYSIS NARISWARI KARINA DEWI

TAHUN TOTAL RATAAN

Bab II LANDASAN TEORI

UJIAN TUGAS AKHIR EKA NOVI NURHIDAYATI. Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember 2012

BAB 1 PENDAHULUAN. 1.1 Pendahuluan. Universitas Sumatera Utara

OPTIMASI PARAMETER α DAN γ DALAM PEMULUSAN EKSPONENSIAL DUA PARAMETER DENGAN METODE MODIFIKASI GOLDEN SECTION

BAB V ANALISA DAN PEMBAHASAN

5 MODEL ADITIF VECTOR AUTOREGRESSIVE EXOGENOUS

Klasifikasi Hasil Pap Smear Test Kanker Serviks Berdasarkan Faktor Resiko (Studi Kasus Di Rumah Sakit Swasta Surabaya

1. Penentuan peubah-peubah dan nilai-niiai pemilah. 2. Penentuan simpul terminal

Seminar Hasil Tugas Akhir

BAB IV PEMBAHASAN DAN HASIL

6 EVALUASI SKILL MODEL

SIMULASI PENGUKURAN KETEPATAN MODEL VARIOGRAM PADA METODE ORDINARY KRIGING DENGAN TEKNIK JACKKNIFE

PENERAPAN TEORI RUN UNTUK MENENTUKAN INDEKS KEKERINGAN DI KECAMATAN ENTIKONG

METODE QUEST DAN CHAID PADA KLASIFIKASI KARAKTERISTIK NASABAH KREDIT

PIKA SILVIANTI, M.SI

Hary Mega Gancar Prakosa Dosen Pembimbing Dr. Suhartono, S.Si, M.Sc Co Pembimbing Dr. Bambang Wijanarko Otok, S.Si, M.

PENDEKATAN CART UNTUK MENDAPATKAN FAKTOR YANG MEMPENGARUHI TERJANGKITNYA PENYAKIT DEMAM TIFOID DI ACEH UTARA

METODE BOOTSTRAP DALAM INFERENSI MODEL REGRESI POLINOMIAL

PPDAFTAR GAMBAR Gambar Halaman Yuni Melawati, 2013

IV. HASIL DAN PEMBAHASAN

Taufiq Kurniawanl, Aunuddin2, Yayah K. Wagion03. Abstrak

ANALISIS DERET BERKALA MULTIVARIAT DENGAN MENGGUNAKAN MODEL FUNGSI TRANSFER: STUDI KASUS CURAH HUJAN DI KOTA MALANG

PERAMALAN PENJUALAN PRODUKSI TEH BOTOL SOSRO PADA PT. SINAR SOSRO SUMATERA BAGIAN UTARA TAHUN 2014 DENGAN METODE ARIMA BOX-JENKINS

PENERAPAN METODE RANDOM FOREST DALAM DRIVER ANALYSIS (The Application of Random Forest in Driver Analysis)

BAB II LANDASAN TEORI

MODEL TEMPERATUR UNTUK PENDUGAAN EVAPORASI PADA STASIUN KLIMATOLOGI BARONGAN, BANTUL. Febriyan Rachmawati

PERBANDINGAN METODE RUNTUN WAKTU FUZZY-CHEN DAN FUZZY- MARKOV CHAIN UNTUK MERAMALKAN DATA INFLASI DI INDONESIA

JURNAL SAINS DAN SENI ITS Vol. 4, No.2, (2015) ( X Print) A-31

BAB III PEMBAHASAN. FRBFNN, Arsitektur FRBFNN, aplikasi FRBFNN untuk meramalkan kebutuhan

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

PENERAPAN METODE CHAID DAN REGRESI LOGISTIK DALAM ANALISIS SEGMENTASI PASAR KONSUMEN AQUA DIMAS FAJAR AIRLANGGA

EVALUASI MUSIM HUJAN 2007/2008 DAN PRAKIRAAN MUSIM KEMARAU 2008 PROVINSI BANTEN DAN DKI JAKARTA

BAB III METODE PENELITIAN. PDAM kota Subang terletak di jalan Dharmodiharjo No. 2. Kecamatan

IV. HASIL DAN PEMBAHASAN

ANALISIS MUSIM KEMARAU 2011 DAN PRAKIRAAN MUSIM HUJAN 2011/2012 PROVINSI DKI JAKARTA

IDENTIFIKASI VARIABEL YANG MEMPENGARUHI BESAR PINJAMAN DENGAN METODE POHON REGRESI (Studi Kasus di Unit Pengelola Kegiatan PNPM Mandiri)

BAB V HASIL DAN PEMBAHASAN

Transkripsi:

Statistika, Vol. 1, No. 1, Mei 2013 PRAKIRAAN SIFAT HUJAN MENGGUNAKAN METODE POHON KLASIFIKASI Dwi Haryo Ismunarti Jurusan Ilmu Kelautan, Fakultas Perikanan dan Ilmu Kelautan, UNDIP Email: dwiharyois@gmail.com ABSTRAK Metode pohon klasifikasi digunakan untuk menduga nilai variabel respon berjenis kategorik, sedangkan variabel bebasnya dapat berjenis kategorik, kontinu atau keduanya. Pohon dibentuk menggunakan algoritma pemilahan secara rekursif terhadap himpunan data pengamatan dan himpunan bagiannya. Pohon klasifikasi untuk prakiraan sifat hujan bulanan menghasilkan Pohon klasifikasi optimum dengan 22 buah simpul terminal dengan nilai harapan tingkat kesalahan pengklasifikasian sebesar 0,33. Variabel Kelembaman nisbi pada jam 13.00 merupakan variabel yang paling berpengaruh. Metode pohon klasifikasi memberikan ketepatan 80% untuk prakiraan sifat hujan. Kata kunci : pohon klasifikasi. variabel kategorik. PENDAHULUAN Eksplorasi data menggunakan metode pohon klasifikasi dikembangkan Breiman et al (1984) yaitu Classification and Regression Trees (CART). Metode pohon klasifikasi menggunakan algoritma THAID ( Theta Automatic Interaction Detection) yang dikembangkan oleh Messenger dan Morgan (Jackson, 1983). Didalam algoritma ini ada 3 tahap pengerjaan berulang untuk memperoleh pohon klasifikasi yang terbaik yaitu : pembentukan pohon, pemangkasan dan pemilihan pohon optimum. Kelebihan penggunaan pohon klasifikasi ini adalah antara lain dapat menangani struktur data yang komplek, interpretasi lebih mudah untuk masing-masing grupnya, identifikasi variabel yang berpengaruh sangat mudah, mempunyai kemampuan untuk mengidentifikasi interaksi antar variabel yang berpengaruh secara lokal sebagai akibat diterapkannya pengambilan keputusan secara bertahap dalam himpunan-himpunan pengukuran. Dalam suatu penelitian peubah respon tidak selalu merupakan variable terukur yang bersifat kuantitatif. Adakalanya struktur data respon bersifat kualitatif atau kategorik. Nilai peubah kategorik hanya bersifat mengkelaskan observasi ke dalam kelas yang terpisah. Pada penelitian ini pohon klasifikasi akan diterapkan untuk memperkirakan sifat hujan bulanan. Sifat hujan dibedakan atas tiga kategori yaitu Bawah Normal, Normal dan Diatas Normal. Klasifikasi menempatkan sifat hujan ke dalam variabel kategorik. Sedangkan variabel bebasnya merupakan variabel terukur, yaitu: suhu, tingkat penyinaran matahari, tekanan udara, kelembaban nisbi, http://jurnal.unimus.ac.id 6

indeks osilasi yang merupakan variabel kontinyu. Metode prakiraan sifat hujan bulanan yang digunakan selama ini adalah regresi linier. Fungsi sebaran variabel yang kontinu yaitu fungsi sebaran normal yang melandasi analisis regresi linear ternyata tidak selalu mencerminkan pola sebaran data yang ada. Tidak terpenuhinya asumsi fungsi sebaran variabel pada metode pendugaan optimum dari analisis regresi linear akan mengakibatkan ketidaktepatan pendugaan ( Aunuddin, 1989 ) dan model yang didapatkan tidak dapat diandalkan (Myers, 1990) Metode pohon klasifikasi (Clasification Trees) dari himpunan data merupakan transformasi monotonik yang akan memilahkan variabel tak bebas y yang berjenis kategorik berdasarkan variabel-variabel bebas x berjenis kategorik, kontinyu ataupun kombinasi keduanya. Berdasarkan jenis variabelnya maka metode pohon klasifikasi dapat diterapkan untuk memperkirakan sifat hujan bulanan. Analisis data digunakan dengan program S Plus 2000. METODE PENELITIAN Penerapan metode pohon klasifikasi ini digunakan data sekunder yaitu data klimatologi bulanan yang diamati stasiun klimatologi klas I di Semarang. Data dibagi menjadi 2 kelompok yaitu kelompok data inisialisasi untuk pembentukan model dan kelompok data pengujian (Makridakis dkk, 1988). Kelompok data inisialisasi terdiri dari 240 data klimatologi yaitu 20 tahun x 12 bulan pengamatan. Sedangkan data pengujian terdiri dari 13 data yaitu Nopember 2002 sd Nopember 2003. Variabel responnya adalah sifat hujan bulanan berjenis kategorik yang nilainya : 7 a. 0 (bawah normal=) jika jumlah curah hujan bulanan < 0,85 x normal curah hujan; b. 1 (normal =N) jika 0,85 x normal curah hujan jumlah curah hujan bulanan 1,15 x normal curah hujan; c. 2 (atas normal = AN) jika jumlah curah hujan bulanan > 1,15 x normal curah hujan. Normal curah hujan suatu bulan diperoleh dengan menghitung rata-rata curah hujan bulan tersebut dari mulai data ada sampai tahun sebelum diprakirakan. Sedangkan variabel penjelasnya yang diamati terdiri dari variabel : 1. Suhu( 0 C) pada : jam 07. 00 wib; jam 13. 00 wib; jam 18. 00 wib, suhu terbesar; dan suhu terkecil. 2. Tingkat penyinaran matahari dalam % 3. Tekanan udara dalam mb 4. Kelembaban nisbi dalam % pada : jam 07. 00 wib; jam 13. 00 wib; jam 18. 00 wib 5. Sifat hujan bulan sebelumnya 6. Indeks osilasi selatan yaitu beda tekanan udara antara Tahiti dan Darwin dihitung berdasarkan IOS =10 x [ dp(tahiti) dp(darwin)]/ sd Dp = anomali tekanan udara Sd = standar deviasi beda dua anomaly tekanan di Tahiti dan Darwin

Pembentukan pohon klasifikasi meliputi tiga tahapan : Pemilihan pemilah, penentuan simpul dan penandaan kelas. Pemilahan variabel adalah dengan cara memeriksa nilai dari variabel-variabel bebas. Untuk jenis variabel kontinu atau variabel ordinal pemilahan berbentuk x t lawan x t; t R. j j Sedangkan untuk variabel kategorik dengan L taraf akan dibagi menjadi dua himpunan bagian yang saling lepas. Kebaikan pemilah didefinisikan sebagai turunnya keheterogenan yaitu: i( s, t) i( t) pli( tl ) pri( tr Ketika penurunan nilai keheterogenan dari simpul ke-t tidak lagi berarti atau banyaknya objek ) terklasifikasi cukup kecil maka pengembangan pohon akan dihentikan dan simpul t ditetapkan sebagai simpul terminal. Struktur pohon klasifikasi adalah berupa pohon biner yang kemudian akan mempartisi ruang X ke dalam dua himpunan bagian. Dimulai dari X 1 yang dinamakan simpul akar (root node) dipilah menjadi X 2 dan X 3 kemudian X 2 dipilah menjadi X 4 dan X 5 sedang X 3 dipilah menjadi X 6 dan X 7 pemilahan akan berhenti/berakhir pada suatu terminal subset atau simpul akhir (terminal node) yaitu X 4, X 5, X 6 dan X 7 (gambar 1). Di dalam simpul akhir akan diperoleh suatu nilai yang merupakan prediksi dari variabel respon tersebut. X 1 X 2 X 3 X X 5 X 6 4 X7 Misalkan X ruang ukuran yang memuat q vektor atau X ={X 1, X 2,... X q } dan Y himpunan bilangan real. Variabel X i X dinamakan variabel bebas atau variable prediksi dan variabel Y disebut variabel tak bebas atau variable respon. Suatu himpunan data adalah variabel random berdistribusi bersama (X,Y) dengan XR q (Getfard, 1991). Dari himpunan data (X,Y) akan didefinifikan suatu fungsi bernilai real d(x) pada X yang merupakan estimator dari Y. Definisi 1 : Fungsi d(.) didefinisikan pada X. d(.): x X d(x) = y, y Y. Gambar 1. Struktur pohon klasifikasi 8 Definisi 2: MSE R * (d) dari d didefinisikan sebagai : R * (d) = E [( Y d(x)] 2 Di dalam pohon klasifikasi R * (d) merupakan ukuran kesalahan pohon yang disebut misclassification rate. Dapat diartikan R * (d) sebagai harapan kesalahan kuadrat yang dipergunakan d(x) sebagai prediksi dari Y (Brieman,et al, 1993). Masalah pertama dalam pembentukan pohon klasifikasi adalah bagaimana menggunakan sampel yang ada untuk menentukan pemilah biner sehingga simpul akar (root node) t dipilah dalam himpunan bagianhimpunan bagian turunannya. Pemilahan ini akan menyebabkan himpunan bagian tersebut lebih

homogen dibanding dengan induknya (Brieman et al, 1993). Misalkan suatu pemilah s membagi suatu simpul t kedalam simpul kiri t l dan simpul kanan t R, maka nilai penurunan dari suatu pohon diberikan oleh : R(s,t) = R(t) - R(t L ) R(t R ). Kriteria pemilah terbaik s diturunkan dari fungsi pemilah R(s,t) yang di evaluasi dari pemilah s pada suatu simpul t. Pemilah terbaik dari suatu simpul t adalah pemilah tersebut mempunyai nilai penurunan R( s, t ) yang terbesar. Sehingga pemilah terbaik adalah yang memaksimumkan nilai dari R(s, t) tersebut yaitu untuk S himpunan semua calon pemilah: R(s *,t) = max R( s, t). ss Pembentukan pohon dengan kriteria seperti diatas menyebabkan pohon terlalu besar. Permasalahan ini diatasi dengan memangkas (prune) pohon tersebut sehingga diperoleh suatu pohon klasifikasi berukuran optimum ( right size tree). Suatu ukuran yang dipergunakan di dalam pemangkasan pohon klasifikasi disebut minimal costcoplexity pruning sebagai berikut : yang didefinisikan Definisi 3: Untuk suatu pohon bagian TT max, didefinisikan complexity sebagai T adalah jumlah simpul terminal didalam T. Misal 0 suatu bilangan real adalah parameter complexity maka ukuran cost-complexity adalah R (T) = R(T) + T. Dengan R(T) adalah ukuran kesalahan pohon T yaitu jumlah kuadrat sisaan dant adalah ukuran complexity yaitu banyaknya simpul terminal. Pemangkasan dimulai secara * berturut-turut dari pohon bagian yang kurang penting dengan tingkat kepentingan pohon bagian diukur oleh ukuran cost-complexity. Untuk sembarang T t yang merupakan cabang dari T t diberikan ukuran cost complexity dari {t} yaitu subcabang dari T t yang mempunyai satu simpul. Ukuran cost-complexity subcabang {t} adalah R ({t}) = R ( t ) +. Ukuran cost-complexity dari cabang T t adalah R ( T t ) = R ( T t ) + T. Sehingga diperoleh : R ( T t ) < R ( { t } ), artinya cabang T t mempunyai cost complexity lebih kecil daripada subcabang T t yang terdiri dari satu simpul { t }. Suatu nilai kritis dari diperoleh jika dua ukuran cost complexity tersebut sama yaitu R ( T t ) = R ( { t } ), sehingga nilai adalah = R( t) R( Tt ). T 1 t Didefinisikan suatu fungsi g 1 (t). untuk setiap t T 1. g 1 (t) = R ( t ) R ( T t ), t T 1 T t 1, t T1 dengan T 1adalah himpunan simpul terminal pohon T 1, maka kriteria pemangkasan di dalam T 1 adalah pilih t T t suatu simpul sedemikian sehingga: g 1 (t 1 ) = min g 1 ( t) tt Algoritma di atas dikerjakan secara berulang sehingga diperoleh barisan pohon yang menurun yaitu : T 1 > T 2 >... > {t 1 }. 1 9

Setelah proses pemangkasan tersebut akan diperoleh suatu pohon tersarang dan semakin mengecil T 1 > T 2 >... > {t 1 } dengan nilai R(T) yang semakin kecil, hal ini menimbulkan masalah sebab dengan kriteria ini akan cenderung memilih pohon yang terbesar dengan nilai R(T) yang terkecil sedang pohon terbesar menyebabkan tidak sederhananya pola data. Untuk mengatasi hal tersebut perlu dipilih pohon yang optimum yaitu pohon yang berukuran sederhana sedemikian hingga nilai R(T) juga cukup kecil dan sudah cukup mampu menggabarkan dari sruktur data yang ada ( Brieman et.al.1993). memberikan dua metode estimasi terbaik untuk hal tersebut, yaitu: estimasi sampel uji R ts (T) dan cross validation V-fold estimate R CV (T). Pada estimasi sampel uji himpunan pengamatan L dibagi secara random ke dalam pengamatan L 1 dan L 2. Himpunan data L 1 digunakan untuk pertumbuhan pohon sehingga merupakan barisan pohon {T k } yang merupakan hasil dari pemangkasan. Diambil d k (x) yang dipergunakan sebagai estimator dari Y yang berkorespodensi dengan pohon T k, apabila L 2 mempunyai N 2 amatan maka nilai dari R(T) dilambangkan dengan R (ts) (T k ) adalah: R (ts) (T k ) = 1 2 ( yn d( xn )) N 2 ( x, y ) L n n 2 dimana pohon yang optimum (T * ) dipilih sedemikian hingga memenuhi kriteria sebagai berikut: R ts (T * ) = min R ts (T k ) Estimasi validasi silang lipat V ( cross validation V-fold ) banyak digunakan dalam keperluan aplikasi k dengan nilai estimasinya adalah: V CV 1 ( V ) 2 R ( Tk ) ( yn d k ( xn)) N 1 ( Xn, Y ) L. Pohon optimum (T * ) adalah pohon yang memenuhi kriteria : R CV (T * ) = n V min R CV (T k ) HASIL DAN PEMBAHASAN Pohon klasifikasi maksimum diperoleh tardapat pada Gambar 2 dan dapat dijelaskan sebagai berikut: 1. Metode pohon klasifikasi membagi data sebanyak 240 kedalam dua grup (simpul ke-2 dan ke-3) dengan pemilah pertama adalah kelembaban nisbi pada jam 13 sebesar 49.5 % (RH13<49.5) dengan data yang memenuhi sebanyak 43 buah untuk simpul ke- 2 dan (RH13>49.5) sebanyak 197 buah untuk simpul yang ke-3. Dengan prakiraan sifat hujan untuk simpul ke-2 adalah dibawah normal (BW) dan prakiraan sifat hujan di atas normal (AN) untuk simpul yang ke-3. 2. Simpul ke-2 membagi data kedalam 2 kelompok yaitu simpul ke-4 dengan jumlah datanya sebanyak 28 buah dan simpul ke-5 dengan data sebanyak 15. Dengan prakiraan sifat hujan untuk simpul ke-4 adalah dibawah normal (BW) dan prakiraan sifat hujan di atas normal (AN) untuk simpul yang ke- 5. Simpul ke-4 ini kemudian dipilah lagi dengan pemilah kelembaban nisbi jam 13 sebesar 68.5 % yaitu RH13<68.5 dan simpul ke-5 dipilah lagi dengan pemilah RH13>68.5. k 10

Statistika, Vol. 1, No. 1, Mei 2013 Selanjutnya pohon klasifikasi maksimum yang terbentuk dipangkas secara iteratif menjadi deretan pohon yang makin kecil dan tersarang dengan berdasarkan aturan pemangkasan cost Gambar 2. Pohon klasifikasi maksimum yang terbentuk complexity minimum (Breimen et al, 1993). Pohon klasifikasi optimum diperoleh dari pemangkasan seperti tampak pada (Gambar 3). RH13<49.5 RH18<68.5 TA.MAX<35.85 T07<24.45 TA.MIN<21.75 T13<30.95 TA.MIN<22.75 T18<28.65 T13<31.15 RH13<59.5 T13<30.4 RH07<89.5 RH18<73.5 AN T18<28.35 T13<32.45 T13<29.25 TA.MAX<32.7 T07<24.95 AN RH13<76.5 AN ANTA.MIN<21 TA.MIN<22.65AN AN AN N AN AN N AN Gambar 3. Pohon Klasifikasi Optimum setelah pemangkasan http://jurnal.unimus.ac.id 11

Variabel penjelas yang pertama memilah adalah variabel kelembaman nisbi suhu pada jam 13.00 sehingga variabel ini merupakan variabel yang dominan. Pada proses ini terbentuk sebanyak 22 buah simpul terminal dengan kesalahan pengklasifikasiannya sebesar 0,33. Hal ini berarti bahwa pohon klasifikasi yang diperoleh mempunyai ketepatan 67 %. Pada simpul utama (root node ) data sebanyak 240 dibagi mejadi dua kelompok kiri dan kanan yang dipilah Juli berdasarkan varibel kelembabab nisbi sebesar 49.5 % (RH13<49.5). Data yang mempunyai rata-rata kelembaman nisbi pada jam 13.00 kurang dari 49.5% sebanyak 43 buah mengelompok di simpul ke-2 dan yang lebih besar dari 49.5% mengelompok di simpul ke-3 sebanyak 197 buah. Pada simpul ke-2 dengan pemilah kelembaman nisbi pada jam 13.00 RH13<49.5 terdiri dari datadata bulan Agustus 1998, September 1998, Juli 1994, Agustus 1994, Tabel 1. Prakiraan sifat hujan bulan dengan metode Pohon klasifikasi Th/bln T07 T13 T18 Tmaks TMIN RH07 RH13 RH18 Curah Sifat Prakiraan o C o C o C o C o C % % % Mm (Xi) (Fi) NOV 02 26.4 33.2 28.8 22.7 24.5 81 56 72 272 AN AN DES 02 26.7 31.1 28.7 31.8 24.9 84 68 76 148 N * JAN 03 25.6 30.2 28.2 30.8 24.6 89 72 77 373 N N FEB 03 25.4 29.1 26.8 29.8 24.5 90 78 86 568 AN AN MRT 03 25.8 30.4 28.1 31.1 24.8 88 72 80 173 APR 03 26.4 31.1 28.6 31.6 24.6 82 63 58 262 AN AN MEI 03 24.9 31.1 28.7 31.3 23.9 81 53 68 134 N AN * JUN 03 25.4 32.3 29.6 32.9 24.5 79 50 67 0 JUL 03 24 32.6 28.6 33.2 23.1 78 45 69 0 AGS 03 24.4 30.8 27.8 32.3 22.5 72 45 68 0 SEP 03 25.4 31.9 28.2 32.6 23 75 46 66 106 AN AN OKT 03 26.2 31.9 28.6 32.7 24.6 80 58 72 264 AN AN NOV 03 26.4 31.2 28.3 31.9 24.7 81 64 75 262 AN AN tidak sesuai Dalam banyak situasi peramalan, ketepatan merupakan kriteria diterima atau ditolaknya suatu model peramalan. Ketepatan menunjukkan seberapa jauh model peramalan mampu mereproduksi data. Bagi pemakai peramalan ketepatan ramalan yang akan datang merupakan hal yang penting. yang akan digunakan relatif Ukuran ketepatan adalah ukuran yaitu nilai tengah kesalahan persentase absolut (Mean Absolute Percentage Error MAPE) (Makridakis,1988). 12

Statistika, Vol. 1, No. 1, Mei 2013 Tabel 2. Penghitungan MAPE Th/bln Sifat hujan Xi Prakiraan Kesalahan Fi Xi - Fi Xi - Fi /Xi 100 NOV 02 AN 3 AN 3 0 0 DES 02 1 N 2-1 100 JAN 03 N 2 N 2 0 0 FEB 03 AN 3 AN 3 0 0 MRT 03 1 1 0 0 APR 03 AN 3 AN 3 0 0 MEI 03 N 2 AN 3-1 50 JUN 03 1 1 0 0 JUL 03 1 1 0 0 AGS 03 1 1 0 0 SEP 03 AN 3 AN 3 0 0 OKT 03 AN 3 AN 3 0 0 NOV 03 AN 3 AN 3 0 0 Catt : = 1 jumlah 150 N = 2 MAPE 11.54 AN = 3 Dari tabel 2 di atas tingkat kesalahan peramalan prakiraan sifat hujan bulanan yang dibuat dengan metode klasifikasi adalah sebesar 11.54 % sedangkan tingkat ketepatan peramalan adalah sebesar 88.46 %. Ketepatan metode ini jauh lebih besar dibandingkan ketepatan metode yang digunakan oleh BMG selama ini yaitu dibawah 50 % (Hadiyanto,1994). KESIMPULAN Pohon klasifikasi optimum mengandung 22 buah simpul terminal dengan nilai harapan tingkat kesalahan pengklasifikasian sebesar 0,33. Variabel Kelembaman nisbi suhu pada http://jurnal.unimus.ac.id 13 jam 13.00 merupakan variabel yang paling berpengaruh. Metode pohon klasifikasi memberikan ketepatan 88.46% untuk prakiraan sifat hujan pada bulan November 2002 November 2003. DAFTAR PUSTAKA Aunuddin. 1989. Analisis Data. PAU Ilmu Hayat Institut Pertanian Bogor, Bogor. Breiman, L., et al. 1993. Classification and Regression Trees. New York. Chapman & Hall. Chou, P. A. 1991. Optimal Partitioning for Classification and Regression Trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 13, No. 4.

CMyers, R.H. 1990. Clasical and Modern Regression with Application. PWS-Kent Publishing Comp: Boston. Gelfand, S. B., Ravishankar, C. S. dan Delp, E. J. 1991. An Iterative Growing and Pruning Classification Tree Design. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 13, No. 2. Hadiyanto, S. 1994. Metode Prakiraan Sifat Hujan Bulanan. Bidang Ramalan dan Jasa, Badan Meteorologi Dan Geofisika Balai Wilayah II (tidak dipublikasikan). Handoko. 1995. Klimatologi Dasar. Ed. Ke-2 Pt Dunia Pustaka Jakarta. Jackson, B.B. 1983. Multivariate Data Analysis An Introduction. Richard D. Irwin, Homewood, Illinois. Makridakis, S, S.C. Wheelwright dan V.C. MvGee. 1988. Metode dan Aplikasi Peramalan. Ed. Terjemahan Andriyanto, U.S. dan A. Basith. Penerbit Erlangga, Jakarta Miller, A., R.A. Anthes. 1985. Meteorology. Abell and Howwel Company Columbus 14 7