TAKSIRAN MODEL POHON REGRESI PIECEWISE LINEAR DENGAN ALGORITMA GUIDE

dokumen-dokumen yang mirip
BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

POHON KLASIFIKASI DAN POHON REGRESI KEBERHASILAN MAHASISWA PASCASARJANA PROGRAM STUDI STATISTIKA IPB

Seminar Tugas Akhir. Analisis Klasifikasi Kesejahteraan Rumah Tangga di Propinsi Jawa Timur dengan Pendekatan CART ARCING. Surabaya, Juli 2011

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST (QUICK, UNBIASED, AND EFFICIENT STATISTICAL TREE) PADA DATA PASIEN LIVER

METODE QUEST DAN CHAID PADA KLASIFIKASI KARAKTERISTIK NASABAH KREDIT

PENENTUAN KONDISI OPTIMUM PADA PEMBENTUKAN POHON TERBAIK DENGAN METODE POHON KLASIFIKASI (CLASSIFICATION TREE)

BAB III METODE POHON KLASIFIKASI QUEST

Amalia Maharani, Dewi Retno Sari Saputro, dan Bowo Winarno Program Studi Matematika FMIPA UNS

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA CART ( CLASSIFICATION AND REGRESSION TREES ) ( STUDI KASUS PENYAKIT DIABETES SUKU PIMA INDIAN )

BAB I PENDAHULUAN. atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri.

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

BAB I PENDAHULUAN. Analisis regresi merupakan suatu metode yang digunakan untuk

KLASIFIKASI PENYAKIT DIABETES MELITUS DENGAN METODE CHAID (CHI SQUARE AUTOMATIC INTERACTION DETECTION) DAN CART (CLASSIFICATION AND REGRESSION TREE)

Klasifikasi Kegiatan Partisipasi Ekonomi Perempuan Di Jawa Timur Dengan Pendekatan CART (Classification And Regression Trees)

BAB II TINJAUAN PUSTAKA. konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma

BAB I PENDAHULUAN 1.1.Latar Belakang Masalah

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST SKRIPSI SARJANA MATEMATIKA. Oleh: YONA MALANI

BAB IV ANALISA HASIL DAN PEMBAHASAN

BAB II LANDASAN TEORI

ANALISIS KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA FEM DAN FAPERTA MENGGUNAKAN METODE CHART

LEAST SQUARE AND RIDGE REGRESSION ESTIMATION ABSTRAK ( ) = ( + ) Kata kunci: regresi linear ganda, multikolinearitas, regresi gulud.

BAB I PENDAHULUAN 1.1 Latar Belakang

STK 511 Analisis statistika. Materi 7 Analisis Korelasi dan Regresi

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

III. METODE PENELITIAN. Jenis data yang digunakan dalam penelitian ini adalah data sekunder deret waktu

BAB II LANDASAN TEORI. : Ukuran sampel telah memenuhi syarat. : Ukuran sampel belum memenuhi syarat

PENERAPAN METODE REGRESI BERSTRUKTUR POHON PADA PENDUGAAN LAMA PENYUSUNAN SKRIPSI MAHASISWA ARTIKEL ILMIAH

PENGUJIAN HETEROSKEDASTISITAS PADA REGRESI EKSPONENSIAL DENGAN MENGGUNAKAN UJI PARK

BAB IV ANALISIS HASIL DAN PEMBAHASAN

Analisis Regresi Spline Kuadratik

BAB IV ANALISIS DAN PEMBAHASAN

PEMODELAN PRINCIPAL COMPONENT REGRESSION DENGAN SOFTWARE R

BAB I PENDAHULUAN. menganalisis hubungan fungsional antara variabel prediktor ( ) dan variabel

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB III LANDASAN TEORI

BAB 4 PEMBAHASAN HASIL PENELITIAN

PENGARUH PERAN DOSEN PEMBIMBING TERHADAP KUALITAS TUGAS AKHIR (Studi Kasus : Mahasiswa Fmipa Unsyiah)

PEMODELAN REGRESI SPLINE (Studi Kasus: Herpindo Jaya Cabang Ngaliyan)

Biaya operasional terendah adalah dialami oleh PT. Centrin Online Tbk (CENT), dan tertinggi di alami oleh Mitra Adi Perkasa Tbk (MAPI

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

REGRESI LINIER GANDA. Fitriani Agustina, Math, UPI

BAB II TINJAUAN PUSTAKA. satu peubah prediktor dengan satu peubah respon disebut analisis regresi linier

BAB II LANDASAN TEORI

BAB IV METODE PENELITIAN. dilakukan secara sengaja (purposive) melihat bahwa propinsi Jawa Barat

UJM 3 (2) (2014) UNNES Journal of Mathematics.

ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN METODE PARTIAL LEAST SQUARES

REGRESI LINIER NONPARAMETRIK DENGAN METODE THEIL

PEMODELAN PENDAPATAN ASLI DAERAH (PAD) DI KABUPATEN DAN KOTA DI JAWA TENGAH MENGGUNAKAN GEOGRAPHICALLY WEIGHTED RIDGE REGRESSION

BAB IV HASIL DAN PEMBAHASAN. yang telah dilakukan. Hasil dan pembahasan ini terdiri dari kualitas website, uji

PENERAPAN REGRESI LINIER MULTIVARIAT PADA DISTRIBUSI UJIAN NASIONAL 2014 (Pada Studi Kasus Nilai Ujian Nasional 2014 SMP Negeri 1 Sayung)

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. A. Pengaruh Rasio Profitabilitas, Rasio Solvabilitas Dan Rasio Likuiditas Terhadap

BAB IV ANALISIS HASIL DAN PEMBAHASAN

PENGUJIAN KESAMAAN BEBERAPA MODEL REGRESI NON LINIER GEOMETRI (Studi Kasus : Data Emisi CO 2 dan Gross Nation Product di Malaysia, Bhutan, dan Nepal)

BAB IV HASIL PENELITIAN

REGRESI LINIER BERGANDA

ANALISIS REGRESI NONPARAMETRIK SPLINE MULTIVARIAT UNTUK PEMODELAN INDIKATOR KEMISKINAN DI INDONESIA

ANALISIS REGRESI LINEAR PADA STATISTIKA NON PARAMETRIK. Desi Rahmatina. Fakultas Ekonomi Universitas Maritim Raja Ali Haji Tanjungpinang ABSTRAK

Estimasi Interval Kepercayaan Bootstrap pada Parameter Regresi Komponen Utama

III. METODE PENELITIAN

BAB IV ANALISIS HASIL DAN PEMBAHASAN. Tabel 4.1

BAB 2 TINJAUAN TEORITIS

BAB 2 LANDASAN TEORI

PRAKIRAAN SIFAT HUJAN MENGGUNAKAN METODE POHON KLASIFIKASI

PENERAPAN METODE CART

MENGATASI MULTIKOLINEARITAS MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS (PCA)

BAB IV ANALISIS HASIL DAN PEMBAHASAN

MODEL REGRESI MENGGUNAKAN LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR (LASSO) PADA DATA BANYAKNYA PENDERITA GIZI BURUK

BAB IV METODE PENELITIAN. 2 variabel atau lebih dengan mencari pengaruh variabel independen terhadap

Kata Kunci: Komponen Akreditasi, Multivariate Adaptive Regression Spline (MARS)

BAB I PENDAHULUAN. Universitas Pendidikan Indonesia repository.upi.edu

BAB I PENDAHULUAN. dependen disebut dengan regresi linear sederhana, sedangkan model regresi linear

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

PEMILIHAN PARAMETER PENGHALUS DALAM REGRESI SPLINE LINIER. Agustini Tripena Br.Sb.

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

METODE PENELITIAN. wilayah Kecamatan Karawang Timur dijadikan sebagai kawasan pemukiman dan

PERBANDINGAN ANALISIS KLASIFIKASI NASABAH MENGGUNAKAN REGRESI LOGISTIK BINER DAN (CLASSIFICATION AND REGRESSION TREES)

PENERAPAN METODE CHAID DAN REGRESI LOGISTIK DALAM ANALISIS SEGMENTASI PASAR KONSUMEN AQUA DIMAS FAJAR AIRLANGGA

Regresi dengan Microsoft Office Excel

STATISTIKA TERAPAN Disertai Contoh Aplikasi dengan SPSS

BAB I PENDAHULUAN. lebih variabel independen. Dalam analisis regresi dibedakan dua jenis variabel

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. terdaftar di Bursa Efek Indonesia periode tahun Pengambilan sampel

PENERAPAN REGRESI ZERO-INFLATED NEGATIVE BINOMIAL (ZINB) UNTUK PENDUGAAN KEMATIAN ANAK BALITA

BAB IV HASIL ANALISIS DAN PEMBAHASAN. Tabel 4. Berdasarkan tabel diatas dapat diketahui bahwa variabel harga saham (Y)

Resume Regresi Linear dan Korelasi

BAB IV ANALISIS HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

Masalah Overdispersi dalam Model Regresi Logistik Multinomial

BAB I PENDAHULUAN. untuk membentuk model hubungan antara variabel dependen dengan satu atau

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 4 ANALISIS DAN PEMBAHASAN

ANALISIS GEOGRAPHICALLY WEIGHTED REGRESSION (GWR) DENGAN PEMBOBOT KERNEL GAUSSIAN UNTUK DATA KEMISKINAN. Rita Rahmawati 1, Anik Djuraidah 2.

ANALISIS KLASIFIKASI NASABAH KREDIT MENGGUNAKAN BOOTSTRAP AGGREGATING CLASSIFICATION AND REGRESSION TREES (BAGGING CART)

1) Kriteria Ekonomi Estimasi model dikatakan baik bila hipotesis awal penelitian terbukti sesuai dengan tanda dan besaran dari penduga.

MODUL REGRESI LINIER SEDERHANA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 3 PENGOLAHAN DATA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB IV ANALISIS HASIL DAN PEMBAHASAN. Garment dan Subsektor otomotif dan Komponen tahun Metode

BAB III IDENTIFIKASI VARIABEL MODERATOR KATEGORIK

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. pemahaman mata pelajaran gambar teknik (X 1 ) dan kreativitas (X 2 ) serta

Transkripsi:

TAKSIRAN MODEL POHON REGRESI PIECEWISE LINEAR DENGAN ALGORITMA GUIDE Zerah Aprial Pasimbong*, M. Saleh, AF a, Anna Islamiyati b *Alamat korespondensi e-mail: zerah.statz08@gmail.com a,b Jurusan Matematika FMIPA Universitas Hasanuddin ABSTRAK. Pohon regresi adalah metode untuk membangun model prediksi dari data dimana model diperoleh dari partisi secara rekursif ruang data dan menduga model prediksi sederhana di dalam setiap partisi. Makalah ini membahas tentang model pohon regresi piecewise linear dengan algoritma GUIDE pada data Boston House Price. GUIDE merupakan salah satu jenis algoritma pembentuk pohon regresi dengan memanfaatkan analisis chi-square dari sisaan kemudian dilakukan pengujian kelengkungan dan deteksi interaksi pada variabel prediktor. Untuk data Boston House Price yang memiliki 12 variabel prediktor numerik dan 1 variabel prediktor kategorik diperoleh pohon regresi yang memiliki 5 simpul akhir. Hasil dari makalah ini menunjukkan peningkatan nilai R 2 dari 74,3% yang melibatkan semua data menjadi 71,4%, 99,8%, 80,3%, 86,05%, dan 82,04% setelah pengelompokan data. Kata kunci : Regresi Linear Berganda, Pohon Regresi, Analisis Chi-Square, Algoritma GUIDE ABSTRACT. Regression tree is a method for constructing prediction models from data which the models are obtained by recursively partitioning the data space and fitting a simple prediction model within each partition. This article explain about Regression Tree with Piecewise Linear of GUIDE Algorithm for Boston House Price data. GUIDE is one of algorithms to construct the regression tree by employing chi-square analysis of residuals and then made curvature tests and interaction detections in the predictor variables. For Boston House Price data that have 12 numerical predictors and 1 categorical predictor are obtained regression tree with 5 terminal nodes. The result of this article show the increase of R 2 value from 74,3% which involve all of data become 71.4%, 99.8%, 80.3%, 86.05%, and 82.04% after grouping the data. Keywords: Multiple Linear Regression, Regression Tree, Chi-Square Analysis, GUIDE Algorithm PENDAHULUAN Analisis regresi merupakan alat statistika yang dapat digunakan untuk menyelidiki hubungan antara sebuah variabel respon (Y) dengan satu atau lebih variabel prediktor (X). Pada saat ini, analisis regresi berguna dalam menelaah hubungan dua variabel atau lebih, dan terutama untuk menelusuri pola hubungan yang modelnya belum diketahui dengan sempurna, sehingga dalam penerapannya lebih bersifat eksploratif. Keabsahan penggunaan analisis regresi sangat bergantung pada banyak asumsi, sehingga untuk mendapatkan dugaan persamaan regresi yang memenuhi semua asumsi menjadi sangat sulit. Masalah ini dapat diatasi dengan metode regresi yang tidak lagi harus memenuhi asumsi-asumsi tadi, diantaranya adalah dengan metode Pohon Regresi (Regression Tree). Pohon regresi ini merupakan salah satu metode eksplorasi nonparametrik yang dapat digunakan untuk melihat hubungan antara variabel respon kontinu dengan variabel-variabel bebas yang berukuran besar dan kompleks. Kekompleksan tersebut dapat berupa dimensinya yang sangat besar atau jenis peubahnya campuran, misalnya kontinu dan kategorik, baik nominal maupun ordinal. Salah satu kelebihan metode pohon regresi adalah hasil prediksi yang diperoleh memiliki tingkat akurasi yang tinggi serta lebih mudah dalam interpretasi dan visualisasi dibanding metode regresi tradisional biasa. Terdapat dua metode pohon regresi yang biasa digunakan yaitu pohon regresi piecewise linear dan pohon regresi piecewise konstan. Penggunaan metode 1

pohon regresi piecewise linear memberikan beberapa keuntungan dibandingkan metode pohon regresi piecewise konstan. Metode pohon regresi piecewice linear melibatkan variabel penjelas dalam model sehingga mampu mereduksi sisaan yang dihasilkan model piecewise konstan. Dengan demikian metode pohon regresi piecewice linear cenderung menghasilkan pohon regresi yang lebih pendek. GUIDE adalah algoritma machine learning serbaguna untuk membangun pohon klasifikasi dan regresi. GUIDE adalah singkatan dari Generalized, Unbiased, Interaction Detection, and Estimation. Metode GUIDE menghasilkan kelompok-kelompok pengamatan yang memiliki model regresi untuk masing-masing simpul akhir. Berdasarkan uraian di atas, maka dalam tugas akhir ini akan dibahas tentang Taksiran Model Pohon Regresi Dengan Algoritma GUIDE TINJAUAN PUSTAKA 2.1 Pohon Regresi Pohon regresi adalah salah satu metode yang menggunakan kaidah pohon keputusan (decision tree) yang dibentuk melalui suatu algoritma penyekatan secara rekursif dan juga salah satu metode eksplorasi nonparametrik yang dapat digunakan untuk melihat hubungan antara peubah respon kontinu dengan peubahvariabel prediktor yang berukuran besar dan kompleks. Kekompleksan tersebut dapat berupa dimensinya yang besar atau jenis peubahnya campuran, misalnya kontinu dan kategorik, baik nominal maupun ordinal. 2.2 Algoritma GUIDE GUIDE adalah algoritma machine learning serbaguna untuk membangun pohon klasifikasi dan regresi (Clasification and Regression Tree) yang diperkenalkan oleh Loh (2002). GUIDE adalah singkatan dari Generalized, Unbiased, Interaction Detection, and Estimation. Metode GUIDE menghasilkan kelompok-kelompok pengamatan yang memiliki model regresi yang lebih baik dibandingkan dengan model regresi dengan melibatkan semua data. Disamping itu GUIDE mampu menjelaskan hubungan antara peubah respon dan peubah penjelas yang bersifat kuadratik dengan menggunakan model regresi linier dengan terlebih dahulu membentuk kelompokkelompok pengamatan berdasarkan peubah penjelas yang digunakan (Loh et al. 2011). 2.3 Validasi Silang (cross-validation) Dalam pemilihan pohon terbaik, diperkenalkan suatu penduga yang oleh Breiman et al.(1993) diistilahkan sebagai peubah jujur (honest estimator) bagi R(T t ) yaitu penduga sampel uji (test sample estimator) R ts (T t ) dan penduga validasi silang (crossvalidation estimator) R cv (T t ). Untuk membentuk penduga validasi silang lipat-v, amatan induk L dibagi menjadi v bagian yang berukuran a amatan, masing-masing dilambangkan dengan L 1, L 2,, L v. Learning sample ke-v, =, v=1,2,,v, digunakan untuk membentuk sekuens pohon {T k } dan sekuens {α k }. Kemudian gunakan induk L untuk membentuk sekuens pohon {T k } dan sekuens {α k }. Penduga validasi silang bagi R(T k ) adalah: ( ) = 1 [ (, ) ( )] (7) dimana n adalah banyaknya amatan dan ( ) adalah dugaan respon dari amatan ke-i yang bersesuaian dengan α k yang dibentuk oleh learning sample ke-v. Pohon terbaik adalah T k0 yang memenuhi: ( ) = ( ) (8) dengan ( ) merupakan jumlah kuadrat galat pohon regresi optimal (Breiman et al.1993). METODOLOGI PENELITIAN Data yang digunakan dalam tugas akhir ini adalah data sekunder tentang The Boston 2

House-Price yang dilaporkan oleh Harrison dan Rubinfeld (1978) dan diperoleh dari http:/lib.stat.cmu.edu. Variabel yang digunakan dalam penelitian ini adalah : Variabel respon yaitu median harga dalam 1000 dollar (Medv). Variabel prediktor ke-j, yaitu: Angka kriminalitas per kapita (Crim), Proporsi lahan hunian yang ditetapkan (Zn), Proporsi bisnis non-retail (Indus), Wilayah hunian (Chas), Konsentrasi nitrogen oksida per 10 juta partikel (Nox), Rata-rata jumlah kamar tiap hunian (RM), Proporsi hunian yang dibangun sebelum tahun 1940 (Age), Jarak menuju pusat kota (Dis), Indeks akses menuju jalan raya radial (Rad), Tingkat pajak properti per 10.000 dollar (Tax), Perbandingan siswa dan guru (Ptratio), Proporsi warga kulit hitam (B), Proporsi warga menengah ke bawah (Lstat). ; i = 1,2,, 420 ; j = 1,2,, 13 Pada tahap awal akan dilakukan penerapan metode algoritma GUIDE Piecewise Linear untuk pembentukan pohon regresi awal dan pohon regresi optimal terhadap data The Boston House Price dengan. Kemudian analisis pohon regresi untuk model piecewise linear dengan menggunakan algoritma GUIDE. Kemudian, interpretasi dan visualisasi dilakukan terhadap hasil analisis diatas. Proses analisis dilakukan dengan menggunakan software GUIDE versi 13.3, SPSS 17 dan Microsoft Excel. HASIL DAN PEMBAHASAN Metode pohon regresi menghasilkan model yang sederhana dan mudah untuk diinterpretasikan. Model yang dihasilkan berupa pohon keputusan, dengan variabel-variabel yang berpengaruh akan menjadi simpul-simpulnya. Variabel yang paling berpengaruh akan menjadi simpul pertama pada pohon keputusan. Namun, pada pohon regresi, interpretasi hasil lebih kepada segmentasi dari variabel prediktor terhadap variabel responnya seperti regresi linear. 4.1 Penerapan Algoritma GUIDE Piecewise Linear 4.1.1 Pembentukan Pohon Regresi Awal Identifikasi setiap variabel ke dalam bentuk variabel n, -f, -s, atau c berdasarkan jenis dan perlakuan pada penerapan algoritma. 1. Akan dicari sisaan atau error untuk dugaan model linear dari variabel n dengan menggunakan persamaan = dimana diperoleh dari hasil model regresi linear sederhana dengan metode OLS. 2. Akan dibentuk tabel kontingensi 2 x 4 dengan tanda positif dan negatif dari sisaan pada tahap 1 sebagai baris dan empat kelompok kuartil data sebagai kolom. 3. Tahap 1 dan 2 selanjutnya akan diterapkan untuk variabel c. 4. Langkah selanjutnya akan menjadi acuan untuk uji interaksi. Dalam hal ini, deteksi interaksi akan dilakukan antara sepasangan variabel n (x i, x j ). 5. Akan dilakukan uji interaksi untuk pasangan variabel s. 6. Lakukan hal yang sama seperti tahap 4 untuk pasangan variabel c (x i,x j ) dengan menggunakan pasangan nilai tersebut untuk membagi ruang sampel. Gunakan hasil perkalian dari kategori variabel masingmasing sebagai kolom dan tanda sisaan sebagai baris untuk membentuk tabel kontingensi 2 x (c i c j jumlah kolom dengan total nol) dengan c i dan c j adalah jumlah kategori masing-masing variabel x i dan x j, kemudian hitung statistik x 2 dan p-value. 7. Akan dilakukan uji interaksi untuk setiap pasangan variabel (x i,x j ) dimana x i adalah nilai variabel n dan xj variabel c. 8. Akan dilakukan uji interaksi untuk pasangan variabel s dan variabel -c. 9. Akan dilakukan uji interaksi untuk pasangan variabel s dan variabel -n. Setelah semua algoritma dilaksanakan, perhatikan p-value dari setiap tabel kontingensi. Jika p-value terkecil berasal dari tes kelengkungan, variabel yang berasosiasi dipilih. Jika p-value terkecil berasal dari uji interaksi, maka terdapat algoritma yang harus dipenuhi untuk memilih salah satu variabel penyekat yaitu: 3

1. Jika diantara variabel interaksi tidak ada variabel n, pilih satu variabel lain dengan p- value uji kelengkungan lebih kecil. 2. Jika keduanya variabel n, secara temporer sekat simpul sepanjang median tiap variabel dan untuk setiap penyekatan, SSE (Sum of Square Error) diperoleh di setiap sub simpul. Variabel yang dipilih adalah variabel yang menghasilkan total SSE lebih kecil. 3. Jika salah satu variabel adalah variabel n, maka pilih variabel lainnya. Setelah variabel penyekat terpilih, maka titik penyekatan (Split point) dapat dipilih berdasarkan metode Greedy, median, atau yang lainnya. 4.1.2 Pembentukan Pohon Regresi Optimal Pencarian pohon regresi optimal dilakukan dengan kriteria sebagai berikut: 1. Penentuan pohon awal 2.Secara iteratif pohon tersebut dipangkas (pruning) menjadi deretan pohon yang makin kecil dan tersarang. 3. Dipilih pohon terbaik dari deretan ini dengan menggunakan sample uji (testt sample) atau validasi silang (cross validation sample). Setelah penyekatan dihentikan, akan dilakukan pemangkasan pada pohon regresi dengan menggunakan validasi silang lipat-10. Hasil proses validasi silang untuk menghasilkan pohon regresi terbaik terlihat pada gambar 2. Berdasarkan Gambar 2 terlihatt bahwa pohon regresi dengan lima buah simpul terminal memiliki rata-rata Mean Square Error terkecil sehingga pohon regresi dengan lima buah simpul terminal dipilih sebagai pohon regresi optimal terbaik hasil dari prosess validasi silang lipat-10 Rata-rata MSE 30 20 10 0 0 5 10 15 Jumlah simpul terminal 4.2 Hasil Analisis GUIDE Piecewise Linear untuk Data Boston 4.2.1 Pohon Regresi Awal Pohon regresi awal yang terbentuk adalah seperti yang terlihat pada Gambar 3 dimana memiliki struktur yang besar dengan jumlah total simpul sebanyak 29 dan simpul terminal sebanyak 15. Variabel prediktor rata-rata jumlah kamar (RM) muncul sebagai variabel penyekat pertama. Variabel-variabell prediktor lain yang muncul sebagai penyekat dalam struktur pohon regresi awal adalah pajak properti (Tax), konsentrasi Nitrogen Oksida (Nox), persentase hunian yang dibangun sebelum tahun 1940 (Age), persentasi warga kulit hitam (B), persentasi status menengah ke bawah (Lstat), persentasi bisnis non-retail (Indus) dan akses menuju jalan utama (Rad). Beberapa variabel prediktor bahkan muncul lebih dari satu kali dalam pohon awal yaitu variabel RM (simpul 1, 2 dan 3), Nox (4, 11, dan 17), Indus (5 dan 8) dan LStat (18 dan 36). Gambar 3. Pohon regresi awal untuk data boston Dari struktur pohon yang terbentuk, secara terlihat dapat disimpulkan bahwa variabel RM merupakan variabel yang paling berpengaruh terhadap variabel respon median harga rumah (Medv) karena muncul sebagai penyekat pertama, kedua dan keriga. Untuk memperlihatkan rata-rata median harga rumah (Medv) yang terbentuk dari simpul akhir pada pohon, dilakukan pengelompokan karakteristik pengamatan pada simpul akhir dan disajikan dalam Tabel 4 dimana kelompok diurutkan berdasarkan dugaan median harga dari yang termurah sampai yang termahal. 4

Dari struktur pohon yang terbentuk, secara terlihat dapat disimpulkan bahwa variabel RM merupakan variabel yang paling berpengaruh terhadap variabel respon median harga rumah (Medv) karena muncul sebagai penyekat pertama, kedua dan keriga. Untuk memperlihatkan rata-rata median harga rumah (Medv) yang terbentuk dari simpul akhir pada pohon, dilakukan pengelompokan karakteristik pengamatan pada simpul akhir dan disajikan dalam Tabel 4 dimana kelompok diurutkan berdasarkan dugaan median harga dari yang termurah sampai yang termahal. Dari karakteristik kelompok-kelompok pada tabel, dapat dilihat bahwa kelompok dengan rata-rata jumlah kamar (RM) 6,48, konsentrasi nitrogen oksida (Nox) > 0,5845, persentasi warga kulit hitam (B) 391,1, dan persentasi status menengah kebawah (LStat) > 19,72 merupakan kelompok median harga (MEDV) terendah sebesar 10,21. Sementara itu median harga tertinggi sebesar 44,36 adalah kelompok dengan karakteristik rata-rata jumlah kamar (RM) > 7,41. Dari struktur pohon awal, dapat dilihat bahwa pohon yang dihasilkan berukuran besar sehingga cukup rumit untuk dilakukan interpretasi lebih mendalam sehingga diperlukan proses lebih lanjut untuk memperoleh hasil yang lebih sederhana. Cara selanjutnya yang akan dilakukan adalah proses pemangkasan (pruning) dengan metode validasi silang (cross-validation) 4.2.2 Pohon Regresi Optimal Pohon regresi optimal merupakan hasil pemangkasan (pruning) terhadap pohon regresi awal melalui validasi silang (cross-validation). Pada data boston ini, pohon optimal diperoleh melalui validasi silang lipat-10 dan menghasilkan total 9 simpul dan 5 diantaranya merupakan simpul terminal. Pada gambar 4 terlihat struktur pohon optimal jauh lebih sederhana dibandingkan dengan pohon awal yang diperlihatkan pada gambar 3. Gambar 4. Struktur pohon optimal untuk data boston Serupa dengan struktur pohon awal, variabel prediktor RM muncul sebagai penyekat utama. Bahkan variabel RM muncul tiga kali sebagai simpul penyekat yaitu pada simpul 1, 2, dan 3, sedangkan variabel Nox muncul sekali pada simpul nomor 4. Serupa dengan yang ditampilkan pada pohon awal sebelum pemangkasan, rata-rata median harga (MEDV) tertinggi sebesar 44,36 adalah kelompok dengan karakteristik rata-rata jumlah kamar (RM) > 7,41. Sementara rata-rata MEDV terendah berdasarkan pohon optimal adalah 16,12 yaitu kelompok dengan karakteristik RM 6,48 dan Nox > 0,5845. Metode GUIDE Piecewise linear disamping menghasilkan struktur pohon regresi juga menghasilkan dugaan model regresi linear berganda. Namun output yang dihasilkan terbatas hanya pada dugaan model (nilai koefisien-koefisien regresi) dan nilai R 2 model. Jadi dalam metode GUIDE Piecewise Linear tidak dilakukan pengujian asumsi terhadap model yang diperoleh. Untuk menghasilkan hasil analisis regresi yang lebih komprehensif, pengolahan data selanjutnya dilakukan dengan menggunakan analisis regresi menggunakan software SPSS Statistics 17.0. Ringkasan hasil analisis regresi sebelum pengelompokan dan setelah pengelompokan dapat dilihat pada tabel 6. Simpul 1T merupakan simpul akar yang mengandung semua pengamatan (420 pengamatan), 8T merupakan simpul terminal dengan 154 pengamatan, 9T simpul terminal dengan 110 pengamatan, 5T dengan 97 pengamatan, 7T dengan 32 pengamatan dan 6T dengan 27 pengamatan. 5

Tabel 6. Ringkasan hasil analisis pada pohon regresi optimal Prediktor Koefisien t-stat p- value VIF* Label : 1T ; N = 240 ; R 2 = 74,3% ; MSE = 24,71 Konstanta 41,564 7,09 0,000 - Crim -0,103-2,93 0,004 1,772 Zn 0,33 2,07 0,040 2,702 Indus -0,087-0,92 0,359 6,628 Chas 3,351 3,39 0,001 1,109 Nox -21,194-3,83 0,000 6,105 RM 3,478 7,39 0,000 1,973 Age 0,006 0,38 0,706 3,142 Dis -1,541-6,80 0,000 4,007 Rad 0,288 3,44 0,001 9,815 Tax -0,007-1,39 0,167 15,038 Ptratio -0,971-6,11 0,000 1,918 B 0,008 2,57 0,011 1,386 Lstat -0,597-10,14 0,000 3,031 Label : 8T ; N = 154 ; R 2 = 71,43% ; MSE = 4,085 Konstanta 8,167 1,53 0,1270 - Indus -0,214-3,27 0,0013 3,908 RM 3,96 5,87 0,0000 1,688 Age -0,073-9,91 0,0000 2,715 Dis -0,708-5,60 0,0000 3,568 Rad 0,324 4,13 0,0001 11,188 Tax -0,012-2,95 0,0037 11,567 Ptratio -0,463-4,23 0,0000 1,463 B 0,023 6,75 0,0000 1,556 Chas =1 1,937 2,54 0,0121 1,304 Label : 9T ; N = 110 ; R 2 = 99,81% ; MSE = 0,1227 Konstanta 65,338 87,04 0,0000 - Crim -0,185-20,04 0,0000 1,643 Zn 0,369 15,69 0,0000 1,602 Indus 1,197 17,91 0,0000 1,893 Nox -72,192-42,83 0,0000 2,735 Age -0,134-17,07 0,0000 2,873 Rad 1,087 27,47 0,0000 4,503 Tax -0,063-25,40 0,0000 excluded B 0,030 8,80 0,0000 1,297 Chas = 1 7,089 11,38 0,0000 1,201 Label : 5T ; N = 97 ; R 2 = 80,3 % ; MSE = 11,01 Konstanta 4,096 0,24 0,8122 - Crim -0,124-2,80 0,0063 1,566 Nox -16,825-2,55 0,0124 6,378 RM 7,806 3,40 0,0010 1,189 Dis -0,896-3,77 0,0003 3,561 Rad 0,387 4,64 0,0000 12,139 Ptratio -0,600-2,84 0,0056 1,706 Lstat -1,194-10,45 0,0000 4,562 Chas = 1 3,193 2,27 0,0255 1,261 Label : 6T ; N = 27 ; R 2 = 86,05% ; MSE = 3,871 Konstanta 41,667 22,46 0,0000 - Crim -0,463-2,49 0,0204 5,019 Tax -0,016-3,18 0,0041 13,629 Lstat -0,517-2,88 0,0084 4,959 Label : 7T ; N = 32 ; R 2 = 82,04% ; MSE = 7,630 Konstanta 28,005 2,18 0,0385 - Indus 1,279 6,29 0,0000 11,877 RM 8,239 4,84 0,0001 1,615 Age -0,121-4,38 0,0002 4,844 Tax -0,075-6,33 0,0000 11,301 Ptratio -1,671-5,89 0,0000 7,209 Chas = 1-5,187-3,23 0,0035 1,606 Tabel 6 diperoleh melalui penggabungan hasil analisis dengan menggunakan software GUIDE 11 dan SPSS Statistics 17.0. Khusus pada simpul 1T yang melibatkan semua data, nilai koefisien, t-stat, dan p-value diperoleh melalui analisis program SPSS. Sedangkan pada simpul-simpul lain diperoleh melalui program GUIDE karena simpul-simpul tersebut merupakan simpul terminal yang hasil akhirnya dicantumkan pada output program. Untuk nilai R 2 dan Mean Square Error (MSE) diperoleh berdasarkan output program GUIDE, sementara nilai-nilai VIF untuk setiap koefisien pada semua simpul diperoleh melalui program SPSS. Dari tabel 6 dapat dilihat bahwa pengelompokan pengamatan dapat meningkatkan nilai R 2 kecuali pada simpul 8T yaitu 74,3% untuk simpul 1T menjadi 99,81%, 80,3%, 86,05% dan 82,04% masing-masing untuk simpul 9T, 5T, 6T dan 7T. Sementara untuk simpul 8T menjadi 71,43% atau turun 2,87%. Dengan perkataan lain, hasil sesudah pengelompokan lebih baik daripada hasil sebelum pengelompokan. Dilihat dari nilai VIF masing-masing peubah pada keenam simpul, menunjukkan beberapa nilai yang cukup besar (> 10). Disamping itu terlihat adanya ketidakkonsistenan tanda koefisien regresi pada keenam simpul. Hal ini mengindikasikan adanya multikolinearitas diantara variabelvariabel prediktor. PENUTUP Kesimpulan Berdasarkan uraian pembahasan mengenai metode pohon regresi dengan algoritma GUIDE, maka dapat diambil kesimpulan sebagai berikut: 6

1. Proses pembentukan pohon regresi optimal diawali pembentukan pohon regresi awal yang berukuran besar dengan algoritma GUIDE yaitu analisis chi-square sebagai acuan uji kelengkungan dan deteksi interaksi, kemudian di pangkas dengan menggunakan aturan pemangkasan pohon regresi biasa dan validasi silang sehingga diperoleh pohon regresi optimal yang lebih sederhana dibandingkan pohon regresi awal. 2. Metode pohon regresi dengan algoritma GUIDE piecewise linear menghasilkan kelompok-kelompok pengamatan dengan menjadikan variabel prediktor yang berpengaruh nyata terhadap respon sebagai variabel penyekat dalam struktur pohon. Tidak hanya sampai disitu, metode ini juga menghasilkan dugaan model regresi berganda pada masing-masing kelompok tersebut. Hasil analisis juga menunjukkan peningkatan nilai R 2 model pada kelompokkelompok pengamatan dibandingkan R 2 model yang melibatkan semua data pengamatan, sehingga pengelompokan pengamatan berdasarkan algoritma GUIDE piecewise linear membuat model regresi lebih baik. Dari segi interpretasi dan visualisasi, metode pohon regresi secara umum cukup mudah diinterpretasi dan divisualisasikan karena menghasilkan output berupa struktur pohon lengkap dengan variabel penyekat berpengaruh, titik penyekatan, rata-rata dugaan respon, R 2 model, dan model regresi linear pada setiap simpul terminal. Sehingga, metode ini tidak hanya mudah dipahami oleh peneliti statistika saja, namun juga mudah untuk kalangan non-statistika. 3. Jika dibandingkan dengan menggunakan metode OLS pada semua variabel prediktor, nilai R 2 lebih besar setelah pengelompokan prediktor dibandingkan menggunakan semua prediktor. Dengan kata lain, metode ini tepat digunakan untuk data dengan variabel prediktor yang banyak untuk memperoleh kemudahan interpretasi dan visualisasi. Saran Salah satu kelemahan pada algoritma GUIDE piecewise linear adalah bahwa hasil analisisnya tidak disertai uji asumsi terhadap model yang diperoleh. Selain itu, algoritma ini tidak dapat mendeteksi multikolinearitas serta menangani masalah multikolinearitas yang mungkin terjadi. Merujuk dari kelemahan algoritma ini, pengujian asumsi serta pendeteksian dan penanganan multikolinearitas dapat membuat hasil analisis dari algoritma GUIDE ini lebih bermakna. DAFTAR PUSTAKA Andini, Putri Dwi, (2012), Penerapan Analisis Pohon Regresi Pada Data Perlindungan Sosial, Skripsi, Departemen Statistika. FMIPA, Institut Pertanian Bogor. Harrison, D, and D.L. Rubinfeld (1978), The Boston House Price data, http://lib.stat.cmu.edu/datasets/boston, diunduh 1 Maret 2013 Jum at, Fajar. (2008), Penggunaan Metode Pohon Regresi Untuk Mengkaji Nilai Indeks Daya Beli di Jawa Barat, Skripsi, Departemen Statistika. FMIPA, Institut Pertanian Bogor. Kim, Hyunjoong, and W.Y, Loh. (2007), Visualizable and Interpretable Regression Models With Good Prediction Power, Jurnal, IIE Transactions. Loh, W.Y. (2002), Regression Trees With Unbiased Variable Selection and Interaction Detection, Jurnal, Statistica Sinica 12:361-386. Loh, W.Y. (2011), User Manual for GUIDE version 11*, Department of Statistics, University of Wisconsin-Madison. Rahmi, Izzati. (2003), Penggunaan Algoritma CART dan GUIDE dalam Pohon Regresi, Tesis, Program Pascasarana. Institut Pertanian Bogor. Tiro, Muhammad Arif, (2000), Analisis Korelasi dan Regresi Edisi Kedua, Makassar State University Press, Makassar. Wijayanto, Andi, Uji Chi-Square, http://eprints.undip.ac.id/6796/1/chi- KUADRAT.pdf, diunduh 7 Oktober 2013 Yozza, Hazmira, (2000), Analisis Data Longitudinal Dengan Metode Regresi Berstruktur Pohon, Tesis, Program Pascasarana. Institut Pertanian Bogor. 7

8