PERBANDINGAN ANALISIS LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR DAN PARTIAL LEAST SQUARES (Studi Kasus: Data Microarray)

dokumen-dokumen yang mirip
PREDIKSI WAKTU KETAHANAN HIDUP DENGAN METODE PARTIAL LEAST SQUARE

PERBANDINGAN REGRESI KOMPONEN UTAMA DAN ROBPCA DALAM MENGATASI MULTIKOLINEARITAS DAN PENCILAN PADA REGRESI LINEAR BERGANDA

PENERAPAN METODE LEAST MEDIAN SQUARE-MINIMUM COVARIANCE DETERMINANT (LMS-MCD) DALAM REGRESI KOMPONEN UTAMA

PERBANDINGAN TRANSFORMASI BOX-COX DAN REGRESI KUANTIL MEDIAN DALAM MENGATASI HETEROSKEDASTISITAS

PENERAPAN METODE GENERALIZED RIDGE REGRESSION DALAM MENGATASI MASALAH MULTIKOLINEARITAS

PENERAPAN METODE BOOTSTRAP RESIDUAL DALAM MENGATASI BIAS PADA PENDUGA PARAMETER ANALISIS REGRESI

PENERAPAN BOOTSTRAP DALAM METODE MINIMUM COVARIANCE DETERMINANT (MCD) DAN LEAST MEDIAN OF SQUARES (LMS) PADA ANALISIS REGRESI LINIER BERGANDA

Metode Regresi Ridge dengan Iterasi HKB dalam Mengatasi Multikolinearitas

KINERJA JACKKNIFE RIDGE REGRESSION DALAM MENGATASI MULTIKOLINEARITAS

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Algoritme Least Angle Regression untuk Model Geographically Weighted Least Absolute Shrinkage and Selection Operator

METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL OLAHAN SUSENAS 2012 NURHAYATI

METODE PARTIAL LEAST SQUARES UNTUK MENGATASI MULTIKOLINEARITAS PADA MODEL REGRESI LINEAR BERGANDA

MODEL REGRESI MENGGUNAKAN LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR (LASSO) PADA DATA BANYAKNYA PENDERITA GIZI BURUK

Estimasi Model Seemingly Unrelated Regression (SUR) dengan Metode Generalized Least Square (GLS)

PEMODELAN PRINCIPAL COMPONENT REGRESSION DENGAN SOFTWARE R

BAB I PENDAHULUAN 1.1 Latar Belakang

Pertemuan 10 STATISTIKA INDUSTRI 2. Multiple Linear Regression. Multiple Linear Regression. Multiple Linear Regression 19/04/2016

PENERAPAN REGRESI LINIER MULTIVARIAT PADA DISTRIBUSI UJIAN NASIONAL 2014 (Pada Studi Kasus Nilai Ujian Nasional 2014 SMP Negeri 1 Sayung)

Kata Kunci: Autokorelasi, Heteroskedastisitas, Metode Kuadrat Terkecil, Metode Newey West

PERBANDINGAN METODE MCD-BOOTSTRAP DAN LAD- BOOTSTRAP DALAM MENGATASI PENGARUH PENCILAN PADA ANALISIS REGRESI LINEAR BERGANDA

PENERAPAN METODE REGRESI GULUD DAN REGRESI KOMPONEN UTAMA DALAM MENGATASI PENYIMPANGAN MULTIKOLINEARITAS PADA ANALISIS REGRESI LINEAR BERGANDA

BAB VI ANALISIS REGRESI LINEAR GANDA

LEAST SQUARE AND RIDGE REGRESSION ESTIMATION ABSTRAK ( ) = ( + ) Kata kunci: regresi linear ganda, multikolinearitas, regresi gulud.

MENGATASI HETEROSKEDASTISITAS PADA REGRESI DENGAN MENGGUNAKAN WEIGHTED LEAST SQUARE

Kata Kunci : Common Effect, Fixed Effect, Tingkat Kesejahteraan Masyarakat (IPM), Regresi Data Panel

GEOGRAPHICALLY WEIGHTED REGRESSION PRINCIPAL COMPONENT ANALYSIS (GWRPCA) PADA PEMODELAN PENDAPATAN ASLI DAERAH DI JAWA TENGAH

ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN METODE PARTIAL LEAST SQUARES

PERBANDINGAN REGRESI METODE ROBUST DENGAN METODE OLS STUDY KASUS PENGARUH INFLASI DAN PDRB TERHADAP PENGANGGURAN TERBUKA DI PROVINSI JAWA TEGAH

BAB 2 LANDASAN TEORI

PENERAPAN REGRESI ZERO-INFLATED NEGATIVE BINOMIAL (ZINB) UNTUK PENDUGAAN KEMATIAN ANAK BALITA

KNM XVI 3-6 Juli 2012 UNPAD, Jatinangor

E-Jurnal Matematika Vol. 2, No.3, Agustus 2013, ISSN:

BAB II METODE ANALISIS DATA. memerlukan lebih dari satu variabel dalam membentuk suatu model regresi.

BAB I PENDAHULUAN. menyelidiki hubungan di antara dua atau lebih peubah prediktor X terhadap peubah

Kata Kunci: Analisis Regresi Linier, Penduga OLS, Penduga GLS, Autokorelasi, Regresor Bersifat Stokastik

Judul : Perbandingan Metode MCD Bootstrap dan. Analisis Regresi Linear Berganda. Pembimbing : 1. Dra. Ni Luh Putu Suciptawati,M.Si

PENERAPAN METODE GENERALIZED RIDGE REGRESSION DALAM MENGATASI MASALAH MULTIKOLINEARITAS

KOMPARASI ANALISIS GEROMBOL (CLUSTER) DAN BIPLOT DALAM PENGELOMPOKAN

BAB I PENDAHULUAN. 1.1 Latar Belakang. Analisis regresi merupakan salah satu metode statistik yang sering

STUDI METODE REGRESI RIDGE DAN METODE ANALISIS KOMPONEN UTAMA DALAM MENYELESAIKAN MASALAH MULTIKOLINEARITAS SKRIPSI OCKTAVALANNI SIREGAR

PENERAPAN REGRESI POISSON UNTUK MENGETAHUI FAKTOR-FAKTOR YANG MEMENGARUHI JUMLAH SISWA SMA/SMK YANG TIDAK LULUS UN DI BALI

Estimasi Interval Kepercayaan Bootstrap pada Parameter Regresi Komponen Utama

BAB 2 LANDASAN TEORI. digunakan sebagai konsep statistik pada tahun 1877 oleh Sir Francis Galton. Dia

ESTIMASI PARAMETER REGRESI RIDGE MENGGUNAKAN ITERASI HOERL, KENNARD, DAN BALDWIN (HKB) UNTUK PENANGANAN MULTIKOLINIERITAS

KAJIAN METODE ROBUST LEAST TRIMMED SQUARE (LTS) DALAM MENGESTIMASI PARAMETER REGRESI LINEAR BERGANDA UNTUK DATA YANG MENGANDUNG PENCILAN SKRIPSI

PENERAPAN ANALISIS REGRESI RIDGE PADA DATA PASIEN HIPERTENSI DI RUMAH SAKIT UMUM DAERAH SIDIKALANG TAHUN 2014

Prosiding Seminar Nasional Hasil-Hasil PPM IPB 2016 Hal : 1 7 ISBN :

PEMAKAIAN VARIABEL INDIKATOR DALAM PEMODELAN. Mike Susmikanti *

PERBANDINGAN REGRESI ROBUST PENDUGA MM DENGAN METODE RANDOM SAMPLE CONSENSUS DALAM MENANGANI PENCILAN

REGRESI KUANTIL MEDIAN UNTUK MENGATASI HETEROSKEDASTISITAS PADA ANALISIS REGRESI

MODEL REGRESI PROBIT BIVARIAT

MODEL REGRESI ROBUST MENGGUNAKAN ESTIMASI S DAN ESTIMASI GS

ANALISIS REGRESI KOMPONEN UTAMA UNTUK MENGATASI MASALAH MULTIKOLINIERITAS SKRIPSI LEONARDO SILALAHI

VARIABEL LATEN SEBAGAI MODERATOR DAN MEDIATOR DALAM HUBUNGAN KAUSAL

BAB I PENDAHULUAN. Analisis regresi merupakan sebuah alat statistik yang memberi penjelasan

BAB IV HASIL PENELITIAN

PEMBAHASAN ... (3) RMSE =

BAB IV STUDI KASUS. Indeks merupakan daftar harga sekarang dibandingkan dengan

BAB IV ANALISIS HASIL DAN PEMBAHASAN

Regresi dengan Microsoft Office Excel

PENDUGAAN MODEL REGRESI SEMIPARAMETRIK MENGGUNAKAN PENDUGA KERNEL [SKRIPSI] KOMPETENSI STATISTIKA

PENERAPAN REGRESI LINIER MULTIVARIAT PADA DISTRIBUSI UJIAN NASIONAL 2014 (Studi Kasus Nilai Ujian Nasional 2014 SMP Negeri 1 Sayung)

PEMODELAN UPAH MINIMUM KABUPATEN/KOTA DI JAWA TENGAH BERDASARKAN FAKTOR-FAKTOR YANG MEMPENGARUHINYA MENGGUNAKAN REGRESI RIDGE

SKRIPSI RIKA LISTYA SARI

BAB ΙΙ LANDASAN TEORI

REGRESI ROBUST MM-ESTIMATOR UNTUK PENANGANAN PENCILAN PADA REGRESI LINIER BERGANDA

ISSN: Vol. 1 No. 1 Agustus 2012

ANALISIS FAKTOR RISIKO PENYAKIT JANTUNG KORONER DENGAN MENGGUNAKAN METODE REGRESI LOGISTIK DAN CHAID: KASUS DI RSUP DR. WAHIDIN SUDIROHUSODO MAKASSAR

PERCOBAAN FAKTORIAL DENGAN RANCANGAN DASAR BUJUR SANGKAR LATIN

PENAKSIRAN PARAMETER REGRESI LINIER DENGAN METODE BOOTSTRAP MENGGUNAKAN DATA BERDISTRIBUSI NORMAL DAN UNIFORM

SIMULASI DAMPAK MULTIKOLINEARITAS PADA KONDISI PENYIMPANGAN ASUMSI NORMALITAS

Analisis Heteroskedastisitas Pada Data Cross Section dengan White Heteroscedasticity Test dan Weighted Least Squares

MODEL REGRESI MENGGUNAKAN LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR (LASSO) PADA DATA BANYAKNYA GIZI BURUK KABUPATEN/KOTA DI JAWA TENGAH

BAB IV ANALISIS HASIL DAN PEMBAHASAN

BAB IV ANALISIS HASIL DAN PEMBAHASAN

ANALISA FAKTOR-FAKTOR YANG MEMPENGARUHI HASIL PRODUKSI PADI DI DELI SERDANG. Riang Enjelita Ndruru,Marihat Situmorang,Gim Tarigan

E-Jurnal Matematika Vol. 2, No.2, Mei 2013, ISSN:

E-Jurnal Matematika Vol. 2, No.3, Agustus 2013, ISSN:

PEMODELAN REGRESI 2-LEVEL DENGAN METODE ITERATIVE GENERALIZED LEAST SQUARE (IGLS) (Studi Kasus: Tingkat pendidikan Anak di Kabupaten Semarang)

PERBANDINGAN METODE MKT, LTS, WIN, DAN THEIL PADA PENDUGAAN PARAMETER REGRESI APABILA GALATNYA MENYEBAR EKSPONENSIAL HELGA ARINA PRAMUDITYA

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. Kedisiplinan dan Kepercayaan Diri terhadap Hasil Belajar Mata Pelajaran

Msi = x 100% METODE PENELITIAN

BEBERAPA FAKTOR YANG MEMPENGARUHI PENGELUARAN KONSUMSI PANGAN RUMAH TANGGA MISKIN (Studi Kasus di Kelurahan Sidomulyo Kecamatan Medan Tuntungan)

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

RIDGE REGRESSION. Kelompok 2: Umi Salamah ( ) Evi Wahyu P ( ) Fandi Kusuma ( ) Imelda Lestari ( ) Mulatsih Mahambari (06.

ISSN: Vol. 1 No. 1 Agustus 2012

BAB IV ANALISIS HASIL DAN PEMBAHASAN. Populasi dalam penelitian ini adalah PT. Bank Syariah Mandiri dan Bank

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Analisis regresi merupakan suatu metode yang digunakan untuk

BAB IV HASIL PENELITIAN

METODE PENELITIAN. A. Variabel Penelitian dan Definisi Operasional. Untuk memperjelas dan memudahkan pemahaman terhadap variabelvariabel

ANALISIS KEPUASAN KONSUMEN RESTORAN CEPAT SAJI MENGGUNAKAN METODE PARTIAL LEAST SQUARE (Studi Kasus: Burger King Bali)

PERBANDINGAN ANTARA UNWEIGHTED LEAST SQUARES (ULS) DAN PARTIAL LEAST SQUARES (PLS) DALAM PEMODELAN PERSAMAAN STRUKTURAL MUHAMMAD AMIN PARIS

BAB 2 LANDASAN TEORI

BAB 4 PEMBAHASAN HASIL PENELITIAN

Non Linear Estimation and Maximum Likelihood Estimation

STATISTIKA TEKNIK LNK2016 CORRELATION & REGRESSION

REGRESI LINIER BERGANDA

III. METODE PENELITIAN. Data yang digunakan pada penelitian ini adalah data sekunder yang berupa data time

Transkripsi:

PERBANDINGAN ANALISIS LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR DAN PARTIAL LEAST SQUARES (Studi Kasus: Data Microarray) KADEK DWI FARMANI 1, I PUTU EKA NILA KENCANA 2, KOMANG GDE SUKARSA 3 1,2,3, Jurusan Matematika, Fakultas MIPA, Universitas Udayana e-mail: 1 dwifarmani_magical@yahoo.com, 2 i.putu.enk@gmail.com, 3 sukarsakomang@yahoo.com Abstract Linear regression analysis is one of the parametric statistical methods which utilize the relationship between two or more quantitative variables. In linear regression analysis, there are several assumptions that must be met that is normal distribution of errors, there is no correlation between the error and error variance is constant and homogent. There are some constraints that caused the assumption can not be met, for example, the correlation between independent variables (multicollinearity), constraints on the number of data and independent variables are obtained. When the number of samples obtained less than the number of independent variables, then the data is called the microarray data. Least Absolute shrinkage and Selection Operator (LASSO) and Partial Least Squares (PLS) is a statistical method that can be used to overcome the microarray, overfitting, and multicollinearity. From the above description, it is necessary to study with the intention of comparing LASSO and PLS method. This study uses coronary heart and stroke patients data which is a microarray data and contain multicollinearity. With these two characteristics of the data that most have a weak correlation between independent variables, LASSO method produces a better model than PLS seen from the large RMSEP. Keywords: microarray, overfitting, RMSEP, LASSO, PLS. 1. Pendahuluan Analisis regresi berganda digunakan untuk mengetahui hubungan yang melibatkan lebih dari satu variabel bebas dan satu variabel tak bebas. Dalam regresi berganda harus dipenuhi beberapa asumsi, yaitu galat berdistribusi normal, antara galat-galat tidak berkorelasi atau bersifat saling bebas, dan ragam suku galat konstan dan homogen. Skala pengukuran dari variabel bebas dan variabel tak bebas adalah metrik (interval dan ratio). Tidak terpenuhinya asumsi tersebut dapat diakibatkan oleh korelasi antar variabel bebas (multikolinearitas), kendala pada jumlah data, dan jumlah variabel bebas yang diperoleh. Ketika data yang diperoleh terdiri dari variabel bebas yang lebih banyak daripada banyaknya data, maka data semacam ini disebut data microarray. Kendala yang timbul 1 Mahasiswa Jurusan Matematika FMIPA Universitas Udayana 2,3 Staf Pengajar Jurusan Matematika FMIPA Universitas Udayana

ketika membangun model regresi dengan data microarray adalah terjadinya overfitting. Menurut Izenman (2008: 13), overfitting adalah suatu kejadian di mana jumlah parameter yang masuk ke dalam model terlalu besar dibandingkan dengan ukuran data yang digunakan untuk membangun model (learning set). Model tersebut menghasilkan galat yang sangat kecil untuk data learning set, namun galat yang besar untuk data validasi. Least Absolute Shrinkage and Selection Operator (LASSO) dan Partial Least Squares (PLS) adalah metode statistika yang dapat digunakan untuk mengatasi microarray, overfitting, dan multikolinearitas. Adapun penelitian terdahulu yang menggunakan dua metode tersebut pada data microarray yaitu prediksi waktu tahan hidup pasien penyakit jantung koroner dengan metode PLS yang dilakukan Kusuma (2011) dan prediksi waktu tahan hidup penderita stroke dengan metode LASSO yang dilakukan Wulandari (2011). Berdasarkan uraian di atas perlu dilakukan penelitian dengan maksud membandingkan metode LASSO dan PLS dalam menganalisis data penderita jantung koroner dan stroke. Tujuan dari penelitian ini adalah: (1) Mengetahui model persamaan regresi LASSO dan PLS pada analisis data waktu tahan hidup pasien jantung koroner; (2) Mengetahui model persamaan regresi LASSO dan PLS pada analisis data waktu tahan hidup pasien stroke; (3) Mengetahui perbedaan antara metode LASSO dan PLS dalam menganalisis data pasien jantung koroner dan stroke. LASSO adalah salah satu teknik regresi pengkerutan variabel bebas. LASSO dapat digunakan untuk mengatasi masalah pada data microarray. LASSO mengkerutkan koefisien (parameter β) yang berkorelasi menjadi nol atau mendekati nol. Sehingga menghasilkan penduga dengan varian yang lebih kecil dan model akhir yang lebih representatif (Tibshirani, 1996). Menurut Yongdai (2004) dalam Wulandari (2011), misalkan adalah n pasangan variabel bebas atau variabel tak bebas dengan dan, di mana Y dan X adalah input dan output dengan Y variabel tak bebas, p variabel bebas X 1, X 2,, X p, dan n banyaknya pengamatan. Estimasi parameter pada LASSO adalah sebagai berikut: adalah parameter yang mengontrol koefisien LASSO yang diatur dengan batasan. Sehingga model LASSO dapat dinyatakan sebagai berikut: (1) (2) Partial Least Squares (PLS) dikembangkan pada tahun 1960-an oleh Herman Wold seorang ahli ekonometrika. Faktor pertama dari model PLS dipilih untuk memaksimalkan nilai kovarian dengan variabel tak bebas dan selanjutnya digunakan sebagai regressor dalam model regresi dengan metode kuadrat terkecil biasa. Faktor selanjutnya dipilih untuk memaksimumkan nilai kovarian dengan sisaan penduga dari metode kuadrat terkecil biasa. Banyaknya variabel laten yang digunakan pada akhir model PLS dapat ditentukan dengan validasi silang. Dalam studi ini, pengamatan dibagi menjadi dua set data, satu digunakan untuk kecocokan model dan lainnya untuk validasi model dengan perbandingan prediksi dan nilai kebenarannya (Mevik, 2007). Di sini hanya beberapa komponen utama yang digunakan, berapa banyak komponen yang optimal harus ditentukan biasanya dengan validasi silang. Koefisien determinasi merupakan suatu nilai yang digunakan untuk 76

K. Dwi. Farmani, I.P.E.N. Kencana, K.G. Sukarsa Perbandingan Analisis Least Absolute Shrinkage and Selection Operator dan Partial Least Squares mengukur sejauh mana model yang diperoleh mampu menjelaskan keadaan data yang sebenarnya atau seberapa besar variabel bebas X mampu menjelaskan varian dari variabel tak bebas Y. Koefisien determinasi berkisar antara nol sampai dengan satu ( (Neter,1997:91). Untuk melihat keakuratan prediksi dan kebaikan suatu model digunakan metode Root Mean Squares Error of Prediction (RMSEP). Pada metode PLS RMSEP digunakan untuk menentukan banyaknya komponen pada model prediksi, yaitu dengan membagi dua data yaitu satu sebagai model kalibrasi dan satu untuk model validasi. 2. Metode Penelitian Pada jantung koroner terdapat satu variabel tak bebas (Y) dan sebelas variabel bebas (X) yang digunakan, yaitu:y=waktu tahan hidup; X 1 =Keturunan; X 2 = Jenis kelamin; X 3 =Usia; X 4 =Stres; X 5 =Kadar gula darah; X 6 =Tekanan darah; X 7 =Jumlah batang rokok/hari; X 8 =Kolesterol; X 9 =Obesitas; X 10 =Olahraga; X 11 =Waktu pertama kali sakit sampai diteliti. Variabel stroke terdiri dari satu variabel tak bebas (Y) dan delapan variabel bebas (X) yaitu Y=waktu tahan hidup ; X 1 = Jenis kelamin; X 2 =Kondisi pertama kali diperiksa; X 3 =Usia; X 4 =Berat badan; X 5 =Kebiasaan mengkonsumsi alkohol; X 6 =Jumlah batang rokok/hari; X 7 =Jumlah saraf yang terganggu; X 8 =Waktu pertama kali sakit sampai diteliti. Proses analisis data pada penelitian ini menggunakan software R 2.14.1 dan SPSS. Kedua data dianalisis dengan metode regresi LASSO dan PLS. Langkah awal yang dilakukan adalah memasukkan data pengamatan dalam bentuk matriks pada program R di mana baris menunjukkan n banyaknya data dan kolom yang menunjukkan p variabel bebas. Melakukan uji multikolinearitas dengan memeriksa matriks korelasi dan signifikansi dengan SPSS. Jika data terbukti mengandung multikolinearitas, maka analisis dapat dilanjutkan pada LASSO dan PLS. Setelah kedua data dianalisis dengan LASSO dan PLS, selanjutnya dapat ditentukan nilai dan RMSEP masing-masing model. RMSEP digunakan untuk membandingkan kinerja kedua metode. 3. Hasil dan Pembahasan 3.1 Matriks Korelasi Matriks korelasi berguna untuk memeriksa adanya multikolinearitas pada data. Dari matriks korelasi dapat diketahui variabel bebas yang mengalami multikolinearitas. Pada data pasien jantung koroner terdapat tujuh pasang variabel bebas yang memiliki korelasi signifikan. Sedangkan pada data pasien stroke terdapat dua pasang variabel bebas yang saling berkorelasi signifikan. Dari pemaparan mengenai koefisien korelasi data pasien jantung koroner dan stroke, terbukti bahwa data mengandung multkolinearitas. Hal ini menunjukkan bahwa LASSO dan PLS dapat diterapkan pada kedua data. 3.2 Analisis Prediksi Waktu Tahan Hidup Pasien Jantung Koroner dengan Metode LASSO LASSO memiliki batasan yaitu, dengan yang merupakan parameter tuning pada LASSO. Parameter t yang digunakan merupakan nilai minimum validasi silang. Nilai t dan D yang diperoleh dari proses LASSO adalah 1,251182 dan 77

0,8316876. Batasan LASSO terpenuhi karena nilai t dan D yang diperoleh telah memenuhi syarat dan. Diperoleh variabel bebas yang berpengaruh signifikan terhadap waktu tahan hidup pasien jantung koroner adalah jenis kelamin, stres, tekanan darah, jumlah batang rokok, kolesterol, obesitas, olahraga, dan waktu pertama kali sakit sampai diteliti. Sehingga model LASSO pasien jantung koroner adalah 3.3 Analisis Prediksi Waktu Tahan Hidup Pasien Jantung Koroner dengan Metode PLS Pemilihan model terbaik dilakukan dengan memperhatikan pola RMSEP minimum dari pembentukan model dan validasi serta nilai koefisien determinasi sebagai indikator bahwa model yang dipilih mampu mengatasi overfitting. Diperoleh model terbaik untuk memprediksi waktu tahan hidup pasien jantung koroner adalah model dengan menggunakan data ke-5, 6, dan 9 sebagai data validasi. Berdasarkan RMSEP minimum dari validasi silang diperoleh model dengan satu komponen. Model PLS yang diperoleh untuk pasien jantung koroner adalah (3) dengan adalah komponen (4) 3.4 Analisis Prediksi Waktu Tahan Hidup Pasien Stroke dengan Metode LASSO Batasan LASSO untuk pasien stroke yaitu, dengan yang merupakan parameter tuning pada LASSO. Nilai D yang diperoleh sebesar 0,863862 dan nilai t sebesar 6,92. Karena nilai dan maka batasan LASSO terpenuhi. Diperoleh variabel bebas yang berpengaruh signifikan terhadap waktu tahan hidup pasien stroke adalah kondisi pada saat pertama kali diperiksa, usia, berat badan, jumlah batang rokok, dan jumlah saraf yang mengalami gangguan. Model LASSO untuk pasien stroke adalah 3.5 Analisis Prediksi Waktu Tahan Hidup Pasien Stroke dengan Metode PLS Model terbaik untuk memprediksi waktu tahan hidup pasien stroke adalah model dengan data ke-5, 6, dan 7 sebagai data validasi. Berdasarkan RMSEP minimum dari validasi silang diperoleh model dengan satu komponen. Model PLS untuk pasien stroke adalah dengan sebagai komponen (6) 3.6. Perbandingan LASSO dan PLS Berdasarkan uraian sebelumnya mengenai analisis waktu tahan hidup pasien jantung koroner dan stroke dengan metode LASSO dan PLS diperoleh beberapa hal yaitu: 1. Prosedur analisis Pembangunan model pada metode PLS menggunakan sebagian data. Sedangkan pada LASSO pembangunan model memanfaatkan seluruh data. 2. Metode PLS dan LASSO terbukti memiliki kemampuan sama baiknya dalam mengatasi overfitting pada data microarray. Hal ini dapat dilihat dari nilai r 2 untuk (5) 78

K. Dwi. Farmani, I.P.E.N. Kencana, K.G. Sukarsa Perbandingan Analisis Least Absolute Shrinkage and Selection Operator dan Partial Least Squares kedua metode yang masih berada pada rentang nol dan satu. Tabel 1 menyajikan r 2 kedua metode untuk data pasien jantung koroner dan stroke. Tabel 1. Nilai r 2 Metode LASSO dan PLS Metode r 2 Jantung Koroner r 2 Stroke LASSO 0,77 0,8 PLS 0,51 0,79 Sumber: Data diolah (2012) 3. RMSEP Dalam memprediksi waktu tahan hidup pasien jantung koroner dan stroke kedua metode menghasilkan RMSEP yang berbeda. Tabel 2 menunjukkan RMSEP masingmasing metode. Tabel 2. RMSEP Metode LASSO dan PLS Metode RMSEP Jantung Koroner RMSEP Stroke LASSO 0,408 29,9 PLS 1,712 45,8 Sumber: Data diolah (2012) 4. Kesimpulan Berdasarkan hasil analisis data waktu tahan hidup pasien jantung koroner dan stroke dengan metode PLS dan LASSO pada Bab IV, diperoleh beberapa hal sebagai berikut: 1. Metode LASSO dan PLS mampu mengatasi masalah overfitting pada kasus data microarray. 2. Data pasien jantung koroner dan stroke memiliki kemiripan karateristik dilihat dari tingkat korelasi antar variabel bebas. Sebagian besar korelasi yang dimiliki adalah korelasi sangat rendah yaitu pada selang 0,00 0,20. Dengan karakteristik data tersebut, diperoleh nilai RMSEP LASSO lebih kecil dibandingkan RMSEP PLS. Daftar Pustaka Abdi, H. 2006. Partial Least Squares Regression (PLSR). University of Texas. Izenman, A.J. 2008. Modern Multivariate Statistical Techniques (Regression, Classification, and Manifold Learning). USA: Springer. Mevik, H. 2007. The PLS Package:Principla Component and Partial Least Square Regression in R. Journal of Statistical Software, Januari vol 18(2),pp.1-24. Norwegian. Available: http://www.jstatsoft.org/ (Accessed: 31 Oktober 2011) Neter, Jhon, dkk. 1997. Model Linear Terapan Buku I: Analisis Regresi Linear 79

Sederhana. Penerjemah: Bambang Sumantri. Bogor: Jurusan Statistika FMIPA- IPB. Somnath, D and Susmita, D. 2007. Predicting Patient Survival from Microarray Data by Accelerated Failure Time Modeling Using Partial Least Squares and LASSO. Journal of Biometrics, Maret vol 63(1), pp.259-271. USA. Available: http://onlinelibrary.wiley.com/doi/10.1111/j.1541-0420.2006.00660.x/citedby (Accessed: 31 Oktober 2011) Tibshirani, R. 1996. Regression Shrinkage and Selection via LASSO. Universitas Toronto, Kanada: JSTOR. Wulandari, P.R. 2011. Penerapan Metode Regresi Least Absolute Shrinkage and Selection Operator (LASSO) terhadap Waktu Tahan Hidup Penderita Stroke. Universitas Udayana: Jurusan Matematika Fakultas MIPA 80