REGRESI LOGISTIK UNIVARIAT DENGAN DATA RESPON TIDAK SEIMBANG

dokumen-dokumen yang mirip
Sarimah. ABSTRACT

Penaksiran Parameter Regresi Linier Logistik dengan Metode Maksimum Likelihood Lokal pada Resiko Kanker Payudara di Makassar

LANDASAN TEORI. menyatakan hubungan antara variabel respon Y dengan variabel-variabel

PEMODELAN DENGAN REGRESI LOGISTIK. Secara umum, kedua hasil dilambangkan dengan (sukses) dan (gagal)

Kata Kunci: Model Regresi Logistik Biner, metode Maximum Likelihood, Demam Berdarah Dengue

OLEH : Riana Ekawati ( ) Dosen Pembimbing : Dra. Farida Agustini W, M.S

KAJIAN RELIABILITAS DAN AVAILABILITAS PADA SISTEM KOMPONEN PARALEL. Riana Ayu Andam P. 1, Sudarno 2, Suparti 3

BAB II TINJAUAN PUSTAKA

PROGRAM FRAKSIONAL LINIER DENGAN KOEFISIEN INTERVAL. Annisa Ratna Sari 1, Sunarsih 2, Suryoto 3. Jl. Prof. H. Soedarto, S.H. Tembalang Semarang

(M.9) PEMODELAN MELEK HURUF DAN RATA-RATA LAMA STUDI DENGAN PENDEKATAN MODEL BINER BIVARIAT

PENAKSIR MAKSIMUM LIKELIHOOD DENGAN METODE ITERASI NEWTON - RAPHSON

BAB II LANDASAN TEORI. landasan pembahasan pada bab selanjutnya. Pengertian-pengertian dasar yang di

Kajian Generalisasi Distribusi Binomial yang Bertipe COM-Poisson dan Sifat-Sifatnya

PENAKSIRAN PARAMETER REGRESI LINIER DENGAN METODE BOOTSTRAP MENGGUNAKAN DATA BERDISTRIBUSI NORMAL DAN UNIFORM

MODEL REGRESI LOGISTIK BINER DENGAN METODE PENALIZED MAXIMUM LIKELIHOOD. Edi Susilo, Anna Islamiyati, Muh. Saleh AF. ABSTRAK

Syarat Fritz John pada Masalah Optimasi Berkendala Ketaksamaan. Caturiyati 1 Himmawati Puji Lestari 2. Abstrak

UJI LIKELIHOOD RASIO UNTUK PARAMETER DISTRIBUSI WEIBULL

PENERAPAN MODEL REGRESI LINIER BAYESIAN UNTUK MENGESTIMASI PARAMETER DAN INTERVAL KREDIBEL

Informasi Fisher pada Algoritme Fisher Scoring untuk Estimasi Parameter Model Regresi Logistik Ordinal Terboboti Geografis (RLOTG)

Azzakiy Fiddarain ABSTRACT

Masalah Overdispersi dalam Model Regresi Logistik Multinomial

MODEL REGRESI DATA TAHAN HIDUP TERSENSOR TIPE III BERDISTRIBUSI LOG-LOGISTIK ABSTRAK

SYARAT FRITZ JOHN PADA MASALAH OPTIMASI BERKENDALA KETAKSAMAAN. Caturiyati 1 Himmawati Puji Lestari 2. Abstrak

Regresi Logistik Binomial, Model untuk Toksisitas Logam Berat Timbal Pb terhadap Larva Udang Vannamae

BAB 2 LANDASAN TEORI

ESTIMASI PARAMETER DISTRIBUSI WEIBULL DENGAN TRANSFORMASI MODEL REGRESI MENGGUNAKAN METODE KUADRAT TERKECIL LINIER

ESTIMASI EROR STANDAR PARAMETER REGRESI LOGISTIK MENGGUNAKAN METODE BOOTSTRAP

BAB III REGRESI SPASIAL DENGAN PENDEKATAN GEOGRAPHICALLY WEIGHTED POISSON REGRESSION (GWPR)

MODEL REGRESI DATA TAHAN HIDUP TERSENSOR TIPE III BERDISTRIBUSI EKSPONENSIAL. Jln. Prof. H. Soedarto, S.H., Tembalang, Semarang.

BAB I PENDAHULUAN. sewajarnya untuk mempelajari cara bagaimana variabel-variabel itu dapat

BAB III PERLUASAN MODEL REGRESI COX PROPORTIONAL HAZARD DENGAN VARIABEL TERIKAT OLEH WAKTU

PENDUGAAN PARAMETER DISTRIBUSI BETA DENGAN METODE MOMEN DAN METODE MAKSIMUM LIKELIHOOD

PENAKSIR RATA-RATA DISTRIBUSI EKSPONENSIAL TERPOTONG. Agustinus Simanjuntak ABSTRACT

ESTIMASI PARAMETER DISTRIBUSI WEIBULL DENGAN TRANSFORMASI MODEL REGRESI MENGGUNAKAN METODE KUADRAT TERKECIL LINIER

BAB II TINJAUAN PUSTAKA. (b) Variabel independen yang biasanya dinyatakan dengan simbol

BAB I PENDAHULUAN. Waktu hidup adalah waktu terjadinya suatu peristiwa. Peristiwa yang

Generalized Ordinal Logistic Regression Model pada Pemodelan Data Nilai Pesantren Mahasiswa Baru FMIPA Universitas Islam Bandung Tahun 2017

Model Regresi Zero Inflated Poisson Pada Data Overdispersion

REGRESI LOGISTIK UNTUK PEMODELAN INDEKS PEMBANGUNAN KESEHATAN MASYARAKAT KABUPATEN/KOTA DI PULAU KALIMANTAN

BAB II KAJIAN PUSTAKA. Pada bab ini akan diberikan landasan teori tentang optimasi, fungsi, turunan,

PEMODELAN DISPARITAS GENDER DI JAWA TIMUR DENGAN PENDEKATAN MODEL REGRESI PROBIT ORDINAL

MENENTUKAN PERPANGKATAN MATRIKS TANPA MENGGUNAKAN EIGENVALUE

MASALAH NILAI AWAL ITERASI NEWTON RAPHSON UNTUK ESTIMASI PARAMETER MODEL REGRESI LOGISTIK ORDINAL TERBOBOTI GEOGRAFIS (RLOTG)

BAB III METODE PENELITIAN

BAB II KAJIAN PUSTAKA. pemrograman nonlinear, fungsi konveks dan konkaf, pengali lagrange, dan

BAB II KAJIAN PUSTAKA

ESTIMASI PARAMETER UNTUK DISTRIBUSI HALF LOGISTIK. Jl. A. Yani Km. 36 Banjarbaru, Kalimantan Selatan

LANDASAN TEORI. Dalam proses penelitian pendugaan parameter dari suatu distribusi diperlukan

ESTIMASI PARAMETER MODEL REGRESI POISSON TERGENERALISASI TERBATAS DENGAN METODE MAKSIMUM LIKELIHOOD

Bab 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

(R.2) KAJIAN PREDIKSI KLASIFIKASI OBYEK PADA VARIABEL RESPON BINER

KETEPATAN KLASIFIKASI PEMILIHAN METODE KONTRASEPSI DI KOTA SEMARANG MENGGUNAKAN BOOSTSTRAP AGGREGATTING REGRESI LOGISTIK MULTINOMIAL

MODEL ASURANSI KENDARAAN BERMOTOR MENGGUNAKAN DISTRIBUSI MIXED POISSON ABSTRACT

KOMBINASI PERSYARATAN KARUSH KUHN TUCKER DAN METODE BRANCH AND BOUND PADA PEMROGRAMAN KUADRATIK KONVEKS BILANGAN BULAT MURNI

MODEL REGRESI PROBIT BIVARIAT

ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN METODE PARTIAL LEAST SQUARES

ESTIMASI KOMPONEN VARIAN PADA RANCANGAN ACAK KELOMPOK DENGAN MODIFIKASI HARTLEY-ROU

KEKONVERGENAN MSE PENDUGA KERNEL SERAGAM FUNGSI INTENSITAS PROSES POISSON PERIODIK DENGAN TREN FUNGSI PANGKAT

II. LANDASAN TEORI. beberapa konsep dan teori yang berkaitan dengan penduga parameter distribusi GB2

JURNAL GAUSSIAN, Volume 2, Nomor 3, Tahun 2013, Halaman Online di:

KAJIAN AVAILABILITAS PADA SISTEM PARALEL

PENDUGAAN PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)

BAB II TINJAUAN PUSTAKA. Dalam bab ini dibahas tentang matriks, metode pengganda Lagrange, regresi

BAB II TINJAUAN PUSTAKA

MISKLASIFIKASI MAHASISWA BARU F SAINTEK UIN SUNAN KALIJAGA JALUR TES TULIS DENGAN ANALISIS REGRESI LOGISTIK

SIMULASI DAMPAK MULTIKOLINEARITAS PADA KONDISI PENYIMPANGAN ASUMSI NORMALITAS

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA. variabel prediktor terhadap variabel respons. Hubungan fungsional

aljabar geo g metr me i

Penentuan Daerah Kritis Terbaik dengan Teorema Neyman- Pearson

PEMILIHAN MODEL REGRESI LINIER DENGAN BOOTSTRAP. Tarno. Jurusan Matematika FMIPA UNDIP Semarang. Subanar Jurusan Matematika FMIPA UGM Yogyakarta

KEKUATAN KONVERGENSI DALAM PROBABILITAS DAN KONVERGENSI ALMOST SURELY

ESTIMASI PARAMETER MODEL REGRESI LOGISTIK ORDINAL TERBOBOTI GEOGRAFIS (RLOTG) DENGAN METODE FISHER SCORING

Analisis Kestabilan Global Model Epidemik SIRS menggunakan Fungsi Lyapunov


HUKUM ITERASI LOGARITMA. TUGAS AKHIR untuk memenuhi sebagian persyaratan memperoleh gelar sarjana sains SORTA PURNAWANTI NIM.

BAB III MODEL GEOGRAPHICALLY WEIGHTED LOGISTIC REGRESSION SEMIPARAMETRIC (GWLRS)

SIMULASI INTENSITAS SENSOR DALAM PENDUGAAN PARAMATER DISTRIBUSI WEIBULL TERSENSOR KIRI. Abstract

(R.1) KAJIAN MODEL GEOGRAPHICALLY WEIGHTED POISSON REGRESSION UNTUK MASALAH DATA SPASIAL DISKRIT

FPM PADA KELUARGA EKSPONENSIAL BENTUK KONONIK

BAB I PENDAHULUAN. yang perlu diketahui, yang disebut sebagai variabel. Variabel adalah sebuah

BAB I PENDAHULUAN. 1.1 Latar Belakang

PEMAKAIAN VARIABEL INDIKATOR DALAM PEMODELAN. Mike Susmikanti *

PENERAPAN REGRESI POISSON DAN BINOMIAL NEGATIF DALAM MEMODELKAN JUMLAH KASUS PENDERITA AIDS DI INDONESIA BERDASARKAN FAKTOR SOSIODEMOGRAFI

II. TINJAUAN PUSTAKA. dengan kendala menjadi model penuh tanpa kendala,

PERMASALAHAN AUTOKORELASI PADA ANALISIS REGRESI LINIER SEDERHANA

Dosen Pembimbing : Dr. Purhadi, M.Sc

BAB II LANDASAN TEORI

KAJIAN DATA KETAHANAN HIDUP TERSENSOR TIPE I BERDISTRIBUSI EKSPONENSIAL DAN SIX SIGMA. Victoria Dwi Murti 1, Sudarno 2, Suparti 3

ALGORITMA PENENTUAN UKURAN SAMPEL EKSAK UNTUK DISTRIBUSI NORMAL, DISTRIBUSI POISSON DAN DUA DISTRIBUSI BINOMIAL DALAM MODEL KELUARGA EKSPONENSIAL

Bab 2 LANDASAN TEORI

Analisis Model Regresi Linear Berganda dengan Metode Response Surface

PENAKSIR RASIO UNTUK VARIANSI POPULASI MENGGUNAKAN KOEFISIEN VARIASI DAN KURTOSIS PADA SAMPLING ACAK SEDERHANA

Pengujian Overdispersi pada Model Regresi Poisson (Studi Kasus: Laka Lantas Mobil Penumpang di Provinsi Jawa Barat)

Distribusi Weibull Power Series

MODEL REGRESI POISSON YANG DIPERUMUM UNTUK MENGATASI OVERDISPERSI PADA MODEL REGRESI POISSON

BAB II KAJIAN TEORI. Analisis survival atau analisis ketahanan hidup adalah metode yang

PEMODELAN ARUS LALU LINTAS ROUNDABOUT

Transkripsi:

Jurnal EducatiO Vol. 4 No. 2, Desember 2009, hal. 119-135 REGRESI LOGISTIK UNIVARIAT DENGAN DATA RESPON TIDAK SEIMBANG Surya Mayadi STKIP Hamzanwadi Selong ABSTRACT In binary logistic regression problem it is common for the two classes to be imbalanced. One case is very rare compared to the other. This paper focus on determining Maximum Likelihood Estimator on univariate logistic regression for infinitely unbalanced data response. By finding the differential of log-likelihood equation that is resulted, its maximum depend on points given through their average. Thus we can substitute each given with or substituting all given with one. If we use normal distribution for given then the slope can be determined by simple formula. where and each an average and variance for which Keywords : Logistic Regression, MLE, Infinitely Unbalanced Data Response PENDAHULUAN Regresi logistik adalah regresi yang menggunakan dua nilai yang berbeda untuk menyatakan variabel responnya Biasanya digunakan nilai 0 untuk menyatakan kegagalan dan nilai 1 untuk menyatakan kesuksesan. Dalam aplikasi regresi logistik bisa terjadi salah satu dari dua kelas sangat jarang atau sedikit dibandingkan kelas yang lain. Kejadian peperangan, peristiwa yang berkaitan dengan orang yang menderita penyakit jarang seperti flu babi, jumlah siswa yang tidak lulus di sebuah sekolah yang maju misalnya, di modelkan sebagai kejadian yang jarang. Sedangkan padanannya yaitu keadaan damai, keadaan tidak menderita flu babi dan banyaknya siswa yang lulus disekolah maju, dianggab sebagai kejadian yang umum. Dalam hal ini banyaknya data untuk tidak seimbang dibandingkan dengan banyaknya data untuk 119

Surya Mayadi Jika melambangkan satu respon acak dari variabel dependen, akan dinotasikan sebagai kasus yang jarang dan sebagai kasus umum. Andaikan adalah banyaknya observasi untuk dan adalah banyaknya observasi untuk. Fokus penelitian ini adalah mengungkapkan bagaimana menentukan estimasi maksimum likelihood atau MLE regresi logistik jika data respon tidak seimbang yaitu jauh lebih besar dibandingkan. LANDASAN TEORI 2.1 Distribusi Bernoulli Definisi 2.1 (Dudewicz & Mishra, 1988) Suatu variabel random dikatakan berdistribusi Bernoulli bila untuk suatu p, bernilai Suatu peubah acak binom dapat dipandang sebagai jumlah n peubah acak Bernoulli yaitu sebagai banyaknya yang berhasil dalam usaha Bernoulli. Definisi 2.2 (Dudewicz & Mishra,1988) Suatu variabel random mempunyai distribusi Binomial jika untuk suatu bilangan bulat positif dan suatu dengan : 2.2 Distribusi Normal Definisi 2.3 (Bain & Engelhardt, 1992) Suatu variabel random mengikuti distribusi normal dengan mean dan variansi jika mempunyai fungsi densitas 120

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang untuk dimana dan. Ini dituliskan dengan. 2.3 Regresi Logistik Regresi logistik merupakan salah satu solusi yang dapat digunakan untuk menganalisis kasus-kasus penelitian dengan tujuan untuk mencari pola hubungan antara sekumpulan variabel prediktor dengan suatu variabel respon bertipe katagorik atau kualitatif secara simultan. Regresi logistik biner khususnya, adalah regresi dimana variabel respon hanya memiliki dua kemungkinan nilai (dikotomis) misalnya ya atau tidak, sukses atau gagal, sehat atau sakit dan sebagainya. Jika probabilitas suatu peristiwa untuk terjadi adalah, maka probabilitas suatu peristiwa itu untuk tidak terjadi adalah, dan odds adalah. Secara khusus : dengan = konstanta, yang lazim disebut intersep = koefisien regresi variabel prediktor yang lazim disebut slope = variabel prediktor yang pengaruhnya akan diteliti (diacu dari Alfred DeMaris, 2004) Model di atas menganggap logit dari peristiwa tersebut linear terhadap. Probabilitas suatu peristiwa terjadi jika diberikan nilai-nilai yang spesifik dari bisa dihitung dengan rumus : 121

Surya Mayadi 2.4. Regresi Logistik Univariat Fokus dari penelitian ini adalah regresi logistik biner dengan satu variabel bebas yang kadang-kadang disebut regresi logistik sederhana atau regresi logistik univariat. Bentuk persamaan regresinya menjadi lebih sederhana yaitu : (diacu dari Gary King and Lanche Zeng, 2000) 2.5. Metode Maksimum Likelihood Metode untuk mengestimasi parameter regresi logistik adalah dengan menggunakan metode maximum likelihood. Metode ini memperoleh dugaan maksimum likelihood bagi dengan iterasi Newton-Raphson. Definisi 2.4 (Bain and Engelhardt,1992) Fungsi densitas bersama dari n variabel adalah disebut fungsi likelihood. Jika adalah representasi sampel random dari maka. Sedangkan maximum likelihood estimate (MLE) didefinisikan atas dasar definisi fungsi likelihood sebagai berikut. Defenisi 2.5 (Bain and Engelhardt,1992) Bila, sebagai fungsi distribusi probabilitas bersama dari maka nilai dalam dimana maksimum disebut estimasi maksimum likelihood dari yang dinyatakan dengan : Nilai yang memaksimalkan juga akan memaksimalkan log-likelihood dengan menderivatifkan.. Untuk memperoleh yang memaksimumkan diperoleh 122

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang Teorema 2.6 Misalkan suatu sampel terdiri dari n observasi dari pasangan dan model regresi logistik adalah: maka penduga dengan menggunakan metode maksimum likelihood adalah penyelesaian dari persamaan likelihood : dan Bentuk pada (2.5.2) dan (2.5.3) dapat ditulis : Definisi 2.7 (Budhi, 2001) Misalkan fungsi n variabel yang mempunyai turunan parsial kedua dan misalkan merupakan titik kritis fungsi yaitu titik yang memenuhi sistem persamaan Kemudian bentuk matriks Hessian fungsi yaitu matriks dengan. Jika matriks definit positif maka titik 123

Surya Mayadi merupakan titik minimum dan jika definit negatif maka merupakan titik maksimum. 2.6. Metode Newton-Raphson Metode Newton-Raphson adalah suatu metode yang menggunakan pendekatan deret Taylor untuk menyelesaikan persamaan non linier. Misalkan penaksir awalnya akan dicari estimasi sebagai parameter tunggal yaitu yang memaksimumkan fungsi. Jika digunakan pendekatan deret Taylor orde ke-2 pada akan diperoleh persamaan: untuk suatu yang bernilai antara dan. Nilai maksimum diperoleh jika maka dengan demikian: Sehingga apabila cukup dekat ke maka persamaan (2.5.2) dapat didekati dengan menyelesaikan persamaan sehingga didapat penyelesaian persamaan : dengan pendekatan untuk. Dari persamaan (2.5.3) akan diperoleh nilai-nilai pendekatan berikutnya penaksir awal secara iterasi. Jika menyatakan pendekatan ke t untuk maka: Lemma 2.8 Nilai penaksir dengan menggunakan metode Newton Raphson pada langkah ke t adalah : 124

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang 2.7 Masalah Kekonvekan Masalah kekonvekan ini memegang peranan cukup penting dalam regresi logistik terutama menyangkut penyelesaian MLE regresi logistik yang diperoleh yang mengharuskan bahwa konveks hull dari kumpulan data untuk harus beririsan dengan konveks hull dari kumpulan data untuk. Definisi 2.9 (Bazaraa dkk., 1993) Kombinasi konveks adalah kombinasi linier dari titik-titik yang berbentuk dengan dan untuk semua dari 1 sampai. Definisi 2.10 (Bazaraa dkk., 1993) Himpunan dalam ruang vektor dikatakan konveks jika garis lurus penghubung sembarang dua titik pada terletak pada himpunan itu sendiri. Dengan perkataan lain himpunan dalam dikatakan konveks jika dan maka. Definisi 2.11 (Bazaraa dkk., 1993) Konveks Hull dilambangkan dengan adalah himpunan dari semua kombinasi konveks dari. Dengan kata lain, jika dan hanya jika dapat direpresentasikan sebagai dimana. Definisi 2.12 (Leon, 1998) Diberikan matriks simetris real berukuran. 1. Matriks dikatakan semidefinit positif jika untuk setiap vektor tak nol dan sekurang-kurangnya terdapat satu sehingga. 2. Matriks dikatakan definit positif jika untuk setiap vektor tak nol. 125

Surya Mayadi Teorema berikut digunakan untuk menyelidiki matriks semidefinit positif dan matriks definit positif. Teorema 2.13 (Leon, 1998) Diberikan matriks simetris real berukuran 1. Matriks semidefinit positif jika dan hanya jika nilai eigen untuk. 2. Matriks definit positif jika dan hanya jika nilai eigen untuk. Definisi 2.14 (Bazaraa dkk.,1993) Misal adalah himpunan konveks tidak kosong dalam dan. Fungsi dikatakan fungsi konveks pada jika dan maka Fungsi dikatakan fungsi konveks sempurna jika tanda pada (2.7.1) diganti dengan tanda <. Selanjutnya suatu fungsi dikatakan konkav pada jika dan hanya jika fungsi adalah konveks pada. Dengan kata lain fungsi dikatakan konkav sempurna jika. Teorema 2.15 Diberikan Himpunan konveks dan. Fungsi f konveks pada K jika dan hanya jika matriks Hessian f semidefinit positif untuk setiap x (Bukti, lihat Edwin K.P. Chong dan Stanislaw, 2008) Teorema 2.16 Misalkan f(x,y) fungsi dua variabel yang mempunyai turunan ketiga yang kontinyu. Misalkan (a,b) merupakan titik kritis f dan disebut diskriminan fungsi f. Jika dan 126

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang i., maka titik (a,b) merupakan titik minimum lokal. ii., maka titik (a,b) merupakan titik maksimum lokal. (Bukti lihat Budi, 2001) Teorema (2.24) menyatakan bahwa jika matrik Hessian definit positif maka titik kritisnya merupakan titik minimum lokal sedangkan jika matrik Hessian definit negatif maka titik kritisnya merupakan titik maksimum lokal. Teorema 2.17 Diberikan himpunan konveks dan Jika matriks Hessian H( definit positif untuk setiap maka f fungsi konveks tegas. (Bukti, lihat Bazaraa, dkk, 1993) Teorema 2.18 Diberikan himpunan konveks. Jika fungsi konveks tegas pada maka titik minimum lokal dari sekaligus merupakan titik minimum global dan tunggal. (Bukti, lihat Bazaraa, dkk, 1993) Dari teorema (2.24), (2.25) dan (2.26), dapat dikatakan bahwa jika suatu fungsi konveks tegas dan mempunyai titik minimum lokal maka titik tersebut merupakan titik minimum global. Analog dengan itu, jika suatu fungsi konkav tegas dan mempunyai titik maksimum lokal maka titik tersebut merupakan titik maksimum global. 2.8. Kondisi Overlap Seperti di ketahui bahwa MLE yang digunakan pada regresi logistik menjadi gagal jika nilai-nilai untuk dapat dipisah secara linier dari nilai-nilai untuk. Keberadaan dan ketunggalan MLE untuk regresi logistik linier dikarakterisasi oleh Silvapulle(1981) yang mengemukakan bahwa Jika 127

Surya Mayadi maka MLE regresi logistik yang tunggal dan berhingga yaitu ada. Tetapi jika maka MLE tidak ada. Disini dan adalah Konveks hull dari himpunan data masing-masing untuk dan. Mengingat hasil Silvapulle tersebut maka diperlukan untuk menganggab adanya overlap antara data diberikan dan distribusi dari diberikan Y = 0 untuk mendapatkan penyelesaiannya. Dengan membuat mendekati tak terhingga keadaannya berbeda tapi masih memerlukan kondisi overlap tersebut. (pernyataan tentang kondisi overlap diacu dari Owen, 2007) PEMBAHASAN 3.1 MLE Regresi Logistik dengan Data Respon Tidak Seimbang Dalam penelitian ini data yang terdiri dari satu variabel bebas dinyatakan dengan pasangan dimana dan. Andaikan ada observasi untuk dan observasi untuk. Nilai nilai untuk misalkan adalah sedangkan nilai-nilai untuk adalah. Sesuai dengan definisi (2.1) setiap titik mempunyai fungsi peluang sehingga fungsi likelihoodnya adalah : selanjutnya fungsi log-likelihoodnya adalah : 128

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang Jika berdistribusi kontinyu maka kita dapat mengganti pada persamaan (3.1.1) dengan dimana adalah suatu fungsi distribusi peluang untuk. Karena beberapa atau semua komponen kemungkinannya adalah diskrit, akan digunakan sebagai fungsi distribusi peluang untuk tersebut. Dengan sedikit perubahan pada hasil terakhir yang didapat jika dilakukan pemusatan disekitar rata-rata untuk nilai variabel prediktor untuk, maka log likelihoodnya akan menjadi : 3.2 Lemma-Lemma Pendukung Lemma 3.1 Untuk maka pertidaksamaan berikut ini berlaku : Lemma 3.2 Misalkan dan. Jika diasumsikan bahwa distribusi mengelilingi dan bahwa maka log-likelihood mempunyai pembuat maksimum berhingga. 129

Surya Mayadi 3.3 Hasil Utama Teorema 3.3 Jika dan tertentu dan anggab bahwa memenuhi tail condition (3.2.3) dan mengelilingi, maka pembuat maksimum dari pada persamaan (3.1.2) memenuhi : Bukti Dengan membuat persamaan (3.1.2) menjadi : kemudian dilakukan pembagian dengan diperoleh : Jika akan membuat sisi kanan persamaan (3.3.2) diatas menjadi nol karena menurut lemma (3.3), terbatas jika mendekati tak terhingga. Oleh karena itu MLE nya memenuhi persamaan atau yaitu Sehingga untuk berlaku 3.4 Distribusi Normal Pada bagian ini akan digunakan distribusi normal sebagai pada persamaan (3.3.1). Misalkan bahwa maka : 130

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang Selanjutnya : Dengan mensubstitusikan persamaan (3.4.1) dan (3.4.2) ke persamaan (3.3.1) diperoleh : 4. Data Simulasi 4.1 Hasil Data Simulasi Tabel 1. slope( regresi logistik Data Slope ( Intersep ( Persen Simpangan terhadap dan Data Asli 100 500 1000 5000 Asli -1.21235 0.615333 Ganti setiap untuk ( dengan Ganti semua untuk ( dengan satu Asli -1.05664-1.28075 Ganti setiap untuk ( dengan Ganti semua untuk ( dengan satu -1.65363 1.613998 36.3983 162.2967-1.3798-1.31026 13.8118 312.9351-1.10532-1.16515 4.6076 9.0259-1.06154-3.57243 0.4646 178.9326 Asli -1.01149-2.10594 Ganti setiap untuk ( dengan -1.03297-2.05505 2.1231 2.4168 Ganti semua untuk ( dengan satu -1.01373-4.4036 0.2211 109.1034 Asli -0.98946-3.7344 Ganti setiap untuk ( dengan -0.99317-3.7254 0.3757 0.2408 131

Surya Mayadi Ganti semua untuk ( dengan satu -0.98865-6.0389 0.0817 61.7103 Asli -0.99783-4.40694 10000 Ganti setiap untuk ( dengan Ganti semua untuk ( dengan satu -0.99974-4.40232 0.1915 0.1048-0.99737-6.71061 0.046 52.2736 Tabel 1 menunjukkan bahwa slope( regresi logistik dari data asli cukup dekat dengan slope regresi logistik jika dilakukan penggantian setiap dengan dan penggantian semua dengan satu nilai. Berbeda dengan slope, intersep cukup dekat ke intersep data asli jika dilakukan penggantian setiap. Dari karakteristik nilai dan yang dihasilkan pada tabel tersebut nampak bahwa lebih dekat dengan data asli jika dilakukan penggantian semua dengan satu. Sedangkan lebih dekat dengan data asli jika dilakukan penggantian setiap dengan. Hasil yang diperoleh lebih lanjut disajikan dalam tabel 2 berikut : N Asli Nilai Rumus Persen Penyimpangan 100-1.21235-1.17218 3.3136 500-1.05664-1.02485 3.0084 1000-1.01149-0.99676 1.4563 5000-0.98946-0.99961 1.0265 10000-0.99783-0.99989 0.2060 \ Dari tabel 2 terlihat bahwa jika digunakan rumus slope( cukup dekat dengan data asli. Terlihat bahwa persen penyimpangan semakin kecil dengan bertambah besarnya. 132

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang Hasil data simulasi di atas dapat diilustrasikan dengan grafik dibawah ini: 0-0,2-0,4 N=100 N= 500 N= 1000 N=5000 N=10000 β -0,6-0,8-1 -1,2-1,4-1,6 Asli Ganti setiap x untuk Y=1 dgn x-bar Ganti semua x untuk y=1 dgn satu x-bar Rumus -1,8 3 2 1 0-1 -2-3 -4-5 -6-7 -8 N=100 N=500 N=1000 N=5000 N=10000 Asli Ganti setiap x untuk Y=1 dgn x-bar Ganti semua x untuk Y=1 dgn satu x-bar Gambar 1. Grafik Nilai intersep untuk setiap data untuk N yang bertambah besar KESIMPULAN DAN SARAN 5.1 Kesimpulan 1. Estimasi maksimum likelihood (MLE) pada regresi logistik dengan data respon sangat tidak seimbang ditentukan dengan mencari nilai maksimum persamaan 133

Surya Mayadi yang penyelesaiannya dalam bentuk persamaan. 2. Koefisien persamaan regresi logistik dengan data respon sangat tidak seimbang dapat ditentukan dengan mengganti setiap untuk ( masing-masing dengan atau dengan mengganti semua untuk ( dengan satu. 3. Koefisien regresi logistik dengan data respon sangat tidak seimbang dapat ditentukan dengan rumus dimana adalah rata-rata untuk adalah rata-rata untuk dan adalah variansi untuk Semakin besar, nilai yang diperoleh dengan rumus makin dekat dengan regresi logistik data asli. 5.2. Saran Perlu pengkajian yang lebih mendalam terhadap pembahasan ini terutama menyangkut regresi logistik multivariat dengan variabel respon dengan dua katagori (biner) maupun lebih dari dua katagori (multinomial). Juga menyangkut kemungkinan menggunakan yang lain misalnya distribusi Cauchy yang mempunyai ekor yang lebih besar dari ekor distribusi normal. Pengkajian yang lebih mendalam juga dapat dilakukan dengan mencari seberapa besar persentase penyimpangan koefisien ditentukan dari besarnya perbandingan antara banyaknya data untuk dan banyaknya data untuk sehingga nantinya untuk setiap nilai perbandingan dihasilkan nilai persentase penyimpangan. DAFTAR PUSTAKA Alfred DeMaris. (2004). Regression with Social Data. John Wiley & Sons, New York. Art B. Owen. (2007). Infinitely Imbalanced Logistic Regression. Journal of Machine Learning Research 8(2007) 761-773. Bain L. J dan Engelhardt M..(1992). Introduction to Probability and Mathematical Statistics, Duxbury Press: Belmont, California. 134

Regresi Logistik Univariat dengan Data Respon Tidak Seimbang Budhi W.S.. (2001). Kalkulus Peubah banyak dan penggunaannya, ITB, Bandung Draper,N.. (1992). Analisis Regresi Terapan. Gramedia Pustaka Utama, Jakarta. Edward J. Dudewicz/Satya N Mishra. (1988). Modern Mathematical Statistics, Alih bahasa : RK Semebiring,1995, ITB Bandung. Edwin K.P. Chong dan Stanislaw H. Zak. (2008). An Intoduction to Optimization third edition, John Wiley & Sons, Inc.,Hoboken, New Jersey Gary King and Lanche Zeng. (2000). Logistic Regression in Rare Events Data, The Global Burden of Disease 2000 in Aging Populations. Research Paper No. 2. Leon, J.S.. (1998). Aljabar Linear dan Aflikasinya, Edisi kelima, Alih bahasa oleh Bondan, A. Erlangga, Jakarta. Mokhtar S. Bajaraa, Hanif D. Sherali and C.M. Shetty. (1993). Non Linear Programming,,John Wiley & Sons, New York. Montgomery,D.. (1961). Introduction to Linear Regression Analysis, John Wiley & Sons, New York. Munir R.. (2003). Metode Numerik, Informatika, Bandung. Searle S.R. (1970) Linear Models, John Wiley & Sons, New York. Setya Budi, Wono. (2001). Kalkulus Peubah Banyak dan Penggunaannya, ITB Bandung. Simonof, J.. (2003). Analyzing Categorical Data, Springer-Verlag, New York. Walpole,Ronald E. dan Myers, Raymond H. (1995). Probability and Statistics for Engineers and Scientists, fourth edition, Alih bahasa: RK. Sembiring, ITB Bandung. 135