Buletin Ilmiah Mat. Stat. dan Terapannya (Bimaster) Volume 7, No. 3 (8), hal 3-38. PERBANDINGAN MODEL REGRESI PARAMETRIK EKSPONENSIAL DAN WEIBULL PADA DATA SURVIVAL TERSENSOR INTERVAL Jajad Sudrajat, Setyo Wira Rizki, Hendra Perdana INTISARI Analisis survival adalah suatu metode untuk menganalisis data yang berhubungan dengan waktu, mulai dari start-point sampai dengan terjadinya suatu kejadian khusus atau end-point. Data pengamatan yang kejadian hanya diketahui pada selang waktu tertentu, yaitu sebelum dan sesudah waktu tertentu saja disebut data tersensor interval. Data tersensor interval dianalisis membentuk model regresi Eksponensial dan Weibull sehingga mendapatkan model terbaik. Data yang digunakan dalam penelitian ini adalah hasil pengamatan terhadap ketahanan gigi susu dengan jumlah sampel 4386 anak di Flenders, Belgia. Faktor-faktor yang dianggap penting mempengaruhi ketahanan gigi susu adalah jenis kelamin anak dan status awal gigi anak. Model regresi parametrik yang dibandingkan adalah model regresi eksponensial dan model regresi Weibull, pemilihan model terbaik dapat dilihat dengan membandingkan nilai AIC. Berdasarkan nilai AIC, model regresi Weibull merupakan model yang lebih baik dibandingkan model regresi Eksponensial. Pada anak yang berjenis kelamin laki-laki memiliki waktu ketahanan gigi lebih tinggi dibandingkan anak yang berjenis kelamin perempuan. Status awal gigi tidak cacat memiliki waktu ketahanan gigi lebih tinggi dibandingkan dengan status awal gigi sudah cacat. Kata Kunci: Survival, Tersensor Interval, Model Regresi Parametrik PENDAHULUAN Analisis survival adalah suatu metode untuk menganalisis data yang berhubungan dengan waktu, mulai dari start-point sampai dengan terjadinya suatu kejadian khusus atau end-point []. Dalam analisis survival tedapat tiga istilah yang perlu dipahami. Pertama, survival time atau waktu individu untuk tetap bertahan dalam periode pengamatan. Kedua, kejadian (event) yang menjadi fokus dalam penelitian. Ketiga, suatu kejadian terjadi apabila peneliti mempunyai waktu ketahanan individu yang menjadi subjek penelitian, walaupun sesungguhnya peneliti tidak mengetahui waktu ketahanan yang pasti, istilah ini disebut dengan sensor. Data tersensor adalah data yang diperoleh dari amatan yang tidak secara utuh, karena adanya individu yang meninggal pada saat pengamatan atau adanya individu yang hilang ataupun dengan alasan lain, sehingga tidak dapat diambil datanya secara lengkap []. Penyebab terjadinya adalah hingga studi berakhir belum muncul kejadian yang diinginkan, hilang dari pengamatan, atau mengalami kejadian yang tidak berhubungan dengan substansi yang diteliti. Data tersensor dibagi dalam dua kategori besar yaitu sensor titik (point censoring) dan sensor interval (Interval censoring) [3]. Penelitian ini bertujuan untuk membentuk model regresi parametrik berdistribusi Eksponensial dan berdistribusi Weibull untuk data tersensor interval pada waktu ketahanan gigi susu. Dilanjutkan bagaimana menentukan model regresi parametrik terbaik untuk data tersensor interval pada waktu ketahanan gigi susu. Terakhir dianalisis perbedaan pengaruh antara jenis kelamin dan status awal gigi terhadap ketahanan gigi susu. Penelitian ini dibatasi pada model regresi parametrik (parametric regression model) dengan menggunakan data waktu ketahanan gigi susu tersensor interval (interval censored) pada dua distribusi yaitu distribusi Eksponensial dan distribusi Weibull. Dalam penelitian ini digunakan data yang tersensor interval yaitu data waktu ketahanan gigi susu terhadap 4386 anak baik laki-laki dan perempuan. Data diperoleh dari penelitian yang dilakukan di 3
3 J. Sudrajat, S. W. Rizki, H. Perdana Flenders, Belgia. Pengumpulan data pada penelitian ini dilakukan secara periodik selama enam tahun, yaitu pada tahun 996 hingga tahun. Tahap dilanjutkan dengan memilih data tersensor interval yang digunakan. Data tersensor yang diperoleh apakah data tersebut berdistribusi Eksponensial dan Weibull, apabila data sudah berdistribusi Eksponensial dan Weibull maka dilanjutkan ke tahap berikutnya yaitu pembahasan model regresi survival data diasumsikan membentuk distribusi tertentu [4], oleh karena itu data diasumsikan berdistribusi Eksponensial dan Weibull yang dianalisis sehingga membentuk model regresi Eksponensial dan model regresi Weibull. Apabila data tersebut sudah membentuk model regresi, maka proses selanjutnya adalah melakukan uji likelihood ratio. Uji likelihood ratio digunakan untuk melihat apakah model yang terbentuk layak digunakan atau tidak. Apabila model tidak layak digunakan maka proses tidak dapat dilanjutkan dan kembali ke proses pencarian data, kemudian apabila model terbentuk layak digunakan maka proses berikutnya adalah uji parsial guna menentukan variabel independen mana saja yang dapat signifikan mempengaruhi variabel dependen. Model regresi Eksponensial dan model regresi Weibull yang telah terbentuk dibandingkan dengan melihat nilai AIC (Akaike Information Criterion) [5]. Pada model regresi yang mempunyai nilai AIC terkecil merupakan model terbaik pada data. Model terbaik yang terbentuk diinterpretasikan berdasarkan variabel independen manakah yang berpengaruh terhadap variabel dependen. FUNGSI SURVIVAL Variabel T adalah variabel random non-negatif yang mewakili waktu daya tahan suatu individu. Variabel random T dengan fungsi densitas peluang yang dinyatakan dalam persamaan sebagai berikut[8]: Fungsi survival F t P T t f u d u f t, mempunyai fungsi distribusi kumulatif t S t didefinisikan sebagai probabilitas suatu individu bertahan sampai waktu t dan dinyatakan dengan persamaan sebagai berikut[8]: S t P T t f u du t t Berdasarkan definisi diatas, dapat diperoleh persamaan baru yang menyatakan hubungan antara fungsi survival dengan fungsi distribusi kumulatif Fungsi hazard ht F t, yaitu: S t f u d u t t P T t F didefinisikan sebagai tingkat kegagalan pada waktu t dengan syarat individu bertahan (survival) sampai waktu t. Fungsi hazard didefinisikan sebagai berikut [8]: P t T t t T t ht lim t t Berdasarkan definisi di atas, dapat diperoleh persamaan sebagai berikut: f t h t S t
Perbandingan Model Regresi Parametrik 33 KOLMOGOROV-SMIRNOV Salah satu teknik yang digunakan untuk menguji apakah data berdistribusi tertentu adalah uji Kolmogorov-Smirnov (K-S). Konsep dasar uji Kolmogorov-Smirnov adalah membandingkan distribusi teoritik dan distribusi empirik (observasi) berdasarkan frekuensi kumulatif [6]. Misalkan X, X X n adalah sampel random berukuran n dari suatu populasi dengan fungsi distribusi F x. Andaikan F x adalah suatu fungsi distribusi tertentu dan SN distribusi kumulatif, maka akan diuji jarak vertikal terjauh (D) sebagai berikut: F x F x data berdistribusitertentu H : untuk semua x H : F x F x untuk suatu x data tidakberdistribusitertentu Uji Kolmogorov-Smirnov menggunakan statistik uji: X adalah frekuensi D max F X S X () N DATA TERSENSOR INTERVAL (INTERVAL CENSORED DATA) Data tersensor adalah data yang diperoleh dari amatan yang tidak secara utuh, karena adanya individu yang meninggal pada saat pengamatan atau adanya individu yang hilang ataupun dengan alasan lain, sehingga tidak dapat diambil datanya secara lengkap. Kasus tersensor interval ini terjadi ketika pengamatan dilakukan secara periodik yaitu pengamatan terhadap objek dilakukan secara dalam selang waktu tertentu. Hal ini mengakibatkan objek tidak dapat dimonitor secara penuh dan waktu terjadinya kejadian akhir tidak dapat diketahui secara tepat. MODEL REGRESI PARAMETRIK Model regresi parametrik data daya tahan tersensor interval merupakan analisis statistik yang memanfaatkan hubungan antara variabel dependen (waktu ketahanan gigi susu tersensor interval) dengan variabel independen jumlahnya dapat lebih dari satu, dan populasi data ketahanan gigi susu diasumsikan mengikuti suatu distribusi tertentu. Dalam model ini, waktu ketahanan gigi susu ditransformasikan dengan logaritma Y logt. MODEL REGRESI EKSPONENSIAL Misalkan T adalah variabel random data ketahanan gigi susu berdistribusi Eksponensial dengan parameternya adalah, maka fungsi densitas peluang dari T didefinisikan sebagai berikut [7]: ( t) ; f t e t Fungsi distribusi kumulatif dari variabel random T yang berdistribusi Eksponensial adalah sebagai berikut: F( t) t e Berdasarkan Persamaan (8) maka diperoleh fungsi survival dari T yaitu: S( t) e t ( ) Model Eksponensial adalah model dengan satu parameter yang mengasumsikan bahwa fungsi hazard h(t) dari T adalah konstan pada rentang waktu T yaitu: h( t) ;
34 J. Sudrajat, S. W. Rizki, H. Perdana Apabila didefinisikan log, y X maka dapat dibentuk persamaan Loglinear Y logt yaitu: T e [ X ] () MODEL REGRESI WEIBULL Model Eksponensial adalah model yang hanya tergantung pada satu parameter. Bentuk generalisasi dari Model Eksponensial adalah Model Weibull dengan dua parameter yang mempunyai fungsi hazard sebagai berikut. h t ( ) t ;, Variabel random T dikatakan berdistribusi Weibull dengan parameter dan mempunyai fungsi densitas sebagai berikut [8] fungsi survival dari T adalah: f ( t) t exp t exp t S t Fungsi distribusi kumulatif dari variabel random T yang berdistribusi Weibull adalah sebagai berikut: Apabila didefinisikan log, Loglinear Y logt yaitu: exp t F t *, y X maka dapat dibentuk persamaan T e [ * X ] (3) UJI PARAMETER Terdapat dua jenis uji dalam menguji parameter model, yaitu:. Pengujian secara serentak Bertujuan untuk mengetahui apakah model layak digunakan atau tidak. Uji yang digunakan adalah uji Likelihood Ratio, dengan statistik uji: LR l l LR berdistribusi chi-kuadrat derajat kebebasan p p dengan p adalah jumlah. (4) Proses uji Likelihood Ratio sebagai berikut: a. Uji Hipotesis H :... model tidak layak digunakan p H : Minimal ada satu dengan i,,..., p model layak digunakan b. Tingkat Signifikansi, 5% c. Statistik Uji, d. Daerah Kritis, H ditolak jika LR l l LR i > ;p atau P_value < α e. Kesimpulan Jika H ditolak, maka dapat ditarik kesimpulan bahwa model layak digunakan.
Perbandingan Model Regresi Parametrik 35. Pengujian secara parsial Proses untuk melihat variabel independen mana saja yang dapat signifikan mempengaruhi variabel dependen. a. Uji Hipotesis H : i,,..., p Koefisien tidak layak masuk model i H : i,,..., p Koefisien layak masuk model i b. Tingkat Signifikansi, 5% c. Statistik Uji ˆ Z N Var E f yi X Var ˆ n ˆ,, ln ; ˆ d. Daerah Kritis H ditolak jika Zhitung Ztabel,96 atau Zhitung Ztabel,96 atau P _ value,5 e. Kesimpulan Jika H ditolak, maka dapat ditarik kesimpulan bahwa koefisien layak masuk dalam model. KRITERIA PEMILIHAN MODEL TERBAIK Setelah uji Likelihood Ratio Test (LRT) dilakukan dan memperoleh kesimpulan bahwa model layak digunakan, maka selanjutnya dilakukan uji parsial terhadap koefisien-koefisien regresi yang dihasilkan. Setelah itu, dilanjutkan dengan pengecekan pemilihan model terbaik dari beberapa model yang terbentuk. Salah satu ukuran yang digunakan untuk model parametrik adalah Akaike Info Criterion (AIC) yang dirumuskan sebagai berikut [5]: l p Banyaknya parameter dalam model Nilai loglikelihood model AIC * l p (5) STUDI KASUS Data yang digunakan dalam studi kasus ini adalah data sekunder dari data waktu ketahanan gigi susu. Sampel data yang digunakan pada penelitian ini berjumlah 4386 anak, data diperoleh dari penelitian yang dilakukan di Flenders, Belgia. Pengumpulan data pada penelitian ini dilakukan secara periodik selama enam tahun, yaitu pada tahun 996 hingga tahun. Dalam hal ini, yang menjadi variabel dependen adalah waktu ketahanan gigi susu (T) dengan variabel independen jenis kelamin (X ) untuk laki-laki, untuk perempuan dan status awal gigi (X ) untuk gigi tidak cacat, untuk gigi sudah cacat. Data ketahanan gigi susu diasumikan berdistribusi Eksponensial dan Weibull dengan uji Kolmogorov-Smirnov (K-S), hasil uji Kolmogorov-Smirnov distribusi Eksponensial nilai P-value (,754) lebih besar dari alpha (,5) sehingga data ketahanan gigi susu berdistribusi Eksponensial. Hasil uji Kolmogorov-Smirnov distribusi Weibull nilai P-value (,435) lebih besar dari alpha (,5), sehingga data ketahanan gigi susu berdistribusi Weibull. Sesuai dengan asumsi yang harus dipenuhi oleh model regresi Eksponensial, maka T diasumsikan berdistribusi Eksponensial. Selanjutnya dilakukan analisis regresi dengan memasukkan semua variabel independen ke dalam model. Dengan bantuan software R diperoleh hasil yang disajikan pada Gambar.
36 J. Sudrajat, S. W. Rizki, H. Perdana Gambar Model Regresi Eksponensial (intersep, X, X ) Berdasarkan Gambar diperoleh model regresi Eksponensial sebagai berikut: [,34,94 X,3 X ] T e Dilakukan pengujian untuk mengetahui apakah model regresi Eksponensial tersebut sesuai dengan data. Maka dilakukan uji Likelihood Ratio Ratio sebagai berikut: Tabel Nilai AIC, Log-likelihood Model, Log-likelihood Intercept, Chi-Square, P_Value dari Model Regresi Eksponensial AIC L model L Intercept Chisquare P_Value 75,73-869,9-864,7 6,67 4,e-4 Berdasarkan Tabel, diperoleh nilai Likelihood Ratio Test lebih besar dari nilai chikuadrat tabel (5,99), atau p_value (4,e-4) lebih kecil dari alpha (,5). Oleh karena itu dapat disimpulkan bahwa model regresi Eksponensial layak digunakan. Tahap selanjutnya dilakukan pengujian parsial untuk melihat variabel independen mana saja yang dapat signifikan mempengaruhi variabel dependen (waktu ketahanan gigi susu). Tabel Nilai Z hitung dan P_value Model Regresi Eksponensial Variabel Z hitung P_Value Kesimpulan Intersep 67,3, H ditolak X (Jenis Kelamin) -5,9 3,5e-7 H ditolak X (Status Awal Gigi) -6,9,4e-9 H ditolak Berdasarkan Tabel variabel intersep, X dan X signifikan berpengaruh terhadap variabel dependen, karena nilai p_value lebih kecil dari alpha (,5). Tahap selanjutnya sesuai dengan asumsi yang harus dipenuhi oleh model regresi Weibull, maka T diasumsikan berdistribusi Weibull. Selanjutnya dilakukan analisis regresi dengan memasukkan semua variabel independen ke dalam model. Dengan bantuan software R diperoleh hasil yang disajikan pada Gambar.
Perbandingan Model Regresi Parametrik 37 Gambar Model Regresi Weibull (intersep, X, X ) Berdasarkan Gambar diperoleh model regresi Weibull sebagai berikut:,6796,8439,364x,3769 X T e Dilakukan pengujian untuk mengetahui apakah model regresi Weibull tersebut sesuai dengan data. Maka dilakukan uji Likelihood Ratio Ratio sebagai berikut: Tabel 3 Nilai AIC, Log-likelihood Model, Log-likelihood Intercept, Chi-Square, P_Value dari Model Regresi Weibull AIC L model L Intercept Chisquare P_Value 55,74-553,9-5597 46,3 Berdasarkan Tabel 3, diperoleh nilai Likelihood Ratio Test lebih besar dari nilai chikuadrat tabel (5,99), atau p_value () lebih kecil dari alpha (,5). Oleh karena itu dapat disimpulkan bahwa model regresi Weibull layak digunakan. Tahap selanjutnya dilakukan pengujian parsial untuk melihat variabel independen mana saja yang dapat signifikan mempengaruhi variabel dependen (waktu ketahanan gigi susu). Tabel 4 Nilai Z hitung dan P_value Model Regresi Weibull Variabel Z hitung P_Value Kesimpulan Intersep 94,, H ditolak X (Jenis Kelamin) -8,4 4,6e-7 H ditolak X (Status Awal Gigi) -8,74,3e-8 H ditolak Berdasarkan Tabel 4 variabel intersep, X dan X signifikan berpengaruh terhadap variabel dependen, karena nilai p_value lebih kecil dari alpha (,5). Dalam pembahasan ini, dilakukan perbandingan model Eksponensial dan Weibull untuk data waktu ketahanan gigi susu berdasarkan ukuran AIC. Tabel 5 Pencocokan Model Regresi Parametrik untuk Data Waktu Ketahanan Gigi Susu Model Regresi Variabel AIC Eksponensial Intersep, X dan X 75,73 Weibull Intersep, X dan X 55,74
38 J. Sudrajat, S. W. Rizki, H. Perdana Pada Tabel 5 diperoleh bahwa kedua model memiliki nilai AIC yang cukup berbeda. Model regresi Weibull mempunyai nilai AIC yang lebih kecil dibandingkan model regresi Eksponensial. Oleh karena itu model Weibull adalah model yang lebih baik untuk data waktu ketahanan gigi susu, yaitu:,6796,8439,364 X,3769X T e Dari model regresi Weibull tesebut diinterpretasikan bahwa apabila di asumsikan seorang anak berjenis kelamin laki-laki dengan status awal gigi tidak cacat, memiliki waktu ketahanan gigi susu sebesar,7856783 tahun. Anak berjenis kelamin laki-laki dengan status awal gigi sudah cacat, memiliki waktu ketahanan gigi susu sebesar,677 tahun. Anak berjenis kelamin perempuan dengan status awal gigi tidak cacat memiliki, memiliki waktu ketahanan gigi susu sebesar,957 tahun, sedangkan untuk anak berjenis kelamin perempuan dengan status awal gigi sudah cacat, memiliki waktu ketahanan gigi susu sebesar,43 tahun. KESIMPULAN. Pada studi kasus ini diperoleh model regresi parametrik untuk data waktu ketahanan gigi susu berdistribusi Eksponensial dan Weibull sebagai berikut: [,34,94 X,3 X ] Eksponensial : T e X Weibull : T e,6796,8439,364,3769x. Pemilihan model terbaik dapat dilihat melalui ukuran kesesuaian model yaitu dengan melihat nilai AIC terkecil. Model regresi Weibull merupakan model terbaik, karena nilai AIC model regresi Weibull lebih kecil yaitu 55,74 dibandingkan model regresi Eksponensial yaitu 75,73. 3. Pada anak dengan status awal gigi tidak cacat untuk berjenis kelamin laki-laki memiliki waktu ketahanan gigi lebih tinggi dibandingkan anak yang berjenis kelamin perempuan, sedangkan pada anak dengan status awal gigi cacat untuk berjenis kelamin laki-laki memiliki waktu ketahanan gigi lebih tinggi dibandingkan anak yang berjenis kelamin perempuan. DAFTAR PUSTAKA [] Collett, D., 3, Modelling Survival Data in Medical Research, Ed II, Chapmann & Hall, London. [] Lee, E.T., 3, Liniear Regression Analysis for Highly Stratified Failure Time Data, John Willey and Sons Inc, New York. [3] Leung, K. M., Elashoff, R.M., dan Afifi, A. A., 997, Censoring Issues in Survival Analysis, Springer, Los Angeles. [4] Riwidikdo, H., Statistik Kesehatan, Mitra Cendekia Press. Yogyakarta. [5] Lee, E.T., and Wang, J. W., 3, Statistical Methods for Survival Data Analysis, ED III, John Willey and Sons Inc, New York. [6] Siegel, S., 956, Nonparametric Statistics, McGraw-Hill Book Company Inc. New York. [7] Sun, J., 6, The Statistical Analysis of Interval Censored Failure Time Data, Springer, Columbia. [8] Kleinbaum, D.G. dan Klein, M. (5). Survival Analysis- A Self Learning Text, Second Edition, Springer, New York. [9] Klein, P. J and Moeschberger, L. M., 3, Survival Analysis Techniques for Censored and Truncated Data, Ed II, Springer, New York. JAJAD SUDRAJAT SETYO WIRA RIZKI HENDRA PERDANA : FMIPA Untan Pontianak, jajad_sudrajat96@student.untan.ac.id : FMIPA Untan Pontianak, setyo.wirarizki.@math.untan.ac.id : FMIPA Untan Pontianak, hendra.perdana@math.untan.ac.id