(S.4) PENDEKATAN METODE ALGORITMA GENETIK UNTUK IDENTIFIKASI MODEL ARIMA Jimmy Ludin Mahasiswa Program Magister Jurusan Statistika Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya 200 ABSTRAK Identifikasi model merupakan tahapan yang sangat penting dalam membangun model ARIMA karena kesalahan pada identifikasi model akan menyebabkan kesalahan pada tahap berikutnya yang mengakibatkan tingkat akurasi dari model yang dihasilkan sangat rendah. Metode yang biasa digunakan untuk mengidentifikasi model ARIMA yaitu metode correlogram yang mempunyai kelemahan yaitu plot-nya kadang tidak bisa menghasilkan lag yang jelas untuk diidentifikasi sehingga keputusan yang diambil biasanya bersifat subjektif. Untuk itu digunakan pendekatan metode Algoritma Genetika untuk mengidentifikasi model ARIMA secara efektif dan efisien. Dari penggunaan metode algoritma genetika tersebut, akan dilihat tingkat akurasinya dengan membandingkan terhadap metode correlogram. Hasil dari penelitian ini sangat bermanfaat untuk mengidentifikasi model ARIMA dan penerapannya. Kata Kunci : Deret Waktu, ARIMA, Algoritma Genetika.. Pendahuluan Pemodelan dari suatu data yang bersifat deret waktu sering digunakan pada berbagai bidang yang tujuannya antara lain untuk peramalan. ARIMA (Autoregressive Integrated Moving Average) merupakan metode yang diperkenalkan oleh Box Jenkins untuk menganalisa dan memodelkan data deret waktu. Ada tiga tahap untuk membangun model ARIMA : () identifikasi model, (2) estimasi model dan (3) validasi model. Identifikasi model merupakan tahap yang paling penting dalam membangun model ARIMA, karena kesalahan pada identifikasi model akan menyebabkan kesalahan pada tahap estimasi model dan selanjutnya yang mengakibatkan tingkat akurasi dari model yang dihasilkan sangat rendah (Chatfield, C, 2000). Salah satu metode yang biasa digunakan untuk mengidentifikasi model ARIMA yaitu menggunakan plot fungsi autokorelasi partial (PACF) dan fungsi autokorelasi (ACF) atau disebut sebagai metode correlogram. Metode ini diperkenalkan oleh Box dan Jenkins yang digunakan untuk mengidentifikasi autoregressive (AR) dan moving average (MA) dari model ARIMA. Metode correlogram mempunyai beberapa kelemahan yaitu plot-nya kadang tidak bisa menghasilkan lag yang jelas untuk diidentifikasi sehingga keputusan yang diambil biasanya bersifat subjektif yang akan membuat hasilnya tidak stabil (Chatfield, Manajemen Risiko di Bidang Perbankan dan Asuransi 26
C, 2000), sehingga harus mencoba beberapa model ARMA untuk menghasilkan model terbaik. Cara ini sangat tidak efektif dan tidak efisien. Untuk mengatasi kelemahan tersebut, beberapa metode dapat digunakan untuk mendapatkan hasil identifikasi model ARIMA yang lebih efektif dan efisien. Salah satu metode yang bisa digunakan yaitu metode Algoritma Genetika yang telah banyak digunakan untuk membangun model ARIMA. Chen, dkk (2002) menggunakan metode algoritma genetika untuk mengestimasi maximum likelihood parameter dari model F- ARIMA. Kemudian Ong, dkk (2005) menggunakan metode algoritma genetika untuk mengidentifikasi model ARIMA. Pada makalah ini digunakan metode algoritma genetika untuk mengidentifikasi model ARIMA. Disamping itu, model hasil identifikasi menggunakan metode algoritma genetika akan dilihat tingkat akurasinya dengan membandingkannya dengan metode correlogram dengan menggunakan data jumlah penumpang angkutan udara yang datang dari luar negeri di bandara Soekarno Hatta Jakarta. 2. Data Deret Waktu Data deret waktu adalah sekumpulan data observasi yang variabelnya diukur dalam urutan periode waktu, misalnya bulanan, triwulanan, tahunan, dan sebagainya. Tujuan dari pengukuran data deret waktu adalah untuk menemukan pola data secara historis dan menerapkan pola tersebut untuk peramalan. Peramalan deret waktu didasarkan pada nilai variabel yang telah lalu. Pada makalah ini yang digunakan adalah deret waktu diskrit dimana observasinya tersusun berdasarkan periode bulanan. 2.. Stasioner Menurut Box, Jenkins, dan Reissel (994), untuk menggunakan model ARIMA, maka syarat utama yang harus dipenuhi adalah stasioneritas, baik dalam ratarata maupun varians. Data deret waktu dikatakan stasioner dalam varians jika variansnya tidak dipengaruhi oleh deret waktu atau variansnya konstan. Stastioner dalam rata-rata yaitu jika nilai rata-ratanya konstan dan tidak dipengaruhi oleh deret waktu (Makridakis dkk.,999). Untuk mengatasi data yang tidak stasioner dalam varians, dapat dilakukan transformasi pada data. Transformasi yang biasa digunakan adalah transformasi Box- Cox. Untuk mengatasi ketidakstasioneran data dalam rata-rata, maka dapat dilakukan proses differencing (Box, Jenkins, dan Reissel., 994) 2.2. Model ARIMA Model ARIMA merupakan penggabungan antara model AR(p) dan MA(q) serta proses differencing orde d pada data deret waktu. Bentuk umum dari model ARIMA(p,d,q) adalah sebagai berikut : d ( )( ) ( ) φ B B Z = θ B a () p t q t dimana : φ B = φ B... φ B ( ) ( ) p p θ B = θ B... θ B q p p q ( B) d merupakan operator untuk differencing orde d. Manajemen Risiko di Bidang Perbankan dan Asuransi 27
Jika pada data deret waktu terdapat komponen musim (s), maka model ARIMA akan menjadi Seasonal ARIMA atau biasa disingkat menjadi SARIMA dengan ordo ( P, D, Q ) s. Bentuk umum dari model SARIMA adalah sebagai berikut : s s D s Φ ( B )( B ) Z =Θ ( B ) a (2) P t Q t dimana : Φ = parameter seasonal autoregressive P Θ = parameter seasonal moving average Q Dengan menggabungkan persamaan (2.3) dengan (2.4), maka akan diperoleh model multiplicative dengan bemtuk umumnya sebagai berikut : φ D s d s s ( ) ( )( ) ( ) θ ( ) ( ) B Φ B B B Z = B Θ B a (3) p P t q Q t dimana : φ ( B) dan θ ( B) p, adalah polynomial dengan ordo p dan q untuk nonseasonal, Φ s P( B ), dan ( B s Q ) q Θ adalah polynomial dengan ordo P danq untuk seasonal, d dan D merupakan bentuk non-seasonal dan seasonal dari differencing yang digunakan. 2.3. Identifikasi model ARIMA menggunakan Correlogram Identifikasi model ARIMA bisa dilakukan dengan melihat plot ACF dan plot PACF yang dinamakan sebagai correlogram. Correlogram digunakan antara lain untuk menentukan lag yang signifikan dan untuk menentukan ordo p dan q dari model ARIMA. Bentuk-bentuk plot ACF dan PACF dalam mengindentifikasi model ARIMA adalah seperti pada Tabel 2.. Tabel 2. Bentuk ACF dan PACF untuk model ARIMA Model ACF PACF AR(p) MA(q) turun cepat secara eksponensial / sinusoidal terputus setelah lag q terputus setelah lag p turun cepat secara eksponensial / sinusoidal AR(p) atau MA(q) terputus setelah lag q terputus setelah lag p ARMA(p,q) Sumber : (Wei, 990). 2.4. Estimasi Parameter model ARIMA turun cepat setelah lag (q-p) turun cepat setelah lag (pq) Dalam menaksir parameter model ARIMA ada beberapa metode yang dapat dilakukan, salah satunya yaitu metode Conditional Least Squares (Box, Jenkins, dan Reissel., 994). Untuk mengetahui apakah parameter model ARIMA yang telah diestimasi signifikan atau tidak maka dilakukan pengujian signifikansi parameter dengan menggunakan uji-t. 2.5. Uji Asumsi Residual Manajemen Risiko di Bidang Perbankan dan Asuransi 28
White noise dilakukan untuk melihat apakah error yang dihasilkan memiliki varians konstan (identik) dan tidak ada autocorrelation. Hipotesisnya adalah sebagai berikut : H 0 : ρ = ρ =... = ρ = 0 2 k H : minimal ada satu ρ m yang tidak sama dengan nol untuk m=,2,...,k. 2.6. Akurasi Peramalan Data Time Series Akurasi peramalan dapat diukur dari nilai berikut diantaranya : - Mean Squared Error (MSE) yaitu rata-rata jumlah kuadrat error peramalan. Rumusnya adalah sebagai berikut : n t = ( ) 2 t t n MSE= Z Zˆ (4) 3. Algoritma Genetika Algoritma Genetika menerapkan proses biologi dari rekombinasi genetika, mutasi, dan seleksi untuk mendapatkan solusi optimum. Algoritma Genetika sangat efektif dan efisien serta memiliki kemungkinan yang besar untuk mendapat solusi global optimum (Palit dan Popovic, 2005). Solusi yang didapatkan dengan algoritma genetika berupa kromosom yang disebut sebagai struktur data. Kromosom dapat berupa nilai biner, Integer, atau bilangan riil. Setiap kromosom mempunyai nilai ukuran berupa nilai fitness yang menyatakan solusi dari suatu permasalahan. 3.. Representasi Kromosom Representasi kromosom adalah pembentukan dan pengkodean kromosom. Dalam satu kromosom terdapat beberap gen yang jumlahnya ditentukan sesuai kebutuhan. Kumpulan dari kromosom yang dibentuk merupakan populasi atau disebut sebagai generasi. Populasi Kromosom Kromosom 2 Kromosom 3 Kromosom 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Gambar 2.. Populasi dengan kromosom bilangan biner Untuk membangun model ARIMA, maka didekati dengan model ARMA terlebih dahulu. Ada empat bagian dalam setiap kromosom yang harus dibentuk untuk menghasilkan bentuk AR, MA, seasonal AR dan seasonal MA. Misalnya, jika kromosom yang dihasilkan adalah (00; 000; 000; 00), maka model nya adalah SARMA (p,q)(p,q) s yaitu SARMA ([, 3, 4], [2, 4])([, 5], [2, 3, 4]) s. Manajemen Risiko di Bidang Perbankan dan Asuransi 29
3.2. Fungsi Fitness Prosiding Fungsi fitness merupakan probabilitas suatu kromosom dapat tetap terpilih dalam generasi berikutnya. Semakin tinggi nilai fitness menunjukkan kromosom tersebut dapat bertahan dalam generasinya, sebaliknya semakin rendah nilai fitness maka suatu kromosom tidak dapat bertahan dalam generasinya. Fungsi fitness yang digunakan pada penelitian ini adalah : f ( x) = (5) MSE 3.3. Seleksi Seleksi adalah proses memilih dua kromosom induk dari populasi yang akan digunakan dalam proses berikutnya yaitu crossover. Proses seleksi yang akan digunakan pada penelitian ini yaitu seleksi Boltzmann. Pada seleksi Boltzmann kemungkinan kromosom terpilih berdasarkan nilai fitness tiap kromosom dalam suatu populasi, makin besar nilai fitness, maka makin besar kemungkinan terpilih. Rumusnya adalah sebagai berikut : P( xi ) = exp[ ( fmax f ( xi )) / T] (6) dimana : f ( x i ) adalah nilai fitness kromosom ke-i ; i =,2,, G f adalah nilai maksimum dari f ( x ) max T = T0 ( α)k k= (+ 00 g / G) g = current generation number G = nilai maksimum dari g α bernilai antara 0 dan T bernilai antara 5 dan 00 0 i 3.4. Crossover Crossover mengkombinasikan dua induk hasil seleksi untuk mendapatkan keturunan. Tujuannya yaitu untuk memilih bagian terbaik dari kromosom sebelumnya. Salah satu proses crossover yaitu multi point crossover dimana ditentukan beberapa titik potong. Kemudian kromosom induk hasil seleksi dipotong. Kromosom baru dibentuk dari kromosom dari induk A sebelum titik potong dan dari induk B setelah titik potong dan sebaliknya. Ilustrasinya adalah sebagai berikut : Induk A 0 0 0 0 0 Induk B 0 0 0 0 0 Keturunan A 0 0 0 0 0 Keturunan B 0 0 0 0 0 3.5. Mutasi Gambar 2.2. Multi Point Crossover. Manajemen Risiko di Bidang Perbankan dan Asuransi 220
Mutasi adalah proses menukar satu atau lebih gen dengan gen yang lain pada populasi untuk menghasilkan populasi baru. Banyaknya gen yang akan dimutasi tergantung besarnya persentase mutasi (P m ) dari jumlah gen dalam populasi. Mutasi dilakukan untuk mencegah terjebak pada solusi lokal optimum. Mutasi biasanya dilakukan dengan nilai P m yang kecil. Populasi Populasi Kromosom 0 0 0 0 0 Kromosom 0 0 0 0 0 2 Kromosom 0 0 0 3 Kromosom 0 0 0 0 0 0 4 dilakukan mutasi menjadi Kromosom 0 0 0 0 0 Kromosom 0 0 0 0 2 Kromosom 0 0 3 Kromosom 0 0 0 0 0 0 0 4 Gambar 2.3. Proses Mutasi 3.6. Penghentian Proses (Kriteria Konvergen) Kriteria penghentian proses pencarian solusi antara lain yaitu jumlah maksimum generasi, lamanya waktu proses, dan tidak ada perubahan yang signifikan pada nilai fitness. Kriteria penghentian bisa juga merupakan gabungan dari kriteria tersebut dengan urutan tertentu. Pada penelitian ini proses akan dihentikan dengan menentukan jumlah maksimum generasi 50 dan 00. Pemilihan solusi optimum yaitu memilih satu kromosom dari generasi terakhir yang mempunyai nilai fitness maksimum. 4. Metodologi Metode penelitian yang digunakan sebagai langkah-langkah untuk mencapai tujuan dari penelitian ini adalah sebagai berikut :. Mengidentifikasi model ARIMA menggunakan metode correlogram dengan langkah sebagai berikut : a. Melihat stasioneritas data terhadap varians dan rata-rata. b. Identifikasi beberapa kemungkinan model yang bisa dibentuk dengan melihat lag yang signifikan pada plot ACF dan plot PACF. c. Mengestimasi Parameter menggunakan metode Conditional Least Square d. Menguji signifikansi parameter dari masing-masing model e. Memeriksa asumsi dari error dengan uji white noise dan uji Kolmogorov Smirnov. Bila tidak memenuhi asumsi, maka model diidentifikasi dengan model ARIMA yang lain. Manajemen Risiko di Bidang Perbankan dan Asuransi 22
f. Membandingkan nilai MSE dari masing-masing model. Model yang menghasilkan nilai MSE minimum merupakan model terbaik. 2. Identifikasi model ARIMA menggunakan metode algoritma genetika dengan langkah-langkah sebagai berikut : a. Representasi kromosom dan menginisialisasikan jumlah kromosom dalam populasi. b. Menentukan dan Menghitung Fungsi Fitness c. Seleksi kromosom menggunakan seleksi Boltzmann d. Melakukan crossover terhadap kromosom hasil seleksi dengan metode multi point crossover e. Melakukan mutasi kromosom. f. Menghentikan proses jika sudah mencapai jumlah generasi maksimum g. Menentukan model terbaik berdasarkan nilai fitness yang paling besar 3. Membandingkan nilai MSE yang dihasilkan. Nilai yang minimum menunjukkan tingkat akurasi yang lebih tinggi. 5. Hasil dan Pembahasan Pertama yaitu melihat stasioneritas terhadap varians yang dapat dilihat pada gambar berikut : Box-Cox Plot of JArr Time Series Plot of JArr Lower CL Upper CL 47500 Lambda (using 95.0% confidence) 400000 Estimate -0.52 45000 Lower CL -2.03 Upper CL.4 350000 42500 Rounded Value -0.50 StDev 40000 JArr 300000 37500 250000 35000 Limit 200000-5.0-2.5 0.0 Lambda 2.5 5.0 Jan Jul Jan Month (a) (b) Gambar 5..(a). Melihat Stasioneritas terhadap Varians. (b). Melihat Stasioneritas terhadap Rata-rata. Pada gambar 5..(a) diatas terlihat bahwa nilai Lambda terletak antara -2,03 dan,4 yang berarti bahwa data tersebut sudah statsioner terhadap varians. Sehingga tidak perlu dilakukan transformasi terhadap data. Kemudian yang berikutnya yaitu melihat stasioneritas terhadap rata-rata dengan melihat plot data deret waktu pada gambar 5..(b). Pada gambar tersebut terlihat bahwa data tersebut tidak stasioner terhadap rata-rata, sehingga perlu dilakukan proses differencing dan 2 terhadap data. Plot ACF dan plot PACF data deret waktu setelah dilakukan proses differencing yaitu sebagai berikut : Jan Jul Jan Jul Jul Jan Jul Jan Manajemen Risiko di Bidang Perbankan dan Asuransi 222
Partial Autocorrelation Function for C7 (with 5% significance limits for the partial autocorrelations) Autocorrelation Function for C7 (with 5% significance limits for the autocorrelations) Partial Autocorrelation.0 0.8 0.6 0.4 0.2 0.0-0.2-0.4-0.6-0.8 -.0 Autocorrelation.0 0.8 0.6 0.4 0.2 0.0-0.2-0.4-0.6-0.8 -.0 5 0 5 20 25 Lag 30 35 40 45 (a) (b) Gambar 5.2.(a). Plot Partial Autocorrelation Function. (b). Plot Autocorrelation Function. 5 0 5 20 25 Lag 30 35 40 45 Berdasarkan plot ACF dan plot PACF diatas, maka model yang terbaik dengan metode Correlogram adalah model ARIMA (2,,0)(,,) 2, sedangkan jika menggunakan metode Algoritma Genetika, maka model terbaiknya setelah dilakukan 2 generasi adalah SARIMA(0,,)(,,[3,4]) 2. Setelah menghitung kriteria pemilihan model terbaik, maka perbandingannya adalah sebagai berikut: Tabel 5.. Perbandingan Model Correlogram dengan Model Algoritma Genetika Metode Model MSE ARIMA(2,,0)(2,,)2 505875660 ARIMA(2,,0)(2,,0)2 576576870 Correlogram ARIMA(2,,0)(0,,)2 52426720 ARIMA(2,,0)(,,)2 47068580 ARIMA(2,,)(,,)2 526676055 ARIMA(0,,)(,,[3,4])2 458875974 ARIMA(,,0)(0,,[,3,4,5])2 502443463 Algoritma Genetika ARIMA(0,,)([4],,0)2 493225943 ARIMA(0,,[,3,5])(0,,0)2 467770803 ARIMA(0,,3)(0,,0)2 459528628 Berdasarkan tabel diatas, identifikasi model menggunakan metode Algoritma Genetika dapat menghasilkan hasil yang lebih baik dibanding dengan metode correlogram. Kemudian hasil dari uji white noise menunjukkan bahwa asumsi tidak ada autokorelasi pada error di semua lag bisa dipenuhi, sehingga model identifikasi menggunakan Algoritma Genetika sesuai untuk data tersebut. Hasil uji asumsi error dengan uji white noise adalah sebagai berikut: Manajemen Risiko di Bidang Perbankan dan Asuransi 223
Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 2 24 36 48 Chi-Square 4.5 6.5 24.2 57.8 DF 8 20 32 44 P-Value 0.8 0.685 0.835 0.079 Prosiding Terlihat diatas bahwa nilai P-value semuanya diatas 0,05 yang menunjukkan bahwa asumsi tidak ada korelasi antar error sudah terpenuhi. 6. Kesimpulan dan Saran Pada makalah ini digunakan pendekatan metode Algoritma Genetika untuk mengidentifikasi model ARIMA dari data deret waktu. Metode Algoritma Genetika menghasilkan tingkat akurasi yang lebih tinggi dibandingkan dengan metode correlogram. Pendekatan metode Algoritma Genetika ini bisa dikembangkan dengan menggunakan beberapa tipe operator yang digunakan dalam proses genetika dan membandingkan tingkat akurasi dan tingkat efisiensi dari penggunaan operator yang berbeda tersebut. DAFTAR PUSTAKA Box, G.E.P., Jenkins, G.M., dan Reissel, G.C., 994. Time Series Analysis Forecasting and Control, edisi ketiga. Englewood Cliffs : Prentice Hall. Badan Pusat Statistik, 2004 200, Indikator Ekonomi, Buletin Statistik Bulanan, Jakarta Chan, W.S, 999, A comparison of some of pattern identification methods for order determination of mixed ARMA models, Statistics & Probability Letters 42 () 69 79. Chatfield, C, 2000, Time-Series Forecasting, Chapman &C Hall/CRC Chen, B.S., Lee, B.K., Peng, S.C., 2002, Maximum Likelihood Parameter Estimation of F-ARIMA Processes Using the Genetic Algorithm in the Frequency Domain, IEEE Transaction on Signal Processing, vol. 50 Gen, M., dan Cheng, R., 2000. Genetic Algorithms and Engineering Optimization, John Wiley & Son Inc, Canada. Makridakis, S., Wheelwright, S.C., dan McGee, V.E., 999. Metode dan Aplikasi Peramalan, Jilid Edisi Kedua, Terjemahan Ir. Hari Suminto, Bina Rupa Aksara, Jakarta. Manajemen Risiko di Bidang Perbankan dan Asuransi 224
Ong, C.S., Huang, J.J., dan Tzeng G.H., 2005. Model identification of ARIMA family using genetic algorithms, Journal Applied Mathematics and Computation, 64, 885-92 Palit, A.K., Popovic, D., 2005, Computational Intelligence in Time Series Forecasting, Theory and Engineering Applications, Springer, Berlin Heidelberg New York Sivanandam, S.N., Deepa, S.N., 2008, Introduction to Genetic Algorithms, With 93 Figures and 3 Tables, Springer-Verlag Berlin Heidelberg Wei, W.W.S., 990. Time Series Univariate and Multivariate Methods, Addison Wesley Publishing Company Inc, Canada. Wu, B., Chang, C.L., 2002, Using Genetic Algorithms to Parameter (d, r) Estimation for Threshold Autoregressive Models, Journal Computational Statistics and Data Analysis, 38, 35 330. Manajemen Risiko di Bidang Perbankan dan Asuransi 225