IKG4A2 Kapita Selekta Dosen: Aniq A. Rohmawati, M.Si Data Deret Waktu dan i.i.d Data merupakan kumpulan informasi yang diharapkan dapat dinterpretasikan dengan baik dan akurat. Terdapat beberapa jenis data dalam statistika: data cross-sectional, data longitudinal, data deret waktu dan data i.i.d. Pada Bagian A, secara khusus akan dibahas terkait perbedaan data deret waktu dan data i.i.d berdasarkan nilai korelasinya dengan melibatkan simulasi pada data riil. Pada data deret waktu dilakukan uji kestasioneran dengan melihat trend data, mean dan variansi. Pada Bagian B, dilakukan fitting distribusi data i.i.d untuk mengetahui distribusi yang melekat pada data. Selain itu, dilakukan simulasi untuk melihat plot korelasi data dengan menggunakan data multivariat dan bangkitan dua data acak pada Matlab. Bagian C, menjelaskan penaksir parameter dari data riil i.i.d dengan Metode Maksimum Likelihood. Selanjutnya, Bagian D menjelaskan analisis beserta simulasi terkait fungsi kepadatan peluang dari jumlahan dua peubah acak Uniform (0,1) i.i.d. Bagian A Data yang digunakan adalah data harga emas harian Januari 2012 - April 2012. Kebergantungan dua variabel diartikan juga sebagai korelasi. Pada kasus ini korelasi digunakan untuk mengetahui apakah naik/turunnya harga emas hari ini akan mempengaruhi harga emas di hari berikutnya. Ukuran korelasi dua variabel yang cukup populer digunakan adalah koefisien korelasi Pearson. Misalkan X t menyatakan harga emas saat t, dengan mean µ X dan variansi σx 2. Koefisien korelasi (ρ) didefinisikan sebagai ukuran hubungan linier antara X t dan X t+1, dimana: ρ Xt,X t+1 = Cov(X t, X t+1 ) σ 2 X t Nilai ρ antara 0 sampai 1, semakin mendekati 1 maka nilai korelasi atau hubungan kebergantungannya semakin tinggi. Nilai koefisien korelasi dari harga emas saat t dan t + 1 adalah 0.9517. Selain itu, diagram scatterplot menunjukkan bahwa data harga emas menggerombol mengikuti garis lurus dengan kemiringan positif. Dapat disimpulkan bahwa terdapat korelasi positif yang tinggi harga emas hari ini dengan harga emas hari berikutnya. 1
Gambar 1: Plot Korelasi Harga Emas Data harga emas merupakan data deret waktu (time series). Data deret waktu didefinisikan sebagai data pengamatan yang dibangun secara berurutan dalam waktu. Hal yang penting dan perlu diperhatikan dalam menggambarkan suatu time series adalah kestasioneran. Salah satu parameter statistik yang sering dipakai adalah mean dan variansi. Jika mean dan variansi selalu berubah tiap waktu maka akan sulit untuk menentukan parameter yang sesuai dengan kenyataan. Oleh karena itu, dibutuhkan sifat kestasioneran pada model time series, dimana mean dan variansi konstan. Berdasarkan Gambar 2, plot harga emas menunjukkan trend data yang tidak stasioner dengan mean dan variansi yang cenderung naik kemudian turun secara tajam. Kestasioneran data harga emas diperoleh melalui differencing, dimana differencing pertama adalah selisih dari X t dan X t+1. Hasil differencing pertama memperlihatkan trend data stasioner, dengan mean dan variansi yang cenderung konstan. Gambar 2: Plot Kestasioneran Harga Emas 2
Gambar 3: Plot Autocorrelation Harga Emas Bagian B Pada data nilai UTS mata kuliah Geometri Tahun 2012/2013, diperoleh nilai koefisien korelasi 0.0178. Dapat dikatakan bahwa tidak ada korelasi atau data cenderung bersifat saling bebas (korelasi hampir nol). Diagram scatterplot (Gambar 4) menunjukkan titik-titik data berpencar atau menjauh dari garis lurus, sehingga tidak ada hubungan linier diantara data tersebut. Untuk mengetahui distribusi yang melekat pada data, dilakukan fitting distribusi. Gambar 5 menunjukkan plot histogram, dimana dari histogram tersebut belum terlihat jelas bentuk dari distribusi data. Gambar 4: Plot Korelasi Data Nilai Kelas Selanjutnya, dilakukan uji Kolmogorov-Smirnov (K-S) untuk mengetahui apakah data berdistribusi normal atau tidak. Hasil perhitungan, diperoleh nilai K-S adalah 0.0874, dengan asumsi: H o : Data terdistribusi secara normal H 1 : Data tidak terdistribusi secara normal Pada α (tingkat kesalahan) 0.05, diperoleh D-Tabel 0.1537 sehingga 0.0874 < 0.1537 yang berarti H o tidak ditolak. 3
Gambar 5: Histogram Data Nilai Kelas Sebagai perbandingan, dilakukan uji K-S dengan menggunakan software. Nilai K-S yang diperoleh adalah 0.08688 sehingga H o tidak ditolak. Selain itu, dua aspek yang berkaitan dengan kurva normal adalah kurtosis dan skewness. Skewness mengukur penyimpangan dari kurva normal yang simetrik. Sedangkan, kurtosis mengukur kecuraman atau kedataran simetrik, nilai kurtosis di atas 3 disebut juga dengan leptokurtic. Artinya, distribusi data memiliki ekor tebal atau ekor dari distribusi ini lebih lambat menuju nol dibandingkan dengan distribusi normal. Data nilai kelas memiliki nilai kurtosis dan skewness masing-masing -0.385 dan -0.304, sehingga dapat dikatakan data terdistribusi secara normal. Dapat dikatakan bahwa data nilai kelas merupakan data yang saling bebas dan berdistribusi identik atau lebih dikenal sebagai data i.i.d Gambar 6: Hasil Simulasi Fitting Distribusi Simulasi data i.i.d dilakukan dengan membangkitkan data multivariat normal pada Matlab. Berikut plot korelasi data pada berbagai nilai korelasi, ρ. 4
Gambar 7: Plot Korelasi dengan ρ = 0 Gambar 8: Plot Korelasi dengan ρ = 0.5 Gambar 9: Plot Korelasi dengan ρ = 0.95 Gambar 10: Plot Korelasi dengan ρ = 1 5
Pada simulasi ini, nilai korelasi antara data multivariat pada Matlab dapat kita atur sesuai dengan kebutuhan. Berdasarkan grafik di atas, dapat dilihat plot korelasinya, dimana semakin besar nilai korelasi, grafik cenderung membentuk garis lurus dan sebaliknya. Sebagai perbandingan, dilakukan simulasi dengan membangkitkan dua data acak i.i.d berdistribusi normal. Berbeda dengan simulasi sebelumnya, nilai korelasi (ρ) pada simulasi ini tidak dapat diatur. Berikut plot korelasi dua data acak i.i.d berdistribusi normal dengan Matlab. Gambar 11: Plot Korelasi Dua Data Acak Normal i.i.d Plot di atas memiliki nilai korelasi, ρ = 0.0418. Berdasarkan dua simulasi di atas, konsep i.i.d bersifat subyektif, karena pada dasarnya kita sulit mencari data dengan nilai korelasi 0, maka dapat diasumsikan bahwa nilai korelasi yang mendekati 0 bersifat saling bebas. Jadi, data tersebut i.i.d atau tidak bergantung pada asumsi subyektif, begitu juga dengan cara memperoleh data i.i.d Bagian C Penaksiran parameter dilakukan dengan menggunakan metode maksimum likelihood. Misalkan data nilai kelas pada Bagian B saling bebas dan berdistribusi normal N(µ, σ 2 ), dengan fungsi peluang: { f Xt (x t ) = 1 σ 2π exp 1 ( ) } 2 Xt µ 2 σ Untuk mendapatkan nilai penaksir parameter µ dan σ 2 digunakan metode 6
Maksimum Likelihood, dengan fungsi likelihood nya adalah { n L(µ, σ 2 1 x t ) = σ 2π exp 1 ( ) } 2 Xt µ 2 σ t=1 Sedangkan fungsi log likelihoodnya adalah l = log ( L(µ, σ 2 x t ) ) { = 1 n log(2π) + log ( σ 2) ( ) } 2 Xt µ + 2 σ t=1 Turunan pertama log (L(µ, σ 2 x t )) terhadap µ yaitu: log (L(µ, σ 2 x t )) µ diperoleh penaksir parameter µ, = n t=1 (X t µ) σ 2 µ = n t=1 X t Turunan pertama log (L(µ, σ 2 x t )) terhadap σ yaitu: log (L(µ, σ 2 x t )) (n) n σ2 t=1 = + (X t µ) 2 σ σ 3 σ 3 diperoleh penaksir parameter σ 2, n σ 2 = n t=1 (X t µ) 2 Sehingga, didapat penaksir parameter µ yang tidak bias dan penaksir parameter σ 2 yang bias, yaitu: dan σ 2 = 1 n µ = 1 n n n X t, t=1 n ( Xt µ ) 2. Sedangkan untuk penaksir parameter σ 2 yang tidak bias adalah Ŝ 2 = 1 n 1 t=1 n ( Xt µ ) 2. t=1 7
diperoleh penaksir parameter dari data nilai kelas adalah µ = 56.230, σ = 23.157 dan Ŝ = 23.343. Bagian D Misalkan X dan Y adalah peubah acak i.i.d yang berdistribusi Uniform (0,1), dengan fungsi peluang f dan g. Definisikan F X+Y (a) sebagai fungsi distribusi kumulatif X + Y, maka: F X+Y (a) = P (X + Y a) = f(x)g(y) dx dy = = = x+y a a y ( a y f(x)g(y) dx dy f(x)dx) g(y)dy F X (a y)g(y)dy Fungsi distribusi kumulatif F X+Y populer disebut convolution dari F X dan F Y. Dari persamaan di atas dapat diperoleh fungsi peluang f X+Y sebagai berikut: f X+Y (a) = d da = = F X (a y)g(y)dy d da (F X(a y))g(y)dy f(a y)g(y)dy Untuk X dan Y berdistribusi Uniform (0,1), diperoleh: f(a) = g(a) = 1, 0 < a < 1 dan bernilai 0 untuk yang lain, sehingga: f X+Y (a) = 1 0 f(a y)dy Untuk 0 a 1, maka f X+Y (a) = a 0 dy = a 8
Untuk 1 < a < 2, maka f X+Y (a) = 1 a 1 dy = 2 a 9
bernilai 0 untuk yang lain. Misalkan Z = X + Y, maka plot fungsi peluang Z sebagai berikut: Gambar 12: Fungsi Peluang dan Fungsi Distribusi Z Selanjutnya, simulasi dilakukan menggunakan Matlab dengan membangkitkan data random X dan Y Uniform (0,1) i.i.d. Grafik fungsi peluang dan fungsi distribusi kumulatif Z sebagai berikut: Gambar 13: Fungsi Kepadatan Peluang X dan Y Gambar 14: Plot Korelasi X dan Y 10
Gambar 15: Fungsi Peluang dan Fungsi Distribusi Z Berdasarkan uji Chi-Square, jumlahan dua peubah acak Uniform(0,1) berdistribusi Triangular parameter (m,a,b), dengan a = 0.01196, m = 0.9971 dan b = 1.9638. Dari plot Gambar 12 dan Gambar 15 diperoleh nilai parameternya adalah a = 0, m = 1 dan b = 2. Sehingga, dapat disimpulkan jumlahan dua peubah acak Uniform (0,1) berdistribusi Triangular. Prediksi Memprediksi nilai observasi masa depan merupakan hal penting di berbagai bidang dan industri, terutama dunia keuangan. Di bidang ekonomi dan ilmu sosial, prediksi lebih dikenal dengan forecasting. Di bidang keuangan yang sangat erat kaitannya dengan risiko di masa yang akan datang, membutuhkan prediksi bahwa keadaan keuangan masih stabil (prediksi yang cukup akurat). Prediksi dilakukan untuk mengetahui observasi satu langkah kedepan Y n+1, dengan Y 1, Y 2,..., Y n, Y n+1 berdistribusi identik dengan parameter θ. Penting mengetahui distribusi yang melekat pada Y n+1, untuk menaksir parameter, menghitung bias dan MSE dari parameter, yang pada akhirnya berhubungan dan menjadi penentu keakuratan prediksi. Misalkan terdapat data return Y 1, Y 2,..., Y n dari suatu model dengan parameter θ yang saling bebas dan berdistribusi identik N(µ, σ 2 ). Prediktor terbaik untuk Y n+1 adalah E(Ŷn+1) = µ. Untuk dua peubah acak, distribusi bersama dari keduanya dapat ditentukan dengan Copula. Copula (bivariat) adalah salah satu model fungsi distribusi bivariat dimana fungsi distribusi dari marginal-marginalnya memiliki kekhususan. Suatu fungsi distribusi bivariat C untuk suatu peubah acak U dan V yang berdistribusi Uniform [0, 1], dikenal dengan nama Copula. Keakuratan prediksi atau backtesting dapat ditentukan dengan mem- 11
bandingkan prediksi kerugian dengan kerugian sebenarnya. Prediksi yang baik didefinisikan sebagai prediksi dengan tingkat keakuratan yang tinggi sehingga peluang terjadinya kerugian sebenarnya lebih besar dari hasil prediksi lebih kecil. Lampiran 12
Gambar 16: Perhitungan Uji Kolmogorov-Smirnov Simulasi Data dengan Matlab 1 clc 2 clear 3 4 %% SIMULASI DATA DERET WAKTU DAN I.I.D %% 5 disp('======simulasi Data Deret Waktu dan i.i.d======') 6 disp('======data Harga Emas dan Nilai Kelas======') 7 8 format long 9 %Data Deret Waktu 10 Xn =... [1590;1603;1614;1621;1618;1627;1641;1652;1642;1643;1662;...]; 11 Xn1 =... [1603;1614;1621;1618;1627;1641;1652;1642;1643;1662;1657;...]; 12 13 px=corr(xn,xn1) 14 15 figure(1) 16 scatterhist(xn,xn1) 17 xlabel('xn') 18 ylabel('xn1') 19 set(get(gca,'children'),'marker','+') 20 21 figure(2) 22 plot(xn) 23 24 figure(3) 25 autocorr(xn) 26 13
27 figure(4) 28 parcorr(xn) 29 30 %Data IID 31 Yn =... [70;12.5000000000000;67.5000000000000;5;10;37.5000000000000;...]; 32 Yn1 =... [12.5000000000000;67.5000000000000;5;10;37.5000000000000;...]; 33 34 py=corr(yn,yn1) 35 kurtosis = kurtosis(yn) 36 skewness = skewness(yn) 37 38 figure(5) 39 scatterhist(yn,yn1) 40 xlabel('yn') 41 ylabel('yn1') 42 set(get(gca,'children'),'marker','+') 43 44 figure(6) 45 hist(yn) 46 47 %ACF 48 figure(7) 49 autocorr(yn) 50 51 %PACF 52 figure(8) 53 parcorr(yn) 54 55 %displays a quantile quantile plot of two samples. 56 figure(9) 57 qqplot(yn,yn1) 1 clc 2 clear all; 3 4 %% SIMULASI DATA I.I.D %% 5 disp('====simulasi Data i.i.d dengan Multivariat====') 6 7 mu = [1 1]; 8 SIGMA = [1 0; 0 1]; % sigma = [sigma1 rho; rho sigma2] 9 r = mvnrnd(mu,sigma,1000); 10 plot(r(:,1),r(:,2),'+') 11 12 a=r(:,1); 13 b=r(:,2); 14
14 15 figure(1) 16 scatterhist(a,b) 17 18 k = ksdensity(a,a,'function','cdf'); 19 l = ksdensity(b,b,'function','cdf'); 20 21 figure(2) 22 scatterhist(k,l) 23 24 figure(3) 25 hist(k) 26 27 figure(4) 28 hist(a) 1 clc 2 clear all; 3 4 %% SIMULASI DATA I.I.D %% 5 disp('====simulasi Data i.i.d dengan Data Random====') 6 7 u=normrnd(1,1,1000,1); 8 v=normrnd(1,1,1000,1); 9 10 w=corr(u,v) 11 12 figure(1) 13 scatterhist(u,v) 14 15 p=ksdensity(u,u,'function','cdf'); 16 q=ksdensity(v,v,'function','cdf'); 17 18 figure(2) 19 scatterhist(p,q) 20 21 figure(3) 22 hist(u) 1 clc 2 clear all 3 format long 4 5 %% SIMULASI JUMLAHAN DISTRIBUSI UNIFORM (0,1) %% 6 disp('====simulasi Jumlahan Distribusi Uniform (0,1)====') 7 15
8 n=1000; rho=0; mu=[0 0]; 9 SIGMA=[1 rho;rho 1]; 10 z=mvnrnd(mu,sigma,n); 11 u=normcdf(z(:,1),0,1); 12 v=normcdf(z(:,2),0,1); 13 14 figure(1) 15 hist(u) 16 title('fungsi Densitas Peluang X') 17 18 figure(2) 19 hist(v) 20 title('fungsi Densitas Peluang Y') 21 22 w=u+v; 23 figure(3) 24 plot(w) 25 title('fungsi Densitas Peluang Z=X+Y') 26 27 figure(4) 28 hist(w) 29 title('fungsi Densitas Peluang Z=X+Y') 30 31 figure(5) 32 scatterhist(u,v) 33 xlabel('f(x)') 34 ylabel('f(y)') 35 set(get(gca,'children'),'marker','+') 36 title('grafik Korelasi f(x) dan f(y) ') 37 38 r = ksdensity(u,u,'function','cdf'); 39 t = ksdensity(v,v,'function','cdf'); 40 41 figure(6) 42 scatterhist(r,t) 43 xlabel('f(x)') 44 ylabel('f(y)') 45 set(get(gca,'children'),'marker','*') 46 title('grafik Korelasi F(x) dan F(y) ') 47 48 r = ksdensity(w,w,'function','cdf'); 49 50 figure(7) 51 scatterhist(w,r) 52 xlabel('z') 53 ylabel('f(z)') 54 title('fungsi Distribusi Kumulatif Z ') 16