PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA,...

12
1 PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG MISSING OBSERVATIONS DAN LONG MEMORY Studi Kasus : Polusi Udara di Kota Surabaya Nurbaety Basmar 1 , Irhamah 2 1 Mahasiswa S2 Jurusan Statistika FMIPA ITS (1308201018) 2 Dosen Jurusan Statistika FMIPA ITS Email: 1 [email protected], 2 [email protected] ABSTRAK Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive Integrated Moving Avarage (ARIMA). Ada beberapa data yang tidak stasioner tetapi plot ACFnya tidak turun secara eksponensial melainkan secara hiperbolik. Data seperti inilah yang dikategorikan sebagai data deret berkala jangka panjang yang dapat dimodelkan menggunakan ARFIMA (Autoregressive Fractionally Integrated Moving Avarage). Tujuan dari penelitian ini adalah untuk membandingkan beberapa metode estimasi data hilang dan memodelkan residual regresi yang diterapkan pada data polusi udara di Kota Surabaya yang mengandung beberapa data hilang. Hasil dari penelitian ini menunjukkan model ARFIMA lebih baik dibandingkan dengan model ARIMA dalam memodelkan residual regresi. Diperoleh model terbaik yaitu model ARFIMA(1,d,1) dengan outlier t=804. Kata Kunci : ARIMA, ARFIMA, long memory, missing observations 1. Pendahuluan Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive Integrated Moving Avarage (ARIMA). ARIMA sangat efektif digunakan untuk memodelkan data time series yang tidak stasioner, yang ditunjukkan oleh plot Autocorrelation Function (ACF) yang turun secara eksponensial atau sinusoidal. Ada beberapa data yang tidak stasioner tetapi plot ACFnya tidak turun secara eksponensial melainkan turun secara hiperbolik. Data seperti inilah yang dikategorikan sebagai data deret berkala jangka panjang (long memory). Untuk memodelkan deret berkala jangka panjang, Hosking (1981) telah memperkenalkan model ARFIMA (Autoregressive Fractionally Integrated Moving Avarage) yang dapat mengatasi kelemahan model ARIMA, dimana ARIMA hanya dapat menjelaskan deret berkala jangka pendek (short memory) sedangkan ARFIMA dapat menjelaskan baik short memory maupun long memory. Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada data riil. Penelitian tentang estimasi parameter model ARFIMA dengan Exact Maximum Likelihood Estimation dan kriteria pemilihan model dilakukan oleh Lardic, S. dan Mignon, V. (2003). Doornik, J. A. dan Ooms, M. (2001) menganalisa aspek komputasi dari Maximum Likelihood Estimation pada model ARFIMA. Hauser (1998) melakukan studi simulasi Monte Carlo dengan Maximum Likelihood Estimators pada model ARMA dan ARFIMA. Analisis regresi merupakan salah satu analisis yang digunakan untuk mengetahui estimasi pola hubungan antara variabel prediktor ( ) dan variabel respon ( ). Salah satu hal penting dalam analisis regresi adalah pemeriksaan residual, hal ini terkait dengan kelayakan model regresi. Asumsi-asumsi residual yang harus dipenuhi dalam analisis regresi adalah IIDN yaitu residual identik, independen dan berdistribusi Normal 0 , ߪ. Sebuah deret waktu yang diamati seringkali mengandung beberapa data hilang (missing observations). Banyak metode yang bisa digunakan untuk mengatasi masalah missing

Transcript of PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA,...

Page 1: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

1  

PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG MISSING OBSERVATIONS DAN LONG MEMORY

Studi Kasus : Polusi Udara di Kota Surabaya

Nurbaety Basmar1, Irhamah2 1Mahasiswa S2 Jurusan Statistika FMIPA ITS (1308201018)

2Dosen Jurusan Statistika FMIPA ITS Email:[email protected],[email protected]

ABSTRAK

Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive Integrated Moving Avarage (ARIMA). Ada beberapa data yang tidak stasioner tetapi plot ACFnya tidak turun secara eksponensial melainkan secara hiperbolik. Data seperti inilah yang dikategorikan sebagai data deret berkala jangka panjang yang dapat dimodelkan menggunakan ARFIMA (Autoregressive Fractionally Integrated Moving Avarage). Tujuan dari penelitian ini adalah untuk membandingkan beberapa metode estimasi data hilang dan memodelkan residual regresi yang diterapkan pada data polusi udara di Kota Surabaya yang mengandung beberapa data hilang. Hasil dari penelitian ini menunjukkan model ARFIMA lebih baik dibandingkan dengan model ARIMA dalam memodelkan residual regresi. Diperoleh model terbaik yaitu model ARFIMA(1,d,1) dengan outlier t=804. Kata Kunci : ARIMA, ARFIMA, long memory, missing observations

1. Pendahuluan Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya

berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive Integrated Moving Avarage (ARIMA). ARIMA sangat efektif digunakan untuk memodelkan data time series yang tidak stasioner, yang ditunjukkan oleh plot Autocorrelation Function (ACF) yang turun secara eksponensial atau sinusoidal. Ada beberapa data yang tidak stasioner tetapi plot ACFnya tidak turun secara eksponensial melainkan turun secara hiperbolik. Data seperti inilah yang dikategorikan sebagai data deret berkala jangka panjang (long memory).

Untuk memodelkan deret berkala jangka panjang, Hosking (1981) telah memperkenalkan model ARFIMA (Autoregressive Fractionally Integrated Moving Avarage) yang dapat mengatasi kelemahan model ARIMA, dimana ARIMA hanya dapat menjelaskan deret berkala jangka pendek (short memory) sedangkan ARFIMA dapat menjelaskan baik short memory maupun long memory.

Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada data riil. Penelitian tentang estimasi parameter model ARFIMA dengan Exact Maximum Likelihood Estimation dan kriteria pemilihan model dilakukan oleh Lardic, S. dan Mignon, V. (2003). Doornik, J. A. dan Ooms, M. (2001) menganalisa aspek komputasi dari Maximum Likelihood Estimation pada model ARFIMA. Hauser (1998) melakukan studi simulasi Monte Carlo dengan Maximum Likelihood Estimators pada model ARMA dan ARFIMA.

Analisis regresi merupakan salah satu analisis yang digunakan untuk mengetahui estimasi pola hubungan antara variabel prediktor ( ) dan variabel respon ( ). Salah satu hal penting dalam analisis regresi adalah pemeriksaan residual, hal ini terkait dengan kelayakan model regresi. Asumsi-asumsi residual yang harus dipenuhi dalam analisis regresi adalah IIDN yaitu residual identik, independen dan berdistribusi Normal 0, .

Sebuah deret waktu yang diamati seringkali mengandung beberapa data hilang (missing observations). Banyak metode yang bisa digunakan untuk mengatasi masalah missing

Page 2: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

2  

observations, pada penelitian ini akan dibandingkan metode mean (rata-rata), minimum (nilai paling kecil) dan maximum (nilai paling besar).

Pada penelitian ini, akan memodelkan residual dari model regresi yang memiliki pola jangka panjang dengan menggunakan pendekatan ARFIMA. Data yang digunakan adalah data polusi udara di Kota Surabaya. Data ini mengandung missing observations (data hilang). Dalam penganalisaannya, digunakan teknik single imputation untuk mengatasi masalah data hilang tersebut.

2. Analisis Regresi

Analisis regresi merupakan analisis untuk mendapatkan model dan hubungan antara variabel respon (Y) dengan satu atau lebih variabel prediktor (X). Hubungan antara respon dan prediktor yang mempengaruhinya dapat dituliskan dalam bentuk persamaan regresi (2.1), (Draper dan Smith 1992). Dalam persamaan regresi, dinotasikan sebagai variabel respon dan sebagai taksirannya, sedangkan variabel prediktor adalah X. Parameter regresi disimbolkan β dan taksirannya adalah . Residual dari persamaan regresi dinotasikan ε yang diasumsikan IIDN (0,σ2)

∑ (1) Taksiran persamaan (2.1) adalah

∑ (2) dengan i = 1,2 …..n dan j = 1,2,….k, dengan n adalah banyaknya pengamatan dan (k+1) adalah banyaknya parameter. Asumsi residual dalam analisis regresi meliputi uji independen, identik dan berdistribusi normal 0, . 3. Model Autoregressive Integrated Moving Average (ARIMA)

Model ARIMA pertama kali diperkenalkan oleh Box-Jenkins (1970). Bentuk umum ARIMA (p,d,q) adalah suatu model campuran antara autoregressive (AR) orde p dengan moving average (MA) orde q dengan difference d sebagai berikut.

1 (3) dengan,

1 adalah koefisien komponen MA dengan orde 1 adalah koefisien komponen AR dengan orde

Tahap-tahap pembentukan model ARIMA (p,d,q) adalah identifikasi model, Uji signifikansi model ARIMA, dan cek diagnosa (Wei, 1990). Identifikasian model ARIMA dapat dilakukan dengan melihat plot time series, plot ACF (Autocorrelation Function), dan plot PACF (Partial Autocorrelation Function). Secara teoritis, bentuk-bentuk plot ACF dan PACF dari model ARIMA adalah seperti pada Tabel 2.1 sebagai berikut (Bowerman dan O’Connel, 1993).

Tabel 2.1 Bentuk ACF dan PACF untuk model ARIMA Model ACF PACF

AR(p): autoregressive orde p Dies down Cuts off after lag p

MA(q): moving average orde q Cuts off after lag q Dies down

AR(p) or MA(q) Cuts off after lag q Cuts off after lag p

ARMA(p,q): mixed autoregressive-moving

average orde (p,q) Dies down Dies down

No order AR or MA (White Noise or

Random process) No spike No spike

Page 3: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

3  

Pada permodelan data dengan menggunakan Time Series, terdapat benyak kemungkinan model yang menghasilkan model yang sesuai dengan kriteria semua parameternya signifikan, residual memenuhi asumsi white noise serta berdistribusi normal. Sehingga diperlukan kriteria untuk menentukan model terbaik dari beberapa model yang memenuhi syarat tersebut. Terdapat 2 keriteria antara lain kriteria In-sample dan Out-sample. Kriteria In-sample adalah kriteria yang biasa digunakan untuk memilih model berdasarkan residual, antara lain AIC (Akaike’s Informa-tion Criterion.

4. Deret Berkala Jangka Panjang

Deret berkala jangka panjang ditandai oleh fungsi autokorelasi yang turun lambat secara hiperbolik. Sebaliknya, ACF dari proses jangka pendek turun secara eksponensial (Iglesias, Jorquera dan Parma, 2005).

Fungsi autokovarians sebuah proses ARFIMA ( , , ) dapat ditemukan dalam Sowell (1992). Untuk proses fraktional noise, yaitu ARFIMA 0, , 0 , fungsi autokovarians dapat ditulis sebagai berikut:

(4) Suatu proses stasioner dengan fungsi autokorelasi dikatakan sebagai proses memori jangka panjang jika ∑ | |∞ tidak konvergen (Hosking, 1981). 5. Model Autoregressive Fractionally Integrated Moving Average (ARFIMA)

Model ARIMA memiliki tiga parameter yaitu p, d dan q dimana p adalah parameter autoregressive, q adalah parameter moving average dan d adalah difference. Demikian juga pada model ARFIMA memiliki tiga parameter yaitu p, d dan q dimana p adalah parameter autoregressive, q adalah parameter moving average, dan d mempunyai nilai bilangan riil antara 0 dan 1. Model ARFIMA merupakan pengembangan dari model ARIMA dimana parameter d bernilai bilangan riil.

Secara umum model ARFIMA dapat ditulis sebagai, Z µ θ B ε , t 1,2, , T (5)

Filter pembeda dalam ARFIMA menggambarkan adanya ketergantungan jangka panjang dalam deret. Filter ini diekspansikan sebagai deret binomial.

1 ∑∞ 1 (6)

dengan, !! !

dan

merupakan fungsi Gamma sehingga,

0 1 1 1 2 1 3 1

!! !

!! !

!! !

!! !

1 1 2 1

1 1 1 2 (7) (Hosking, 1981) 6. Single Imputation

Seringkali, nilai-nilai yang hilang diabaikan karena alasan kenyamanan, yang mungkin dapat diterima ketika bekerja dengan dataset besar dan jumlah data hilang yang relatif kecil. Selain itu, ketika berhadapan dengan dataset relatif kecil menjadi praktis hanya mengabaikan nilai-nilai yang hilang untuk menghapus pengamatan tidak lengkap dari dataset. Dalam situasi ini, metode imputasi lebih handal, walaupun ada metode yang berbeda untuk menangani data yang hilang. Di

Page 4: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

4  

samping itu, metode imputasi juga dapat menangani masalah data hilang pada dataset yang besar tanpa mengurangi keakuratannya. Salah satu pendekatan umum adalah single imputation, yaitu dengan mengganti nilai yang hilang dengan nilai yang pasti mengikuti prosedur yang ditetapkan.

7. Tinjauan non statistik tentang polusi udara

Pada tahun-tahun terakhir ini pertumbuhan Kota Surabaya mengalami kemajuan yang sangat pesat baik dari segi aspek fisik maupun non fisik, hal ini disebabkan oleh fungsi kota yang multi dimensi sebagai akibat kemudahan-kemudahan dan kondisi yang kondusif dalam pertumbuhan kota. Pertumbuhan sektor industri yang cukup fantastis membawa implikasi sangat besar ke semua sektor dan konsekuensinya akan menimbulkan dampak positif dan negatif terhadap lingkungan hidup di Kota Surabaya. Industri-industri yang ada banyak menghasilkan polusi udara, dan juga daya tarik kegiatannya terhadap kebutuhan transportasi dan orang cukup besar.

Faktor-faktor yang menyebabkan pencemaran udara merupakan faktor yang secara tidak langsung menjadi sumber terjadinya pencemaran udara. Banyak faktor yang dapat menyebabkan pencemaran udara secara tidak langsung, namun faktor-faktor yang memilki pengaruh sangat dominan antara lain: 1. Tingginya kuantitas pergerakan kendaraan, dari, ke, dan di dalam Kota Surabaya. 2. Penyebaran fasilitas perkotaan yang tidak merata dan berkurangnya Ruang Terbuka Hijau. 3. Konsumsi energi yang lebih tinggi dan ketergantungan sektor transportasi terhadap minyak

bumi. 4. Masalah komitmen perilaku masyarakat/aparat/industri untuk melakukan tindak nyata ramah

lingkungan. 8. Metodologi Penelitian

Data yang digunakan adalah data polusi udara per hari di Kota Surabaya pada bulan Januari 2006 – Desember 2008. Dari data yang digunakan dapat disusun beberapa variabel yang akan dijadikan obyek penelitian, yaitu polusi udara Kota Surabaya terdiri dari:

i. Particular Matter (PM) sebagai varibael dependent (Y) ii. Karbon Monoksida (CO) dan Ozon (O3) sebagai variabel independent (X)

Data dari ketiga variabel di atas, diambil berdasarkan rata-rata harian polusi udara Kota Surabaya, pada bulan Januari 2006 – Desember 2008. Data dibagi menjadi 2 (dua), yaitu data in sample dan out sample. Yang dipakai sebagai data in sample berjumlah 1080 pengamatan dimulai dari pengamatan pertama sampai pengamatan ke-1080, dan data out sample berjumlah 16. Secara umum, tahapan pada penelitian ini adalah sebagai berikut:

1. Statistika deskriptif 2. Membandingkan beberapa metode estimasi data hilang pada data polusi udara di Kota

Surabaya. 3. Meregresikan variabel dependent (Y) dengan variabel-variabel independent (X) 4. Uji Signifikansi parameter 5. Uji asumsi residual, meliputi uji identik, independen dan berdistribusi normal (0, . 6. Pemodelan residual regresi dengan ARIMA

Langkah-langkah ARIMA untuk residual regresi adalah sebagai berikut: i. Identifikasi Model

ii. Penaksiran Parameter iii. Uji Diagnostik iv. Pemilihan Model Terbaik

7. Pemodelan residual regresi dengan ARFIMA Langkah-langkah pemodelan residual regresi dengan ARFIMA hampir sama

dengan langkah-langkah pemodelan residual dengan ARIMA. Perbedaannya hanya pada tahap identifikasi, dimana untuk pemodalan ARFIMA terdapat pengujian long memory.

9. Statistika deskriptif

Hasil statistika deskriptif dapat dilihat pada Tabel 2

Page 5: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

5  

Tabel 2 Statistik Deskriptif Data Polusi Udara

Variabel Total Total Non

Mising

Total Mising Mean Standar

deviasi Minimum Maksimum

PM10 1096 940 156 54,903 21,154 11,48 311,96 CO 1096 1053 43 1,2347 0,5246 0,1 4,46 O3 1096 1071 25 64,5 38,42 17,77 723,19

Berdasarkan hasil di atas dapat diketahui bahwa jumlah data sebanyak 1096 yang merupakan data harian polusi udara mulai dari Januari 2006 sampai Desember 2008, dengan variabel respon PM10 dan variabel bebas CO dan O3. Varibel respon PM10 memiliki missing observations sebanyak 156, variabel CO sebanyak 43 pengamatan dan variabel O3 sebanyak 25 pengamatan. 10. Missing observations

Penelitian ini menggunakan data polusi udara di Kota Surabaya pada bulan Januari 2006 sampai dengan bulan Desember 2008. Pada data tersebut terdapat beberapa data yang hilang (missing observations). Untuk menangani masalah tersebut, digunakan metode imputasi yang terdapat pada paket statistika SAS. Ada beberapa metode yang digunakan yaitu dengan menggunakan nilai mean (rata-rata), nilai minimum (nilai paling kecil), dan nilai maksimum (nilai paling besar) dari data tersebut untuk setiap variabel. Analisis yang digunakan yaitu, dengan mengganti nilai-nilai yang hilang dengan rata-rata dari data yang ada pada tiap-tiap variabel. Analisis ini juga dilakukan pada metode minimum dan maksimum. Kemudian, data lengkap yang telah diperoleh diregresikan antara variabel dependen dengan variabel-variabel bebasnya. Ketiga metode ini akan dibandingkan dengan menggunakan nilai MSE yang terkecil. Hasil dari output MINITAB dapat dilihat pada Tabel 3 berikut:

Tabel 3 Perbandingan Metode imputasi Metode MSE MEAN 374.7

MIN 595 MAX 8098

Dari Tabel 3 diperoleh nilai MSE terkecil yaitu dengan menggunakan metode MEAN. Sehingga untuk tahap selanjutnya, data yang digunakan yaitu data yang sudah lengkap, dimana data yang hilang diganti dengan rata-rata dari data polusi udara pada tiap-tiap variabel. 11. Pemodelan Data Polusi Udara

Pemodelan Data Polusi Udara diperoleh dengan cara meregresikan variabel dependen (Particular Matter 10) dengan semua variabel bebas (CO dan O3). Dari hasil model lengkap diperoleh persamaan sebagai berikut:

(8) dimana t= 1, 2, ….,1096. Pengujian Asumsi Residual Model regresi dikatakan baik, jika memenuhi asumsi residual. Asumsi residual dalam analisis regresi meliputi uji identik, independen dan berdistribusi normal 0, .

a. Uji Asumsi Residual Independen Sehubungan dengan data penelitian ini, maka dengan bantuan MINITAB 14 diperoleh nilai Durbin-Watson sebesar 1.0663, dengan nilai dL=1,8988772 dan nilai dU=1,9025316. Karena nilai dW < dL, maka tolak H0, sehingga dapat disimpulkan bahwa residual terdapat autokorelasi atau asumsi independen tidak terpenuhi.

Page 6: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

6  

b. Uji Asumsi Identik

Fitted Value

Stan

dard

ized

Res

idua

l

180160140120100806040200

10.0

7.5

5.0

2.5

0.0

-2.5

-5.0

Residuals Versus the Fitted Values(response is PM10)

Gambar 1 Residual Versus Fit

Pada Gambar 1, terlihat bahwa pola residual versus fit tidak membentuk pola corong, sehingga dapat dikatakan bahwa varians residual homogen (residual identik). Dan dapat dikatakan bahwa asumsi identik telah terpenuhi.

c. Uji Asumsi Residual Berdistribusi Normal

Selanjutnya, asumsi lain yang perlu dipenuhi adalah residual berdistribusi normal. Uji kenormalan residual ini dapat dilakukan dengan uji Anderson Darling. Berikut merupakan Probability Plots dari residual dengan menggunakan Uji Anderson Darling.. Pada Gambar 2, diperoleh p_value <0,005, yang berarti bahwa residual tidak berdistribusi normal pada tingkat kepercayaan 5%.. Dari gambar 2 juga dapat dilihat bahwa residual mendekati garis lurus, namun karena ada outlier sehingga menyebabkan distribusi residual menjadi tidak normal.

RESI2

Perc

ent

3002001000-100

99.99

99

95

80

50

20

5

1

0.01

Mean

<0.005

1.789388E-13StDev 19.34N 1096AD 10.084P-Value

Probability Plot of RESI2Normal

Gambar 2 Probability Plot residual Anderson Darling

Dari beberapa pengujian asumsi di atas, hanya asumsi identik yang terpenuhi, sehingga residual dari model regresi tersebut perlu dianalisis lebih lanjut. Plot ACF menunjukkan bahwa masih terdapat lag-lag yang signifikan yang dapat diartikan bahwa masih terdapat pengaruh residual pada periode pengamatan saat ini (t) dengan residual pada pengamatan sebelumnya (t-k). Selanjutnya residual dari model regresi dimodelkan dengan pemodelan timeseries. Pada penelitian kali ini akan dilakukan pemodelan pada residual dengan pendekatan ARIMA dan ARFIMA. Model yang terbaik adalah model yang menghasilkan kesalahan yang lebih kecil.

Page 7: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

7  

12 Pemodelan ARIMA Tahap ini meliputi identifikasi model, penaksiran parameter, uji diagnostik, pemilihan model terbaik dan peramalan.

Identifikasi Model Pertama-tama, data dibagi dua menjadi data in sample dan out sample. Pada umumnya, tahapan identifikasi yang pertama kali dilakukan dalam pemodelan time series adalah melihat plot time series in sample seperti pada gambar 2. ARIMA mengasumsikan kondisi stasioner, sehingga perlu diuji stasioner dalam varian dan mean. Dilihat dari TS plot dan ACF Plot terlihat bahwa data telah stasioner dalam varian dan mean. Untuk menguji kestasioneran dalam mean digunakan uji Dickey Fuller dengan

∆ 1

Didapatkan hasil sebagai berikut Tabel 4 Uji Dickey Fuller

Prediktor Koefisien SE Koefisien T P_value -0,54331 0,02708 -20,06 0,000

Sehingga data telah stasioner, sebab signifikan dengan alpha 0.05. Karena residual model regresi sudah stasioner dalam mean dan varian, maka dapat dilakukan penentuan orde dari model AR atau MA. Berikut adalah plot ACF dan PACF dari residual regresi. Gambar 3 (a) dan Gambar 3 (b) dapat ditentukan dugaan orde untuk model ARIMA dari residual model regresi. Dari bentuk plot ACF dilihat bahwa plotnya cenderung dies down dan dari plot PACF dapat dilihat bahwa lag-lag yang signifikan yaitu pada lag 1,2,3,5,8,9,11,12. Sehingga, dapat dilakukan pendugaan model yaitu ARIMA ([1,2,3,5,8,9,11,12],0,0).

Setelah diperoleh model dugaan, selanjutnya dilakukan pengujian signifikansi parameter model. Taksiran parameter dari model serta pengujian signifikansi parameter adalah ARIMA ([1,2,3,5,8,9,11,12],0,0). Setelah diestimasi dan dilakukan pengujian signifikansi parameter, terdapat parameter yang tidak signifikan. Parameter yang tidak signifikan dikeluarkan dari model satu persatu dimulai dari yang memiliki nilai p_value terbesar. Sehingga diperoleh model yang semua parameternya signifikan yaitu model ARIMA ([1,2,5,12],0,0). Estimasi dan pengujian

Dari Tabel 5 dapat dilihat bahwa semua parameter untuk model ARIMA ([1,2,5,12],0,0) signifikan pada 5%. Karena model sudah signifikan pada tingkat kesalahan 5%, maka dapat dilanjutkan pada pengujian berikutnya.

Tabel 5. Estimasi Parameter untuk Model ARIMA ([1,2,5,12],0,0)

Parameter Estimasi T_hit P_value

φ1 0,37403 12,44 <0,001

φ2 0,09073 2,98 0,0029

φ3 0,11098 3,99 <0,001

φ4 0,11651 3,84 0,001

Lag

Aut

ocor

rela

tion

757065605550454035302520151051

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

Autocorrelation Function for Insample(with 5% significance limits for the autocorrelations)

    Lag

Part

ial A

utoc

orre

lati

on

757065605550454035302520151051

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

Partial Autocorrelation Function for Insample(with 5% significance limits for the partial autocorrelations)

       (a) (b)

Gambar 3 Plot ACF dan PACF residual Regresi

Page 8: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

8  

Pada cek disgnosa dilakukan pengujian terhadap residual dari model, yaitu uji white noise yaitu residual bersifat identik dan independen serta pengujian terhadap asumsi kenormalan residual. Pengujian yang digunakan untuk uji asumsi independensi adalah Ljung Box. Nilai statistic uji Chi-Square dengan 5% untuk pengujian residual ditampilkan pada Tabel 6 berikut ini.

Tabel 6 Nilai Statistik Uji Chi-Square Residual Model ARIMA ([1,2,5,12],0,0) Lag p_value Kesimpulan

6 4,76 0,0925 Gagal Tolak Ho 12 11,57 0,1714 Gagal Tolak Ho 18 13,18 0,5127 Gagal Tolak Ho 24 16,21 0,7033 Gagal Tolak Ho 30 20,10 0,7869 Gagal Tolak Ho 36 28,64 0,6371 Gagal Tolak Ho 42 32,26 0,7314 Gagal Tolak Ho 48 40,10 0,6396 Gagal Tolak Ho

Dari Tabel 4.9 dapat dilihat bahwa dari residual ARIMA ([1,2,5,12],0,0) memenuhi asumsi white noise karena semua p_value lebih besar dari yaitu 5%. Karena model telah memenuhi asumsi white noise, maka dapat dilanjutkan ke pengujian yang berikutnya. Setelah diketahui bahwa residual memenuhi asumsi white noise, selanjutnya akan diuji apakah residual dari model berdistribusi normal atau tidak. Pengujiannya adalah dengan menggunakan uji Kolmogorov-Smirnov. Hasil perhitungan Kolmogorov-Smirnov dengan tingkat signifikansi kesalahan 5% untuk pengujian kenormalan residual dapat dilihat pada Tabel 7

Tabel 7 Pengujian Kenormalan Residual untuk Model Model Statistik Uji D p-value

ARIMA ([1,2,5,12],0,0) 0,09659 <0,0100 Tabel 7 menunjukkan bahwa nilai p_value untuk uji Kolmogorov-Smirnov (<0,0100) lebih kecil dari yaitu 5%, maka dapat disimpulkan bahwa residual untuk model ARIMA ([1,2,5,12],0,0) tidak berdistribusi normal pada tingkat signifikansi kesalahan 5%. Sehingga model terbaik untuk residual regresi adalah model ARIMA ([1,2,5,12],0,0) dengan persamaan sebagai berikut:

= 0.37403 0.09073 0.11098 0.11651 (9) dengan AIC sebesar 9159,503 dan MSE pada criteria out sample sebesar 537.5336. Sebagaimana pada pemodelan ARIMA (0,1,[1,2,4]), diperoleh hasil bahwa residual model ARIMA ([1,2,5,12],0,0) tidak memenuhi asumsi normal karena terdapat outlier. Untuk lebih jelasnya, dapat dilihat pada Gambar 4.

Index

Dat

a

9908807706605504403302201101

250

200

150

100

50

0

-50

VariableAktualRamalan Outsample

Time Series Plot of Aktual, Ramalan Outsample

Gambar 4.10 Plot Aktual dan Ramalan pada pemodelan ARIMA ([1,2,5,12],0,0).

Page 9: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

9  

13. Pemodelan ARFIMA Tahap-tahap dalam pemodelan ARFIMA sama dengan tahap pemodelan pada ARIMA.

Identifikasi Model Tahapan identifikasi pada ARFIMA hamper sama dengan tahapan identifikasi pada ARIMA. Yaitu pertama-tama melihat plot time series. Selanjutnya, dilakukan identifikasi long memory pada data untuk mengetahui ada tidaknya ketergantungan jangka panjang. Ketergantungan jangka panjang dapat dilihat dari plot ACF residual regresi. Long memory dapat dilihat dari plot ACF yang autokorelasinya turun lambat secara hiperbolik. Hal ini tidak terlihat pada Gambar 4.8(a). Selain dengan plot ACF, cara untuk melihat ketergantungan jangka panjang dapat juga melalui periodogram. Ternyata bentuk periodogram yang meningkat menuju nilai yang sangat besar tetapi berhingga untuk frekuensi yang semakin mendekati nol (Gambar 4.8 (b)) menunjukkan adanya ketergantungan jangka panjang. Berdasarkan identifikasi plot periodogram, residual regresi memiliki ketergantungan jangka panjang, sehingga dapat dimodelkan dengan menggunakan ARFIMA.

Index

peri

odog

ram

495440385330275220165110551

2000000

1500000

1000000

500000

0

Time Series Plot of periodogram

Gambar 4.11 Plot Periodogram Residual Regresi

Estimasi Parameter Model Langkah pertama yang dilakukan untuk mengestimasi parameter model adalah estimasi nilai d. Pada penelitian ini ditentukan terlebih dahulu nilai parameter differencing d pada data keseluruhan (data in sample), sehingga dalam estimasi parameter dari model-model awal ARFIMA menggunakan nilai d yang sama. Data in sample residual regresi memiliki nilai d sebesar 0.331096. Ini dilihat dari nilai p_value = 0,000 yang lebih kecil dari nilai 0,05. Selanjutnya dilakukan estimasi aspek jangka pendek yaitu parameter p dan q dilihat dari plot ACF (Gambar 4.5 a) dan PACF (Gambar 4.5 b) . Taksiran parameter beberapa model ditampilkan dalam Tabel 4.6 berikut.

Tabel 4.12 Estimasi parameter model ARFIMA

No Model ARFIMA φ1 φ2 φ3 θ1

1 [1],d,[1] -0,880165 [0.000] 0.919562

[0.000]

2 [1,2],d,[1] 0.720971 [0.000]

-0.577182 [0.059] -0.688728

[0.000]

3 [1,2,3],d,[1] 0,686064 [0,003]

-0,0503132 [0,183]

-0,0110528 [0,744]

-0,654334 [0,000]

Keterangan: […] : p_value uji-t dengan 0.05 Dari Tabel 4.12 dilihat bahwa hanya parameter φ1 dan parameter θ1 di semua model yang signifikan. Sehingga, model dugaan adalah ARFIMA (1,d,1).

Page 10: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

10  

Uji Diagnostik Setelah diperoleh parameter model ARFIMA yang signifikan, akan dilanjutkan dengan pemeriksaan diagnostik. Pemeriksaan diagnostik meliputi uji asumsi white noise dan uji normal residual. Pemeriksaan diagnostik untuk residual model dijelaskan pada Tabel 9 berikut.

Tabel 9 Uji Asumsi Residual Model ARFIMA (1,d, 1) Model ARFIMA Normal ARCH 1-1 Portmanteau

ARFIMA

([1],d,[1])

[0.000]** [0.0183]* [0.8670]

Dari tabel dapat diketahui bahwa residual untuk model ARFIMA (1,d, 1) memenuhi asumsi white noise dan homogen varians, tetapi tidak memenuhi asumsi kenormalan. Pemilihan Model Terbaik Seperti pada pemilihan model terbaik ARMA pada tahap sebelumnya, hanya diperoleh satu model yang parameternya signifikan. Sehingga model terbaik untuk residual regresi adalah model ARFIMA (1, d, 1) dengan AIC sebesar 9159,00399 dan MSE pada kriteria out sample sebesar 280,337. Persamaan Model ARFIMA (1,d, 1) diberikan sebagai berikut: 1 1 1 1 0,880165 1 , 1 0,919562 10

Dengan menggunakan persamaan (2.12), 1 , dapat dijabarkan sebagai berikut

1 , 1 0,331096 12

0,331096 1 0,331096

16 0,331096 1 0,331096

Pada ARFIMA ([1],d,1) tidak memenuhi asumsi normal, sehingga analisis dilanjutkan dengan pendeteksian outlier. Pemodelan ARFIMA dengan Deteksi Outlier Adanya outlier pada data menyebabkan ketidaknormalan. Outlier dapat dideteksi dengan menggunakan Boxplot seperti pada Gambar 6. Pada penelitian ini, di ambil dua buah outlier yang paling ekstrim yaitu data ke-804 dan data ke-1070.

Res

i

250

200

150

100

50

0

-50

-100

107310721071

1070

1059

104510431039

942909

907

899

898

896

893892891854851

843828

827825824816

810

806

805

804

803

787782

756

753738711

707

706669

617

616

575515460

458455437411392

388

374278202154

129

1251036763462018

Boxplot of Resi

Gambar 6 Boxplot Residual Model ARFIMA (1,d, 1)

Variabel dummy dimasukkan satu per satu pada model, dimulai dari t terkecil, maka dummy data ke-804 dimasukkan terlebih dahulu. Diperoleh hasil bahwa semua parameter sudah signifikan, seperti terlihat pada Tabel 10 berikut.

Page 11: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

11  

Tabel 4.14 Signifikansi Parameter Model ARFIMA (1,d, 1) dengan outlier t=804 Parameter Estimasi t-hit P_value

φ1 -0,800973 -7,15 0,000 θ1 0,849818 8,60 0,000

92,1031 6,04 0,000

Model di atas sudah memenuhi asumsi white noise dan homogenitas, tetapi belum memenuhi asumsi distribusi normal. Ini dapat dilihat dari nilai uji normality test sebesar 1024,3 dengan p-_value sebesar 0,000 berarti H0 ditolak pada nilai 0,05. Persamaan model ARFIMA (1,d, 1) dapat dituliskan sebagai berikut.

1 0,800973 1 , 92,1031 1 0,849818 11 Selanjutnya, memasukkan variabel dummy untuk data ke-1070, tetapi terdapat variabel yang tidak signifikan, sehingga analisis tidak dapat dilanjutkan lagi, dan model (4.3) yang akan dianalisis lebih lanjut lagi. Model (11) sudah memenuhi asumsi residual yang white noise. Nilai AIC dan MSE pada model (11) di atas juga lebih kecil dari nilai AIC dan MSE pada model (10) yaitu sebesar 9125,61531 dan 271,304. Tetapi model (11) di atas belum memenuhi asumsi berdistribusi normal. Dari gambar di bawah dapat diketahui bahwa nilai skewness yaitu 3,4151. Ketidaknormalan data juga dapat dilihat dari nilai kurtosis yaitu 46,9632 (berdistribusi normal bila nilai kurtosis adalah nol). Pada penelitian ini, residual model ARFIMA (1,d, 1) dengan outlier t=804 memiliki kurtosis positif, yang biasa disebut dengan leptoturtic. Untuk melihat karakteristik residual dari model ARFIMA (1,d,1), maka dapat dilihat pada Gambar 7 di bawah.

250200150100500-50

Median

Mean

1.00.50.0-0.5-1.0

A nderson-Darling Normality Test

V ariance 271.524Skewness 3.4151Kurtosis 46.9632N 1080

Minimum -62.447

A -Squared

1st Q uartile -8.353Median -0.5513rd Q uartile 6.889Maximum 246.490

95% C onfidence Interv al for Mean

-0.811

19.98

1.156

95% C onfidence Interv al for Median

-1.114 0.068

95% C onfidence Interv al for StDev

15.811 17.204

P-V alue < 0.005

Mean 0.173StDev 16.478

9 5 % Confidence Intervals

Summary for REsi5

Gambar 4.13 Grafik Summary Residual Model ARFIMA (1,d, 1) dengan Outlier t=804.

Ketidaknormalan yang terjadi pada residual dari model ARFIMA ini disebabkan karena terdapat banyak outlier di pengamatannya. 4.6 Perbandingan Model ARIMA dan ARFIMA Dari pemodelan ARIMA dan ARFIMA di atas, diperoleh perbandingan nilai AIC dan MSE pada kriteria out sample

Tabel 11 Perbandingan model ARIMA dan ARFIMA

Model AIC MSE ARIMA ([1,2,5,12],0,0) 9259,903 537,5336 ARFIMA (1,d, 1) dengan outlier t=804

9125,61531 271,304

Page 12: PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG … · Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada

12  

Dari Tabel 11 dilihat bahwa model ARFIMA (1,d,1) dengan outlier t=804 memiliki nilai AIC dan MSE yang lebih kecil dibandingkan dengan model ARIMA ([1,2,5,12],0,0). Sehingga model terbaik untuk pemodelan residual regresi adalah model ARFIMA (1,d, 1). Berikut ini adalah model regresi untuk pemodelan polusi udara:

67,444 6,024 (12) Dengan mengikuti model ARFIMA sebagai berikut: 1 0,800973 1 , 92,1031 1 0,849818

KESIMPULAN Berdasarkan perhitungan MSE model regresi dengan error, pemodelan residual regresi dengan ARFIMA memberikan nilai MSE yang jauh lebih kecil dibandingkan pemodelan dengan ARIMA, sehingga dapat dikatakan bahwa model ARFIMA merupakan metode terbaik yang memodelkan residual regresi pada pemodelan data polusi udara di Kota Surabaya. Model terbaik yang diperoleh adalah model ARFIMA (1,d,1) dengan outlier t=804. 1 0,800973 1 , 92,1031 1 0,849818 (13) DAFTAR PUSTAKA Doornik, J. A. dan Ooms, M. (2001) Computational Aspects of Maximum Likelihood Estimation of

Autoregressive Fractionaly Integrated Moving Average models. Nuffield College, University of Oxford, Oxford OXI 1NF, UK and Departemen of Econometrics, Free University of Amsterdam 1081 HV Amsterdam, Te Nederlands.

Hauser, M. A. (1998). Maximum Likelihood Estimators for ARMA and ARFIMA Models : A Monte Carlo Study. University of Econometrics and Business Administraton, Department of Statistics, Vienna.

Iglesias, P., Jorquera, H., dan Palma, W. (2005). Data Analysis Using Regression Model with Missing Observations and Long-memory: An Application Study. Journal of Computational Statistics and Data Analysis 50, 2028–2043.

Lardic S. dan Mignon V. (2003). The Exact Maximum Likelihood Estimation of ARFIMA Processed and Model Selection Criteria: A Monte Carlo Study. MODEM- CNRS, University of Paris X.

Sowell, F. (1992). Maximum likelihood estimation of stationary univariate fractionally integrated models. J. Econometrics 53, 165–188.

Wei, W.W.S. (1990), Time Series Analysis.Canada: Addison Wisley Pubblishing Company.