3091-Jerry-statistika-Bobot Optimal Dalam Regresi Semiparametrik Spline

1

BOBOT OPTIMAL PADA REGRESI SEMIPARAMETRIK SPLINE

Jerry Dwi Trijoyo Purnomo1

1 Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya

Email: [email protected]

ABSTRAK

Regresi semiparametrik spline adalah metode regresi yang menggabungkan pendekatan parametrik, dan nonparametrik. Regresi semiparametrik spline mempunyai kelebihan dapat menduga parameter pada komponen parametrik dan estimasi kurva regresi pada bagian nonparametriknya. Pada kasus dimana varian dari model regresi semiparametrik konstan, model spline original dapat diterapkan untuk mendapatkan model pendugaan yang baik terhadap data dengan menggunakan metode Penalized Least Square(PLS). Namun pada suatu kasus dimana varian dari residual tidak konstan (kasus heterokedastisitas), metode sline original kurang tepat digunakan, karena akan menghasilkan model pendugaan yang kurang tepat. Model spline dengan bobot adalah model yang lebih tepat digunakan untuk kasus heterokedstisitas tersebut. Permasalahan utama pada metode spline terbobot adalah bagaimana menentukan bobot yang optimal, sehingga akan didapatkan model yang paling sesuai untuk kasus heterokedastisitas. Banyak metode yang dapat diterapkan untuk mendapatkan bobot yang optimal, diantaranya adalah metode trial error, dengan mengambil persamaan pada variabel-variabel regresi semiparmetrik, terutama pada bagian nonparametrik sebagai fungsi yang akan digunakan dalam metode trial error.

Kata Kunci: Regresi Semiparametrik, Penalized Least Square, Spline Original, Heterokedastisitas

I. PENDAHULUAN

Estimasi kurva regresi umumnya dilakukan dengan pendekatan parametrik yang mulai diperkenalkan oleh Laplace sejak abad XVIII dan juga Boscovich pada tahun 1757. Dalam regresi parametrik diasumsikan bahwa bentuk kurva regresi f diketahui. Pembuatan asumsi tersebut berdasarkan pada teori, pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberi pengetahuan atau informasi yang terperinci.

Estimasi dapat juga dilakukan berdasarkan pendekatan yang tidak terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan fleksibilitas yang lebih besar dari kurva regresi. Metode pendekatan seperti ini dinamakan pendekatan nonparametrik yang mulai dikenal sejak abad XIX. Ada beberapa teknik untuk mengestimasi dalam regresi nonparametrik, antara lain histogram, estimator Kernel, Spline, dan lain-lain.

Masalah yang sering muncul dalam regresi adalah tidak semua variabel penjelas dapat didekati dengan pendekatan parametrik, karena tidak adanya informasi tentang bentuk hubungan variabel penjelas tersebut dengan variabel responnya, sehingga harus digunakan pendekatan nonparametrik. Dengan menggabungkan dua pendekatan tersebut dalam suatu pendekatan regresi akan didapatkan suatu model semiparametrik. Estimasi model semiparametrik ekuivalen dengan

2

mengestimasi parameter-parameter pada komponen parametrik dan estimasi kurva pada komponen nonparametrik.

Dalam penelitian Dewayani (2004) terdapat enam variabel prediktor, yaitu jumlah gangguan jenis benda (X1), jumlah gangguan jenis alam (X2), jumlah gangguan jenis unit pembangkit (X3), jumlah gangguan jenis peralatan (X4), jumlah pekerjaan oleh pihak PT PLN (X5), jumlah gangguan jenis sebab lain (X6), serta variabel respon, jumlah energi listrik yang hilang di Surabaya Utara. Dalam penelitian ini ada kecenderungan varian yang tidak homogen. Hal ini terlihat dari visualisasi data antara variabel-variabel prediktor tersebut dengan variabel respon. Adanya kecenderungan adanya varian yang tidak homogen ini menyebabkan hasil yang diperoleh kurang dapat menjelaskan hubungan antara variabel respon dan prediktor di atas. Karena itu digunakan pembobot untuk mengatasi ketidaksamaan varian, karena spline original yang digunakan kurang dapat menjelaskan adanya ketidaksamaan varian.

Model semiparametrik pertama kali diperkenalkan oleh Wahba (1985), Engle, Granger, Rice, dan Weiss, (1986), Green, Jennison, Seheult (1985), dan Heckman (1986). Model ini dirumuskan sebagai:

yi= 'ix +f(ti)+i , i=1,2,,n (1) dengan 'ix =(xi1,,xip) dan ti, i=1,2,,n merupakan variabel-variabel prediktor. Vektor =(1,,p)

'

Rp tidak diketahui dan f diasumsikan merupakan anggota ruang Sobolev [ ]1,0Wm2 = {f | f(k), k = 0, 1 ,, m-1 kontinu pada [0,1] , dan ( )[ ]

3

R(f) = ( )=

n

1ii

'ii

1 tfxyn (6)

Lebih lanjut He dan Shi (1986) mengusulkan penggunaan estimator spline parsial tipe-M (median) untuk pendekatan mean respon regresi semiparametrik. Estimator diperoleh dengan meminimumkan PLS dan mengganti persamaan (3) :

R(f) = ( )( )=

n

1ii

'ii

1 tfxyn (7)

fungsi konveks.

Beberapa macam tipe spline yang dikembangkan para peneliti di atas, dikembangkan model spline parsial terbobot untuk mengatasi ketidaksamaan variansi, dikarenakan model spline parsial kurang sesuai untuk menangani ketidaksamaan variansi regresi semiparametrik. Model ini dikembangkan oleh Budiantara (1999) serta Subanar dan Budiantara (1999). Bentuk estimator diperoleh dengan meminimumkan Penalized Least Square Terbobot (PLST):

( ) ( )( )=

+=n

1i

2i

'ii

1 tfxynfl iw

( ) ( )[ ]10

2m dttf (8)

untuk setiap f anggota ruang sobolev [ ]1,0Wm2 . Bentuk estimator spline parsial terbobot dipengaruhi oleh parameter penghalus . Untuk , estimator spline parsial terbobot merupakan estimator polinomial (Budiantara, 1999). Estimator komponen parametrik merupakan estimator yang konsisten dan berdistribusi normal asimtotik (Subanar dan Budiantara, 1999).

II. METODE

Estimasi kurva regresi umumnya dilakukan dengan tiga pendekatan, yaitu pendekatan parametrik, dengan asumsi bentuk kurva regresi diketahui, pendekatan nonparametrik, dengan asumsi pendekatan kurva regresi tidak diketahui, serta pendekatan semiparametrik yang merupakan gabungan antara pendekatan parametrik dan nonparametrik.

2.1 Spline Dalam Regresi Nonparametrik

Fungsi spline berorde (m-1) dengan titik-titik knot S1, S2,...,Sk adalah sebarang fungsi yang dapat disajikan dalam bentuk [5]:

1

1

1 1( ) ( )

k hi k

i j ji j

S t t t S += =

= + (8)

1( ) ,kj jt S t S

dengan 1( )kjt S

+ = 0 , t < Sj

j= 1, 2,..., k

dan adalah konstanta real dan S1, S2,...,Sk adalah titik-titik knot.

4

2.2 Pemilihan Parameter Penghalus

Beberapa metode pemilihan parameter penghalus yang banyak dikembangkan adalah Cross Validation (CV) dan Gross Cross Validation (GCV)(Craven dan Wahba (1979)), Wahba (1985), Li (1986), Kohn dkk (1991), Shao (1993), Venter dan Snyman (1995). Pada model regresi spline terbobot, kriteria GCV didefinisikan sebagai:

[ ]( )( )21 )()(

)( AItrn

MSEGCV =

= =

n

jjwn

1

1 ( )( )( )( )21

2

AItrn

fy jj

= ( )( )( )( )[ ]21

22/11

AItrn

yAIWn

Nilai yang optimal berkaitan dengan nilai GCV () yang minimum.

2.3 Estimasi Bobot

Pada dasarnya ada bermacam-macam cara untuk mendapatkan estimasi bobot. Diantaranya adalah dengan cara coba-coba (trial error). Sistem trial error ini adalah mendapatkan bobot dengan menggunakan fungsi prediktornya (Montgomery dan Peck, 1982). Bobot yang optimal didapatkan dengan cara memasukkan bobot-bobot yang mungkin kedalam persamaan (8), sedemikian hingga didapatkan model yang memiliki nilai GCV terkecil, dan koefisien determinasi (R2) terbesar.

III. DISKUSI

Dalam penelitian Dewayani (2004), terdapat enam variabel yang mempengaruhi jumlah energi listrik yang hilang di PT PLN Distribusi Jawa Timur Wilayah Surabaya Utara. Variabel-variabel tersebut adalah jumlah gangguan jenis benda (x1), jumlah gangguan jenis alam (x2), jumlah gangguan jenis unit pembangkit (x3), jumlah gangguan jenis peralatan (x4), jumlah pekerjaan oleh pihak PT PLN (x5), jumlah gangguan jenis sebab lain (x6). Dalam penelitian Dewayani (2004) ada kecenderungan varian yang tidak homogen, yaitu pada variabel x1 dan variabel x2. Hal ini terlihat dari visualisasi data antara variabel-variabel prediktor tersebut dengan variabel respon (Gambar 1 dan 3). Dari visualisasi ini terlihat semakin besar nilai variabel prediktor, variansi yang terbentuk juga semakin besar. Ini merupakan deteksi awal bahwa variabel-variabel prediktor tersebut tidak homogen. Selain dengan menggunakan visualisasi plot data, untuk mengetahui apakah varian residual sudah homogen atau belum dapat dilakukan juga dengan uji Glejser (Bowerman, 1990). Pengujian ini dilakukan dengan meregresikan nilai absolut residual dengan variabel prediktor yang dimasukkan ke dalam model.

Gambar 1 memperlihatkan hubungan antara jumlah energi listrik yang hilang di PT PLN dengan gangguan jenis benda (x1) memperlihatkan adanya perubahan pola perilaku data dari satu interval ke interval yang lain. Perubahan pola perilaku data ini ditandai dengan titik knot. Pada model spline original, perubahan pola perilaku datanya terlihat di dua titik, yaitu 9 dan 14.1 (Gambar 2), dengan hubungan antara jumlah energi listrik yang hilang dan gangguan jenis unit pembangkit dapat dijelaskan dengan model spline linear. Sedangkan hubungan antara jumlah energi listrik yang hilang di PT PLN dengan gangguan jenis unit pembangkit (x2) adalah linear, karena semakin besar gangguan yang diakibatkan jenis unit pembangkit, maka energi listrik yang hilang juga akan semakin besar (Gambar 4). Model spline parsial original untuk data ini adalah:

5

y = 0 + 1x1 + 2 11 )9x( + + 3 11 )1.14x( + + 4x2 + Nilai GCV minimum untuk model spline original ini sebesar 6891.108, dengan nilai koefisien determinasi, R2 sebesar 65.95%.

0 50 100

0

100

200

300

400

500

600

700

x1

y

x1

y

0 5 10 15 20 25

200

400

600

x1

y

0 5 10 15 20 25

200

400

600

Gambar 1. Plot antara y dan x1 Gambar 2. Plot antara y dan x1 dan estimasi

spline original

3020100

700

600

500

400

300

200

100

0

x3

y

0 50 100

0

100

200

300

400

500

600

700

x3

y

y = 85,4292 + 4,93934 x3

S = 94,8883 R-Sq = 45,7 % R-Sq(adj) = 44,4 %

Gambar 3. Plot antara y dan x2 Gambar 4. Plot y dan x2 dan regresi linear

Gambar 5. Plot tiga dimensi antara y, x1, dan x2

3.1 Diagnostik Residual Model Spline Parsial Original

Gambar 1 dan 3 di atas memperlihatkan indikasi adanya heterokedastisitas. Indikasi adanya heterokedastisitas juga terlihat pada plot antara residual dan taksiran dari respon ( y ) (Gambar 6).

6

0 100 200 300 400 500 600 700

-200

-150

-100

-50

0

50

100

150

200

250

yhat

resi

du

Average: -0,0000000StDev: 74,2283N: 43

Kolmogorov-Smirnov Normality TestD+: 0,119 D-: 0,097 D : 0,119

Approximate P-Value: 0,129

-100 0 100 200

,001

,01,05

,20

,50

,80

,95,99

,999

Prob

abilit

y

residu

Gambar 6. Plot antara residual dan y Gambar 7. Uji normalitas spline original Gambar 6 memperlihatkan bahwa plot antara residual dan y tidak random (horizontal band) melainkan membentuk corong. Ini merupakan indikasi adanya heterokedastisitas. Untuk mendeteksi adanya heterokedastisitas, dilakukan pengujian dengan uji Glejser. H0 : 243

22

21 ... ===

H1 : paling sedikit ada satu 2i yang tidak sama Tolak H0 jika nilai Fhit > Ftab . Untuk data penelitian ini didapatkan nilai Fhit = 3.09 dan Ftab = 2.62 , yang berarti H0 ditolak. Jadi varian residual tidak konstan. Berkaitan dengan inferensi statistik, terutama uji hipotesis, perlu dilakukan uji distribusi normal residual. H0 : Data menyebar mengikuti distribusi normal. H1 : Data menyebar tidak mengikuti distribusi normal. Gambar 7 memperlihatkan bahwa nilai p-value = 0.129 > = 0.05. Ini berarti gagal tolak H0. Jadi data menyebar mengikuti distribusi normal. 3.2 Uji Signifikansi Model Spline Parsial Original

Berdasarkan analisis diagnostik residual, tidak terdapat penyimpangan dari distribusi normal, sehingga dapat diteruskan untuk uji hipotesis koefisien regresi. Pertama dilakukan uji serentak dengan hipotesis: H0 : 0 = 1 = 2 = 3 = 4 = 0 H1 : paling sedikit ada satu i 0 Tabel 1 Analisis variansi model spline parsial original dengan titik knot 9, 14.1 SK db JK KT Fhit FTabel Regresi 4 448229.5 112057.4 18.40078 2.618988 Residual 38 231413 6089.817 Total 42 679642.5 Berdasarkan analisis model semiparametrik (Tabel 1) dengan = 0.05 diperoleh kesimpulan bahwa tidak semua koefisien regresi bernilai nol, sehingga model signifikan. Selanjutnya dilakukan uji individu terhadap koefisien-koefisien regresi dengan hipotesis sebagai berikut: H0 : 0 = 0 , H1 : 0 0 H0 : 1 = 0 , H1 : 1 0 H0 : 2 = 0 , H1 : 2 0 H0 : 3 = 0 , H1 : 3 0 H0 : 4 = 0 , H1 : 4 0

7

Tabel 2. Estimasi model spline parsial original Koefisien Estimasi St Dev t-hitung

0 1 2 3 4

1.098989 23.24946 -54.73364 50.02662 4.729242

25.37781 6.093311 17.35968 17.43682 0.6996449

0.04330512 3.815571 -3.152917 2.869021 6.75949

Nilai t-Tabel : 2.024394 Dari Tabel 4.3 di atas terlihat bahwa hanya 0 saja yang tidak signifikan terhadap model, sehingga 0 tidak dimasukkan ke dalam model. Tabel 3 Estimasi model semiparametrik terbaik model spline parsial original

Koefisien Estimasi St Dev t-hitung 1 2 3 4

23.45999 -55.14935 50.24905 4.736345

3.626123 14.2777 16.44851 0.6713861

6.469718 -3.862622 3.05493 7.054577

Dari Tabel 3 di atas dapat dilihat bahwa model spline parsial original terbaik adalah: y = 23.45999x1 55.14935 ( )11 9 +x + 50.24905 ( )11 1.14 +x +4.736345x2 Nilai koefisien determinasi untuk model ini sebesar 66.39% Pada data ini terdapat kasus heterokedastisitas, yang berarti spline original kurang mampu menjelaskan adanya heterokedastisitas. Indikasi adanya heterokedastisitas ini juga terlihat pada Gambar 8. Adanya heterokedastisitas menunjukkan bahwa spline parsial original kurang mampu menjelaskan adanya heterokedastisitas, sehingga model spline dengan bobot layak dipertimbangkan sebagai suatu model pendekatan.

Gambar 8 Plot tiga dimensi antara y (merah) Gambar 9. Plot tiga dimensi antara y (merah) dan dan y (hijau) untuk spline original y (hijau) untuk spline terbobot 3.3 Spline Parsial Terbobot

Setelah diperlihatkan adanya heterokedastisitas, maka model spline parsial terbobot diterapkan untuk data penelitian ini. Dilakukan penentuan bobot dengan sistem coba-coba (trial error) menggunakan fungsi dari prediktornya (Montgomery dan Peck, 1982). Metode mendapatkan bobot dengan cara coba-coba ini menggunakan fungsi dari prediktor sampai didapatkan bobot yang paling sesuai. Dengan metode ini dipilih knot optimum, yaitu knot yang menghasilkan GCV minimum. Dalam penelitian ini diambil bobot sama dengan 1/ti. Dengan bobot ini didapatkan titik knot optimal 9 dan 13,8.

Estimasi model spline parsial terbobot diberikan oleh:

y = 0 + 1x1 + 2 111 )Sx( + + 3 121 )Sx( + + 4x2 Setelah itu dilakukan uji distribusi normal dengan hipotesis:

8

H0 : Data menyebar mengikuti distribusi normal. H0 : Data menyebar tidak mengikuti distribusi normal. Dari Gambar 10 terlihat bahwa p-value > = 0.05, sehingga gagal tolak H0. Jadi data menyebar mengikuti distribusi normal.

Average: -0,0062414StDev: 78,1072N: 43

Kolmogorov-Smirnov Normality TestD+: 0,132 D-: 0,077 D : 0,132

Approximate P-Value: 0,060

-200 -100 0 100 200

,001

,01,05

,20

,50

,80

,95,99

,999

Prob

abilit

y

residual

Normal Probability Plot

Gambar 10 Plot Kenormalaan residual dengan trial error

3.4 Uji Signifikansi Model Spline Parsial Terbobot Dengan Trial Error

Berdasarkan diagnostik residual, tidak terdapat penyimpangan dari distribusi normal, selanjutnya dilakukan uji hipotesis serentak. H0 : 0 = 1 = 2 = 3 = 4 = 0 H1 : paling sedikit ada satu i 0 Tabel 4. Analisis variansi model spline parsial terbobot dengan titik knot 9 dan 13.8 SK db JK KT Fhit FTabel Regresi 4 47839.98 11960 19.65687 2.618988 Residual 38 23120.66 608.4384 Total 42 70960.64 Dengan menggunakan = 0.05 diperoleh kesimpulan bahwa tidak semua koefisien regresi bernilai nol. Selanjutnya dilakukan uji individu terhadap koefisien-koefisien regresi dengan hipotesis sebagai berikut: H0 : 0 = 0 , H1 : 0 0 H0 : 1 = 0 , H1 : 1 0 H0 : 2 = 0 , H1 : 2 0 H0 : 3 = 0 , H1 : 3 0 H0 : 4 = 0 , H1 : 4 0 Tabel 5 Estimasi model spline parsial terbobot dengan trial error dengan titik knot 9 dan 13.8

Koefisien Estimasi St Dev t-hitung 0 1 2 3 4

3.545861 27.67042 -66.47193 55.41061 3.223847

17.65268 4.13598

14.18655 14.34539 1.411356

0.2008682 6.690173

-4.685558 3.862607 2.284219

Nilai t-Tabel : 2.024394

Dari Tabel 5 di atas terlihat bahwa hanya 0 saja yang tidak signifikan terhadap model, sehingga 0 tidak dimasukkan ke dalam model.

9

Tabel 6 Estimasi model spline parsial terbobot dengan trial error dengan titik knot 9 dan 13.8 Koefisien Estimasi St Dev t-hitung

1 2 3 4

28.22382 -66.86327 55.86006 3.366382

2.620939 11.8226 13.35736 1.293817

10.76859 -5.655549 4.18197 2.6019

Nilai t-Tabel 95% : 2.022691 Dari Tabel 6 di atas dapat dilihat bahwa model spline parsial terbobot dengan menggunakan metode trial error adalah: y = 28.22x1 66.86 11 )8.13x( + + 55.86 11 )8.13x( + + 3.37x2 Nilai koefisien determinasi untuk model ini sebesar 70.26%.

IV. KESIMPULAN

Spline parsial original kurang sesuai untuk permasalahan ketidaksamaan varian (heterokedastisitas). Model spline dengan bobot layak dipertimbangkan sebagai suatu model pendekatan, karena memberikan hasil yang lebih dibandingkan spline parsial original. Salah satu metode untuk mendapatkan bobot adalah dengan trial error. Model spline terbobot dengan metode trial error dengan mengambil bobot 1/ti adalah:

1 11 1 1 2 28, 22 66,86( 13,8) 55,86( 13,8) 3,37y x x x x+ += + +

Nilai koefisien determinasi untuk model ini adalah 70,26%. Model ini lebih baik dibandingkan model spline original yang memiliki koefisien determinasi 65,95%, disamping nilai dari y untuk spline terbobot yang nilainya mendekati nilai y dibandingkan nilai y untuk spline original(Gambar 8 dan 9).

DAFTAR PUSTAKA

Bowerman, L.(1990). Linear Statistical Models: An Applied Approach, 8thedition. PWS-Kent Publishing Company, Boston.

Craven dan Wahba, G.(1979). Smoothing Noisy Data With Spline Function: Estimating The Correct Degree of Smoothing by The Method of Generalized Cross Validation, Numer. Math.,31, 377-403.

Dewayani, I.(2004). Penerapan Model Nonparametrik Dengan Metode Spline Pada Jumlah Energi Listrik Yang Hilang di PT PLN Distribusi Jawa Timur Wilayah Surabaya Utara, Tugas Akhir, ITS, Surabaya.

Budiantara, I.N.(1999). Estimator Spline Terbobot Dalam Regresi Semiparametrik, Majalah Ilmu Pengetahuan dan Teknologi, 10, 103-109.

Chen, H. dan Shiau, J.J.H.(1994). Data Driven Efficient Estimators for a Partially Linear Model. The Annals of Statistics, 22, 211-237.

10

Engle, R.L, Granger, C., Rice, J. dan Weiss, A.(1986).Semiparametric Estimates of Relation Between Weather and Electricity Sales, Journal of The American Statistical Association, 81, 310-320.

Eubank, R.L. (1986). A Note on Smoothness Priors and Nonlinear Regression., Journal of the American Statistical Association, 81, 514-517.

Green, P., Jennison, C.,Seheult, A.(1985). Analysis of Field Experiments by Least Square Smoothing, Journal of The Royal Statistical Society, Ser. B, 47, 299-314.

Heckman, N.(1986). Spline Smoothing in a Partly Linear Models, Journal of The Royal Statistical Society, ser B, 48, 244-248.

He,X. dan Shi,P.(1996). Bivariate Tensor Product B-Spline in a Partly Linear Models, Journal of Multivariate Analysis, 58, 162-181.

Kohn, R. dkk.(1991). The Performance of Cross Validation and Maximum Likelihood Estimators of Spline Smoothing Parameters, Journal of The American Statistical Association,86, 1042-1050.

Li, K.C.(1986). Asymtotic Optimality of Cl and Generalized Cross Validation in Ridge Regression With Application to Spline Smoothing, Ann.Statist., 14, 1101-1112.

Montgomery, D.C dan Peck, E.A (1982). Introduction to Linear Regression Analysis, New York: John Wiley and Sons.

Shao, J. (1993). Linear Model Selection by Cross Validation. Journal of The American Statistical Association, 88, 486-494.

Shi, P., dan Li, G. (1994). On the Rate Convergence of Minimum L1-NormEstimates in a partly Linear Model, Communication in Statistics, Theory and Methods, 23, 175-196.

Subanar dan Budiantara, I.N. (1999). Weighted Spline Estimator in a Partially Linear Models, Proceeding of the SEAMS-GMU International Conference 1999 on Mathematics and Its Applications, 61-70.

Venter, J.H. and Snyman, J.L.J.(1995). A note on The Generalized Cross Validation Criterion in Linear Model Selection, Biometrika, 82, 215-219.

Wahba, G.(1985). A Comparison of GCV and GML for Choosing the Smoothing Parameter in the Generalized Spline Smoothing Problem, Journal the Annals of Statistics, 13, 1378-1402.

(1990). Spline Models for Observasional Data, SIAM, Pensylvania.

3091-Jerry-statistika-Bobot Optimal Dalam Regresi Semiparametrik Spline

Documents

Transcript of 3091-Jerry-statistika-Bobot Optimal Dalam Regresi Semiparametrik Spline