Mengatasi multikolonieritas

Post on 23-Jun-2015

2.286 views 3 download

Transcript of Mengatasi multikolonieritas

MASALAH MULTIKOLINIERITA

S

Safa’at Yulianto

Latar belakang

Di dalam analisis linier ganda yang mempunyai banyak variable bebas, sering timbul masalah karena terjadinya hubungan antara dua atau lebih variable bebasnya. Variabel bebas yang saling berkorelasi disebut kolinieritas ganda (multikolinieritas).

Korelasi yang sangat tinggi akan mengakibatkan penduga yang berbias, tidak stabil dan mungkin jauh dari nilai sasaran.

Regresi komponen utama

REGRESI LINEAR GANDA

MKT

MULTICOLINEAR

Memenuhi Asumsi

RAKU

• Analisis Regresi Linear Berganda

LANDASAN TEORI

Xy

pp XXXY .......22110

Hipotesis

0:0 jH

0:0 jH

artinya koefisien ke-j tidak signifikan atau variable bebas ke-j tidak berpengaruh nyata terhadap Y.

artinya koefisien ke-j signifikan atau variable bebas ke-j berpengaruh nyata terhadap Y.

2/);1()ˆ( pnjhit tt0H, Tolak

MULTICOLINEARITASKondisi dimana terdapat korelasi antara variabel-variabel bebas.

AKIBAT1. Koefisien regresi dugaan tidak nyata walaupun nilai R2-nya tinggi.2. Nilai dugaan koefisien regresi sangat sensitive terhadap perubahan data.3. Dengan MKT, simpangan baku koefisien regresi dugaan sangat besar.

METODE PENDETEKSIAN 1. Metode Informal dapat dilakukan dengan melihat matriks korelasi.

2. Metode Formal, dengan melihat faktor inflasi ragam ( FIR )

• VIF ( Faktor Inflasi Ragam )

• Korelasi antar peubah bebas

2iR

21

1

ii R

VIF

Adalah koefisien determinasi dari regresi variabel bebas ke-i

Indikasi Multikolinearitas

10iVIF

Analisi Komponen UtamaSecara umum tujuan dari analisis komponen utama adalah mereduksi dimensi data yang besar dan saling berkorelasi menjadi dimensi data yang kecil dan tidak saling berkorelasi ( jolliffe 2002 ), hal ini dilakukan untuk kebutuhan interpretasi.Analisis Regresi Komponen UtamaMetode regresi komponen utama merupakan teknik analisis komponen utama yang dikombinasikan dengan teknik regresi MKT. Prinsipnya yaitu dengan memilih beberapa komponen utama pertama yang akan digunakan sebagai peubah bebas dalam regresi MKT. Dalam hal ini, jika semua komponen utama digunakan sebagai peubah bebas, maka akan dihasilkan model yang setara dengan yang diperoleh melalui MKT (Jollife, 1986)

Pembakuan data dengan rumus

Menentukan Regresi Komponen Utama

2/1

)(

j

jijij

s

xxz

Contoh kasus

• Data

• Langkah AnalisisMendeteksi Multicolinearitas

Terlihat korelasi antar variabel seluruhnya mendekati 1(besar), juga p-value < 0,05, dapat disimpulkan bahwa hal ini menunjukkan adanya korelasi antar masing-masing variabel bebas.

• MKT

Analisis Regresi KU

• Pembakuan Data X• Menentukan akar ciri, vektor ciri dan skor

komponen utama untuk seluruh data.

• Skor Komponen Utama

• Regresi SK Utama.

• Persamaan Regresi dari KU terpilih (W1)

• Uji Regresi Secara Parsial

Dari t hitung yang diperoleh, tampak bahwa keempat peubah bebas nyata secara statistik. Dapat disimpulkan bahwa ukuran industrialisasi memiliki peranan yang relative sama besarnya terhadap pendapatan per kapita (y).

• Persamaan Regresi

Metode Kuadrat terkecil. Metode ini menghasilkan penduga terbaik (tak berbias dan bervarians minimum) jika saja tidak ada korelasi antar variable bebas.

Ridge Regression

Salah satu cara untuk mendapatkan koefi sien regresi pada persamaan regresi linier berganda adalah dengan :

model regresi linear berganda

prosedur centering and

rescaling diagonal utama matriks korelasi variable bebas ditambahkan ridge parameter θ dimana

nilainya antara 0 dan 1.

variable bebas diinverskan

Ridge regression

Prosedur Centering

Pada persamaan regresi yang memiliki model

Persamaan di atas dapat dibentuk

menurut rumus, untuk memperoleh adalah :

maka berlaku sehingga

misalkan

maka dapat kita peroleh persamaan

Prosedur ini mengakibatkan hilangnya intersep yang membuat perhitungan untuk

mencari model regresi menjadi lebih sederhana.

Prosedur Rescaling

Bila dari persamaan akhir pada prosedur centering di atas kita bentuk persamaan :

Matriks Korelasi

Persamaan yang diperoleh melalui prosedur centering and rescaling di atas bila dituliskan dalam bentuk matriks adalah :

untuk hal ini juga berlaku untuk

sedangkan untuk

dimana

sehingga matriks korelasi untuk persamaan regresi adalah :

matriks Z’Z yang diperoleh disebut matriks korelasi.

Dugaan parameter koefisien regresi dengan metode kuadrat terkecil adalahb = (X’X)-1 X’Y

dengan membentuk X’X menjadi matriks korelasi, maka kesalahan yang disebabkan pengaruh pembulatan menjadi lebih kecil (Draper & Smith, 1992). Terutama jika variable bebasnya lebih dari dua dan data yang ada besar.

Metode Ridge Regression 1

Jika X’X yang merupakan matriks korelasi adalah matriks

identitas maka nilai dugaan variable respon akan sama dengan nilai sebenarnya

Jika X’X menjauhi matriks identitas maka dapat dikatakan

X’X hampir singular, ini disebut dengan ill conditioned (Draper

& Smith)

pendugaan parameter koefisien regresi masih mungkin dilakukan dengan metode

kuadrat terkecil dengan konsekuensi simpangan bakunya cenderung semakin

besar sejalan dengan meningkatnya multikolinieritas.

Metode Ridge Regression 2

prosedur mentransformasikan matriks X’X menjadi korelasi Z’Z sehingga dugaan koefisien regresinya menjadi :

Z = matriks n x k yang merupakan hasil transformasi variable bebas melalui metode centering and rescaling.

sehingga nilai dugaan untuk variable respon menjadi

Proses di atas disebut dengan ridge

regression

Contoh Kasus

Data berikut adalah data jam kerja pegawai Rumah Sakit Sardjito Yogyakarta yang diduga bergantung pada rata-rata peningkatan jumlah pasien (X1), tempat tidur harian yang dipakai per bulan (X2), dan populasi pasien yang memenuhi syarat pada area rumah sakit, dalam ribuan (X3).

Tujuan kita disini adalah untuk memperoleh persamaan yang akan digunakan untuk menduga dan memprediksi tenaga kerja yang diperlukan untuk rumah sakit.

Y X1 X2 X3566.52 15.57 472.92 18696.82 44.02 1339.75 9.5

1033.15 20.42 620.25 12.81603.62 18.74 568.33 36.71611.37 49.2 1497.6 35.71613.27 44.92 1365.83 241854.17 55.48 1687 43.32160.55 59.28 1639.92 46.72305.58 94.39 2872.33 78.73503.93 128.02 3655.08 180.53571.89 96 2912 60.93741.4 131.42 3921 103.7

4026.52 127.21 3865.67 126.810343.81 252.9 7684.1 157.711732.17 409.2 12446.33 169.415414.94 463.7 14098.4 331.418854.45 510.22 15524 371.6

Data jam kerja pegawai Rumah Sakit Sardjito Yogyakarta

uji keberartian model secara simultan atau bersama-sama untuk semua

(variable bebas secara simultan tidak berpengaruh terhadap variable respon Y)

(variable bebas secara simultan berpengaruh terhadap variable respon Y)

Analysis of VarianceSource DF SS MS F PRegression 3 484074767 161358256 197.19 0.000Residual Error 13 10637774 818290Total 16 494712540

s = 904.594 R-Sq = 97.8% R-Sq(adj) = 97.4%

Dengan menggunakan statistik uji Anova atau uji F, maka berdasarkan penduga parameter untuk regresi linier ganda pada data di atas diperoleh

Penyelesaian 1

Penyelesaian 2

•Pendugaan Model Regresi Linier Berganda

Regression Analysis: Y versus X1, X2, X3 The regression equation isY = - 12 - 164 X1 + 6.23 X2 + 13.0 X3Dari output di atas, diperoleh model regresi ;

Uji parameter masing-masing :

, untuk i=1,2,3 (variable bebas secara individu tidak berpengaruh signifikan terhadap nilai dugaan Y)

,

, untuk i=1,2,3 (variable bebas secara individu berpengaruh secara signifikan terhadap nilai dugaan)

Predictor Coef SE Coef T PConstant -12.4 326.9 -0.04 0.970X1 -163.9 119.0 -1.38 0.192X2 6.230 3.834 1.62 0.128X3 13.023 6.845 1.90 0.079

Penyelesaian 3

nilai korelasi antar variable bebas (X)

Correlations: X1, X2, X3 X1 X2X2 0.99 0.000X3 0.936 0.933 0.000

Adanya multikolinieritas juga bisa dilihat melalui perhitungan determinan matriks Z’Z. Dari perhitungan, diperoleh :

matriks Z’Z ini merupakan matriks korelasi antar peubah predictor. Terlihat bahwa korelasi antar variable bebas sangat tinggi ini juga bisa dilihat dari determinan matriks Z’Z=0.00242524 yang mendekati 0. Hal ini berarti matriks Z’Z hampir singular dan menunjukkan adanya multikolinieritas tidak sempurna dengan ill conditioned sehingga untuk mengatasi multikolinieritas ini kita menggunakan ridge regression

Penyelesaian 4

Y* Z1 Z2 Z3-0.192437913 -0.199864554 -0.198100775 -0.198419192-0.186754575 -0.157016818 -0.155253314 -0.217515751-0.172084758 -0.192560107 -0.190818244 -0.210101793-0.14720238 -0.195090307 -0.193384653 -0.156406763

-0.146864346 -0.149215368 -0.147450779 -0.158653417-0.146781473 -0.153964178 -0.184939268 -0.184939268-0.136274058 -0.139757238 -0.138088725 -0.141578847-0.122910581 -0.134034167 -0.140415892 -0.133940223-0.11658476 -0.081155994 -0.079497788 -0.062047296

-0.064315933 -0.030506808 -0.040806407 0.166662078-0.061351699 -0.078731219 -0.077536898 -0.102037737-0.053958126 -0.025386165 -0.027661964 -0.005880947-0.041521953 -0.031726726 -0.03039693 0.0460167590.234021366 0.157571407 0.158348305 0.1154383670.294577921 0.39297039 0.393745632 0.1417242190.455210513 0.47505129 0.475407556 0.5056821610.605232754 0.545113738 0.545875054 0.595997651

•Pendugaan Model Ridge RegressionLangkah awal analisis ridge regression adalah mentranformasikan matriks X’X menjadi korelasi Z’Z yaitu pada data berikut :

θ Cθ0 3.99972

0.01 4.0380740.02 3.9395680.03 3.8934530.04 3.8875910.05 3.9126610.06 3.9623840.07 4.032610.08 4.1203630.09 4.2236150.1 4.340929

Penyelesaian 5

Dalam memilih nilai tetapan θ untuk dapat menduga ridge regresion digunakan statistik Cp Mallows (Cθ). Nilai Cθ dengan berbagai nilai

kemungkinan tetapan θ disajikan dalam tabel berikut :

nilai θ yang terpilih adalah pada saat Cθ minimum yaitu θ = 0.04 sehingga persamaan regresinya menjadi

uji keberartian model secara simultan atau bersama-sama untuk semua

Penyelesaian 6

(variable bebas secara simultan tidak berpengaruh terhadap variable respon Y)

(variable bebas secara simultan berpengaruh terhadap variable respon Y)

Dengan menggunakan statistik uji Anova atau uji F, maka berdasarkan penduga parameter untuk regresi linier ganda pada data di atas diperoleh

Analysis of VarianceSource DF SS MS F PRegression 3 0.9604 0.320133 105,0943 0.000Residual Error 13 0.0396 0.003046Total 16 1

Penyelesaian 7

Pengujian keberartian model ridge regression yang dilakukan secara parsial atau individu dapat dilakukan melalui pengujian hipotesis sebagai berikut :

untuk i=1,2,3 (variable bebas secara individu tidak berpengaruh secara signifikan terhadap nilai dugaan Y)untuk i=1,2,3 (variable bebas secara individu berpengaruh secara signifikan terhadap nilai dugaan)

dengan statistik uji t-student, maka kita peroleh nilai thitung dari masing-masing variable X secara individu adalah sebagai berikut :

Penduga thitung

b1* 20.1657

b2* 20.1489

b3* 19.6797

Kesimpulan

Berdasarkan penjelasan dan contoh kasus di atas maka dapat kita simpulkan hal-hal sebagai berikut :

• Multikolinieritas tidak sempurna terjadi jika terdapat kondisi ill conditioned, yaitu kondisi dimana terjadi korelasi antar variable bebas yang cukup tinggi, sehingga menyebabkan determinan (X’X) mendekati tidak sempurna atau mendekati nol.

• Nilai R2 besar yang tidak diikuti oleh hasil uji hipotesis yang signifikan dari semua koefisien penduga bi serta eigen valuenya yang kecil. Hal ini menunjukkan multikolinieritas dalam data.

• Metode regresi komponen utama dan ridge regression dapat digunakan untuk mengatasi multikolinieritas tidak sempurna atau ill conditioned yang terjadi antara variable bebas.