tugas analisis regresi(anareg)
description
Transcript of tugas analisis regresi(anareg)
Multikolinearitas
Multikolinearitas adalah keadaan jika antara X dan X yang lain memiliki hubungan (diharapkan
X dan Y berhubungan erat/korelasi dan X dan X tidak berhubungan/multikolinearitas).
Pengaruh Adanya Multikolinearitas :
1. Interpretasi koefisien regresi sebagai ukuran perubahan nilai variabel dependen ketika
variabel independen yang berhubungan naik 1 unit sementara variabel independen
lainnya konstan; tidak sepenuhnya dapat diaplikasikan ketika terjadi multikolinearitas.
2. Secara Individu koefisien regresi mungkin tidak signifikan secara statistik walaupun ada
hubungan antara variabel dependen dengan seluruh variabel independen.
3. Penambahan atau pengurangan variabel independen akan merubah koefisien regresi.
4. Extra sum of Square dari variabel independen berubah-ubah tergantung dari variabel
bebas yang ada dalam model.
5. Perkiraan standar deviasi dari koefisien regresi menjadi besar ketika variabel
independen dari koefisien regresi saling berkorelasi.
Cara mendiagnosa :
a. Informal Diagnostic
Adanya serious multikolinearitas :
1. Terjadi perubahan besar dalam koefisien regresi perkiraan ketika sebuah variabel
ditambah atau dikurangi.
2. Hasil yang tidak signifikan dalam test individu koefisien regresi untuk variabel
independen yang penting.
3. Tanda aljabar yang berlawanan untuk koefisien regresi perkiraan dengan teori atau
pengalaman sebelumnya.
4. Koefisien korelasi sederhana yang besar antara pasangan variabel independen.
5. Confidence Interval yang lebar untuk koefisien regresi dari variabel independen yang
penting.
b. Formal Diagnostic
Dengan melihat nilai Variance Inflation Factor(VIF). VIF mengukur seberapa besar varians
dari penduga parameter meningkat besarnya dibandingkan dengan jika variable bebasnya tidak
berkolerasi. Rumus untuk menentukan nilai VIF yaitu :
dimana adalah koefisien determinasi berganda ketika Xk diregresikan dengan p-2 variabel X
lainnya dalam model. Nilai terbesar digunakan untuk mengindikasikan adanya
pelanggaran yang serius terhadap asumsi nonmultikolinieritas. Jika nilai terbesar > 10,
maka data mengalami multikolinieritas.
Cara Mengatasi (Remedial) Multikolinearitas :
1. Drop atau buang satu atau beberapa variabel independen dari model.
2. Karena kehadiran serious multikolinearitas mempengaruhi inferensia dibatasi hanya
untuk data yang tidak mengikuti pola multikolineritas.
3. Dalam model regresi polinom, bentuklah variabel independen dari selisih terhadap rata-
ratanya.
4. Kadang kala bisa dengan menambah sampel atau case untuk menghilangkan pola
multikolinearitas.
Selain beberapa cara tadi, terdapat cara lain untuk mengatasi multikolinearitas yaitu :
Dengan metode Principal Component(komponen utama) dalam pembentukan variabel
independen.
Dengan metode Ridge Regression
RIDGE REGRESSION
Ridge regression merupakan suatu metode untuk mengatasi permasalahan
multikolinearitas dengan memodifikasi metode least square dengan tidak mempermasalahkan
estimator bias dari koefisien regresi. Ridge regression ini dapat digunakan saat biasnya kecil
dengan presisi yang lebih baik daripada estimator yang unbiased, karena estimator dengan bias
kecil tersebut mempunyai peluang yang lebih besar untuk mendekati nilai parameternya.
Pada metode Ridge Regression modifikasi yang dilakukan hampir sama dengan
transformasi korelasi pada Ordinary Least Square(OLS).
Transformasi korelasi
pada OLS
Ridge Regression
Persamaan Normal
Model Regresi yang di
transformasi
Ridge Estimator
Persamaan normal pada OLS dapat dirumuskan dalam
Jika semua variable ditransformasikan dengan transformasi korelasi, model regresinya
akan ditransformasi menjadi
; dengan
Dan persamaan normalnya menjadi:
Dengan adalah matriks korelasi dari variable bebas dan adalah vector dari
koefisien korelasi sederhana antara variable tak bebas dan tiap variable bebas.
Dengan i = 1, 2, …, p-1 dan k = 1, 2, …, p-1
Penduga ridge regression yang terstandarisasi dibentukmdengan memasukkan suatu nilai
bias konstan pada persamaan OLS. Formulanya adalah
Dengan bR adalah vector dari koefisien ridge regression yang terstandarkan,
Dan I adalah matriks identitas berukuran (p-1) x (p-1), dengan p = banyaknya parameter.
Persamaan normal untuk ridge estimator juga dapat dituliskan sebagai :
Dengan demikian, solusi dari persamaan normal dengan koefisien ridge regression yang
terstandarisasi adalah
Model regresi yang sudah ditransformasi kemudian dikembalikan menjadi bentuk awal,
yaitu
Yang diestimasi menjadi
Dengan k = 1, 2, …, p-1
Nilai VIF untuk koefisien ridge regression adalah elemen diagonal dari matriks
Batasan dalam ridge regression adalah penentuan nilai bias konstan (c) yang didasarkan
pada subjektifitas atau pendapat peneliti. Nilai c dapat juga ditentukan dengan menggunakan
sebuah grafik yang disebut ridge trace. Grafik ini menggambarkan penduga koefisien ridge
regression sebagai fungsi dari c. Nilai c dipilih pada saat penduga koefisien ridge regression
menjadi stabil dengan c yang minimum. Hal ini disebabkan semakin betambah nilai c, maka bias
akan semakin besar.
Pada ridge regression terdapat konstanta c yang nilainya ≥ 0. Jika c=0 ridge regression
akan sama dengan OLS yang distandarkan. Saat c>0 koefisien ridge regression akan bias namun
lebih stabil dibandingkan dengan OLS
PROSEDUR :
1. Tentukan Ridge Trace yaitu plot yang simultan dari nilai estimasi koefisien regresi
yang distandarkan( ) dengan berbagai kemungkinan nilai c. Biasanya nilai c yang
digunakan antara 0-1. Perubahan nilai yang disebabkan oleh perubahan c sangat
fluktuatif, bahkan dapat terjadi perubahan tanda.
2. Tentkan nilai VIFk untuk masing-masing nilai c.
3. Untuk menentukan model yang tepat, kita lihat nilai VIF yang mendekati 1, karena
estimasi koefisien regresinya akan lebih stabil.
4. Lihat nilai yang sesuai dengan nilai c berdasarkan VIF yang mendekati nilai 1
pada prosedur (3).
5. Susun model ridge regresi dengan nilai yang sesuai.
6. Transformasikan kembali model pada prosedur (5) dengan rumus :
Contoh Soal:
Table 1. contains data for a study of the relation of amount of body fat (Y) to several possible explanatory, independent variables, based on a sample of 20 healthy females 25-34 years old. The possible independent variables are triceps skinfold thickness (X1), thigh circumference (X2), and midarm circumference (X3).
Table 1. Data of the X variable foe body fat example
Subject(i)
Triceps Skinfold Thickness(X1)
Thigh Circumference(X2)
Midarm Circumference(X3)
Body Fat(Y1)
12345678910
19.524.730.729.819.125.631.427.922.125.5
43.149.851.954.342.253.958.552.149.953.5
29.128.237.031.130.923.727.630.623.224.8
11.922.818.720.112.921.727.125.421.319.3
11121314151617181920
31.130.418.719.714.629.527.730.222.725.2
56.656.746.544.242.754.455.358.648.251.0
30.028.323.028.621.330.125.724.627.127.5
25.427.211.717.812.823.922.625.414.821.1
OUTPUT SPSS
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT body_fat
/METHOD=ENTER tricep_skinfold Thigh_circum midarm_circum.
Regression
[DataSet1] G:\aNarEg.sav
Variables Entered/Removedb
Model
Variables
Entered
Variables
Removed Method
1 midarm_circum,
Thigh_circum,
tricep_skinfolda
. Enter
a. All requested variables entered.
b. Dependent Variable: body_fat
Model Summary
Model R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 .895a .801 .764 2.47998
a. Predictors: (Constant), midarm_circum, Thigh_circum,
tricep_skinfold
ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 396.985 3 132.328 21.516 .000a
Residual 98.405 16 6.150
Total 495.389 19
a. Predictors: (Constant), midarm_circum, Thigh_circum, tricep_skinfold
b. Dependent Variable: body_fat
Coefficientsa
Model
Unstandardized Coefficients
Standardized
Coefficients
t Sig.
Collinearity Statistics
B Std. Error Beta Tolerance VIF
1 (Constant) 117.085 99.782 1.173 .258
tricep_skinfold 4.334 3.016 4.264 1.437 .170 .001 708.843
Thigh_circum -2.857 2.582 -2.929 -1.106 .285 .002 564.343
midarm_circum -2.186 1.595 -1.561 -1.370 .190 .010 104.606
a. Dependent Variable: body_fat
Coefficient Correlationsa
Model midarm_circum Thigh_circum tricep_skinfold
1 Correlations midarm_circum 1.000 .994 -.995
Thigh_circum .994 1.000 -.999
tricep_skinfold -.995 -.999 1.000
Covariances midarm_circum 2.546 4.095 -4.788
Thigh_circum 4.095 6.667 -7.779
tricep_skinfold -4.788 -7.779 9.093
a. Dependent Variable: body_fat
Collinearity Diagnosticsa
Model
Dimensi
on Eigenvalue Condition Index
Variance Proportions
(Constant) tricep_skinfold Thigh_circum midarm_circum
1 1 3.968 1.000 .00 .00 .00 .00
2 .021 13.905 .00 .00 .00 .00
3 .012 18.566 .00 .00 .00 .01
4 8.648E-6 677.372 1.00 1.00 1.00 .99
a. Dependent Variable: body_fat
Ridge Regression Report
Page/Date/Time 1 1/28/2009 11:03:07 AMDatabaseDependent Body_fat
Descriptive Statistics SectionStandard
Variable Count Mean Deviation Minimum MaximumSkinfold 20 25.305 5.023259 14.6 31.4Thigh 20 51.17 5.234612 42.2 58.6Midarm 20 27.62 3.647147 21.3 37Body_fat 20 20.195 5.106185 11.7 27.2
Correlation Matrix Section
Skinfold Thigh Midarm Body_fat
Skinfold 1.000000 0.923843 0.457777 0.843265Thigh 0.923843 1.000000 0.084667 0.878090Midarm 0.457777 0.084667 1.000000 0.142444Body_fat 0.843265 0.878090 0.142444 1.000000
Least Squares Multicollinearity SectionIndependent Variance R-SquaredVariable Inflation Vs Other X's ToleranceSkinfold 708.8429 0.9986 0.0014Thigh 564.3434 0.9982 0.0018Midarm 104.6060 0.9904 0.0096Since some VIF's are greater than 10, multicollinearity is a problem.
Eigenvalues of Correlations
Incremental Cumulative ConditionNo. Eigenvalue Percent Percent Number1 2.066473 68.88 68.88 1.002 0.932801 31.09 99.98 2.223 0.000727 0.02 100.00 2843.95Some Condition Numbers greater than 1000. Multicollinearity is a SEVERE problem.
Eigenvector of Correlations
No. Eigenvalue Skinfold Thigh Midarm1 2.066473 0.694696 0.629428 0.3481642 0.932801 -0.050106 -0.440509 0.8963493 0.000727 0.717557 -0.640135 -0.274482
Dependent Body_fat
Ridge Trace Section
-4.00
-1.50
1.00
3.50
6.00
10-4 10-3 10-2 10-1 100
Ridge Trace
K
Sta
ndard
ized B
eta
sVariables
SkinfoldThighMidarm
Ridge Regression Report
Dependent Body_fat
10-1
100
101
102
103
10-4 10-3 10-2 10-1 100
Variance Inflation Factor Plot
K
VIF
Variables
SkinfoldThighMidarm
Ridge Regression Report
Dependent Body_fat
Standardized Ridge Regression Coefficients Section
k Skinfold Thigh Midarm0.000000 4.2637 -2.9287 -1.56140.001000 2.0348 -0.9408 -0.70870.002000 1.4407 -0.4113 -0.48130.003000 1.1653 -0.1661 -0.37580.004000 1.0063 -0.0248 -0.31490.005000 0.9028 0.0670 -0.27510.006000 0.8300 0.1314 -0.24720.007000 0.7760 0.1791 -0.22640.008000 0.7343 0.2158 -0.21030.009000 0.7012 0.2448 -0.19750.010000 0.6742 0.2684 -0.18700.020000 0.5463 0.3774 -0.13690.020000 0.5463 0.3774 -0.13690.030000 0.5004 0.4134 -0.11810.040000 0.4760 0.4302 -0.10760.050000 0.4605 0.4392 -0.10050.060000 0.4494 0.4443 -0.09520.070000 0.4409 0.4471 -0.09090.080000 0.4341 0.4486 -0.08730.090000 0.4283 0.4491 -0.08410.100000 0.4234 0.4490 -0.08120.200000 0.3914 0.4347 -0.06130.300000 0.3703 0.4154 -0.04790.400000 0.3529 0.3966 -0.03760.500000 0.3377 0.3791 -0.02950.600000 0.3240 0.3629 -0.02290.700000 0.3116 0.3481 -0.01740.800000 0.3001 0.3344 -0.01290.900000 0.2896 0.3218 -0.00911.000000 0.2798 0.3101 -0.0059
Ridge Regression Report
Dependent Body_fat
Variance Inflation Factor Section
k Skinfold Thigh Midarm0.000000 708.8429 564.3434 104.60600.001000 125.7309 100.2740 19.28100.002000 50.5592 40.4483 8.27970.003000 27.1750 21.8376 4.85620.004000 16.9816 13.7247 3.36280.005000 11.6434 9.4759 2.57990.006000 8.5033 6.9764 2.11850.007000 6.5013 5.3827 1.82380.008000 5.1472 4.3046 1.62380.009000 4.1887 3.5413 1.48170.010000 3.4855 2.9813 1.37700.020000 1.1026 1.0805 1.01050.020000 1.1026 1.0805 1.01050.030000 0.6257 0.6969 0.92350.040000 0.4528 0.5553 0.88140.050000 0.3705 0.4859 0.85310.060000 0.3244 0.4454 0.83060.070000 0.2956 0.4189 0.81110.080000 0.2761 0.3998 0.79340.090000 0.2621 0.3852 0.77690.100000 0.2515 0.3735 0.76140.200000 0.2053 0.3078 0.63420.300000 0.1838 0.2686 0.53850.400000 0.1676 0.2383 0.46340.500000 0.1540 0.2137 0.40330.600000 0.1423 0.1930 0.35440.700000 0.1319 0.1755 0.31400.800000 0.1227 0.1604 0.28020.900000 0.1145 0.1473 0.25161.000000 0.1071 0.1358 0.2273
Ridge Regression Report
Dependent Body_fat
K Analysis Section
k R2 Sigma B'B Ave VIF Max VIF0.000000 0.8014 2.4800 29.1945 459.2641 708.84290.001000 0.7888 2.5570 5.5277 81.7620 125.73090.002000 0.7852 2.5791 2.4763 33.0957 50.55920.003000 0.7832 2.5907 1.5267 17.9563 27.17500.004000 0.7819 2.5984 1.1124 11.3564 16.98160.005000 0.7809 2.6043 0.8953 7.8997 11.64340.006000 0.7801 2.6092 0.7673 5.8661 8.50330.007000 0.7794 2.6135 0.6855 4.5693 6.50130.008000 0.7787 2.6174 0.6300 3.6918 5.14720.009000 0.7781 2.6210 0.5906 3.0706 4.18870.010000 0.7776 2.6244 0.5615 2.6146 3.48550.020000 0.7726 2.6534 0.4596 1.0645 1.10260.020000 0.7726 2.6534 0.4596 1.0645 1.10260.030000 0.7681 2.6793 0.4352 0.7487 0.92350.040000 0.7639 2.7040 0.4233 0.6298 0.88140.050000 0.7597 2.7278 0.4151 0.5698 0.85310.060000 0.7556 2.7511 0.4084 0.5335 0.83060.070000 0.7515 2.7738 0.4026 0.5085 0.81110.080000 0.7475 2.7961 0.3973 0.4898 0.79340.090000 0.7436 2.8178 0.3922 0.4748 0.77690.100000 0.7397 2.8392 0.3874 0.4621 0.76140.200000 0.7031 3.0321 0.3460 0.3824 0.63420.300000 0.6702 3.1954 0.3120 0.3303 0.53850.400000 0.6405 3.3363 0.2833 0.2898 0.46340.500000 0.6134 3.4596 0.2586 0.2570 0.40330.600000 0.5887 3.5687 0.2372 0.2299 0.35440.700000 0.5659 3.6661 0.2185 0.2071 0.31400.800000 0.5449 3.7538 0.2021 0.1878 0.28020.900000 0.5254 3.8333 0.1875 0.1711 0.25161.000000 0.5073 3.9056 0.1744 0.1567 0.2273
-4.0
-2.0
0.0
2.0
4.0
-2.0 -1.0 0.0 1.0 2.0
Normal Probability Plot of Residuals of Body_fat
Expected Normals
Resid
uals
of
Body_fa
t
Ridge Regression Report
Dependent Body_fat
Ridge vs. Least Squares Comparison Section for k = 0.020000Regular Regular Stand'zed Stand'zed RidgeL.S.
Independent Ridge L.S. Ridge L.S. StandardStandard
Variable Coeff's Coeff's Coeff's Coeff's ErrorError
Intercept -7.403425 117.0847Skinfold 0.555353 4.334092 0.5463 4.2637 0.1272458
3.015511Thigh 0.3681445 -2.856848 0.3774 -2.9287 0.1208832
2.582015Midarm -0.1916269 -2.18606 -0.1369 -1.5614 0.1677828
1.595499
R-Squared 0.7726 0.8014Sigma 2.6534 2.4800
Ridge Regression Coefficient Section for k = 0.020000Stand'zed
Independent Regression Standard RegressionVariable Coefficient Error Coefficient VIFIntercept -7.403425Skinfold 0.555353 0.1272458 0.5463 1.1026Thigh 0.3681445 0.1208832 0.3774 1.0805Midarm -0.1916269 0.1677828 -0.1369 1.0105
Analysis of Variance Section for k = 0.020000Sum of Mean Prob
Source DF Squares Square F-Ratio LevelIntercept 1 8156.761 8156.761Model 3 382.739 127.5797 18.1204 0.000021Error 16 112.6505 7.040655Total(Adjusted) 19 495.3895 26.07313
Mean of Dependent 20.195Root Mean Square Error 2.653423R-Squared 0.7726Coefficient of Variation 0.1313901
Residual Plots Section
0.0
1.5
3.0
4.5
6.0
-4.0 -2.0 0.0 2.0 4.0
Histogram of Residuals of Body_fat
Residuals of Body_fat
Count
DAFTAR PUSTAKA
http://www.stat.purdue.edu/~jennings/stat512/notes/topic5a.pdf
Neter, John. Dkk. Applied Linear Regression Models. Second edition. 1989.