Kuliah pemilihan model_terbaik_m14_dan_15

55
PEMILIHAN MODEL REGRESI TERBAIK M.K. Analisa Regresi (S1) M_14-15

Transcript of Kuliah pemilihan model_terbaik_m14_dan_15

PEMILIHAN

MODEL REGRESI TERBAIK

M.K. Analisa Regresi (S1)

M_14-15

REVIEWPrinsip pemilihan model terbaik

r.e.v.i.e.w

Postulated Model – ARB

1 1 2 2 ...o p pY X X X

Apakah postulated model tersebut

“THE BEST”?

Perhatikan ilustrasi sebagai berikut

Y

X1

Varians yang TIDAK bisaDijelaskan oleh by X1 and X2

Varians yang

Dijelaskan oleh X1

Varians yang dijelaskan oleh X2

X2

Varians yang dijelaskan olehX1 and X2

Y

X1 X2

THE IDEA : A “good” model

tinggiR _2rendahs _2

SIGNIFIKAN

SIGNIFIKAN

METODE PEMILIHAN MODEL TERBAIK

• All-Possible

• Best-Subsets Regression

• Backward Elimination

• Forward Selection

• Stepwise Regression

• Principle Component Regression

• Ridge Regression

• Latent Root Regression

• Stagewise Regression

SIFATNYA ITERATIF :SATU VARIABEL INDEPENDEN

Pada suatu waktu ditambahkanAtau dihilangkanBerdasarkan F-tes

(Partial F-test atau Sequential F-test)

Setiap subset darivariabel independen

di EVALUASI

BERUSAHA MEMPERTAHANKAN :

SELURUH VAR. INDEPENDEN Prinsip dasar : MengatasaiMULTIKOLINIERITASDasar : CENTERING dan

SCALLING

MODEL TERBAIK

SELEKSI VARIABEL

• All Possible Regression

• Best-Subsets Regression

• Backward Elimination

• Forward Selection

• Stepwise Regression

SIFATNYA ITERATIF :SATU VARIABEL

INDEPENDENPada suatu waktu ditambahkan

Atau dihilangkan Berdasarkan F-tes

Setiap subset dari variabel independen

di EVALUASI dengan KRITERIA tertentu

Procedure

CONTOH

• DATA PADA APENDIKS B

• X1 = Kandungan 3CaO-Al2O3

• X2 = Kandungan 3CaO – SiO2

• X3 = 4 CaO –Al2O3.Fe2O3

• X4 = 2CaO.SiO2

• Y = Kandungan panas yang terjadi (calori)

PEMILIHAN MODEL TERBAIK (1)

ALL POSSIBLE SELECTION• Seluruh model yang mungkin dibuat dibandingkan

• Kriteria model terbaik :

1. Nilai R²

2. Nilai s²

3. Statistik, Cp

BEST SUBSET REGRESSION

• Dipilih Best Regression pada masing-masing kelompok K

• Kriteria model terbaik :

1. Nilai R²

2. Nilai Ra²

3. Statistik, Cp

NILAI Cp MALLOWS

• Besaran Cp Mallows adalah sebagai berikut :

• Dimana SSRes(p) adalah Sum of Square Residual dari model yang memuat p parameter

• P adalah jumlah parameter termasuk B0

• S2 adalah Mean Square Residual

• Kriteria E(Cp) = p

)2(/Re 2 pnssSSC PP

CONTOH

ALL POSSIBLE REGRESSION, R²

CONTOH

ALL POSSIBLE REGRESSION, s²

KONSEP, s²

KONSEP, s²

CONTOH

ALL POSSIBLE REGRESSION, Cp

CONTOH

ALL POSSIBLE

REGRESSION,

Cp

PEMILIHAN MODEL TERBAIK (1)

ALL POSSIBLE SELECTION• Seluruh model yang mungkin dibuat dibandingkan

• Kriteria model terbaik :

1. Nilai R²

2. Nilai s²

3. Statistik, Cp

BEST SUBSET REGRESSION

• Dipilih Best Regression pada masing-masing kelompok K

• Kriteria model terbaik :

1. Nilai R²

2. Nilai Ra²

3. Statistik, Cp

Contoh : BEST SUBSET SELECTION

• Kriteria : 2 terbaik

Mallows X X X X

Vars R-Sq R-Sq(adj) C-p S 1 2 3 4

1 55.7 51.7 -0.8 21.520 X

1 53.7 49.4 -0.4 22.013 X

2 55.9 47.0 1.2 22.529 X X

2 55.8 46.9 1.2 22.553 X X

3 56.6 42.1 3.1 23.551 X X X

3 55.9 41.2 3.2 23.736 X X X

4 56.9 35.3 5.0 24.894 X X X X

• KRITERIA : 3 terbaik

Mallows X X X X

Vars R-Sq R-Sq(adj) C-p S 1 2 3 4

1 55.7 51.7 -0.8 21.520 X

1 53.7 49.4 -0.4 22.013 X

1 2.9 0.0 9.0 31.859 X

2 55.9 47.0 1.2 22.529 X X

2 55.8 46.9 1.2 22.553 X X

2 55.7 46.9 1.2 22.566 X X

3 56.6 42.1 3.1 23.551 X X X

3 55.9 41.2 3.2 23.736 X X X

3 55.8 41.0 3.2 23.772 X X X

4 56.9 35.3 5.0 24.894 X X X X

Contoh : BEST SUBSET SELECTION

BACWARD ELIMINATIONThe ‘worst’ predictor variables are eliminated, one by one

Mengeluarkan variabel satu per satu; dari yang

paling tidak berpengaruh

FORWARD SELECTIONThe ‘best’ predictor variables are entered, one by one.

Variabel yang mempunyai pengaruh paling

kuat, satu persatu dimasukkan dalam model.

STEPWISE METHODMenggabungkan metode forward dan backward

dengan korelasi partial

PEMILIHAN MODEL TERBAIK (2)

PROSEDUR : BACKWARD

Definisi :Metode eliminasi langkah mundur dimana pada metode inisemua variabel X dimasukkan dalam persamaan terlebihdahulu. Lalu, dikeluarkan satu per satu, dimulai dari yang paling tidak signifikan. Berhenti, saat TIDAK ADA lagi yang dikeluarkan dari model

Langkah-langkah manual :1. Menghitung regresi var Y dengan semua var X pilih

yang signifikan.2. Bandingkan Fhit. dengan Ftabel, dimana:

a. Fhit < Ftabel, maka buang variabel yang mengakibatkan Fhit dan regresikan kembali.

b. Fhit > Ftabel, maka ambil persamaan regresitersebut.

PROSEDUR : FORWARD

• Kebalikan dari backward

• Berpikir F-Sequential

• Berpikir Mundur

• Jadi konsep F-Partial

PROSEDUR : FORWARD

Contoh : Metode Backward

CONTOHBACKWARD

(1)

Stepwise Regression: Y versus X1, X2, X3, X4

Backward elimination. Alpha-to-Remove: 0.05

Response is Y on 4 predictors, with N = 13

Step 1 2 3 4

Constant 223.8 162.0 146.0 143.8

X1 -1.4 -0.9

T-Value -0.43 -0.39

P-Value 0.681 0.706

X2 -0.7

T-Value -0.23

P-Value 0.821

X3 -1.3 -0.8 -0.2

T-Value -0.46 -0.43 -0.19

P-Value 0.661 0.680 0.853

X4 -2.09 -1.45 -1.38 -1.38

T-Value -0.75 -3.27 -3.55 -3.72

P-Value 0.476 0.010 0.005 0.003

S 24.9 23.6 22.5 21.5

R-Sq 56.90 56.60 55.87 55.71

R-Sq(adj) 35.35 42.14 47.05 51.69

Mallows C-p 5.0 3.1 1.2 -0.8

Stepwise Regression: Y versus X1, X2, X3, X4

Backward elimination. Alpha-to-Remove: 0.8

Response is Y on 4 predictors, with N = 13

Step 1 2

Constant 223.8 162.0

X1 -1.4 -0.9

T-Value -0.43 -0.39

P-Value 0.681 0.706

X2 -0.7

T-Value -0.23

P-Value 0.821

X3 -1.3 -0.8

T-Value -0.46 -0.43

P-Value 0.661 0.680

X4 -2.09 -1.45

T-Value -0.75 -3.27

P-Value 0.476 0.010

S 24.9 23.6

R-Sq 56.90 56.60

R-Sq(adj) 35.35 42.14

Mallows C-p 5.0 3.1

CONTOHBACKWARD

(2)

CONTOH : FORWARD

Stepwise Regression: Y versus X1, X2, X3, X4

Forward selection. Alpha-to-Enter: 0.05

Response is Y on 4 predictors, with N = 13

Step 1

Constant 143.8

X4 -1.38

T-Value -3.72

P-Value 0.003

S 21.5

R-Sq 55.71

R-Sq(adj) 51.69

Mallows C-p -0.8

PROSEDUR : STEPWISEDefinisi :

Metode eliminasi langkah maju dimana pada metode ini variabelyang dimasukkan terlebih dahulu adalah variabel Y yang memilikikorelasi terbesar dengan variabel X.

Langkah-langkah manual :1. Menghitung korelasi var Y dengan semua var X pilih yang

paling besar.2. Regresikan var Y dengan var Xi lakukan uji F.3. Menghitung koef.korelasi parsial antara var Y dgn var Xi dengan

var X yang tidak masuk model pilih yang paling besar.4. Regresikan var Y dengan var X yang masuk model

lakukan uji F.5. Lakukan sampai semua var X yang paling akhir dianalisis

ANALISIS RESIDUAL

CONTOH : STEPWISE

CONTOH

• DATA PADA APENDIKS B

• X1 = Kandungan 3CaO-Al2O3

• X2 = Kandungan 3CaO – SiO2

• X3 = 4 CaO –Al2O3.Fe2O3

• X4 = 2CaO.SiO2

• Y = Kandungan panas yang terjadi (calori)

METODE PEMILIHAN MODEL TERBAIK

• All-Possible

• Best-Subsets Regression

• Backward Elimination

• Forward Selection

• Stepwise Regression

• Principle Component Regression

• Ridge Regression

• Latent Root Regression

• Stagewise Regression

SIFATNYA ITERATIF :SATU VARIABEL INDEPENDEN

Pada suatu waktu ditambahkanAtau dihilangkanBerdasarkan F-tes

(Partial F-test atau Sequential F-test)

Setiap subset darivariabel independen

di EVALUASI

BERUSAHA MEMPERTAHANKAN :

SELURUH VAR. INDEPENDEN Prinsip dasar : MengatasaiMULTIKOLINIERITASDasar : CENTERING dan

SCALLING

KONSEP : Berusaha memasukkan semua variabel

• PRINCIPAL COMPONENT REGRESSION

• RIDGE REGRESSION/GULUD REGRESSION

• LATEN ROOT REGRESSION

• STAGEWISE REGRESSION

TIDAK SEMUA DIJELASKAN,HANYA PRINSIP-PRINSIP NYA SAJA

DIBAHAS LEBIH LANJUT DI MK LAIN

PRINCIPAL COMPONENT

REGRESSION

: Principle Component Regression

►Terdapat p variabel bebas yang mempunyai mulikolinieritas

►Metode regresi yang memasukkan seluruh variabel independen dan mengakomodasi adanya kolinieritas/multikolinieritas antar variabel independen dengan cara mengelompokkan variabel yang saling berkorelasi cukup tinggi dalam sebuah variabel baru.

► Sehingga mereduksi banyaknya dimensi regresi dan antar variabel baru tersebut tidak saling berkorelasi cukup tinggi.

Definisi

1. Melakukan standarisasi/pembakuan data variabel

independent xj :

2. Membuat matrik korelasi antar variabel independen

3. Membangkitkan variabel baru yang saling independent

PC1 = a11z1 + a12z2 + … + a1kzk

PC2 = a21z1 + a22z2 + … + a2kzk

......

PCk = ak1z1 + ak2z2 + … + akkzk

atau

PCj =ajTz, nilai a adalah eigen-vector dari eigenvalue ke-j dari matriks

korelasi antar variabel independent

Banyaknya PC ditentukan berdasarkan kriteria :

Eigen value ≥ 1, atau

Proporsi kumulatif eigen value : dengan k = banyaknya

variabel independen

4. Melakukan regresi y dengan skor PC

5. Menyatakan model regresi Y dengan PC ke dalam

model Y dengan z, kemudian x.

j

jj

js

xxz

%75

k

j

j

Langkah-langkah PCR

x1 x2 x3 x4 y

7 26 6 60 78.5

1 29 15 52 74.3

11 56 8 20 104.3

11 31 8 47 87.6

7 52 6 33 95.9

11 55 9 22 109.2

3 71 17 6 102.7

1 31 22 44 72.5

2 54 18 22 93.1

21 47 4 26 115.9

1 40 23 34 83.8

11 66 9 12 113.3

10 68 8 12 109.4

Contoh Soal : DATA APPENDIKS B

Pilih Model RegresiTerbaik!

Deteksi Multikolinieritas :

The regression equation is

y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4

Predictor Coef SE Coef T P VIF

Constant 62.41 70.07 0.89 0.399

x1 1.5511 0.7448 2.08 0.071 38.5

x2 0.5102 0.7238 0.70 0.501 254.4

x3 0.1019 0.7547 0.14 0.896 46.9

x4 -0.1441 0.7091 -0.20 0.844 282.5

S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%

Analysis of Variance

Source DF SS MS F P

Regression 4 2667.90 666.97 111.48 0.000

Residual Error 8 47.86 5.98

Total 12 2715.76

Source DF Seq SS

x1 1 1450.08

x2 1 1207.78

x3 1 9.79

x4 1 0.25

MenunjukkanAdanya

MULTIKO-LINIERITAS

ANALISIS RESIDUAL

Deteksi Multikolinieritas :

The regression equation is

y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4

Predictor Coef SE Coef T P VIF

Constant 62.41 70.07 0.89 0.399

x1 1.5511 0.7448 2.08 0.071 38.5

x2 0.5102 0.7238 0.70 0.501 254.4

x3 0.1019 0.7547 0.14 0.896 46.9

x4 -0.1441 0.7091 -0.20 0.844 282.5

S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%

Analysis of Variance

Source DF SS MS F P

Regression 4 2667.90 666.97 111.48 0.000

Residual Error 8 47.86 5.98

Total 12 2715.76

Source DF Seq SS

x1 1 1450.08

x2 1 1207.78

x3 1 9.79

x4 1 0.25

MenunjukkanAdanya

MULTIKO-LINIERITAS

KonsepVariance Inflationary Factor

VIFj is used to measure collinearity:

If VIFj > 5 or 10 , xj is highly correlated with the other explanatory variables

R2j is the coefficient of determination when the jth

independent variable is regressed against the remaining k – 1 independent variables

21

1

j

jR

VIF

Standarisasi x z

y z1 z2 z3 z4

78.5 -0.07846 -1.42369 -0.90072 1.79231

74.3 -1.09845 -1.2309 0.5044 1.31436

104.3 0.60153 0.50422 -0.58847 -0.59744

87.6 0.60153 -1.10237 -0.58847 1.01564

95.9 -0.07846 0.24717 -0.90072 0.17923

109.2 0.60153 0.43996 -0.43235 -0.47795

102.7 -0.75846 1.46818 0.81665 -1.43385

72.5 -1.09845 -1.10237 1.59728 0.83641

93.1 -0.92845 0.3757 0.97278 -0.47795

115.9 2.30152 -0.07415 -1.21297 -0.23897

83.8 -1.09845 -0.524 1.7534 0.23897

113.3 0.60153 1.14686 -0.43235 -1.07539

109.4 0.43154 1.27539 -0.58847 -1.07539

j

jj

js

xxz

Matriks korelasi

z1 z2 z3 z4

z1 1 0.22858 -0.82413 -0.24545

z2 0.22858 1 -0.13924 -0.97295

z3 -0.82413 -0.13924 1 0.02954

z4 -0.24545 -0.97295 0.02954 1

Eigen value & eigen vektor

Eigenvalue 2.2357 1.5761 0.1866 0.0016Proportion 0.559 0.394 0.047 0.000Cumulative 0.559 0.953 1.000 1.000

Variable PC1 PC2 PC3 PC4z1 0.476 0.509 0.676 0.241z2 0.564 -0.414 -0.314 0.642z3 -0.394 -0.605 0.638 0.268z4 -0.548 0.451 -0.195 0.677

Komponen utama

PC1 = 0.476 z1 + 0.564z2 -0.394z3 – 0.548z4PC2 = 0.509z1 – 0.414z2 – 0.605z3 + 0.451 z4

Nilai darivariabel zidimasukkanPadaPersamaantersebut

Case PC1 PC2

1 -1,46724 1,90303

2 -2,13583 0,23835

3 1,12987 0,18388

4 -0,65989 1,57677

5 0,35876 0,48354

6 0,96664 0,16994

7 0,9307 -2,13482

8 -2,23214 -0,69167

9 -0,35152 -1,43224

10 1,66254 1,8281

11 -1,64018 -1,29511

12 1,69259 -0,39225

13 1,74568 -0,43752

Pemilihan Model

Analisis Regresi : Y dengan PC1

The regression equation is

y = 95,4 + 9,88 PC1

Predictor Coef SE Coef T P

Constant 95,4231 0,8163 116,90 0,000

PC1 9,8831 0,5682 17,39 0,000

S = 2,943 R-Sq = 96,5% R-Sq(adj) = 96,2%

Analysis of Variance

Source DF SS MS F P

Regression 1 2620,5 2620,5 302,53 0,000

Residual Error 11 95,3 8,7

Total 12 2715,8

Pemilihan Model

Analisis Regresi : Y dengan PC1, PC2

The regression equation is

y = 95.4 + 9.88 PC1 - 0.125 PC2

Predictor Coef SE Coef T P VIF

Constant 95.4231 0.8548 111.63 0.000

PC1 9.8831 0.5950 16.61 0.000 1.0

PC2 -0.1250 0.7087 -0.18 0.864 1.0

S = 3.082 R-Sq = 96.5% R-Sq(adj) = 95.8%

Analysis of Variance

Source DF SS MS F P

Regression 2 2620.8 1310.4 137.96 0.000

Residual Error 10 95.0 9.5

Total 12 2715.8

Model Regresi TerakhirDiperoleh estimasi model regresi komponen utama

(dianggap asumsi metode OLS terpenuhi)

Model regresi dalam z :

regresi dalam x :

Descriptive Statistics: x1; x2; x3; x4

Variable N Mean Median TrMean StDev SE Mean

x1 13 7,46 7,00 6,82 5,88 1,63

x2 13 48,15 52,00 48,09 15,56 4,32

x3 13 11,77 9,00 11,45 6,41 1,78

x4 13 30,00 26,00 29,45 16,74 4,64

RIDGE REGRESSION

GULUD REGRESSION

PENGGUNAAN METODE RIDGE

• KASUS MULTIKOLINIERITAS Harus diatasi

• Cara menanggulangi : PCR dan RIDGE REGRESSION

• RIDGE REGRESSION : adalah salah satu metode yang digunakan untuk mengatasi multikolinieritas dengan cara memodifikasi metode kuadrat terkecil; sehingga dihasilkan penduga koefisien regresi lain yang bias namun mempunyai varian yang lebih kecil daripada regresi linier berganda.

E(b) E(bR)

Estimasi pada METODE RIDGE

E(b) E(bR)

ESTIMASI PARAMETER• Estimasi ridge regression diperoleh dengan cara

meminimumkan jumlah kuadrat kesalahan dari persamaan :

• Untuk Z = 1,2,…,k nilai dugaan dari ridge regression, dapat ditulis menjadi persamaan

dan dapat dinyatakan dalam bentuk :

dengan syarat , φ adalah nilai positif yang berhingga.

Notasi dalam bentuk matriks adalah :

dimana :

PENENTUAN NILAI θ

• Salah satu alternatif pilihan adalah :

Dimana :

k adalah banyaknya parameter di luar βo,

s2 adalah MSRes