PCR Dan Gulud

download PCR Dan Gulud

of 13

description

analisis regresi PCR dan GULUD

Transcript of PCR Dan Gulud

PCR (Principle Component Regression)

PCR merupakan salah satu metode dalam pemilihan model terbaik dengan berusaha mempertahankan seluruh variabel independen karena terjadi multikolinieritas. Dasar dari PCR adalah centering dan scalling.Dari data yang tersedia, maka dilakukan metode PCR dengan langkah-langkah sebagai berikut:1. Memeriksa apakah antar variabel prediktor terjadi kolinier/multikolinier apa tidak. Diperoleh output minitab sebagai berikut:

Regression Analysis: Y versus X1; X2; X3; X4; X5; X6The regression equation isY = 9,32 + 0,00019 X1 - 0,0407 X2 + 0,00049 X3 - 0,0599 X4 + 0,100 X5+ 0,0082 X6Predictor Coef SE Coef T P VIFConstant 9,320 5,753 1,62 0,115X1 0,000193 0,002112 0,09 0,928 2,986X2 -0,040681 0,009808 -4,15 0,000 4,354X3 0,000492 0,001451 0,34 0,737 5,582X4 -0,05990 0,05940 -1,01 0,321 1,830X5 0,100428 0,009408 10,67 0,000 8,600X6 0,00822 0,01088 0,76 0,456 3,681S = 0,268546 R-Sq = 97,9% R-Sq(adj) = 97,4%Analysis of VarianceSource DF SS MS F PRegression 6 102,117 17,019 236,00 0,000Residual Error 31 2,236 0,072Total 37 104,353

Berdasarkan output diatas diketahui bahwa P-value sebesar 0,000 < 0,05 (pada uji overall) dan R-Sq 97,9%, menunjukkan bahwa model regresi sudah baik atau sudah sesuai, namun pada uji individu terlihat bahwa P-value untuk dan lebih besar dari 0,05 sehingga parameter dan tidak signifikan. Ini mengindikasikan adanya multikolinieritas. Saat diperiksa VIF, ternyata diketahui bahwa VIF untuk sebesar 8,600 > 5 sehingga bisa disimpulkan data tersebut multikolinier.2. Diketahui bahwa data multikolinier, maka untuk memilih model terbaik dilakukan metode Principle Component Regression (PCR). Langkah berikutnya adalah melakukan standarisasi data variabel independen dengan rumus:

Sehingga diperoleh nilai sebagai berikut:

-0,9509-0,502160,1729370,228232-0,363370,504807

-1,162690,507146-0,886661,08358-0,2282-0,14763

-0,65246-0,5703-0,516450,069098-0,532690,438022

-1,06219-0,69593-0,121340,1486650,090091-0,199

0,875716-0,360560,2000561,143255-0,38226-0,37367

-1,09901-0,69486-0,430081,1929850,182382-0,05131

-0,19844-0,01454-0,03637-0,50776-0,37064-0,4777

-0,646930,411326-0,86274-2,77543-1,018120,091255

-0,259620,41239-0,59544-1,751-0,69838-1,38829

1,084180,146224-0,136780,397313-0,367-0,52008

-0,638340,847839-0,94382-0,38841-0,964350,622965

-0,183770,792476-0,85592-1,18409-0,62207-0,48541

-0,515980,818028-0,90057-0,37847-1,346591,032664

-0,21782-0,10717-0,51172-0,54755-0,800110,064284

1,122108-1,150541,1616051,0239051,336378-0,81291

-0,10044-0,663990,5613670,8349320,372777-0,58045

-1,245190,496499-0,89389-0,756410,1562210,235099

-0,34212-0,33607-0,22092-0,85587-0,241280,566454

-0,613150,080214-0,42160,685744-0,147540,205559

-0,33797-0,29455-0,400741,0537420,05303-0,3223

-0,989940,429425-0,634241,073634-0,393890,507376

-0,781750,155806-0,566370,029314-0,480370,89781

-1,184831,346103-0,9587-0,12982-0,649691,172655

-0,823550,06318-0,270570,238178-0,058150,823319

0,171148-0,357360,4110290,91450,4883220,590857

-0,643881,544131-0,91684-1,26365-1,567511,564374

-1,220273,654301-1,00988-1,63165-2,145962,573853

0,6481510,71582-0,9797-0,62712-0,834271,67611

-0,863141,88376-0,91461-1,57198-0,994141,746748

1,519656-0,991910,6252010,7155821,315304-0,73328

1,519656-0,990841,1088961,0636881,353819-0,94519

1,459581-0,948252,7118490,208341,462824-1,56552

0,963476-0,40740,9395060,6857440,801529-0,40963

1,444908-1,004680,467632-1,293490,767374-0,86942

1,519656-0,965291,6711670,6360141,643045-1,14555

1,519656-1,151611,6955051,0239051,913377-1,58094

1,519656-1,134572,7286760,5962312,027468-1,46406

1,366838-0,962090,5304930,6161231,242634-1,24187

3. Kemudian membuat matrik korelasi antar variabel independen yang diperoleh dari output Minitab sebagai berikut.

1-0,6190,7930,3230,750-0,684

-0,6191-0,713-0,586-0,8340,798

0,793-0,71310,4740,883-0,727

0,323-0,5860,47410,599-0,389

0,750-0,8340,8830,5991-0,795

-0,6840,798-0,727-0,389-0,7951

4. Menentukan eigen value, proportion, cumulative, dan eigen vector dari output Minitab sebagai berikut.

Principal Component Analysis: Z1; Z2; Z3; Z4; Z5; Z6 Eigenanalysis of the Correlation MatrixEigenvalue 4,3809 0,7632 0,4033 0,2056 0,1640 0,0830Proportion 0,730 0,127 0,067 0,034 0,027 0,014Cumulative 0,730 0,857 0,925 0,959 0,986 1,000Variable PC1 PC2 PC3 PC4 PC5 PC6Z1 0,395 -0,422 0,484 -0,640 -0,147 0,035Z2 -0,427 -0,146 0,493 0,056 0,706 0,229Z3 0,434 -0,176 0,359 0,604 0,099 -0,527Z4 0,302 0,852 0,257 -0,238 0,228 -0,092Z5 0,458 0,023 0,052 0,361 -0,045 0,809Z6 -0,416 0,208 0,571 0,190 -0,645 0,072

Dari output minitab tersebut diketahui bahwa eigen value dari , sehingga yang digunakan sebagai variabel baru adalah, didapatkan 5. Langkah selanjutnya adalah mensubtitusikan variabel ke persamaan sehingga diperoleh hasil sebagai berikut:CasePC1

1-0,39363

2-0,77648

3-0,64367

4-0,00612

50,912325

60,141096

7-0,21233

8-2,14804

9-0,80819

100,474708

11-1,84192

12-1,22302

13-2,10458

14-0,82092

152,698101

161,151831

17-1,34649

18-0,69214

19-0,40541

200,294948

21-0,91688

22-1,20577

23-2,28346

24-0,76691

250,652619

26-3,06191

27-5,02701

28-1,74357

29-3,19895

302,418705

312,839098

323,542531

331,706881

341,525192

353,158868

363,671064

373,986663

382,452764

6. Kemudian melakukan regresi antara variabel dengan variabel . Dari output minitab didapatkan hasil sebagai berikut.

Regression Analysis: Y versus PC1 The regression equation isY = 7,22 + 0,769 PC1Predictor Coef SE Coef T PConstant 7,22289 0,07905 91,37 0,000PC1 0,76851 0,03826 20,09 0,000S = 0,487303 R-Sq = 91,8% R-Sq(adj) = 91,6%Analysis of VarianceSource DF SS MS F PRegression 1 95,804 95,804 403,44 0,000Residual Error 36 8,549 0,237Total 37 104,353

Dari output di atas diketahui informasi bahwa:a. P-value pada uji overall sebesar 0,000 < 0,05. Dengan hipotesis sebagai berikut,

maka disimpulkan tolak Jadi minimal ada satu yang signifikan. b. Kemudian dilakukan uji individu untuk dengan hipotesis:

Dari output minitab di atas diketahui P-value adalah 0,000 < 0,05. Sehingga tolak Jadi signifikan terhadap model regresi.c. Lalu dilakukan uji individu untuk dengan hipotesis:

Dari output minitab di atas diketahui P-value adalah 0,000 < 0,05. Sehingga tolak Jadi signifikan terhadap model regresi.Kedua parameter ternyata signifikan terhadap model regresi, selain itu dari output tersebut diketahui R-Sq = 91,8% > 75%, sehingga dapat disimpulkan bahwa model regresi merupakan model regresi yang sudah sesuai dan merupakan yang terbaik.7. Langkah selanjutnya adalah menentukan model regresi tersebut dalam variabel dengan mensubtitusikan nilai

8. Langkah terakhir adalah menentukan model regresi tersebut dalam variabel dengan mensubtitusikan nilai

9. Jadi model regresi terbaik dengan metode PCR (Principle Component Regression) adalah

Regresi Gulud (Ridge Regression)

Regresi gulud adalah salah satu metode yang digunakan untuk mengatasi multikolinieritas dengan cara memodifikasi metode kuadrat terkecil, sehingga dihasilkan penduga koefisien regresi lain yang bias namun mempunyai varian yang lebih kecil daripada regresi linier berganda.Langkah-langkah regresi gulud adalah sebagai berikut:1. Memeriksa apakah antar variabel prediktor terjadi kolinier/multikolinier apa tidak.Pada langkah 1 pemilihan model terbaik dengan metode PCR di atas telah diketahui bahwa data multikolinier karena saat diperiksa VIF, ternyata diketahui bahwa VIF untuk sebesar 8,600 > 5. Bisa juga di cek matriks korelasinya sebagai berikut:

1-0,6190,7930,3230,750-0,684

-0,6191-0,713-0,586-0,8340,798

0,793-0,71310,4740,883-0,727

0,323-0,5860,47410,599-0,389

0,750-0,8340,8830,5991-0,795

-0,6840,798-0,727-0,389-0,7951

Dari data di atas diketahui bahwa yang berwarna kuning menunjukkan korelasi antar variabel independen cukup tinggi, lebih besar atau sama dengan 75%. Ini berarti terjadi multikolinieritas.2. Karena terjadi multikolinieritas maka bisa dilakukan metode regresi gulud untuk memilih model regresi terbaik. Langkah pertama dalam metode regresi gulud adalah melakukan centering dan scaling untuk semua variabel dengan rumus:

sehingga diperoleh output sebagai berikut:

-0,0414-0,15633-0,082550,0284310,037521-0,059740,08299

-0,05217-0,191140,083374-0,145770,178139-0,03752-0,02427

-0,0365-0,10726-0,09376-0,08490,01136-0,087570,07201

0,044747-0,17462-0,11441-0,019950,024440,014811-0,03272

-0,042380,143967-0,059280,0328890,18795-0,06284-0,06143

0,039852-0,18068-0,11423-0,070710,1961260,029983-0,00843

-0,04042-0,03262-0,00239-0,00598-0,08348-0,06093-0,07853

-0,14614-0,106350,067622-0,14183-0,45628-0,167380,015002

-0,10894-0,042680,067797-0,09789-0,28786-0,11481-0,22823

-0,066850,1782380,024039-0,022490,065318-0,06033-0,0855

-0,18041-0,104940,139384-0,15516-0,06385-0,158540,102415

-0,1295-0,030210,130282-0,14071-0,19466-0,10227-0,0798

-0,19313-0,084830,134483-0,14805-0,06222-0,221380,169769

-0,08349-0,03581-0,01762-0,08413-0,09002-0,131540,010568

0,2336790,184473-0,189150,1909670,1683290,219699-0,13364

0,062368-0,01651-0,109160,0922880,1372620,061284-0,09542

0,042789-0,204710,081624-0,14695-0,124350,0256830,03865

-0,01986-0,05624-0,05525-0,03632-0,1407-0,039670,093125

-0,03944-0,10080,013187-0,069310,112736-0,024260,033794

-0,00028-0,05556-0,04842-0,065880,1732340,008718-0,05299

-0,08741-0,162740,070597-0,104270,176504-0,064760,083412

-0,07468-0,128520,025614-0,093110,004819-0,078970,147599

-0,09622-0,194790,221298-0,15761-0,02134-0,106810,192783

-0,02965-0,135390,010387-0,044480,039156-0,009560,135353

0,0750940,028137-0,058750,0675730,1503430,080280,097136

-0,26851-0,105850,253854-0,15073-0,20774-0,25770,257182

-0,38304-0,200610,600763-0,16602-0,26824-0,352790,423139

-0,122650,1065550,11768-0,16106-0,1031-0,137150,275551

-0,23816-0,14190,309688-0,15036-0,25843-0,163440,287164

0,2503210,24983-0,163070,1027820,1176410,216235-0,12055

0,2356370,24983-0,162890,1823010,1748690,222567-0,15539

0,2640260,239954-0,155890,4458250,0342510,240487-0,25737

0,1220820,158394-0,066980,1544540,1127360,131771-0,06734

0,1661330,237541-0,165170,076878-0,212650,126155-0,14293

0,2561940,24983-0,158690,2747380,104560,270115-0,18833

0,3031830,24983-0,189320,2787390,1683290,314557-0,2599

0,2698990,24983-0,186520,4485920,098020,333314-0,24069

0,115230,224707-0,158170,0872120,101290,204288-0,20416

3. Kemudian diregresikan variabel terhadap variabel , , ..., . Dari output minitab diperoleh hasil:

Regression Analysis: Y versus Z1; Z2; Z3; Z4; Z5; Z6 The regression equation isY = 0,00000 + 0,0042 Z1 - 0,228 Z2 + 0,0211 Z3 - 0,0359 Z4 + 0,823 Z5 + 0,0381 Z6Predictor Coef SE Coef T PConstant 0,000000 0,004265 0,00 1,000Z1 0,00415 0,04543 0,09 0,928Z2 -0,22753 0,05485 -4,15 0,000Z3 0,02105 0,06211 0,34 0,737Z4 -0,03586 0,03556 -1,01 0,321Z5 0,82291 0,07709 10,67 0,000Z6 0,03810 0,05043 0,76 0,456S = 0,0262885 R-Sq = 97,9% R-Sq(adj) = 97,4%Analysis of VarianceSource DF SS MS F PRegression 6 0,97858 0,16310 236,00 0,000Residual Error 31 0,02142 0,00069Total 37 1,00000

diketahui bahwa persamaan regresinya adalah .Ini adalah kondisi saat sehingga bisa diketahui juga vektor koefisien . 4. Langkah selanjutnya adalah menentukan dengan rumus:

dimana:k adalah banyaknya variabel parameter selain adalah MS residual saat Sehingga perhitungannya adalah sebagai berikut:

5. Kemudian menentukan dengan

6. Kemudian disubtitusikan ke persamaan 4.1 sehingga

7. Langkah terakhir adalah menentukan model regresi tersebut dalam variabel dengan mensubtitusikan nilai

8. Jadi model regresi terbaik dengan metode Regresi Gulud (Ridge Regression) adalah