135008912-AnregLanPCA

16
Tugas Analisis Regresi Lanjutan PRINCIPAL COMPONENT ANALYSIS (PCA) SEBAGAI SALAH SATU METODE UNTUK MENGATASI PELANGGARAN ASUMSI MULTIKOLINIERITAS Disusun Oleh : Anggun Yuliarum Q. (105090500111009) Carlin Soniawinda (105090500111013) Reta Yulia Pratiwi (105090500111015) PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS BRAWIJAYA MALANG 2013

description

dfasfsagffasffas

Transcript of 135008912-AnregLanPCA

Page 1: 135008912-AnregLanPCA

Tugas Analisis Regresi Lanjutan

PRINCIPAL COMPONENT ANALYSIS (PCA)

SEBAGAI SALAH SATU METODE UNTUK MENGATASI

PELANGGARAN ASUMSI MULTIKOLINIERITAS

Disusun Oleh :

Anggun Yuliarum Q. (105090500111009)

Carlin Soniawinda (105090500111013)

Reta Yulia Pratiwi (105090500111015)

PROGRAM STUDI STATISTIKA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS BRAWIJAYA MALANG

2013

Page 2: 135008912-AnregLanPCA

BAB I

PENDAHULUAN

1.1 Latar Belakang

Analisis regresi merupakan analisis yang ditujukan untuk mengetahui hubungan

fungsional satu atau beberapa peubah prediktor terhadap peubah respon. Sebelum suatu data

di analisis dengan analisis regresi, data tersebut harus memenuhi beberapa asumsi klasik

dalam regresi. Salah satu asumsi klasik tersebut adalah asumsi non-multikolinearitas.

Asumsi non-multikolinearitas berlaku pada data yang mana memiliki lebih dari satu

peubah prediktor. Asumsi ini mengharuskan bahwa tidak boleh ada hubungan linier antara

sesama peubah prediktor. Apabila terdapat hubungan linier antar peubah prediktor yang

bersifat sempurna maka akan terjadi multikolinearitas sempurna. Sedangkan apabila terdapat

hubungan linier antar peubah prediktor namun tidak sempurna, maka akan terjadi

multikolinearitas kurang sempurna.

Masalah multikolinearitas patut diwaspadai dalam analisis regresi karena akan

mengakibatkan hasil penaksiran parameter yang tidak dapat dipercaya. Bahkan untuk kasus

di mana multikolinearitas bersifat sempurna, penaksiran parameter sama sekali tidak dapat

dilakukan. Sedangkan untuk kasus di mana multikolinearitas bersifat kurang sempurna,

penaksiran masih dapat digunakan namun memiliki tingkat presisi yang rendah.

Adanya multikolinearitas dapat dideteksi dengan menggunakan koefisien determinasi,

korelasi parsial, nilai VIF dan nilai akar ciri. Sedangkan untuk penanganan multikolinearitas

dapat dilakukan dengan memanfaatkan informasi apriori dari teori atau penelitian

sebelumnya, menggabungkan data cross-sectional dengan data deret waktu, menghilangkan

peubah penyebab multikolinearitas, menambahkan data baru dan dengan menggunakan

analisis komponen utama dan regresi ridge.

1.2 Tujuan

Adapun tujuan dari pembuatan makalah ini adalah :

Untuk mengetahui definisi dan sifat multikolinieritas

Untuk mendeteksi terjadinya multikolinieritas

Untuk mengetahui bagaimana cara menangani kasus multikolinieritas

Page 3: 135008912-AnregLanPCA

1.3 Batasan Masalah

Dalam pembuatan makalah ini, masalah yang dibahas dibatasi pada pendeteksian dan

penanganan kasus multikolinieritas menggunakan regresi komponen utama (Analisis

Komponen Utama). Software yang digunakan untuk mengatasi kasus multikolinieritas dalam

makalah ini adalah MINITAB 14.

Page 4: 135008912-AnregLanPCA

BAB II

TINJAUAN PUSTAKA

2.1 Definisi dan Sifat Multikolinearitas

Multikolinearitas merupakan istilah yang mula-mula ditemukan oleh Ragnar Frisch.

Arti dari multikolinearitas saat itu adalah adanya hubungan linear yang sempurna di antara

peubah prediktor dalam model regresi. Hubungan linier antar peubah prediktor tersebut

dapat dijelaskan sebagai berikut: andaikan terdapat k peubah prediktor yaitu X1, X2,…,Xk

(di mana X1=1 untuk semua pengamatan atau merupakan unsur intersep), hubungan linier

terjadi apabila memenuhi kondisi

1 1 2 2 ... 0k kX X X (1)

Di mana 1 2 3, ,...., adalah konstanta yang sedemikian rupa sehingga ada salah satu yang

bernilai tidak nol (Gujarati, 1998).

Saat ini istilah multikolinearitas digunakan dalam pengertian yang lebih luas, yaitu

tidak hanya pada hubungan linier yang bersifat sempurna tetapi juga pada kondisi di mana

peubah X saling berkorelasi tetapi tidak secara sempurna, sehingga persamaan (1) menjadi

1 1 2 2 ... 0k k iX X X v (2)

Di mana iv adalah unsur kesalahan stokastik.

Berikut ini adalah contoh yang menunjukkan perbedaan antara multikolinearitas

sempurna dan multikolinearitas kurang sempurna. Andaikan dimiliki data hipotetik seperti

pada tabel berikut:

X2 X3 X3*

10 50 52

15 75 75

18 90 97

24 120 129

30 150 152

Dari tabel tersebut, terlihat jelas bahwa X3i=5X2i. Hal ini menunjukkan bahwa terjadi

multikolinearitas (korelasi sempurna) antara X3 dan X2. Sedangkan peubah X3* berasal dari

Page 5: 135008912-AnregLanPCA

peubah X3 yang berturut-turut ditambahkan angka berikut: 2,0,7,9,2 (unsur kesalahan iv ).

Akibatnya tidak terdapat kolinearitas sempurna antara X2 dan X3.

Pada regresi nonlinier, adanya hubungan nonlinier dalam model misal

2 3

0 1 2 3i i i i iY X X X u (3)

Pada model tersebut terlihat jelas adanya hubungan antar peubah Xi, namun

hubungan ini tidak menyalahi asumsi non-multikolinearitas karena bentuk hubungan tersebut

bersifat nonlinier.

Dalam melakukan analisis regresi, diperlukan asumsi non-multikolinearitas karena

beberapa hal sebagai berikut:

Jika terdapat multikolinearitas sempurna seperti pada persamaan (1) maka koefisien

regresi menjadi tak tentu dan kesalahannya tak terhingga.

Jika terdapat multikolinearitas kurang sempurna pada persamaan (2) maka koefisien

regresi walaupun masih bisa ditentukan, namun memilihi kesalahan standar yang besar

(bila dibandingkan dengan koefisien regresi itu sendiri), akibatnya koefisien tidak dapat

ditaksir dengan ketepatan yang tinggi.

2.2 Pendeteksian Multikolinearitas

1. Kolinearitas dapat diduga ketika 2R tinggi (0.7-1.0) dan ketika korelasi derajat nol juga

tinggi. Akan tetapi, tidak ada atau sedikit sekali koefisien regresi yang bersifat signifikan

secara parsial (Gujarati, 1998).

2. Korelasi derajat nol yang tinggi tidak selamanya menunjukkan kolinearitas tinggi pada

kasus tertentu. Misalnya, terdapat model regresi dengan empat peubah prediktor X1,

X2,..,X4. X4 merupakan kombinasi linier dari X2 dan X3 sehingga 2

4,23 1R .

1 2 2 3 3 4 4i i i i iY X X X u

4 2 2 3 3i i iX X X

2 2 2 2 22 42 43 42 43 234,23 2

23

2

1

r r r r rR

r

2 2 2 2 2

42 43 42 43 23

2

23

21

1

r r r r r

r

(4)

Persamaan tersebuh dipenuhi oleh 42 0.5r , 43 0.5r 23 0.5r .

Page 6: 135008912-AnregLanPCA

Jadi, dapat disimpulkan bahwa korelasi sederhana atau korelasi derajat nol tidak akan

salah memberikan informais mengenai multikolinearitas kecuali jika terdapat lebih dari dua

peubah prediktor (Gujarati, 1998).

3. Berkaitan dengan poin ke-2, maka selain melihat korelasi derajat nol (korelasi sederhana)

maka disarankan untuk melihat korelasi parsial. Misal dalam regresi tersebut didapatkan

2

1,234R sangat tinggi tetapi 2

12,34r , 2

13,24r dan 2

14,23r relative rendah, maka hal ini menunjukkan

bahwa peubah X2, X3 dan X4 berkorelasi tinggi dan setidaknya terdapat satu peubah yang

„berlebihan‟ (Gujarati, 1998).

4. Karena multikolinearitas timbul karena adanya satu atau lebih peubah prediktor yang

merupakan kombinasi linier dari peubah lainnya, maka salah satu cara untuk mengetahui

peubah mana yang saling berhubungan maka dilakukan regresi dari setiap Xi terhadap

Xi* yang tersisa, lalu dihitung 2

iR

2

1, 2,...,

2

1, 2,...,

/ ( 2)

1 / ( 1)

x x xk

x x xk

R kF

R N k

(5)

mengikuti distribusi F dengan db (k-2, N+k-1)

di mana :

N= jumlah sampel

k= banyaknya peubah prediktor dan unsur intersep

2

1, 2,...,x x xkR =nilai koefisien determinasi peubah Xi terhadap peubah lain yang tersisa

Apabila nilai F lebih besar dari titik kritis pada taraf nyata yang ditentukan, maka Xi

tersebut kolinear dengan X lainnya. sebaliknya, bila nilai F lebih kecil drai titik kritis

maka Xi tersebut tidak kolinear dengan X lainnya (Gujarati, 1998).

5. Mulitikolinearitas dapat diperiksa dengan melihat nilai Variance Inflation Factors (VIF).

Nilai VIF ini diperoleh dari diagonal utama hasil perhitungan matriks (XtX)

-1. Apabila

salah satu dari nilai VIF lebih dari 10, maka dapat diidentifikasikan bahwa peubah Xi

berhubungan erat dengan peubah-peubah X lainnya atau dengan kata lain terdapat

masalah multikolinearitas (Myers,1990 dalam Gusriani, 2004).

Nilai Variance Inflation Factors ( faktor inflasi ragam) dapat juga dihitung berdasarkan

rumus :

2 1(1 )i iVIF R (6)

Page 7: 135008912-AnregLanPCA

Dengan 2

iR adalah koefisien determinan yang diperoleh jika peubah Xi diregresikan

dengan p-1 peubah prediktor lainnya. VIF memperlihatkan kenaikan ragam dugaan

parameter yang dipengaruhi oleh keberadaan multikolinearitas (Sen dan Srivastava 1990,

dalam Gusriani 2004).

6. Akar ciri XtX yaitu 1 2, ,..., k dapat digunakan untuk mengukur keberadaan

multikolinearitas dalam data. Jika ada satu atau lebih ketergantungan linier dalam data,

maka akar cirinya aka nada yang bernilai sangat kecil dan menunjukkan adanya

ketergantungan linier di antara kolom X. Beberapa peneliti menentukan kondisi XtX

dengan menentukan indeks kondisi

maxi

i

(7)

Nilai i ≥30 menunjukkan adanya masalah multikolinearitas pada XtX (Gusriani, 2004).

2.3 Penanganan Multikolinearitas dengan Analisis Komponen Utama (PCA)

Montgomery dan Hines (1990) dalam Soemartini (2008) menjelaskan bahwa dampak

multikolinearitas dapat mengakibatkan koefisien regresi yang dihasilkan oleh analisis

regresi berganda menjadi sangat lemah atau tidak dapat memberikan hasil analisis yang

mewakili sifat atau pengaruh dari peubah bebas yang bersangkutan. Dalam banyak hal

masalah Multikolinearitas dapat menyebabkan uji T menjadi tidak signifikan padahal

jika masing-masing peubah prediktor diregresikan secara terpisah dengan peubah tak bebas

(simple regression) uji T menunjukkan hasil yang signifikan. Hal tersebutlah yang

sering kali membuat pusing para peneliti karena hasil analisis yang dilakukan pada

regresi berganda dan regresi sederhana tidaklah sejalan atau bahkan sangat

bertentangan.

Akan tetapi, pada prakteknya prosedur penanggulangan yang telah disebutkan

sebelumnya sangat tergantung sekali pada kondisi penelitian, misalnya prosedur

penggunaan informasi apriori sangat tergantung dari ada atau tidaknya dasar teori

(literatur) yang sangat kuat untuk mendukung hubungan matematis antara peubah prediktor

yang saling berkolinear, prosedur mengeluarkan peubah bebas yang berkolinear

seringkali membuat banyak peneliti keberatan karena prosedur ini akan mengurangi

obyek penelitian yang diangkat, sedangkan prosedur lainya seperti menghubungkan data

Page 8: 135008912-AnregLanPCA

cross sectional dan time series, prosedur first difference dan penambahan data baru seringkali

hanya memberikan efek penanggulangan yang kecil pada masalah multikolinearitas. Oleh

karena itu, kita dapat mengunakan teknik lain yang dapat digunakan untuk meminimumkan

masalah multikolinearitas tanpa harus mengeluarkan peubah bebas yang terlibat

hubungan kolinear, yaitu dengan metode Principal Component Analysis (PCA) yang ada

dalam analisis faktor (Soemartini, 2008).

Prosedur PCA pada dasarnya adalah bertujuan untuk menyederhanakan peubah yang

diamati dengan cara menyusutkan (mereduksi) dimensinya. Hal ini dilakukan dengan

cara menghilangkan korelasi diantara peubah bebas melalui transformasi peubah

prediktor asal ke peubah baru yang tidak berkorelasi sama sekali atau yang biasa disebut

dengan principal component. Setelah beberapa komponen hasil PCA yang bebas

multikolinearitas diperoleh, maka komponen-komponen tersebut menjadi peubah bebas

baru yang akan diregresikan atau dianalisa pengaruhnya terhadap peubah respon (Y)

dengan menggunakan analisis regresi (Soemartini, 2008).

Tahap pertama pada prosedur regresi komponen utama yaitu menghitung komponen

utama yang merupakan kombinasi linear dari beberapa peubah X, dan tahap kedua adalah

peubah tak-bebas diregresikan pada komponen utama dalam sebuah model regresi linear.

Bentuk persamaan regresi dalam bentuk peubah asli X dapat ditulis sebagai :

0 1 1 2 2 ... k kY X X X u (8)

dengan:

Y = peubah respon

Xi = peubah prediktor ke-i yang dispesifikasikan sejak awal, i = 1, 2, …, k.

β0 = konstanta

βi = koefisien regresi dari peubah prediktor ke-i, i = 1, 2, …, k.

Peubah baru (W) sebagai komponen utama adalah hasil transformasi dari peubah asal

(X) yang modelnya dalam bentuk matriks adalah W = A X, dan komponen ke-j ditulis

1 1 2 2 ...j j kj kW a X a X a X , atau

'jW a X (9)

dimana vektor pembobot aj‟ diperoleh dengan memaksimumkan keragaman komponen

utama ke-j, yaitu

Page 9: 135008912-AnregLanPCA

2 'jy j jS a Sa (10)

dengan kendala ' 1j ja a , ' 0i ja a untuk i j .

Vektor pembobot aj’ diperoleh dari matriks peragam Σ yang diduga dengan matriks S,

yaitu :

1( )( ) '

1i iS X X X X

n

(11)

Misalkan diberikan notasi K1, K2, …, Km sebagai banyaknya komponen utama dan Y

sebagai peubah tak-bebas, maka model regresi komponen utama dapat ditulis sebagai

0 1 1 2 2 ... m mY W W K W K W K (12)

dengan:

Y = peubah respon

Kj = peubah prediktor komponen utama yang merupakan kombinasi linear dari semua

peubah baku Z (j = 1, 2, …, m).

w0 = konstanta.

wj = parameter model regresi atau koefisien regresi, (j = 1, 2, …, m).

ε = galat.

(Prasetyo, 2010)

Page 10: 135008912-AnregLanPCA

BAB III

HASIL DAN PEMBAHASAN

Berikut ini suatu contoh kasus yang diambil dari skripsi Nanang Pradipta (2009) dengan

judul “Metode Regresi Ridge untuk Mengatasi Model Regresi Linier Berganda yang

Mengandung Multikolinieritas”.

Tahun Y X1 X2 X3

1949 15,9 149,3 4,2 108,1

1950 16,4 161,2 4,1 114,8

1951 19 171,5 3,1 123,2

1952 19,1 175,5 3,1 126,9

1953 18,8 180,8 1,1 132,1

1954 20,4 190,7 2,2 137,7

1955 22,7 202,1 2,1 146

1956 26,5 212,4 5,6 154,1

1957 28,1 226,1 5 162,3

1958 27,6 231,9 5,1 164,3

1959 26,3 239 0,7 167,6

1960 31,1 258 5,6 176,8

1961 33,3 269,8 3,9 186,6

1962 37 288,4 3,1 199,7

1963 43,3 304,5 4,6 213,9

1964 49,3 323,4 7 223,8

1965 50,3 336,8 1,2 232

1966 56,6 353,9 4,5 242,9

Keterangan:

Y : harga barang import (miliar Franc)

X1 : harga barang yang dipesan (miliar Franc)

X2 : persediaan barang (miliar)

X3 : jumlah barang yang dikonsumsi (miliar)

Page 11: 135008912-AnregLanPCA

Penanganan Multikolinieritas dengan Analisis Komponen Utama

Hasil analisis:

1. Pendeteksian Multikolinieritas dilakukan dengan bantuan software Minitab 14. Suatu

model regresi dikatakan memenuhi asumsi multikolinieritas apabila terdapat peubah yang

memiliki nilai VIF > 10. Berikut output yang dihasilkan.

Berdasarkan output tersebut, peubah X1 (harga barang yang dipesan) dan X3 (jumlah

barang yang dikonsumsi) memiliki VIF di atas 10 maka dapat disimpulkan bahwa terjadi

multikolinearitas antar peubah prediktor. Untuk itu, perlu dilakukan penanganan masalah

multikolinieritas. Salah satu metode untuk menanganinya adalah dengan menggunakan

analisis komponen utama.

Langkah pertama yang harus dilakukan adalah mentransformasi data dalam bentuk baku.

Berikut ini adalah data yang telah dibakukan.

Z1 Z2 Z3

-1,3889 0,29989 -1,4256

-1,2015 0,24246 -1,2645

-1,0394 -0,3318 -1,0625

-0,9764 -0,3318 -0,9735

-0,8929 -1,4803 -0,8484

-0,7371 -0,8486 -0,7137

-0,5576 -0,9061 -0,5141

-0,3954 1,10385 -0,3193

-0,1797 0,75929 -0,1221

-0,0884 0,81672 -0,074

0,02335 -1,71 0,00534

0,32249 1,10385 0,2266

0,50826 0,12761 0,46228

0,8011 -0,3318 0,77733

1,05458 0,52959 1,11883

1,35214 1,90781 1,35692

1,5631 -1,4229 1,55413

1,83233 0,47217 1,81627

Page 12: 135008912-AnregLanPCA

Selanjutnya, dilakukan analisis komponen utama pada data yang telah dibakukan dan

output yang dihasilkan adalah sebagai berikut.

Dari output tersebut, persamaan komponen utama yang diperoleh yaitu:

PC1 = 0.681 Z1 + 0.270 Z2 + 0.681 Z3

PC2 = 0.190 Z1 - 0.963 Z2 - 0.192 Z3

PC3 = -0.707 Z1 + 0.001 Z2 + 0.707 Z3

kemudian dilakukan lagi pendeteksian multikolinearitas dengan peubah prediktor

komponen utama PC1, PC2, dan PC3.

Dari output di atas diperoleh persamaan regresi Y = 30.1 + 8.48 PC1 + 1.60 PC2 + 5.8

PC3. Dengan mensubstitusikan persamaan komponen utama ke persamaan regresi

yang baru, maka diperoleh :

Y = 30.1 + 8.48 (0.681 Z1 + 0.270 Z2 + 0.681 Z3) + 1.60 (0.190 Z1 - 0.963 Z2 + 0.192

Z3) + 5.8 (-0.707 Z1 + 0.001 Z2 + 0.707 Z3).

Page 13: 135008912-AnregLanPCA

Y = 30.1 + 1.9783 Z1 + 0.8410 Z2 + 10.1827 Z3

Dari hasil tersebut, terlihat jelas bahwa masalah multikolinearitas telah teratasi

dimana nilai VIF peubah prediktor < 10.

Proses interpretasi yang melibatkan regresi komponen utama ini harus melalui

beberapa operasi untuk mengembalikan prediktor menjadi peubah asal sebagai

berikut:

dan

Dimana diketahui rata – rata dan simpangan baku untuk tiap – tiap prediktor adalah

sebagai berikut :

Sehingga:

Jadi diperoleh model regresi dengan peubah prediktor asal yaitu

Dari model tersebut dapat diinterpretasikan bahwa:

Setiap kenaikan 1 miliar harga barang yang dipesan akan menambah 0.0312 miliar

harga barang import dengan asumsi prediktor lain bersifat konstan

Setiap kenaikan 1 miliar persediaan barang akan menambah 0.4831 miliar harga

barang import dengan asumsi prediktor lain bersifat konstan

Page 14: 135008912-AnregLanPCA

Setiap kenaikan 1 miliar jumlah barang yang dikonsumsi akan menambah 0.2449

miliar harga barang import dengan asumsi prediktor lain bersifat konstan

Dalam keadaan semua prediktor bersifat konstan, maka harga barang import

sebesar 27.9769 miliar.

Page 15: 135008912-AnregLanPCA

BAB IV

PENUTUP

4.1 Kesimpulan

Berdasarkan uraian materi yang telah dijabarkan, maka dapat disimpulkan

beberapa hal sebagai berikut:

- Asumsi non-multikolinearitas mengharuskan bahwa tidak boleh ada hubungan linier

antara sesama peubah prediktor

- Pendeteksian multikolinearitas dapat dilakukan dengan menggunakan koefisien

determinasi, korelasi parsial, nilai VIF dan nilai akar ciri.

- Penanganan multikolinearitas dapat dilakukan dengan memanfaatkan informasi

apriori dari teori atau penelitian sebelumnya, menggabungkan data cross-sectional

dengan data deret waktu, menghilangkan peubah penyebab multikolinearitas,

menambahkan data baru dan dengan menggunakan analisis komponen utama dan

regresi ridge.

- Dari contoh kasus yang telah dianalisis diperoleh model regresi dengan peubah

prediktor asal yaitu

4.2 Saran

Dalam statistika sebuah model regresi dikatakan baik atau cocok,jika dipenuhi

asumsi-asumsi ideal (klasik), yakni tidak adanya autokorelasi, heteroskedastisitas, dan

multikolinieritas. Tidak terpenuhinya salah satu asumsi, khususnya asumsi non

mutikolinearitas akan menyebabkan kesulitan pada saat penaksiran parameter. Oleh

sebab itu disarankan agar melakukan uji asumsi terlebih dahulu untuk menelaah

dipenuhi tidaknya asumsi tersebut.

Page 16: 135008912-AnregLanPCA

DAFTAR PUSTAKA

Gujarati, Damodar. 1998. Ekonometrika Dasar. Jakarta: Penerbit Erlangga

Gusriani, Nurul. 2004. Regresi Ridge dengan Penduga Bayes untuk Mengatasi

Multikolinieritas. Bogor : IPB

Prasetyo, H.B. Analisis Regresi Komponen Utama untuk Mengatasi Masalah

Multikolinieritas dalam Analisis Regresi Linier Berganda. [email protected].

Diakses tanggal 11 Maret 2013.

Soemartini. 2008. Principal Component Analysis sebagai Salah Satu untuk Mengatasi

Multikolinearitas. Jatinangor: FMIPA-UNPAD