7 regresi
-
Upload
feri-prasetio -
Category
Documents
-
view
153 -
download
7
description
Transcript of 7 regresi
194
77777777 RReeggrreessii ll iinniieerr sseeddeerrhhaannaa ddaann
kkoorreellaassii
7.1 Pendahuluan
Di dalam bab 5 dan 6 telah kita bahas berbagai teknik pendugaan dan pengujian hipotesis tentang rata-rata populasi dan selisih rata-rata dari dua populasi. Persoalan yang kita pecahkan dalam bab-bab tersebut umumnya relatif mudah dan sederhana karena walaupun berkaitan dengan dua populasi, kedua populasi tersebut umumnya diasumsikan bersifat independen, artinya tidak ada keterkaitan antara satu populasi dengan populasi yang lainnya. Dalam kehidupan sehari-hari, sering kali kita temui bahwa nilai suatu variabel (Y) dipengaruhi oleh nilai variabel lain (X), atau berkaitan dengan nilai variabel lain. Bentuk hubungan antar kedua variabel tersebut adalah persoalan yang akan kita bahas dalam analisis regresi dan korelasi. Sebagai contoh, kita mungkin tertarik untuk meneliti hubungan antara pola konsumsi seseorang dalam suatu komunitas tertentu (Y) dengan penghasilannya per bulan (X), atau hubungan antara pendapatan suatu perusahaan (Y) dengan biaya yang dikeluarkan oleh perusahaan tersebut untuk pemasangan iklan dalam media cetak (X), atau pengaruh pemberian berbagai dosis suatu jenis pupuk tertentu (X) terhadap peningkatan produksi padi varietas tertentu (Y).
Dalam setiap kasus di atas, variabel Y merupakan variabel dependen atau variabel respons yang nilai-nilainya tergantung pada nilai-nilai variabel X, yang disebut sebagai variabel independen atau variabel bebas. Analisis regresi digunakan untuk membangun suatu model matematis untuk menjelaskan bentuk hubungan antar kedua variabel tersebut (jika hubungan tersebut ada). Misalnya, jika kita beranggapan bahwa terdapat hubungan linier antara pola konsumsi seseorang dengan penghasilannya, maka untuk menguji anggapan tersebut kita akan mengambil sampel yang terdiri atas beberapa orang anggota komunitas tersebut dan memeriksa pola konsumsi dan penghasilan mereka. Jika anggapan tersebut benar, maka nilai-nilai pengamatan akan mencerminkan pola hubungan kedua variabel tersebut.
Dalam bab ini konsep-konsep dasar tentang hubungan keterkaitan antar variabel tersebut akan kita bahas melalui analisis regresi dan korelasi. Namun demikian, pembahasan tersebut akan kita batasi hanya untuk kasus-kasus yang sederhana saja, yaitu kasus yang hanya melibatkan dua variabel saja. Pembahasan untuk kasus-kasus yang melibatkan hubungan keterkaitan antar lebih dari dua variabel
195
biasanya dibahas dalam topik yang khusus, yaitu dalam bahasan tentang analisis regresi berganda (multiple regression analysis), atau analisis variable ganda (multivariate analysis) yang merupakan topik bahasan dalam Ilmu Statistik tingkat lanjut. Dalam buku ini analisis regresi berganda dibahas secara singkat dalam bab 8.
7.2 Hubungan antara variabel dependen dengan variabel bebas
Untuk model regresi yang hanya melibatkan satu variabel dependen dan satu variabel bebas, bentuk hubungan antar kedua variabel tersebut biasanya dapat diperiksa dengan memetakan setiap pasangan pengamatan (x, y) dalam suatu diagram pencar (scatter diagram). Pemetaan data ke dalam suatu bentuk diagram pencar tidak saja bermanfaat dalam memeriksa bentuk hubungan antar kedua variabel, tetapi juga dalam mengeksplorasi data secara keseluruhan, misalnya dalam memeriksa kemungkinan adanya nilai pencilan, melihat bentuk distribusi data, atau memeriksa kecenderungan (trend) dalam data. Diagram pencar digunakan untuk memvisualisasikan bentuk hubungan antar ke dua variabel tersebut. Dalam diagram tersebut, variabel dependen selalu dipetakan dalam sumbu tegak dan variabel bebas dipetakan dalam sumbu mendatar. Sebagai ilustrasi, berbagai bentuk diagram pencar disajikan dalam gambar 7.1.
Data dalam gambar 7.1.a dan 7.1.b mengindikasikan bentuk hubungan antara variabel X dan Y yang cenderung linier. Data dalam kedua gambar tersebut terlihat mengelompok di sekitar suatu garis lurus. Gambar 7.1.c menunjukkan suatu bentuk hubungan antara variabel X dan Y yang mungkin dapat dijelaskan melalui suatu persamaan eksponensial atau kuadratik. Sedangkan data dalam gambar 7.1.d tidak menunjukkan adanya bentuk hubungan yang kuat antara variabel X dan Y. Hal ini terlihat betapa data dalam gambar tersebut terpencar secara sembarang, tanpa menunjukkan adanya suatu keteraturan.
Pemetaan pasangan data (x, y) ke dalam suatu diagram pencar merupakan suatu langkah awal dalam menganalisis hubungan antara kedua variabel tersebut. Beberapa informasi yang dapat kita peroleh dengan mengamati suatu diagram pencar dari pasangan data (x, y) diantaranya adalah:
� ada atau tidaknya kecenderungan bahwa data tersebut mengelompok di sekitar suatu garis lurus, atau bentuk kurva sederhana lainnya
� bagaimana kecenderungan bentuk hubungan antara variabel X dan Y; misalnya adakah kecenderungan bahwa nilai-nilai y menaik dengan bertambahnya nilai x, ataukah sebaliknya, artinya nilai-nilai y cenderung menurun dengan bertambahnya nilai x.
� bagaimana ‘kekuatan’ hubungan antara variabel X dan Y; kedua variabel tersebut dikatakan mempunyai hubungan atau keterkaitan yang erat jika data dalam diagram pencar tersebut mengelompok di sekitar suatu garis lurus atau kurva sederhana lainnya: semakin dekat jarak antara data
196
dengan garis atau kurva tersebut, maka semakin kuat hubungan kedua variabel tersebut
� kemungkinan adanya nilai pencilan dalam data
X
Y
(a)
X
Y
(b)
X
Y
(c)
X
Y
(d)
Gambar 7.1 Diagram pencar: beberapa contoh bentuk hubungan antara X dan Y
Hubungan antara variabel pengamatan X dan Y dapat dinyatakan dalam suatu model atau pernyataan matematis. Salah satu bentuk yang paling sederhana adalah model linier, yaitu:
XY 10 ββ += ............................................................................... [7.1]
Dalam model [7.1] tersebut, β0 dan β1 keduanya merupakan konstanta yang tidak diketahui nilainya. Dalam persamaan tersebut variabel X merupakan penduga bagi variabel Y. Secara grafis, persamaan [7.1] tersebut menyatakan persamaan
sebuah garis lurus yang memotong sumbu tegak Y di titik β0 dengan kemiringan
(slope) β1.
197
Koefisien kemiringan suatu garis lurus menyatakan besar kenaikan/penurunan garis tersebut dengan bertambahnya nilai X sebesar satu satuan. Artinya,
� jika β1 > 0, maka garis tersebut akan menaik sebesar β1 satuan dengan bertambahnya nilai X sebesar satu satuan, tetapi
� jika β1 < 0 maka garis tersebut akan menurun sebesar β1 satuan dengan bertambahnya nilai X sebesar satu satuan, dan
� jika β1 = 0 maka garis tersebut merupakan garis yang mendatar (horizontal).
Gambar 7.2 menyajikan contoh dua buah persamaan garis lurus. Gambar 7.2.a
menyajikan sebuah garis lurus dengan β0 = 1 dan β1 = 2 yang dinyatakan dengan persamaan Y = 1 + 2X. Perhatikan bahwa garis tersebut memotong sumbu Y di titik (0, 1) dan menaik sebesar 2 satuan setiap pertambahan nilai X sebesar 1
satuan. Gambar 7.2.b menyajikan sebuah garis lurus dengan β0 = 6 dan β1 = –1,5 yang dinyatakan dengan persamaan Y = 6 – 1,5X. Garis tersebut memotong sumbu Y di titik (0, 6) dan turun sebesar 1,5 satuan setiap pertambahan nilai X sebesar 1 satuan.
-1
1
3
5
7
-1 0 1 2 3X
Y
+2
+1
koef. kemiringan=
+2/1 = 2
titik potong
dengan sumbu Y
0
2
4
6
8
-1 0 1 2 3
X
Y
-1,5
+1
koef. kemiringan=
-1,5/1 = -1,5
titik potong
dengan sumbu Y
a. Y = 1 + 2X b. Y = 6 – 1,5X
Gambar 7.2 Persamaan garis lurus dan interpretasinya
Terdapat dua jenis hubungan antara variabel Y dan variabel X, yaitu:
� hubungan deterministik (deterministic relationship), dimana setiap nilai variabel Y bersifat konstan dan hanya tergantung pada nilai variabel X.
198
Dalam hal ini setiap nilai X berpasangan dengan hanya satu nilai Y, sehingga untuk suatu nilai X tertentu, nilai Y dapat ditentukan dengan pasti.
� hubungan stokastik (stochastic relationship), dimana variabel Y merupakan variabel acak yang nilai-nilainya tergantung pada nilai X, tetapi tidak dapat diduga dengan pasti. Dalam hal ini setiap nilai X berasosiasi dengan suatu distribusi peluang bagi nilai-nilai Y secara keseluruhan.
Contoh 7.1
Seorang tukang pisang goreng menjual dagangannya dengan harga Rp 500,- per biji. Jika X adalah jumlah pisang goreng yang terjual pada suatu hari tertentu, dan Y adalah jumlah pendapatan kotor per hari, maka hubungan antara Y dan X dapat dinyatakan melalui model berikut:
Y = 500X
Hubungan tersebut merupakan hubungan deterministik karena nilai Y dapat ditentukan dengan pasti jika nilai X diketahui besarnya, yaitu dengan cara mensubstitusikan nilai X tersebut ke dalam persamaan di atas.
Contoh 7.2
Dalam memproduksi suatu jenis barang, sebuah perusahaan harus mengeluarkan sejumlah biaya yang terdiri atas biaya tetap sebesar Rp 1.000.000,- dan biaya variabel sebesar Rp 300 per satuan hasil produksinya. Jika X adalah jumlah produksi barang tersebut, dan Y adalah total biaya produksi, maka hubungan antara Y dan X dapat dinyatakan sebagai berikut:
Y = 1.000.000 + 300X
Hubungan tersebut juga merupakan suatu bentuk hubungan deterministik.
Contoh 7.3
Pengetahuan tentang pola pengeluaran rumah tangga untuk keperluan rekreasi keluarga merupakan salah satu aspek yang menjadi bahan pertimbangan pengusaha hiburan untuk memperluas atau mempertahankan usahanya di suatu daerah. Pada umumnya, besar pengeluaran suatu keluarga untuk keperluan rekreasi cenderung meningkat dengan meningkatnya pendapatan keluarga tersebut. Akan tetapi, besar pengeluaran suatu rumah tangga untuk keperluan rekreasi tidak semata-mata dipengaruhi oleh besar pendapatan tetapi juga dipengaruhi oleh berbagai faktor lain.
199
Misalkan X adalah pendapatan per bulan suatu rumah tangga, dan Y adalah pengeluaran rumah tangga tersebut untuk keperluan rekreasi keluarga. Dalam kasus ini, untuk suatu nilai X tertentu, nilai Y tidak dapat ditentukan secara tepat karena terdapat faktor/variabel lain yang mempengaruhi nilai Y tersebut. Oleh karena itu, hubungan antara variabel X dan Y untuk kasus ini merupakan hubungan stokastik. Model probabilistik yang mengaitkan pengeluaran rumah tangga ke–i, Yi, dengan pendapatan rumah tangga ke–i, X = xi , adalah sebagai berikut:
iii xY εββ ++= 10 .......................................................................... [7.2]
dimana εi adalah nilai suatu variabel acak ε yang merepresentasikan faktor-faktor
lain yang mempengaruhi nilai Y. Variabel ε disebut sebagai galat acak (random
error variable). Dalam model tersebut varibel ε merupakan selisih antara nilai
pengamatan Yi dengan titik yang terletak pada garis β0 + β1xi.
7.3 Analisis regresi linier sederhana
Analisis regresi adalah salah satu teknik statistik yang paling populer yang biasa digunakan untuk tujuan peramalan atau pendugaan tentang nilai variabel dependen Y. Analisis regresi berkaitan dengan hubungan stokastik antara variabel dependen Y dengan variabel bebas X. Oleh karena itu, tujuan penggunaan analisis regresi adalah untuk membangun suatu model probabilistik yang dapat digunakan untuk meramalkan atau menduga nilai variabel dependen (Y), berdasarkan pada nilai-nilai variabel bebas (X). Analisis regresi merupakan suatu topik yang cakupannya sangat luas, tetapi dalam bab ini, pembahasannya akan kita batasi hanya pada teknik regresi linier sederhana, yaitu tentang pendugaan satu variabel Y oleh satu variabel X saja.
Salah satu asumsi yang digunakan dalam suatu model regresi linier sederhana adalah bahwa setiap nilai variabel X berkaitan dengan suatu distribusi dari nilai-nilai variabel Y. Kita gunakan notasi E(Yi|X = xi) atau E(Yi|xi) untuk menyatakan nilai harapan bersyarat (conditional expected value) bagi variabel acak Yi untuk nilai variabel bebas tertentu, yaitu X = xi, sedangkan fungsi kepekatan variabel acak Y tersebut dinotasikan dengan f(y|x). Asumsi lain yang digunakan dalam suatu model regresi linier sederhana adalah bahwa hubungan antara nilai harapan bagi Yi dengan nilai xi dapat dinyatakan melalui persamaan berikut:
( ) iii xxYE 10| ββ += ..................................................................... [7.3]
dimana β0 dan β1 adalah parameter regresi yang tidak diketahui nilainya. Persamaan [7.3] tersebut menyatakan bahwa nilai rata-rata bagi Yi untuk nilai xi tertentu terletak dalam suatu garis lurus (lihat gambar 7.3). Persamaan tersebut merupakan garis regresi populasi (population regression line).
200
Dalam gambar 7.3 terlihat bahwa setiap nilai xi (dalam gambar tersebut x1 dan x2) berasosiasi dengan suatu populasi dari nilai-nilai Y, dimana rata-rata setiap
populasi tersebut terletak pada garis regresi E(Y|X) = β0 + β1X. Walaupun populasi tersebut mempunyai rata-rata yang berbeda, diasumsikan bahwa populai tersebut
mempunyai varians σ2 yang sama.
Y
X
f(y|x)
x1 x2
E(Y|X) = β0 + β1X
E(Y1|x1)E(Y2|x2)
Gambar 7.3 Model probabilistik bagi hubungan stokastik antara X dan Y
Telah dikemukakan sebelumnya bahwa terdapat faktor-faktor lain selain variabel X yang mempengaruhi nilai-nilai variabel Y, sehingga menyebabkan nilai individual Yi
bervariasi di sekitar E(Yi|xi). Faktor-faktor lain tersebut dinotasikan dengan εi yang
disebut sebagai faktor galat (error term). Karena nilai-nilai εi juga bervariasi maka nilai-nilai tersebut merupakan suatu variabel acak yang disebut variabel acak galat (error random variabel):
( )( )ii
iiii
xY
xYEY
10
|
ββ
ε
+−=
−= ....................................................................... [7.4]
Dengan demikian, setiap nilai pengamatan Yi sama dengan nilai harapannya ditambah galat, yaitu
( )ii
iiii
x
xYEY
εββ
ε
++=
+=
10
| ......................................................................... [7.5]
Dalam penggunaannya, analisis regresi linier sederhana sangat tergantung pada berbagai asumsi yang berkaitan dengan variabel acak galat tersebut. Asumsi dasar dari analisis regresi linier sederhana adalah sebagai berikut:
201
1. Variabel acak galat berdistribusi Normal dengan rata-rata sama dengan
nol dan mempunyai varians yang sama untuk semua nilai X, yaitu 2eσ .
2. Nilai-nilai galat bersifat independen satu sama lainnya dan tidak berkaitan dengan variabel X.
Asumsi tentang kesamaan varians yang disebut juga asumsi homogenitas varians (homoscedasticity), mengandung arti bahwa nilai-nilai galat tersebut mempunyai varians yang sama, tidak peduli berapapun nilai X-nya. Asumsi tentang keindependenan galat berarti bahwa nilai-nilai galat tersebut tidak berkaitan satu sama lainnya. Pelanggaran terhadap asumsi-asumsi tersebut dapat mengaki-batkan nilai dugaan bagi varians menjadi bias dan pengujian hipotesis terhadap parameter regresi menjadi tidak syah.
7.4 Penduga kuadrat terkecil bagi ββββ0 dan ββββ1
Karena parameter β0 dan β1 dalam persamaan [7.3] tidak kita ketahui besarnya, maka persamaan regresinyapun tidak kita ketahui dan harus kita duga dengan menggunakan data sampel (xi, yi). Dengan demikian, untuk menduga persamaan
regresi tersebut kita cukup menduga parameter β0 dan β1. Salah satu teknik pendugaan yang sering digunakan adalah metode kuadrat terkecil (least squares
method). Misalkan b0 dan b1 masing-masing nilai dugaan bagi parameter β0 dan
β1, maka nilai dugaan bagi Yi, dinotasikan dengan iy adalah
ii xbby 10ˆ += ................................................................................. [7.6]
Karena persamaan [7.6] tersebut diperoleh berdasarkan atas data sampel, persamaan tersebut disebut sebagai garis regresi sampel (sample regression line) yang merupakan penduga bagi garis regresi populasi dalam persamaan [7.3]. Faktor galat bagi data sampel biasa disebut sebagai sisaan (residuals), dan dinotasikan dengan ei, dimana ei adalah selisih antara nilai pengamatan yi dengan
nilai dugaannya, iy , yaitu
ii
iii
xbby
yye
10
ˆ
−−=
−= .......................................................................... [7.7]
Dengan demikian, nilai sisaan merupakan simpangan dari nilai dugaan terhadap nilai pengamatannya, sehingga dapat digunakan untuk mengukur kesalahan pendugaan. Jika nilai pengamatan bagi variabel dependen lebih besar dari nilai
dugaannya ( )yy iˆ> , maka sisaan akan bernilai positif; dan jika nilai pengamatan
tersebut lebih kecil dari nilai dugaannya ( )yy iˆ< , maka sisaan akan bernilai
negatif. Suatu pendugaan yang sempurna terjadi jika yy iˆ= , dimana sisaannya
akan bernilai nol.
202
X
Y
xi
XbbY 10ˆ +=
iy
( )ii yx ,yi
iii yye ˆ−=
Gambar 7.4 Hubungan antara yi, iy dan ei
Oleh karena itu, jumlah kuadrat sisaan (residual sum of squares), disingkat JKS, yang dihitung dengan rumus berikut:
( )( )∑
∑∑−−=
−==
210
22 ˆJKS
ii
iii
xbby
yye ........................................................... [7.8]
sering digunakan sebagai ukuran ketelitian pendugaan secara umum. Pendugaan persamaan regresi dengan metode kuadrat terkecil pada dasarnya dilakukan dengan menentukan garis regresi sampel yang meminimumkan jumlah kuadrat sisaan (JKS). Dengan metode kuadrat terkecil, nilai dugaan bagi parameter
regresi β0 dan β1 masing-masing adalah b0 dan b1 dimana
xbyb 10 −= ................................................................................... [7.9]
dan
( )( )( )∑
∑−
−−=
21xx
yyxxb ................................................................... [7.10]
atau
( )221
∑∑∑∑∑
−
−=
xxn
yxxynb ................................................................ [7.11]
Penurunan rumus-rumus di atas dapat dilihat dalam boks 7.1.
203
Boks 7.1:
Nilai-nilai b0 dan b1 diperoleh dengan menentukan turunan pertama dari JKS terhadap b0 dan b1 dan kemudian menyamakannya dengan nol:
( )( )
∑∑∑∑∑∑
∑∑
+++−−=
−−=
−==
22110
2010
2
210
22
222
ˆJKS
xbxbbnbxybyby
xbby
yye
Turunan pertama dari JKS terhadap b0 adalah:
∑∑ ++−=∂
∂xbnby
b10
0
222JKS
xbybxbynbb
10100
0JKS
−=⇔−=⇔=∂
∂ ∑∑
Dengan cara yang sama, tentukan turunan dari JKS terhadap b1 dan samakan turunan tersebut dengan nol:
0222JKS 2
100
=++−=∂
∂ ∑∑∑ xbxbxyb
Substitusikan nilai n
xb
n
yb
∑∑−= 10 ke dalam persamaan di atas, maka
( )
( )
( )
( )221
2
12
1
2
12
1
21
2
1
211
02222
0222
∑∑∑∑∑
∑∑∑∑∑
∑∑∑∑∑
∑∑∑∑∑
∑∑∑∑∑
−
−=
−=−
−=−
=+−+−
=+
−+−
xxn
yxxynb
xynxyxbxnb
xyn
xy
n
xbxb
xbn
xb
n
xyxy
xbxn
xb
n
yxy
Beberapa kelebihan metode kuadrat terkecil dibandingkan dengan metode-metode pendugaan lainnya adalah:
204
� untuk satu set data yang sama, garis regresi dengan metode kuadrat terkecil memberikan JKS yang paling kecil dibandingkan dengan JKS yang dihasilkan oleh garis regresi lain
� metode kuadrat terkecil dapat dengan mudah diperluas untuk model-model dengan jumlah variabel X yang lebih banyak
Contoh 7.4
Data berikut ini adalah sebagian dari data dalam suatu penelitian yang dilakukan oleh Dr Gusti Zakaria Anshari, Fakultas Pertanian, Universitas Tanjungpura. Data tersebut merupakan hasil pengukuran terhadap sampel tanah gambut yang diambil dari 78 titik pengamatan. Tentukan persamaan regresi untuk menduga hubungan antara berat kering tanah (Y) dengan berat basahnya.
Tabel 7.1 Berat basah (gr) dan berat kering (gr) sampel tanah
No Brt basah Brt kering No Brt basah Brt kering No Brt basah Brt kering
1 98,56 28,99 27 98,56 28,99 53 111,28 40,90
2 113,97 29,07 28 113,97 29,07 54 86,22 34,32
3 79,93 23,02 29 79,93 23,02 55 81,99 30,81
4 57,14 26,27 30 57,14 26,27 56 77,77 24,51
5 71,63 17,38 31 71,63 17,38 57 82,46 24,08
6 134,14 28,25 32 134,14 28,25 58 90,54 32,82
7 100,06 33,71 33 100,06 33,71 59 108,26 37,25
8 108,32 24,98 34 108,32 24,98 60 94,16 29,94
9 128,60 33,67 35 128,60 33,67 61 104,71 22,52
10 134,33 42,89 36 134,33 42,89 62 88,82 21,01
11 112,58 25,67 37 112,58 25,67 63 90,73 31,07
12 93,08 19,51 38 93,08 19,52 64 87,44 22,46
13 89,05 25,60 39 89,05 25,60 65 112,50 27,01
14 108,75 24,61 40 74,38 34,66 66 114,43 64,44
15 111,26 32,00 41 89,45 31,66 67 65,40 24,15
16 86,13 36,77 42 105,04 34,42 68 84,87 25,47
17 89,35 27,40 43 102,80 38,31 69 71,07 34,56
18 107,10 30,21 44 100,25 31,31 70 94,44 42,80
19 103,40 33,63 45 124,29 41,12 71 93,82 29,21
20 88,77 27,79 46 109,52 28,84 72 121,63 34,78
21 107,12 29,36 47 104,43 42,75 73 92,24 24,90
22 124,28 46,50 48 87,18 27,90 74 91,90 30,45
23 126,44 35,06 49 95,89 31,76 75 91,96 38,64
24 121,04 33,50 50 120,82 31,93 76 90,88 26,16
25 112,03 24,25 51 67,50 23,13 77 99,56 33,04
26 77,89 28,00 52 94,16 34,61 78 107,90 36,87
205
Penyelesaian:
Untuk menduga nilai-nilai b0 dan b1, kita perlu menghitung i
x∑ , i
y∑ , ii yx∑
dan ∑ 2ix , dalam hal ini nilai-nilai tersebut adalah sebagai berikut:
03,7719
90,10797,11356,98
=
+++=∑ Lix
68,2383
87,3607,2999,28
=
+++=∑ Liy
( )( ) ( )( ) ( )( )2558,240412
87,3690,10707,2997,11399,2856,98
=
+++=∑ Lii yx
1937,789250
90,10797,11356,98 2222
=
+++=∑ Lix
Rata-rata sampel adalah 9619,98=x dan 56,30=y dengan n = 78. Maka,
( )221
∑∑∑∑∑
−
−=
ii
iiii
xxn
yxyxnb
( )1782,0
03,77191937,78925078
68,238303,77192558,2404127821 =
−×
×−×=b
dan
927,12
9619,981782,056,30
10
=
×−=
−= xbyb
Oleh karena itu, persamaan regresi sampelnya adalah
ii xy 1782,0927,12ˆ +=
Suatu model persamaan regresi biasanya digunakan untuk tujuan pendugaan. Hal yang perlu diperhatikan dalam melakukan pendugaan tersebut adalah bahwa kita hanya bisa melakukan pendugaan dalam suatu kisaran nilai variabel bebas yang
206
tertentu. Kisaran nilai tersebut terdiri atas semua nilai variabel X yang terletak antara nilai data terkecil sampai nilai data terbesar, yang kita gunakan untuk menyusun model tersebut. Artinya, dalam melakukan pendugaan tersebut, kita hanya dapat melakukan interpolasi dalam kisaran nilai X tersebut, tetapi tidak dapat melakukan ekstrapolasi. Misalnya, dalam contoh di atas, kita peroleh persamaan garis regresi
ii xy 1782,0927,12ˆ +=
dimana X adalah berat basah sampel tanah (gr) dan Y adalah nilai dugaan bagi berat kering sampel tanah (gr). Untuk contoh di atas, nilai terkecil bagi X adalah 57,14 gr dan nilai terbesar adalah 134,33 gr. Nilai b0 = 12,927 adalah titik potong garis regresi tersebut dengan sumbu tegak Y. Akan tetapi, untuk kasus ini nilai tersebut tidak dapat diinterpretasikan sebagai nilai dugaan bagi berat kering tanah ketika berat basah sampel tanah tersebut adalah 0 gr, karena dua alasan: alasan pertama adalah bahwa nilai X = 0 terletak di luar kisaran nilai variabel X ; alasan kedua adalah karena pernyataan tersebut sama sekali tidak masuk akal.
Ketika nilai X = 0 terletak di luar kisaran data sampel, maka nilai b0 sama sekali tidak memberikan interpretasi yang bermanfaat, bahkan mungkin akan menyesatkan, karena setiap usaha penginterpretasiannya akan memerlukan ekstrapolasi, yaitu melakukan pendugaan untuk nilai X yang terletak di luar kisaran data sampel. Selain itu, untuk nilai-nilai X yang terletak di luar kisaran data pengamatan, hubungan antara variabel X dan Y mungkin tidak lagi linier, sehingga pendugaan tersebut dapat mengakibatkan kesalahan yang fatal.
0
20
40
60
50 70 90 110 130
Berat basah (gr)
Be
rat ke
rin
g (
gr)
XY 1782,0927,12ˆ +=
Gambar 7.5 Diagram pencar dan persamaan regresi untuk data dalam tabel 7.1
207
Sebaliknya, kemiringan garis regresi sering kali memberikan interpretasi yang lebih bermanfaat. Untuk contoh di atas, nilai b1 = 0,1782 menunjukkan bahwa untuk setiap kenaikan berat basah tanah sebesar satu gram, secara rata-rata akan menaikkan berat kering sampel tanah sebesar 0,1782 gr.
Persamaan regresi di atas kita peroleh dengan menggunakan metode kuadrat terkecil, sehingga garis tersebut merupakan garis lurus terbaik yang memi-nimumkan JKS. Namun demikian, hal ini bukan merupakan jaminan bahwa garis tersebut mencerminkan keadaan data dengan baik. Salah satu indikator yang dapat digunakan untuk mengetahui sampai sejauh mana persamaan suatu garis regresi mencerminkan keadaan data secara keseluruhan adalah dengan menghitung simpangan baku sisaan (residual standard deviation), se, yang dihitung dengan rumus berikut:
( )
22
JKS
210
−
−−
=−
=∑
n
xbby
ns i
ii
e ........................................... [7.12]
atau
2
102
−
−−
=∑∑∑
n
yxbyby
s i
ii
i
i
i
i
e ............................................. [7.13]
dimana n adalah jumlah pengamatan, sedangkan bilangan 2 (dalam n – 2) berasal
dari jumlah parameter yang diduga dalam persamaan regresinya (yaitu β0 dan β1). Walaupun kelihatan lebih rumit, rumus dalam persamaan [7.13] lebih mudah digunakan dalam melakukan perhitungan secara manual.
Simpangan baku sisaan, se, mengukur pencaran atau keragaman data di sekitar garis regresinya. Semakin kecil nilai se, maka nilai-nilai Y akan semakin terkon-sentrasi di sekitar garis regresi tersebut. Sebaliknya, semakin besar nilai se, maka semakin besar pula pencaran data dari garis regresinya.
Untuk contoh 7.4, simpangan baku sisaannya adalah:
6681,676
241,3379
278
2558,2404121782,068,2383927,126492,77029
==
−
×−×−=es
Perhatikan bahwa simpangan baku sisaan (se = 6,6681) tidak terlalu berbeda jauh nilainya dari simpangan baku sampel variabel Y (sy = 7,3718), hal ini menunjukkan bahwa garis regresi tersebut tidak sepenuhnya cocok mencerminkan hubungan antara X dan Y. Artinya, berat kering sampel tanah tidak dapat diduga dengan baik hanya dengan mengukur berat basah sampelnya saja.
208
7.5 Koefisien determinasi dan sumber keragaman dalam analisis regresi
Untuk mengetahui sejauh mana variabel bebas X menduga variabel dependen Y dalam model probabilistik tersebut, kita perlu mengetahui beberapa jenis ukuran keragaman. Salah satu diantaranya adalah jumlah kuadrat total (JKT), yang
merupakan ukuran keragaman nilai Yi di sekitar nilai rata-ratanya ( )Y . Dalam
analisis regresi linier sederhana, jumlah kuadrat total dapat diuraikan menjadi jumlah kuadrat regresi (JKR), yang mencerminkan hubungan antara variabel X dan Y, dan jumlah kuadrat sisaan (JKS), yang mencerminkan keragaman karena faktor-faktor lain selain hubungan antara X dan Y tersebut. Interpretasi grafis dari ukuran-ukuran keragaman tersebut dapat dilihat dalam gambar 7.6.
Jumlah kuadrat total
Jumlah kuadrat regresi
Jumlah kuadrat sisaan
Y
iy
ix X
Y
ii xbby 10ˆ +=
Gambar 7.6 Ukuran keragaman dalam regresi
Jumlah kuadrat regresi dapat diinterpretasikan sebagai ukuran keragaman yang
berdasarkan pada perbedaan antara nilai dugaan ( )iY dengan nilai rata-rata ( )Y ,
sedangkan jumlah kuadrat sisaan adalah bagian keragaman yang tidak terjelaskan oleh persamaan regresi dan dihitung berdasarkan pada pebedaan antara nilai
setiap pengamatan (Yi) dengan nilai dugaannya ( )iY . Hubungan antara jumlah-
jumlah kuadrat tersebut dapat dinyatakan sebagai berikut:
Jumlah kuadrat total = jumlah kuadrat regresi + jumlah kuadrat sisaan
atau
JKT = JKR + JKS .......................................................................... [7.14]
dimana
209
( )
( )22
2
1
JKT
∑∑
∑
−=
−=
ii
i
i
yn
y
yy
................................................................ [7.15]
dan
( )
( )210
2
1
ˆ JKR
∑∑∑
∑
−+=
−=
iiii
i
i
yn
yxbyb
yy
......................................... [7.16]
serta
( )
∑∑∑
∑
−−=
−=
iiii
i
ii
yxbyby
yy
102
2ˆJKS
................................................ [7.17]
Untuk contoh 7.4 di atas, kita peroleh bahwa JKT = 4184,388 dan JKR = 805,147 serta JKS = 3379,241.
Ukuran keragaman yang lain adalah adalah koefisien determinasi, R2. Koefisien
determinasi merupakan bagian keragaman dari variabel Y yang dijelaskan oleh persamaan regresinya. Nilai R
2 dihitung dengan rumus berikut:
JKT
JKR2 =R ..................................................................................... [7.18]
Untuk contoh 7.4 di atas, kita peroleh bahwa
1924,0388,4184
147,8052 ==R
Nilai R2 tersebut menunjukkan bahwa persamaan garis regresi linier
ii xy 1782,0927,12ˆ += menjelaskan 19,24% dari keragaman berat kering sampel
tanah. Hal ini berarti, sekitar 81% dari keragaman tersebut tidak terjelaskan oleh persamaan regresinya.
7.6 Membaca output komputer
Setiap program statistik menyajikan hasil analisisnya dengan cara yang berbeda, akan tetapi informasi dasar yang disajikan pada umumnya sama. Pasangan data (x, y) biasanya diinput ke dalam dua kolom (variabel) yang berbeda, misalnya dalam program MINITAB kedua variabel tersebut dalam contoh 7.4 masing-masing
210
disimpan dalam kolom C1 dengan nama ‘B_basah’ dan kolom C2 dengan nama ‘B_kering’. Analisis regresi dapat dilakukan dengan memilih menu
Stat ���� Regression ���� Regression...
Perintah tersebut akan mengaktifkan jendela Regression seperti terlihat dalam
gambar 7.7.
Gambar 7.7 Jendela Regression dalam MINITAB
Isikan variabel dependen (Y) ke dalam kotak Response: (dalam hal ini ‘B_kering’)
dan variabel bebas (X) ke dalam kotak Predictors: (dalam hal ini ‘B_basah’),
lalu klik OK.
Output dari program paket statistik MINITAB untuk contoh 7.4 disajikan dalam tabel 7.2. Dalam tabel tersebut, dua baris pertama dari output MINITAB adalah perintah dalam MINITAB untuk analisis regresi. Nilai b0 = 12,297 dan b1 = 0,17818
tercantum dalam kolom “Coef“ dari output tersebut. Selain itu, output tersebut
juga menyajikan statistik lain, diantaranya adalah
S, simpangan baku sisaan: se = 0,668
R-Sq, koefisien determinasi: R2 = 19,2%
Regression SS, jumlah kuadrat regresi: JKR = 805,15
Error SS, jumlah kuadrat sisa: JKS = 3379,24
Total SS, jumlah kuadrat total, JKT = 4184,39
211
Jumlah-jumlah kuadrat tersebut biasa disusun dalam suatu tabel analisis keragaman (analysis of variance). Dalam output MINITAB, tabel analisis
keragaman disajikan di bawah judul “Analysis of Variance”. Kolom
“Source” di bawah judul tersebut mendefinisikan sumber-sumber keragaman
dalam analisis regresi, yang merupakan penguraian dari keragaman total, yaitu
keragaman karena model regresi (Regression) dan keragaman karena faktor lain
(Error). Kolom “DF” adalah derajat bebas bagi masing-masing sumber
keragaman (source of variance), sedangkan kolom “SS” adalah jumlah kuadratnya,
dan kolom “MS” adalah kuadrat tengah (Mean squares) bagi masing-masing
sumber keragaman. Nilai kuadrat tengah, biasa dinotasikan dengan KT, dihitung dengan cara membagi jumlah kuadrat dengan derajat bebas bagi sumber keragaman yang bersesuaian, yaitu
1
JKRKTR
−=k
.................................................................................. [7.18]
dan
kn −=
JKSKTS .................................................................................. [7.19]
dimana KTR dan KTS, masing-masing adalah kuadrat tengah regresi dan kuadrat tengah sisa.
Kolom F dalam tabel analisis keragaman menyajikan nilai statistik F, dimana
)(JKS
)1(JKR
kn
kF
−
−= ........................................................................... [7.20]
Statistik F tersebut berdistribusi mengikuti kaidah distribusi F dengan derajat
bebas ν1 = k – 1 dan ν2 = n – k. Dalam output tersebut nilai statistik F tercantum
dalam kolom “F” yaitu = 18,11. Nilai statistik tersebut kemudian dibandingkan nilai
teoritis distribusi F dengan derajat bebas ν1 = 1 dan ν2 = 76, yang menghasilkan nilai P = 0.000. Dalam analisis regresi linier sederhana statistik F tersebut menguji
pasangan hipotesis H0: β1 = 0 vs H1: β1 ≠ 0 (pengujian hipotesis ini dibahas secara lebih rinci pada bagian 7.7)
Output tersebut juga menampilkan nilai koefisien determinasi terkoreksi,
“R-Sq(adj)”. Nilai tersebut dihitung dengan rumus berikut:
( )222terkoreksi 1
1R
kn
kRR −
−−
−= ..................................................... [7.21]
dimana k adalah jumlah koefisien regresi (dalam hal ini adalah dua, yaitu b0 dan b1); dan n adalah jumlah pengamatan (dalam hal ini adalah 78). Nilai koefisien determinasi terkoreksi sering digunakan ketika model regresinya menjadi lebih kompleks, misalnya dalam analisis regresi berganda.
212
Tabel 7.2 Output MINITAB untuk data dalam contoh 7.4
MTB > Regress 'B_kering' 1 'B_basah';
SUBC> Constant.
Regression Analysis
The regression equation is
B_kering = 12.9 + 0.178 B_basah
Predictor Coef StDev T P
Constant 12.927 4.212 3.07 0.003
B_basah 0.17818 0.04187 4.26 0.000
S = 6.668 R-Sq = 19.2% R-Sq(adj) = 18.2%
Analysis of Variance
Source DF SS MS F P
Regression 1 805.15 805.15 18.11 0.000
Error 76 3379.24 44.46
Total 77 4184.39
Unusual Observations
Obs B_basah B_kering Fit StDev Fit Residual St Resid
4 57 26.270 23.108 1.907 3.162 0.49 X 30 57 26.270 23.108 1.907 3.162 0.49 X
66 114 64.440 33.316 0.995 31.124 4.72R
7.7 Pengujian hipotesis bagi koefisien regresi
Koefisien regresi b0 dan b1 masing-masing merupakan suatu statistik yang mempunyai distribusi sampling sendiri-sendiri. Jika asumsi dasar dari regresi linier terpenuhi, yaitu bahwa nilai variabel acak galat berdistribusi normal dan independen satu sama lainnya, maka distribusi sampling dari b1 akan mendekati
normal dengan rata-rata β1 dan varians 21bσ , demikian juga distribusi sampling dari
b0 akan mendekati normal dengan rata-rata β0 dan varians 20bσ . Simpangan baku
dari suatu distribusi sampling disebut galat baku (standard error). Nilai galat baku
σb0 dan σb1, seperti juga β0 dan β1, tidak kita ketahui nilainya dan harus diduga dari
data sampel. Penduga bagi σb1 adalah sb1, dimana
( )∑ −=
21
xx
ss
i
eb ...................................................................... [7.22]
213
dan penduga bagi σb0 adalah sb0, dimana
( )∑ −+=
2
2
0
1
xx
x
nss
i
eb .......................................................... [7.23]
Kolom “StDev” dalam output MINITAB di atas (tabel 7.2) menyajikan nilai-nilai
tersebut, yaitu sb0 = 4,212 dan sb1 = 0,04187.
Pengujian hipotesis terhadap parameter regresi, yaitu β0 dan β1 dapat dilakukan dengan menggunakan statistik uji t. Dapat ditunjukkan bahwa nilai statistik t, dimana
bs
bt
β−= ....................................................................................... [7.24]
adalah suatu variabel acak yang berdistribusi t dengan derajat bebas ν = n – k. Statistik t tersebut dapat digunakan sebagai suatu statistik uji dalam pengujian hipotesis tentang koefisien regresi.
Hipotesis tentang tidak adanya hubungan linier antara variabel X dengan variabel Y dinyatakan dalam bentuk hipotesis nol sebagai berikut:
H0: β1 = 0 ....................................................................................... [7.25]
Hipotesis alternatif bagi hipotesis nol tersebut adalah bahwa ada hubungan linier
antara kedua variabel tersebut, artinya β1 ≠ 0. Hal ini dirumuskan sebagai berikut:
H1: β1 ≠ 0 ....................................................................................... [7.26]
Jika hipotesis nol benar, artinya β1 = 0, maka nilai statistik uji t dalam persamaan [7.24] berubah menjadi
1
1
bs
bt = .......................................................................................... [7.27]
Secara konvensional, pengujian terhadap pasangan hipotesis tersebut kemudian dapat dilakukan dengan membandingkan nilai t yang diperoleh dari persamaan
[7.27] dengan nilai t dalam tabel lampiran 3 dengan derajat bebas ν = n – k. Untuk
taraf nyata α tertentu, kriteria pengujiannya adalah:
� terima H0 jika tα/2; n–k ≤ t ≤ tα/2; n–k, dan
� tolak H0 jika t < tα/2; n–k atau t > tα/2; n–k.
Kolom “T” dalam output MINITAB (tabel 7.2) menyajikan nilai statistik t tersebut,
yang dihitung dengan cara membagi koefisien regresi dengan penduga bagi galat bakunya (perhatikan bahwa 0,17818/0,04187 = 4,26).
214
Nilai statistik t tersebut kemudian dibanding dengan dengan nilai teoritis dari distribusi t dengan derajat bebas n – k. Dari distribusi t kita peroleh suatu nilai peluang yang disebut nilai P (P-value).
Nilai P adalah nilai dugaan bagi peluang diperolehnya hasil sampel tersebut dengan asumsi bahwa sampel tersebut merupakan suatu sampel acak dari suatu populasi dimana H0 benar.
Nilai P yang kecil menunjukkan bahwa sampel tersebut tidak mungkin berasal dari suatu populasi dimana H0 benar. Dalam output MINITAB P-value tercantum dalam
kolom “P”, yaitu P = 0,000 (nilai P sebenarnya tidak sama dengan nol, tetapi
merupakan suatu nilai yang sangat kecil, sehingga ketika dibulatkan menjadi 3 desimal nilainya mendekati nol). Hal ini menunjukkan sampel tersebut tidak mungkin berasal dari suatu populasi dimana H0 benar. Oleh karena itu kita
simpulkan bahwa H0 salah, konsekuensinya kita terima H1: β1 ≠ 0 yang berarti terdapat hubungan linier antara kedua variabel X dan Y.
Secara konvensional, para peneliti biasanya menggunakan kriteria pengujian sebagai berikut:
Tolak H0 (dan terima H1) jika nilai P < 0,05
Setiap koefisien dengan nilai P yang lebih kecil dari 0,05 biasa dikatakan sebagai berbeda nyata atau siginifikan (statistically significant). Salah satu kelemahan dari kriteria pengujian tersebut adalah bahwa perbedaan antara dihasilkannya P = 0,49
(signifikan pada taraf nyata α = 0,05) dengan dihasilkannya P = 0,51 (tidak
signifikan pada taraf nyata α = 0,05) sering kali tidak jauh berbeda. Dengan mencantumkan nilai P yang sebenarnya maka kelemahan tersebut dapat teratasi,
karena penentuan nilai signifikansi (taraf nyata α) sebenarnya tidak harus selalu sama dengan 0,05.
Dalam bagian 7.6 telah dikemukakan bahwa pasangan hipotesis [7.25] dan [7.26] dapat juga diuji dengan menggunakan statistik uji F. Dalam analisis regresi linier sederhana, kedua statistik uji tersebut, yaitu statistik uji t dalam [7.27] dan statistik uji F dalam [7.20], pada dasarnya menguji pasangan hipotesis yang sama, sehingga menghasilkan nilai P yang sama. Hubungan kedua statistik tersebut adalah sebagai berikut:
2tF = ........................................................................................... [7.28]
Dalam analisis regresi linier ganda F dapat digunakan untuk pengujian hipotesis tentang koefisien regresi yang lebih kompleks.
7.8 Pendugaan selang kepercayaan
Pendugaan selang kepercayaan (1–α)100% bagi koefisien regresi dapat dilakukan dengan menggunakan rumus berikut:
215
bikni stb ×± −;;2α ............................................................................ [7.29]
dimana tα/2 ; n – k adalah nilai kritis dari distribusi t dengan derajat bebas = n – k (tabel lampiran 3).
Untuk menentukan selang kepercayaan 95% bagi β1 dalam contoh 7.4, dari tabel
lampiran 3 kita lihat bahwa nilai tα/2 ; n – k = t0,025 ; 76 terletak antara t0,025 ; 60 = 2,003
dan t0,025 ; 120 = 1,9799, dengan interpolasi kita peroleh bahwa t0,025 ; 76 = 1,997,
sehingga selang kepercayaan 95% bagi β1 adalah
2618,00946,0
0836,01782,0
04187,0997,11782,0
1 ≤≤
±
×±
β
Dengan cara yang sama, kita juga dapat menentukan selang kepercayaan di sekitar nilai dugaan bagi Y. Hal ini dapat dilakukan dengan menggunakan rumus [7.30].
iykni stY ˆ;2ˆ ×± −α ............................................................................ [7.30]
Penggunaan rumus [7.30] tersebut dapat digunakan dalam dua kasus yang berbeda, yaitu
� menentukan selang kepercayaan bagi E(Yi|X = xi), yaitu nilai harapan (rata-rata) bagi Yi untuk nilai X = xi. Untuk kasus ini, gunakan
( )
( )22ˆ
1
1
∑∑ −
−+=
ii
ieiy
xn
x
xx
nss ................................................... [7.31]
� menentukan selang dugaan atau selang kepercayaan bagi suatu nilai tunggal Yi untuk X = xi. Untuk kasus ini gunakan
( )
( )1
1
1
22ˆ +
−
−+=
∑∑ ii
ieiy
xn
x
xx
nss .............................................. [7.32]
Baik selang kepercayaan maupun selang dugaan, keduanya mempunyai bentuk yang hiperbolis yang semakin menyempit dengan semakin dekatnya nilai xi
terhadap nilai rata-ratanya ( )x . dan semakin melebar ketika nilai xi semakin jauh
dari nilai x . Selang kepercayaan dan selang pendugaan bagi data dalam contoh 7.4 disajikan dalam gambar 7.8.
216
0
10
20
30
40
50
60
40 60 80 100 120 140
Berat basah (gr)
Bera
t ke
ring (
gr)
XY 1782,0927,12ˆ +=
se
lan
g
kep
erc
ayaan
selang dugaan
Gambar 7.8 Selang kepercayaan dan selang pendugaan di sekitar garis regresi
7.9 Koefisien korelasi
Misalkan variabel X dan Y adalah dua variabel yang bervariasi secara bersama-sama dalam suatu distribusi gabungan (joint distribution), (X, Y). Dalam populasi pasangan nilai-nilai (x, y) tersebut kita dapat menentukan rata-rata populasi bagi
variabel X, yaitu µx, dan rata-rata populasi bagi variabel Y, µy. Keragaman dalam nilai-nilai X dan Y masing-masing diukur oleh varians populasi bagi variabel yang
bersangkutan, yaitu 2xσ dan 2
yσ , dimana
[ ]22 )( xx XE µσ −= ......................................................................... [7.33]
dan
[ ]22 )( yy XE µσ −= ......................................................................... [7.34]
Untuk data sampel, nilai 2xσ diduga dengan varians sampel 2
xs yang dihitung
dengan rumus berikut:
( )1
2
2
−
−= ∑
n
xxs
i
x ........................................................................... [7.35]
Penduga bagi 2yσ yaitu 2
ys dapat dihitung dengan cara yang sama.
Salah satu cara untuk mengetahui apakah kedua variabel tersebut berkaitan satu sama lainnya adalah dengan menghitung kovarians (covariance) bagi kedua
217
variabel tersebut. Jika data yang kita miliki adalah data populasi, maka kovarians
populasi bagi variabel X dan Y dinotasikan dengan xyσ dimana
( ) ( )( )[ ]yxxy YXEYXCov µµσ −−== , ........................................... [7.36]
Untuk data sampel nilai xyσ diduga dengan kovarians sampel , sxy, yang dihitung
dengan rumus berikut:
( )( )1−
−−= ∑
n
yyxxs
ii
xy ................................................................ [7.37]
atau
−
−= ∑∑∑
n
yxxy
nsxy
1
1 ...................................................... [7.38]
Koefisien keragaman mengukur seberapa besar kedua variabel tersebut bervariasi secara bersama-sama. Kelemahan penggunaan kovarians dalam mengukur kekuatan hubungan antar variabel X dan Y diantaranya adalah bahwa besaran
xyσ dan sxy sangat tergantung pada satuan yang digunakan untuk mengukur
variabel X dan Y. Misalnya, dalam mempelajari hubungan antara diameter pohon
(X) dan tinggi pohon (Y), maka nilai xyσ (dan sxy) akan mempunyai nilai yang lebih
besar jika kedua variabel tersebut diukur dalam satuan cm daripada jika diukur dalam satuan inchi. Masalah satuan tersebut sering kali dijumpai dalam persoalan ekonomi dan bisnis, dimana nilai mata uang (misalnya rupiah) seringkali dinyatakan dalam ribuan, jutaan atau milyaran. Untuk mengatasi masalah tersebut, kovarians sering dibakukan sehingga tidak lagi tergantung pada satuan pengukuran variabelnya. Kovarians populasi yang dibakukan disebut juga koefisien korelasi populasi (population correlation coefficient) yang dinotasikan
dengan huruf Yunani ρ (dibaca rho), dimana
yx
xy
σσ
σρ = ..................................................................................... [7.39]
Dapat ditunjukkan bahwa untuk setiap populasi pasangan nilai (x, y), maka
–1 ≤ ρ ≤ 1 ....................................................................................... [7.40]
Ketika ρ = 0 maka variabel X dan Y tidak berasosiasi secara linier, dan dikatakan bahwa X dan Y tidak berkorelasi. Jika semua pasangan nilai (x, y) terletak pada
suatu garis lurus dengan koefisien kemiringan (slope) yang positif, maka ρ = 1. Jika semua pasangan nilai (x, y) terletak pada suatu garis lurus dengan koefisien
kemiringan (slope) yang negatif, maka ρ = –1. Jika pasangan nilai (x, y) terletak di sekitar suatu garis lurus dengan koefisien kemiringan (slope) yang positif, maka
218
X
Y
a. ρ = –1
X
Y
b. ρ = –1
X
Y
c. ρ = –0,7
X
Y
d. ρ = –0,7
X
Y
e. ρ = 0
X
Y
f. ρ = 0
X
Y
g. ρ = 0,7
X
Y
h. ρ = 0,7
X
Y
i. ρ = 1
X
Y
j. ρ = 1
Gambar 7.9 Ilustrasi tentang beberapa nilai koefisien korelasi
219
nilai ρ akan mendekati nilai +1, dan sebaliknya jika pasangan nilai (x, y) terletak di sekitar suatu garis lurus dengan koefisien kemiringan (slope) yang negatif, maka
nilai ρ akan mendekati nilai –1. Keadaan ini menunjukkan bahwa ρ merupakan suatu ukuran kekuatan hubungan linier antar dua variabel. Secara umum,
� Nilai ρ = –1 menunjukkan suatu hubungan linier negatif yang sempurna
� Nilai ρ = +1 menunjukkan suatu hubungan linier positif yang sempurna
� Semakin besar nilai mutlak dari ρ semakin kuat hubungan linier kedua variabel tersebut
� Nilai ρ = 0 menunjukkan tidak adanya hubungan linier antara kedua variabel, artinya, jika kedua variabel tersebut bersifat saling bebas
(independen) maka nilai ρ = 0. Akan tetapi jika nilai ρ = 0 tidak berarti bahwa kedua variabel tersebut bersifat saling bebas, karena kedua variabel tersebut dapat saja mempunyai hubungan yang tidak linier.
Gambar 7.9 menyajikan beberapa pasangan data (x, y) dengan nilai koefisien korelasi yang berbeda. Misalnya gambar 7.9.a dan 7.9.b menyajikan dua set data yang berbeda tetapi mempunyai koefisien korelasi yang sama (dalam hal ini
ρ = –1). Koefisien korelasi menunjukkan letak atau posisi sebaran data terhadap suatu garis lurus. Semakin dekat data tersebut dengan suatu garis lurus maka koefisien korelasinya akan semakin mendekati 1 atau –1 (tergantung koefisien kemiringan garis lurus tersebut).
Nilai koefisien korelasi populasi, ρ, diduga dengan menghitung koefisien korelasi sampel yang dinotasikan dengan r:
yx
xy
ss
sr = ....................................................................................... [7.41]
dimana sxy adalah kovarians sampel; sx dan sy masing-masing adalah simpangan baku sampel bagi variabel X dan Y. Nilai r dalam persamaan [7.41] biasa juga disebut sebagai koefisien korelasi Pearson (Pearson product-moment correlation coefficient).
Koefisien korelasi, baik untuk populasi maupun untuk sampel, tidak mempunyai satuan dan nilainya tidak berubah dengan berubahnya satuan pengukuran variabel X dan Y. Sebagai contoh, nilai koefisien korelasi tidak berubah walaupun variabel jarak X diukur dalam satuan cm, inci ataupun meter, atau variabel berat Y diukur dalam satuan gr, kg ataupun ton.
220
7.10 Hubungan antara koefisien korelasi dengan koefisien regresi
Koefisien korelasi r dan koefisien regresi b1 keduanya merupakan ukuran keeratan hubungan linier antar variabel X dan Y. Hubungan kedua koefisien tersebut dinyatakan sebagai berikut:
x
y
s
srb =1 ....................................................................................... [7.42]
atau
y
x
s
sbr 1= ....................................................................................... [7.43]
dimana sx dan sy masing-masing adalah simpangan baku bagi variabel X dan Y.
Karena sx dan sy keduanya selalu bernilai positif, maka r = 0 hanya terjadi jika b1 = 0. Artinya, koefisien korelasi akan bernilai nol jika dan hanya jika garis persamaan regresinya merupakan suatu garis mendatar yang koefisien kemiringannya adalah nol. Suatu persamaan garis regresi yang mendatar menunjukkan bahwa variabel X sama sekali tidak dapat digunakan untuk menduga nilai-nilai variabel Y. Oleh karena itu, pernyataan bahwa variabel X tidak berkorelasi dengan variabel Y, pada dasarnya sama saja dengan pernyataan bahwa variabel X tidak mempunyai hubungan linier dengan variabel Y.
Selain itu, karena sx dan sy keduanya selalu bernilai positif, maka koefisien korelasi r mempunyai tanda yang sama dengan koefisien regresi b1. Artinya, koefisien korelasi r akan bertanda positif jika persamaan garis regresinya mempunyai koefisien kemiringan yang positif, dan sebaliknya.
Contoh 7.5
Koefisien korelasi untuk data dalam contoh 7.4 dihitung sebagai berikut:
( )( )6844,58
78
68,238303,77192558,240412
77
1
1
1
=
−=
−
−= ∑∑∑
n
yxxy
nsxy
( ) ( )
3525,32978
03,77191937,789250
77
1
1
1
1
2
2
2
2
2
=
−=
−
−=
−
−= ∑∑∑
n
xx
nn
xxs
i
x
221
( ) ( )
3427,5478
68,23836492,77029
77
1
1
1
1
2
2
2
2
2
=
−=
−
−=
−
−= ∑∑∑
n
yy
nn
yys
i
y
sehingga
( )( )439,0
3427,543525,329
6844,58===
yx
xy
ss
sr
Perhatikan bahwa koefisien korelasi r dapat juga dihitung dengan rumus [7.43],
yaitu
439,03427,54
3525,3291782,01 =×==
y
x
s
sbr
7.11 Beberapa masalah dalam analisis regresi
Beberapa masalah yang biasa mengurangi keabsahan analisis regresi diantaranya adalah:
� Variabel lain yang diabaikan. Jika variabel X dan Y keduanya dipengaruhi oleh variabel lain, maka koefisien b1 mungkin kurang mencerminkan hubungan antara variabel X dan Y yang sebenarnya.
� Hubungan yang tidak linier. Metode kuadrat terkecil menetapkan suatu
garis lurus yang dianggap paling cocok bagi data tersebut. Garis tersebut dapat memberikan informasi yang salah jika hubungan antara variabel Y dan X sebenarnya tidak linier.
� Varians galat yang tidak konstan. Jika varians galat dapat berubah dengan berubahnya nilai X, maka nilai galat baku, hasil pengujian
hipotesis dan selang kepercayaan bagi koefisien regresi patut diragukan kebenarannya.
� Korelasi antar galat. Inferens tentang koefisien regresi yang menyangkut
pengujian hipotesis, pendugaan selang kepercayaan dan nilai galat baku berdasarkan atas asumsi bahwa nilai-nilai galat bersifat independen, artinya tidak berkorelasi. Sehingga jika asumsi tersebut tidaj dipenuhi, maka inferens tentang koefisien regresipun patut diragukan kebenarannya.
� Galat yang tidak berdistribusi normal. Prosedur pengujian hipotesis dengan statistik t dan F berdasarkan atas asumsi kenormalan nilai-nilai
222
galat. Namun demikian, analisis regresi bersifat ‘robust’ terhadap asumsi
kenormalan ini, artinya jika tidak terlalu serius menyimpang dari distribusi normal maka inferens tentang garis regresi dan koefisien regresi tidak terlalu terpengaruhi.
� Kasus influensial. Metode kuadrat terkecil sangat peka terhadap data pencilan (outlier). Satu nilai data pencilan saja dapat menarik garis regresi
ke atas atau ke bawah dan secara substansial mempengaruhi hasil secara keseluruhan.
Diagram pencar (scatter plot) antara variabel Y dan X biasanya sangat efektif
dalam mendeteksi beberapa penyimpangan dalam data. Oleh karena itu, diagram ini sangat dianjurkan untuk digunakan pada tahap awal analisis data. Selain itu, grafik nilai sisaan juga sering kali merupakan alat diagnostik yang bermanfaat. Seperti telah kita ketahui, asumsi dari analisis regresi terfokus pada nilai galat, oleh karena itu nilai sisaan, yang merupakan nilai dugaan bagi nilai galat, dapat digunakan untuk memeriksa asumsi-asumsi tersebut.
-15
0
15
30
20 30 40
Nilai dugaan
Nila
i sis
aan
Gambar 7.10 Plot antara nilai sisaan dengan nilai dugaan
Gambar 7.10 menyajikan suatu plot antara nilai sisaan dengan nilai dugaan dari regresi antara berat kering tanah terhadap berat basah tanah. Sajian grafik antara nilai sisaan dengan nilai dugaan merupakan suatu alat diagnostik yang dapat dipergunakan untuk berbagai keperluan. Rata-rata dari nilai sisaan adalah nol, hal ini ditunjukkan dengan garis mendatar dalam gambar tersebut. Berat kering sampel tanah yang lebih tinggi dari nilai dugaannya mempunyai nilai sisaan yang positif dan dipetakan di atas garis e = 0, sedangkan berat kering sampel tanah
yang lebih ringan dari nilai dugaannya dipetakan di bawah garis tersebut. Dalam gambar 7.10 terlihat kemungkinan adanya suatu nilai pencilan (outlier), yaitu nilai
223
pengamatan yang nilai sisaannya sangat besar dan jauh berbeda dengan nilai-nilai lainnya.
Dugaan(a) Plot yang ideal
0
Dugaan
(b) Kasus influensial
0
Dugaan
(c) Tidak berdistribusi normal
0
Dugaan(d) Hubungan yang tidak linier
0
Dugaan
(e) Heterogenitas varians
0
Dugaan(f) Heterogentitas varians
0
Gambar 7.11 Beberapa bentuk hubungan antara nilai sisaan dengan nilai dugaan
Beberapa kemungkinan bentuk pemetaan antara nilai sisaan dengan nilai dugaannya disajikan dalam gambar 7.11. Gambar 7.11.a adalah suatu contoh plot sisaan dengan nilai dugaan yang ideal (data artifisial). Distribusi nilai sisaan terlihat normal dan menyebar secara merata. Dalam plot tersebut tidak terlihat
224
adanya nilai pencilan atau bentuk ketidak–linieran. Gambar 7.11.b – f menyajikan kasus-kasus dimana asumsi tentang galat terlanggar.
Dalam banyak kasus, pelanggaran terhadap asumsi dalam analisis regresi sering kali dapat diatasi dengan melakukan transformasi baik terhadap variabel dependen maupun variabel independen atau keduanya. Terdapat beberapa jenis transformasi yang sering digunakan, diantaranya adalah transformasi akar kuadrat (square-root transformation), transformasi logaritma (logarithmic transformation) dan transformasi terbalik (recipcoral transformation). Namun demikian, penentuan atau pemilihan bentuk transformasi yang layak digunakan sering kali bukan merupakan hal yang mudah.
Soal-soal latihan
7.1 Jelaskan apa yang dimaksud dengan garis regresi populasi
7.2 Jelaskan apa yang dimaksud dengan garis regresi sampel
7.3 Jelaskan mengapa terjadi perbedaan antara persamaan garis regresi populasi dengan garis regresi sampel?
7.4 Jelaskan asumsi yang mendasari analisis regresi linier sederhana
7.5 Misalkan persamaan suatu garis regresi sampel adalah sebagai berikut:
ii xy 5,310ˆ +=
Tentukan nilai sisaan bagi nilai-nilai pengamatan berikut:
a. (xi = 20, yi = 75) b. (xi = 14, yi = 58) c. (xi = 10, yi = 50)
7.6 Seorang direktur bagian personalia sebuah perusahaan berpendapat bahwa terdapat suatu hubungan antara umur seorang operator komputer di perusahaannya dengan jumlah hari ketidakhadiran operator tersebut dalam tempo enam bulan. Dia kemudian mengambil sampel acak yang terdiri dari 10 orang dan diperoleh data sebagai berikut:
Operator 1 2 3 4 5 6 7 8 9 10
Jumlah hari absen (Y) 12 10 10 9 8 12 6 11 15 8 Umur (X) 25 30 42 33 45 27 55 41 22 58
a. Tentukan persamaan regresi yang menunjukkan hubungan antara umur
operator dengan jumlah ketidak-hadirannya di tempat kerja. b. Interpretasikan koefisien-koefisien regresinya c. Tentukan nilai simpangan baku sisaan dan interpretasikan nilai tersebut d. Tentukan nilai koefisien determinasi (R
2), dan interpretasikan nilai tersebut
7.7 Sebuah penelitian kecil dilaksanakan di sebuah kota di bagian timur laut benua Amerika untuk mengamati pola penggunaan listrik masyarakat di
225
daerah tersebut. Data yang dikumpulkan oleh peneliti tersebut diantaranya adalah jumlah penggunaan daya listrik bulanan per rumah tangga (dalam satuan kilowatt-jam (KWH)) dan suhu bulanan rata-rata (dalam satuan derajat Fahrenheit) yang dihitung sebagai rata-rata suhu pada siang hari dalam bulan tersebut. Hasil sampel selama 10 bulan diperoleh data sebagai berikut:
Penggunaan listrik (Y)
Suhu bulanan rata-rata (X)
1000 420 400 705 550 850
1020 670 610 560
18 50 55 30 45 25 17 35 38 42
a. Tentukan persamaan garis regresi sampelnya b. Interpretasikan koefisien-koefisien regresinya c. Tentukan nilai simpangan baku sisaan dan interpretasikan nilai tersebut d. Tentukan nilai koefisien determinasi (R
2), dan interpretasikan nilai tersebut
e. Dugalah penggunaan daya listrik per rumah tangga ketika rata-rata suhu bulanan adalah 40
o F
7.8 Untuk suatu jenis sepeda motor tertentu, hubungan antara ongkos perbaikan kendaraan (dalam ribuan rupiah) dengan umur kendaraan (tahun) mendekati suatu bentuk hubungan yang linier. Dari 9 sampel sepeda motor yang diambil secara acak, diperoleh data sebagai berikut:
Sepeda motor 1 2 3 4 5 6 7 8 9
Ongkos perbaikan (Y) 80 99 79 138 170 140 114 83 94 Umur (X) 2 3 1 7 10 8 4 1 2
a. Tentukan persamaan garis regresinya b. Interpretasikan koefisien-koefisien regresinya c. Tentukan nilai simpangan baku sisaan dan interpretasikan nilai tersebut d. Tentukan nilai koefisien determinasi (R
2), dan interpretasikan nilai tersebut
e. Dugalah ongkos perbaikan yang mungkin harus dikeluarkan untuk sepeda motor berusia 6 tahun dan 3 tahun.
7.9 Data berikut ini adalah hasil pengukuran diameter dan tinggi pohon Pinus pinaster Ait. pada umur 9 tahun:
226
Pohon 1 2 3 4 5 6 7 8 9 10 11 12
Diameter (cm) 11,2 5,55 11,05 10,45 10,1 5,25 8,6 10,65 8,95 7,6 5,45 9,35
Tingggi (m) 7,1 4,8 6,6 6,4 6,8 4,5 5,1 6,1 6,0 5,6 5,1 5,6
a. Tentukan model persamaan garis regresi untuk menduga tinggi pohon dengan menggunakan diameternya
b. Interpretasikan koefisien-koefisien regresinya c. Tentukan nilai simpangan baku sisaan dan interpretasikan nilai tersebut d. Tentukan nilai koefisien determinasi (R
2), dan interpretasikan nilai tersebut
e. Dugalah tinggi pohon pinus yang diameternya adalah 7 cm
7.10 Data berikut ini adalah hasil pengukuran terhadap diameter tujuh pohon Pinus pinaster Ait. yang diukur pada berbagai tingkat umur:
Umur (tahun)
Pohon 9 12 16
1 8,05 12,00 15,70
2 8,55 12,65 15,90
3 6,55 10,4, 13,25
4 12,00 16,2, 19,50
5 8,90 13,10 16,30
6 8,25 11,40 13,60
7 8,85 12,60 15,00
a. Tentukan model persamaan garis regresi untuk menduga diameter pohon berdasarkan umur pohon tersebut
b. Interpretasikan koefisien-koefisien regresinya c. Tentukan nilai simpangan baku sisaan dan interpretasikan nilai tersebut d. Tentukan nilai koefisien determinasi (R
2), dan interpretasikan nilai tersebut
e. Dugalah tinggi pohon pinus yang umurnya adalah 11 dan13 tahun
7.11 Untuk soal-soal 7.6, 7.7, 7.8, 7.9 dan 7.10 di atas ujilah hipotesis H0: β1 = 0, dan apakah kesimpulan anda?
7.12 Jelaskan kelemahan penggunaan kovarians sebagai salah satu ukuran keeratan hubungan antar variabel X dan Y
7.13 Tentukan nilai-nilai kovarians bagi soal-soal 7.6, 7.7, 7.8, 7.9 dan 7.10 di atas
7.14 Dalam keadaan bagaimanakah koefisien korelasi antar dua variabel akan bernilai negatif?
7.15 Tentukan nilai dugaan bagi koefisien korelasi antar kedua variabel dalam soal -soal 7.6, 7.7 , 7.8, 7.9 dan 7.10