Bahan Ajar

188
MANAJEMEN DATA SPSS Statistika dapat didefinisikan sebagai ilmu yang dipakai untuk mengambil keputusan dalam kondisi tidak pasti, pijakan utama untuk mengambil keputusan adalah data. Dalam modul ini akan dibahas berbagai macam cara untuk mengelola data dengan bantuan SPSS. Setelah mempelajari modul ini, mahasiswa diharapkan mampu melakukan manajemen data dengan bantuan SPSS, manajemen data ini meliputi : a. Pendefinisian variabel b. Pembersihan data c. export/import data d. Penggabungan data e. Pemilihan data f. Pemecahan data g. Penyusunan syntax a. Pendefinisian Variabel Sebelum melakukan pemasukan data, biasanya dilakukan pendefinisian variabel yang meliputi nama variabel, jenisnya (numerik atau bukan), pemberian label, dan missing value. sebagai contoh disajikan contoh peragaan pendefinisian variabel jenis kelamin responden : klik data+define variable 1

Transcript of Bahan Ajar

Page 1: Bahan Ajar

MANAJEMEN DATA SPSS

Statistika dapat didefinisikan sebagai ilmu yang dipakai untuk mengambil

keputusan dalam kondisi tidak pasti, pijakan utama untuk mengambil

keputusan adalah data. Dalam modul ini akan dibahas berbagai macam cara

untuk mengelola data dengan bantuan SPSS.

Setelah mempelajari modul ini, mahasiswa diharapkan mampu

melakukan manajemen data dengan bantuan SPSS, manajemen data ini

meliputi :

a. Pendefinisian variabel

b. Pembersihan data

c. export/import data

d. Penggabungan data

e. Pemilihan data

f. Pemecahan data

g. Penyusunan syntax

a. Pendefinisian Variabel

Sebelum melakukan pemasukan data, biasanya dilakukan pendefinisian

variabel yang meliputi nama variabel, jenisnya (numerik atau bukan),

pemberian label, dan missing value. sebagai contoh disajikan contoh

peragaan pendefinisian variabel jenis kelamin responden :

klik data+define variable

1

Page 2: Bahan Ajar

variabel jenis kelamin responden diberi nama : sex, setelah nama variabel sudah ditentukan maka ditentukan jenis variabel dengan mengklik Type

Variabel sex ini jenisnya adalah numeric dengan lebar 1 angka, angka yang diisikan nantinya adalah 1 untuk laki-laki, dan 2 untuk perempuan. Untuk membe-ri label seperti ini dilakukan perintah dengan mengklik Labels

Variabel sex diberi label Jenis Kelamin Responden dan bernilai 1 untuk laki-laki dan 2 untuk perempu-an, jika ada responden yang tidak mengisi perta-nyaan ini, maka hal ini disebut missing values. untuk memfasilitasi hal ini dapat dilakukan dengan mengklik Missing Values di define variable window

2

Page 3: Bahan Ajar

Jika ada responden yang tidak mengisi pertanyaan jenis kelamin, maka ditandai dengan -1, pemilihan lambing bilangan untuk missing values biasanya diberi sebagai suatu nilai yang tidak mungkin seandainya variabel tersebut terisi

b. Pembersihan Data

Data yang sudah dimasukkan dengan bantuan komputer, masih

dimungkinkan untuk salah dimasukkan akibat kelalaian manusia. Untuk

memeriksa adanya kesalahan semacam ini dapat digunakan distribusi

frekuensi untuk data yang bersklala diskrit ataupun nilai statistik deskriptif

untuk data yang berskala kontinyu.

Jenis Kelamin Responden

47 47.0 48.5 48.5

47 47.0 48.5 96.9

2 2.0 2.1 99.0

1 1.0 1.0 100.0

97 97.0 100.0

3 3.0

100 100.0

Laki-laki

Perempuan

3

4

Total

Valid

-1Missing

Total

Frequency Percent Valid PercentCumulative

Percent

Dari contoh distribusi frekuensi di atas, terlihat ada jenis kelamin yang

bernilai 3 dan 4 , sehingga masih ada kesalahan yang perlu untuk diperbaiki

dengan melihat kembali data yang tercatat sebelum dimasukkan ke komputer.

3

Page 4: Bahan Ajar

Descriptive Statistics

98 8.00 14800.00 7904.1633 3609.45489

98

NIlai makansiang kemarin

Valid N (listwise)

N Minimum Maximum Mean Std. Deviation

Rata-rata komsumsi responden untuk sekali makan siang adalah adalah

7904 rupiah dengan nilai minimum 8 rupiah, nilai minimum 8 rupiah jelas

merupakan data yang salah mengingat tidak mungkin sekali makan siang

menghabiskan 8 rupiah. Sehingga perlu diadakan perbaikan data dengan

memeriksa kembali catatan data sebelum dimasukkan ke komputer.

Pemriksaan kesalahan data dapat juga dengan melibatkan dua variabel

seperti contoh berikut :

Banyaknya anak * status perkawinan Crosstabulation

Count

0 46 46

13 2 15

11 0 11

17 0 17

8 0 8

49 48 97

.00

1.00

2.00

3.00

4.00

Banyaknyaanak

Total

MenikahBelum

Menikah

status perkawinan

Total

Ada responden yang belum menikah yang sudah mempunyai anak, hal ini

perlu dilakukan pemeriksaan, apakah memang benar seperti ini atau terjadi

kesalahan.

c. Export/Import Data

Setiap program paket Statistika diharapkan mampu berkomunikasi dengan

program paket Statistika yang lain dengan cara mampu untuk berbagi data,

atau data yang telah disimpan dengan program paket A diharapkan dapat

diolah oleh program B, sebagai contoh diperagakan hal berikut :

4

Page 5: Bahan Ajar

1. Buka data world95.sav dengan SPSS

klik File+Open+Data

2. Simpan data dengan type dbf ke c:\My Documents\world95.dbf

Klik File+Save As…

5

Page 6: Bahan Ajar

3. Buka world95.dbf dengan bantuan MINITAB

Klik File+Open Worksheet

dan data world95 siap diolah dengan bantuan MINITAB

6

Page 7: Bahan Ajar

d. Penggabungan Data

Program paket SPSS mempunyai kemampuan untuk menggabung file

kesamping atau ke bawah :

Contoh penggabungan kesamping :

Ada dua file :

File Biodata : NRP, Nama, Tempat Lahir, Tgl Lahir, Jenis Kelamin

File NIlai : NRP, PMS, MAT1, MAT2, ED, AR

Dua file ini dapat digabung jika ada variabel yang bersifat unik (nilainya

berbeda untuk mahasiswa yang berbeda), variabel ini disebut juga sebagai key

variable. Dalam hal ini variabel tersebut adalah NRP. Dengan bantuan SPSS

penggabungan tersebut dapat dilakukan dengan tahapan :

1. Buka file pertama dengan cara File+Open+data

2. Gabung dengan file kedua dengan cara klik Data+Merge Files+Add

Variables kemudian isikan key-variablenya

Contoh penggabungan kebawah :

Ada dua file

File NIlai 1 : NRP, PMS, MAT1, MAT2, ED, AR

File NIlai 2 : NRP, PMS, MAT1, MAT2, ED, AR

Dengan bantuan SPSS penggabungan tersebut dapat dilakukan dengan

tahapan :

1. Buka file pertama dengan cara File+Open+data

2. Gabung dengan file kedua dengan cara klik Data+Merge Files+Add

cases kemudian isikan key-variablenya

e. Pemilihan Data

Di dalam program paket SPSS tersedia fasilitas pemilihan kasus,

sehingga analisis Statistika yang dilakukan hanya valid untuk kasus yang

terpilih. Contoh peragaan dari fasilitas ini adalah :

7

Page 8: Bahan Ajar

Tampilkan scatter-plot dari harapan hidup perempuan dan pendapatan

perkapita untuk Negara-negara di Asia/Pasifik.

1. Pemilihan Negara-negara Asia, klik Data+Select Cases

klik if

Dari hasil pemilihan Negara dari region=3(Asia) akan tampak hasil berikut

:

8

Page 9: Bahan Ajar

Negara-negara yang tidak terpilih akan tercoret.

9

Page 10: Bahan Ajar

2. Scatter-plot, Klik Graph+Scatter+Simple

klik options

10

Page 11: Bahan Ajar

f. Pemecahan Data

Di dalam program paket SPSS juga tersedia vasilitas pengelompokan

data berdasarkan nilai variabel tertentu. Setetlah pengelompokan dilakukan

maka analisis yang dilakukan, hasilnya akan disajikan pada setiap kelompok

variabel tersebut. Contoh peragaan dari pemecahan data adalah :

Tampilkan scatter-plot antara harapan hidup perempuan dan pendapatan

perkapita pada setiap region(Asia, Afrika,…).

1. Pemecahan Data : Klik Data+Split File

3. 2, Scatter-Plot, Klik Graph+Scatter+Simple

Akan disajikan scatter-plotuntuk setiap region.

11

Page 12: Bahan Ajar

h. Penyusunan Syntax

Program paket SPSS dapat dioperasikan dengan dua macam cara. Cara

pertama melalui klik pada menu yang ada dan cara kedua dengan cara

menuliskan syntax. Contoh penulisan syntax adalaghsebagai berikut :

Klik File+New+Syntax

Kemudian tuliskan perintah-perintah yang dibutuhkan :

Cara pengoperasian SPSS melalui syntax akan terasa lebih efisien, bila

data berukuran besar dan analisis yang akan dilakukan pada data tersebut ada

banyak macamnya.

12

Page 13: Bahan Ajar

PEMERIKSAAN DATA

Statistika dapat didefinisikan sebagai ilmu yang dipergunakan untuk

menyimpulkan kondisi populasi berdasarkan kondisi sampel, untuk melakukan

hal ini biasanya dilakukan tahapan yang disebut pengujian hipotesis, hasil dari

pengujian hipotesis ini dapat dikatakan valid jika beberapa syarat terpenuhi,

syarat-syarat itu diantaranya, kenormalan, kehomogenan varians dan

kelinearan. Diharapkan setelah mempelajari modul ini mahasiswa mempunyai

kompetensi :

a. Melakukan pemeriksaan dan pengujian kenormalan

b. Melakukan pemeriksaan dan pengujian kehomogenan varians

Kenormalan

Asumsi tentang distribusi seringkali dibutuhkan kalau kita menggunakan

Statistika parametrik, asumsi terutama dibutuhkan jika diadakan pengujian

hipotesis. Asumsi ini dapat diperiksa dengan beberapa cara diantaranya

melalui histogram dan normal probability plot. Contoh histogram dan npp dari

data yang berdistribusi uniform, eksponensial dan normal adalah sebagai

berikut : (Gambar 1.)

Dari contoh gambar ini, dapat disimpulkan bahwa data yang

berdistribusi uniform mempunyai normal probability-plot-nya berbentuk huruf S,

sedangan data yang berdistribusi eksponensial mempunyai normal probability

plot berbentuk huruf u, serta data yang berdistribusi normal mempunyai normal

probability plot garis lurus.

13

Page 14: Bahan Ajar

U

200.0

190.0

180.0

170.0

160.0

150.0

140.0

130.0

120.0

110.0

100.0

70

60

50

40

30

20

10

0

Normal P-P Plot of U

Observed Cum Prob

1.00.75.50.250.00

Exp

ecte

d C

um

Pro

b

1.00

.75

.50

.25

0.00

E

300

200

100

0

Normal P-P Plot of E

Observed Cum Prob

1.00.75.50.250.00

Exp

ecte

d C

um

Pro

b

1.00

.75

.50

.25

0.00

N

120

100

80

60

40

20

0

Normal P-P Plot of N

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

Gambar 1. Histogram dan normal probability plot dari data yang berdistribusi uniform, eksponensial dan normal

14

Page 15: Bahan Ajar

Variabel harapan hidup perempuan untuk Negara-negara Asia

cenderung berdistribusi normal, Karena normal probability plot-nya cenderung

membentuk garis lurus, sedangkan pendapatan perkapita cenderung

berdistribusi eksponen-sial, karena normal probability plot-nya membentuk

huruf U.

Normal P-P Plot of Average female life expectancy

Observed Cum Prob

1.00.75.50.250.00

Exp

ecte

d C

um

Pro

b

1.00

.75

.50

.25

0.00

Normal P-P Plot of Gross domestic product / capita

Observed Cum Prob

1.00.75.50.250.00

Exp

ecte

d C

um

Pro

b

1.00

.75

.50

.25

0.00

15

Page 16: Bahan Ajar

Selain dengan menggunakan normal probability plot, kenormalan data

dapat juga diuji dengan menggunakan beberapa statistik uji berikut :

a. Goodness of fit

b. Kolmogorov Smirnov

c. Anderson Darling

d. Shapiro Wilk

a. Goodness of fit

Statistik uji ini mengukur jumlah kuadrat perbedaan frekuensi sesungguh-

nya dengan frekuensi yang diharapkan kalau data berdistribusi normal. Secara

rinci statistik uji ini dapat dinyatakan dalam formula berikut :

Tolak H0 (Data berdistribusi normal) jika nilai k-2

Statistik uji ini diharapkan dipergunakan untuk data yang berukuran

besar. Statistik uji ini tidak tersedia di dalam paket SPSS ataupun MINITAB,

program paket yang menyediakan statistik uji ini adalah STATGRAPHICS.

b. Kolmogorov Smirnov

Statistik uji KS ditentukan berdasarkan nilai terbesar dari selisih antara

nilai fungsi distribusi teoritis dengan nilai fungsi distribusi empiris.

D= max|F(x)-i/n|

Tolak H0 (data berdistribusi normal) jika D>D. Statistik uji ini hanya dapat

dipergunakan untuk data yang kontinyu dan jika nilai dugaan parameter

dihitung dari sampel maka hasil pengujian ini cenderung tidak valid mengingat

dari hasil simulasi ditunjukkan nilai taksiran cenderung lebih kecil dari .

Statistik uji ini tersedia di program paket SPSS dan MINITAB. Hasil pengujian

kenormalan untuk data harapan hidup perempuan untuk Negara-negara di

Asia adalah sebagai berikut : [klik statistics+nonparamterics test+1 sample KS]

16

Page 17: Bahan Ajar

One-Sample Kolmogorov-Smirnov Test

17

67.41

10.886

.169

.090

-.169

.695

.719

N

Mean

Std. Deviation

Normal Parameters a,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

Averagefemale lifeexpectancy

Test distribution is Normal.a.

Calculated from data.b.

c. Anderson Darling

Statistik uji ini dikembangkan untuk mengatasi kelemahan statistik uji

Kolmogorov Smirnov yang hasil pengujiannya bisa tidak valid jika nilai dugaan

parameternya dihitung dari sampel. Nilai statistik uji ini dihitung dengan cara :

Statistik uji ini tidak tersedia di SPSS tetapi di MINITAB ada. Hasil

pengujian kenormalan dengan statistik uji Anderson Darling adalah : [klik

stat+basic statistics+normality test]

17

Page 18: Bahan Ajar

18

Page 19: Bahan Ajar

Shapiro-Wilk

Statistik uji Shapiro-Wilk dihitung berdasarkan urutan data yang

dinyatakan dalam :

Statistik Shapiro-Wilk telah dibandingkan dengan statistik uji kenormalan

yang lain melalui simulasi dan hasilnya lebih baik terutama untuk sampel kecil.

Hasil pengujian Shapiro-Wilk untuk data pendapatan per-kapita adalah :

[klik stat+basic statistics+normality test]

19

Page 20: Bahan Ajar

Kehomogenan varians

Kehomogenan varian untuk beberapa kelompok data dapat diperiksa

melalui box-plot. Box-plot dari harapan hidup perempuan dan pendapatan per-

kapita untuk beberapa region Afrika, Timur Tengah dan Amerika Latin adalah

sebagai berikut : [klik graphs+box-plot+defines]

211719N =

Region or economic group

Latn AmericaMiddle EastAfrica

Aver

age

fem

ale

life e

xpec

tanc

y

90

80

70

60

50

40

Haiti

211719N =

Region or economic group

Latn AmericaMiddle EastAfrica

Gro

ss d

omes

tic p

rodu

ct /

capi

ta

16000

14000

12000

10000

8000

6000

4000

2000

0

-2000

Barbados

SomaliaBotswanaSouth Africa

Gabon

Varians harapan hidup perempuan diregion Afrika, Timur Tengah dan

Amerika Latin relatif cenderung lebih homogen daripada pendapatan perkapita,

20

Page 21: Bahan Ajar

karena besar kotak harapan hidup perempuan cenderung sama besar

daripada besar kotak pendapatan per-kapita.

Selain dengan melihat box-plot, kehomogenan varians dapat diuji

dengan statistik uji Bartlett dan Levene. Statistik uji Bartlett dapat dipergunakan

jika data berdistribusi normal, sedangkan statistik uji Levene tidak

membutuhkan syarat kenormalan data. Statistik uji Bartlett dan Levene dapat

ditentukan dengan cara :

k = banyaknya kelompok

s2i = varians data pada kelompok ke-i

vi = ni – 1

ni = banyaknya data pada kelompok ke-i

mi = median data pada pelompok ke-i

m.. = median untuk keseluruhan data

Hasil pengujian kehomogenan varians dengan menggunakan statistik uji

Levene untuk data pendapatan perkapita di region Afrika, Timur Tengah dan

Amerika Latin adalah : [klik statistics+compare means+oneway anova]

21

Page 22: Bahan Ajar

Test of Homogeneity of Variances

1.850 2 54 .167

13.739 2 54 .000

Average femalelife expectancy

Gross domesticproduct / capita

LeveneStatistic df1 df2 Sig.

Sesuai dengan hasil pemeriksaan box-plot, dapat disimpulkan varians

harapan hidup perempuan adalah homogen (sig.>) sedangkan varians

pendapatan perkapita adalah tidak homogen (sig.<) di region Afrika, Timur

Tengah dan Amerika Latin.

22

Page 23: Bahan Ajar

TRANSFORMASI

Kompetensi

Setelah mempelajari modul ini diharapkan mahasiswa mampu untuk melakukan

transformasi untuk menormalkan data, menghomogenkan varians dan melinearkan

hubungan antar variabel.

Tujuan Transformasi

1. Menormalkan data

2. Menghomogenkan varians

3. Melinearkan hubungan antar variabel

Transformasi Box-Cox

Salah satu transformasi yang dapat dipakai untuk memnuhi tujuan transformasi

di atas adalah transformasi Box-Cox. Tranformasi ini dapat dinyatakan sebagai

berikut :

untuk dan y=ln(x) untuk

Pemilihan nilai biasanya dilakukan secara coba-coba dari nilai -3 sampai dengan +3,

coba-coba itu dilakukan dengan aturan :

Nomor Tujuan Transformasi Optimasi

1 Menormalkan Memaksimukan korelasi antara nilai observasi yang

terurut dengan nilai F-1[(i-3/8)/(n+1/4)]

2 Menhomogenkan

varians

Meminimukan nilai statistik uji F, Levene atau

Bartlett

3 Melinearkan hubu-

ngan antar variabel

Memaksimukan nilai korelasi antar variabel yang

sudah ditransformasi

23

Page 24: Bahan Ajar

Transformasi untuk menormalkan

Transformasi Box-Cox untuk menormalkan data dilakukan melalui algoritma

berikut :

1. mulai

. .

3. r_max=0, optimum=-3

4. ..

5. jika maka y=ln(x) jika tidak

6. r=korelasi antara nilai y dengan z=F-1[(i-3/8)/(n+1/4)]

7. Jika r>r_max maka r_max=r dan optimum=

8. Jika <3 maka pergi ke 4

9. Tulis optimum

10. selesai

Algoritma di atas dapat dinyatakan dalam macro MINITAB sebagai berikut :

24

Page 25: Bahan Ajar

macrobox1 xmconstant i n l l_opt r_max tempmcolumn x y z lambda r t1 t2mmatrix mrlet n=count(x)let l=-3.1let i=0let r_max=0while l<3 let i=i+1 let l=l+0.1 let lambda(i)=l if l=0 let y=ln(x) endif if l<>0 let y=(x**l-1)/l endif nscore y z corr y z mr copy mr t1 t2 let temp=t1(2) if temp>r_max let r_max=temp let l_opt=l endif let r(i)=temp endwhileplot r*lambdaprint l_opt r_maxendmacro

25

Page 26: Bahan Ajar

Tranformasi untuk menghomogenkan varians

Kehomogenan varians dari k kelompok data dapat diuji dengan menggunakan

statistik uji Bartlett (T) yang dinyatakan :

dan

Pemilihan nilai untuk transformasi Box-Cox untuk menghomogenkan varians

dilakukan dengan cara meminimukan statistik uji Barlett (T), algoritma untuk memilih

nilai itu dapat dinyatakan sebagai berikut :

1. mulai

. .

3. t_min=1000, optimum=-3

4. ..

5. jika maka y=ln(x) jika tidak

6. t=nilai statistic uji Bartlett untuk menguji kehomogenan y

7. Jika t<t_min maka t_min=t dan optimum=

8. Jika <3 maka pergi ke 4

9. Tulis optimum

10. selesai

Algoritma di atas dapat diimplementasikan ke dalam macro MINITAB berikut :

26

Page 27: Bahan Ajar

macrobox2 x groupmconstant i j k n ii sp t t1 t2 l l_opt t_minmcolumn x group ni vari y z lambda index temp bartlettlet n=count(x)let l=-3.1let ii=0let k=maxi(group)do i=1:k let ni(i)=0enddolet j=1do i=1:n if group(i)=j let ni(j)=ni(j)+1 endif if group(i)<>j let j=j+1 let ni(j)=ni(j)+1 endifenddodo i=1:k if i=1 let index(i)=1 endif if i>1 let index(i)=index(i-1)+ni(i-1) endifenddowhile l<3 let ii=ii+1 let l=l+0.1 let lambda(ii)=l if l=0 let y=ln(x) endif if l<>0 let y=(x**l-1)/l endif do i=1:k let t1=index(i) let t2=t1+ni(i)-1 copy y temp; use t1:t2. let vari(i)=(stdev(temp))**2 enddo let sp=sum((ni-1)*vari/(n-k)) let t1=(n-k)*loge(sp)-sum((ni-1)*loge(vari)) let t2=1+1/(3*(k-1))*((sum(1/(ni-1))-1/(n-k))) let t=t1/t2 let bartlett(ii)=tendwhileplot bartlett*lambdasort bartlett lambda bartlett lambdalet l_opt=lambda(1)let t_min=bartlett(1)print l_opt t_minendmacro

27

Page 28: Bahan Ajar

Transfomasi untuk melinearkan data

Permilihan nilai untuk melinearkan hubungan antara variabel y dengan x,

dilakukan dengan cara memaksimukan korelasi antara variabel y dengan transfrormasi

variabel x. . Algoritma untuk memaksimumkan korelasi tersebut adalah :

1. mulai

..

.r_max=0, optimum=-3

4...

.jika maka z=ln(x) jika tidak

6. r=harga mutlak korelasi antara nilai y dengan z

7. Jika r>r_max maka r_max=r dan optimum=

8. Jika <3 maka pergi ke 4

9. Tulis optimum

10. selesai

Algoritma di atas dapat dinyatakan dalam macro MINITAB berikut :

28

Page 29: Bahan Ajar

macrobox1 y xmconstant i n l l_opt r_max tempmcolumn x y z lambda r t1 t2mmatrix mrlet n=count(x)let l=-3.1let i=0let r_max=0while l<3 let i=i+1 let l=l+0.1 let lambda(i)=l if l=0 let z=ln(x) endif if l<>0 let z=(x**l-1)/l endif corr y z mr copy mr t1 t2 let temp=t1(2) let temp=abs(temp) if temp>r_max let r_max=temp let l_opt=l endif let r(i)=temp endwhileplot r*lambdaprint l_opt r_maxendmacro

29

Page 30: Bahan Ajar

Kegiatan Praktikum

1. Banyaknya penumpang pesawat udara bulanan yang dicatat selama 12 tahun adalah sebagai berikut : 112 118 132 129 121 135 148 148 136 119 104 118 115 126 141 135 125 149 170 170 158 133 114 140 145 150 178 163 172 178 199 199 184 162 146 166 171 180 193 181 183 218 230 242 209 191 172 194 196 196 236 235 229 243 264 272 237 211 180 201 204 188 235 227 234 264 302 293 259 229 203 229 242 233 267 269 270 315 364 347 312 274 237 278 284 277 317 313 318 374 413 405 355 306 271 306 315 301 356 348 355 422 465 467 404 347 305 336 340 318 362 348 363 435 491 505 404 359 310 337 360 342 406 396 420 472 548 559 463 407 362 405 417 391 419 461 472 535 622 606 508 461 390 432

Periksalah kenormalan di atas, jika data tidak berdistribusi normal maka tentukan transformasi yang sesuai untuk menormalkan data.2. Lakukan pengujian kesamaan varians antar tahun untuk data di atas, jika ternyata varians tidak homogen, tentukan transformasi yang sesuai untuk menghomogenkan varians.3. Niai harapan hidup perempuan (y) dan pendapatan per-kapita (x) Negara-negara di Asia adalah sebagai berikut :

COUNTRY LIFEEXPF GDP_CAP

Afghanistan 44 205

Bangladesh 53 202

Cambodia 52 260

China 69 377

Hong Kong 80 14641

India 59 275

Indonesia 65 681

Japan 82 19860

Malaysia 72 2995

N. Korea 73 1000

Pakistan 58 406

Philippines 68 867

S. Korea 74 6627

Singapore 79 14990

Taiwan 78 7055

Thailand 72 1800

Vietnam 68 230

Tentukan model yang paling sesuai untuk menjelaskan hubungan antar variabel y dan x.

30

Page 31: Bahan Ajar

Penyelesaian :

1. Pemeriksaan dan pengujian kenormalan :

MTB > %pp.txt c1;SUBC> blom;SUBC> normal.

Pearson correlation of xsort and inv = 0.977

Nilai korelasi antara nilai observasi dengan F-1[(i-3/8)/(n+1/4)] adalah 0.977 lebih

kecil dari nilai r0.05 sehingga dapat disimpulkan data penumpang pesawat udara tidak

berdistribusi normal. Untuk menormalkan dilakukan transformasi Box-Cox :

MTB > %box1.txt c1

l_opt 0.000000000 r_max 0.990184

31

Page 32: Bahan Ajar

Nilai korelasi antara nilai observasi dengan F-1[(i-3/8)/(n+1/4)] yang diperoleh dengan

transformasi Box-Cox dengan =0 sudah lebih besar dari nilai r_tabel sehingga dapat

disimpulkan bahwa transformsi ln(x) berhasil menormalkan data.

2. Pengujian kehomogenan varians :

MTB > %Vartest 'x' 'tahun' Bartlett's Test (normal distribution)Test Statistic: 66.511P-Value : 0.000 Levene's Test (any continuous distribution)Test Statistic: 2.727P-Value : 0.003

p-value<5% sehiingga dapat disimpulkan varians penumpang pesawat udara bulanan

tidak mempunyai varians yang konstan. Untuk menstabilkan varians ini dilakukan

transformasi Box-Cox sebagai berikut :

MTB > %box2.txt c1 c2

l_opt -0.300000 t_min 1.50878

Nilai optimum adalah -0.3 dekat dengan =0 (bilangan bulat terdekat dan

menyesuaikan dengan transformasi yang menormalkan data), sehingga dicoba

32

Page 33: Bahan Ajar

ditransformasi dengan ln(x). Hasil pengujian kehomogenan varians untuk data

transformasi ln(x) adalah :

MTB > %vartest c10 c2Bartlett's Test (normal distribution)Test Statistic: 4.610P-Value : 0.949 Levene's Test (any continuous distribution)Test Statistic: 0.199P-Value : 0.9973. Langkah awal untuk menentukan model terbaik yang mengubungkan antar variabel,

dapat dilakukan dengan cara memilih transformasi untuk memaksimumkan korelasi

antar dua variabel :

MTB > %box3.txt c2 c3

l_opt -0.500000 r_max 0.887895

Nilai optimum diperoleh =-0.5 sehingga model yang paling sesuai adalah:

33

Page 34: Bahan Ajar

Nilai dugaan untuk dan adalah ::

MTB > let c4=1/sqrt(c3)MTB > regr c2 1 c4

Regression Analysis: LIFEEXPF versus akr-GDPThe regression equation isLIFEEXPF = 82.4 - 409 akr-GDPPredictor Coef SE Coef T PConstant 82.408 2.366 34.83 0.000akr-GDP -409.17 54.74 -7.47 0.000S = 5.172 R-Sq = 78.8% R-Sq(adj) = 77.4%

Sehingga dugaan modelnya adalah : gambar persamaan

garis ini adalah :

34

Page 35: Bahan Ajar

PENDUGAAN DAN PENGUJIAN PARAMETER SATU POPULASI

Tahapan didalam pengambilan keputusan secara Statistika dapat

dinyatakan dalam : pengambilan sampel, pendugaan parameter populasi dan

pengujian parameter populasi. Setelah mempelajari modul ini di harapkan

mahsiswa dapat melkukan pendugaan dan pengujian parameter satu populasi

dengan bantuan program paket Statistika.

a. Pendugaan Parameter Satu Populasi

Klasifikasi pendugaan parameter untuk ukuran pemusatan dan penyebaran satu

populasi yang berdistribusi normal dapat dinyatakan dalam tabel berikut :

No. Parameter Statistik Confidence interval Perintah MINITAB

1 tak diketahui

Onet c1

2 diketahui

Onez c1;sigma=

3 %varia.txt c1

Di dalam program paket MINITAB tidak tersedia secara langsung fasilitas

untuk menentukan confidence interval untuk varians, untuk mengatasi hal ini

dapat diselesaikan dengan cara membuat macro MINITAB.

Dalam praktek pengolahan data untuk penentuan confidence interval,

asumsi kenormalan tidak selalu dapat dipenuhi, untuk mengatasi hal ini dapat

dilakukan penggunaan metode bootstrap. Algoritma dari metode bootstrap

adalah sebagai berikut :

35

Page 36: Bahan Ajar

Mulai

1. Lakukan pengambilan sampel dari populasi : x1, x2, …, xn

2. b=10003. i=04. i=i+15. Lakukan pengambilan sampel ke-i lagi dari sampel yang ada

sebanyak n6. Tentukan nilai statistik 7. JIka i<b pergi ke 5

8. Tentukan nilai statistik dan standard error dengan cara : dan

9. Tentukan bootstrap confidence interval melalui nilai persentil dari yaitu P100( dan P100(1-)

10.Selesai

Selain dengan mengunakan metode bootstrap penentuan confidence

interval dapat juga menggunakan metode nonparametrik yang lain yaitu tanda

(sign) dan Wilcoxon, confidence interval untuk median dengan menggunakan

dua metode ini adalah :

Nomor Metode Perintah Minitab1 Tanda sinterval 95 c12 Wilcoxon winterval 95 c1

b. Pengujian Parameter Populasi

Pengujian ukuran pemusatan populasi dapat diklasifikasikasikan menjadi

dua kelompok yaitu :

a. Asumsi distribusi normal terpenuhi dan pengujiannya dilakukan

terhadap rata-rata populasi serta statistik ujinya adalah t untuk

varians populasi tak diketahui dan z untuk varians populasi diketahui

b. Asumsi distribusi normal tak terpenuhi, pengujiannya dilakukan

terhadap median dan statistik ujinya adalah uji tanda ataupun uji

Wilcoxon

36

Page 37: Bahan Ajar

Perintah MINITAB untuk dua macam klasifikasi di atas adalah :

No. Syarat Hipotesis nol

Statistik uji Perintah MINITAB

1 Normal,

Tak diketahui

Onet c1;Test .

2 Normal,

Diketahui Onez c1;

Sigma ;Test ..

3 Simetri Median=M0 Tanda Stest M0 C14 Simetri Median=M0 Wilcoxon Wtest Mo C1

Selain dengan mengunakan cara di atas, pengujian hipotesis dapat juga

dilakukan dengan menggunakan metode bootstrap, jika nilai atau M0 termuat

di dalam bootstrap confidence interval maka hipotesis nol diterima yang berarti

nilai rata-rata populasi tidak berbeda dengan atau nilai median populasi

tidak berbeda dengan M0.

Kegiatan Praktikum

1. Tentukan confidence interval 95 % untuk rata-rata dan varians harapan

hidup perempuan di region Asia

2. Ujilah pernyataan yang menyatakan bahwa rata-rata harapan hidup

perempuan di region Asia adalah 65 tahun.

3. Tentukan confidence interval 95 % untuk rata-rata dan varians

pendapatan per-kapita di region Asia

4. Tentukan confidence interval 95 % untuk rata-rata pendapatan per-

kapita di region OECD

37

Page 38: Bahan Ajar

Penyelesaian

1. confidence interval 95 % untuk rata-rata dan varians harapan hidup

perempuan di region Asia

Untuk menyelesaiakan masalah ini, dibutuhkan tahapan

- Pemilihan Negara-negara di region Asia, yang diluar region Asia

dihapus, [klik Data+Select Cases]

sehingga yang tersisa adalah hanya 17 negara di region Asia/Pasifik

38

Page 39: Bahan Ajar

- Simpan data dalam format dbf [klik File+Sae As]

- Buka data Asia.dbf dengan bantuan MINITAB [Klik File+open

worksheet]

39

Page 40: Bahan Ajar

40

Page 41: Bahan Ajar

- Uji kenormalan variabel harapan hidup perempuan dengan

Kolmogorov Smirnov [klik Stat+Basic Statistics+normality test]

dan hasilnya adalah :

p-value> sehingga harapan hidup perempuan berdistribusi normal

41

Page 42: Bahan Ajar

- Penentuan confidence interval rata-rata :[klik stat+basic stat+1 sample

t]

dan hasilnya adalah :

One-Sample T: LIFEEXPF

Variable N Mean StDev SE Mean 95.0% CI LIFEEXPF 17 67.41 10.89 2.64 ( 61.81, 73.01)

Harapan hidup perempuan di Asia berkisar antara 61.81 tahun sampai

dengan 73 tahun dengan peluang sebesar 95%

- Confidence interval untuk varians adalah :

MTB > %varia.txt c6 95

lower 65.7339upper 274.495

Varians harapan hidup perempuan Asia berkisar antara 65 sampai

dengan 274 dengan peluang 95%.

42

Page 43: Bahan Ajar

2. Rata-rata harapan hidup perempuan di region Asia adalah 65 tahun.

Karena harpan hidup perempuan berdistribusi normal, maka

pengujian rata-ratanya dapat dilakukan dengan menggunakan stastik uji t

sebagai berikut : [klik stat+basic statistics+1 sample t]

dan hasilnya adalah :

One-Sample T: LIFEEXPF

Test of mu = 65 vs mu not = 65

Variable N Mean StDev SE MeanLIFEEXPF 17 67.41 10.89 2.64

Variable 95.0% CI T PLIFEEXPF ( 61.81, 73.01) 0.91 0.375

p-value(0.375)> dan confidence interval memuat 65 sehingga H0

diterima yang berarti rata-rata harapan hidup perempuan Asia masih dapat

dianggap sama dengan 65 tahun pada .

43

Page 44: Bahan Ajar

3. Confidence interval 95 % untuk rata-rata dan varians pendapatan per-kapita

di region Asia

Untuk menyelesaikan permasalahan ini dibutuhkan informasi tentang

kenormalan variabel pendapatan per-kapita. Hasil pengujian kenormalan

dengan menggunakan statisitik uji Kolmogorov-Smirnov adalah sebagai

berikut :

p-value <sehingga tolak H0 yang berarti pendapatan perkapita

negara-negara Asia tidak berdistribusi normal sehingga confidence interval

t tidak dapat digunakan, Pada kasus ini dapat digunakan sign confidence

interval atau wilcoxon confidence interval sebagai alternatif jika pendapatan

perkapita berdistribusi simetri. Histogram dari pendapatan perkapita

adalah

44

Page 45: Bahan Ajar

Dari histogram di atas dapat disimpulkan bahwa pendapatan perkapita

berdistribusi tidak simetri. Untuk menjawab permasalahan data yang tidak

berdistribusi normal dan tidak simetri, metode bootstrap dapat digunakan

dengan cara :

MTB > bootmean.txt c11

dan hasilnya adalah :

stat_b 4242.74se_b 1508.60lower 1549.71upper 7467.06

Rata-rata pendapatan perkapita untuk Negara-negara Asia adalah

4242.74 dengan standard error 1508. Rata-rata pendapatan perkapita ini

berkisar dari 1549 sampai dengan 7467 dengan peluang 95%. Sedangkan

varians pendapatan perkapita adalah :

MTB > %bootvar.txt c11

stat_b 36838694se_b 14993480lower 6298082upper 64034876

Varians pendapatan perkapita Negara-negara Asia berkisar dari 6298082 sampai dengan 64034876 dengan peluang 95%.

45

Page 46: Bahan Ajar

4. confidence interval 95 % untuk rata-rata pendapatan perkapita di OECD

Confidence interval untuk rata-rata dapat diselesaikan dengan

confidence interval t jika data berdistribusi normal dan dapat diselesaikan

dengan sign confidence interval atau wilcoxon confidence interval jika data

berdistribusi simetri. Histogram dan hasil pengujian Kolmogorov Smirnov untuk

variabel ini adalah :

Dari gambar di atas dapat disimpulkan bahwa pendapatan perkapita

berdistribusi simetri tetapi tidak normal (p-value<5%) sehingga sign atau

wilcoxon confidence interval dapat dipergunakan.

MTB > sinterval c11

Achieved N Median Confidence Confidence interval PositionGDP_CAP 21 17245 0.9216 ( 15974, 17912) 7 0.9500 ( 15942, 18031) NLI 0.9734 ( 15877, 18277) 6

Median pendapatan perkapita berkisar diantara urutan data 7 terkecil

sampai dengan 7 data terbesar dengan peluang sebesar 0.9216

Median pendapatan perkapita berkisar dari 15942 sampai dengan

18031 dengan peluang sebesar 0.95.

MTB > winterval c11

Estimated Achieved N Median Confidence Confidence IntervalGDP_CAP 21 17126 94.8 ( 15146, 18093)

Pendapatan perkapita Negara-negara OECD berkisar dari 15146

sampai dengan 18093 dengan peluang sebesar 94.8%

46

Page 47: Bahan Ajar

Lampiran 1. Macro MINITAB untuk menentukan confidence interval

varians

macro varia y cimconstant i n var lower upper ci chis1 chis2 alpha alpha1 alpha2 dfmcolumn ylet n=count(y)let df=n-1let alpha=1-ci/100let alpha1=alpha/2let alpha2=1-alpha1let var=stde(y)*stde(y)invcdf alpha1 chis2; chis df.invcdf alpha2 chis1; chis df.let lower=df*var/chis1let upper=df*var/chis2print lower upperendmacro

Lampiran 2. Macro MINITAB untuk Menentukan Bootstrap Confidence Interval untuk Rata-rata dan Varians

macrobootmean xmconstant i n b lower upper stat_b se_bmcolumn x y statlet n=count(x)let b=1000do i=1:b sample n x y; replacement. let stat(i)=mean(y)enddolet stat_b=mean(stat)let se_b=stde(stat)histo statsort stat statlet lower=stat(25)let upper=stat(975)print stat_b se_b lower upperendmacro

macrobootvar xmconstant i n b lower upper stat_b mconstant se_bmcolumn x y statlet n=count(x)let b=1000do i=1:b sample n x y; replacement. let stat(i)=stde(y)*stde(y)enddolet stat_b=mean(stat)let se_b=stde(stat)histo statsort stat statlet lower=stat(25)let upper=stat(975)print stat_b se_b lower upperendmacro

47

Page 48: Bahan Ajar

PENGUJIAN PARAMETER k POPULASI

Pengujian ukuran pemusatan k populasi dapat diklasifikasikan berdasarkan

terpenuhinya asumsi kenormalan, kehomogenan varians dan keterkaitan antar populasi.

Secara rinci klasifikasi tersebut dapat dinyatakan dalam tabel berikut :

No. H0 Syarat Statistik Uji Perintah SPSS1 Normal T-TEST

GROUPS = region(3 4) /VARIABLES = lifeexpf.

2 Normal

3 D= Normalpaired

T-TESTPAIRS = lifeexpf WITH lifeexpm (PAIRED).

4 ...k

Normal ONEWAYcalories BY region /STATISTICS HOMOGENEITY /POSTHOC = LSD ALPHA(.05).

5 M1=M2 Simetri Mann-Whitney NPAR TESTS/M-W= gdp_cap BY region(1 2).

6 MD=M0 Simetripaired

Wilcoxon NPAR TEST/WILCOXON=lit_fema WITH lit_male (PAIRED).

7 M1=M2=… simetri Kruskal-Wallis NPAR TESTS /K-W=urban BY region(1 6).

48

Page 49: Bahan Ajar

Kegiatan Praktikum

Dengan menggunakan program paket SPSS, ujilah pernyataan berikut :

1. Rata-rata harapan hidup perempuan untuk region Asia dan Afrika

adalah sama.

2. Harapan hidup perempuan lebih tinggi daripada harapan hidup laki-

laki

3. Rata-rata konsumsi kalori perhari Negara-negara di seluruh region

adalah sama

4. Rata-rata pendapatan perkapita Negara-negara OECD dengan Eropa

Timur adalah sama

5. Persentase penduduk laki-laki yang dapat membaca tidak sama

dengan persentase penduduk perempuan yang dapat membaca

6. Rata-rata kepadatan penduduk untuk seluruh region adalah sama

Untuk menguji seluruh pernyataan di atas, dapat dilakukan dengan

membuat syntax SPSS sebagai berikut : [klik File+New+syntax]

49

Page 50: Bahan Ajar

Untuk menjalankan syntax di atas dapat dilakukan dengan [klik Run+all], dan hasilnya adalah :1. Rata-rata harapan hidup perempuan untuk region Asia dan Afrika adalah

sama.

Independent Samples Test

1.698 .201 4.164 34 .000

4.093 29.099 .000

Equal variancesassumed

Equal variancesnot assumed

F Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)

t-test for Equality of Means

Pengujian kesamaan rata-rata didahului dengan uji kesamaan varians, hasil

uji kesamaan varians menyimpulkan varians harapan hidup perempuan

untuk region Asia dan Afrika adalah sama, sehingga uji t untuk kesamaan

50

Page 51: Bahan Ajar

varians yang dipilih adalah uji t yang membutuhkan syarat varians

homogen, dari hasil uji t ini diperoleh informasi bahwa rata-rata harapan

hidup perempuan Asia tidak sama dengan rata-rata harapan hidup

perempuan Afrika.

2. Harapan hidup perempuan lebih tinggi daripada harapan hidup laki-laki

Paired Samples Test

5.239 2.269 .217 24.109 108 .000Average female lifeexpectancy - Averagemale life expectancy

Pair1

MeanStd.

DeviationStd. Error

Mean

Paired Differences

t dfSig.

(2-tailed)

Harapan hidup perempuan dan harapan hidup laki-laki adalah variabel

yang saling dependent, sehingga untuk menguji pernyataan ini dilakukan

dengan menggunakan uji t untuk sampel berpasangan, dari hasil ini

diperoleh nilai t positif dan sig<, sehingga dapat diputuskan H0 ditolak

yang berarti harapan hidup perempuan lebih tinggi daripada harapan hidup

laki-laki

3. Rata-rata konsumsi kalori perhari Negara-negara di seluruh region adalah

sama

Test of Homogeneity of Variances

Daily calorie intake

1.924 5 69 .101

LeveneStatistic df1 df2 Sig.

Varians daily calorie intake untuk seluruh region adalah homogen, sehingga

pengujian kesamaan rata-rata daily calorie intake untuk seluruh region

dapat dilakukan dengan menggunakan oneway anova.

51

Page 52: Bahan Ajar

ANOVA

Daily calorie intake

18449025 5 3689804.945 47.055 .000

5410672 69 78415.537

23859697 74

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Nilai sig.<sehingga H0 ditolak yang berarti rata-rata daily calorie intake untuk

seluruh region adalah tidak sama. Untuk menguji pasangan region mana saja

yang rata-rata daily calorie intake-nya berbeda, dapat dilakukan dengan

menggunakan uji multiple comparison. Program paket SPSS menyediakan

beberapa statistic uji untuk multiple comparison yaitu

52

Page 53: Bahan Ajar

Dengan menggunakan LSD diperoleh informasi pasangan region yang

rata-rata daily calorie intake-nya homogen adalah pasangan region

OECD-Eropa Timur dan pasangan region Asia/Pasifik-Amerika Latin.

53

Page 54: Bahan Ajar

Multiple Comparisons

Dependent Variable: Daily calorie intake

LSD

-41.333 174.628 .814

921.394* 107.169 .000

1283.354* 96.215 .000

352.292* 118.989 .004

935.509* 92.106 .000

41.333 174.628 .814

962.727* 182.393 .000

1324.688* 176.180 .000

393.625* 189.580 .042

976.842* 173.970 .000

-921.394* 107.169 .000

-962.727* 182.393 .000

361.960* 109.680 .002

-569.102* 130.118 .000

14.115 106.093 .895

-1283.354* 96.215 .000

-1324.688* 176.180 .000

-361.960* 109.680 .002

-931.063* 121.256 .000

-347.845* 95.016 .000

-352.292* 118.989 .004

-393.625* 189.580 .042

569.102* 130.118 .000

931.063* 121.256 .000

583.217* 118.022 .000

-935.509* 92.106 .000

-976.842* 173.970 .000

-14.115 106.093 .895

347.845* 95.016 .000

-583.217* 118.022 .000

(J) Region oreconomic groupEast Europe

Pacific/Asia

Africa

Middle East

Latn America

OECD

Pacific/Asia

Africa

Middle East

Latn America

OECD

East Europe

Africa

Middle East

Latn America

OECD

East Europe

Pacific/Asia

Middle East

Latn America

OECD

East Europe

Pacific/Asia

Africa

Latn America

OECD

East Europe

Pacific/Asia

Africa

Middle East

(I) Region oreconomic groupOECD

East Europe

Pacific/Asia

Africa

Middle East

Latn America

MeanDifference

(I-J) Std. Error Sig.

The mean difference is significant at the .05 level.*.

54

Page 55: Bahan Ajar

4. Rata-rata pendapatan perkapita Negara-negara OECD dengan Eropa Timur

adalah sama

Ranks

21 25.00 525.00

14 7.50 105.00

35

Region oreconomic groupOECD

East Europe

Total

Gross domesticproduct / capita

N Mean Rank Sum of Ranks

Test Statisticsb

.000

105.000

-4.950

.000

.000a

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

Exact Sig. [2*(1-tailedSig.)]

Grossdomesticproduct /

capita

Not corrected for ties.a.

Grouping Variable: Region or economic groupb.

Dari modul sebelumnya diperoleh informasi bahwa pendapatan per-kapita

tidak berdistribusi normal, sehingga statistik uji t tidak dapat dipergunakan

dan sebagai alternatif dapat digunakan stastik uji Mann-Whitney, hasil

pengujian dengan menggunakan statistik uji ini menyimpulkan bahwa

median pendapatan perkapita region OECD tidak sama dengan median

pendapatan perkapita region Eropa Timur.

55

Page 56: Bahan Ajar

5. Persentase penduduk laki-laki yang dapat membaca tidak sama dengan

persentase membaca penduduk perempuan

Ranks

0a .00 .00

66b 33.50 2211.00

19c

85

Negative Ranks

Positive Ranks

Ties

Total

Males who read (%) -Females who read (%)

N Mean Rank Sum of Ranks

Males who read (%) < Females who read (%)a.

Males who read (%) > Females who read (%)b.

Males who read (%) = Females who read (%)c.

Test Statisticsb

-7.065a

.000

Z

Asymp. Sig. (2-tailed)

Males whoread (%) -

Females whoread (%)

Based on negative ranks.a.

Wilcoxon Signed Ranks Testb.

Nilai sig.<sehingga H0 ditolak yang berarti median persentase

penduduk laki-laki yang dapat membaca tidak sama dengan median

persentase penduduk perempuan yang dapat membaca.

56

Page 57: Bahan Ajar

6. Rata-rata kepadatan penduduk untuk seluruh region adalah sama

One-Sample Kolmogorov-Smirnov Test

109

203.415

675.7052

.383

.356

-.383

3.999

.000

N

Mean

Std. Deviation

Normal Parameters a,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

Number ofpeople / sq.

kilometer

Test distribution is Normal.a.

Calculated from data.b.

Dengan menggunakan statistic uji Kolmogorov Smirnov, diperoleh hasil

kepadatan penduduk tidak berditribusi normal sehinggan oneway anova

tidak dapat dipergunakan, sebagai alternatif dapat dipergunakan statistik uji

Kruskal-Wallis

Ranks

21 54.74

14 57.93

17 84.65

19 39.87

17 53.32

21 44.36

109

Region oreconomic groupOECD

East Europe

Pacific/Asia

Africa

Middle East

Latn America

Total

Number of people/ sq. kilometer

N Mean Rank

Test Statistics

21.862

5

.001

Chi-Square

df

Asymp. Sig.

Number ofpeople / sq.

kilometer

Nilai sig.< sehingga H0 ditolak yang berarti median kepadatan penduduk

untuk seluruh region tidak dapat dianggap sama.

57

Page 58: Bahan Ajar

ANALISIS REGRESI

Analisis regresi adalah analisis statistika yang bertujuan untuk

memodelkan hubungan antara variabel independent dengan variabel

dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886)

melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary

Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan

anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi

adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya.

Model yang menggambarkan hubungan antara variabel independent (X)

dengan variabel dependent (Y) adalah :

Y= f(X,) +

58

Page 59: Bahan Ajar

Hubungan antara variabel independent dengan variabel dependent

dikatakan linear jika dapat dinyatakan dalam model :

Y = X1 + X2 + …+ pXp +

Dalam catatan matriks, model regresi linear dapat ditulis dalam :

Y =X

atau

Nilai dapat ditaksir dengan menggunakan metode kuadrat terkecil

dengan cara :

Pengujian terhadap dapat dilakukan dengan dua cara yaitu pengujian

secara serentak dan pengujian secara individu.

Pengujian secera serentak

Hipotesis :

H0 :

H1 :

Statistik Uji

59

Page 60: Bahan Ajar

Sumber

Variasi

df Sum of

Squares

MS F

Regresi p

Residual n-p-1

Total n-1

Tolak Ho jika F>F,p,n-p-1

Pengujian secara individu

Hipotesis

H0 : I = 0

H1 : I 0

Statistik uji

Tolak H0 jika |t|>tn-p-1

Kegiatan Praktikum

Tentukan model yang menggambarkan hubungan antara harapan hidup

perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang

dinyatakan dalam :

Y = ln(gdp_cap) + ln(density) +

Penyelesaian :

a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik

transform+ compute]

60

Page 61: Bahan Ajar

61

Page 62: Bahan Ajar

b. Melakukan analisis regresi ;[klik+analyze+regression+linear]

dan hasilnya adalah :

Model Summary

.840a .706 .700 5.788Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), ln_gdp, ln_densa.

ANOVAb

8519.080 2 4259.540 127.141 .000a

3551.268 106 33.503

12070.349 108

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), ln_gdp, ln_densa.

Dependent Variable: Average female life expectancyb.

62

Page 63: Bahan Ajar

Coefficientsa

17.981 3.501 5.136 .000

.904 .388 .123 2.332 .022

6.150 .390 .831 15.766 .000

(Constant)

ln_dens

ln_gdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y)

oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam

model :

Y= 17.981 +0.904 ln(density) +6.150 ln(gdp_cap)

63

Page 64: Bahan Ajar

PEMILIHAN MODEL TERBAIK

Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan

model terbaik yang menjelaskan hubungan antara variabel independent

dengan variabel dependent, model terbaik adalah model yang seluruh

koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik

optimum. Beberapa kriteria model terbaik adalah :

Nomor Kriteria Formula Optimum

1 SSE Minimum

2 MSE Minimum

3 R2 Maksimum

4 Adjusted

R2

Maksimum

5 Cp Mallow Minimum

6 AIC ln(SSE/n) +2p/n Minimum

7 SBC ln(SSE/n)+p/n ln(n) Minimum

64

Page 65: Bahan Ajar

Untuk memperoleh model terbaik, ada beberapa metode yang biasa

digunakan yaitu :

Metode Penjelasan

Backward Mulai dengan model lengkap, kemudian variabel independent

yang ada dievaluasi, jika ada yang tidak significant dikeluarkan

yang paling tidak significant, dilakukan terus menerus sampai

tidak ada lagi variabel independent yang tidak significant

Forward Variabel independent yang pertama kali masuk ke dalam model

adalah variabel yang mempunyai korelasi tertinggi dan

significant dengan variabel dependent, variabel yang masuk

kedua adalah variabel yang korelasinya dengan variabel

dependent adalah tertinggi kedua dan masih significant,

dilakukan terus menerus sampai tidak ada lagi variabel

independent yang significant

StepSwise Gabungan antara metode forward dan backward, variabel yang

pertama kali masuk adalah variabel yang korelasinya tertinggi

dan significant dengan variabel dependent, variabel yang masuk

kedua adalah variabel yang korelasi parsialnya tertinggi dan

masih significant, setelah variabel tertentu masuk ke dalam

model maka variabel lain yang ada di dalam model dievaluasi,

jika ada variabel yang tidak significant maka variabel tersebut

dikeluarkan

Best subset

regression

Metode ini tersedia di dalam program paket MINITAB. Metode

ini menyajikan k buah model terbaik untuk model dengan 1,2,

…,p variabel independent.

65

Page 66: Bahan Ajar

Kegiatan Praktikum

Tentukan model terbaik yang menggambarkan hubungan antara harapan

hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap),

persenta-se penduduk yang tinggal dikota (urban), persentase penduduk yang

dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt).

rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories)

dengan menggunakan metode stepwise dan best subset regression.

Penyelesaian :

Dengan bantuan SPSS permasalahan di atas dapat diselesaikan

dengan cara : [klik analyze+regression+linear]

atau melalui syntax :

REGRESSION /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt .

dan hasilnya adalah :

66

Page 67: Bahan Ajar

ANOVA

7229.894 1 7229.894 222.690 .000

2337.565 72 32.466

9567.459 73

8206.309 2 4103.154 214.028 .000

1361.150 71 19.171

9567.459 73

8906.744 3 2968.915 314.544 .000

660.716 70 9.439

9567.459 73

9017.788 4 2254.447 282.999 .000

549.672 69 7.966

9567.459 73

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Model1

2

3

4

Sum ofSquares df Mean Square F Sig.

Model Summary

.869a .756 .752 5.698

.926b .858 .854 4.378

.965c .931 .928 3.072

.971d .943 .939 2.822

Model1

2

3

4

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), People who read (%)a.

Predictors: (Constant), People who read (%), Deathrate per 1000 people

b.

Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita

c.

Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita,Daily calorie intake

d.

67

Page 68: Bahan Ajar

Coefficientsa

36.226 2.275 15.924 .000

.430 .029 .869 14.923 .000

53.279 2.961 17.995 .000

.330 .026 .667 12.606 .000

-.966 .135 -.378 -7.137 .000

62.740 2.350 26.699 .000

.192 .024 .389 7.890 .000

-1.211 .099 -.474 -12.214 .000

.001 .000 .363 8.614 .000

54.214 3.143 17.252 .000

.172 .023 .347 7.456 .000

-1.136 .093 -.444 -12.178 .000

.000 .000 .252 5.170 .000

.004 .001 .186 3.734 .000

(Constant)

People who read (%)

(Constant)

People who read (%)

Death rate per 1000people

(Constant)

People who read (%)

Death rate per 1000people

Gross domesticproduct / capita

(Constant)

People who read (%)

Death rate per 1000people

Gross domesticproduct / capita

Daily calorie intake

Model1

2

3

4

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Sehingga model terbaiknya adalah :

lifeexpf = 54.214 +0.172 literacy – 1.136 death_rt + 0.000 gdp_cap +0.004

calori dengan R2= 0.943

Dengan menggunakan best subset regression :[klik stat+regression+best

subset]

68

Page 69: Bahan Ajar

diperoleh hasil :

Response is LIFEEXPF

L C D I G A E T D L A U E P O T R R _ R H B A C I _ A C A E R Vars R-Sq R-Sq(adj) C-p S N Y P S T

1 75.6 75.2 225.8 5.6979 X 1 60.2 59.6 412.2 7.2752 X 1 59.8 59.3 416.2 7.3055 X 2 86.9 86.6 90.3 4.1981 X X 2 85.8 85.4 103.5 4.3686 X X 2 83.7 83.3 128.9 4.6816 X X 3 93.1 92.8 17.5 3.0711 X X X 3 92.1 91.7 30.1 3.2935 X X X 3 89.6 89.2 59.8 3.7688 X X X 4 94.3 93.9 5.5 2.8207 X X X X 4 93.5 93.1 15.1 3.0095 X X X X 4 92.5 92.1 26.2 3.2150 X X X X 5 94.4 94.0 6.0 2.8112 X X X X X

Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh

model terbaik yang mengandung variabel literacy, gdp_cap, calories dan

death_rt, hasil ini sama dengan metode stepwise

69

Page 70: Bahan Ajar

DUMMY VARIABLE

Dalam beberapa kasus tertentu, penggunaan analisis regresi melibatkan

adanya variabel independent yang berskala nominal ataupun ordinal. Untuk

mengatasi hal ini dipergunakan dummy variable. Sebagai contoh penggunaan

dummy variable adalah penentuan model terbaik yang menggambarkan

hubungan antara harapan hidup perempuan dengan pendapan perkapita dan

region (Asia dan Afrika).

Model yang menggambarkan hubungan antar variabel tersebut dapat

dinyatakan dalam persamaan regresi :

lifeexpf = ln(gdp_cap) + untuk region Asia

lifeexpf = ln(gdp_cap) + untuk region Afrika

Dua persamaan regresi di atas dapat dijadikan satu persamaan regresi

dengan cara menyisipkan sebuah dummy variable (D) yang bernilai 0 untuk

region Asia dan 1 untuk region Afrika :

lifeexpf = ln(gdp_cap) + D + D*ln(gdp_cap) +

Nilai menggambarkan perbedaaan intercept antara region Asia dan

Afrika, sedangkan nilai menggambarkan perbedaan slope antara region

Asia dan Afrika.

Jika region yang dilibatkan lebih dari dua, misalkan region Asia, Afrika

dan Amerika Latin maka persamaan regresinya menjadi :

lifeexpf=ln(gdp_cap)+D1+D1*ln(gdp_cap)+4D1+D1*ln(gdp_cap)+

dengan aturan pemberian nilai dummy variabel adalah :

region D1 D2 Persamaan regresi

Asia 0 0 ln(gdp_cap)+

Afrika 0 1 +ln(gdp_cap)+

Amerika Latin 1 0 4+ln(gdp_cap)+

70

Page 71: Bahan Ajar

Secara umum banyaknya dummy variable yang dibutuhkan adalah

banyaknya region-1.

Kegiatan Praktikum :

Tentukan model yang menggambarkan hubungan antara harapan hidup

perempuan dan pendapatan perkapita di region Asia, Afrika dan Amerika Latin

Penyelesaian :

Pembangkitan nilai D1 dan D2 :[klik transform+compute]

71

Page 72: Bahan Ajar

Lakukan dengan cara yang sama untuk membangkitkan variabel

D2( bernilai 0 untuk region Asia, Amerika Latin dan bernilai 1 untuk region

Afrika).

Pembangkitan nilai D1*ln(gdp_cap) dan D2*ln(gdp_cap)

72

Page 73: Bahan Ajar

Analisis regresi :[klik analyze+regression+linear]

dan hasilnya adalah :

Coefficientsa

27.034 6.116 4.420 .000

5.643 .834 .720 6.767 .000

22.860 14.130 .975 1.618 .112

-4.190 10.402 -.184 -.403 .689

-2.986 1.761 -1.049 -1.696 .097

-.720 1.547 -.205 -.465 .644

(Constant)

ln_gdp

D1

d2

d1_lngdp

d2_lngdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Masih ada koefisien regresi yang tidak significant, setelah digunakan

metode backward diperoleh hasil sebagai berikut :

73

Page 74: Bahan Ajar

Coefficientsa

27.034 6.116 4.420 .000

5.643 .834 .720 6.767 .000

22.860 14.130 .975 1.618 .112

-4.190 10.402 -.184 -.403 .689

-2.986 1.761 -1.049 -1.696 .097

-.720 1.547 -.205 -.465 .644

25.585 4.904 5.217 .000

5.836 .677 .745 8.619 .000

24.308 13.545 1.037 1.795 .079

-3.179 1.680 -1.117 -1.892 .065

-1.333 .284 -.379 -4.695 .000

28.771 4.674 6.156 .000

5.412 .649 .691 8.341 .000

-.197 .255 -.069 -.773 .443

-1.397 .288 -.398 -4.851 .000

29.562 4.542 6.508 .000

5.202 .587 .664 8.860 .000

-1.308 .263 -.373 -4.972 .000

(Constant)

ln_gdp

D1

d2

d1_lngdp

d2_lngdp

(Constant)

ln_gdp

D1

d1_lngdp

d2_lngdp

(Constant)

ln_gdp

d1_lngdp

d2_lngdp

(Constant)

ln_gdp

d2_lngdp

Model1

2

3

4

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Model terbaik yang menggambarkan hubungan antara harapan hidup

perempuan dan pendapatan per-kapita adalah :

lifeexpf = 29.562 + 5.202 ln(gdp_cap) -1.308 D2*ln(gdp_cap)

atau

region D1 D2 Persamaan regresi

Asia 0 0 lifeexpf = 29.562 + 5.202 ln(gdp_cap)

Afrika 0 1 lifeexpf = 29.562 + 3.894 ln(gdp_cap)

Amerika Latin 1 0 lifeexpf = 29.562 + 5.202 ln(gdp_cap)

74

Page 75: Bahan Ajar

INFLUENTIAL OBSERVATIONS

Influential observations adalah titik pengamatan yang keberadaannya

mempunyai pengaruh terhadap persamaan regresi, sebagai contoh seperti

yang tetera pada gambar di atas, titik (13.12.74) adalah influential observation,

persamaan regresi kalau titik ini diikutkan adalah :

The regression equation is Y3 = 3.00 + 0.500 X R2 = 66.6%

sedangkan kalau titik ini tidak diikutkan, diperoleh persamaan regresi :

The regression equation is Y3 = 4.01 + 0.345 X R2 = 100.0 %

75

Page 76: Bahan Ajar

Untuk mendeteksi adanya influential observation dapat dipergunakan

beberapa statistik berikut :

No Statistik Formula influential Penjelasan

1 DFFIT Difference fit

Perbedaan nilai Y

taksiran dengan

atau tanpa peng-

amatan ke-i

2 DFBETAS Difference Betas

Perbedaan nilai

koefisien regresi

dengan atau tanpa

pengamatan ke-i

3 Cook’s Distance Perbedaan vector

koefisien regresi

dengan atau tanpa

pengamatan ke-i

4 COVRATIO Covariance ratio

Nisbah dterminan

matriks covariance

koefisien regresi

dengan atau tanpa

pengamatan ke-i

76

Page 77: Bahan Ajar

Kegiatan Praktikum :

Tentukan Negara di Asia yang keberadaanya mempengaruhi hubungan

antara harapan hidup perempuan dengan pedapatan per-kapita dengan

menggunakan kriteria DFFIT

Penyelesaian

Memilih Negara di region Asia : [klik Data+Select Cases]

Analisis regresi : [klik analyze + regression +linear]

klik save

77

Page 78: Bahan Ajar

dan hasilnya adalah :

Coefficientsa

27.034 6.350 4.257 .001

5.643 .866 .860 6.517 .000

(Constant)

ln_gdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Model Summaryb

.860a .739 .722 5.744Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), ln_gdpa.

Dependent Variable: Average female life expectancyb.

78

Page 79: Bahan Ajar

Negara yang merupakan influential observation adalah Negara yang nilai

atau , Negara tersebut adalah Negara

Afganistan, Cina, Kamboja dan Vietnam

79

Page 80: Bahan Ajar

ASUMSI DALAM ANALISIS REGRESI

Model linear yang menggambarkan hubungan antara variabel

independent dan variabel dependent adalah :

Y = X1 + X2 + …+ pXp +

Asumsi yang diperlukan untuk model ini adalah :

a. ~N(0. )

b. var(i)= untuk semua i

c. cov(I,j) = 0 untuk ij

d. antar X saling independent

Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan

mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan :

No. Masalah Deteksi Solusi

1 Residual tak

berdistribusi

normal

normal probability plot

Uji kenormalan : KS,…

Tranformasi variabel

Regresi bootstrap

2 Hetroscedastivity

var(i)

Plot e dengan

Uji Glesjer, White

Uji Golfeld-Quandt

Transformasi variabel

Weighted Least Squares

3 Autocorrelation

cov(I,j) 0

untuk ij

Plot e dengan

Uji Durbin Watson

ACF plot

Regresi beda, Regresi ratio

memasukkan trend

Cochrane Orcutt, Hildreth-

Lu,Durbin, Prais-Winsten

4 Multicollinearity r(Xi,Xj) tinggi, VIF>10

R2 tinggi tetapi tidak

ada yang significant

stepwise

Principal component reg.

Ridge regression

80

Page 81: Bahan Ajar

REGRESI BOOTSTRAPP

Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan

residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t.

Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil

pengujian dengan statistik uji F dan t menjadi tidak valid Untuk menguji

asumsi kenormalan ini dapat dipergunakan uji Kolmogorov-Smirnov,

Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit jika hasil pengujian

kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi

adalah dengan menerapkan metode regresi bootstrap.

Algoritma dari metode regresi bootstrap adalah :

1. mulai2. Tentukan nilai taksiran dari model Y=Xdengan metode kuadrat

terkecil, hasil taksirannya adalah dan nilai taksirannya adalah

3. Tentukan nilai e1, e2, …, en, 4. B=10005. i=06. i=i+17. Melakukan resampling with resampling sebanyak n dari ei hasil

resamplingnya adalah e(i)

8. Menentukan nilai

9. Menduga besarnya pada resampling ke-i yaitu dari dan data Yi

dengan Xji dengan metode kuadrat terkecil 10.Jika i<B pergi ke 611. Tentukan nilai taksiran koefisien regresi dari metode bootstrapp

sebagai rata-rata nilai koefisien regresi hasil resampling sebanyak B kali

12. Tentukan confidence interval koefisien regresi melalui nilai persentil13. Selesai

81

Page 82: Bahan Ajar

Kegiatan Praktikum :

Tentukan model yang menngambarkan hubungan antara harapan hidup

perempuan dengan pendapatan perkapita serta ujilah asumsi kenormalan

residual dengan uji Kolmogorov-Smirnov.

Penyelesaian :

Dengan bantuan MINITAB permaslahan ini dapat diselesaikan dengan

cara

Tranformasi variabel

MTB > let c27=loge(lifeexpf)

MTB > name c27=’ln_gdp’

Regresi [klk stat+regression+regression]

klik storage

82

Page 83: Bahan Ajar

dan hasilnya adalah :

The regression equation isLIFEEXPF = 21.7 + 6.15 ln_gdpPredictor Coef SE Coef T PConstant 21.670 3.187 6.80 0.000ln_gdp 6.1538 0.3981 15.46 0.000S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8%Analysis of VarianceSource DF SS MS F PRegression 1 8336.9 8336.9 238.93 0.000Residual Error 107 3733.4 34.9Total 108 12070.3Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]

83

Page 84: Bahan Ajar

Dengan menggunakan metode kuadrat terkecil diperoleh hasil

kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan

metode regresi bootstrapp yang dinyatakan dalam macro MINITAB :

macro regb y xmconstant n i b low_b0 up_b0 low_b1 up_b1mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_bootlet n=count(y)let b=1000regr y 1 x;resid e;fits yhat.do i=1:b sample n e ee; replacement. let yy=yhat+ee regr yy 1 x; coef beta. let b0(i)=beta(1) let b1(i)=beta(2)enddohisto b0histo b1let b0_boot=mean(b0)let b1_boot=mean(b1)sort b1 b1sort b0 b0let low_b0=b0(25)let up_b0=b0(975)let low_b1=b1(25)let up_b1=b1(975)print b0_boot low_b0 up_b0print b1_boot low_b1 up_b1endmacro

Untuk menjalankan macro di atas dapat dilakukan dengan cara :

MTB > %regb.txt ‘lifeexpf’ ‘ln_gdp’

dan hasilnya adalah :

84

Page 85: Bahan Ajar

b0 b1

low_b0 14.7859up_b0 27.6859

b0_boot 21.5513

low_b1 5.40552up_b1 6.96901

b1_boot 6.16731

Confidence interval yang diperoleh untuk dan semuanya tidak

melalui titik 0, sehingga dapat disimpulkan dua koefisien regresi ini significant

pada . Dan model yang diperoleh adalah :

lifeexpf = 21.5513 + 6.16731 ln(gdp_cap)

85

Page 86: Bahan Ajar

HETEROSCEDASTICITY

Heteroscedasticity adalah sifat residual yang mempunyai varians yang

tidak homogen, atau :

Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual

yang sudah dibakukan dengan nilai , jika scatter plot membentuk gambar

seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan

dan jika membentuk pola seperi sebelah kanan maka varians residual

cenderung tidak homogen.

Selain dengan menggunakan scatter-plot seperti di atas, keberadaan

hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara

meregresikan kuadrad atau harga mutlak residual dengan variabel

independent, jika ada variabel independent yang significant maka varians

residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan

transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang

significant, atau :

86

Page 87: Bahan Ajar

Jika . maka dilakukan transformasi sebagai berikut :

atau

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan

metode kuadrat terkecil sehingga diperoleh :

Kemudian model ini dikembalikan ke variabel asal dengan

menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh :

Secara umum masalah heterocedasticity dapat diatasi dengan

mengguna-kan metode weighted least-squares yaitu :

dan adalah matriks diagonal dengan unsur

diagonal adalah

Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity

dapat diuji dengan koefisien korelasi Spearman antara residual dengan

variabel independent, jika korelasi ini significant maka cenderung terjadi kasus

hetroscedasticity.

Koefisien korelasi Spearman dihitung dengan cara :

dan D adalah selisih rank antar dua variabel.

87

Page 88: Bahan Ajar

Kegiatan Praktikum :

Dengan menggunakan uji Glejser, periksalah adanya kasus

heteroscedasticity untuk data berikut :

Year Saving Income1 264 87772 105 92103 90 99544 131 105085 122 109796 107 119127 406 127478 503 134999 431 14269

10 588 1552211 898 1673012 950 1766313 779 1857514 819 1963515 1222 2116316 1702 2288017 1578 2412718 1654 2560419 1400 2650020 1829 2767021 2200 2830022 2017 2743023 2105 2956024 1600 2815025 2250 3210026 2420 3250027 2570 3525028 1720 3350029 1900 3600030 2100 3620031 2300 38200

88

Page 89: Bahan Ajar

Penyelesaian :

Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan

dengan cara :

MTB > regr 'saving' 1 'income';SUBC> fits c11;SUBC> resid c12.

dan hasilnya adalah :

The regression equation issaving = - 648 + 0.0847 income

Predictor Coef SE Coef T PConstant -648.1 118.2 -5.49 0.000income 0.084665 0.004882 17.34 0.000

S = 247.6 R-Sq = 91.2% R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah :

MTB > let c13=abs(c12)MTB > name c13='abs_res'MTB > regr 'abs_res' 1 'income'

The regression equation isabs_res = - 7.7 + 0.00935 income

Predictor Coef SE Coef T PConstant -7.69 47.73 -0.16 0.873income 0.009346 0.001972 4.74 0.000

S = 100.0 R-Sq = 43.6% R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara

variabel harga mutlak residual dengan variabel income sehingga terjadi kasus

heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai

income maka selanjutnya dilakukan analisis regresi untuk model :

saving/income = income)+

Dengan bantuan MINITAB analisis regresi untuk model di atas dapat

dilakukan dengan cara :

89

Page 90: Bahan Ajar

MTB > let c4=saving/incomeMTB > let c5=1/incomeMTB > name c4='y*' c5='x*'MTB > regr 'y*' 1 'x*';SUBC> resid c21.

dan hasilnya adalah :

The regression equation isy* = 0.0881 - 723 x*

Predictor Coef SE Coef T PConstant 0.088139 0.004372 20.16 0.000x* -722.50 72.36 -9.98 0.000

S = 0.01051 R-Sq = 77.5% R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser

MTB > let c22=abs(c21)MTB > name c22='absres'MTB > regr 'absres' 1 'income'

Hasil pengujian Glejser

The regression equation isabsres = 0.00793 +0.000000 income

Predictor Coef SE Coef T PConstant 0.007931 0.002608 3.04 0.005income 0.00000003 0.00000011 0.31 0.760S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0%

NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara

harga mutlak residual dengan income atau varians residual cenderung sudah

homogen.

Sedangkan asumsi kenormalan residual dapat diuji dengan cara :

MTB > %NormPlot C21;SUBC> Kstest.

Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov

adalah :

90

Page 91: Bahan Ajar

Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5%

sehingga dapat diputuskan residual sudah berdistribusi normal

Model yang menggambarkan hubungan antara saving dengan income

setelah dilakukan transfromasi adalah :

y* = 0.0881 - 723 x* atau :

saving/income= 0.0881 -723 (1/income)

setelah ruas kiri dan kanan digandakan dengan income maka diperoleh :

saving=-723 +0.0881 income

91

Page 92: Bahan Ajar

MULTICOLLINEARITY

Multicollinearity

Adanya hubungan linear antar variabel independent

Multicollinearity dapat dideteksi dengan :

a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10

b. korelasi antar variabel independent yang tinggi

c.

d. R2 tinggi tetapi tidak ada variabel independent yang significant

e. Koefisien korelasi dan koefisien regresi berbeda tanda

Multicollinearity dapat diatasi dengan :

a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi

dengan variabel independent yang lain. Pengeluaran variabel ini dapat

dilakukan secara manual ataupun otomatis melalui metode stepwise.

b. Ridge Regression. , 0<k<1

c. Principal Component Regression, tahapan dari metode ini adalah :

- Melakukan pembakuan data :

- Membangkitkan variabel baru yang saling independent

w1 = a11x1 + a12x2 + … + a1pxp

w2 = a21x1 + a22x2 + … + a2pxp

wp = ap1x1 + ap2x2 + … + appxp

atau

wi =a’ix, nilai a’I adalah eigen-vector dari eigen-value ke-i dari

matriks korelasi antar variabel independent

- Melakukan regresi y dengan w dan menyatakan model regresi

y dengan w ke dalam model y dengan x

92

Page 93: Bahan Ajar

Kegiatan Praktikum1. Periksa adanya kasus multicollinearity pada

pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin

2. JIka ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi multicollinearity

Penyelesaiana. Memilih data dari region Amerika Latin klik data+select cases+if

b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent :klik analyze+correlate+bivariate

93

Page 94: Bahan Ajar

Correlations

1 .550** .500* .833** .756**

.550** 1 .285 .617** .581**

.500* .285 1 .578** .542*

.833** .617** .578** 1 .956**

.756** .581** .542* .956** 1

Average female lifeexpectancy

Gross domestic product /capitaPeople living in cities (%)

Females who read (%)

Males who read (%)

Averagefemale lifeexpectancy

Grossdomesticproduct /

capita

Peopleliving incities(%)

Femaleswho read

(%)

Maleswhoread(%)

Correlation is significant at the 0.01 level (2-tailed).**.

Correlation is significant at the 0.05 level (2-tailed).*.

Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity.

c. Memeriksa adanya kasus multicollinearity dengan VIF:klik analyze+regression+linear

klik statistics

94

Page 95: Bahan Ajar

Coefficientsa

45.921 8.483 5.413 .000

.000 .001 .320 .753 1.640

.011 .068 .159 .875 1.525

-.273 .274 -.997 .334 11.573

.594 .238 2.498 .024 13.289

(Constant)

Gross domestic product/ capita

People living in cities(%)

Males who read (%)

Females who read (%)

B Std. Error

UnstandardizedCoefficients

t Sig. VIF

CollinearityStatistics

Dependent Variable: Average female life expectancya.

Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk males who read negatif sedangkan koefisien korelasinya positif sehingga memang ada kasus multicollinearity.

d. Mengatasi multicollinearity dengan metode stepwise : klik analyze + regression + linear + method stepwise

Coefficientsa

39.013 5.077 7.684 .000

.406 .062 6.557 .000 1.000

(Constant)

Females who read (%)

Model1

B Std. Error

UnstandardizedCoefficients

t Sig. VIF

CollinearityStatistics

Dependent Variable: Average female life expectancya.

95

Page 96: Bahan Ajar

e. Mengatasi multicollinearity dengan ridge regression : klik file + new + syntax

klik Run +All

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE______ ______ ________ ________ ________ ________.00000 .71418 .054792 .026292 1.216924 -.453266.05000 .69610 .094060 .064195 .727695 -.027707.10000 .68316 .108722 .079079 .576309 .089996.15000 .67496 .116972 .087904 .499551 .141542.20000 .66894 .122256 .093883 .451628 .168551.25000 .66400 .125810 .098171 .418018 .183994.30000 .65966 .128228 .101326 .392635 .193180.35000 .65564 .129847 .103668 .372467 .198665.40000 .65182 .130880 .105402 .355839 .201821.45000 .64811 .131470 .106666 .341745 .203441.50000 .64445 .131719 .107560 .329540 .204016.55000 .64083 .131700 .108158 .318790 .203861.60000 .63722 .131470 .108517 .309190 .203186.65000 .63360 .131071 .108681 .300520 .202137.70000 .62999 .130537 .108683 .292617 .200817.75000 .62637 .129895 .108551 .285355 .199298.80000 .62273 .129165 .108309 .278639 .197636.85000 .61909 .128365 .107975 .272392 .195871.90000 .61544 .127509 .107564 .266551 .194033.95000 .61179 .126608 .107088 .261068 .1921461.0000 .60813 .125671 .106558 .255901 .190227

Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi

96

Page 97: Bahan Ajar

kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut :

97

Page 98: Bahan Ajar

f. Mengatasi multicollinearity dengan principal component regression

1. Menentukan skor komponen (w1, w2,…)

MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA';SUBC> Coefficients c41-c44;SUBC> Scores c51-c54.

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.8278 0.7163 0.4141 0.0419Proportion 0.707 0.179 0.104 0.010Cumulative 0.707 0.886 0.990 1.000

Variable PC1 PC2 PC3 PC4GDP_CAP -0.435 0.655 -0.616 0.049URBAN -0.414 -0.755 -0.506 0.046LIT_MALE -0.560 0.028 0.478 0.676LIT_FEMA -0.571 0.022 0.368 -0.734

2. Meregresikan y dengan w

Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1

MTB > regr 'lifeexpf' 1 'w1'The regression equation isLIFEEXPF = 71.8 - 3.51 w1Predictor Coef SE Coef T PConstant 71.7619 0.9930 72.26 0.000w1 -3.5140 0.6051 -5.81 0.000

3. Menyatakan model regresi ke dalam variabel asal

y = 71.8 -3.51 w1

y = 71.8 –3.51(-0.435 z1 -0.414 z2 -0.560 z3 -0.571 z4

y = 71.8 + 1.53 z1 + 1.45 z2 + 1.97 z3 + 2.00 z4

98

Page 99: Bahan Ajar

AUTOCORRELATION

Autocorrelation

Adanya hubungan antar residual atau residual bersifat tidak saling

independent, kasus ini sering dijumpai pada data time series.

Autocorrelation dapat dideteksi dengan :

a. Statistik uji Durbin-Watson :

b. ACF plot, ada nilai r(et,et-k) melampaui batas maka residual

tidak saling independent

c. Statistik uji Ljung-Box

tolak Ho : residual saling independent jika Q>k

Adanya residual yang saling dependent dapat diatasi dengan :

a. Regresi beda

b. Regresi Nisbah

c.

99

Page 100: Bahan Ajar

Kegiatan Praktikum

tahun export gdp1970 102 2551971 105 2611972 105 2611973 105 2601974 104 2571975 104 2571976 106 2611977 106 2601978 105 2571979 106 2591980 106 2591981 106 2581982 106 2571983 106 2571984 108 2611985 108 2611986 109 2621987 110 2641988 113 2711989 113 2711990 112 2681991 114 2711992 113 2691993 112 2661994 114 2701995 113 2671996 117 2761997 117 2761998 117 2761999 117 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export

dan periksa apakah residual sudah saling independent.

100

Page 101: Bahan Ajar

Penyelesaian

a. Penentuan model regresi dan pemeriksaan asumsi independent

residual

MTB > regr ‘gdp’ 1 ‘export’;

SUBC > resid c5.

The regression equation isgdp = 110 + 1.41 export

Predictor Coef SE Coef T PConstant 110.354 6.839 16.14 0.000export 1.40664 0.06251 22.50 0.000

S = 1.549 R-Sq = 94.8% R-Sq(adj) = 94.6%MTB > %acf c5

Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga

residual tidak saling independent.

101

Page 102: Bahan Ajar

b. Mengatasi autocorrelation dengan regresi beda

MTB > diff 'export' c7MTB > diff 'gdp' c8MTB > name c7 'dif_xprt' c8 'diff_gdp'MTB > regr c8 1 c7;SUBC> resid c9.

The regression equation isdiff_gdp = - 0.488 + 2.28 dif_xprt

29 cases used 1 cases contain missing values

Predictor Coef SE Coef T PConstant -0.48789 0.09875 -4.94 0.000dif_xprt 2.27658 0.06924 32.88 0.000

S = 0.4956 R-Sq = 97.6% R-Sq(adj) = 97.5%

MTB > %acf c9

residual sudah saling independent, dan modelnya adalah :

102

Page 103: Bahan Ajar

Mengatasi autocorrelation dengan regresi nisbah

MTB > let c11=c2/lag(c2)MTB > let c12=c3/lag(c3)MTB > regr c12 1 c11;SUBC> resid c13.

The regression equation isC12 = 0.0563 + 0.942 C11

29 cases used 1 cases contain missing values

Predictor Coef SE Coef T PConstant 0.05627 0.02957 1.90 0.068C11 0.94186 0.02942 32.01 0.000

S = 0.001930 R-Sq = 97.4% R-Sq(adj) = 97.3%

MTB > %acf c13

residual sudah saling independent, dan modelnya adalah

103

Page 104: Bahan Ajar

ROBUST REGRESSION

Metode pendugaan parameter yang paling sering dipergunakan di dalam

analisis regresi adalah metode kuadrat terkecil (least squares), metode ini

mempunyai kelemahan jika diterapkan pada data yang mengandung

pengamatan berpengaruh (inflentual observation), persamaan regresi yang

dihasilkan oleh metode kuadrat terkecil cenderung mudah berubah-ubah

dengan adanya pengamatan berpengaruh.

Untik mengatasi kelemahan metode kuadrat terkecil ini dapat dilakukan

dengan dua cara yaitu :

a. Mengeluarkan titik yang berpengaruh yang dapat dideteksi

dengan dffit, cook distance, dfbetas, setelah itu tetap menggunakan

metode kuadrat terkecil

b. Tetap menggunakan seluruh data, tetapi dengan memberikan

bobot yang kecil untuk pengamatan yang berpengaruh, metode ini

dikenal dengan nama metode regresi robust.

104

Page 105: Bahan Ajar

Metode pendugaan parameter di dalam analisis regresi robust

a. Least Absolute Deviation (LAD), metode ini bekerja dengan

meminimukan harga mutlak residual atau meminimumkan

b. Least Trimmed Squares, metode ini bekerja dengan cara

meminimumkan jumlah kuadrat q buah residual terkecil atau

meminimumkan , besarnya

c. Least Median Squares (LMS), metode ini bekerja dengan cara

meminimumkan median kuadrat residual atau meminimumkan

median( )

d. M estimate, metode ini dikenalkan oleh Huber dengan cara

meminimumkan jumlah fungsi dari residual atau meminimumkan

, jika maka metode ini sama dengan OLS dan jika

maka metode ini sama dengan LAD. Peminimuman dari

biasanya dilakukan dengan cara iteratively reweighted least

squares (IRLS) atau :

min ekuivalen dengan min dengan

untuk metode LAD :min ekuivalen dengan min

dengan , penentuan dapat juga ditentukan dengan cara :

untuk dan

untuk

Implementasi metode LAD dapat dinyatakan dalam macro berikut :

105

Page 106: Bahan Ajar

macro lad y xmconstant i n s iterasi delta mcolumn y x w error b_old b_newlet n=count(y)let iterasi=0let delta=10regr y 1 x; resid error; coef b_old.let error=abs(error)let s=median(error)while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 do i=1:n if error(i)<s let w(i)=1 else let w(i)=s/error(i) endif enddo regr y 1 x; weight w; resid error; coef b_new. let delta=sum(abs(b_old-b_new)) let error=abs(error) let s=median(error) let b_old=b_newendwhileendmacro

106

Page 107: Bahan Ajar

Kegiatan Praktikum

Dari data Anscombe berikut, tentukan model regresi robust dengan

metode LAD dan bandingkan hasilnya dengan metode OLS setelah pengamatan

berpengaruhnya dikeluarkan.

Nomor X Y

1 10 7.462 8 6.773 13 12.744 9 7.115 11 7.816 14 8.847 6 6.088 4 5.399 12 8.15

10 7 6.4211 5 5.73

Penyelesaian

Dengan menggunakan MINITAB diperoleh hasil sebagai berikut :

MTB >%lad.txt c2 c1

The regression equation isY = 4.01 + 0.345 XPredictor Coef SE Coef T PConstant 4.00533 0.03445 116.26 0.000X 0.345467 0.003783 91.31 0.000S = 0.03554 R-Sq = 99.9% R-Sq(adj) = 99.9%Analysis of VarianceSource DF SS MS F PRegression 1 10.533 10.533 8338.16 0.000Residual Error 9 0.011 0.001Total 10 10.545Unusual ObservationsObs X Y Fit SE Fit Residual St Resid 3 13.0 12.7400 8.4964 0.0207 4.2436 2.99R

107

Page 108: Bahan Ajar

Setelah kasus ke-3 dihilangkan, diperoleh persamaan regresi berikut :

MTB > let c2(3)=’*’

MTB > regr c2 1 c1

MTB > regr y 1 x

The regression equation isY = 4.01 + 0.345 X10 cases used 1 cases contain missing valuesPredictor Coef SE Coef T PConstant 4.00565 0.00292 1369.81 0.000X 0.345390 0.000321 1077.35 0.000S = 0.003082 R-Sq = 100.0% R-Sq(adj) = 100.0%

Setelah kasus ke-3 dihilangkan ternyata persamaan regresi dari OLS dan

LAD adalah hampir sama

108

Page 109: Bahan Ajar

NONLINEAR REGRESSION

Berdasarkan kelinearan antar parameter di dalam model regresi, maka

model regresi dapat diklasifikasikan menjadi dua macam yaitu linear dan non-

linear. Model regresi dikatakan linear jika dapat dinyatakan dalam model :

JIka model regresi tidak dapat dinyatakan ke dalam model di atas maka

model yang diperoleh adalah model regresi non-linear, secara umum model

regresi non-linear dapat dinyatakan dalam persamaan :

NIlai dapat diduga dengan dengan cara meminimukan jumlah kuadrat

residual, jumlah kuadrat ini dapat diminimukan jika turunan pertama terhadap

sama dengan nol atau :

Hasil turunan pertama terhadap sama dengan nol membentuk suatu

sistem persamaan non-linear yang tidak dapat diselesaikan secara langsung

tetapi dapat didekati secara iteratif dengan menggunakan metode numerik,

salah satu metode numerik yang dapat menyelesaikan hal ini adalah metode

Gauss-Newton. Metode Gauss-Newton ini bekerja dengan menggunakan

pendekatan deret Taylor dari fungsi sampai suku kedua. Nilai dugaan

pada iterasi ke i+1 adalah :

dan

109

Page 110: Bahan Ajar

Iterasi ini dihentikan jika nilai

atau

Levenberg-Marquardt menyempurnakan metode Gauss-Newton dengan

memasukkan konstanta (nilai awal yang besarnya berubah-ubah

mengikuti perubahan SSE. Nilai akan diperkecil sepersepuluh kali dan iterasi

diteruskan jika SSE turun serta nilai akan meningkat sepuluh kali dan

kembali ke iterasi awal jika SSE meningkat. Formula Levenberg-Marquardt

adalah :

110

Page 111: Bahan Ajar

Kegiatan Praktikum

Tahun Penduduk1980 1001981 1051982 1101983 1151984 1241985 1301986 1351987 1421988 1491989 1551990 1651991 1721992 1821993 1941994 2031995 2121996 2231997 2341998 2461999 2582000 271

Banyaknya penduduk pada interval tahun 1980

sampai dengan tahun 2000 diduga mempunyai pola

pertumbuhan eksponensial yang dapat dinyatakan

dalam model :

Tentukan nilai dugaan untuk dan

Penyelesaian

Model adalah model non linear, berbeda dengan model

yang dapat dilinearkan dengan transformasi logaritma, untuk

menduga besarnya koefisien regresi digunakan metode Gauss-Newton

dengan formula berikut :

Dengan nilai awal untuk (Nilai y pada tahun dasar) dan untuk

(nilai pertumbuhan relatif dari dua nilai y awal :100 ke 105).

Sedangkan nilai matriks dapat ditentukan dari dan yaitu :

111

Page 112: Bahan Ajar

sehingga matriks menjadi :

dan matriks ’ adalah :

Untuk menyelesaikan kaus ini dengan metode Gauss-Newton, dapat

dilakukan dengan bantuan Macro MINITAB berikut :

macro

nonlin yy xx b0 b1 mconstant b0 b1 bb0 bb1 iterasi deltamcolumn yy xx x1 x2 b yhat error mmatrix x xt xtx xtxinv xte e yyhat h b_old b_new## nilai awal#let b(1)=b0let b(2)=b1copy b b_oldlet yhat=b0*expo(b1*xx)let error=yy-yhatcopy error elet x1=expo(b1*xx)let x2=b0*xx*expo(b1*xx)copy x1 x2 xlet delta=10let iterasi=0## iterasi gauss-newton

112

Page 113: Bahan Ajar

#while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 transpose x xt multiply xt x xtx invert xtx xtxinv multiply xt e xte multiply xtxinv xte h add b_old h b_new copy b_new b let bb0=b(1) let bb1=b(2) let delta=abs(b0-bb0)+abs(b1-bb1) let b0=bb0 let b1=bb1 copy b_new b_old let yhat=b0*expo(b1*xx) let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 xendwhile print b0 b1endmacro

Untuk menjalankan macro MINITAB di atas dapat dilakukan dengan

perintah :

MTB > set c1DATA> 0:20DATA> endMTB > set c2DATA> 100 105 110 115 124 130 135 142 149 155DATA> 165 172 182 194 203 212 223 234 246 258DATA> 271DATA> endMTB > %nonlin.txt c2 c1 100 0.05b0 100.150b1 0.0499193

Sehingga model pertumbuhan eksponensial banyaknya penduduk dari

tahun 1980 sampai dengan tahun 2000 adalah :

Dengan bantuan SPSS pemodelan regresi nonlinear untuk banyaknya

penduduk dapat dilakukan dengan : klik analyze+regression+nonlinear

113

Page 114: Bahan Ajar

klik parameters

Iteration Residual SS B0 B1 1 22.83350008 100.000000 .050000000 1.1 22.58470063 100.149827 .049919149 2 22.58470063 100.149827 .049919149 2.1 22.58469961 100.149728 .049919293 3 22.58469961 100.149728 .049919293 3.1 22.58469961 100.149729 .049919293

Nilai koefisien regresi dan SSE sudah tidak berubah lagi sehingga iterasi berhenti.Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square

Regression 2 681946.41530 340973.20765 Residual 19 22.58470 1.18867 Uncorrected Total 21 681969.00000 (Corrected Total) 20 56224.95238 R squared = 1 - Residual SS / Corrected SS = .99960 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper

114

Page 115: Bahan Ajar

B0 100.14972863 .350807378 99.415480345 100.88397691 B1 .049919293 .000241815 .049413169 .050425416

Confidence interval untuk koefisien regresi tidak ada yang melalui titik nol

sehingga dapat dikatakan koefisien regresi yang diperoleh significant pada

Latihan

1. Rasio elektrifikasi (Persentase rumah tangga yang berlangganan PLN)

selama 20 tahun di suatu daerah adalah sebagai berikut :

57.44 64.57 71.09 76.85 81.76 85.81 89.09 91.68 93.70

95.26 96.44 97.34 98.02 98.52 98.90 99.18 99.39 99.55

99.67 99.75

Tentukan model yang menggambarkan hubungan antara rasio

elektrifikasi dengan waktu

2. Tentukan model terbaik yang menggambarkan hubungan antara harapan

hidup perempuan (y), persentase penduduk yang tinggal di perkotaan (x1),

harapan hidup laki-laki (x2) dan pendapatan perkapita(x3) yang dinyatakan

dalam model :

Penyelesaian

Persentase penduduk yang berlangganan PLN tidak mungkin lebih dari

100 %, dan akan mendekati 100 % untuk t yang sangat besar, salah satu

model yang memenuhi sifat-sifat ini adalah :

Dengan bantuan SPSS

115

Page 116: Bahan Ajar

Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 2 164053.29912 82026.64956 Residual 18 1.799245E-04 9.995807E-06 Uncorrected Total 20 164053.29930 (Corrected Total) 19 3129.70530 R squared = 1 - Residual SS / Corrected SS = 1.00000 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper

B0 .740850358 .000067112 .740709362 .740991355 B1 .299981460 .000027927 .299922787 .300040132

116

Page 117: Bahan Ajar

Pemodelan dengan bantuan SPSS dapat dilakukan

dengan cara :

Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source DF Sum of Squares Mean Square Regression 4 542255.95702 135563.98926 Residual 104 368.04298 3.53887 Uncorrected Total 108 542624.00000 (Corrected Total) 107 12023.07407 R squared = 1 - Residual SS / Corrected SS = .96939 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 1.266804442 .150462507 .968431646 1.565177239 B1 .010369463 .007318355 -.004143109 .024882036 B2 .934838552 .033915777 .867582293 1.002094811 B3 .009008014 .003101373 .002857875 .015158153

Confidence interval untuk memuat titik nol, sehingga koefisien ini

tidak significant sehingga analisis regresi nonlinear perlu dilanjutkan dengan

tanpa memasukkan variabel persentase penduduk yang tinggal diperkotaan.

117

Page 118: Bahan Ajar

Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF

Source DF Sum of Squares Mean Square

Regression 3 548174.04067 182724.68022 Residual 106 378.95933 3.57509 Uncorrected Total 109 548553.00000

(Corrected Total) 108 12070.34862

R squared = 1 - Residual SS / Corrected SS = .96860

Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper

B0 1.208565153 .138090655 .934786998 1.482343308 B2 .953133843 .031327433 .891024160 1.015243525 B3 .010483637 .002967936 .004599416 .016367859

118

Page 119: Bahan Ajar

RANCANGAN PERCOBAAN(EXPERIMENTAL DESIGN)

Tujuan

Mengkaji pengaruh pemberian perlakuan (treatment) terhadap satuan

percobaan (unit of experiment). Pengaruh dari perlakuan terhadap satuan

percobaan ditandai oleh bervariasinya nilai variabel respon (response variable)

yang diduga karena pemberian perlakuan yang berbeda.

Contoh

Dilakukan percobaan penentuan obat penurun tekanan darah terbaik

dengan mencobakan 3 macam obat, dan dilakukan pengukuran tekanan darah

systolic dan diastolic sebelum diberi obat dan setengah jam setelah minum obat pada

kelompok umur 30-40 tahun, 40-50 tahun dan 50-60 tahun.

Perlakuan

Kelompok (Block)

Variabel respon

Covariate

Satuan percobaan

Pemberian obat penurun tekanan darah

Kelompok umur

Tekanan darah setengah jam setelah minum obat

Tekanan darah sebelum minum obat

Pasien

.

119

Page 120: Bahan Ajar

Klasifikasi

Rancangan Lingkungan (Environmental design)

a. Rancangan Acak Lengkap (Completely Random Design), dipakai

pada kasus satuan percobaan bersifat homogen

b. Rancangan Acak Kelompok (Block Random Design), dipakai pada

kasus satuan percobaan bersifat heterogen, kemudian dilakukan

pengelompokan sedemikian hingga satuan percobaan di dalam

kelompok yang sama masih bersifat homogen.

Rancangan Perlakuan (Treatment design)

a. Dilihat dari penentuan perlakuan :fixed dan random, dikatakan random

jika penentuan perlakuan dipilih secara acak dan kesimpulannya nanti

berlaku untuk populasi perlakuan.

b. Dilihat dari macam perlakuan : tunggal dan faktorial, dikatakan

faktorial, jika perlakuan terdiri dari beberapa factor dan antar fakor

dimungkinkan terjadi interaksi

120

Page 121: Bahan Ajar

Rancangan Acak Lengkap :

Contoh 1 :

Untuk meneliti efektifitas obat penurun tekanan darah tinggi, dilakukan

percobaan pemberian obat yang terdiri dari tiga macam obat yaitu obat A:

placebo, obat B, dan obat C, setiap obat dicobakan pada 10 orang, dan pada

setiap orang diukur tekanan darah systolic sebellum minum obat (y1) dan 30

menit setelah minum obat (y2). Respon yang diamati adalah nilai y1-y2.

Pelaksanaan Percobaan

Untuk melakukan percobaan ini dibutuhkan 30 orang yang mempunyai

kondisi kesehatan yang sama dan dari kelompok umur yang sama serta

berjenis kelamin sama misalkan perempuan. Kemudian untuk menentukan

perlakuan ke setiap orang dibutukan pengacakan yang dapat dilakukan

dengan cara berikut.

Ambil 30 buah kartu yang ditandai a1,a2,…,a10, b1,…,b10, c1,…,c10

kemudian dikocok kemudian berikan pada setiap orang satu kartu, beri

perlakuan yang sesuai dengan kartu yang diperoleh setiap orang.

Nilai variabel respon yang diamati adalah

Obat 1 2 3 4 5 6 7 8 9 10A 2 6 7 3 0 1 4 5 10 4B 11 9 11 11 11 10 15 8 9 9C 17 18 16 18 23 25 20 22 17 16

121

Page 122: Bahan Ajar

Model yang sesuai untuk kasus ini adalah :, i=1,…,t dan j=1,..,r

: Nilai penurunn tekanan darah setelah diberi obat ke-i untuk orang ke-j : Rata-rata penurunan tekanan darah: Pengaruh pemberian obat ke-i: Galat Percobaan (Experimental Error)

Asumsi : beristribusi normal dengan rata-rata=0 dan varians konstan

Hipotesis :

H0 : Tidak ada pengaruh pemberian obat terhadap penurunan tekanan darah

H1 : Ada pengaruh pemberian obat terhadap penurunaan tekanan darah

atauH0 : atau H0 : H1 : H1 :

Statistik uji :

Sumber Variasi derajat

bebas

Jumlah Kuadrat

(Sum of Squares)

Kuadrat Tengah

(Mean of squares)

F-hitung

Perlakuan t

Sisa (residual) rt-t-1

Total rt-1

Tolak Ho jika F-hitung>

122

Page 123: Bahan Ajar

Dengan bantuan SPSS, pengujian pengaruh pemberian obat terhadap

penurunan tekanan darah dapat dilakukan dengan cara :

a. Pemasukan Data

b. Analysis of variance klik analyze+compare means+oneway ANOVA

123

Page 124: Bahan Ajar

c. Pengujian kesamaan varians klk options

d. Pembandingan berganda (multiple comparison) klik post-hoc

dan hasilnya adalah :

1.686 2 27 .204PenurunanTekananDarah

LeveneStatistic df1 df2 Sig.

Test of Homogeneity of Variances

Nilai sig. lebih besar dari 5%, sehingga H0 diterima yang berarti varians

penurunan tekanan darah untuk ketiga macam perlakuan pemberian obat

adalah sama.

124

Page 125: Bahan Ajar

1136.267 2 568.133 75.342 .000

203.600 27 7.541

1339.867 29

BetweenGroups

WithinGroups

Total

PenurunanTekananDarah

Sum ofSquares df

MeanSquare F Sig.

ANOVA

Nilai sig.<5% sehingga dapat disimpulkan ada pengaruh pemberian obat

terhadap penurunan tekanan darah atau rata-rata penurunan tekanan

darah dari perlakuan tiga macam obat tidak bisa dikatakan sama, untuk

menguji pasangan rata-rata yang berbeda dari perlakuan pemberian tiga

macam obat dapat dilakukan pembandingan berganda dengan

menggunakan statistik uji Least Significance Difference sebagai berikut :

Dependent Variable: Penurunan Tekanan Darah

LSD

-6.2000* 1.228 .000 -8.7198 -3.6802

-15.0000* 1.228 .000 -17.5198 -12.4802

6.2000* 1.228 .000 3.6802 8.7198

-8.8000* 1.228 .000 -11.3198 -6.2802

15.0000* 1.228 .000 12.4802 17.5198

8.8000* 1.228 .000 6.2802 11.3198

(J) JenisobattekanandarahB

C

A

C

A

B

(I) JenisobattekanandarahA

B

C

MeanDifference

(I-J) Std. Error Sig.LowerBound

UpperBound

95% ConfidenceInterval

Multiple Comparisons

The mean difference is significant at the .05 level.*.

Dari hasil pembandingan berganda, diperoleh informasi bahwa ketiga

macam obat memberikan rata-rata penurunan tekanan darah yang

berbeda, urutan penurunan tekanan darah adalah A<B<C.

125

Page 126: Bahan Ajar

Rancangan Acak Lengkap : analysis of covariance

Contoh 2 :

Untuk meneliti efektifitas obat penurun tekanan darah tinggi, dilakukan

percobaan pemberian obat yang terdiri dari tiga macam obat yaitu obat A:

placebo, obat B, dan obat C, setiap obat dicobakan pada 10 orang, dan pada

setiap orang diukur tekanan darah systolic sebellum minum obat (y1) dan 30

menit setelah minum obat (y2). Respon yang diamati adalah y2, sedangkan y1

adalah covariate.

Model yang sesuai untuk kasus ini adalah :

: Nilai tekanan darah setelah minum obat ke-I untuk orang ke-j

: Nilai rata-rata tekanan darah setelah minum obat

: Pengaruh obat ke-i

: NIlai tekanan darah sebelum minum obat ke-I untuk orang ke-k

Hipotesis 1:

H0 : Tidak ada pengaruh pemberian obat ke-I terhadap tekanan darah

H1 : Ada pengaruh pemberian obat ke-I terhadap tekanan darah

atau H0 : dan H1 :

Hipotesis 2 :

H0 : Tidak ada hubungan antara tekanan darah sebelum dan sesudah

minum obat

H1 : Ada hubungan antara tekanan darah sebelum dan sesudah minum

obat

atau : H0 : dan H1 :

126

Page 127: Bahan Ajar

Data :

  Tekanan darah sebelum dan sesudah minum obat A  Sesudah 142 143 145 150 144 145 148 142 146 142Sebelum 144 149 152 153 144 146 152 147 156 146  Tekanan darah sebelum dan sesudah minum obat B  Sesudah 143 141 149 145 147 144 145 146 149 143Sebelum 154 150 160 156 158 154 160 154 158 152  Tekanan darah sebelum dan sesudah minum obat C  Sesudah 143 150 143 150 146 146 146 147 142 150Sebelum 160 168 159 168 169 171 166 169 159 166

Dengan bantuan SPSS hal ini dapat diselesaikan dengan cara :

a. Pemasukan Data

127

Page 128: Bahan Ajar

b. Analisis Covariance : klik Analyze + General linear model + factorial

dan hasilnya adalah :

113.072 1 113.072 30.393 .000

56.224 2 28.112 7.556 .003

126.472 3 42.157 11.332 .000

96.728 26 3.720

223.200 29 7.697

Tekanandarahsebelumminumobat

Covariates

obatpenuruntekanandarah

Main Effects

Model

Residual

Total

Tekanandarahsesudahminumobat

Sum ofSquares df

MeanSquare F Sig.

Unique Method

ANOVAa,b

Tekanan darah sesudah minum obat by obat penurun tekanan darah with Tekanan darahsebelum minum obat

a.

All effects entered simultaneouslyb.

Nilai sig. untuk covariates lebih kecil dari 5 % berarti ada hubungan

antara tekanan darah sebelum dan sesudah minum obat.

Nilai sig. untuk main effects lebih kecil dari 5% berarti ada pengaruh

pemberian obat penurun tekanan darah terhadap tekanan darah setelah

minum obat

128

Page 129: Bahan Ajar

Rancangan LIngkungan : Rancangan Acak Lengkap

Rancangan Perlakuan : Faktorial

You as a biologist are studying how zooplankton live in two lakes. You set

up twelve tanks in your laboratory, six each with water from a different lake.

You add one of three nutrient supplements to each tank and after 30 days you

count the zooplankton in a unit volume of water.

Data untuk kasus ini diperoleh dari MINITAB (EXH_AOV.MTW), model

yang sesuai untuk kasus ini adalah :

dan i=1,2,3 j=1,2 k=1,2

: Banyaknya zooplankton pada air danau ke j yang diberi supplement

ke- i dan ulangan (replication) ke-k

: Rata-rata banyaknya zooplankton

: Pengaruh supplement ke-i terhadap banyaknya zooplankton

: Pengaruh penggunaan air dari danau ke-j terhadap banyaknya

zooplankton

Dengan bantuan MINITAB kasus ini dapat diselesaikan dengan cara : klik

stat + anova+two-way :

129

Page 130: Bahan Ajar

dan hasilnya adalah :

Analysis of Variance for ZooplankSource DF SS MS F PSuppleme 2 1919 959 9.25 0.015Lake 1 21 21 0.21 0.666Interaction 2 561 281 2.71 0.145Error 6 622 104Total 11 3123

Individual 95% CISuppleme Mean --+---------+---------+---------+---------1 43.5 (-------*-------)2 68.3 (--------*-------)3 39.8 (--------*-------) --+---------+---------+---------+--------- 30.0 45.0 60.0 75.0

Dilihat dari p-value dapat disimpulkan bahwa ada pengaruh supplement

tidak ada pengaruh penggunaan air dari danau yang berbeda, tidak ada

pengaruh interaksi antara penggunaan air yang berbeda dengan jenis

supplement terhadap banyaknya zooplankton. Supplement terbaik adalah

supplement yang kedua, yang memberikan rata-rata banyaknya zooplankton

tertinggi dibandingkan dengan supplement yang lain.

130

Page 131: Bahan Ajar

Rancangan Lingkungan : Rancangan Acak Kelompok

Rancangan Perlakuan : Perlakuan Tunggal

/* Getting Started Example 2: Randomized Complete Block Design */ title 'Randomized Complete Block'; data RCB; input Block Treatment $ Yield Worth @@; datalines; 1 A 32.6 112 1 B 36.4 130 1 C 29.5 106 2 A 42.7 139 2 B 47.1 143 2 C 32.9 112 3 A 35.3 124 3 B 40.1 134 3 C 33.6 116 ; proc anova; class Block Treatment; model Yield Worth=Block Treatment; means Treatment; run;

Dependent Variable: Yield Sum of Source DF Squares Mean Square F Value Pr > F Model 4 225.2777778 56.3194444 8.94 0.0283 Error 4 25.1911111 6.2977778 Corrected Total 8 250.4688889

R-Square Coeff Var Root MSE Yield Mean 0.899424 6.840047 2.509537 36.68889

Source DF Anova SS Mean Square F Value Pr > F

Block 2 98.1755556 49.0877778 7.79 0.0417 Treatment 2 127.1022222 63.5511111 10.09 0.0274

Dependent Variable: Worth

Sum of Source DF Squares Mean Square F Value Pr > F Model 4 1247.333333 311.833333 8.28 0.0323 Error 4 150.666667 37.666667 Corrected Total 8 1398.000000

R-Square Coeff Var Root MSE Worth Mean 0.892227 4.949450 6.137318 124.0000

Source DF Anova SS Mean Square F Value Pr > F Block 2 354.6666667 177.3333333 4.71 0.0889 Treatment 2 892.6666667 446.3333333 11.85 0.0209

Rancangan Lingkungan : Rancangan Acak Kelompok

Rancangan Perlakuan : Faktorial

/* Example 1: Randomized Complete Block */ /* With Factorial Treatment Structure */

131

Page 132: Bahan Ajar

title 'Randomized Complete Block With Two Factors'; data PainRelief; input PainLevel Codeine Acupuncture Relief @@; datalines; 1 1 1 0.0 1 2 1 0.5 1 1 2 0.6 1 2 2 1.2 2 1 1 0.3 2 2 1 0.6 2 1 2 0.7 2 2 2 1.3 3 1 1 0.4 3 2 1 0.8 3 1 2 0.8 3 2 2 1.6 4 1 1 0.4 4 2 1 0.7 4 1 2 0.9 4 2 2 1.5 5 1 1 0.6 5 2 1 1.0 5 1 2 1.5 5 2 2 1.9 6 1 1 0.9 6 2 1 1.4 6 1 2 1.6 6 2 2 2.3 7 1 1 1.0 7 2 1 1.8 7 1 2 1.7 7 2 2 2.1 8 1 1 1.2 8 2 1 1.7 8 1 2 1.6 8 2 2 2.4 ; proc anova; class PainLevel Codeine Acupuncture; model Relief = PainLevel Codeine|Acupuncture; run;

The ANOVA Procedure

Dependent Variable: Relief

Sum of Source DF Squares Mean Square F Value Pr > F Model 10 11.33500000 1.13350000 78.37 <.0001 Error 21 0.30375000 0.01446429 Corrected Total 31 11.63875000

R-Square Coeff Var Root MSE Relief Mean 0.973902 10.40152 0.120268 1.156250

Source DF Anova SS Mean Square F Value Pr > F

PainLevel 7 5.59875000 0.79982143 55.30 <.0001 Codeine 1 2.31125000 2.31125000 159.79 <.0001 Acupuncture 1 3.38000000 3.38000000 233.68 <.0001

Codeine*Acupuncture 1 0.04500000 0.04500000 3.11 0.0923

Split Plot 

Rancangan Lingkungan : Rancangan Acak Kelompok

Rancangan Perlakuan : Faktorial

Faktor pertama diacak di dalam kelompok, sedangkan factor kedua diacak dalam factor pertama, error untuk factor pertama adalah interaksi antara kelompok dengan factor pertama.data Split;    input Block 1 A 2 B 3 Response;    datalines; 142 40.0

132

Page 133: Bahan Ajar

141 39.5 112 37.9 111 35.4 121 36.7 122 38.2 132 36.4 131 34.8 221 42.7 222 41.6 212 40.3 211 41.6 241 44.5 242 47.6 231 43.6 232 42.8 ;     proc anova;       class Block A B;       model Response = Block A Block*A B A*B;       test h=A e=Block*A;    run; Sum of Source DF Squares Mean Square F Value Pr > F Model 11 182.0200000 16.5472727 7.85 0.0306 Error 4 8.4300000 2.1075000 Corrected Total 15 190.4500000

R-Square Coeff Var Root MSE Response Mean 0.955736 3.609007 1.451723 40.22500 Source DF Anova SS Mean Square F Value Pr > F Block 1 131.1025000 131.1025000 62.21 0.0014 A 3 40.1900000 13.3966667 6.36 0.0530 Block*A 3 6.9275000 2.3091667 1.10 0.4476 B 1 2.2500000 2.2500000 1.07 0.3599 A*B 3 1.5500000 0.5166667 0.25 0.8612

Tests of Hypotheses Using the Anova MS for Block*A as an Error Term Source DF Anova SS Mean Square F Value Pr > F

A 3 40.19000000 13.39666667 5.80 0.0914

133