Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk...

3
Jurnal Penelitian Sains Edisi Khusus Juni 2010 (A) 10:06-03 Mendeteksi Beberapa “Outlier ” dalam Regresi Linier Robinson Sitepu Jurusan Matematika FMIPA, Universitas Sriwijaya, Sumatera Selatan, Indonesia Intisari: Statistik baru F k digunakan untuk mendeteksi “outlier ” dalam regresi linier. Statistik ini digunakan dalam prosedur multi stage sebagai berikut, mula-mula subset k pengamatan dipilih untuk diuji. Jika F signifikan maka obser- vasi yang paling ekstrem dalam subset yang ditentukan oleh residu yang distudentkan terbesar dibuang dan pengujian ulang untuk (k - 1) pengamatan sisanya. Prosedur dihentikan apabila pengujian gagal menolak hipotesis tanpa outlier tersebut. Kata kunci: outlier, signifikan, regresi Abstract: New Statistic F k are used to detect “outlier” in the linear regression. These statistics are used in multi- stage procedure as follows, first selected subset of k observation to be tested. If F significant then the most extreme observation in the subset are determined by the largest disstudentkan residue discarded and the test is repeated for (k - 1) observations of the rest. The procedure will be discontinued if the test fails to reject the hypothesis without these outliers. Keywords: outlier, significant, regression Juni 2010 1 PENDAHULUAN D alam penelitian yang melibatkan dua variabel atau lebih, sering kita dihasapkan kepada su- atu masalah, apakah kita ingin menentukan hubungan fungsionalnya (regresi) atau kuatnya hubungan antara satu variabel dengan variabel yang lainnya (korelasi). Makalah ini hanya mengubah pengujian hubungan fungsional antara satu variabel dengan variabel yang lainnya yang berbentuk linier dan penentuan model regresi yang baiknya. Dalam penelitian sering diperoleh nilai data penga- matan salah satu atau lebih ada yang ekstrem (out- lier ). Adanya outlier ini kemungkinan besar meru- pakan salah satu sebab kurang baiknya model regresi taksirannya. Oleh karena itu, sebelum kita memba- has cara mendeteksi outlier dalam analisis regresi lin- ier dengan melibatkan nilai residunya melalui prosedur pengujian yang dilakukan secara bertahap. 2 METODOLOGI Langkah-langkah dalam metodologi, yaitu: 1. Pendeteksian outlier 2. Prosedur pengujian 3 PEMBAHASAN 3.1 Pendeteksian Outlier Misalkan Y i ,X 1i ,X 2i ,...,X pi pasangan yang mem- punyai hubungan fungsional, dengan asumsi modelnya berbentuk: Y = ˜ X α + dengan asumsi-asumsi: 1. E( )=0 2. E( )= α 2 3. ˜ X Variabel non stole 4. rank dari ˜ X adalah penuh. Misalkan model sampelnya adalah sebagai berikut : Y = ˜ X α + e dengan α =( ˜ X ˜ X) -1 ˜ X Y Sehingga e = Y - ˜ X α = Y - ˜ X( ˜ X ˜ X) -1 ( ˜ X Y ) = I - ˜ X( ˜ X ˜ X) -1 ˜ X Y c 2010 FMIPA Universitas Sriwijaya 1006-03-10

Transcript of Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk...

Page 1: Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk mendeteksi “outlier” dalam regresi linier. Statistik ini digunakan dalam ... Makalah ini hanya

Jurnal Penelitian Sains Edisi Khusus Juni 2010 (A) 10:06-03

Mendeteksi Beberapa “Outlier” dalam Regresi Linier

Robinson Sitepu

Jurusan Matematika FMIPA, Universitas Sriwijaya, Sumatera Selatan, Indonesia

Intisari: Statistik baru Fk digunakan untuk mendeteksi “outlier” dalam regresi linier. Statistik ini digunakan dalam

prosedur multi stage sebagai berikut, mula-mula subset k pengamatan dipilih untuk diuji. Jika F signifikan maka obser-

vasi yang paling ekstrem dalam subset yang ditentukan oleh residu yang distudentkan terbesar dibuang dan pengujian

ulang untuk (k − 1) pengamatan sisanya. Prosedur dihentikan apabila pengujian gagal menolak hipotesis tanpa outlier

tersebut.

Kata kunci: outlier, signifikan, regresi

Abstract: New Statistic Fk are used to detect “outlier” in the linear regression. These statistics are used in multi-

stage procedure as follows, first selected subset of k observation to be tested. If F significant then the most extreme

observation in the subset are determined by the largest disstudentkan residue discarded and the test is repeated for

(k−1) observations of the rest. The procedure will be discontinued if the test fails to reject the hypothesis without these

outliers.

Keywords: outlier, significant, regression

Juni 2010

1 PENDAHULUAN

D alam penelitian yang melibatkan dua variabelatau lebih, sering kita dihasapkan kepada su-

atu masalah, apakah kita ingin menentukan hubunganfungsionalnya (regresi) atau kuatnya hubungan antarasatu variabel dengan variabel yang lainnya (korelasi).

Makalah ini hanya mengubah pengujian hubunganfungsional antara satu variabel dengan variabel yanglainnya yang berbentuk linier dan penentuan modelregresi yang baiknya.

Dalam penelitian sering diperoleh nilai data penga-matan salah satu atau lebih ada yang ekstrem (out-lier). Adanya outlier ini kemungkinan besar meru-pakan salah satu sebab kurang baiknya model regresitaksirannya. Oleh karena itu, sebelum kita memba-has cara mendeteksi outlier dalam analisis regresi lin-ier dengan melibatkan nilai residunya melalui prosedurpengujian yang dilakukan secara bertahap.

2 METODOLOGI

Langkah-langkah dalam metodologi, yaitu:

1. Pendeteksian outlier

2. Prosedur pengujian

3 PEMBAHASAN

3.1 Pendeteksian Outlier

Misalkan Yi, X1i, X2i, . . . , Xpi pasangan yang mem-punyai hubungan fungsional, dengan asumsi modelnyaberbentuk:

~Y = X~α + ~ε

dengan asumsi-asumsi:

1. E(~ε) = 0

2. E(~ε ~ε′) = α2

3. X Variabel non stole

4. rank dari X adalah penuh.

Misalkan model sampelnya adalah sebagai berikut :

~Y = X~α + ~e

dengan~α = (X ′X)−1X ′~Y

Sehingga

~e = ~Y − X~α

= ~Y − X(X ′X)−1(X ′~Y )

=[I − X(X ′X)−1X

]~Y

c© 2010 FMIPA Universitas Sriwijaya 1006-03-10

Page 2: Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk mendeteksi “outlier” dalam regresi linier. Statistik ini digunakan dalam ... Makalah ini hanya

R. Sitepu/Mendeteksi Beberapa Outlier . . . JPS Edisi Khusus (A) 10:06-03

Andaikan

V = ((Vij)) = X(X ′X)−1X

Untuk mendapatkan model yang baik perlu di-ilakukan pengujian secara bertahap untuk mende-teksi ada tidaknya outlier dengan menghilangkan datapengamatan yang diduga sebagai outlier. Setiaptahap, berdasarkan nilai mutlak terbesar residu yangdistudentkan, atau maksimum |ti|. Dengan :

ti =1i√

1− Vij

3.2 Prosedur Pengujian

3.2.1 Hipotesis

H0 : pengamatan ke-i = 1, bukan outlier H1 : palingbanyak k pengamatan merupakan outlier

3.2.2 Statistik Uji (marvyn G.M)

Fk =(S1 −Q∗)k

S1

dengan S1 = jumlah kuadrat residu dari pengamatanpertama untuk model regresi linier

Q∗k =k∑

i=1

t2i

3.2.3 Kriteria Uji

Tolak H0 jika Fk < Fk(α). Fk(α) diperoleh dari tabelF dengan derajat bebas pemmbilang n dan derajatbebas penyebut k − 1. Jika H0 ditolak, maka penga-mataan ke-i outlier dan pengujian dilanjutkan:

H0 : pengamatan ke-i = 2, bukan outlier H1 : palingbanyak k − 1 pengamatan merupakan outlier

Dengan statistik uji

Fk−1 =(S2 −Q∗(k − 1))

S2

dengan: S2 = jumlah kuadrat residu dari model re-gresi linier dengan mengurangi data ke-i

Q∗k − 1 =k∑

i=1

t2i

Demikian proses pengujian ini dilanjutkan sampaididapat kesimpulan bahwa pengamatan bukan outlier.

3.3 Contoh Pemakaian

Diperoleh data sebagai berikut : Y : kekuatan serat(pound/inci2) X1 : kehalusan serat (mg/inci) X2 :Ketuaan serat (%)

Analisis :

Unit sampling Y X1 X2 |ti|1 75.56 4.6 77.55 5.13774

2 67.99 4.0 66.82 6.887915

3 76..16 4.5 65.52 3.785012

4 70.16 4.7 77.23 10.28875

5 99.69 3.2 78.46 16.47107

6 69.07 3.6 67.38 6.888008

7 78.81 4.6 73.36 0.9867995

8 70.16 4.7 72.16 6.918219

9 75.66 5.1 71.19 1.1710928

10 74.48 4.7 76.02 5.045916

11 73.39 4.6 74.93 5.625444

12 66.91 4..9 68.19 7.249629

13 72.32 4.8 75.92 8.488777

14 67.99 4.2 68.12 7.38346

15 88.96 4.9 79.11 8.14544

16 116.54 4.8 69.80 42.48617

17 76.64 5.2 69.12 2.681786

18 78.81 4.9 73.68 1.3269114

19 71.24 5.3 74.58 5.979585

1. Uji kenormalan Y

2. Taksir model regresi Y pada X1 dan X2

3. Deteksi titik pencil/outlier : tentukan residu yangdistudentkan ti. Tentukan S : jumlah kuadratresidu. Diduga pengamatan ke-16, 5, 15, dan 12outlier. Berarti k=4

Uji secara bertahap:

1. Tahap Pertama

H0: pengamatan ke-16 bukan outlier

H1: pengamatan ke-16 outlier (paling banyakpengamatan merupakan outlier) Jika asumsiGauss dipenuhi, maka yakni dengan metodakuadrat terkecil didapat:

Y = 38.63252− 1.793641X1i + 0.64752X2i

Dari data diatas diperoleh

S1 = 2571.067008

Q∗4 =k∑

i=1

t2i

= 2148.598

Fk =(S1−Q∗k)

S1

=2751.067008− 2148.598

2571.067008= 0.1643166

fk(α) = F0.05;15;3

= 8.70

1006-03-11

Page 3: Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk mendeteksi “outlier” dalam regresi linier. Statistik ini digunakan dalam ... Makalah ini hanya

R. Sitepu/Mendeteksi Beberapa Outlier . . . JPS Edisi Khusus (A) 10:06-03

Karena Fk < Fk(α), maka H0 ditolak artinyapengamatan ke 16 outlier. Karena pengamatanke-16 adalah outlier maka diteruskan dengan pen-gujian tahap dua.

2. Tahap Kedua

H0: pengamatan ke-5 bukan outlier

H1: pengamatan ke-5 outlier (paling banyakpengamatan merupakan outlier)

Dari data diatas dengan pengamatan ke-16 di-hilangkan didapat persamaan regresi taksirannyasebagai berikut:

Y = 18.17168− 3.95681X1i + 1.031876X2i

Sedangkan

S2 = 696.17169Q∗3 = 443.5027F3 = 0.3629406

Untuk n = 18; k = 3, α = 0.05, didapat Ftabel =0.2340. Karena F3 > Ftabel maka terima H0. Jadipengamatan ke-5 bukan outlier. Proosedur pen-gujian dihenntikan.

Outlier hanya pada data ke-16, data ke-16 diha-puskan sehingga Y menngikuti distribusi normaldan model taksiran yang baik adalah:

Y = 18.17169− 3.95681X1i + 1.031876X2i

Model ini dengan aman dapat dipergunakan un-tuk keperluan analisis selanjutnya.

DAFTAR PUSTAKA

[1] Beckman, R.J. and R.D. Cook, 1983, Outliers,Techometric, 25, 119-149

[2] Drapper, N.R. and H. Smith, , Applies RegressionAnalysis, John Wiley and Son

[3] Marvyn, G.M.A., , Multistage Procedure for Detectingseveral Outliers in linear regression, Technometri, 4, 27,385-399

[4] Prescott, P., , An Approximate Test for Outlier inLinear Model, Techometics

1006-03-12