Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk...
Transcript of Mendeteksi Beberapa “Outlier” dalam Regresi Linier · PDF filek digunakan untuk...
Jurnal Penelitian Sains Edisi Khusus Juni 2010 (A) 10:06-03
Mendeteksi Beberapa “Outlier” dalam Regresi Linier
Robinson Sitepu
Jurusan Matematika FMIPA, Universitas Sriwijaya, Sumatera Selatan, Indonesia
Intisari: Statistik baru Fk digunakan untuk mendeteksi “outlier” dalam regresi linier. Statistik ini digunakan dalam
prosedur multi stage sebagai berikut, mula-mula subset k pengamatan dipilih untuk diuji. Jika F signifikan maka obser-
vasi yang paling ekstrem dalam subset yang ditentukan oleh residu yang distudentkan terbesar dibuang dan pengujian
ulang untuk (k − 1) pengamatan sisanya. Prosedur dihentikan apabila pengujian gagal menolak hipotesis tanpa outlier
tersebut.
Kata kunci: outlier, signifikan, regresi
Abstract: New Statistic Fk are used to detect “outlier” in the linear regression. These statistics are used in multi-
stage procedure as follows, first selected subset of k observation to be tested. If F significant then the most extreme
observation in the subset are determined by the largest disstudentkan residue discarded and the test is repeated for
(k−1) observations of the rest. The procedure will be discontinued if the test fails to reject the hypothesis without these
outliers.
Keywords: outlier, significant, regression
Juni 2010
1 PENDAHULUAN
D alam penelitian yang melibatkan dua variabelatau lebih, sering kita dihasapkan kepada su-
atu masalah, apakah kita ingin menentukan hubunganfungsionalnya (regresi) atau kuatnya hubungan antarasatu variabel dengan variabel yang lainnya (korelasi).
Makalah ini hanya mengubah pengujian hubunganfungsional antara satu variabel dengan variabel yanglainnya yang berbentuk linier dan penentuan modelregresi yang baiknya.
Dalam penelitian sering diperoleh nilai data penga-matan salah satu atau lebih ada yang ekstrem (out-lier). Adanya outlier ini kemungkinan besar meru-pakan salah satu sebab kurang baiknya model regresitaksirannya. Oleh karena itu, sebelum kita memba-has cara mendeteksi outlier dalam analisis regresi lin-ier dengan melibatkan nilai residunya melalui prosedurpengujian yang dilakukan secara bertahap.
2 METODOLOGI
Langkah-langkah dalam metodologi, yaitu:
1. Pendeteksian outlier
2. Prosedur pengujian
3 PEMBAHASAN
3.1 Pendeteksian Outlier
Misalkan Yi, X1i, X2i, . . . , Xpi pasangan yang mem-punyai hubungan fungsional, dengan asumsi modelnyaberbentuk:
~Y = X~α + ~ε
dengan asumsi-asumsi:
1. E(~ε) = 0
2. E(~ε ~ε′) = α2
3. X Variabel non stole
4. rank dari X adalah penuh.
Misalkan model sampelnya adalah sebagai berikut :
~Y = X~α + ~e
dengan~α = (X ′X)−1X ′~Y
Sehingga
~e = ~Y − X~α
= ~Y − X(X ′X)−1(X ′~Y )
=[I − X(X ′X)−1X
]~Y
c© 2010 FMIPA Universitas Sriwijaya 1006-03-10
R. Sitepu/Mendeteksi Beberapa Outlier . . . JPS Edisi Khusus (A) 10:06-03
Andaikan
V = ((Vij)) = X(X ′X)−1X
Untuk mendapatkan model yang baik perlu di-ilakukan pengujian secara bertahap untuk mende-teksi ada tidaknya outlier dengan menghilangkan datapengamatan yang diduga sebagai outlier. Setiaptahap, berdasarkan nilai mutlak terbesar residu yangdistudentkan, atau maksimum |ti|. Dengan :
ti =1i√
1− Vij
3.2 Prosedur Pengujian
3.2.1 Hipotesis
H0 : pengamatan ke-i = 1, bukan outlier H1 : palingbanyak k pengamatan merupakan outlier
3.2.2 Statistik Uji (marvyn G.M)
Fk =(S1 −Q∗)k
S1
dengan S1 = jumlah kuadrat residu dari pengamatanpertama untuk model regresi linier
Q∗k =k∑
i=1
t2i
3.2.3 Kriteria Uji
Tolak H0 jika Fk < Fk(α). Fk(α) diperoleh dari tabelF dengan derajat bebas pemmbilang n dan derajatbebas penyebut k − 1. Jika H0 ditolak, maka penga-mataan ke-i outlier dan pengujian dilanjutkan:
H0 : pengamatan ke-i = 2, bukan outlier H1 : palingbanyak k − 1 pengamatan merupakan outlier
Dengan statistik uji
Fk−1 =(S2 −Q∗(k − 1))
S2
dengan: S2 = jumlah kuadrat residu dari model re-gresi linier dengan mengurangi data ke-i
Q∗k − 1 =k∑
i=1
t2i
Demikian proses pengujian ini dilanjutkan sampaididapat kesimpulan bahwa pengamatan bukan outlier.
3.3 Contoh Pemakaian
Diperoleh data sebagai berikut : Y : kekuatan serat(pound/inci2) X1 : kehalusan serat (mg/inci) X2 :Ketuaan serat (%)
Analisis :
Unit sampling Y X1 X2 |ti|1 75.56 4.6 77.55 5.13774
2 67.99 4.0 66.82 6.887915
3 76..16 4.5 65.52 3.785012
4 70.16 4.7 77.23 10.28875
5 99.69 3.2 78.46 16.47107
6 69.07 3.6 67.38 6.888008
7 78.81 4.6 73.36 0.9867995
8 70.16 4.7 72.16 6.918219
9 75.66 5.1 71.19 1.1710928
10 74.48 4.7 76.02 5.045916
11 73.39 4.6 74.93 5.625444
12 66.91 4..9 68.19 7.249629
13 72.32 4.8 75.92 8.488777
14 67.99 4.2 68.12 7.38346
15 88.96 4.9 79.11 8.14544
16 116.54 4.8 69.80 42.48617
17 76.64 5.2 69.12 2.681786
18 78.81 4.9 73.68 1.3269114
19 71.24 5.3 74.58 5.979585
1. Uji kenormalan Y
2. Taksir model regresi Y pada X1 dan X2
3. Deteksi titik pencil/outlier : tentukan residu yangdistudentkan ti. Tentukan S : jumlah kuadratresidu. Diduga pengamatan ke-16, 5, 15, dan 12outlier. Berarti k=4
Uji secara bertahap:
1. Tahap Pertama
H0: pengamatan ke-16 bukan outlier
H1: pengamatan ke-16 outlier (paling banyakpengamatan merupakan outlier) Jika asumsiGauss dipenuhi, maka yakni dengan metodakuadrat terkecil didapat:
Y = 38.63252− 1.793641X1i + 0.64752X2i
Dari data diatas diperoleh
S1 = 2571.067008
Q∗4 =k∑
i=1
t2i
= 2148.598
Fk =(S1−Q∗k)
S1
=2751.067008− 2148.598
2571.067008= 0.1643166
fk(α) = F0.05;15;3
= 8.70
1006-03-11
R. Sitepu/Mendeteksi Beberapa Outlier . . . JPS Edisi Khusus (A) 10:06-03
Karena Fk < Fk(α), maka H0 ditolak artinyapengamatan ke 16 outlier. Karena pengamatanke-16 adalah outlier maka diteruskan dengan pen-gujian tahap dua.
2. Tahap Kedua
H0: pengamatan ke-5 bukan outlier
H1: pengamatan ke-5 outlier (paling banyakpengamatan merupakan outlier)
Dari data diatas dengan pengamatan ke-16 di-hilangkan didapat persamaan regresi taksirannyasebagai berikut:
Y = 18.17168− 3.95681X1i + 1.031876X2i
Sedangkan
S2 = 696.17169Q∗3 = 443.5027F3 = 0.3629406
Untuk n = 18; k = 3, α = 0.05, didapat Ftabel =0.2340. Karena F3 > Ftabel maka terima H0. Jadipengamatan ke-5 bukan outlier. Proosedur pen-gujian dihenntikan.
Outlier hanya pada data ke-16, data ke-16 diha-puskan sehingga Y menngikuti distribusi normaldan model taksiran yang baik adalah:
Y = 18.17169− 3.95681X1i + 1.031876X2i
Model ini dengan aman dapat dipergunakan un-tuk keperluan analisis selanjutnya.
DAFTAR PUSTAKA
[1] Beckman, R.J. and R.D. Cook, 1983, Outliers,Techometric, 25, 119-149
[2] Drapper, N.R. and H. Smith, , Applies RegressionAnalysis, John Wiley and Son
[3] Marvyn, G.M.A., , Multistage Procedure for Detectingseveral Outliers in linear regression, Technometri, 4, 27,385-399
[4] Prescott, P., , An Approximate Test for Outlier inLinear Model, Techometics
1006-03-12