8
BAB II
LANDASAN TEORI
Sebagai pendukung dalam pembahasan selanjutnya, diperlukan beberapa
teori dan definisi mengenai variabel random, regresi linier, metode kuadrat
terkecil, pengujian asumsi analisis regresi, outlier, dan regresi robust.
A. Variabel Random
Definisi 2.1 (Bain & Engelhardt, 1992: 53) Variabel random merupakan fungsi
yang memetakan setiap hasil yang mungkin pada ruang sampel dengan suatu
bilangan real , sedemikian sehingga ( ) . Huruf besar X digunakan untuk
menotasikan variabel random, sedangkan huruf kecil seperti x digunakan untuk
menotasikan bilangan riil yang merupakan hasil nilai-nilai yang mungkin dari
variabel random.
Dilihat dari segi tipe nilainya, variabel random dibedakan menjadi 2, yaitu
variabel random diskrit dan variabel random kontinu.
1. Variabel Random Diskrit
Definisi 2.2. (Bain & Engelhardt, 1992: 56) Variabel random disebut variabel
random diskrit apabila himpunan semua nilai yang mungkin variabel random
adalah himpunan terhitung (countable), * + atau * +.
Dalam variabel random diskrit terdapat fungsi kepadatan peluang diskrit
dan fungsi distribusi kumulatifnya. Dari pengertian variabel random diskrit, dapat
didefinisikan fungsi kepadatatan peluang diskritnya, yaitu:
9
Definisi 2.3. (Bain & Engelhardt, 1992: 56) Fungsi ( ) ( )
merupakan peluang untuk setiap nilai yang mungkin disebut fungsi
kepadatan peluang diskrit.
Sedangkan untuk fungsi distribusi kumulatif variabel random diskrit:
Definisi 2.4. (Bain & Engelhardt, 1992: 58) Fungsi distribusi kumulatif
(cumulative distribution function/cdf) dari variabel random didefinisikan untuk
setiap bilangan real , dengan ( ) ( ).
Hal itu berarti bahwa fungsi distribusi kumulatif adalah jumlahan nilai-
nilai fungsi peluang untuk nilai X lebih kecil atau sama dengan x Fungsi ( )
disebut fungsi distribusi kumulatif diskrit jika dan hanya jika memenuhi:
( ) ( )
∑ ( )
( )
Fungsi tersebut mempunyai sifat-sifat:
( )
( )
( )
( )
( )
( ) ( )
( ) ( ) ( ) (2.2)
2. Variabel Random Kontinu
Jika nilai yang mungkin variabel random adalah sebuah interval atau
kumpulan interval-interval, maka disebut variabel random kontinu. Pada variabel
10
random kontinu mempunyai fungsi kepadatan peluang yang merupakan turunan
dari fungsi distribusi kumulatifnya.
Definisi 2.5. (Bain & Engelhardt, 1992: 64) Variabel random disebut variabel
random kontinu jika terdapat fungsi yang merupakan fungsi kepadatan peluang
( ) dari , sehingga fungsi distribusi kumulatifnya dapat ditunjukkan sebagai:
( ) ∫ ( )
Sebuah fungsi ( ) disebut fungsi kepadatan peluang dari variabel random kontinu
jika memenuhi:
(1) ( )
(2) ∫ ( )
B. Regresi Linier
Pengertian regresi secara umum adalah sebuah metode dalam statistik
yang memberikan penjelasan tentang pola hubungan antara dua variabel atau lebih.
Dalam analisis regresi dikenal 2 jenis variabel, yaitu:
(1) variabel respon atau variabel dependen yaitu variabel yang keberadaaanya
dipengaruhi oleh variabel lainnya dan dinotasikan dengan variabel ; dan
(2) variabel prediktor atau variabel dependen yaitu variabel yang tidak
dipengaruhi oleh variabel lainnya dan dinotasikan dengan .
1. Model Regresi Linier Sederhana
Regresi linier sederhana digunakan untuk mendapatkan hubungan
matematis dalam bentuk satu persamaan antara satu variabel independen dengan
satu variabel dependen. Menurut Sembiring (1995: 32), model regresi adalah
11
model yang memberikan gambaran mengenai hubungan antara variabel bebas
dengan variabel terikat. Jika analisis dilakukan untuk satu variabel bebas dengan
variabel terikat, maka regresi ini disebut regresi linier sederhana. Menurut Draper
& Smith (1998: 22) bentuk umum dari regresi linier sederhana adalah sebagai
berikut:
(2.3)
dengan,
: nilai variabel dependen pada observasi ke-
: nilai variabel independen pada observasi ke-
, : parameter koefisien regresi
: error yang bersifat random
2. Model Regresi Linier Berganda
Regresi linier berganda adalah suatu analisis yang digunakan untuk
mempelajari hubungan sebuah variabel dependen dengan dua atau lebih variabel
independen. Menurut Montgomery & Peck (1992: 53), model regresi linier
berganda dari variabel dependen dengan variabel independen dapat
ditulis sebagai berikut:
atau dapat ditulis
∑ (2.4)
dengan:
: nilai variabel dependen pada observasi ke-
: parameter koefisien regresi
12
: nilai variabel independen yang ke- pada observasi ke-
: random error
3. Uji Asumsi dalam Analisis Regresi
Menurut Imam Ghozali (2011: 160), uji asumsi klasik terhadap model
regresi yang digunakan dilakukan agar dapat diketahui apakah model regresi baik
atau tidak. Tujuan pengujian asumsi klasik adalah untuk memberikan kepastian
bahwa persamaan regresi yang diperoleh memiliki ketepatan dalam estimasi, tidak
bias, dan konsisten. Sebelum melakukan analisis regresi, terlebih dahulu dilakukan
pengujian asumsi. Asumsi-asumsi yang harus dipenuhi dalam analisis regresi,
antara lain: normalitas, homoskedastisitas, non autokorelasi, dan non
multikolinieritas.
a. Uji Normalitas
Analisis regresi linier mengasumsikan bahwa sisaan ( ) berdistribusi
normal. Pada regresi linier diasumsikan bahwa tiap sisaan ( ) berdistribusi normal
dengan ( ) (Gujarati, 2004: 109). Uji normalitas bertujuan untuk
mengetahui apakah dalam persamaan regresi tersebut residual berdistribusi normal.
Uji normalitas dapat dilakukan dengan normal P-P Plot dan uji Kolmogorov-
Smirnov. Normal P-P plot, uji normalitasnya dapat dilihat dari penyebaran data
(titik) pada sumbu diagonal grafik atau dengan melihat histogram dari residunya.
Dasar pengambilan keputusannya, jika data menyebar di sekitar garis diagonal dan
mengikuti arah garis diagonal atau grafik histogramnya menunjukkan pola
distribusi normal, maka model regresi memenuhi asumsi normalitas.
13
Cara lain untuk menguji asumsi kenormalan adalah dengan uji
Kolmogorov-Smirnov. Menurut sidney Siegel (1986: 59), uji Kolmogorov-Smirnov
didasarkan pada nilai atau deviasi maksimum, yaitu:
| ( ) ( )| (2.5)
dengan ( ) adalah fungsi distribusi frekuensi kumulatif relatif dari distribusi
teoritis di bawah . Kemudian ( ) adalah distribusi frekuensi kumulatif
pengamatan sebanyak sampel. Hipotesis nol ( ) adalah sisaan berdistribusi
normal. Kriteria keputusan uji Kolmogorov-Smirnov adalah jika nilai
atau pada output SPSS lebih dari nilai taraf nyata ( ) maka asumsi
normalitas dipenuhi. Tabel uji Kolmogorov-Smirnov dapat dilihat pada lampiran 6
(halaman: 78).
b. Uji Homoskedastisitas
Salah satu asumsi klasik adalah homoskedastisitas atau non
heteroskedastisitas yaitu asumsi yang menyatakan bahwa varian setiap sisaan ( )
masih tetap sama baik untuk nilai-nilai pada variabel independen yang kecil
maupun besar. Asumsi ini dapat ditulis sebagai berikut :
( )
notasi menunjukkan jumlah observasi. Salah satu cara menguji kesamaan
variansi yaitu dengan melihat pola tebaran sisaan ( ) terhadap nilai estimasi .
Hal ini dapat dilihat dari plot data, jika tebaran sisaan bersifat acak (tidak
membentuk pola tertentu), maka dikatakan bahwa variansi sisaan homogen. Model
regresi yang baik adalah tidak terjadi heteroskedastisitas. Meskipun demikian,
untuk meyakinkan plot data tersebut bersifat homoskedastisitas perlu dilakukan
14
pengujian statistik lain. Salah satu pengujian untuk menentukan ada tidaknya
masalah heteroskedastisitas adalah uji Glejser.
Uji Glejser dapat dilakukan dengan meregresikan nilai absolut residual
terhadap variabel independen. Jika varians residual dari satu pengamatan ke
pengamatan lain tetap maka disebut homoskedastisitas (Imam Ghozali, 2011: 125).
Langkah-langkah pengujian:
(1) Mencari nilai residual menggunakan persamaan
∑ .
(2) Mencari nilai absolut residual | |.
(3) Melakukan analisis regresi dengan variabel | | sebagai variabel dependen dan
sebagai variabel independen.
(4) Penilaian berdasarkan uji t dengan hipotesis sebagai berikut:
: tidak terjadi heteroskedastisitas
: terjadi heteroskedastisitas
kriteria keputusan untuk uji t, jika nilai signifikansi untuk masing-masing
variabel independen pada persamaan model regresi terhadap nilai absolut
residualnya lebih dari 0,05 atau nilai ( ) ( ) dengan
derajat bebas ( ) , : banyaknya data, dan : banyaknya variabel
bebas maka diterima, artinya tidak terjadi heteroskedastisitas.
c. Uji Non Autokorelasi
Salah satu asumsi penting dari regresi linear adalah bawa tidak ada
autokorelasi antara serangkaian pegamatan yang diurutkan menurut waktu. Adanya
kebebasan antar sisaan dapat dideteksi secara grafis dan empiris. Pendeteksian
15
autokorelasi secara grafis yaitu dengan melihat pola tebaran sisaan terhadap urutan
waktu. Jika tebaran sisaan terhadap urutan waktu tidak membentuk suatu pola
tertentu atau bersifat acak maka dapat disimpulkan tidak ada autokorelasi antar
sisaan (Draper & Smith, 1998: 68).
Menurut Gujarati (2004: 467), pengujian secara empiris dilakukan dengan
menggunakan statistik uji Durbin-Watson. Hipotesis yang diuji adalah:
: Tidak terdapat autokorelasi antar sisaan
: Terdapat autokorelasi antar sisaan
Mekanisme uji Durbin watson adalah:
(1) Mengestimasi model regresi dengan metode kuadrat terkecil untuk
memperoleh nilai .
(2) Mencari nilai d yang diperoleh dengan rumus
∑ ( )
∑
(2.6)
(3) Untuk ukuran sampel dan banyaknya variabel tertentu dapat dilihat pada tabel
Durbin-Watson mengenai pasangan nilai kritis (lampiran 6).
(4) Kriteria keputusan dalam uji Durbin-Watson adalah:
1. Jika atau , maka ditolak artinya terjadi
autokorelasi.
2. Jika , maka diterima artinya tidak terjadi autokorelasi.
3. Jika atau maka tidak dapat diputuskan
apakah diterima atau ditolak, sehingga tidak dapat disimpulkan ada
tidaknya autokorelasi.
16
d. Uji Non Multikolinieritas
Menurut Montgomery, Peck, & Vining (1992: 111), kolinearitas terjadi
karena terdapat korelasi yang cukup tinggi di antara variabel independen.
(Variance Inflation Factor) merupakan salah satu cara untuk mengukur besar
kolineritas dan didefinisikan sebagai berikut
(2.7)
dengan dan adalah banyaknya variabel independen, sedangkan
adalah koefisien determinasi yang dihasilkan dari regresi variabel independen
dengan variabel independen lain. Hipotesis nol ( ) pengujian multikolinieritas
adalah tidak terdapat multikolinieritas, dengan kriteria keputusan jika nilai
maka diterima artinya tidak terdapat multikolinieritas.
C. Metode Kuadrat Terkecil
Salah satu metode untuk mengestimasi parameter dalam model regresi
adalah metode kuadrat terkecil. Parameter tidak diketahui dan perlu
ditentukan nilai estimasinya. Menurut Montgomery & Peck (1992:112), metode
kuadrat terkecil digunakan untuk mengestimasi koefisien yaitu
dengan meminimumkan jumlah kuadrat galat. Fungsi yang meminimumkan
adalah:
( ) ∑
∑ ( ∑ )
(2.8)
17
Fungsi akan diminimumkan dengan menentukan turunannya terhadap
, harus memenuhi
|
∑( ∑
)
Selanjutnya nilai diestimasi menjadi , sehingga menjadi
|
∑ ( ∑ )
(2.9)
dan
|
∑ ( ∑ )
(2.10)
Selanjutnya dari persamaan (2.9) dan (2.10), menghasilkan persamaan
normal kuadrat terkecil sebagai berikut:
n
i
ii
n
i
ikik
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
ikik
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
ikk
k
i
i
k
i
i
yxxxxxxx
yxxxxxxx
yxxxn
1
2
1
2
1
2
22
1
211
1
20
1
1
1
1
1
212
1
2
11
1
10
111
21
1
110
ˆˆˆˆ
ˆˆˆˆ
ˆˆˆˆ
n
i
iik
n
i
ikk
n
i
iki
n
i
iki
n
i
ik yxxxxxxx11
2
1
22
1
11
1
0ˆˆˆˆ (2.11)
Diketahui bahwa ada persamaan normal, satu untuk masing-masing
koefisien regresi yang tidak diketahui. Solusi dari persamaan normal tersebut akan
18
menjadi estimator kuadrat terkecil . Akan lebih mudah apabila model
regresi dinyatakan dalam matriks. Notasi matriks yang diberikan pada persamaan
(2.8) adalah
dengan [
]; [
]; [
]; [
]
Pada umumnya adalah matriks berukuran ( ), sedangkan adalah matriks
berukuran ( ), berukuran ( ), dan adalah matriks berukuran ( ).
Error dapat diturunkan dari persamaan di atas, sehingga diperoleh:
Menurut Montgomery & Peck (1992:121), untuk menentukan estimator-estimator
kuadrat terkecil, yang meminimumkan ( ) adalah:
( ) ∑
( ) ( )
(2.12)
Matriks adalah matriks berukuran ( ), atau sebuah skalar, dan
transpose yang merupakan skalar.
Kemudian akan ditentukan turunan parsial fungsi ( ) terhadap
untuk menentukan estimator kuadrat terkecil,
19
|
( )
( )
( )
( )
sehingga,
|
( )
. (2.13)
Agar diperoleh estimator-estimator kuadrat terkecil, maka harus meminimalkan
turunan parsial fungsi ( ) terhadap dan memenuhi
Dengan menyelesaikan persamaan (2.13), akan diperoleh estimator untuk , yaitu:
. (2.14)
Apabila kedua ruas dikalikan invers dari matriks ( ), maka estimasi kuadrat
terkecil dari , yaitu
( ) ( )
20
( ) . (2.15)
Diasumsikan bahwa invers matriks ( ) ada. Diperoleh matriks dari
persamaan normal (2.14) yang identik dengan bentuk skalar pada persamaan
(2.11). Dari persamaan (2.14) diperoleh
[ ∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
]
[ ]
[ ∑
∑
∑
]
Matriks adalah matrik persegi berukuran dan adalah vektor
. Diagonal elemen matriks merupakan jumlah kuadrat dari kolom-kolom ,
dan elemen-elemen selain diagonalnya merupakan perkalian elemen dalam kolom
. Sedangkan elemen-elemen matriks adalah jumlah perkalian antara kolom
dan observasi .
Model regresi dengan variabel independen , -,
diperoleh
, -
[ ]
sehingga
∑
21
dengan penjabaran [
] , maka dapat dituliskan
( )
dengan matriks persegi yang disebut matriks hat
( ) (2.16)
D. Outlier
Outlier adalah kasus atau data yang memiliki karakteristik unik yang
penyebaran datanya terlihat jauh dari observasi-observasi lainnya dan muncul
dalam bentuk nilai ekstrim, baik untuk sebuah variabel tunggal maupun variabel
kombinasi (Imam Ghozali, 2011: 40).
Menurut Ghozali (2011: 40), terdapat empat penyebab timbulnya data
outlier antara lain: (1) kesalahan dalam memasukan data; (2) gagal dalam
menspesifikasi adanya missing value dalam program komputer; (3) outlier bukan
merupakan anggota populasi yang di ambil sebagai sampel; dan (4) outlier berasal
dari populasi yang di ambil sebagai sampel, tetapi distribusi dari variabel dalam
populasi tersebut memiliki nilai ekstrim serta tidak berdistribusi secara normal.
Pada analisis regresi, terdapat 3 tipe outlier yang berpengaruh terhadap
estimasi kuadrat terkecil. Menurut Roesseuw dan Leroy (1987), mengenalkan 3
jenis outlier tersebut sebagai vertical outlier, good leverage dan bad leverage.
22
a. Vertical outlier
Merupakan semua pengamatan yang terpencil pada variabel respon, tetapi
tidak terpencil pada variabel prediktor. Keberadaan vertical outlier
berpengaruh terhadap estimasi kuadrat terkecil.
b. Good leverage point
Merupakan pengamatan yang terpencil pada variabel prediktor tetapi terletak
dekat dengan garis regresi. Hal ini berarti pengamatan xi menjauh tetapi yi
cocok dengan garis regresi. Keberadaan good leverage points tidak
berpengaruh terhadap estimasi kuadrat terkecil, tetapi berpengaruh terhadap
inferensi statistik karena dapat meningkatkan estimasi standar error.
c. Bad leverage point
Merupakan pengamatan yang terpencil pada variabel prediktor dan terletak
jauh dari garis regresi. Keberadaan bad leverage points berpengaruh signifikan
terhadap estimasi kuadrat terkecil, baik terhadap intersep maupun slope dari
persamaan regresi.
Perbedaan antara vertical outlier, good leverage dan bad leverage dapat dilihat
pada gambar dibawah ini.
Gambar 2.1 Vertical Outlier, Good Leverage dan Bad Leverage
23
Outlier berpengaruh terhadap proses analisis data, misalnya terhadap nilai
mean dan standar deviasi. Oleh karena itu, keberadaan outlier dalam suatu pola
data harus dihindari. Outlier dapat menyebabkan varians pada data menjadi lebih
besar, interval dan range menjadi lebar, mean tidak dapat menunjukkan nilai yang
sebenarnya (bias) dan pada beberapa analisis inferensi, outlier dapat menyebabkan
kesalahan dalam pengambilan keputusan dan kesimpulan. Berbagai kaidah telah
diajukan untuk menolak outlier, dengan kata lain untuk memutuskan menyisihkan
outlier tersebut dari data, kemudian menganalisis kembali tanpa outlier tersebut.
Penghilangan suatu outlier begitu saja bukanlah prosedur yang bijaksana.
Adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh data
lainnya, misalnya karena outlier timbul dari kombinasi keadaan yang tidak biasa
yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Secara filosofi
outlier seharusnya tetap dipertahankan jika data outlier tersebut memang
representasi dari populasi. Sebagai kaidah umum outlier baru dikeluarkan jika
setelah ditelusuri ternyata merupakan akibat dari kesalahan ketika menyiapkan
peralatan.
1. Dampak Outlier
Keberadaan data outlier akan mengganggu dalam proses menganalisis
data dan harus dihindari dalam banyak hal. Dalam kaitannya dengan analisis
regresi, outlier dapat menyebabkan hal-hal sebagai berikut (Soemartini, 2007: 7):
a. Residual yang besar dari model yang terbentuk
b. Variansi pada data tersebut menjadi lebih besar
c. Estimasi interval akan memiliki rentang yang lebih besar
24
2. Deteksi Outlier
Dalam statistik, data outlier harus dilihat dari posisi dan sebaran data yang
lainnya sehingga akan dievaluasi apakah data outlier tersebut perlu dihilangkan
atau tidak. Terdapat beberapa metode untuk menentukan batasan outlier dalam
sebuah analisis, yaitu:
a. Scatter plot
Untuk melihat apakah terdapat outlier pada data, dapat dilakukan dengan
membentuk diagram pencar (scatter plot) dari data. Jika terdapat satu atau
beberapa data yang terletak jauh dari pola kumpulan data maka hal ini
mengindikasikan adanya outlier. Kelemahan dari metode ini adalah keputusan
bahwa suatu data merupakan outlier sangat bergantung pada judgement peneliti.
Karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang
yang ahli dan berpengalaman dalam menginterprestasikan plot tersebut.
b. Box plot
Box plot merupakan metode grafis yang dikembangkan oleh Tukey dan
sering digunakan untuk analisis data dan diintepretasikan untuk memperoleh
informasi dari sebuah sampel. Metode ini merupakan metode paling umum yakni
dengan mempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan
membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile
Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau
. Data-data outlier dapat ditentukan yaitu nilai yang kurang dari
terhadap kuartil 1 dan nilai yang lebih dari terhadap kuartil 3
25
(Soemartini, 2007: 9). Skema identifikasi data outlier dengan atau Box Plot
dapat dilihat pada gambar dibawah ini.
Gambar 2.2 Skema Identifikasi Data Outlier dengan atau Box Plot
c. Standarized Residual
Pendeteksian outlier menggunakan metode ini yaitu dengan memeriksa
residual. Rumus residual ke- adalah sebagai berikut:
(2.17)
Sesuai dengan residual ke-i di atas, dapat didefinisikan standardized residual ke-i
sebagai berikut:
√ (2.18)
dengan ∑
: banyaknya data
: banyaknya variabel independen
Mean Squared Error ( ) adalah rata-rata residual kuadrat dan akar
dari disebut standar error. Standar error merupakan ukuran kebaikan model
regresi. Standar error mengukur besarnya variansi model regresi, semakin kecil
26
nilainya semakin baik model regresinya. Untuk melakukan identifikasi outlier,
diperhatikan nilai-nilai dari standardized residual. Jika nilai dari standardized
residual lebih dari 3,5 atau kurang dari -3,5 maka data tersebut dikatakan sebaigai
outlier (Yaffe, 2002: 35).
d. Cook’s Distance
Metode ini diperkenalkan oleh Cook (1977), dengan rumus sebagai
berikut:
(
* (
* (
( )) ( )
banyaknya variabel bebas
Untuk kasus regresi sederhana maupun regresi berganda nilai dapat diuraikan
sebagai berikut:
, -
[ ∑
]
[ ] ( )
*∑
+ [ ]
∑
(
*
∑
∑
27
∑
( )
( )
(
∑
( )
)
( )
dengan dan n jumlah data pengamatan, suatu data disebut outlier apabila
nilai (Yaffe, 2002: 44).
E. Breakdown Point
Menurut Huber (1981: 13) mendefinisikan breakdown point sebagai fraksi
terkecil atau persentase dari outlier yang menyebabkan nilai dari estimator menjadi
besar. Berdasarkan definisi tersebut maka jelas bahwa dalam kasus univariat
median memiliki nilai breakdown point sebesar 50% sedangkan mean memiliki
nilai breakdown point sebesar 0. Breakdown point digunakan untuk menjelaskan
ukuran kerobustan dari tekhnik robust. Kemungkinan tertinggi breakdown point
untuk sebuah estimator adalah 50%. Jika breakdown point lebih dari 50% berarti
estimasi model regresi tidak dapat menggambarkan informasi dari mayoritas data.
Beberapa contoh nilai-nilai breakdown point sebagai berikut:
1. Nilai breakdown point untuk mean sampel
Dinyatakan suatu sampel random dengan mean sampel
dinyatakan dengan
. Jika tetap dan diubah menjadi
tak berhingga maka mean sampel juga menjadi tak berhingga, dengan kata lain
outlier mempengaruhi nilai mean. Sampel berhingga mempunyai breakdown
28
point sebesar
, sedangkan asimtotik breakdown point memiliki nilai sebesar
0.
2. Nilai breakdown point untuk median
Dinyatakan sampel random , kemudian [( )
] diubah menjadi tak
berhingga. Maka nilai median akan berubah tapi tidak terlalu buruk. Median
pada sampel berhingga memiliki breakdown point sebesar [( )
] dan
asimtotik breakdown point sebesar
.
F. Regresi Robust
Regresi robust diperkenalkan oleh Andrews (1972). Regresi robust
merupakan metode regresi yang digunakan ketika distribusi dari error tidak normal
dan atau adanya beberapa outlier yang berpengaruh pada model (Olive, 2005: 3).
Regresi robust digunakan untuk mendeteksi outlier dan memberikan hasil yang
resisten terhadap adanya outlier. Efisiensi dan breakdown point digunakan untuk
menjelaskan ukuran kerobustan dari tekhnik robust. Efisiensi menjelaskan
seberapa baiknya suatu tekhnik robust sebanding dengan metode kuadrat terkecil
tanpa outlier. Semakin tinggi efisiensi dan breakdown point dari suatu estimator
maka semakin robust (resisten) terhadap outlier. Ukuran statistik yang bersifat
robust ini ditunjukkan untuk mengakomodasi keberadaan data ekstrim dan
sekaligus meniadakan pengaruhnya terhadap nilai analisis tanpa terlebih dahulu
mengadakan identifikasi terhadapnya.
Metode regresi robust merupakan metode yang mempunyai sifat: (1) sama
baiknya dengan metode kuadrat terkecil jika semua asumsi klasik regresi terpenuhi
29
dan tidak terdapat data outlier; (2) dapat menghasilkan model regresi yang lebih
baik daripada metode kuadrat terkecil jika asumsi tidak terpenuhi dan terdapat data
outlier; dan (3) perhitungannya cukup sederhana dan mudah dimengerti, tetapi
dilakukan secara iteratif sampai diperoleh estimasi terbaik yang mempunyai
standar error parameter yang paling kecil.
Menurut Chen (2002: 1), terdapat 3 kelas masalah yang dapat
menggunakan tekhnik regresi robust yaitu:
(1) masalah dengan outlier yang terdapat pada variabel ;
(2) masalah dengan outlier yang terdapat pada variabel (leverage points); dan
(3) masalah dengan outlier yang terdapat pada keduanya yaitu variabel dan
variabel .
Banyak metode yang dikembangkan dalam regresi untuk mengatasi
masalah outlier. Dalam regresi robust terdapat beberapa metode estimasi yaitu:
1. Estimasi-M
Wilcox (2005: 51) menjelaskan estimasi-M pertama kali diperkenalkan oleh
Huber pada tahun 1973 dan merupakan penggambaran dari suatu percobaan
yang menggabungkan metode kuadrat terkecil dan ketahanan estimasi yang
meminimumkan jumlah nilai mutlak dari residual. Estimasi ini merupakan
estimasi paling sederhana baik secara perhitungan maupun teoritis. Meskipun
estimasi ini tidak cukup kekar dengan leverage point, estimasi ini tetap
digunakan secara luas dalam menganalisis data dengan mengasumsikan bahwa
sebagian besar data yang terkontaminasi outlier merupakan data pada variabel
respon.
30
2. Estimasi Least Trimmed Squares (LTS)
Estimasi LTS diperkenalkan oleh Rousseeuw pada tahun 1984 ini adalah
metode estimasi dengan nilai breakdown point tinggi. Metode ini kemudian
dikembangkan oleh Rousseuw dan Van Driessen pada tahun 1998 dengan
algoritma cepat LTS.
3. Estimasi-S
Metode regresi robust estimasi-S merupakan metode high breakdown value
yang diperkenalkan pertama kali oleh Rousseuw dan Yohai pada tahun 1984.
Menurut Wilcox (2005: 55), estimasi-S merupakan solusi dengan
kemungkinan terkecil dari penyebaran residual. Estimasi-S mempunyai nilai
breakdown point tinggi sebesar 50%, estimasi ini memiliki efisiensi statistik
yang lebih tinggi dibanding estimasi-LTS.
4. Estimasi-MM
Wilcox (2005: 56) menjelaskan metode estimasi-MM diperkenalkan oleh
Yohai pada tahun 1987 merupakan kombinasi dari estimasi-S dan estimasi-M.
Estimasi ini memiliki nilai breakdown point yang tinggi dan memiliki efisiensi
statistik yang lebih besar dibanding estimasi-S.
G. R-Square dan Adjusted R-Square
R-Square atau koefisien determinasi merupakan salah satu ukuran yang
sederhana dan sering digunakan untuk menguji kualitas suatu persamaan garis
regresi (Gujarati, 2004: 81). Nilai R-Square memberikan gambaran tentang
kesesuaian variabel independen dalam memprediksi variabel dependen. Adapun
perhitungan nilai R-Square adalah sebagai berikut:
31
∑( )
∑( ) (2.21)
Sifat dari R-Square adalah:
a. merupakan besaran yang non-negatif
b. Batasnya adalah
Untuk mengetahui metode estimasi yang memberikan hasil yang lebih
baik, maka kriteria yang digunakan adalah dengan membandingkan nilai R-Square
( ) yang menunjukkan seberapa besar proporsi variasi variabel dependen yang
dijelaskan oleh variabel independen. Menurut Imam Ghozali (2011: 97), nilai
yang kecil berarti kemampuan variabel-variabel independen dalam menjelaskan
variasi variabel dependen sangat terbatas. Nilai yang mendekati satu berarti
variabel-variabel independen memberikan hampir semua informasi yang
dibutuhkan untuk memprediksi variasi variabel dependen. Apabila nilai koefisien
determinasi semakin besar, maka semakin besar kemampuan semua variabel
independen dalam menjelaskan varians dari variabel dependennya.
Masalah yang terjadi jika melakukan pengujian dengan menggunakan R-
Square adalah jika variabel bebasnya lebih dari satu maka nilai R-Square akan
bertambah besar. Pengujian dengan adjusted R-Square ( ) secara obyektif melihat
pengaruh penambahan variabel bebas, apakah variabel tersebut mampu
memperkuat variasi penjelasan variabel terikat. Adapun perhitungan nilai adjusted
R-Square adalah sebagai berikut:
( )
(2.22)
dengan : banyaknya data observasi dan : banyaknya variabel independen.