Download - BAB II LANDASAN TEORI Variabel Random Definisi 2eprints.uny.ac.id/43360/3/BAB II.pdf · random kontinu mempunyai fungsi kepadatan peluang yang merupakan turunan ... Dalam analisis

8

BAB II

LANDASAN TEORI

Sebagai pendukung dalam pembahasan selanjutnya, diperlukan beberapa

teori dan definisi mengenai variabel random, regresi linier, metode kuadrat

terkecil, pengujian asumsi analisis regresi, outlier, dan regresi robust.

A. Variabel Random

Definisi 2.1 (Bain & Engelhardt, 1992: 53) Variabel random merupakan fungsi

yang memetakan setiap hasil yang mungkin pada ruang sampel dengan suatu

bilangan real , sedemikian sehingga ( ) . Huruf besar X digunakan untuk

menotasikan variabel random, sedangkan huruf kecil seperti x digunakan untuk

menotasikan bilangan riil yang merupakan hasil nilai-nilai yang mungkin dari

variabel random.

Dilihat dari segi tipe nilainya, variabel random dibedakan menjadi 2, yaitu

variabel random diskrit dan variabel random kontinu.

1. Variabel Random Diskrit

Definisi 2.2. (Bain & Engelhardt, 1992: 56) Variabel random disebut variabel

random diskrit apabila himpunan semua nilai yang mungkin variabel random

adalah himpunan terhitung (countable), * + atau * +.

Dalam variabel random diskrit terdapat fungsi kepadatan peluang diskrit

dan fungsi distribusi kumulatifnya. Dari pengertian variabel random diskrit, dapat

didefinisikan fungsi kepadatatan peluang diskritnya, yaitu:

9

Definisi 2.3. (Bain & Engelhardt, 1992: 56) Fungsi ( ) ( )

merupakan peluang untuk setiap nilai yang mungkin disebut fungsi

kepadatan peluang diskrit.

Sedangkan untuk fungsi distribusi kumulatif variabel random diskrit:

Definisi 2.4. (Bain & Engelhardt, 1992: 58) Fungsi distribusi kumulatif

(cumulative distribution function/cdf) dari variabel random didefinisikan untuk

setiap bilangan real , dengan ( ) ( ).

Hal itu berarti bahwa fungsi distribusi kumulatif adalah jumlahan nilai-

nilai fungsi peluang untuk nilai X lebih kecil atau sama dengan x Fungsi ( )

disebut fungsi distribusi kumulatif diskrit jika dan hanya jika memenuhi:

( ) ( )

∑ ( )

( )

Fungsi tersebut mempunyai sifat-sifat:

( )

( )

( )

( )

( )

( ) ( )

( ) ( ) ( ) (2.2)

2. Variabel Random Kontinu

Jika nilai yang mungkin variabel random adalah sebuah interval atau

kumpulan interval-interval, maka disebut variabel random kontinu. Pada variabel

10

random kontinu mempunyai fungsi kepadatan peluang yang merupakan turunan

dari fungsi distribusi kumulatifnya.

Definisi 2.5. (Bain & Engelhardt, 1992: 64) Variabel random disebut variabel

random kontinu jika terdapat fungsi yang merupakan fungsi kepadatan peluang

( ) dari , sehingga fungsi distribusi kumulatifnya dapat ditunjukkan sebagai:

( ) ∫ ( )

Sebuah fungsi ( ) disebut fungsi kepadatan peluang dari variabel random kontinu

jika memenuhi:

(1) ( )

(2) ∫ ( )

B. Regresi Linier

Pengertian regresi secara umum adalah sebuah metode dalam statistik

yang memberikan penjelasan tentang pola hubungan antara dua variabel atau lebih.

Dalam analisis regresi dikenal 2 jenis variabel, yaitu:

(1) variabel respon atau variabel dependen yaitu variabel yang keberadaaanya

dipengaruhi oleh variabel lainnya dan dinotasikan dengan variabel ; dan

(2) variabel prediktor atau variabel dependen yaitu variabel yang tidak

dipengaruhi oleh variabel lainnya dan dinotasikan dengan .

1. Model Regresi Linier Sederhana

Regresi linier sederhana digunakan untuk mendapatkan hubungan

matematis dalam bentuk satu persamaan antara satu variabel independen dengan

satu variabel dependen. Menurut Sembiring (1995: 32), model regresi adalah

11

model yang memberikan gambaran mengenai hubungan antara variabel bebas

dengan variabel terikat. Jika analisis dilakukan untuk satu variabel bebas dengan

variabel terikat, maka regresi ini disebut regresi linier sederhana. Menurut Draper

& Smith (1998: 22) bentuk umum dari regresi linier sederhana adalah sebagai

berikut:

(2.3)

dengan,

: nilai variabel dependen pada observasi ke-

: nilai variabel independen pada observasi ke-

, : parameter koefisien regresi

: error yang bersifat random

2. Model Regresi Linier Berganda

Regresi linier berganda adalah suatu analisis yang digunakan untuk

mempelajari hubungan sebuah variabel dependen dengan dua atau lebih variabel

independen. Menurut Montgomery & Peck (1992: 53), model regresi linier

berganda dari variabel dependen dengan variabel independen dapat

ditulis sebagai berikut:

atau dapat ditulis

∑ (2.4)

dengan:

: nilai variabel dependen pada observasi ke-

: parameter koefisien regresi

12

: nilai variabel independen yang ke- pada observasi ke-

: random error

3. Uji Asumsi dalam Analisis Regresi

Menurut Imam Ghozali (2011: 160), uji asumsi klasik terhadap model

regresi yang digunakan dilakukan agar dapat diketahui apakah model regresi baik

atau tidak. Tujuan pengujian asumsi klasik adalah untuk memberikan kepastian

bahwa persamaan regresi yang diperoleh memiliki ketepatan dalam estimasi, tidak

bias, dan konsisten. Sebelum melakukan analisis regresi, terlebih dahulu dilakukan

pengujian asumsi. Asumsi-asumsi yang harus dipenuhi dalam analisis regresi,

antara lain: normalitas, homoskedastisitas, non autokorelasi, dan non

multikolinieritas.

a. Uji Normalitas

Analisis regresi linier mengasumsikan bahwa sisaan ( ) berdistribusi

normal. Pada regresi linier diasumsikan bahwa tiap sisaan ( ) berdistribusi normal

dengan ( ) (Gujarati, 2004: 109). Uji normalitas bertujuan untuk

mengetahui apakah dalam persamaan regresi tersebut residual berdistribusi normal.

Uji normalitas dapat dilakukan dengan normal P-P Plot dan uji Kolmogorov-

Smirnov. Normal P-P plot, uji normalitasnya dapat dilihat dari penyebaran data

(titik) pada sumbu diagonal grafik atau dengan melihat histogram dari residunya.

Dasar pengambilan keputusannya, jika data menyebar di sekitar garis diagonal dan

mengikuti arah garis diagonal atau grafik histogramnya menunjukkan pola

distribusi normal, maka model regresi memenuhi asumsi normalitas.

13

Cara lain untuk menguji asumsi kenormalan adalah dengan uji

Kolmogorov-Smirnov. Menurut sidney Siegel (1986: 59), uji Kolmogorov-Smirnov

didasarkan pada nilai atau deviasi maksimum, yaitu:

| ( ) ( )| (2.5)

dengan ( ) adalah fungsi distribusi frekuensi kumulatif relatif dari distribusi

teoritis di bawah . Kemudian ( ) adalah distribusi frekuensi kumulatif

pengamatan sebanyak sampel. Hipotesis nol ( ) adalah sisaan berdistribusi

normal. Kriteria keputusan uji Kolmogorov-Smirnov adalah jika nilai

atau pada output SPSS lebih dari nilai taraf nyata ( ) maka asumsi

normalitas dipenuhi. Tabel uji Kolmogorov-Smirnov dapat dilihat pada lampiran 6

(halaman: 78).

b. Uji Homoskedastisitas

Salah satu asumsi klasik adalah homoskedastisitas atau non

heteroskedastisitas yaitu asumsi yang menyatakan bahwa varian setiap sisaan ( )

masih tetap sama baik untuk nilai-nilai pada variabel independen yang kecil

maupun besar. Asumsi ini dapat ditulis sebagai berikut :

( )

notasi menunjukkan jumlah observasi. Salah satu cara menguji kesamaan

variansi yaitu dengan melihat pola tebaran sisaan ( ) terhadap nilai estimasi .

Hal ini dapat dilihat dari plot data, jika tebaran sisaan bersifat acak (tidak

membentuk pola tertentu), maka dikatakan bahwa variansi sisaan homogen. Model

regresi yang baik adalah tidak terjadi heteroskedastisitas. Meskipun demikian,

untuk meyakinkan plot data tersebut bersifat homoskedastisitas perlu dilakukan

14

pengujian statistik lain. Salah satu pengujian untuk menentukan ada tidaknya

masalah heteroskedastisitas adalah uji Glejser.

Uji Glejser dapat dilakukan dengan meregresikan nilai absolut residual

terhadap variabel independen. Jika varians residual dari satu pengamatan ke

pengamatan lain tetap maka disebut homoskedastisitas (Imam Ghozali, 2011: 125).

Langkah-langkah pengujian:

(1) Mencari nilai residual menggunakan persamaan

∑ .

(2) Mencari nilai absolut residual | |.

(3) Melakukan analisis regresi dengan variabel | | sebagai variabel dependen dan

sebagai variabel independen.

(4) Penilaian berdasarkan uji t dengan hipotesis sebagai berikut:

: tidak terjadi heteroskedastisitas

: terjadi heteroskedastisitas

kriteria keputusan untuk uji t, jika nilai signifikansi untuk masing-masing

variabel independen pada persamaan model regresi terhadap nilai absolut

residualnya lebih dari 0,05 atau nilai ( ) ( ) dengan

derajat bebas ( ) , : banyaknya data, dan : banyaknya variabel

bebas maka diterima, artinya tidak terjadi heteroskedastisitas.

c. Uji Non Autokorelasi

Salah satu asumsi penting dari regresi linear adalah bawa tidak ada

autokorelasi antara serangkaian pegamatan yang diurutkan menurut waktu. Adanya

kebebasan antar sisaan dapat dideteksi secara grafis dan empiris. Pendeteksian

15

autokorelasi secara grafis yaitu dengan melihat pola tebaran sisaan terhadap urutan

waktu. Jika tebaran sisaan terhadap urutan waktu tidak membentuk suatu pola

tertentu atau bersifat acak maka dapat disimpulkan tidak ada autokorelasi antar

sisaan (Draper & Smith, 1998: 68).

Menurut Gujarati (2004: 467), pengujian secara empiris dilakukan dengan

menggunakan statistik uji Durbin-Watson. Hipotesis yang diuji adalah:

: Tidak terdapat autokorelasi antar sisaan

: Terdapat autokorelasi antar sisaan

Mekanisme uji Durbin watson adalah:

(1) Mengestimasi model regresi dengan metode kuadrat terkecil untuk

memperoleh nilai .

(2) Mencari nilai d yang diperoleh dengan rumus

∑ ( )

∑

(2.6)

(3) Untuk ukuran sampel dan banyaknya variabel tertentu dapat dilihat pada tabel

Durbin-Watson mengenai pasangan nilai kritis (lampiran 6).

(4) Kriteria keputusan dalam uji Durbin-Watson adalah:

1. Jika atau , maka ditolak artinya terjadi

autokorelasi.

2. Jika , maka diterima artinya tidak terjadi autokorelasi.

3. Jika atau maka tidak dapat diputuskan

apakah diterima atau ditolak, sehingga tidak dapat disimpulkan ada

tidaknya autokorelasi.

16

d. Uji Non Multikolinieritas

Menurut Montgomery, Peck, & Vining (1992: 111), kolinearitas terjadi

karena terdapat korelasi yang cukup tinggi di antara variabel independen.

(Variance Inflation Factor) merupakan salah satu cara untuk mengukur besar

kolineritas dan didefinisikan sebagai berikut

(2.7)

dengan dan adalah banyaknya variabel independen, sedangkan

adalah koefisien determinasi yang dihasilkan dari regresi variabel independen

dengan variabel independen lain. Hipotesis nol ( ) pengujian multikolinieritas

adalah tidak terdapat multikolinieritas, dengan kriteria keputusan jika nilai

maka diterima artinya tidak terdapat multikolinieritas.

C. Metode Kuadrat Terkecil

Salah satu metode untuk mengestimasi parameter dalam model regresi

adalah metode kuadrat terkecil. Parameter tidak diketahui dan perlu

ditentukan nilai estimasinya. Menurut Montgomery & Peck (1992:112), metode

kuadrat terkecil digunakan untuk mengestimasi koefisien yaitu

dengan meminimumkan jumlah kuadrat galat. Fungsi yang meminimumkan

adalah:

( ) ∑

∑ ( ∑ )

(2.8)

17

Fungsi akan diminimumkan dengan menentukan turunannya terhadap

, harus memenuhi

|

∑( ∑

)

Selanjutnya nilai diestimasi menjadi , sehingga menjadi

|

∑ ( ∑ )

(2.9)

dan

|

∑ ( ∑ )

(2.10)

Selanjutnya dari persamaan (2.9) dan (2.10), menghasilkan persamaan

normal kuadrat terkecil sebagai berikut:

n

i

ii

n

i

ikik

n

i

i

n

i

ii

n

i

i

n

i

ii

n

i

ikik

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

ikk

k

i

i

k

i

i

yxxxxxxx

yxxxxxxx

yxxxn

1

2

1

2

1

2

22

1

211

1

20

1

1

1

1

1

212

1

2

11

1

10

111

21

1

110

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

n

i

iik

n

i

ikk

n

i

iki

n

i

iki

n

i

ik yxxxxxxx11

2

1

22

1

11

1

0ˆˆˆˆ (2.11)

Diketahui bahwa ada persamaan normal, satu untuk masing-masing

koefisien regresi yang tidak diketahui. Solusi dari persamaan normal tersebut akan

18

menjadi estimator kuadrat terkecil . Akan lebih mudah apabila model

regresi dinyatakan dalam matriks. Notasi matriks yang diberikan pada persamaan

(2.8) adalah

dengan [

]; [

]; [

]; [

]

Pada umumnya adalah matriks berukuran ( ), sedangkan adalah matriks

berukuran ( ), berukuran ( ), dan adalah matriks berukuran ( ).

Error dapat diturunkan dari persamaan di atas, sehingga diperoleh:

Menurut Montgomery & Peck (1992:121), untuk menentukan estimator-estimator

kuadrat terkecil, yang meminimumkan ( ) adalah:

( ) ∑

( ) ( )

(2.12)

Matriks adalah matriks berukuran ( ), atau sebuah skalar, dan

transpose yang merupakan skalar.

Kemudian akan ditentukan turunan parsial fungsi ( ) terhadap

untuk menentukan estimator kuadrat terkecil,

19

|

( )

( )

( )

( )

sehingga,

|

( )

. (2.13)

Agar diperoleh estimator-estimator kuadrat terkecil, maka harus meminimalkan

turunan parsial fungsi ( ) terhadap dan memenuhi

Dengan menyelesaikan persamaan (2.13), akan diperoleh estimator untuk , yaitu:

. (2.14)

Apabila kedua ruas dikalikan invers dari matriks ( ), maka estimasi kuadrat

terkecil dari , yaitu

( ) ( )

20

( ) . (2.15)

Diasumsikan bahwa invers matriks ( ) ada. Diperoleh matriks dari

persamaan normal (2.14) yang identik dengan bentuk skalar pada persamaan

(2.11). Dari persamaan (2.14) diperoleh

[ ∑

∑

∑

∑

∑

∑

∑

∑

∑

∑

∑

]

[ ]

[ ∑

∑

∑

]

Matriks adalah matrik persegi berukuran dan adalah vektor

. Diagonal elemen matriks merupakan jumlah kuadrat dari kolom-kolom ,

dan elemen-elemen selain diagonalnya merupakan perkalian elemen dalam kolom

. Sedangkan elemen-elemen matriks adalah jumlah perkalian antara kolom

dan observasi .

Model regresi dengan variabel independen , -,

diperoleh

, -

[ ]

sehingga

∑

21

dengan penjabaran [

] , maka dapat dituliskan

( )

dengan matriks persegi yang disebut matriks hat

( ) (2.16)

D. Outlier

Outlier adalah kasus atau data yang memiliki karakteristik unik yang

penyebaran datanya terlihat jauh dari observasi-observasi lainnya dan muncul

dalam bentuk nilai ekstrim, baik untuk sebuah variabel tunggal maupun variabel

kombinasi (Imam Ghozali, 2011: 40).

Menurut Ghozali (2011: 40), terdapat empat penyebab timbulnya data

outlier antara lain: (1) kesalahan dalam memasukan data; (2) gagal dalam

menspesifikasi adanya missing value dalam program komputer; (3) outlier bukan

merupakan anggota populasi yang di ambil sebagai sampel; dan (4) outlier berasal

dari populasi yang di ambil sebagai sampel, tetapi distribusi dari variabel dalam

populasi tersebut memiliki nilai ekstrim serta tidak berdistribusi secara normal.

Pada analisis regresi, terdapat 3 tipe outlier yang berpengaruh terhadap

estimasi kuadrat terkecil. Menurut Roesseuw dan Leroy (1987), mengenalkan 3

jenis outlier tersebut sebagai vertical outlier, good leverage dan bad leverage.

22

a. Vertical outlier

Merupakan semua pengamatan yang terpencil pada variabel respon, tetapi

tidak terpencil pada variabel prediktor. Keberadaan vertical outlier

berpengaruh terhadap estimasi kuadrat terkecil.

b. Good leverage point

Merupakan pengamatan yang terpencil pada variabel prediktor tetapi terletak

dekat dengan garis regresi. Hal ini berarti pengamatan xi menjauh tetapi yi

cocok dengan garis regresi. Keberadaan good leverage points tidak

berpengaruh terhadap estimasi kuadrat terkecil, tetapi berpengaruh terhadap

inferensi statistik karena dapat meningkatkan estimasi standar error.

c. Bad leverage point

Merupakan pengamatan yang terpencil pada variabel prediktor dan terletak

jauh dari garis regresi. Keberadaan bad leverage points berpengaruh signifikan

terhadap estimasi kuadrat terkecil, baik terhadap intersep maupun slope dari

persamaan regresi.

Perbedaan antara vertical outlier, good leverage dan bad leverage dapat dilihat

pada gambar dibawah ini.

Gambar 2.1 Vertical Outlier, Good Leverage dan Bad Leverage

23

Outlier berpengaruh terhadap proses analisis data, misalnya terhadap nilai

mean dan standar deviasi. Oleh karena itu, keberadaan outlier dalam suatu pola

data harus dihindari. Outlier dapat menyebabkan varians pada data menjadi lebih

besar, interval dan range menjadi lebar, mean tidak dapat menunjukkan nilai yang

sebenarnya (bias) dan pada beberapa analisis inferensi, outlier dapat menyebabkan

kesalahan dalam pengambilan keputusan dan kesimpulan. Berbagai kaidah telah

diajukan untuk menolak outlier, dengan kata lain untuk memutuskan menyisihkan

outlier tersebut dari data, kemudian menganalisis kembali tanpa outlier tersebut.

Penghilangan suatu outlier begitu saja bukanlah prosedur yang bijaksana.

Adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh data

lainnya, misalnya karena outlier timbul dari kombinasi keadaan yang tidak biasa

yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Secara filosofi

outlier seharusnya tetap dipertahankan jika data outlier tersebut memang

representasi dari populasi. Sebagai kaidah umum outlier baru dikeluarkan jika

setelah ditelusuri ternyata merupakan akibat dari kesalahan ketika menyiapkan

peralatan.

1. Dampak Outlier

Keberadaan data outlier akan mengganggu dalam proses menganalisis

data dan harus dihindari dalam banyak hal. Dalam kaitannya dengan analisis

regresi, outlier dapat menyebabkan hal-hal sebagai berikut (Soemartini, 2007: 7):

a. Residual yang besar dari model yang terbentuk

b. Variansi pada data tersebut menjadi lebih besar

c. Estimasi interval akan memiliki rentang yang lebih besar

24

2. Deteksi Outlier

Dalam statistik, data outlier harus dilihat dari posisi dan sebaran data yang

lainnya sehingga akan dievaluasi apakah data outlier tersebut perlu dihilangkan

atau tidak. Terdapat beberapa metode untuk menentukan batasan outlier dalam

sebuah analisis, yaitu:

a. Scatter plot

Untuk melihat apakah terdapat outlier pada data, dapat dilakukan dengan

membentuk diagram pencar (scatter plot) dari data. Jika terdapat satu atau

beberapa data yang terletak jauh dari pola kumpulan data maka hal ini

mengindikasikan adanya outlier. Kelemahan dari metode ini adalah keputusan

bahwa suatu data merupakan outlier sangat bergantung pada judgement peneliti.

Karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang

yang ahli dan berpengalaman dalam menginterprestasikan plot tersebut.

b. Box plot

Box plot merupakan metode grafis yang dikembangkan oleh Tukey dan

sering digunakan untuk analisis data dan diintepretasikan untuk memperoleh

informasi dari sebuah sampel. Metode ini merupakan metode paling umum yakni

dengan mempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan

membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile

Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau

. Data-data outlier dapat ditentukan yaitu nilai yang kurang dari

terhadap kuartil 1 dan nilai yang lebih dari terhadap kuartil 3

25

(Soemartini, 2007: 9). Skema identifikasi data outlier dengan atau Box Plot

dapat dilihat pada gambar dibawah ini.

Gambar 2.2 Skema Identifikasi Data Outlier dengan atau Box Plot

c. Standarized Residual

Pendeteksian outlier menggunakan metode ini yaitu dengan memeriksa

residual. Rumus residual ke- adalah sebagai berikut:

(2.17)

Sesuai dengan residual ke-i di atas, dapat didefinisikan standardized residual ke-i

sebagai berikut:

√ (2.18)

dengan ∑

: banyaknya data

: banyaknya variabel independen

Mean Squared Error ( ) adalah rata-rata residual kuadrat dan akar

dari disebut standar error. Standar error merupakan ukuran kebaikan model

regresi. Standar error mengukur besarnya variansi model regresi, semakin kecil

26

nilainya semakin baik model regresinya. Untuk melakukan identifikasi outlier,

diperhatikan nilai-nilai dari standardized residual. Jika nilai dari standardized

residual lebih dari 3,5 atau kurang dari -3,5 maka data tersebut dikatakan sebaigai

outlier (Yaffe, 2002: 35).

d. Cook’s Distance

Metode ini diperkenalkan oleh Cook (1977), dengan rumus sebagai

berikut:

(

* (

* (

( )) ( )

banyaknya variabel bebas

Untuk kasus regresi sederhana maupun regresi berganda nilai dapat diuraikan

sebagai berikut:

, -

[ ∑

]

[ ] ( )

*∑

+ [ ]

∑

(

*

∑

∑

27

∑

( )

( )

(

∑

( )

)

( )

dengan dan n jumlah data pengamatan, suatu data disebut outlier apabila

nilai (Yaffe, 2002: 44).

E. Breakdown Point

Menurut Huber (1981: 13) mendefinisikan breakdown point sebagai fraksi

terkecil atau persentase dari outlier yang menyebabkan nilai dari estimator menjadi

besar. Berdasarkan definisi tersebut maka jelas bahwa dalam kasus univariat

median memiliki nilai breakdown point sebesar 50% sedangkan mean memiliki

nilai breakdown point sebesar 0. Breakdown point digunakan untuk menjelaskan

ukuran kerobustan dari tekhnik robust. Kemungkinan tertinggi breakdown point

untuk sebuah estimator adalah 50%. Jika breakdown point lebih dari 50% berarti

estimasi model regresi tidak dapat menggambarkan informasi dari mayoritas data.

Beberapa contoh nilai-nilai breakdown point sebagai berikut:

1. Nilai breakdown point untuk mean sampel

Dinyatakan suatu sampel random dengan mean sampel

dinyatakan dengan

. Jika tetap dan diubah menjadi

tak berhingga maka mean sampel juga menjadi tak berhingga, dengan kata lain

outlier mempengaruhi nilai mean. Sampel berhingga mempunyai breakdown

28

point sebesar

, sedangkan asimtotik breakdown point memiliki nilai sebesar

0.

2. Nilai breakdown point untuk median

Dinyatakan sampel random , kemudian [( )

] diubah menjadi tak

berhingga. Maka nilai median akan berubah tapi tidak terlalu buruk. Median

pada sampel berhingga memiliki breakdown point sebesar [( )

] dan

asimtotik breakdown point sebesar

.

F. Regresi Robust

Regresi robust diperkenalkan oleh Andrews (1972). Regresi robust

merupakan metode regresi yang digunakan ketika distribusi dari error tidak normal

dan atau adanya beberapa outlier yang berpengaruh pada model (Olive, 2005: 3).

Regresi robust digunakan untuk mendeteksi outlier dan memberikan hasil yang

resisten terhadap adanya outlier. Efisiensi dan breakdown point digunakan untuk

menjelaskan ukuran kerobustan dari tekhnik robust. Efisiensi menjelaskan

seberapa baiknya suatu tekhnik robust sebanding dengan metode kuadrat terkecil

tanpa outlier. Semakin tinggi efisiensi dan breakdown point dari suatu estimator

maka semakin robust (resisten) terhadap outlier. Ukuran statistik yang bersifat

robust ini ditunjukkan untuk mengakomodasi keberadaan data ekstrim dan

sekaligus meniadakan pengaruhnya terhadap nilai analisis tanpa terlebih dahulu

mengadakan identifikasi terhadapnya.

Metode regresi robust merupakan metode yang mempunyai sifat: (1) sama

baiknya dengan metode kuadrat terkecil jika semua asumsi klasik regresi terpenuhi

29

dan tidak terdapat data outlier; (2) dapat menghasilkan model regresi yang lebih

baik daripada metode kuadrat terkecil jika asumsi tidak terpenuhi dan terdapat data

outlier; dan (3) perhitungannya cukup sederhana dan mudah dimengerti, tetapi

dilakukan secara iteratif sampai diperoleh estimasi terbaik yang mempunyai

standar error parameter yang paling kecil.

Menurut Chen (2002: 1), terdapat 3 kelas masalah yang dapat

menggunakan tekhnik regresi robust yaitu:

(1) masalah dengan outlier yang terdapat pada variabel ;

(2) masalah dengan outlier yang terdapat pada variabel (leverage points); dan

(3) masalah dengan outlier yang terdapat pada keduanya yaitu variabel dan

variabel .

Banyak metode yang dikembangkan dalam regresi untuk mengatasi

masalah outlier. Dalam regresi robust terdapat beberapa metode estimasi yaitu:

1. Estimasi-M

Wilcox (2005: 51) menjelaskan estimasi-M pertama kali diperkenalkan oleh

Huber pada tahun 1973 dan merupakan penggambaran dari suatu percobaan

yang menggabungkan metode kuadrat terkecil dan ketahanan estimasi yang

meminimumkan jumlah nilai mutlak dari residual. Estimasi ini merupakan

estimasi paling sederhana baik secara perhitungan maupun teoritis. Meskipun

estimasi ini tidak cukup kekar dengan leverage point, estimasi ini tetap

digunakan secara luas dalam menganalisis data dengan mengasumsikan bahwa

sebagian besar data yang terkontaminasi outlier merupakan data pada variabel

respon.

30

2. Estimasi Least Trimmed Squares (LTS)

Estimasi LTS diperkenalkan oleh Rousseeuw pada tahun 1984 ini adalah

metode estimasi dengan nilai breakdown point tinggi. Metode ini kemudian

dikembangkan oleh Rousseuw dan Van Driessen pada tahun 1998 dengan

algoritma cepat LTS.

3. Estimasi-S

Metode regresi robust estimasi-S merupakan metode high breakdown value

yang diperkenalkan pertama kali oleh Rousseuw dan Yohai pada tahun 1984.

Menurut Wilcox (2005: 55), estimasi-S merupakan solusi dengan

kemungkinan terkecil dari penyebaran residual. Estimasi-S mempunyai nilai

breakdown point tinggi sebesar 50%, estimasi ini memiliki efisiensi statistik

yang lebih tinggi dibanding estimasi-LTS.

4. Estimasi-MM

Wilcox (2005: 56) menjelaskan metode estimasi-MM diperkenalkan oleh

Yohai pada tahun 1987 merupakan kombinasi dari estimasi-S dan estimasi-M.

Estimasi ini memiliki nilai breakdown point yang tinggi dan memiliki efisiensi

statistik yang lebih besar dibanding estimasi-S.

G. R-Square dan Adjusted R-Square

R-Square atau koefisien determinasi merupakan salah satu ukuran yang

sederhana dan sering digunakan untuk menguji kualitas suatu persamaan garis

regresi (Gujarati, 2004: 81). Nilai R-Square memberikan gambaran tentang

kesesuaian variabel independen dalam memprediksi variabel dependen. Adapun

perhitungan nilai R-Square adalah sebagai berikut:

31

∑( )

∑( ) (2.21)

Sifat dari R-Square adalah:

a. merupakan besaran yang non-negatif

b. Batasnya adalah

Untuk mengetahui metode estimasi yang memberikan hasil yang lebih

baik, maka kriteria yang digunakan adalah dengan membandingkan nilai R-Square

( ) yang menunjukkan seberapa besar proporsi variasi variabel dependen yang

dijelaskan oleh variabel independen. Menurut Imam Ghozali (2011: 97), nilai

yang kecil berarti kemampuan variabel-variabel independen dalam menjelaskan

variasi variabel dependen sangat terbatas. Nilai yang mendekati satu berarti

variabel-variabel independen memberikan hampir semua informasi yang

dibutuhkan untuk memprediksi variasi variabel dependen. Apabila nilai koefisien

determinasi semakin besar, maka semakin besar kemampuan semua variabel

independen dalam menjelaskan varians dari variabel dependennya.

Masalah yang terjadi jika melakukan pengujian dengan menggunakan R-

Square adalah jika variabel bebasnya lebih dari satu maka nilai R-Square akan

bertambah besar. Pengujian dengan adjusted R-Square ( ) secara obyektif melihat

pengaruh penambahan variabel bebas, apakah variabel tersebut mampu

memperkuat variasi penjelasan variabel terikat. Adapun perhitungan nilai adjusted

R-Square adalah sebagai berikut:

( )

(2.22)

dengan : banyaknya data observasi dan : banyaknya variabel independen.