BAB 10

MODEL REGRESI VARIABEL DUMMY

Sifat Variabel Dummy

Tidak selamanya variabel independen itu bersifat bilangan atau kuantitatif (seperti

pendapatan, biaya, harga, bobot, suhu). Ada kalanya variabel independen itu bersifat

kualitatif (seperti jenis kelamin, ras, warna, agama, kebangsaan, ukuran afiliasi partai politik,

dan status perkawinan). Nah variabel kualitatif inilah yang sering disebut sebagai variabel

buatan/ variabel dummy/ variabel boneka (dummy variable). Variabel ini juga punya istilah

lain seperti variabel indikator, variabel biner, variabel kategori, dan variabel dikotomi.

Variabel kualitatif seperti itu biasanya menunjukkan ada tidaknya “kualitas” suatu atribut,

seperti laki-laki dan perempuan, hitam atau putih, Muslim atau non-Muslim, WNI atau non-

WNI. Salah satu metode “kuantifikasi” atribut-atribut ini adalah dengan membentuk variabel-

variabel artifisial yang memperhitungkan nilai-nilai 0 atau 1, 0 menunjukkan ketiadaan

sebuah atribut dan 1 menunjukkan keberadaan (atau kepemilikan) atribut itu. Misalnya, 1

mungkin menunjukkan bahwa seseorang adalah wanita dan 0 mungkin menunjukkan pria,

atau 1 mungkin menunjukkan bahwa seseorang adalah lulusan perguruan tinggi dan 0

menunjukkan orang itu bukan lulusan perguruan tinggi, atau 1 misal menunjukkan

keanggotaan PKS dan 0 menunjukkan keanggotaan partai Demokrat. Nah variabel yang

mengasumsikan nilai seperti 0 dan 1 ini disebut sebagai variabel buatan (dummy variable).

Disini kita melambangkan variabel dummy dengan simbol D bukan X untuk menekankan

bahwa kita berhadapan dengan variabel kualitatif.

Dalam prakteknya, model regresi mungkin hanya meliputi variabel penjelas dummy.

Model regresi yang hanya berisikan variabel penjelas dummy itu disebut dengan model

analisis varians (ANOVA). Perhatikan contoh model ANOVA berikut:

(1)

Dimana Y = pengeluaran makanan tahunan ($)

Di = 1 jika wanita

= 0 jika pria

Dengan mengasumsikan bahwa gangguan ui dalam model diatas memenuhi asumsi

lazim model regresi linear klasik (CLRM, classical linear regression model), dari model

diatas kita mendapat hal berikut ini:

Makanan rata-rata pria:

(2)

Makanan rata-rata wanita:

(3)

Uji H0 bahwa tidak ada perbedaan dalam pengeluaran makanan rata-rata kedua jenis

kelamin ini (yakni bisa dengan mudah dilakukan dengan melakukan regresi (pada

model diatas sekali) melalui cara kuadrat terkecil biasa yang lazim (OLS) dan menemukan

ada tidaknya signifikansi statistik b2 dengan dasar tes t.

Contoh case: Pengeluaran makanan tahunan konsumen pria dan wanita lajang

Tabel dibawah ini menunjukkan data pengeluaran makanan tahunan ($) dan pendapatan

setelah pajak tahunan ($) untuk pria dan wanita pada tahun 2000 hingga 2001. Variabel

dummy menggunakan nilai 1 untuk wanita dan 0 untuk pria.

Usia

Pengeluaran

makanan, wanita

($)

Pendapatan

setelah pajak,

wanita ($)

Pengeluaran

makanan, pria

($)

Pendapatan

setelah pajak,

pria ($)

< 25 1983 11557 2230 11589

25-34 2987 29387 3757 33328

35-44 2993 31463 3821 36151

45-54 3156 29554 3291 35448

55-64 2706 25137 3429 32988

65> 2217 14952 2533 20437

*Note: data pengeluaran makanan dan pendapatan setelah pajak adalah rata-rata berdasarkan

pada jumlah aktual orang dalam berbagai kelompok usia. Angka aktualnya mencapai ribuan.

Dengan meregresikan pengeluaran makanan pada variabel dummy jenis kelamin,

diperoleh hasil sebagai berikut:

(4)

Dimana Y = pengeluaran makanan ($) dan D = 1 jika wanita, 0 jika pria.

Seperti ditunjukkan dalm hasil ini, bahwa pengeluaran makanan rata-rata untuk pria

adalah $3,177 dan untuk wanita adalah (3176,833-503,1667) = 2673, 6663 atau sektar

$2.674. tapi ang menarik dicatat adalah bahwa perkiraan D i tidak signifikan secara statistik,

karena nilai t nya hanya sekitar -1,52 dan niali p-nya sekitar 15%. Ini berarti bahwa meskipun

nilai angka pengeluaran makanan pria dan wanita berbeda, secara statistik tidak ada

perbedaan signifikan antara kedua angka ini.

Dalam contoh ini, variabel dummy jenis kelamin memiliki 2 kategori. Kita

memberikan nilai 1 untuk konsumen wanita dan 0 untuk konsumen pria. Nilai titik potong

dalam penetapan seperti itu mewakili nilai mean kategori yang mendapatkan nilai 0 atau pria

dalam kasus ini. karena itu kita bisa sebut kategori yang mendapat nilai 0 sebagai kategori

dasar atau referensi atau benchmark atau perbandingan. Untuk menghitung mean

pengeluaran makanan untuk wanita, kita harus menambah nilai koefisien variable dummy

pada nilai titik potong, yang menunjukkan pengeluaran makanan untuk wanita, seperti

ditunjukkan sebelumnya.

Model ANOVA seperti model persamaan regresi sebelumnya, meskipun lazim dalam

bidang-bidang seperti sosiologi, psikologi, pendidikan, dan riset pasar, tidak lazim dalam

ilmu ekonomi. Dalam sebagian besar riset ekonomi, model regresi mengandung beberapa

variable bebas yang bersifat kuantitatif dan beberapa kualitatif, model regresi yang

mengandung kombinasi variabel kuantitatif dan kualitatif disebut dengan model analisis

kovarians (ANCOVA). Model ANCOVA merupakan perluasan dari model ANOVA dalam

hal penyediaan metode kontrol secara statistik atas efek-efek variabel bebas kuantitatif, yang

disebut dengan variabel kovariat atau variabel kontrol, dalam sebuah model yang meliputi

baik variabel penjelas kuantitatif maupun kualitatif atau dummy.

Model ANCOVA: Regresi pada Satu Variabel Kuantitatif dan Satu Variabel Kualitatif

Dengan Dua Kategori: Tinjauan Ulang Atas Contoh Sebelumnya

Model ANCOVA:

(5)

Y= pengeluaran makanan ($), X= pendapatan setelah pajak ($), dan D=1 untuk wanita dan 0

untuk pria. Dengan menggunakan data sebelumnya, hasil yang diperoleh:

(9,6417)

(6)

*menunjukkan nilai-niali yang sangat kecil.

Hasil-hasil ini patut diperhatikan karena beberapa alasan. Pertama, dalam persamaan

sebelumnya koefisien dummy tidak signifikan secara statistik, tapi sekarang justru signifikan.

Mengapa? Mungkin dalam menaksir persamaan itu kita melakukan kesalahan spesifikasi

karena kita mengeluarkan suatu kovariat, variabel pendapatan setelah pajak, yang menurut

teori diharapkan memiliki pengaruh penting atas pengeluaran konsumsi. Kedua, karena

persamaan sebelumnya merupakan regresi berganda, sekarang bisa kita katakan bahwa

dengan menganggap pendapatan setelah pajak konstan, mean pengeluaran makanan pria

adalah sekitar $1506, dan untuk wanita adalah sekitar $1.277, dan rata-rata ini berbeda

signifikan secara statistik. Ketiga, dengan menganggap perbedaan jenis kelamin konstan,

koefisien pendapatan 0,0579 berarti bahwa mean pengeluaran makanan naik sekitar 6 sen

untuk setiap dolar tambahan pendapatan setelah pajak. Dengan kata lain, kecenderungan

marjinal mengkonsumsi makanan-pengeluaran makanan tambahan tiap satu dolar tambahan

pendapatan siap konsumsi adalah sekitar 6 sen. Nah sekarang kita bisa menurunkan regresi

berikut ini dari persamaan (6) untuk kedua kelompok itu sebagai berikut:

Regresi mean pengeluaran makanan wanita:

(7)

(8)

Kedua garis regresi ini berbeda titik potongnya, tapi kemiringannya sama. Dengan kata lain,

kedua garis regresi ini sejajar.

Regresi Terhadap Satu Variabel Kuantitatif dan Satu Variabel Kualitatif dengan Lebih

Dari Dua Kelas atau Kategori

Teknik variabel dummy sangat mampu menangani model-model dimana suatu

variabel kualitatif bisa memiliki lebih dari dua kategori. Kita ambil contoh data tentang gaji

rata-rata guru sekolah negeri dan belanja pemerintah per siswa (halaman 9 di buku Gujarati),

keduanya diukur dalam dolar, untuk 50 negara bagian dan distrik kolumbia pada tahun 1951.

Kita akan mencari tau apakah ada perbedaan gaji yang signifikan secara statistik dalam 51

wilayah yang dimasukkan kedalam analisis ini. untuk tujuan ini, anggap kita membagi

berbagai negara bagian dan Washington DC kedalam 3 wilayah: (1) Northeast dan North

Central (total 21 negara bagian), (2) South (17 negara bagian), dan West (13 negara bagian).

Variabel kualitatif disini adalah “wilayah” yang memiliki 3 kategori yang kita paparkan

diatas. Perhatikan model berikut:

(9)

Dimana:AAS = gaji tahunan rata-rata guru sekolah negeri

D2 = 1 jika negara bagian tersebut berada di wilayah Northeast atau North

Central, dan 0 jika sebaliknya

D3 = 1 jika negara bagian itu ada di wilayah South, dan 0 jika sebaliknya

Karena variabel kualitatif wilayah memiliki tiga kelas, kita hanya akan menetapkan dua

dummy. Disini kita memperlakukan West sebagai kategori dasar atau acuan.

*Note : Pay = gaji tahunan rata-rata guru sekolah negeri

PPS = belanja per siswa oleh otoritas publik

Wilayah: 1 = wilayah Northeast dan North Central

2 = South

3 = West

Dummy D2 = 1= wilayah Northeast dan North Central

0= wilayah lain

D3 = 1= South

= 0= wilayah lain

Dari model (9) kita peroleh mean fungsi gaji dalam ketiga wilayah sbb:

Mean gaji guru sekolah negeri di wilayah Northeast dan North Central :

(10)

Mean gaji sekolah negeri di South:

(11)

Mean gaji sekolah negeri di West:

(12)

Ingat bahwa West sebagai wilayah acuan. So, semua perbandingan gaji dikaitkan

dengan West. Jadi artinya setelah kita melangkah melebihi klasifikasi dikotomi sederhana

(perempuan atau laki-laki, dll), kita harus berhati-hati ketika menspesifikasi kategori mana

yang menjadi dasar, karena semua perbandingan ini terkait dengan kategori dasar atau acuan

yang dipilih itu. Mengubah kategori dasar akan mengubah perbandingan. Akan tetapi, hal itu

tidak akan mengubah substansi hasil regresi. Kita bisa menaksir model (9) dengan segala

kategori sebagai kategori dasarnya. Hasil regresi model (9) sbb:

(-2,1776)

(13)

*signifikan secara statistik pada tingkat 5%

**tidak signifikan secara statistik pada tingkat 5%

Regresi Atas Satu Variabel Bebas Kuantitatif dan Lebih Dari Satu Variabel Kualitatif

Perhatikan model berikut:

(14)

Dimana Y = upah per jam dalam dolar

X = pendidikan (tahun belajar)

D2 = 1 jika wanita, 0 jika pria

D3 = 1 jika nonputih dan non-Hispanik, 0 jika lainnya

Dalam model ini, jenis kelamin dan ras merupakan variabel-variabel bebas kualitatif dan

pendidikan merupakan variabel bebas kuantitatif. Untuk menaksir model sebelumnya,

diperoleh data dari 528 individu , yang memberikan hasil sbb:

(15)

*menunjukkan nilai p lebih kecil daripada 5%

**menunjukkan nilai p lebih besar daripada 5%

Penafsiran hasil tersebut: Pertama, apakah kategori dasar yang kita gunakan disini,

mengingat kita sekarang memiliki 2 variabel kualitatif? Jawabannya adalah pria putih dan

atau Hispanik. Kedua, dengan menganggap tingkat pendidikan dan ras konstan, secara rata-

rata, wanita mendapatkan penghasilan lebih kecil daripada pria sebesar $2,36 per jam.

Demikian pula, dengan menganggap tingkat pendidikan dan jenis kelamin konstan, secara

rata-rata, nonputih/non-Hispanik mendapatkan penghasilan lebih rendah daripada kategori

dasar sekitar $1,73 per jam. Ketiga, dengan menganggap jenis kelamin dan ras konstan, mean

upah per jam naik sekitar 80% per jam untuk tiap tahun tambahan pendidikan.

Efek Interaksi

Meski hasil yang ditampilkan pada persamaan (15) masuk akal, ada asumsi yang

tersirat dalam model (14) bahwa efek diferensial variabel dummy jenis kelamin D2 adalah

konstan di seluruh kedua kategori ras tersebut, kemudian efek diferensial variabel dummy ras

D3 juga konstan di kedua jenis kelamin. Itu artinya, jika upah per jam rata-rata lebih tinggi

untuk pria daripada wanita, maka hal itu akan berlaku pula baik untuk mereka yang

nonputih /nonhispanik maupun bukan. Demikian pula, jika katakanlah nonputih/nonhispanik

menghasilkan upah rata-rata yang lebih rendah, hal yang sama juga berlaku tanpa

memperhatikan jenis kelamin. Seorang wanita nonputih/nonhispanik mungkin menghasilkan

upah yang lebih rendah daripada pria nonputih/nonhispanik. Dengan kata lain, mungkin ada

interaksi antara variabel kualitatif, D2 dan D3. Oleh sebab itu, efeknya atas rata-rata Y

mungkn tidak hanya aditif, seperti model (14), tapi mungkin juga multiplikatif, seperti

dalam model berikut:

(16)

Variabel dummy , perkalian kedua variabel dummy ini, disebut dengan variabel

dummy interaksi, karena menunjukkan efek dua variabel kualitatif sekaligus, atau simultan.

Generalisasi

Jumlah dummy untuk masing-masing variabel kualitatif seharusnya adalah jumlah kategori

untuk variabel itu dikurangi satu.

Membandingkan Dua Regresi

Koefisien kemiringan diferensial disebut juga penyimpangan kemiringan atau slope

drifter, karena memberitahu kita berasa besar selisih koefisien kemiringan variabel

pendapatan diantara kedua jenis kategori.

(a) Regresi Coincident (b) Regresi Paralel

(c)Regresi Concurrent (d) Regresi tak serupa

- Regresi Coincident adalah regresi yang identik.

- Regresi Paralel memperlihatkan bahwa koefisien kemiringan keduanya sama, tapi titik potongnya berbeda.

- Regresi Concurrent adalah kedua regresi yang mempunyai titik potong sama, tetapi kemiringannya berbeda.

- Regresi tak serupa adalah regresi yang koefisien maupun titik potongnya berbeda, jadi kedua regresinya berbeda

Penggunaan Variabel Dummy dalam Analisis Musiman

Deret berkala ekonomi yang didasarkan pada data bulanan atau kuartalan memperlihatkan pola musiman (pergerakan naik turun secara teratur), contohnya permintaan jumlah es krim saat musim panas. Kita perlu menghapus factor musiman dari suatu deret berkala sehingga kita dapat berkosentrasi pada komponen lain dari deret tersebut seperti trend.

Proses menghilangkan komponen musiman dari suatu deret berkala disebut deseasonalisasi atau penyesuaian musiman, sehingga deret berkala tersebut disebut deret berkala yang sudah deseasonalisasi atau disesuaikan secara musiman.

Bagaimana jika Variabel Dependent Merupakan Variabel Dummy ?

Model jika variabel dependent merupakan variabel dummy adalah Yi = B1 + B2Xi + ui

Model di atas disebut Model Probabilitas Linier (LPM). Model ini tetap bisa menggunakan OLS asalkan memenuhi persyaratan :

1. Sekalipun Y menggunakan nilai 0 atau 1, tak ada jaminan bahwa nilai taksiran Y akan harus berada antara 0 dan 1. Dalam penerapannya berapa Ŷi bisa saja menjadi negative da beberapa bisa melebihi 1.

2. Karena Y itu biner, factor kesalahannya juga biner. Ini berarti bahwa kita tidak bisa mengasumsikan bahwa ui mengikuti distribusi normal. Sebaliknya ui mengikuti distribusi probabilitas binomial.

3. Bisa diperlihatkan bahwa factor kesalahannya bersifat heteroskedastis : sejauh ini kita bekerja dengan asumsi bahwa factor keselamatan itu homoskedastis.

4. Karena Y hanya menggunakan dua nilai, 0 dan 1, perhatikan nilai R² secara konvensional tidak akan sangat bermakna untuk ukuran alternative.

Dalam literature, kita mengenal beberapa alternatif model LPM, seperti seperti model logit atau probit.

BAB 10

Documents

Transcript of BAB 10