REGRESI LOGISTIK BINER DAN APLIKASINYA

16
1 REGRESI LOGISTIK BINER DAN APLIKASINYA PENDAHULUAN Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus seperti itu adalah regresi linier, baik sederhana maupun berganda. Namun, adakalanya regresi linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon bertipe data nominal, sedangkan variabel prediktornya bertipe data interval atau rasio. Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel respon. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon terdapat lebih dari 2 kategori. Pendugaan koefisien model regresi logistik tidak dapat dilakukan dengan metode OLS halnya regresi linear karena pelanggaran asumsi kehomogenan varians. Casella and Berger (2002) mengatakan bahwa metode estimasi yang biasanya dipakai adalah metode Maximum Likelihood, yang merupakan salah satu alternatif untuk memaksimalkan peluang pengklasifikasian obyek yang diamati menjadi kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana. Metode ini mengasumsikan bahwa nilai mengikuti distribusi binomial. Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat analisis pemodelan ketika variabel responnya bersifat biner, yang merujuk pada penggunaan dua buah bilangan 0 dan 1 untuk menggantikan dua kategori pada variabel respon. Contoh variabel respon yang dimaksud adalah kesuksesan (sukses–gagal), kesetujuan (setuju–tidak setuju), keinginan membeli (ya–tidak), terpilih atau tidak terpilih, dan masih banyak lagi. Pada tulisan ini akan dibahas mengenai regresi logistik biner beserta aplikasinya dengan bantuan software SPSS. Data yang digunakan dalam tulisan ini adalah data mengenai CHD (Coronary Heart Disease) yang dihubungkan dengan sex, kebiasaan merokok, kelompok usia, kadar kolesterol dan obesitas. TINJAUAN PUSTAKA

Transcript of REGRESI LOGISTIK BINER DAN APLIKASINYA

Page 1: REGRESI LOGISTIK BINER DAN APLIKASINYA

1

REGRESI LOGISTIK BINER DAN APLIKASINYA

PENDAHULUAN

Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel

X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus

seperti itu adalah regresi linier, baik sederhana maupun berganda. Namun, adakalanya regresi

linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang

sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan

akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon

bertipe data nominal, sedangkan variabel prediktornya bertipe data interval atau rasio.

Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana

metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic

Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik

Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel

respon. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon

terdapat lebih dari 2 kategori. Pendugaan koefisien model regresi logistik tidak dapat

dilakukan dengan metode OLS halnya regresi linear karena pelanggaran asumsi kehomogenan

varians. Casella and Berger (2002) mengatakan bahwa metode estimasi yang biasanya dipakai

adalah metode Maximum Likelihood, yang merupakan salah satu alternatif untuk

memaksimalkan peluang pengklasifikasian obyek yang diamati menjadi kategori yang sesuai

kemudian mengubahnya menjadi koefisien regresi yang sederhana. Metode ini

mengasumsikan bahwa nilai πœ€ mengikuti distribusi binomial.

Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat

analisis pemodelan ketika variabel responnya bersifat biner, yang merujuk pada penggunaan

dua buah bilangan 0 dan 1 untuk menggantikan dua kategori pada variabel respon. Contoh

variabel respon yang dimaksud adalah kesuksesan (sukses–gagal), kesetujuan (setuju–tidak

setuju), keinginan membeli (ya–tidak), terpilih atau tidak terpilih, dan masih banyak lagi.

Pada tulisan ini akan dibahas mengenai regresi logistik biner beserta aplikasinya

dengan bantuan software SPSS. Data yang digunakan dalam tulisan ini adalah data mengenai

CHD (Coronary Heart Disease) yang dihubungkan dengan sex, kebiasaan merokok,

kelompok usia, kadar kolesterol dan obesitas.

TINJAUAN PUSTAKA

Page 2: REGRESI LOGISTIK BINER DAN APLIKASINYA

2

1. Regresi Logistik Biner

Regresi logistik adalah metode statistika yang mempelajari tentang pola hubungan

secara matematis antara satu variabel respon (y) yang bersifat nominal atau ordinal dengan

satu atau lebih variabel prediktor (x). Perbedaan yang mendasar dengan model regresi linier

yaitu pada variabel responnya. Variabel respon pada regresi logistik merupakan variabel biner

atau dikotomus. Variabel prediktor dapat berupa variabel polikotomus (kategorik maupun

interval). Sedangkan untuk regresi linier, variabel responnya minimal berskala interval.

Perbedaan lainnya terlihat pada pemilihan model parametrik dan asumsi-asumsi yang

mendasari kedua model. Walaupun demikian, prinsip-prinsip pedugaan parameter yang

digunakan dalam analisis model regresi logistik sama dengan analisis model regresi linier

(Hosmer and Lemeshow, 1989). Menurut jenis skala dan variabel respon yang digunakan

regresi logistik dibagi menjadi 3 macam, yaitu regresi ligistik biner, multinomial dan ordinal.

Analisis regresi logistik biner adalah suatu regresi logistik antara variabel respon (y)

dan variabel prediktor (x) dimana variabel y menghasilkan 2 kategori yaitu 0 dan 1 (Hosmer

dan Lemeshow, 1989). Sehingga variabel y mengikuti distribusi Bernoulli dengan fungsi

probabilitasnya sebagai berikut.

𝑓(𝑦) = πœ‹π‘¦(1 βˆ’ πœ‹)1βˆ’π‘¦ ; 𝑦 = 0, 1 (1)

Dimana jika y = 0 maka 𝑓(𝑦) = 1 βˆ’ πœ‹ dan jika y = 1 maka 𝑓(𝑦) = πœ‹. Fungsi regresi

logistiknya dapat dituliskan sebagai berikut.

𝑓(𝑧) =1

1+π‘’βˆ’π‘§ π‘’π‘˜π‘’π‘–π‘£π‘Žπ‘™π‘’π‘› 𝑓(𝑧) =𝑒𝑧

1+𝑒𝑧 (2)

Dengan 𝑧 = 𝛽0 + 𝛽1π‘₯1 + β‹― + 𝛽𝑝π‘₯𝑝

Jika nilai z antara βˆ’βˆž dan ∞ maka nilai f(z) terletak antara 0 dan 1 untuk setiap nilai

z yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggam-

barkan probabilitas atau resiko dari suatu obyek. Model regresi logistiknya adalah sebagai

berikut.

πœ‹(π‘₯) =𝑒𝛽0+𝛽1π‘₯1+β‹―+𝛽𝑝π‘₯𝑝

1+𝑒𝛽0+𝛽1π‘₯1+β‹―+𝛽𝑝π‘₯𝑝 (3)

Dimana p = banyaknya variabel prediktor

Bila model persamaan di atas ditranformasi dengan tranformasi logit, maka didapatkan

bentuk logit seperti pada persamaan (4).

𝑔(π‘₯) = ln (πœ‹(π‘₯)

1βˆ’πœ‹(π‘₯)) = 𝛽0 + 𝛽1π‘₯1 + β‹― + 𝛽𝑝π‘₯𝑝 (4)

2. Estimasi Parameter

Page 3: REGRESI LOGISTIK BINER DAN APLIKASINYA

3

Estimasi parameter dalam regresi logistik dapat dilakukan dengan metode Maximum

Likelihood namun apabila metode ini tidak menghasilkan solusi yang close form, maka dapat

dilanjutkan dengan menggunakan iterasi Newton Raphson, hingga menghasilkan solusi yang

konvergen.

Metode Maximum Likelihood

Pada suatu model dengan respon biner atau dikotom (bernilai 0 atau 1) dimana antar

pengamatan diasumsikan saling bebas maka penduga parameter 𝛽 dapat diperoleh dengan

metode Maximum Likelihood Estimation (MLE) dimana dengan metode ini parameter

diestimasi dengan memaksimumkan fungsi turunan pertama. Estimasi varian dan kovarian

diperoleh dari turunan kedua fungsi log likelihood.

Jika xi dan yi merupakan pasangan variabel bebas dan terikat pada pengamatan ke-i

dan diasumsikan bahwa setiap pasangan pengamatan saling independen dengan pasangan

pengamatan lainnya, i = 1, 2, ..., n maka fungsi probabilitas untuk setiap pasangan adalah se-

bagai berikut.

𝑓(𝛽, π‘₯𝑖) = πœ‹(π‘₯𝑖)𝑦𝑖(1 βˆ’ πœ‹(π‘₯𝑖))𝑦𝑖 ; 𝑦𝑖 = 0, 1 (5)

Dengan (π‘₯𝑖) =𝑒

(βˆ‘ 𝛽𝑗π‘₯𝑖𝑗𝑝𝑗=0

)

1+𝑒(βˆ‘ 𝛽𝑗π‘₯𝑖𝑗

𝑝𝑗=0

) , dimana ketika j = 0 maka nilai xij = xi0 = 1. Setiap pasangan

pengamatan diasumsikan saling bebas (independen) sehingga fungsi likelihood merupakan

gabungan dari fungsi distribusi masing-masing pasangan yaitu sebagai berikut:

𝑙 (𝛽) = ∏ 𝑓(𝛽, π‘₯𝑖)𝑛𝑖=1

= ∏ πœ‹(π‘₯𝑖)𝑦𝑖(1 βˆ’ πœ‹(π‘₯𝑖))1βˆ’π‘¦π‘–π‘›

𝑖=1

= 𝑒[βˆ‘ (βˆ‘ 𝑦𝑖π‘₯𝑖𝑗

𝑛𝑖=1 )

𝑝𝑗=0 𝛽𝑗]

[∏ (1

1+π‘’βˆ‘ 𝛽𝑗π‘₯𝑖𝑗

𝑝𝑗=0

)𝑛𝑖=1 ] (6)

Fungsi likelihood tersebut lebih mudah dimaksimumkan dalam bentuk log 𝑙(𝛽) yang

disebut juga log likelihood (𝐿(𝛽)). Bentuk itu dapat didefinisikan sebagai berikut.

𝐿(𝛽) = log 𝑙(𝛽)

= βˆ‘ (βˆ‘ 𝑦𝑖π‘₯𝑖𝑗𝑛𝑖=1 )𝑝

𝑗=0 𝛽𝑗 βˆ’ βˆ‘ log (1 + π‘’βˆ‘ 𝛽𝑗π‘₯𝑖𝑗

𝑝𝑗=0 )𝑛

𝑖=1 (7)

Untuk mendapatkan nilai 𝛽 dari 𝐿(𝛽) yang maksimum maka dilakukan penurunan

terhadap 𝛽 dan hasilnya disamakan dengan nol.

πœ•πΏ(𝛽)

πœ•π›½π‘—= βˆ‘ 𝑦𝑖π‘₯𝑖𝑗

𝑛𝑖=1 βˆ’ βˆ‘ π‘₯𝑖𝑗 [

π‘’βˆ‘ 𝛽𝑗π‘₯𝑖𝑗

𝑝𝑗=0

1+π‘’βˆ‘ 𝛽𝑗π‘₯𝑖𝑗

𝑝𝑗=0

]𝑛𝑖=1 = 0

βˆ‘ 𝑦𝑖π‘₯𝑖𝑗𝑛𝑖=1 βˆ’ βˆ‘ π‘₯𝑖𝑗�̂�(π‘₯𝑖)

𝑛𝑛=1 = 0 ; j = 0, 1, . . ., p (8)

Page 4: REGRESI LOGISTIK BINER DAN APLIKASINYA

4

Metode untuk mengestimasi varian dan kovarian dari estimasi koefisien parameter

dikembangkan dengan mengikuti teori Maximum Likelihood Estimation (MLE) yang

menyatakan bahwa estimasi varian dan kovarian diperoleh dari turunan kedua fungsi

likelihood dapat diperoleh hasil sebagai berikut.

πœ•πΏ(𝛽)

πœ•π›½π‘—π›½π‘’= βˆ‘ π‘₯𝑖𝑗π‘₯π‘–π‘’πœ‹(π‘₯𝑖)(1 βˆ’ πœ‹(π‘₯𝑖))𝑛

𝑖=1 (9)

πœ•2𝐿(𝛽)

πœ•π›½π‘—πœ•π›½π‘’= βˆ’ βˆ‘ π‘₯𝑖𝑗π‘₯π‘–π‘’πœ‹(π‘₯𝑖)(1 βˆ’ πœ‹(π‘₯𝑖))𝑛

𝑖=1 (10)

Apabila u = j, maka estimasi varian dapat ditulis.

πœ•2𝐿(𝛽)

πœ•(𝛽𝑗)2 = βˆ’ βˆ‘ π‘₯𝑖𝑗2πœ‹π‘–(1 βˆ’ πœ‹π‘–)

𝑛𝑖=1 ; j, u = 0, 1, …, p (11)

Metode Newton Raphson

Untuk memperoleh dugaan maksimum bagi parameter 𝛽 karena pada persamaan

likelihood didapatkan πœ‹(π‘₯) yang non linier terhadap 𝛽 maka digunakan metode Newton

Raphson melalui iterasi 𝛽(𝑑+1) = 𝛽(𝑑) βˆ’ (𝐻(𝑑))(βˆ’1)π‘ž(𝑑), dimana t = 0, 1, …sampai konvergen,

dengan π‘žπ‘‡ = [ πœ•πΏ(𝛽)

πœ•π›½0,

πœ•πΏ(𝛽)

πœ•π›½1, … ,

πœ•πΏ(𝛽)

πœ•π›½π‘˜] dan H merupakan matriks Hessian.

𝐻 = [

πœ•2𝐿(𝛽)

πœ•π›½π‘—2

πœ•2𝐿(𝛽)

πœ•π›½π‘—π›½π‘’

πœ•2𝐿(𝛽)

πœ•π›½π‘—π›½π‘’

πœ•2𝐿(𝛽)

πœ•π›½π‘’2

]

Langkah-langkah iterasi Newton Raphson adalah sebagai berikut.

- Gunakan nilai dugaan awal 𝛽(0) dan dimasukan pada Persamaan (3) untuk mendapatkan

πœ‹(0). Kemudian masukkan dalam Persamaan (10) dan (11).

- Selanjutnya untuk t > 0 digunakan nilai οΏ½Μ‚οΏ½(1) = 𝛽(0) βˆ’ [𝐻(0)]βˆ’1π‘ž(0), nilai οΏ½Μ‚οΏ½ digunakan

untuk mencari πœ‹(1)sehingga mendapatkan π‘ž(1) dan 𝐻(1) untuk memperoleh οΏ½Μ‚οΏ½(2) sampai

konvergen.

3. Pengujian Estimasi Parameter

Setelah parameter hasil estimasi diperoleh, maka dilakukan pengujian keberartian

terhadap koefisien 𝛽 secara univariat terhadap variabel respon yaitu dengan membandingkan

parameter hasil maksimum likelihood, dugaan 𝛽 dengan standar error parameter tersebut.

Pengujian yang dilakukan adalah sebagai berikut.

a. Uji Serentak

Uji serentak dilakukan untuk mengetahui signifikansi parameter 𝛽 secara keseluruhan atau

serentak. Pengujian yang dilakukan sebagai berikut.

Page 5: REGRESI LOGISTIK BINER DAN APLIKASINYA

5

Hipotesis :

𝐻0 ∢ 𝛽1 = 𝛽2 = . . . = 𝛽𝑗 = 0

𝐻1 ∢ Paling tidak ada satu 𝛽𝑗 β‰  0

Statistik uji (Likelihood Ratio Test) :

𝐺 = βˆ’2𝑙𝑛(

𝑛1𝑛

)𝑛1

(𝑛0𝑛

)𝑛0

βˆ‘ �̂�𝑖𝑦𝑖(1βˆ’οΏ½Μ‚οΏ½π‘–)(1βˆ’π‘¦π‘–)𝑛

𝑖=1

(12)

dimana : 𝑛1 = βˆ‘ 𝑦𝑖𝑛𝑖=1 ; 𝑛0 = βˆ‘ (1 βˆ’ 𝑦𝑖) ; 𝑛 =𝑛

𝑖=1 𝑛1 + 𝑛0

Daerah Penolakan :

Tolak H0 apabila nilai G > 2(v, ) atau P-value < , dimana v adalah derajat bebas

(banyak variabel prediktor yang ada di dalam model tanpa 𝛽0).

b. Uji Individu

Uji individu ini dilakukan untuk mengetahui signifikansi parameter 𝛽 secara individu

(Hosmer dan Lemeshow, 1989).

Hipotesis :

𝐻0 ∢ 𝛽𝑗 = 0

𝐻1 ∢ 𝛽𝑗 β‰  0 ; j = 1, 2, …, p

Statistik uji (Uji Wald) :

π‘Š2 =�̂�𝑗

2

𝑆𝐸(�̂�𝑗)2 (13)

Daerah Penolakan :

Tolak H0 apabila Wi2 > 2

(v, ) atau P-value < dengan v adalah derajat bebas

banyaknya prediktor.

4. Uji Kesesuaian Model

Uji kesesuaian model berguna untuk mengetahui apakah model tanpa variabel-variabel

yang tidak signifikan adalah model terbaik. Terdapat beberapa statistik uji yang dapat

digunakan antara lain.

Page 6: REGRESI LOGISTIK BINER DAN APLIKASINYA

6

a. –2 log likelihood

𝐺2 = 2 βˆ‘ βˆ‘ π‘₯𝑖𝑗𝐽𝑗=1

𝐼𝑖=1 log (

π‘₯𝑖𝑗

π‘šπ‘–π‘—) (14)

dimana : xij = nilai pengamatan

mij = frekuensi harapan

b. Goodness of fit

πœ’2 = βˆ‘ βˆ‘(π‘₯π‘–π‘—βˆ’π‘šπ‘–π‘—)

2

π‘šπ‘–π‘—

𝐽𝑗=1

𝐼𝑖=1 (15)

Dari kedua statistik uji di atas, untuk menguji hipotesis adalah sebagai berikut.

Hipotesis :

H0 : model yang dihipotesakan sesuai dengan data

H1 : model yang dihipotesakan tidak sesuai dengan data

Daerah Penolakan :

Tolak H0 apabila 2 hitung > 2 (,b) atau G2 hitung > 2

(,b) dimana b merupakan

selisih variabel prediktor dari kedua model yang dibandingkan atau p value < .

c. Improvement

Uji ini digunakan untuk mengetahui variabel prediktor yang belum masuk ke dalam model

apakah memiliki signifikansi dalam model.

Hipotesis :

H0 : model ringkas adalah model terbaik

H1 : model lengkap adalah model terbaik

Statistik uji :

𝐺2 = βˆ’2(𝐿0 βˆ’ 𝐿1) (16)

dimana :

=0L log likelihood untuk model ringkas (tanpa variabel tertentu)

=1L log likelihood untuk model lengkap (dengan variabel tertentu)

Daerah Penolakan :

Tolak H0 apabila nilai G2 > 2 (,b) dimana b merupakan selisih variabel prediktor dari

kedua model yang dibandingkan.

5. Interpretasi Koefisien Parameter

Dengan diperolehnya kesesuaian model pada parameter yang signifikan maka selan-

jutnya nilai parameter tersebut diinterpretasikan untuk menjelaskan dua persoalan berikut :

Page 7: REGRESI LOGISTIK BINER DAN APLIKASINYA

7

- Untuk menjelaskan kecenderungan/hubungan fungsional antara variabel-variabel prediktor

dengan variabel respon.

- Untuk menentukan unit perubahan setiap variabel prediktor.

Interpretasi variabel prediktor (x) dibagi menjadi 2 yaitu :

a. Untuk Variabel Diskrit

Odds ratio (πœ“) merupakan salah satu ukuran tingkat resiko yang digunakan dalam

menginterpretasikan parameter. Misalkan variabel prediktor yang bersifat ordinal dibagi

dalam dua kategori yang dinyatakan dengan kode 0 dan 1, disini kategori pertama

dibandingkan dengan kategori kedua berdasarkan nilai πœ“-nya yang menyatakan kategori

pertama berpengaruh πœ“ kali kategori kedua terhadap variabel respon. Nilai- nilai tersebut

dapat dinyatakan dalam Tabel 1.

Tabel 1. Nilai Probabilitas Pengaruh x terhadap y

Variabel Prediktor (x)

x = 1 x = 0

Variabel

respon

(y)

y =1 πœ‹(1) =𝑒𝛽0+𝛽1

1 + 𝑒𝛽0+𝛽1 πœ‹(0) =

𝑒𝛽0

1 + 𝑒𝛽0

y =0 1 βˆ’ πœ‹(1) =

1

1 + 𝑒𝛽0+𝛽1 1 βˆ’ πœ‹(0) =

1

1 + 𝑒𝛽0

Nilai Odds ratio untuk x = 1 dan x = 0 didefinisikan sebagai berikut.

πœ“ =

πœ‹(1)

1βˆ’πœ‹(1)πœ‹(0)

1βˆ’πœ‹(0)

=πœ‹(1)(1βˆ’πœ‹(0))

πœ‹(0)(1βˆ’πœ‹(1))

πœ“ =𝑒𝛽0+𝛽1

𝑒𝛽0 sehingga πœ“ = 𝑒𝛽1 maka ln πœ“ = 𝛽1

Variabel prediktor (x) tidak selalu dikategorikan dalam 2 kategori bisa lebih misalnya

dalam 5 kategori atau k = 5 sehingga setiap variabelnya merupakan variabel diskrit dengan

skala pengukuran nominal. Untuk k = 5 digunakan variabel dummy k - 1 = 4. Dapat dijelaskan

dalam Tabel 2 sebagai berikut :

Tabel 2. Variabel Dummy Untuk x Dengan 5 Kategori

Variabel x D1 D2 D3 D4

1 0 0 0 0

2 1 0 0 0

3 0 1 0 0

4 0 0 1 0

5 0 0 0 1

Page 8: REGRESI LOGISTIK BINER DAN APLIKASINYA

8

Desain variabel di atas untuk membandingkan variabel dengan kategori 2, 3, 4, 5

dengan kategori 1 dengan πœ“ sama seperti pada variabel x dikotomus yang memandang satu

sebagai pembanding.

b. Untuk Variabel Kontinu

Jika variabel prediktor yang masuk ke dalam model regresi logistik adalah kontinu

maka interpretasi dari parameter tergantung pada unit variabel bebas yang masuk misalkan

fungsi 𝑔(π‘₯) = 𝛽0 + 𝛽1(π‘₯) di mana koefisien 𝛽1 akan memberi perubahan pada g(x) sebesar

satu unit pada setiap perubahan satu unit level x dan secara matematis dinyatakan dengan

g(x+1)-g(x). Jika x berubah sebesar t unit maka g(x) berubah sebesar t1 yang secara

matematis dinyatakan dengan g(x+t)-g(x) = t1. Odds ratio dari πœ“(𝑑) = πœ“(π‘₯ + 𝑑, π‘₯) =

𝐸π‘₯𝑝(𝑑𝛽1).

STUDI KASUS DAN PEMBAHASAN

Sebuah perusahaan pembiayaan sepeda motor ingin mengetahui faktor-faktor apa saja

yang mempengaruhi sebuah kridit kendaraan dapat mengalami kemacetan. Data digunakan

sampel sebanyak 35 peminjam untuk mencari penyebab dimana faktor-faktor yang dicurigai

diantaranya, DP (Besar uang muka), jangka waktu pembayaran, umur peminjam dan

pendidikan peminjam

Pada contoh kasus, variabel prediktornya lebih dari satu. Dalam data ini, yang

merupakan variabel respon adalah status Kredit (β€œMacet” = 1 dan β€œTidak Macet” = 0).

Variabel prediktor untuk contoh kasus ini bersifat nominal, yaitu.

Tabel 3. Variabel prediktor untuk CHD

Variabel Prediktor Kategori Nilai

x1

(DP Uang Muka)

≀ Rp 1.5 juta 1

> Rp 1.5 juta 0

x2

Jangka waktu Numerik

x3

Umur Numerik

x4

Pendidikan

Perguruan tinggi 0

SMA 1

≀ SMP 2

Tabel diatas menunjukan nama variabel. Untuk variabel independen Kategorik

seperti Dp (Uang Muka) dan Pendidikan diberi kode kategorinya dimana kategori yang

diberi kode nol β€œ0”, nantinya dijadikan sebagai Reference Category. Reference Category

Page 9: REGRESI LOGISTIK BINER DAN APLIKASINYA

9

umumnya dipilih berdasarkan Kategori yang memiliki Resiko Paling Kecil seperti

pendidikan Perguruan Tinggi, hal ini bertujuan untuk memudahkan dalam pembacaan

hasil analisa. Untuk variabel dependen Status Kridit, kategori resiko diberi kode lebih

besar dari pada kategori tidak beresiko.

Berikut adalah analisis dan pembahasan untuk data pada Lampiran 1, sedangkan

hasil output SPSS selengkapya dapat dilihat pada Lampiran 2.

A. Langkah-langkah Analisis Regresi Logistik

1. Masukkan nilai pada Variabel View

2. Klik Analyze βž” Regressionβž” Binary Logistic

3. Masukan Variabel : Status Kridit ke Dependent Uang Muka , Jangka Waktu

Pembayaran, Umur Pemohon dan Pendidikan ke Covariates.

Page 10: REGRESI LOGISTIK BINER DAN APLIKASINYA

10

4. Klik categorical pilih variabel covariates dp dan Pendidikan kedalam categorical

covariates, klik reference category first kemudian klik change.

5. Klik Menu Options βž”Muncul Menu Dialog berikut : Centang Hosmer-Lemeshow dan

CI for exp(B).

Page 11: REGRESI LOGISTIK BINER DAN APLIKASINYA

11

6. Klik Continue βž” Oke, berikut outputnya,

Berikut interpretasi hasil uji regresi logistik

B. Estimasi Parameter Regresi Logistik

Dari Tabel 4, diperoleh estimasi parameter regresi logistik, sehingga model regresi

logistik biner dapat dituliskan sebagai berikut:

π‘™π‘œπ‘”π‘–π‘‘ (𝑃𝑖) = 3.233 + 2.739 π‘ˆπ‘Žπ‘›π‘” π‘€π‘’π‘˜π‘Ž(1) βˆ’ 0.141 π½π‘Žπ‘›π‘”π‘˜π‘Ž π‘Šπ‘Žπ‘˜π‘‘π‘’ π‘ƒπ‘’π‘šπ‘π‘Žπ‘¦π‘Žπ‘Ÿπ‘Žπ‘›

βˆ’ 0.1 π‘’π‘šπ‘’π‘Ÿ π‘π‘’π‘šπ‘œβ„Žπ‘œπ‘›π‘Žπ‘› + 0.411 π‘π‘’π‘›π‘‘π‘–π‘‘π‘–π‘˜π‘Žπ‘› π‘π‘’π‘šπ‘œβ„Žπ‘œπ‘›(1)

+ 2.761 π‘π‘’π‘›π‘‘π‘–π‘‘π‘–π‘˜π‘Žπ‘› π‘π‘’π‘šπ‘œβ„Žπ‘œπ‘›π‘Žπ‘›(2)

dimana:

𝑃𝑖 = 𝑃(π‘Œ = 1)

𝑔(π‘₯) = π‘™π‘œπ‘”π‘–π‘‘ (𝑃) = log(𝑃

1 βˆ’ 𝑃)

sehingga

πœ‹(π‘₯) =𝑒𝛽0+𝛽1π‘₯1+β‹―+𝛽𝑝π‘₯𝑝

1 + 𝑒𝛽0+𝛽1π‘₯1+β‹―+𝛽𝑝π‘₯𝑝

Page 12: REGRESI LOGISTIK BINER DAN APLIKASINYA

12

Tabel 4. Estimasi Parameter

B S.E. Wald df Sig. Exp(B)

95% C.I.for

EXP(B)

Lower Upper

Step 1a Uang Muka(1) 2.739 1.336 4.202 1 .040 15.474 1.128 212.375

Jangka Waktu

Pembayaran

-.141 .065 4.613 1 .032 .869 .764 .988

Umur Pemohon -.100 .119 .712 1 .399 .905 .717 1.142

Pendidikan Pemohon 5.419 2 .067

Pendidikan

Pemohon(1)

.411 1.189 .119 1 .730 1.508 .147 15.523

Pendidikan

Pemohon(2)

2.761 1.267 4.748 1 .029 15.818 1.320 189.572

Constant 3.233 4.287 .569 1 .451 25.345

Kolom Sig menginformasikan signifikan pengaruh variabel Independen terhadap Variabel

Dependen. Terjadi pengaruh yang signifikan jika nilai sig < 0,05. Tampak variabel yang

berpengaruh terhadap Macet/Tidak dari Kridit seorang Pemohon diantaranya dp (sig 0,040),

Jangka_waktu (sig 0,032), dan pendidikan(2)/ ≀ SMP (sig 0,029). Untuk Pendidikan (1)

merupakan kategori pendidiikan β€œSMA” dibanding dengan yang pendidikan β€œPerguruan

Tinggi” (Reference Category) tidak signifikan berbeda resiko macetnya, namun dengan

pendidikan(2) yang merupakan kategori pendidikan β€œβ‰€ SMP” ada perbedaan signifikan resiko

macetnya dengan yang pendidikan β€œPerguruan Tinggi”.

Interpretasi model regresi dari Tabel 4 adalah:

β€’ Nilai Exp(B) pada variabel dp 15,474 yang artinya nilai dp ≀ 1,5 juta cenderung

lebih beresiko mengalami macet jika dibandingkan dengan yang dp > 1,5 juta

(reference Category-nya) sebesar 15,474 kali.

β€’ Nilai Exp(B) pada variabel Jangka waktu 0,869 yang artinya semakin lama

Jangka_waktu pembayaran akan semakin kecil resiko untuk mengalami macet.

β€’ Nilai Exp(B) pada variabel β€œpendidikan(2)” 15,818 yang artinya pemohon yang

pendidikannya β€œβ‰€ SMP” lebih beresiko 15,818 mengalami macet jika

dibandingkan dengan yang pendidikannya β€œPerguruan Tinggi”.

Page 13: REGRESI LOGISTIK BINER DAN APLIKASINYA

13

a. Uji Serentak Parameter Regresi Logistik

Adapun hipotesis untuk pengujian signifikansi parameter regresi secara serentak yaitu:

Ho : Ξ²1 = Ξ²2 = … = Ξ²5 = 0

Ha : Minimal ada satu Ξ²j β‰  0; j = 1, 2, …, 5

Statistik uji yang digunakan yaitu uji πœ’2. Ho ditolak bila p-value < Ξ±, untuk Ξ± = 0.05.

Dari Tabel 5, πœ’2=113.789 dan p-value = 0.000, sehingga dapat disimpulkan untuk

menolak Ho. Jadi minimal ada satu parameter regresi logistik tidak sama dengan nol.

Tabel 5. Uji Omnibus Koefisien Model

Chi-square df Sig.

Step 1 Step 19.368 5 .002

Block 19.368 5 .002

Model 19.368 5 .002

b. Uji Parsial Parameter Regresi Logistik

Adapun hipotesis untuk pengujian signifikansi parameter regresi secara parsial yaitu:

Ho : Ξ²j = 0

Ha : Ξ²j β‰  0; j = 1, 2, …, 5

Statistik uji yang digunakan yaitu uji chi-square, Ho ditolak apabila Ο‡2hitung > Ο‡2

Tabel(Ξ±/2)

atau jika p-value < Ξ±, untuk Ξ± = 0.05. Estimasi parameter yang diperoleh dari output

SPSS dapat dilihat pada Tabel 4. Dari 6 parameter yang ada, diketahui bahwa pada Ξ± =

0.05, hanya 3 parameter yang signifikan jangka uang muka (dp), waktu pembayaran,

dan Pendidikan (2) β€œβ‰€ SMP”.

C. Uji Kesesuaian Model

Tahap selanjutnya yaitu menguji kesesuaian model (goodness of fit). Adapun hipotesis

dari uji kesesuaian model yaitu:

Ho : model yang dihipotesakan sesuai dengan data

Ha : model yang dihipotesakan tidak sesuai dengan data

Tabel 6 menunjukkan pengujian kesesuaian model regresi logistik biner. Untuk

pengujian ditampilkan uji Hosmer-Lemeshow. Dimana p-value = 0.404, lebih besar

bila dibandingkan dengan Ξ± (Ξ± = 0.05), sehingga dapat disimpulkan bahwa model

yang dihipotesakan sesuai dengan data.

Page 14: REGRESI LOGISTIK BINER DAN APLIKASINYA

14

Tabel 6. Uji Hosmer dan Lemeshow

Step Chi-square df Sig.

1 7.243 7 .404

D. Ekspektasi dan Pengukuran Asosiasi

Pada Tabel 7 dapat dilihat frekuensi amatan dan harapan dari data, sedangkan

pada Tabel 8, dapat dilihat sejauh mana keragaman variabel respon Y dapat dijelaskan

oleh variabel prediktor Xi dengan melihat Nagelkerke R-square. Pada kasus ini

diperoleh nilainya sebesar 57.1% yang berarti bahwa sebesar 57.1% keragaman

variabel respon Kredit macet dapat dijelaskan oleh variabel prediktor.

Tabel 7. Tabel Kontingensi Uji Hosmer dan Lemeshow

Status Kridit = Tdk Macet Status Kridit = Macet

Total Observed Expected Observed Expected

Step 1

1 4 3.953 0 .047 4

2 4 3.717 0 .283 4

3 2 3.436 2 .564 4

4 3 3.009 1 .991 4

5 4 2.629 0 1.371 4

6 2 1.822 2 2.178 4

7 1 .961 3 3.039 4

8 0 .406 5 4.594 5

9 0 .067 2 1.933 2

Tabel 8. Ringkasan Model

Step -2 Log likelihood Cox & Snell R

Square

Nagelkerke R

Square

1 28.435a .425 .571

a. Estimation terminated at iteration number 6 because

parameter estimates changed by less than .001.

Page 15: REGRESI LOGISTIK BINER DAN APLIKASINYA

15

E. Sensitivitas atau Spesifisitas

Tabel 9 menunjukkan bahwa model regresi logistik yang terbentuk bisa

membuat klasifikasi dalam penaksiran nilai Y yaitu sebesar 82.9%. Artinya dengan

model persamaan regresi logistik ini bisa memprediksi seseorang Kreditnya macet

dimana pada kenyataannya dia memang kreditnya macet, atau memprediksi seseorang

tidak macet kreditnya dimana pada kenyataannnya dia memang tidak macet kreditnya

adalah sebesar 82.9%.

Tabel 9. Tabel Klasifikasi

Observed

Predicted

Status Kridit Percentage

Correct

Tdk Macet Macet

Step 1 Status Kridit Tdk Macet 18 2 90.0

Macet 4 11 73.3

Overall Percentage 82.9

a. The cut value is .500

KESIMPULAN

Kesimpulan dari tulisan ini adalah regresi logistik biner digunakan untuk data yang

variabel responnya merupakan data yang terdiri dari dua kategori, dengan satu variabel

prediktor atau lebih, baik yang bersifat kategorik maupun kontinu. Dari contoh kasus kredit di

atas, dapat diambil kesimpulan bahwa status status kreditnya dapat dihubungkan dengan

variabel prediktornya sebagai berikut.

π‘™π‘™π‘œπ‘”π‘–π‘‘ (𝑃𝑖) = 3.233 + 2.739 π‘ˆπ‘Žπ‘›π‘” π‘€π‘’π‘˜π‘Ž(1) βˆ’ 0.141 π½π‘Žπ‘›π‘”π‘˜π‘Ž π‘Šπ‘Žπ‘˜π‘‘π‘’ π‘ƒπ‘’π‘šπ‘π‘Žπ‘¦π‘Žπ‘Ÿπ‘Žπ‘›

βˆ’ 0.1 π‘’π‘šπ‘’π‘Ÿ π‘π‘’π‘šπ‘œβ„Žπ‘œπ‘›π‘Žπ‘› + 0.411 π‘π‘’π‘›π‘‘π‘–π‘‘π‘–π‘˜π‘Žπ‘› π‘π‘’π‘šπ‘œβ„Žπ‘œπ‘›(1)

+ 2.761 π‘π‘’π‘›π‘‘π‘–π‘‘π‘–π‘˜π‘Žπ‘› π‘π‘’π‘šπ‘œβ„Žπ‘œπ‘›π‘Žπ‘›(2)

Sehingga model regresi logistiknya didapat sebagai berikut.

πœ‹(π‘₯) =π‘’βˆ’4.264+0.158𝑠𝑒π‘₯(1)+1.997π‘šπ‘’π‘Ÿπ‘œπ‘˜π‘œπ‘˜(1)+0.915π‘™π‘Žπ‘›π‘ π‘–π‘Ž(1)+3.230β„Žπ‘¦π‘π‘’π‘Ÿπ‘β„Žπ‘œπ‘™π‘’π‘ π‘‘π‘’π‘Ÿπ‘œπ‘™(1)+1.294π‘œπ‘π‘’π‘ π‘–π‘‘π‘Žπ‘ (1)

1 + 𝑒(1)

DAFTAR PUSTAKA

Casella, G. and Berger, R.L. (2002), Statistik Inference, Duxbury Thomson Learning, USA.

Page 16: REGRESI LOGISTIK BINER DAN APLIKASINYA

16

Hosmer, D.W. dan Lemeshow, S. (1989), Applied Logistic Regression, John Wiley & Sons,

Inc., New York.