Post on 24-Jan-2023
ISSN 1411-6669 Volume 12, Juni 2012
MAJALAH ILMIAH
Matematika dan Statistika
DITERBITKAN OLEH: JURUSAN MATEMATIKA
FMIPA – UNIVERSITAS JEMBER
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
1
MODEL UNTUK DATA BERDISTRIBUSI POISSON YANG MENGANDUNG VARIABEL BEBAS KUALITATIF
Septi Triyani, I Made Tirta, Yuliani Setia Dewi
Jurusan Matematika FMIPA Universitas Jember
Abstact: The main purpose of this research is to build model of data that distribution of respon variable is Poisson and dependent variable has qualitative variable, beside that, to know estimation of parameters and testing of hipotesis. This research uses Generalized Linear Model. At its analysis, qualitative variable is considered according to probability regression function of categories with dummy variable. Formula that can be used is Y~G*X to know if the categories need apart or not. Then to know explicitly how influence intercept and slope of each categories can be used Y~G/X-1 formula. From both of analysis, then doing selection which the best model. Selection of the best model also can be look at from AIC(Akaike’s Information Criteria). The better model has AIC smallest. .
Keywords:Generalized Linear Model, Dummy variable, Poisson, Qualitative variable.
I. PENDAHULUAN
Salah satu metode statistika yang telah bertahun-tahun digunakan dalam analisis
statistika adalah analisis regresi. Analisis regresi adalah sebuah metode statistika untuk
membuat model peramalan dan menyelidiki bentuk hubungan dari satu variabel respon
dengan satu atau lebih variabel-variabel penjelas. Apabila dalam model terdapat variabel
kualitatif yang ikut juga mempengaruhi variabel respon, maka dapat digunakan variabel
boneka [5].
Salah satu model regresi yang banyak digunakan oleh pengguna statistika adalah
Model Regresi Linier atau Model Linier Klasik. Teknik ini berdasarkan pada asumsi
bahwa respon berdistribusi Normal serta adanya hubungan linier antara mean dan variabel
penjelas. Pada kehidupan nyata distribusi respon tidak selalu Normal. Untuk itu, perlu
dilakukan remidi agar kondisi data sesuai dengan prasyarat penggunaan model linier
klasik atau dengan memilih metode yang paling tepat.
Seiring dengan perkembangan Model Linier Klasik, untuk menangani kondisi data
dengan respon yang ada tidak berdistribusi Normal tetapi antara respon yang satu dengan
yang lain masih saling bebas dapat digunakan Model Linier Tergeneralisir. Misalnya
untuk data dengan variabel responnya berdistribusi Poisson yang sebarannya bersifat
Model Untuk Data Berdistribusi Poisson …(1 – 13)
2
diskrit. Penerapan data seperti ini salah satu contohnya dapat ditemukan di bidang
ekonomi, yaitu terkait dengan faktor-faktor sosial ekonomi yang mempengaruhi fertilitas.
II. HASIL DAN PEMBAHASAN
2.1 Tinjauan Pustaka
Model Linier
Misalkan hubungan antara variabel respon iY dan variabel penjelas iX dirumuskan
sebagai model linier, yaitu sebagai berikut [4]:
iippiii eXXXY +++++= ββββ ...22110
dengan:
iY = variabel respon (variabel tak bebas) pada pengamatan ke-i, i=1,2,…,n;
iX = variabel penjelas (variabel bebas) pada pengamatan ke-i;
jβ = koefisien regresi yang tidak diketahui, j= 1, 2, …, p;
ie = variabel kesalahan (error/galat) pada pengamatan ke-i;
p = banyaknya variabel bebas.
Asumsi model linier klasik adalah ),0(~ 2σNei dan ei independen dengan ei'
untuk setiap 'ii ≠ . Asumsi ini diuraikan lebih lanjut sebagai berikut [9]: 1. iY berdistribusi normal dan saling bebas dengan variansi konstan, yaitu,
),(~ 2σβTii XNIDY dengan T
iX adalah variabel penjelas untuk iY dan sama dengan
baris ke-i dari matrik X .
2. ada suatu fungsi (misalkan η ) dari variabel penjelas yang disebut prediktor linier dari
variabel respon iY yaitu βη Tii X= .
3. ada hubungan antara prediktor linier ( iη ) dan komponen acak ( iµ ) dengan iη =
iµ (yaitu hubungan identitas).
Model Linier dengan Variabel Bebas Kualitatif
Prinsip dasar pemakaian variabel boneka adalah sebagai berikut [8]:
a. bila variabel kualitatif mempunyai k kategori maka bisa dibuat variabel boneka
sebanyak k-1 (banyaknya kategori dikurangi satu);
b. pemberian nilai 0 dan 1 pada kategori yang ada bersifat bebas, disesuaikan dengan
tujuan.
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
3
Berdasarkan prinsip di atas, maka model linier untuk data yang mengandung dua
kategori adalah sebagai berikut:
iiii eDXY +++= 22110 βββ ; dengan 1
01
2 lainnyakategori
jikajika
D
=
Jika diasumsikan bahwa ( ) 0=ieE , maka nilai harapan ( ) 22110 iii DXYE βββ ++= .
Untuk memahami arti dari parameter dalam model tersebut, pertama dipertimbangkan
untuk kasus kategori 1 dengan 2D =1,
sehingga ( ) ( )12110 βββ ++= ii XYE = 1120 )( iXβββ ++
Sedangkan untuk kategori 2 dapat dibentuk 2D = 0, sehingga nilai harapannya:
( ) ( )02110 βββ ++= ii XYE = 110 iXββ +
Secara geometris, kedua sifat di atas dapat ditunjukkan pada Gambar 2.1 berikut ini.
1β
)( 20 ββ + 1β
0β
Gambar 2.1. Ilustrasi arti parameter regresi untuk model
Pengujian hipotesis sama dengan prosedur pengujian analisis regresi linier sederhana
(model linier klasik), yaitu 0: 20 =βH vs 0: 21 ≠βH .
Dalam model iiii eDXY +++= 22110 βββ dianggap bahwa variabel boneka 2D tidak berinteraksi dengan variabel lainnya. Ini berarti bahwa pengaruh variabel lain sama
saja baik terhadap kategori 1 maupun untuk kategori 2. Jika dimisalkan variabel Y
dipengaruhi oleh variabel kuantitatif 1X baik untuk kategori 1 maupun kategori 2 maka
keadaannya menjadi lain, dalam hal ini peubah 2D berinteraksi dengan 1X maka model
tersebut menjadi:
iiiiii eDXDXY ++++= 21322110 ββββ
dengan 21322110)( iiiii DXDXYE ββββ +++= .
Kategori 1 Y
Kategori 2
1X
Model Untuk Data Berdistribusi Poisson …(1 – 13)
4
Jika diasumsikan ( ) 0=ieE , maka dipunyai nilai harapan variabel iY untuk kategori 1
dengan 2D = 0 dan didapatkan:
( ) ( ) ( )00 132110 iii XXYE ββββ +++= = 110 iXββ + .
Sedangkan untuk kategori 2, 2D = 1, didapatkan:
( ) ( ) ( )11 132110 iii XXYE ββββ +++= = ( ) ( ) 13120 iXββββ +++ Misalkan ingin dilakukan uji apakah penambahan faktor interaksi berpengaruh terhadap
model regresi maka pengujian hipotesis adalah sebagai berikut.
0: 3210 === βββH ; :1H minimal ada satu 0≠jβ , 3,2,1=j .
Berdasarkan berbagai kemungkinan intersep dan kemiringan garis regresi untuk kategori,
hasil dari uji hipotesis ini memiliki beberapa kemungkinan sebagai berikut:
(i) apabila nilai 2β = 0 dan 3β = 0 maka didapatkan ( ) 110 ii XYE ββ +=
(ii) apabila nilai 2β ≠ 0 dan 3β = 0 maka didapatkan ( ) 1120 )( ii XYE βββ ++=
(iii) apabila nilai 2β = 0 dan 3β ≠ 0 maka didapatkan ( ) 1310 )( ii XYE βββ ++=
(iv) apabila nilai 2β ≠ 0 dan 3β ≠ 0, didapatkan ( ) 13120 )()( ii XYE ββββ +++=
Secara geometris, ilustrasi dari keempat kemungkinan tersebut ditunjukkan pada
Gambar 2.2.
Gambar 2.2 Ilustrasi arti dari koefisien regresi untuk berbagai jenis model
(i) (ii)
(iii) (iv)
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
5
Model Linier Tergeneralisir
Dalam model linier tergeneralisir asumsi model lebih longgar dan digeneralisasikan
sebagai berikut.
(i) Asumsi (1) diperluas untuk memungkinkan iY mempunyai distribusi yang sama dan
saling bebas dari distribusi keluarga eksponensial.
(ii) Pada asumsi (3) hubungan antara komponen prediktor linier (η ) dan komponen acak
(µ ) tidak mesti identitas, tetapi diperluas untuk suatu fungsi monoton dan
diferensiabel, g, yaitu ( )ii g µη = . Fungsi g disebut fungsi link.
Metode yang digunakan dalam mengestimasi parameter adalah metode likelihood
maksimum dan kuadrat terkecil. Pada pembahasan ini hanya akan dijelaskan mengenai
metode likelihood maksimum. Pembahasan ini dijelaskan dalam [3] yang ringkasannya
sebagai berikut.
Fungsi likelihood untuk observasi nyyy ,...,, 21 adalah
∏=
=N
iii yfyL
1
),(),( θθ
∑∑ ∑== =
++=N
ii
N
i
N
iiii ydcbyyl
11 1)()()(),( θθθ
Selanjutnya bentuk umum dari persamaan penduga dengan menggunakan iterasi Newton-
Raphson adalah:
( ) ( ) ( ) ( )μYμηWXWXXbb −
∂∂
=−− T1T1mm
Likelihood Maksimum Untuk Model Loglinier
Model Linier Tergeneralisasi untuk model loglinier digunakan untuk respon yang
peubah acaknya yaitu{ }niYi ,...,2,1, = berdistribusi Poisson. Fungsi loglikelihood untuk
distribusi Poisson dapat diringkas sebagai berikut:
( ) ( )∑=
−−=N
iyyyl
1!loglog; θθθ
Parameter naturalnya adalah ( )θb = logμ .
Sedangkan meannya adalah ( ) θµ == iiYE dan ( ) θ=iYVar , sehingga
( ) ( ) iii YVarYE µ== .
Model Untuk Data Berdistribusi Poisson …(1 – 13)
6
Dengan menggunakan iterasi Newton Raphson, bentuk umum dari penduga likelihood
maksimum adalah:
( ) ( ) ( )μYμηWXWX)(Xbb - −
∂∂
= diagm T1T1-m
( ) ( ) ( )μYμ
WXWX)(Xbb - −
=
1T1T diagm 1-m
dengan diag
μ1 adalah matrik diagonal dengan elemen diagonal ke-i adalah iµ dengan
ni ,...,1= .
Inferensi
Secara umum untuk Model Linier Tergeneralisir, distribusi sampling diperoleh
berdasarkan pendekatan sampel besar secara asimtotis sebagai berikut:
a. jb merupakan estimator tak bias untuk jβ
b. dengan menggunakan teorema limit pusat, statistik ( )j
jj
bVar
b β−berdistribusi N(0,1) atau
( ) ( )21
2
~)(
χβ
j
jj
bVar
b −
Hipotesis: :0H
==
qβ
β
1
0ββ = 0 vs =1H ≠
==
qβ
β
1
0ββ 0; dengan q < p
Daerah kritis: 0H ditolak jika ( )2
;αχ qpD −>∆ ; ( ) ( )[ ]yblyblD ;;2 01 −=∆ (Ratih, 2000).
Analisis Model dengan Variabel Kualitatif di R
Ada beberapa cara (yang biasa disebut formula) untuk memasukkan variabel
kualitatif (misalnya grup) pada R seperti diuraikan berikut ini.
1. Y ~ GX ∗ . Dengan formula ini mencoba model paling lengkap yaitu memeriksa
kemungkinan bahwa setiap kelompok memiliki model yang berbeda. Secara
geometris, hal ini sebagaimana ditunjukkan pada Gambar 2.2 (iv).
2. GXY +~ . Formula ini adalah untuk memeriksa model regresi sejajar yang memiliki
gradien yang sama tetapi kemungkinan konstanta berbeda. Secara geometris, dengan
formula ini akan dihasilkan garis regresi sebagaimana pada Gambar 2.2 (ii).
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
7
3. XGY /~ . Formula ini adalah untuk memeriksa signifikansi model masing-masing
kelompok dengan memaksa model dengan gradien berbeda. Secara geometris, dengan
formula ini akan dihasilkan garis regresi sebagaimana pada Gambar 2.2 (iii dan iv) [9].
Fungsi Link dengan Aplikasi Program R
Secara umum fungsi link memenuhi ( ) ηµ =g atau ( )ηµ 1−= g . Diantara fungsi-
fungsi link yang dapat digunakan, ada yang disebut fungsi link kanonik (K) yaitu fungsi
hubungan yang terjadi pada saat ( ) ηθ =b . Fungsi link kanonik ini merupakan fungsi link
yang dianggap paling alamiah diantara pilihan yang lainnya. Untuk distribusi Poisson,
fungsi link yang dapat digunakan adalah Identitas, Log dan Invers. Fungsi link kanonik
untuk distribusi Poisson adalah Log. [10].
Uji Model Melalui Hasil Pada R
Uji model dilakukan dengan dua cara yaitu:
1. Uji koefisien regresi secara individual dilakukan dengan melihat signifikansi masing-
masing koefisien.
Teorema: 0H ditolak pada signifikansi α × 100 %, jika dan hanya jika p α≤ .
2. Sebagaimana dijelaskan pada Chambers & Hastie (1990) bahwa dalam fungsi GLM
dapat ditentukan model terbaik dengan melihat nilai AIC (Akaike’s Information
Criteria). Model terbaik adalah model yang mempunyai nilai AIC yang terendah yaitu
AIC = D + 2 pφ . Dalam hal ini D adalah devian, p adalah derajat bebas untuk
kecocokan dan φ adalah penduga parameter dispersi
2.2 Pembahasan
Ilustrasi Data Simulasi
Dalam penelitian ini data simulasi dibangkitkan dengan menggunakan paket
pemrograman R. Data simulasi digunakan untuk menguji teori-teori yang ada dalam
penelitian ini. Apabila dari hasil simulasi asumsi yang diberikan terpenuhi maka teori
tersebut dapat diterapkan pada data riil. Hal ini sesuai dengan tujuan simulasi yaitu
mengatur kondisi data sesuai dengan tujuan yang ingin dicapai.
Membangkitkan Data yang Variabel Responnya Berdistribusi Poisson
Pada simulasi ini, nilai β yang sudah ditentukan atau dianggap diketahui yaitu
25,11=β . Dari hasil analisis data yang telah dibangkitkan, diperoleh =β̂ [1,000150
Model Untuk Data Berdistribusi Poisson …(1 – 13)
8
1,499995 1,999987]. Nilai ini sesuai (relatif sama) dengan nilai β yang sudah
ditentukan atau dianggap diketahui. Sehingga dari sini simulasi data yang ada mendukung
kesesuaian teori yang ada.
Membangkitkan Data yang Mengandung Variabel Bebas Kualitatif
Dalam simulasi ini, dibangkitkan tiga jenis data yaitu data dengan intersep dan
kemiringan untuk masing-masing kategori sama; data dengan intersep untuk masing-
masing kategori berbeda tetapi kemiringannya sama serta data dengan intersep dan
kemiringan untuk masing-masing kategori adalah berbeda. Sedangkan untuk data dengan
intersep sama tetapi kemiringannya berbeda tidak dibangkitkan karena dalah kehidupan
nyata data dengan tipe seperti ini jarang ditemui. Uraian untuk ketiga jenis data yang
dibangkitkan adalah sebagai berikut.
A. Data Jenis 1 (Data dengan intersep dan kemiringan untuk masing-masing kategori
sama)
Pada simulasi ini, data untuk tiap-tiap kategori dibangkitkan dengan menentukan
nilai intersep dan kemiringan untuk masing-masing kategori sama, yaitu 0201 ββ = = 1 dan
1211 ββ = = 1. Untuk mengetahui pengaruh dari variabel kualitatif G terhadap hubungan
antara Y dan X dilakukan dengan menerapkan beberapa formula sebagaimana. Langkah
pertama dengan menerapkan model paling lengkap untuk memeriksa kemungkinan bahwa
setiap kategori memiliki model yang berbeda, yaitu dengan formula Y ~ GX ∗ . Melalui
formula ini dapat diketahui apakah model perlu dipisah atau tidak, sehingga akan
didapatkan gambaran perlu tindakannya memisahkan baik intersep maupun kemiringan
garis regresi dari masing-masing kategori. Dengan formula ini diperoleh hasil sebagai
berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.9953667 0.0086103 115.602 <2e-16 *** X 1.0004279 0.0006868 1456.724 <2e-16 *** G[T.2] -0.0137164 0.0182716 -0.751 0.453 X:G[T.2] 0.0015620 0.0017060 0.916 0.360 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 385.31
Dari hasil ini, dapat diketahui bahwa G[T.2] atau selisih antara intersep pada
ketegori 2 dengan intersep model secara keseluruhan adalah tidak signifikan. Begitu juga
X:G[T.2] atau selisih antara kemiringan pada ketegori 2 dengan kemiringan variabel
kuantitatif X adalah tidak signifikan. Hal ini menunjukkan bahwa tidak perlu pemisahan
model atau garis regresi dari masing-masing kategori.
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
9
Selanjutnya dengan menggunakan formula Y ~ G/X – 1 untuk mengetahui secara
eksplisit pengaruh intersep dan kemiringan dari masing-masing kategori, diperoleh hasil
sebagai berikut: Estimate Std. Error z value Pr(>|z|) G1 0.9953667 0.0086103 115.60 <2e-16 *** G2 0.9816504 0.0161156 60.91 <2e-16 *** G1:X 1.0004279 0.0006868 1456.72 <2e-16 *** G2:X 1.0019899 0.0015617 641.61 <2e-16 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 385.31 Dari hasil ini dapat diketahui bahwa intersep dan kemiringan untuk masing-masing
kategori berpengaruh sangat signifikan dalam model, tetapi dari hasil ini dapat diketahui
bahwa selisih intersep kategori 1 dan 2 tidak signifikan, begitu juga dengan selisih
kemiringan kategori 1 dan 2 tidak signifikan. Hasil ini juga menunjukkan bahwa tidak
perlu pemisahan model atau garis regresi dari masing-masing kategori.
Oleh karena itu, dari kedua hasil di atas, untuk data jenis satu ini model yang
sebaiknya diterapkan adalah model sederhana tanpa mempertimbangkan kategori yang
ada yaitu dengan formula Y ~ X dengan hasil yang diperoleh adalah sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.9969477 0.0065197 152.9 <2e-16 *** X 1.0003230 0.0005317 1881.5 <2e-16 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 383.30
Dari hasil ini ditunjukkan bahwa variabel kualitatif X berpengaruh sangat signifikan
terhadap variabel respon Y. Dalam hal ini analisis dilakukan tanpa mempertimbangkan
kategori yang ada. Untuk data jenis 1 ini dapat disimpulkan bahwa kedua kategori
memiliki kecenderungan yang persis sama sehingga garis regresi kedua kategori (laki-laki
-perempuan) dapat digabung dan pengaruh kategori (dalam hal ini jenis kelamin) dapat
diabaikan. Kesimpulan ini sesuai dengan data simulasi yang dibangkitkan yaitu kelompok
atau kategori memiliki intersep dan kemiringan yang sama.
B. Data Jenis 2 (Data dengan intersep untuk masing-masing kategori berbeda tetapi
kemiringannya sama)
Pada simulasi ini data untuk tiap-tiap kategori dibangkitkan dengan menentukan
nilai intersep kategori 1 dan 2 berbeda yaitu 01β = 0,5 dan 02β = 5, tetapi kemiringannya
sama 1211 ββ = =1. Sebagaimana penjelasan pada data jenis 1, Untuk mengetahui pengaruh
dari variabel kualitatif G terhadap hubungan antara Y dan X dilakukan dengan
menerapkan beberapa formulas. Langkah pertama dengan menerapkan model paling
Model Untuk Data Berdistribusi Poisson …(1 – 13)
10
lengkap, yaitu dengan formula Y ~ GX ∗ . Selanjutnya dengan menggunakan formula Y ~
G/X – 1 untuk mengetahui secara eksplisit pengaruh intersep dan kemiringan dari
masing-masing kategori. Berdasarkan hasil yang diperoleh dengan kedua formula ini,
dapat disimpulkan bahwa, model yang sebaiknya diterapakan untuk data jenis dua ini
adalah model dengan formula Y~X+G-1. Hasil ini menunjukkan bahwa perlu pemisahan
model atau garis regresi dari masing-masing kategori.
C. Data Jenis 3 (Data dengan intersep dan kemiringan untuk masing-masing kategori
adalah berbeda)
Pada simulasi ini data untuk tiap-tiap kategori dibangkitkan dengan menentukan
nilai intersep kategori 1 dan 2 berbeda 01β = 1dan 02β = 3, dengan kemiringan yang
berbeda pula 11β =1 dan 12β =2. Sebagaimana penjelasan pada data jenis 1, Untuk
mengetahui pengaruh dari variabel kualitatif G terhadap hubungan antara Y dan X
dilakukan dengan menerapkan beberapa formula. Langkah pertama dengan menerapkan
model paling lengkap, yaitu dengan formula Y ~ GX ∗ . Selanjutnya dengan
menggunakan formula Y ~ G/X – 1 untuk mengetahui secara eksplisit pengaruh intersep
dan kemiringan dari masing-masing kategori. Berdasarkan hasil yang diperoleh dengan
kedua formula ini, dapat disimpulkan bahwa, model yang sebaiknya diterapakan untuk
data jenis dua ini adalah model dengan formula Y~G/X - 1. Formula G/X menunjukkan
bahwa model yang ada memaksa masing-masing kategori memiliki kemiringan yang
berbeda. Hal ini sebagaimana dijelaskan pada tinjauan pustaka Adapun -1 digunakan
untuk mengetahui secara eksplisit koefisien masing-masing kategori.
Hasil analisis ini menunjukkan bahwa perlu pemisahan konstanta dari masing-
masing kategori. Kategori 1 dan 2 masing-masing berpengaruh sangat signifikan dalam
model dan selisih intersep antara kategori 1 dan 2 juga sangat signifikan. Oleh karena itu,
model atau garis regresi dari masing-masing kategori harus dipisah.
Ilustrasi Data Riil
Untuk menganalisis data riil ini, digunakan prosedur sebagaimana hasil yang
diperoleh pada eksplorasi data simulasi. Data riil yang ada dianalisis dengan fungsi GLM
melalui menu Rcmdr pada paket pemrograman R. Pada data yang ada, adanya variabel
kualitatif yang berbentuk kategori perlu dianalisis bagaimana pengaruhnya dalam model.
Sebagaimana analisis pada data simulasi, langkah pertama yaitu dengan menggunakan
formula model terlengkap yaitu Y ~ G * ( 1X + 2X ) dengan link log.
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
11
Hasil yang diperoleh adalah sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.730892 0.790646 -0.924 0.3553 G[T.SMP] -0.248323 1.374170 -0.181 0.8566 X1 0.003042 0.001539 1.976 0.0481 * X2 0.034717 0.073523 0.472 0.6368 G[T.SMP]:X1 -0.001247 0.002461 -0.507 0.6123 G[T.SMP]:X2 0.124600 0.107919 1.155 0.2483 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 118.65
Dari hasil ini ditunjukkan bahwa selisih antara intersep pada kategori SMP dengan
intersep model secara keseluruhan G[T.SMP] tidak signifikan. Begitu juga selisih antara
kategori SMP dengan variabel kuantitatif 1X dan 2X G[T.SMP]: 1X dan G[T.SMP]: 2X
tidak signifikan. Berdasarkan penjelasan sebelumnya, hasil yang diperoleh pada data riil
ini identik dengan data jenis 1 pada data simulasi. Untuk itu, model yang sebaiknya
diterapkan untuk data riil ini adalah model sederhana tanpa mempertimbangkan kategori
yang ada yaitu dengan formula Y ~ 1X + 2X dengan hasil yang diperoleh adalah sebagai
berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.393617 0.578631 -0.680 0.4963 X1 0.002100 0.001124 1.869 0.0617 . X2 0.064261 0.045857 1.401 0.1611 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 AIC: 116.23 Dari hasil yang diperoleh ini diketahui bahwa variabel lama penggunaan alat
kontrasepsi 2X tidak berpengaruh signifikan dalam model. Untuk itu, eksplorasi
selanjutnya dengan menggunakan formula model yang sama tetapi tanpa melibatkan
variabel lama penggunaan alat kontrasepsi 2X yaitu dengan formula Y ~ 1X yaitu
hasilnya sebagai berikut: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.6082688 0.5673027 -1.072 0.28362 X1 0.0028976 0.0009731 2.978 0.00290 ** AIC: 116.20
Hasil yang diperoleh ini merupakan model terbaik untuk data riil yang ada. Dilihat
dari nilai AIC nya, model ini memiliki nilai AIC yang terkecil. Hal ini sebagaimana
penjelasan sebelumnya bahwa model yang lebih baik pada analisis Model Linier
Tergeneralisir adalah model dengan nilai AIC yang lebih kecil. Berdasarkan hasil di atas,
intersep model tidak signifikan sedangkan variabel pendapatan keluarga berpengaruh
signifikan, sehingga dari hasil analisis ini,diperoleh nilai dugaan untuk β adalah:
Model Untuk Data Berdistribusi Poisson …(1 – 13)
12
=
1
0ˆββ
β
−=
0028976,06082688,0
Berdasarkan hasil di atas, persamaan model untuk data riil yaitu 10028976,0 XY =
Pada hasil analisis data riil di atas, ditunjukkan bahwa kategori SD dan SMP tidak
perlu dipisah dalam model. Selain itu, untuk data yang digunakan pada penelitian ini,
variabel kualitatif tingkat pendidikan dan variabel lama penggunaan alat kontrasepsi tidak
berpengaruh signifikan dalam model. Dari hasil yang diperoleh ini dapat diketahui pula
bahwa tingkat pendapatan keluarga ( 1X ) berpengaruh signifikan dan positif terhadap
fertilitas. Hal ini menunjukkan bahwa semakin tinggi pendapatan keluarga fertilitas
cenderung naik pula
III. KESIMPULAN
Dari hasil dan pembahasan dapat diambil kesimpulan bahwa untuk membangun
model yang variabel responnya berdistribusi Poisson dan variabel bebasnya mengandung
variabel kualitatif dapat dilakukan analisis dengan formula Y~G*X melalui fungsi GLM
pada paket pemrograman R. Dengan formula ini dapat diketahui apakah kategori pada
variabel kualitatif perlu dipisah atau tidak. Selanjutnya untuk mengetahui secara eksplisit
pengaruh intersep dan kemiringan dari masing-masing kategori pada variabel kualitatif
dapat digunakan formula Y~G/X-1. Dari hasil analisis kedua formula tersebut kemudian
ditentukan model terbaik untuk data yang ada. Penentuan model terbaik juga dapat dilihat
dari nilai AIC yang terkecil dengan mengaitkan model terbaik dari hasil analisis pengaruh
kategori dalam model.
DAFTAR PUSTAKA
[1] Agresti. A. 1990. Categorical Data Analysis. AWiley - Interscience Publication. [2] Chambers, J.M. & Hastie T.J. 1990. Statistical Models in S. New York: Chapman &
Hall. [3] Dobson, A.J. 1990. Introduction To Statistical Modelling. London, Chapman & Hall.
1st Edition. [4] Draper N & Smith H. 1992. Analisis Regresi Terapan (Terjemahan) Edisi Ke-2.
Jakarta: Gramedia Pustaka Utama.
Majalah Ilmiah Matematika dan Statistika Volume 12, Juni 2012
13
[5] Gaspersz V.1991. Ekonometrika Terapan I. Bandung: Tarsito Bandung. [6] Kuswardani, M. 2007. Pengaruh Pendapatan Keluarga, Lama Pendidikan Istri Dan
Lama Penggunaan Alat Kontrasepsi Keluarga Berencana Terhadap Fertilitas Keluarga Pengrajin Pot Kelurahan Kebonagung Kecamatan Kaliwates Kabupaten Jember. Skripsi. Jurusan Ilmu Ekonomi Fakultas Ekonomi Universitas Jember.
[7] Montgomery, D.C. & Peck. E.A. (1992), Introduction To Linear Regression Analysis,
John Wiley & Sons.NIC. 2nd Edition. [8] Netter J, W. Wasserman & M.H. Kutner. 1985. Applied Linear Statistical Models
Illinois:Irwin 2 nd edition. [9] Tirta, I.M. 2005. Generalized Linear Models. Diktat perkuliahan Laboratorium
Statistika, Jurusan Matematika, FMIPA, Universitas Jember. [10] Tirta, I.M. 2008. Metode Statistika dengan Aplikasi R. Laboratorium Statistika
Jurusan Matematika, FMIPA, Universitas Jember