Metode Inferensi pada Tabel Kontingensi

34
METODE INFERENSI PADA TABEL KONTINGENSI Metode inferensi memainkan peranan penting dalam analisis data kategorik yang tidak memiliki bentuk tabel kontingensi. Metode ini memerlukan asumsi sampling berdistribusi Poisson, Multinomial, atau Binomial. 3.1. Selang Kepercayaan Pada Parameter bersama Tingkat akurasi penduga dari parameter bersama ditentukan oleh standar error dari distribusi sampling. Pada bagian ini, ditampilkan standar error dan selang kepercayaan untuk jumlah sampel yang besar. 3.1.1. Selang Pendugaan Pada Odds Rasio Odds rasio dari sampel untuk tabel kontigensi berukuran 2 x 2 bernilai 0 atau ∞ jika terdapat , dan tidak terdefinisikan jika terdapat isian pada baris dan kolom yang keduanya bernilai nol. Karena tabel tersebut memiliki keluaran dengan nilai peluang yang positif, nilai harapan dan varians dari dan log tidak tersedia. (Dapat diperiksa bahwa hal ini juga berlaku pada metode Maximum Likelihood Estimator dari parameter model yang diuraikan pada bagian teraChir bab ini.) Dalam hal bias dan mean-squre error, Gart dan Zweifel (1967) dan Hadane (1956) menjelaskan bahwa penduga yang diperbaiki adalah sbb. Dan log akan berlaku dengan baik (sebagaimana pada soal 14.4) Penduga dan memiliki distribusi normal yang asimptotik di sekitar θ. Kecuali jika n cukup besar, bagaimanapun juga, distribusinya akan cenderung untuk menceng. Untuk kasus dimana θ=1 misalnya, karena ≥ 0 maka nilai tidak bisa melebihi θ, namun

Transcript of Metode Inferensi pada Tabel Kontingensi

Page 1: Metode Inferensi pada Tabel Kontingensi

METODE INFERENSI PADA TABEL KONTINGENSI

Metode inferensi memainkan peranan penting dalam analisis data kategorik yang tidak

memiliki bentuk tabel kontingensi. Metode ini memerlukan asumsi sampling berdistribusi Poisson,

Multinomial, atau Binomial.

3.1. Selang Kepercayaan Pada Parameter bersama

Tingkat akurasi penduga dari parameter bersama ditentukan oleh standar error dari

distribusi sampling. Pada bagian ini, ditampilkan standar error dan selang kepercayaan untuk jumlah

sampel yang besar.

3.1.1. Selang Pendugaan Pada Odds Rasio

Odds rasio dari sampel untuk tabel kontigensi berukuran 2 x 2 bernilai 0

atau ∞ jika terdapat , dan tidak terdefinisikan jika terdapat isian pada baris dan kolom yang

keduanya bernilai nol. Karena tabel tersebut memiliki keluaran dengan nilai peluang yang positif,

nilai harapan dan varians dari dan log tidak tersedia. (Dapat diperiksa bahwa hal ini juga berlaku

pada metode Maximum Likelihood Estimator dari parameter model yang diuraikan pada bagian

teraChir bab ini.) Dalam hal bias dan mean-squre error, Gart dan Zweifel (1967) dan Hadane (1956)

menjelaskan bahwa penduga yang diperbaiki adalah sbb.

Dan log akan berlaku dengan baik (sebagaimana pada soal 14.4)

Penduga dan memiliki distribusi normal yang asimptotik di sekitar θ. Kecuali jika n

cukup besar, bagaimanapun juga, distribusinya akan cenderung untuk menceng. Untuk kasus dimana

θ=1 misalnya, karena ≥ 0 maka nilai tidak bisa melebihi θ, namun dapat bernilai lebih besar

pada peluang yang tidak memenuhi syarat. Transformasi dengan log, lebih memiliki struktur

penjumlahan dibandingkan dengan perkalian, dan konvergen lebih cepat kepada distribusi normal.

Standar error dugaan untuk log adalah

Yang diturunkan dari formula 3.1.7.

Page 2: Metode Inferensi pada Tabel Kontingensi

Normalitas untuk sampel besar dari log akan memenuhi

Merupakan selang kepercayaan Wald untuk log θ. Mengubah kedalam bentuk eksponensial

(antilog) dari titik akhir memerlukan selang kepercayaan untuk θ. Selang ini disarankan oleh Woolf

(1995) dan biasanya cukup berhasil , terlepas dari sifatnya yang konservatif (sebagai contoh:

cakupan peluang sebenarnya lebih tinggi daripada nilai secara nominal.)

Ketika = 0 atau ∞, selang Woolf tidak tersedia. Ketika = 0, kita perlu mengambil nilai 0

sebagai batas bawah, dan ketika = ∞, nilai ∞ digunakan sebagai batas atas. Untuk batasan lainnya

dapat digunakan formula Woolf dengan sed ikit penyesuaian, seperti dilakukan oleh Gart (1966),

dengan mengganti {nij} menjadi {nij + 0.5} pada penduga dan standar error. Sebuah pendekatan yang

lebih sementara membentuk selang dengan mengubah nilai uji (Cornfield 1956) atau uji rasio

Likelihood untuk θ (sebagaimana dibahas pada 3.1.8).

3.1.2. Contoh Pada Aspirin dan Myocardial Infarction

Myocardial InfarctionTotal

Yes No

Placebo 28 656 684

Aspirin 18 658 676

Dengan odds rasio mendekati , maka selang kepercayaan untuk log adalah

atau (-0,157; 1,047). Interval penghubung untuk adalah [exp(-

0,157),exp(1,047) atau (0,85;2,85). Estimasi sebenarnya untuk odds ratio cukup tidak tepat.

Ketika selang kepeercayaan mengandung nilai 1,0 maka masuk akal bahwa odds sebenarnya untuk

kematian myocardial infarction sama untuk aspirin dan placebo. Jika sebenarnya terdapat manfaat

efek aspirin namun odds ratio tidak akan terlalu besar, mungkin akan ditunjukkan manfaat sebab

hubungan untuk kasus myocardial infarction dalam jumlah kecil.

3.1.3. Pendugaan Selang Pada Selisish Proporsi

Selisih proporsi dan resiko relatif membandingkan distribusi bersyarat dari sebuah variabel

respon untuk dua kelompok. Untuk pengukuran ini, kita memperlakukan sampel sebagai binomial

independen. Pada kelompok ke-i, yi memiliki distribusi binomial dengan jumlah sampel ni dan

peluang sukses respon sebesar .

Page 3: Metode Inferensi pada Tabel Kontingensi

Proporsi sampel memiliki nilai harapan dan varians . Karena

dan independen, maka keduanya memiliki selisih sebesar

Dan standar error

Penduga menggunakan formula (3.3) dengan digantikan oleh , maka

Merupakan selang kepercayaan wald untuk . Sebagaimana selang Wald (1.13) untuk

proporsi tunggal, yang biasanya memiliki peluang cakupan sebenarnya kurang dari nilai koefisien

kepercayaan, terutama ketika dan mendekati 0 atau 1.

3.1.4. Selang Pendugaan pada Resiko Relatif

Resiko relatif sampel adalah yang sebagaimana halnya odds rasio, kovergen dengan

sangat cepat ke bentuk normal pada skala logaritma. Standart error asimptotik untuk log r adalah

Selang wald mengeksponensialkan yang akan memberikan hasil yang baik

namun dapat menjadi konservatif.

3.1.5. Penurunan Standar Error dengan Metode Delta*

Terdapat sebuah metode yang mudah dan sangat berguna untuk menurunkan standar error

dari inferensi dengan jumlah sampel besar. Jika Tn merupakan statistik yang berdistribusi normal

asimptotik disekitar parameter θ, nilai n menunjukkan ketergantungannya terhadap jumlah sampel.

Misalkan terdapat sebuah penduga yang merupakan fungsi g(Tn) dari Tn. Maka dalam kondisi yang

halus g(Tn) itu sendiri memiliki sebuah distribusi normal dengan jumlah sampel besar. Nilai standar

error bergantung kepada seberapa cepat g(t) berubah pada t yang mendekati θ.

Page 4: Metode Inferensi pada Tabel Kontingensi

Lebih khusus untuk n yang besar, dimisalkan bahwa Tn berdistribusi normal disekitar θ

dengan standar error . Hal ini terjadi ketika , dengan cdf dari konvergen

kepada cdf dari random variabel berdistribusi normal dengan mean 0 dan varians . Pembatasan

ini merupakan contoh dari kasus konvergen dalam distribusi, yang ditulis sebagai

Jika g merupakan fungsi yang setidaknya dapat diturunkan sebanyak dua kali pada θ. Dengan

menggunakan Ekspansi Deret Taylor untuk g(t) dalam suatu lingkungan dimana t=θ, pada bagian

14.1.2. telah ditunjukkan bahwa

Untuk jumlah n besar dimana hitung ketika t=θ. Perhatikan bahwa jika

maka , maka

Dengan kata lain g(Tn) diperkirakan normal di sekitar dengan varians .

Sebagaimana terlihat pada gambar 3.1.

Secara lokal di sekitar θ, g(t) diperkirakan linier dengan kemiringan . Maka g(Tn)

diperkirakan normal, karena transformasi linier dari random variabel adalah dengan sendirinya

normal. Sebaran dari nilai g(Tn) di sekitar adalah kali sebaran nilai Tn di sekitar θ. Jika

kemiringan g pada θ adalah ½, maka g memetakan suatu daerah dari nilai Tn ke daerah nilai g(Tn)

sekitar setengah luasan.

Hasil 3.6 disebut sebagai metode delta. Karena dan biasanya bergantung

kepada parameter θ, varian asimptotiknya tidak diketahui. Selang kepercayaan dan ujinya mengganti

Tn untuk θ dan menggunakan hasil yang merupakan asimptotik

untuk normal standar. Dengan kata lain,

Merupakan 95% selang kepercayaan statistik Wald dengan sampel besar untuk

Page 5: Metode Inferensi pada Tabel Kontingensi

3.1.6. Aplikasi Metode Delta untuk Sampel Logit*

Kita ilustrasikan metode delta untul fungsi estimasi ML adalah parameter Binomial

untuk ,dimana y adalah banyaknya percobaan sukses dari sejumlah n percobaan. Maka

dan , dan . Selain itu, memiliki

distribusi normal sampel besar dengan teorema limit pusat.

Maka fungsi log odds untuk yaitu disebut logit sampel. Evaluasi

dengan menurunkan persamaan Maka diperoleh

Normalitas asimtotik Menyebar secara asimtotik normal pada

Varians asimtotik adalah varian distribusi normal yang kurang lebih merupakan distribusi sebenarnya

untuk sampel n yang besar. Untuk ,varians asimtotik untuk sampel logit

terbatas. Sebaliknya, varian sebenarnya ternyata tidak tersedia: karena =0 atau 1 dengan nilai

peluang yang positif, nilai logit sebanding dengan -∞ atau ∞ dengan peluang yang positif. Nilai

peluangnya konvergen menuju 0 dengan sangat cepat ketika jumlah n meningkat.

Untuk sampel n besar distribusi sampel logit sama pentingnya dengan normal dimana rata-rata

dan standar deviasi . Kemudian untuk logit, varians asimtotik

sebenarnya lebih besar dari varians sebenarnya. Dalam hal ini, metode bootstrap tidak dapat

menolong untuk memperkirakan standar error untuk banyak pengukuran diskrit, sebab memiliki

relasi yang lebih pada standart error asimtotik.

3.1.7. Aplikasi Metode Delta untuk Log Odds Rasio*

Standar error untuk log odds rasio dan log resiko relative dihasilkan dari versi multiparameter

metode delta. Misalkan memiliki distribusi multinomial . Proporsi sampel

memiliki mean dan varians

dan

Page 6: Metode Inferensi pada Tabel Kontingensi

Pada bagian 14.1.4. telah ditunjukkan bahwa untuk , dan memiliki kovariansi

Proporsi sampel memiliki distribusi normal multivariate dengan sampel besar.

Untuk set fungsi tersebut, metode delta memberikan hasil berikut, yang dibuktikan pada bagian

14.1.4.

Jika merupakan funsi turunan dari dengan nilai sampel untuk sampel multinomial,

maka

, i=1,…,c

Maka ketika distribusi konvergen ke distribusi normal standar

dimana

Varians asimptotik tergantung kepada dan turunan parsial dari ukuran dengan

memperhatikan . Pada prakteknya, menggantikan dan pada (3.9) dengan nilai

sampelnya akan menghasilkan estimasi Maximum Likelihood untuk dan . Selanjutnya

merupakan standar error dugaan untuk . Selang Kepercayaan Wald untuk

adalah

Dengan mengganti untuk dalam (3.9), distribusi pembatas masih merupakan normal

standar, namun konvergen secara lambat. Nilai yang setara pada distribusi dengan sampel besar

dapat dijelaskan sebagai berikut: Proporsi sampel konvergen secara peluang kepada ,

berdasarkan hukum bilangan lemah pada jumlah yang besar. Karena merupakan fungsi kontinu

pada proporsi sampel, maka akan konvergen dalam peluang kepada , dan akan

konvergen secara peluang ke 1. Sekarang

Page 7: Metode Inferensi pada Tabel Kontingensi

Bentuk pertama di sebelah kanan konvergen dalam distribusi ke normal standar, (3.9), sementara

bentuk kedua di sebelah kiri konvergen dalam peluang ke 1. Oleh karenanya produk yang dihasilkan

juga memiliki dibatasi oleh distribusi normal standar.

Dengan mengaplikasikan metode delta ke log odds rasio, dengan menjabarkan

karena

dan . Maka standar error asimptotik dari log

untuk sampel multinomial adalah

Karena maka standar error dugaan adalah (3.1)

Metode delta juga dapat diterapkan secara langsung dengan untuk mendapatkan

dan selang kepercayaan Wald . Namun hal ini sangat tidak disarankan karena

konvergen ke normal lebih lambat dibandingkan dengan , dan selang yang dihasilkan dapat

mengandung nilai negatif. Hal ini tidak memberikan hasil yang setara dengan hasil yang didapatkan

dari selang Wald yang menggunakan dan standar errornya.

3.1.8. Angka dan Profil Likelihood untuk selang Kepercayaan

Standar error yang didapatkan dengan metode delta muncul pada selang interval Wald.

Namun, selang yang dihasilkan tersebut kadang kala kurang baik jika diterapkan pada jumlah sampel

yang kecil hingga menengah. Selang alternative lainnya dihasilkan dengan mencari kebalikan dari

rasio likelihood pada skor hasil tes. Meskipun memerlukan perhitungan yang lebih rumit, namun

metode ini seringkali bekerja lebih baik.

Pertama kita gambarkan metode skor untuk selisih proporsi, dimana skor tes memiliki

statistik uji (Mee 1984; Miettinen dan Nurminen 1985)

Page 8: Metode Inferensi pada Tabel Kontingensi

Dimana menyatakan penduga Maximum Likelihood dari subjek terhadap batasan

. Yaitu dan merupakan nilai dari dan yang memenuhi

dan memaksimalkan hasil dari dua fungsi massa peluang binomial. Nilai ini tidak memiliki bentuk

yang closed form dan ditentukan menggunakan metode numeric. Skor selang kepercayaan

merupakan set dari ∆ sedmikian hingga . Perhitungan untuk interval tersebut

membutuhkan pengulangan (Nurminen, 1986).

Demikian halnya pada resiko relatif, performa yang sedikit lebih baik dihasilkan berdasarkan

suatu selang yang menggunakan metode skor (Bedrick, 1987; Grant dan Nam, 1988; Koopman, 1984;

Miettinen dan Nurminen, 1985; Nurminen, 1986). Cornfield (1956) serta Miettinen dan Nurminen

(1985) menunjukkan selang skor untuk odds rasio. Kita memilih untuk tidak menggunakan

kontinuitas, atau koreksi sampling terbatas dengan selang tersebut, karena hasilnya terlalu kaku.

Fakta bahwa perhitungan selang skor lebih rumit dibandingkan dengan selang selang Wald,

seharusnya tidak menjadikan halangan dalam penggunaanya di era modern ini karena pada

dasarnya prinsipnya sangatlah sederhana.

Untuk selang kepercayaan yang berdasarkan uji rasio likelihood, dapat digambarkan serupa

dengan odds rasio. Likelihood multinomial untuk tabel 2 x 2 merupakan suatu fungsi dari

. Setara dengan hal itu, fungsi tersebut dapat dituliskan dalam bentuk

(lihat bagian 2.4.1). Selanjutnya membalik uji rasio likelihood untuk memeriksa apakah

berada dalam selang kepercayaan, terdapat dua parameter gangguan. Penduga ML null

dan yang memaksimalkan likelihood berdasarkan null, tersebut bervariasi sebagaimana .

Fungsi Profil Log-Likelihood adalah , dilihat sebagai fungsi . Untuk

setiap , fungsi ini memberikan log-likelihood biasa yang membatasi . Periksa apakah

memaksimalkan Log-likelihood , yang muncul pada proporsi sampel

dan . Selang kepercayaan likelihood profil untuk adalah bagian dari

yang masing-masing

Page 9: Metode Inferensi pada Tabel Kontingensi

Persamaan terbut mengandung seluruh yang tidak ditolak di dalam uji rasio likelihood dengan

ukuran nominal α.

Pendekatan terkait dapat menggunakan fungsi likelihood bersyarat yang mengeliminasi

parameter gangguan dengan memberikan syarat pada statistik cukupnya. Hal ini sangat

menguntungkan ketika terdapat banyak parameter gangguan. Berbeda dengan Wald, keuntungan

dari penggunaan skor dan selang yang berdasarkan likelihood adalah mereka tidak terpengaruh

secara berlawanan ketika resiko relatif sampel atau odds rasio adalah 0 atau ∞.

3.2. Uji Kebebasan Pada Tabel Kontingensi Dua Arah

Untuk sampling multinomial dengan peluang dalam sebuah tabel kontingensi I x J,

hipotesis null untuk kebeasan statistik adalah untuk setiap I dan j. Pada sampel

multinomial independen pada kolom I, berkorespondensi secara bebas dengan homogenitas dari

setiap peluang keluaran dari setiap baris.

3.2.1. Uji Pearson dan Rasio Likelihood Chi kuadrat

Pada bagian 1.5.2 telah diperkenalkan statistik Pearson χ2 untuk uji peluang multinomial.

Sebuah uji dengan H0: kebebasan menggunakan χ2 dengan ni ditempatkan pada nij dan

ditempatkan pada . Di sini berada di dalam H0. Biasanya nilai dan tidak

diketahui. Penduga ML-nya merupakan proporsi sampel marginal dan ,

jadi dilakukan estimasi frekuensi harapan adalah maka nilai χ2 akan

setara dengan

Pearson (1900, 1904, 1922) menyatakan bahwa mengganti dengan tidak akan

mempengaruhi distribusi χ2. Karena tabel kontingensi memiliki sebanyak IJ kategori, dia

menyarankan bahwa χ2 akan asimptotik chi-kuadrat dengan derajat bebas = IJ-1. Sebaliknya, karena

memerlukan perkiraan nilai dan maka berdasarkan bagian 1.5.6.

Page 10: Metode Inferensi pada Tabel Kontingensi

Dimensi dari nilai dan merefleksikan batasan . R. A. Fisher (1922)

memperbaiki error yang diberikan oleh Pearson (Bagian 16.2). Dalam Artikelnya dia

memperkenalkan notasi dari derajat kebebasan.

Skor uji menghasilkan statistik χ2, sementara uji rasio likelihood menghasilkan hal yang

berbeda. Pada sampling multinomial, bakal dari likelihood adalah.

,dimana seluruh dan

Dengan H0: kebebasan, . Dalam kasus umum dimana . Rasio

dari likelihood setara dengan

Statistik Chi-square pada rasio likelihood adalah , yang dinotasikan dengan , setara

dengan

Dimana . Semakin besar nilai dan χ2, maka semakin kuat bukti untuk menolak

hipotesis kebebasan.

Dalam kasus yang umum, ruang parameter terdiri atas sampai dengan pembatasan

linier , sehingga dimensinya adalah IJ-1. Dibawah H0, ditentukan oleh dan

, maka dimensinya adalah (I-1)+(J-1). Selisih pada dimensi ini setara dengan (I-1)(J-1). Untuk

jumlah sampel yang besar nilai dan χ2 memiliki batasan distribusi Chi-kuadrat yang sama.

Faktanya keduanya kemudian setara secara asimptotik; χ2- konvergen dalam peluang ke nol

(bagian 14.3.4). Hasil pembatasan untuk sampling multinomial juga dapat diterapkan dengan

susunan sampling lainnya (Roy dan Mitra, 1956; Watson, 1959).

Page 11: Metode Inferensi pada Tabel Kontingensi

Hasil perhitungan tersebut jika diterapkan ketika jumlah n meningkat, sehingga

menyebabkan meningkat, untuk jumlah kolom yang tetap. Ketika jumlahnya

meningkat, distribusi multinomial untuk lebih baik diperkirakan dengan distribusi normal

multivariat, dimana dan χ2 ternyata lebih dekat kepada distribusi Chi-kuadrat. Kekonvergenan χ2

terhadap distribusi Chi kuadrat lebih cepat dibandingkan dengan . Perhitungan dengan

menggunakan memberikan hasil yang lebih buruk ketika n/IJ <5. Ketika besaran I atau J besar,

maka hasil χ2 cukup memuaskan ketika sebagian frekuenasi yang diharapkan lebih kecil dari 1 namun

lebih banyak melampaui 5. Metode sampel kecil (bagian 3.5) tersedia kapanpun terdapat keraguan

apakah jumlah n cukup besar atau tidak.

3.3. Uji Chi-Kuadrat Ikutan

Sebagaimana uji signifikansi sebagaimana umumnya, uji kebebasan Chi-kuadrat memiliki

kegunaan yang terbatas. Nilai peluang yang kecil mengindikasikan bahwa terdapat bukti yang cukup

terhadap adanya hubungan, namun menyediakan informasi yang sedikit tentang kekuatan atau

bentuk hubungan tersebut. Para statistisi telah lama mewaspadai untuk tidak bergantung

sepenuhnya terhadap hasil uji Chi kuadrat dibandingkan dengan mempelajari sifat dari hubungan

tersebut (Berkson, 1938; Cochran, 1954). Pada bagian ini akan didiskusikan lanjutan cara untuk uji

tentang hubungan.

3.3.1. Residual Pearson dan Residual yang Distandarkan

Perbandingan antar kolom yang diamati atau perkiraan frekuensi harapan memberikan

pertolongan untuk memperlihatkan sifat dari ketergantungan. Dibawah H0, selisih yang semakin

besar antara sering terjadi dalam kolom dengan yang besar. Pada sampling Poisson

misalnya, standar deviasi dari dan adalah ; standar deviasi dari adalah

kurang dari namun proporsional terhadap . Maka selisih yang mentah ini tidak

cukup. Residual Pearson didefinisikan sebagai

Page 12: Metode Inferensi pada Tabel Kontingensi

Percobaan untuk menyesuaikan hal ini. Residual Pearson terkait dengan Statistik Pearson

.

Dibawah H0, adalah normal asimptotik dengan mean 0. Bagaimanapun, pada 14.3.2

telah ditunjukkan bahwa varians asimptotiknya adalah kurang dari 1.0, yang merupakan rata-rata [(I-

1)(J-1)]/(jumlah kolom). Dengan memperbandingkan residual Pearson terhadap nilai persentase

standar normal memberikan indikator konservatif bahwa kolom memiliki tingkat kesesuaian yang

kurang.

Residual Pearson yang distandarkan adalah asimptotik terhadap hasil normal standar yang

dihasilkan dari membaginya dengan standar error (haberman, 1973a dan bagian 14.3.2). Untuk H0:

tidak terikat/bebas, maka

Jika nilai residual Pearson yang distandarkan bernilai lebih dari 2 atau 3 dalam nilai mutlak, maka hal

ini mengindikasikan terjadinya kekurangsuaian H0 dalam kolom tersebut. Nilai yang lebih besar akan

lebih sesuai jika derajat bebas besar sehingga terlihat jelas bahwa salah satunya memiliki

kesempatan yang cukup besar.

Page 13: Metode Inferensi pada Tabel Kontingensi

3.3.2. Pendidikan dan Perbaikan Fundamental Agama

Tabel 3.2 Pendidikan dan Kepercayaan Agama

Tingkat

Tertinggi

Kepercayaan Agama Total

Fundamentalis Moderat Liberal

< SMA 178 138 108 424

(137,8)1 (161,5) (124,7)

(4,5)2 (-2,6) (-1,9)

SMA atau Junior

College

570 648 442 1660

(539,5) (632,1) (488,4)

(2,6) (1,3) (-4,0)

Sarjana atau

pascasarjana

138 252 252 642

(208,7) (244,5) (188,9)

(-6,8) (0,7) (6,3)

Total 886 1038 802 2726

Tabel diatas menunjukan residual standar Pearson untuk uji kebebasan. Misalnya n11 = 178 dan

= 137,8. Hubungan persamaan Proporsi marginal p1+= 424/2726=0,156 dan p1+= 886/2726 = 0,325

dan diperoleh residual standart Pearson adalah 4,5.

Sel ini menunjukkan ktidaksesuaian yang cukup besar antara n11 dan daripada perkiraan jika

variabel benar-benar independent.

Tabel 3.2 menunjukkan residual positif yang cukup besar untuk subjek < SMA dan pandangan

fundamentalis dengan diploma atau lulusan dan pandangan liberal. Ini artinya bahwa subjek lebih

signifikan pada beberapa kombinasi daripada H0 : meramalkan kebebasan. Serupa dengan, jika

sedikit subjek dengan level pendidikan tinggi dan pandangan liberal daripada meramalkan

kebebasanya.

Odds Ratio mendeskripsikan trend ini. Tabel 2x2 dibentuk dari awal dan akhir baris dan awal dan

akhir kolom pada tabel 3.2. diperoleh odds ratio (178x252)/(108X138)=3,0. Diploma atau lulusan

estimasi odds untuk liberal terpilih daripada fundamentalis adalah 3 kali estimasi odds untuk < SMA.

Page 14: Metode Inferensi pada Tabel Kontingensi

3.3.3. Mempartisi Chi-Kuadrat

Jika Z merupakan random variabel berdistribusi normal standar. Maka Z2 memiliki distribusi

chi-kuadrat dengan derajat bebas 1. Random variabel berdistribusi chi kuadrat dengan derajat bebas

v merepresentasikan , dimana Z1,…,Zv merupakan random variabel berdistribusi

normal standar yang saling bebas. Maka jika random vaiabel tersebut dipartisi , misalnya menjadi v

bagian yang masing masingnya mempunyai derajat bebas 1, akibatnya dan merupakan

random variabel chi kuadrat yang saling bebas dan memiliki derajat kebebasan v 1 dan v2. Dengan

demikian memiliki distribusi chi kuadrat dengan derajat bebas v1 + v2. Tambahan lain

mengenai uji chi kuadrat adalah dengan mempartisi uji statistiknya sehingga setiap bagian

merepresentasikan aspek tertentu dari efek yang berlaku. Dengan melakukan partisi dapat

ditunjukkan bahwa hubungan yang terjadi merupakan selisih antara kategori tertentu atau

pengelompokan kategori.

Kita mulai dengan mempartisi uji kebebasan pada tabel 2 x J. Dengan mempartisi yang

memiliki derajat bebas (J-1) menjadi J-1 bagian. Komponen ke j adalah untuk tabel 2 x 2 dimana

kolom pertama mengkombinasikan kolom 1 melalui j pada tabel lengkap, dan kolom kedua adalah

kolom j+1.Hal tersebut merupakan untuk uji kebebasan pada tabel 2 x J yang setara dengan

statistik yang mengkombinasikan dua kolom pertama, ditambah dengan statistik yang

mengkombinasikan dua kolom pertama dan kemudian membandingkannya dengan kolom ketiga,

dan seterusnya, tergantung kepada statistik yang mengkombinasikan J-1 kolom pertama dengan

kolom terakhir. Setiap komponen memiliki derajat bebas 1.

Sepertinya lebih mudah untuk menghitung untuk (J-1) yang memisahkan tabel 2 x2 yang

memasangkan setiap kolom dengan pasangannya, katakan yang terakhir. Namun bagaimanapun

juga, komponen statistik ini tidak bebas dan bukan merupakan penjumlahan untuk keseluruhan

tabel secara lengkap. Untuk tabel I x J, komponen chi kuadrat yang saling bebas dihasilkan dengan

membandingkan kolom 1 dan 2 lalu mengkombinasikannya, dan membandingkannya dengan kolom

3 , dst. Setiap statistik J-1 memilki derajat bebas I-1. Partisi yang lebih sempurna mengandung

statistik sebanyak (I-1)(J-1) yang masing masing memiliki derajat bebas 1. Salah satu bentuk partisi

tersebut dapat diterapkan pada (I-1)(J-1) memisahkan tabel 2 x 2 (Lancaster, 1949)

Page 15: Metode Inferensi pada Tabel Kontingensi

Dengan i=2,..,I dan j=2,…,J. Untuk lainnya dapat dilihat pada Giulia dan Haberman (1998) dan

Goodman (1969a, 1971b).

3.3.4. Contoh: Asal dari Schizopherenia

Tabel 3.3 mengklasifikasikan sampel psychiatrist dengan gagasan psychiatrist sekolah mereka dan

opini mereka pada asal Schizopherenia. Dimana G2 =23,04 dengan df=4. Untuk lebih memahami

hubungan ini, kita partisi G2 kedalam empat komponen saling bebas. Ditampilkan dalam tabel 3.4.

Untuk subtabel awal perbandingan pandangan eclectic dan medical school pada asal schizophrenia

adalah biogenic atau environmental yang diklasifikasikan dalam 2 kategori. Pada subtabel ini G2 =

0,29 dengan df = 1. Pada Subtabel kedua perbandingan dua sekolah dengan menganggap bahwa

proporsi berasal dari kombinasi waktu asal , lebih dari biogenic atau environmental. Subtabel ini

G2=1,36.

Tabel 3.3 Pengaruh Pandangan Sekolah Psychiatric dan Menganggap berasal Schizophrenia

Pandangan Sekolah

Psychiatric

Asal Schizophrnia

Biogenic Environmental Combiantion

Eclectic 90 12 78

Medical 13 1 6

Psychoanalytic 19 13 50

Tabel 3.4 Kegunaan Subtabel Dalam Partisi Chi-Squared untuk table 3.3

Bio Env Bio+Env Com Bio Env Bio+Env Com

Ecl 90 12 Ecl 102 78 Ecl+Med 103 13 Ecl+Med 116 84

Med 13 1 Med 14 6 Psy 19 13 Psy 32 50

Dengan df =1. Penjumlahan dua komponen persamaan G2 untuk uji kebebasan dengan dua baris

awal pada tabel 3.3. Memberikan bukti kecil perbedaan antara pandangan eclectic dan school

medical pada anggapan asal schizophrenia.

Kemudian kita kombinasikan eclectic dan medical school dan membandingkan mereka pada

psychoanalytic school. Pada subtabel ketiga pada tabel 3.4 membandingkan mereka pada klasifikasi

(biogenic,environmental), memberikan G2=12,95 dengan df=1. Keempat subtabel membandingkan

Page 16: Metode Inferensi pada Tabel Kontingensi

mereka untuk (biogenetic atau environmental, kombinasi) dipisahkan, memberikan G2=8,43 dengan

df=1.

3.3.5. Aturan Partisi

Goodman (1969a, 1971b) dan Lancaster (1949, 1969) memberikan aturan untuk

menentukan jumlah komponen bebas dari chi kuadrat.

1. Jumlah derajat bebas dari sub tabel harus sama dengan jumlah derajat bebas secara

keseluruhan

2. Setiap kolom dalam sub tabel harus dihitung hanya sekali, dan setiap sub tabel juga dihitung

hanya sekali

3. Masing masing jumlah marginal dari tabel secara lengkap harus merupakan marginal dari

hanya salah satu sub tabel.

Untuk jumlah partisi yang pasti, ketika jumlah derajat bebas sub tabel dapat dijumlahkan

seperlunya sementara tidak, maka masing-masing komponen tidak independen.

Pada setiap statistik , terdapat jumlah partisi yang pasti. Statistik tidak memerlukan

hasil penjumlahan yang sama dengan nilai pada sub tabel. Adalah cukup untuk menggunakan

statistik untuk mempartisi sub tabel; dimana statistik tersebut sama sekali tidak

memerlukan partisi yang tepat secara aljabar untuk tabel lengkap. Ketika hipotesis null terpenuhi,

tidak memiliki kesamaan asimpotik dengan . Sebagai tambahan, ketika tabel memiliki jumlah

yang kecil dalam uji chi kuadrat lebih aman untuk menggunakan dalam menyelidiki sub tabel.

3.3.6. Batasan Uji Chi Kuadrat

Uji kebebasan Chi kuadrat lebih digunakan untuk mengindikasikan adanya bukti tentang

tingkat suatu hubungan. Hal ini sudah cukup untuk menjawab seluruh pertanyaan tentang set data.

Daripada bergantung terhadap uji ini, penyelidikan sifat hubungan yaitu: selidiki residual,

dekomposisi chi kuadrat ke dalam beberapa komponen, dan menduga parameter seperti odds rasio

yang dapat menjelaskan keeratan hubungan.

Uji Chi kuadrat juga memiliki keterbatasan dalam jenis data yang digunakan. Sebagai contoh,

diperlukan jumlah sampel yang besar. Selain itu, yang digunakan dalam nilai

dan bergantung kepada total marginal, namun tidak demikian halnya dengan urutan

Page 17: Metode Inferensi pada Tabel Kontingensi

penempatan pada nbaris dan kolom. Dengan demikian dan tidak berubah nilainya dengan

pengurutan sementara baris dan kolom. Hal ini menyebabkan bahwa kita memperlakukan kedua

klasifikasi tersebut sebagai nominal.. Ketika setidaknya salah satu variabel adalah ordinal, uji statistik

yang mempergunakan urutan tersebut menjadi lebih sesuai. (lihat uji di bagian 3.4).

3.3.7. Mengapa Menguji Kebebasan?

Struktur ideal seperti struktur yang bebas sangat jarang berlaku pada situasi praktis. Dengan

jumlah sampel yang besar seperti pada tabel 3.2. maka nilai peluang yang didapatkan akan sangat

kecil. Dengan memperhatikan hal tersebut serta batasan yang telah diberikan, maka salah satu

alasan untuk memeriksa kebebasan dari distribusi bersama adalah untuk mendapatkan model yang

paling cermat. Jika model yang bebas tersebut memperkirakan peluang sebenarnya dengan baik,

maka kecuali jumlah n sangat besar, pendugaan berdasarkan model tersebut dari

peluang sel akan menjadi lebih baik dibandingkan dengan proporsi sampel . Maximum

Likelihood yang bebas akan menduga perhitungan sampel dengan lebih halus, sehingga

mengabaikan fluktuasi yang diakibatkan oleh random sampling.

Rumus Mean-Squared error (MSE)

MSE = Varians + (Bias)2

Menjelaskan mengapa penduga yang saling bebas dapat mempunyai MSE yang lebih kecil.

Walaupun masih terdapat bias, mereka memiliki varians yang lebih kecil karena pendugaan

didasarkan oleh parameter yang lebih sedikit ( dan dibandingkan dengan ).

Akibatnya, MSE akan lebih kecil, kecuali n sangat besar sehingga bentuk bias mendominasi varians.

Dari tabel 3.5. dapat diilustrasikan bahwa untuk = =

1/3. Disini -1 < δ < 1, dengan δ =0 menyatakan bahwa model adalah bebas. Kebebasan dapat

memperkirakan hubungan dengan baik ketika δ mendekati 0. Dengan demikian, total nilai MSE

untuk kedua penduga adalah

MSE ( ) =

Page 18: Metode Inferensi pada Tabel Kontingensi

MSE ( ) =

Tabel 3.5. Peluang Sel untuk Perbandingan Penduga

(1+δ)/9 1/9 (1- δ)/9

1/9 1/9 1/9

(1- δ)/9 1/9 (1+δ)/9

MSE({pij})=

MSE({ })=

3.4 Tabel Dua Arah Dengan Klasifikasi Ordinal

Tes uji chi-square X2 dan G2 mengabaikan beberapa informasi ketika digunakan untuk menguji independensi antar klasifikasi yang berupa ordinal. Oleh karena itu diperlukan statistik uji lainnya yang lebih baik untuk melakukan uji independensi antar klasifikasi ordinal.

3.4.1 Alternatif trend linear untuk uji independensi Analisis yang lebih populer saat ini menggunakan metode skor untuk mengkategorikan dan

meringkas trend linear. Uji statistik yang bisa menangkap adanya trend linear adalah uji korelasi Semakin besar nilai korelasi absolut, maka data semakin tidak independen. Rumus yang digunakan adalah:

Nilai M2 akan meningkat seiring dengan meningkatnya nilai r dan n. Semakin besar nilai M2, semakin kecil nilai p-value, maka semakin menunjukkan

ketidakindependennya. Namun tidak selalu jika M2 besar berarti hubungan antar klasifikasi tersebut adalah

linear. Nilai M2 hanya menunjukkan ada atau tidaknya independensi antar klasifikasi.

3.4.2 Contoh perbandingan antara penggunaan Tes uji chi-square X2 dan G2 dengan M2

Tabel 2.8 Tabulasi silang antara Kepuasan Kerja dengan Pendapatan

Page 19: Metode Inferensi pada Tabel Kontingensi

Pendapatan (dalam Dollar)

Kepuasan Kerja

Sangat Tidak Puas

Sedikit Puas Cukup Puas Sangat Puas

< 15.000 1 3 10 615.000 – 25.000 2 3 10 725.000 – 40.000 1 6 14 12

> 40.000 0 1 9 11Sumber: General Social Survey, National Opinion Research Center, 1996.

Dari tabel di atas dapat dihitung nilai uji chi-square X2=6,0 dan G2=6,8 dengan df=9 (nilai p-value nya = 0,74 dan 0,66). Dari nilai p-value tersebut ternyata gagal tolak H0, artinya bahwa tidak ada hubungan antara kepuasan kerja dengan tingkat pendapatan.

Namun apabila menggunakan score (1,2,3 dan 4) untuk kepuasan kerja dan (7,5; 20; 32,5; dan 6,0) untuk tingkat pendapatan, ternyata diperoleh nilai korelasi r=0,2 dan uji statistik M2=(96-1)(0,2)2=3,81 serta p-value=0,51. Dengan uji 1 arah (trend positif), dengan

menggunakan M= =1,95 dan p-value = 0,026 ternyata berhasil menolak H0. Jadi uji

M2 lebih kuat dari pada chi-square.

3.4.3 Alternatif trend Monoton untuk uji independensi Selain trend linear yang membutuhkan skoring, alternatif lainnya yang lebih fleksibel adalah

dengan menggunakan gamma. Untuk sampel besar, gamma konvergen ke distribusi normal.

Uji statistik . Dari tabel 2.8 didapat nilai = 0,221, SE=0,117 (dengan perhitungan

software SAS), sehingga diperoleh nilai z=0,221/0,117 = 1,89 (p-value=0,03). Dengan tingkat

keyakinan 95% nilai terletak pada 0,221 1,96(0,117) atau (-0,01 s.d 0,45). Jadi hubungan

sebenarnya antara kepuasan kerja dengan tingkat pendapatan adalah positif yang moderat.

3.4.4 Extra Power untuk uji independensi data ordinal Uji X2 dan G2 adalah uji yang paling umum untuk pengujian independensi antar variabel. Namun untuk uji independensi data yang berskala ordinal dan menunjukkan adanya trend,

maka statistik uji M2 atau z (fungsi gamma) lebih kuat dari X2 dan G2.

3.4.5 Pemilihan skor Ada beberapa cara penentuan skor, namun yang ideal adalah bahwa skala skor dipilih dari

konsensus (kesepakatan) para ahli, sehingga interpretasinya tidak mengalami distorsi. Perbedaan sistem skor akan menghasilkan perbedaan interpretasi. Salah satu metode yang disepakati oleh para ahli adalah metode Spearman’s rho. Metode ini

digunakan ketika variabel yang diuji (X dan Y) adalah variabel ordinal dan M2 menggunakan midrank scores.

Page 20: Metode Inferensi pada Tabel Kontingensi

Berikut adalah contoh bahwa perbedaan skor akan mempengaruhi hasil interpretasiContoh: Tabel 3.7 Hubungan antara Konsumsi dengan Malformation

MalformationKonsumsi Alkohol (Rata-rata Frekuensi Minum per hari)

0 < 1 1 -2 3 – 5 ≥ 6Absent 17.066 14.464 788 126 37Present 48 38 5 1 1

Jumlah 17.114 14.502 793 127 38

Sumber: Graubard and Korn, 1987)

Apabila menggunakan skor sembarang untuk konsumsi alkohol (0; 0,5; 1,5; 4; 7), maka nilai M2=6,57 dan p-value=0,01. Dengan demikian maka H0 ditolak (terdapat hubungan antara konsumsi alkohol dengan malformation).

Apabila menggunakan skor bertingkat (1, 2, 3, 4, 5), maka nilai M2=1,83 dan p-value=0,18, Dengan demikian maka gagal tolak H0 (tidak terdapat hubungan antara konsumsi alkohol dengan malformation).

Apabila menggunakan skor midrank (8557,5; 24.365,5; 32.013; 32.473 dan 32.555,5), maka nilai M2=0,35 dan p-value=0,55. Dengan demikian maka gagal tolak H0.

3.4.6 Uji Trend untuk I x 2 dan 2 x J Dengan midrank skor untuk Y, uji M2 untuk tabel 2 x J cukup sensitif untuk perbedaan di

dalam mean rank untuk dua baris. Uji ini dikenal dengan Wilcoxon atau Mann-Whitney test. Ketika Y mempunyai 2 tingkatan pada tabel I x 2, trend linear dalam statistik kemudian

kembali ke trend linear dalam peluang kategori respons. Uji ini dikenal dengan Uji Trend Cochran-Armitage (dibahas pada bab 5.3.5).

3.4.7 Tabel Nominal dan Ordinal Pengujian dengan teknik korelasi (M2) atau gamma (ϒ) adalah tepat apabila kedua klasifikasi

data adalah ordinal. Namun ketika ada gabungan nominal dan ordinal, maka diperlukan statistik uji lain. Salah satunya adalah dengan cara merangkum tingkat variasi di antara rata-rata variabel ordinal pada kategori yang berbeda-beda dari variabel nominal. Ini akan didiskusikan pada bagian 7.5.3.

3.5 Uji Independensi dengan Sampel Kecil

Ketika n kecil, maka metode alternatif yang digunakan adalah exact small-sample distribution, bukan large-sample approximations.

Page 21: Metode Inferensi pada Tabel Kontingensi

3.5.1 Uji Fisher’s exact untuk tabel 2 x 2 Sebuah fungsi distribusi tidak tergantung pada parameter yang tidak diketahui dari

pengkondisian total marginal pada tabel kontingensi. Parameter-parameter itu biasanya bukan fix variabel.

Contohnya pada distribusi Poisson tidak mempunyai parameter yang fix. Pada distribusi multinomial hanya n yang fix. Dan pada distribusi binomial untuk tabel 2 x 2, hanya total marginal baris yang fix.

Uji Fisher’s exact menggunakan distribusi hypergeometric sebagai berikut:

Rumus tersebut adalah distribusi dari . terlatak antara dimana

dan

Untuk tabel 2x2, Independensi terjadi ketika odds ratio θ=1. H0: θ=1. P-value adalah

penjumlahan distribusi hypergeometric , t0 adalah notasi untuk nilai n11 yang

diobservasi.

3.5.2 Fisher’s Tea Drinker Berikut diberikan contoh penggunaan rumus Fisher.

Tabel 3.8 Percobaan Fisher’s Tea Tasting

Poured FirstGuess Poured First

TotalMilk Tea

Milk 3 1 4Tea 1 3 4

Total 4 4 Sumber: Berdasarkan Percobaan oleh Fisher, 1935.

Percobaan dilakukan oleh A. Fisher dengan koleganya Dr.Muriel Bristol. Koleganya diminta untuk membedakan mana di antara 4 cangkir minuman yang ditambahkan susu atau teh terlebih dahulu.

Misal t0 = 3 adalah tebakan kolega Fisher yang sesuai, maka probability ditambahkannya susu terlebih dahulu dalam cangkir minuman adalah:

Page 22: Metode Inferensi pada Tabel Kontingensi

Dengan cara sama diperoleh probabilitas n11=4 adalah 0,014, sehingga nilai P-value

, maka gagal tolak H0, artinya tidak ada hubungan antara prediksi

Dr.Bristol dengan kondisi sesungguhnya.

3.5.3 P-Value dua arah untuk Uji Fisher’s Exact Untuk uji satu arah, nilai p-value yang sama dapat dihasilkan dari tabel ordinal tergantung

dari besarnya n11, besarnya odds ratio atau besarnya perbedaan proporsi. Untuk uji 2 arah, perbedaan kriteria memberikan perbedaan p-value. Untuk uji 2 arah, ada 4 pendekatan yang digunakan yaitu:

Pertama, Penjumlahan untuk menghitung t sebagaimana dengan

P-value nya adalah untuk nilai observasi t0.

Yang kedua, menggunakan rumus:

,

Dimana hypergeometrik . Bentuk ini identik dengan untuk

statistik Pearson yang diobservasi.

Yang ketiga, menggunakan , tetapi nilai ini bisa lebih

dari 1.

Yang keempat, menggunakan ditambah probablitas

yang dihasilkan di bagian ekor lain yang paling dekat tetapi tidak melebihi probabilitas ekor tersebut.

Pada praktiknya, uji 2 arah lebih umum digunakan daripada uji 1 arah. Salah satu alasannya adalah adanya konsistensi dari tingkat kepercayaan 2 arah untuk mengestimasi ukuran yang memungkinkan untuk membedakan antara 2 perlakuan.

3.5.4 Tentang suatu fenomena Diskret dan isu konservatif Distribusi Hypergeometrik adalah distribusi diskret untuk sampel kecil. Pada umumnya

distribusi diskret tidak dapa menerima level signifikan yang fix, seperti 0,05. Hal ini menimbulkan stigma bahwa cara tersebut adalah konservatif (kuno).

Cara lain untuk dapat menggunakan level signikan yang fix (0,05) adalah dengan rumus:

Atau dengan mid-P-value dengan rumus mid-P-value = (1/2)P(n11=3) + P(n11>3).

3.5.5 Uji non-kondisional sampel kecil untuk independensi

Page 23: Metode Inferensi pada Tabel Kontingensi

Asumsi sampling secara umum untuk analisis perbandingan antara 2 grup pada binary respons adalah bahwa baris2 merupakan sampel binomial yang independen. Untuk distribusi poisson dan multinomial, tidak ada distribusi marginal yang fix.

Uji non-kondisional sampel kecil untuk independensi adalah:

Untuk nilai π1= π2, probabilitas pada tabel 1 adalah

, supremum terjadi pada saat π=1/2. Sehingga P-

value = 2(0,5)3(0,5)3=0,031

3.5.6 Uji kondisional versus uji non-kondisional Untuk statistik inferensia dengan nilai tidak nol (seperti interval kepercayaan), Uji

kondisional diterapkan hanya dengan odds ratio, tidak dengan yang lain. Uji non kondisional lebih powerful dibanding uji kondisional (seperti Uji Fisher’s exact).

Hanya saja secara komputasi, uji non-kondisional lebih rumit dan kompleks. Akan tetapi jika marginal total secara alami berupa fixed variabel, maka Uji Fisher’s exact

adalah yang terbaik. Meski dikategorikan konservatif, namun dengan menggunakan mid-P-value akan bisa mengurangi efek konservatif dari data diskret tersebut.

3.5.7 Penurunan Distribusi Kondisional Exact Diasumsikan antar baris dalam tabel IxJ mempunyai distribusi multinomial yang independen.

Total baris adalah fixed. I diestimasi sebagai distribusi kondisional .

Formula Hipotesis H0: (indpenden).

Fungsi Probabilitas multinomial dirumuskan:

Distribusi tergantung pada .

Kontribusi pada pembentukan distribusi multinomial sebagaimana rumus di atas

tergantung pada data .

Page 24: Metode Inferensi pada Tabel Kontingensi

Data juga berdistribusi multinomial (n, {π+j}) dengan formula:

Rumus pertama dibagi dengan rumus kedua akan menghasilkan distribusi multihypergeometrik dengan rumus sebagai berikut:

3.5.8 Uji Independen Exact untuk Tabel IxJ Diberikan contoh tabel 3.9 tabulasi silang antara tingkat merokok dengan Myocardial

infarction sebagai berikut:Tingkatan Merokok (batang rokok per hari)0 1 - 24 > 25

Control 25 25 12Myocardial Infarction 0 1 3

Apabila menggunakan statistik uji X2 (yang mengabaikan kategorisasi data ordinal) diperoleh

nilai exact , jadi gagal tolak H0, artinya tidak ada

hubungan antara banyaknya merokok dengan myocardial infarction. Dengan uji kondisional, perhitungan marginal untuk baris 1 (25, 26, 11) dan untuk baris 2 (0,

0, 4) akan diperoleh probabilita (sesuai rumus multiple hypergeometrik) adalah 0,018, jadi H0

ditolak, artinya ada hubungan antara banyaknya merokok dengan myocardial infarction.

3.6 Interval Kepercayaan dengan Sampel Kecil untuk Tabel 2x2

3.6.1 Inferensia Sampel kecil untuk Odds Ratio

Untuk distribusi multinomial tergantung pada n dan . Odds ratio untuk tabel 2x2

adalah:

adalah fungsi dari dan Dan berdistribusi multinomial dengan

parameter

Karena n11 adalah marginal total, maka distribusi kondisional noncentral

hypergeometrik dengan rumus sebagai berikut:

Page 25: Metode Inferensi pada Tabel Kontingensi

Untuk n11=t0, H0: θ=θ0, dan Ha: θ≥θ0, nilai P-value adalah

Sedangkan untuk Ha: θ≤θ0, nilai P-value adalah

Jika θ0=1, maka akan menjadi uji 1 arah Fisher’s exact. Estimasi parameter θ adalah dengan Conditional Maximum Likelihood.

3.6.2 Sampel Tea Tasting

Dari tabel 3.8 dengan Conditional ML, diperoleh nilai estimasi θ sebesar 6,4. Dengan tingkat kepercayaan ≥ 0,95 diperoleh nilai interval (0,2; 626,2)

Dengan uji 2 arah diperoleh interval yang lebih kecil yaitu (0,3; 306,2).

3.6.3 Dampak data diskret terhadap Inteval kepercayaan.

Untuk sampel kecil, uji independensi dan penentuan interval kepercayaan menggunakan probability exact (with conditional distribution). Oleh karenanya dikatakan sebagai pendekatan konservatif (sebab pengaruh data diskret).

Untuk sampel besar, bisa dipilih antara pendekatan konservatif atau liberal. Sebagai contoh, untuk data pada tabel 3.8, nilai P-value chi-square = 0,157 (gagal tolak H0) dibandingkan dengan uji exact 2 arah dengan p-value 0,486 (tolak H0). Dengan tingkat kepercayaan 95% pada sampel besar, Confidence interval untuk odds ratio adalah (0,4; 220,9) dibandingkan dengan Cornfield’s exact dengan confidence interval (0,2; 626,2).

Secara normal, metode exact lebih dianjurkan daripada metode approximate, meskipun metode exact termasuk metode konservatif, terutama untuk sampel kecil.

Metode untuk data diskret yang dianggap bisa mengkompromisasi metode konservatif dan liberal adalah dengan mid-P-value. Untuk estimasi interval odds ratio, mid-P-value bisa sangat konservatif, namun untuk sampel kecil, mid-P-value bisa lebih akurat dari metode liberal (Cornfield exact interval). Contohnya untuk tabel 3.8 , dengan tingkat kepercayaan 95%, interval yang dihasilkan dengan mid-P-value adalah (0,31; 309) mempunyai interval lebih pendek dari pada interval Cornfield yaitu (0,21; 626).

3.6.4 Inferensia Dengan Sampel Kecil untuk Perbedaan Proporsi

Page 26: Metode Inferensi pada Tabel Kontingensi

Pendekatan kondisional untuk menghilangkan parameter yang mengganggu (tidak berarti) dapat dilakukan manakala tersedia statistik yang cukup, sehingga hanya beberapa model saja yang bisa menerima penggunaan pendekatan kondisional.

Pendekatan non-kondisional meskipun penghitungannya lebih kompleks, namun tidak membutuhkan statistik yang cukup untuk menghilangkan parameter pengganggu.

Misal ada parameter pengganggu λ = π1 + π2. Maka bisa direkayasa dengan cara mensubstitusikan δ = π1 - π2, akan diperoleh π1 = (λ+ δ)/2 dan π2 = (λ- δ)/2. Untuk δ = δ0 dan λ adalah fixed, maka P-value adalah supremum dari probability semua nilai λ, sehingga yang muncul adalah nilai δ0 yang tidak unik (lebih dari 1). Adapun confidence interval untuk π1 - π2

adalah nilai-nilai δ0 dimana nilai P-valuenya tidak lebih dari α. Sebagai catatan tambahan: Penyusunan 1 Interval 2 arah lebih baik dari pada 2 interval 1 arah yang terpisah.

3.7. Perluasan Untuk Tabel Multi Arah dan Respons Tanpa Tabulasi

Merupakan perluasan tabel multi arah untuk tabel kontingensi

3.7.1 Data Kategorik yang Tidak memerlukan Tabel Kontingensi

Model untuk variable respon kategorik dapat sebaik variable penjelas kategorik Ketika seluruh atau sebagian besar variable adalah kategorik, maka tidak perlu selalu

menjadi tabel kontingensi, tapi dapat dibuat menjadi bentuk garis data untuk setiap subjek Software akan membaca data kemudian menganalisa yang mungkin akan melibatkan tabel

kontingensi. Sebagai ilustrasi diberikan contoh berikut :

Subject Gender Race Education Opinion1 f w 2 12 m b 3 13 m w 1 2