Inferensi Bayesian Untuk Poisson

download Inferensi Bayesian Untuk Poisson

of 20

Transcript of Inferensi Bayesian Untuk Poisson

BAB II INFERENSI BAYESIAN UNTUK POISSONDistribusi Poisson biasa digunakan untuk menghitung jumlah kejadian yang jarang terjadi, dimana kejadiannya terjadi secara random dengan waktu (atau ruang) yang konstan. Peristiwa yang terjadi hanya sekali dalam satu waktu. Distribusi Poisson bisa digunakan untuk

memodelkan jumlah kecelakaan di jalan tol dalam sebulan. Tetapi, kita tidak dapat memodelkan jumlah korban jiwa pada peristiwa di jalan raya, karena beberapa kecelakaan terdapat banyak korban jiwa.

Teorema Bayes untuk Parameter Poisson dengan Prior KontinuMisalkan kita memiliki sampel acak y1,,yn yg berasal dari distribusi Poisson ( ). Bentuk proporsional dari teorema bayes diberikan ( | Parameter ) ( ) ( | )

dapat bernilai positif, maka kita harus menggunakan prior kontinu yang ditetapkan

bernilai positif. Bentuk proporsional dari teorema bayes memberikan bentuk posterior. Kita harus mencari faktor skala untuk mendapatkan fkp. Bentuk posteriornya adalah ( | ) ( ) ( ) ( ( | ) | )

Persamaan diatas berlaku untuk setiap prior kontinu g( ). Akan tetapi, penggabungan ini haruslah dilakukan secara numeric, kecuali untuk beberapa kasus khusus yang selanjutnya akan kite pelajari.

Likelihood Parameter Poisson

Likelihood dari distribusi poisson yang menjelaskan bentuk likelihood adalah

( | ) ( | )

untuk y = 0,1,.. dan .

. Bagian

Jika y1, ,yn adalah peubah acak dari distribusi poisson ( ), likelihood dari sampel acak adalah hasil kali dari likelihood yang asli. Hal ini mempermudah ( | ) ( | )

Kita mengenal bentuk diatas sebagai likelihood dimana poisson ( . ). Bentuk diatas serupa dengan fkp adalah single draw? dari distribusi ( ) dimana = dan

BEBERAPA DISTRIBUSI PRIOR UNTUK POISSONKarena menggunakan teorema bayes, kita memerlukan distribusi prior dari parameter poisson . Dalam bab ini kita akan memperhatikan beberapa distribusi prior dari mendapatkan fkp posterior tanpa penghitungan integral numerik. yang mungkin untuk

1.

FKP PRIOR SERAGAM POSITIFyang tidak diketahui adalah prior untuk melihat/mencari data. Karena itu,

Misalkan nilai dari

kita pertimbangkan untuk membuat semuanya bernilai positif dengan sama beratnya maka fkp prior seragam positifnya adalah ( ) untuk .

Jelaslah fkp prior ini tidak sesuai karena pengintegralan atas semua nilai yang positif adalah tak hingga. Namun demikian, posteriornya sesuai dan bisa kita gunakan untuk membuat inferensi tentang . Posterior akan proporsional dengan prior dikali likelihood, sehingga dalam kasus ini posterior proporsionalnya menjadi

( |

)

( ) (

| )

Bentuk posterior sama dengan fungsi likelihood sehingga kita tahu bahwa itu fkp ( )dimana dan . Jelaslah bahwa posteriornya sesuai meskipun

pada awalnya priornya tidak sesuai.

2.

Jeffreys Prior for Poisson

Parameter menunjukkan semua distribusi observasi yang mungkin. Setiap fungsi kontinu satusatu dari parameter akan memberian metode sama berlaku index.2 Jeffreys 'memberi kita prior yang obyektif dalam arti bahwa mereka berubah dalam setiap transformasi berkelanjutan dari parameter. Sebelum The Jeffreys 'untuk Poisson adalah ( )

Ini juga akan menjadi prior yang tidak tepat, karena integralnya selama rentang seluruh kemungkinan bernilai tak terbatas. Namun, bukan non-informatif karena memberikan bobot lebih untuk nilai-nilai kecil. Dengan menggunakan prior Jeffreys maka posterior akan menjadi ( | ) ( ) ( | )

yang kita kenali sebagai bentuk sebuah fkp dan

(

) dimana

. Sekali lagi, kami memiliki posterior yang tepat meskipun diawali dengan prior

sebelumnya yang tidak tepat.

3. Keluarga konjugat untuk percobaan Poisson adalah keluarga gammaKonjugat prior untuk perrcobaan dari distribusi Poisson dengan parameter akan memiliki bentuk yang sama sebagai likelihood. Sebab itu diberikan bentuk ( )

Distribusi yang memiliki bentuk seperti ini diketahui distribusi bentuk fungsi kepadatan peluang seperti ( )

(

) dan memiliki

( )

Dimana ini.

dan

dan

( )

adalah factor skala yang dibutukhan untuk membuat fkp

Ketika kita memiliki percobaan untuk , bentuk dari posteriornya adalah

( ) tunggal, dan menggunakan prior

(

)

( | )

( )

( | )

( ) ( )

Kita kenal bentuk tersebut sebagai fkp rumus 1 ke dan

(

) dimana konstanta diperbaharui dengan dan kita menambahkan dari sebuah distribusi

. Kita menambahkan y percobaan ke ( ) dimana

. Sebab itu, ketika kita memiliki sebuah sampel acak ( ), dan menggunakan prior (

), kita ulang untuk setiap percobaan

menggunakan posterior dari percobaan ke-i sebagai prior untuk percobaan ke-i+1. Kita selesaikan dengan posterior dan . Catatan :

peraturan yang sama untuk prior seragam positif dan prior Jeffrey untuk Poisson. Kita gunakan Equation 7.10 dan Equation 7.11 untuk menemukan rerata dan varians posterior masing-masing yaitu :

( | )

dan

( | )

( )

.

Memilih sebuah konjugat priorDistribusi keluarga ( ) merupakan keluarga konjugat untuk percobaan ( ).

Dengan menggunakan prior dari keluarga ini sangat memudahkan,karena posteriornya juga akan berasal dari keluarga ini dan dapat dicari dengan aturan terbaru yang mudah. Selain itu menghindarkan kita untuk menghitung integral numeric. Kita anjurkan untuk meringkas prior yang dipercaya kedalam rerata prior , dan standar deviasi

prior . Varians prior akan didapat dari kuadrat standar deviasi. Maka kita akan menemukan dan untuk konjugat prior gamma dari perhitungan rerata dan varians itu. ( ) ( ) Dari (1) didapat , kemudian substitusikan ke (2), maka didapat

Dari (1) didapat

, kmudian substitusikan ke (2), maka didapat

( )

Maka diperoleh prior

(

).

Langkah sebelum menggunakan konjugat prior1. Gambarkan bentuk prior. Jika bentuknya layak, maka prior tersebut dapat digunakan. Sebaliknya kita dapat mengatur dengan rerata prior dan standar deviasi prior hingga

kita menemukan sebuah prior dengan bentuk yang cocok dengan prior yang dipercaya. 2. Hitung ukuran sampel yang ekuivalen dari prior kita. Misalkan sampel acak beristribusi ( ), merupakan rerata dan varians merupakan maka, ukuran

sampel yang ekivalen dihitung dengan

Dengan aturan adalah .

maka ukuran sampel yang ekivalen dari prior

(

) untuk

Contoh soal Setiap minggunya sejumlah kecelakaan lalulintas di sebuah jalan raya mengikuti distribusi ( ). Empat orang siswa akan melakukan percobaan terhadap setiap kecelakaan lalulintas untuk delapan minggu selanjutnya. Mereka akan melakukan analisis ini dengan cara Bayes, jadi masing-masing dari mereka membutukan sebuah distribusi prior. Aretha mengatakan dia tidak memiliki informasi tentang prior, jadi dia akan mengasumsikan semua nilai kemungkinan adalah sama. Dengan demikian dia akan menggunakan prior seragam positif ( ) untuk , prior ini tidak tepat. Byron juga mengatakan dia tidak memiliki

informasi prior, tetapi dia ingin priornya tidak berbeda jika parameternya dikalikan dengan

konstanta. Dengan demikian, dia menggunakanprior Jeffrey untuk

yang mana ( ) ( ) yang dan

, juga prior yang tidak tepat. Chase menentukan dia percaya rerata priornya adalah 2,5 dan standar deviasi priornya adalah 1. Dia tentukan untuk menggunakan dicocokan dengan rerata dan standar deviasi priornya, dan dia menemukan . Ukuran sampel yang ekuivalennya adalah

, yang dia tentukan adalah dapat

diterima hingga dia akan memasukan informasi bernilai 2,5 percobaan dan terdapat 8 percobaan dari data. Diana menentukan distribusi priornya memiliki bentuk trapezium yang ditemukan dengan interpolasi bobot prior yang diberikan pada Tabel 10.1. bentuk dari keempat distribusi prior diperlihatkan pada Figure 10.1. banyaknya kecelakaan di jalan raya setelah 8 minggu adalah :

Aretha (

akan

memiliki

posterior

(

),

Byron

akan (

memiliki

posterior ). Diana

), dan Chase akan memiliki posterior posterior )( ) ( ) ( ( | ) | )

menemukan ( |

numeriknya

menggunakan

. Keempat distribusi posterior diperlihatkan pada Figure

10.2. kita lihat bahwa keempat distribusi posteriornya berbentuk serupa, walaupun bentuk prior yang sangat berbeda. Penjelasan penyelesaian soal :

Aretha : uniform prior , dengan (

( )

, maka posteriornya adalah

(

)

)

Maka posteriornya adalah

(

) ( ) dengan

Byron : Jeffreys prior, maka posteriornya adalah ( )

Maka posteriornya adalah Chase : priornya adalah adalah ( ( ) dengan (

(

) ), dengan , maka posteriornya

)

Maka

posteriornya ( )

adalah

Diana memiliki berat prior relative. Bentuk prior kontinunya ditemukan dengan interpolasi linear antara nilai-nilai tersebut. Konstanta dapat dikeluarkan ketika menemukan ( | )( ) ( )

posterior( ( | ) | )

dengan

menggunakan

Value 0 2 4 8 10

Weight 0 2 2 0 0

Diana mendapatkan posteriornya menggunakan ( | ) ( ) ( ) ( ( | ) | )

Setelah memalui perhitungan posterior di atas, maka didapat bentuk diagram untuk masingmasing posterior.

Terlihat dari diagram diatas, bentuk distribusi posteriornya tidak berbeda secara signifikan. Artinya, kita dapat menggunakan prior yang yang berasal dari distribusi seragam, distribusi Jeffrey ataupun dari keluarga beta karena pada akhirnya posteriornya akan menyerupai.

Ringkasan Distribusi Posterior Modus posterior : Ketika posterior berdistribusi menggunakan Minitab Rerata posterior : Jika distribusi posterior dapat ditemukan dengan numeric, maka median dan reratanya dicari dengan Minitab. Jarak interkuartil (IQR) ( : ) IQR dapat dicari dengan menggunakan ( ) median dari posterior dapat dicari dengan

Ketika posterior berdistribusi Minitab

Standar deviasi dari posterior didapat dari akar kuadrat dari varians dari posterior

Jika distribusi posterior dapat ditemukan dengan numeric, maka IQR dan varians posterior dicari dengan Minitab.

Contoh Soal (lanjutan) Keempat siswa menghitung ukuran dari suatu lokasi dan penyebarannya menggunakan distribusi posterior. Aretha,Byron dan Chase menggunakan distribusi posterior gamma untuk memudahkan dalam menghitung , dan Diana menggunakan ditribusi posterior numeric, maka ia menghitung dengan menggunakan Minitab, hasilnya dapat dilihat pada Table 10.2.

Perhitungan manual : Mean : Aretha : Byron : Chase :

Modus : Aretha : Byron : Chase :

Standar deviasi :

Aretha : Byron : Chase :

10.2 INFERENSI UNTUK PARAMETER POISSONDistribusi posterior merupakan kesimpulan lengkap dalam pendekatan Bayesian yang menjelaskan pemahaman kita tentang parameter pada data. Dalam pendekatan frequentist, ada beberapa tipe inferensi tentang parameter yang kita gunakan, diantaranya penaksiran titik, penaksiran interval dan pengujian hipotesis. Dalam makalah ini akan dibahas pendekatan Bayesian pada distirbusi Poisson dengan parameter , dan dibandingkan dengan pendekatan Frequentistnya.

PENAKSIRAN TITIKAkan dicari nilai dari parameter yang mengambarkan posterior paling baik, lalu gunakan sebagai titik taksiran. Mean kuadrat posterior dari adalah estimator rata-rata Poisson yang menghitung rata-rata kuadrat jarak dari nilai sebenarnya terhadap posterior. PMS( ) ( ) 2 g ( | y1,..., yn )d 0

( m' m' ) 2 g ( | y1,..., yn )d0

dimana m adalah mean posterior. Kuadratkan lalu pisahkan integralnya, menjadi PMS ( ) var( | y ) 0 (m' ) 2

Terlihat hasilnya akan selalu non negatif, sehingga estimator yang memiliki mean kuadrat posterior terkecil adalah posterior mean.

B

r' v'

Karena nilai estimator Bayesian lebih dekat dengan nilai asli, titik taksir Bayesian dari y parameter poisson digunakan sebagai posterior mean. Taksiran titik Frequentistnya f menjadi , yang merupakan mean sampel.

MEMBANDINGKAN ESTIMATOR UNTUK PARAMETER POISSONEstimator Bayesian bisa memiliki sifat yang unggul meskipun penaksirnya bias.

Seringkali hasilnya lebih baik dibandingkan Estimator Frequentist, meskipun dinilai menurut kriteria Frequentist. Galat mean kuadrat dari estimatornya adalah ( ) ( ) ( )

untuk mengukur jarak kuadrat rata-rata estimator dari nilai sebenarnya. Mean berada pada semua nilai positif yang mungkin dari sampel, itulah kriteria frequentistnya. Gabungkan yang bias dengan varians dari estimator ke dalam sekali pengukuran. Estimator frequentist dari parameter poisson adalah

Karena estimator di atas tak bias, maka rata-rata kuadratnya akan sama dengan variansnya, sehingga ( ) Ketika kita menggunakan prior gamma (r,v), maka posteriornya akan menjadi gamma(r,v). Biasnya akan menjadi ( ) ( )

(

)

(

)

(

)

(

)

( ) ( )

Variansnya menjadi ( ) ( ) ( )

(

)

(

)

Seringkali kita menemukan estimator Bayesian yang memiliki galat mean kuadrat lebih kecil dari range dimana letak parameternya diketahui Untuk lebih jelasnya diberikan contoh soal beserta penyelesaiannya sebagai berikut. Misalkan kita akan mengamati jumlah chocochip secara acak dari sampel yg terdiri dari 6 biskuit coklat. Kita ketahui bahwa jumlah chococip dalam satu biskuit adalah variabel acak poisson ( )

dan kita akan mengestimasi frequentist

tersebut. Kita ketahui bahwa

harus dekat dengan 2. Estimasi

tak bias dan galat rata-rata errornya menjadi ( )

Misalkan kita memilih untuk menggunakan prior gamma(2,1), yang memiliki mean prior =2 dan variansnya=2. Menggunakan persamaan diatas, kita akan menemukan galat rata-rata errornya dari estimator Bayesian menjadi ( ) ( )

(

)

Galat rata-rata kuadrat dari dua estimator ditunjukkan dengan grafik 10.3. Terlihat di rata-ratanya, estimator Bayesian lebih dekat dengan nilai yang asli daripada estimator frequentist di range 0.7 sampai 5. Karena kita percaya letak Bayesian lebih dipilh daripada estimator frequentist. ada pada range tersebut, maka estimator

INTERVAL BAYESIAN YANG KREDIBEL UNTUK

Wilayah 95% interval Bayesian yang kredibel untuk

bisa dicari dengan memperoleh ( )

perbedaan antara persentil ke-97.5 dan persentil ke-2.5 dari posterior. Ketika kita menggunakan salah satu prior, baik itu prior gamma(r,v), prior seragam positif prior Jeffrey ( ) , posteriornya adalah gamma(r,v). , atau

Jika kita memulai dari prior kontinyu umum, posteriornya tidak mungkin gamma. Interval Bayesian yang kredibel akan selalu berada pada persentil ke-97.5 dan ke-2.5 dari posterior, namun kita bisa mencari persentilnya secara numerik. Contoh 17 (lanjutan) Aretha, Byron, chase dan Diana menghitung 95% interval Bayesian yg kredibel untuk . Aretha, Byron dan Chase memiliki posterior gamma(r,v), dengan nilai r dan v yang berbeda karena priornya pun berbeda. Chase memiliki interval kredibel yang lebih pendek karena ia memasukkan informasi prior lebih dari yang lainnya. Diana menggunakan prior kontinyu umum sehingga ia harus mencari interval yang kredibel secara numerik. Person Posterior Credible Interval Lower Upper Aretha Byron Chase Gamma(27 , 8) Gamma(26.5 , 8) Gamma(32.25 10.5) Diana Numerik 2.224 4.666 2.224 2.174 , 2.104 4.762 4.688 4.219

Perhitungannya sebagai berikut: Aretha (positive uniform prior) 97.5thpercentiles (| )

(

(

)

)

2.5th percentiles:

(| ) ( ( )

)

Byron(Jeffreys prior) 97.5th percentiles : (| ) ( )

2.5th percentiles :

(| ) ( )

Chase(gamma prior) 97.5th percentiles : (| )

(

(

)

( )

)

2.5th percentiles :

(| )

(

(

)

( )

)

Ternyata hasil perhitungan kami berbeda dengan apa yang tertera di buku, namun nilai dari semua prior tersebut berdekatan.

UJI HIPOTESIS SEPIHAK BAYESIANBiasanya kita sudah memiliki nilai H0 dari parameter Poisson . Nilai inilah yang telah

dimiliki oleh parameter. Sebagai contoh, peubah acak Y bisa jadi jumlah cacat yang terjadi pada baju, dan adalah rata-rata dari jumlah yang cacat. H0 dari0-nya

adalah rata-rata dari jumlah

cacat ketika mesin berada dalam pengawasan. Kita tertarik dalam menentukan apakah nilai parameter Poissonnya lebih besar dari H0nya. Ini artinya jumlah kecacatan meningkat. Pada bagian ini, kita ingin mengetahui apakah nilai parameter Poissonnya lebih besar dari akan menggunakan uji hipotesis sepihak dengan asumsi: . Kita

Catatan: Dalam hal ini kita menggunakan uji pihak kanan karena kita ingin mengetahui apakah nilai lebih besar dari (menentukan setelah kita menghitung interval kredibelnya).

Altenatifnya ada pada arah yang akan kita deteksi. Kita menguji hipotesis secara Bayesian dengan menghitung probabilitas posteriornya dari H0. Integralkan fkp posterior dengan wilayah yang benar, maka kita akan mendapatkan probabilitas posteriornya. ( ) ( | )

Jika distribusi posteriornya gamma (r,s), kita dapat mengevaluasi probabilitas ini secara numerik. Kita membandingkan probabilitasnya dengan taraf signifikansi posterior H0-nya kurang dari , maka H0 ditolak pada taraf signifikansi . Contoh 17(lanjutan) 4 siswa akan menguji H0 . Jika probabilitas

Pada taraf signifikansi 5%. Aretha, Byron dan Chase memiliki posterior gamma(r,v) dengan nilai konstanta masing-masing. Diana memimiliki prior numeric, sehingga ia harus mengevaluasi integral numeriknya. Hasilnya ada pada tabel berikut. Probabilitas Posterior H0 ( Person Aretha Byron Chase Diana Posterior Gamma(27 , 80) Gamma(26.5 , 8) ( | | ) )

0.2962 9.3312

Gamma(32.5 , 10.5) 0.4704 Numerik 0.3012

UJI HIPOTESIS DUA PIHAK BAYESIANKadang kita ingin mengetahui apakah nilai parameter Poisson berubah atau tidak. Selanjutnya kita akan menguji hipotesis dua pihak

Karena kita memulai dari prior kontinyu, maka kita akan mendapatkan posterior kontinyunya. Probabilitas bahwa parameter kontinyu mengambil H0 adalah 0, sehingga kita tidak bisa menguji hipotesis dengan menjumlahkan probabilitas posteriornya. Jadi, kita mengui kredibilitas H0nya dengan mengamati apakah H0nya terletak pada interval ( kredibel untuk . Jika terletak diluar, kita tolak H0 dan meyimpulkan interval yang kredibel, kita tidak dapat menolak H0, Sehingga kita simpulkan nilai yang kredibel. ) yang

Jika terletak pada tetap menjadi