Bab X Estimasi Statistik -...

7
. _.- '~ .- BabX Estimasi Statistik KAT A KUNCI estimator konsisten adalah estimator yang cenderung sarna dengan nilai sebenarnya meskipun ukuran sampel semakin lama semakin besar. estimator dalah kuantitas yang didasarkan dari observasi sampel yang nilainya diambil sebagai indikator dari nilai parameter populasi yang tidak diketahui (sebagai contoh, rata-rata sampel x sering digunakan sebagai estimator dari mean populasi yang tidak diketahui 11) estimator likelihood maksimum adalah sebuah estimator yang mempunyai atribut sebagai berikut: jika nilai sesungguhnya dari parameter yang tidak diketahui mempunyai nilai ini, maka probabilitas perolehan sampel yang diobservasi dimaksimumkan. inferensia statistik adalah proses penggunaan observasi sampel untuk mengestimasi karakteristik dari populasi. estimator tidak bias adalah estimator yangnilai harapannya sama dengan nilai sesungguhnya dari parameter yang diestimasi. Hingga saat ini, dalam sebagian besar problem-problem yang telah kita kerjakan, kita telah mengetahui sebelumnya apa itu probabilitas. Sebagai contoh, ketika kita mengambil kartu-kartu atau melempar uang, kita dapat menghitung semua probabilitas secara eksplisit. Tetapi sebelumnya kita tidak tahu probabilitas dari hampir seluruh problem-problem nyata. Kita harns menggunakan metode inferensia statistik untuk mengestimasinya. Di bawah ini beberapa contoh penggunaan inferensia statistik untuk mengestimasi probabilitas: · Anggaplah bahwadistribusi tinggi badan dari semua orang di negara ini dapatdigambarkan oleh distribusi normal. Tetapi sebelumnya kita tidak tahu berapa mean (u) dari distribusi tersebut. Oleh karena itu kita harns mengestimasinya. · Misalnya kita sedang melakukan penelitian untuk mengukur berat molekul dari suatu bahankimia. Secararata-rata, andadapat berharap bahwahasil pengukuran akan merupakan nilai sesungguhnyadari beratmolekul. Tetapi juga, setiappengukuran biasanyamengandung kesalahan acak. Kadang-kadang sering masuk akal untuk menganggap bahwa hasil aktual dari setiap pengukuran mempunyai distribusi normal dan rata-rata (mean)nya merupakan nilai yang sesungguhnya dari kuantitas yang anda ukur. 135

Transcript of Bab X Estimasi Statistik -...

. _.- '~ .-

BabX EstimasiStatistik

KAT A KUNCI

estimator konsisten adalah estimator yang cenderung sarna dengan nilai sebenarnyameskipun ukuran sampel semakin lama semakin besar.estimator dalah kuantitas yang didasarkan dari observasi sampel yang nilainya diambilsebagai indikator darinilai parameter populasi yangtidak diketahui (sebagaicontoh, rata-rata

sampel x sering digunakan sebagai estimator dari mean populasi yang tidak diketahui 11)

estimator likelihood maksimum adalah sebuah estimator yang mempunyai atribut sebagaiberikut: jika nilai sesungguhnya dari parameter yang tidak diketahui mempunyai nilai ini,maka probabilitas perolehan sampel yang diobservasi dimaksimumkan.inferensia statistik adalah proses penggunaan observasi sampel untuk mengestimasikarakteristik dari populasi.estimator tidak bias adalahestimatoryangnilaiharapannyasamadengannilai sesungguhnyadari parameter yang diestimasi.

Hingga saat ini, dalam sebagian besar problem-problem yang telah kita kerjakan, kitatelah mengetahui sebelumnya apa itu probabilitas. Sebagai contoh, ketika kita mengambilkartu-kartu atau melempar uang, kita dapat menghitung semua probabilitas secara eksplisit.Tetapi sebelumnya kita tidak tahu probabilitas dari hampir seluruh problem-problem nyata.Kita harns menggunakan metode inferensia statistik untuk mengestimasinya.

Di bawah ini beberapa contoh penggunaan inferensia statistik untuk mengestimasiprobabilitas:

· Anggaplah bahwadistribusi tinggi badan dari semua orang di negara ini dapatdigambarkanoleh distribusi normal. Tetapi sebelumnya kita tidak tahu berapa mean (u) dari distribusitersebut. Oleh karena itu kita harns mengestimasinya.· Misalnya kita sedang melakukan penelitian untuk mengukur berat molekul dari suatubahankimia. Secararata-rata, andadapat berharap bahwahasil pengukuran akan merupakannilai sesungguhnyadari beratmolekul. Tetapi juga, setiappengukuran biasanyamengandungkesalahan acak. Kadang-kadang sering masuk akal untuk menganggap bahwa hasil aktualdari setiap pengukuran mempunyai distribusi normal dan rata-rata (mean)nya merupakannilai yang sesungguhnya dari kuantitas yang anda ukur.

135

. Anggaplah kita mengetahui dua macam ujian seseorang yang diberikan secara acakdimana korelasi keduanya tidak kita ketahui. Kita mencoba mengestimasi korelasinya.

EST/MAS/ MEAN

Kita akan memikirkan masalah umum dalam mengestimasi mean 0.1)dari variabel acakX yang mempunyai distribusi normal. Kuantitas populasi yang tidak diketahui seperti udisebut parameter. Misalnya kita mempunyai data observasi sebanyak n dari nilai variabel

acak, yang kita sebut sebagai: XI' X2, ... Xn' Kita perlu membuat asumsi penting, yaitu bahwamasing-masing nilai dari X adalah independen (bebas) terhadap nilai-nilai yang lain. (Prosespengambilan disebut pemilihan sampel acak yang berukuran n yang diambil dari distribusitertentu).

Jelaslah estimasi kita untuk rata-rata (mean) adalah:

(estimasi mean) =x -n

Quantitas ini hanya merupakan nilai rata-rata dari keseluruhan X; kita menyebut xatau

rata-rata sampel. Quantitas x adalah salah satu contoh dari statistik. Statistik adalah fungsi

tertentu dari obyek-obyek dalam variabel acak. Pada waktu statistik digunakan untukmengestimasi nilai dari kuantitas yang tidak diketahui, akan disebut estimator. Dalam kasus

ini x digunakan sebagai estimator untuk J.LKadang-kadang tanda topi kecil 0.1) diletakkan

di atas kuantitas untuk menunjukkan bahwa itu adalah estimatoruntuk parameter. Pemyataan

'J..l=x berarti kita menggunakanrata-rata sampelx sebagaiestimatoruntuk rata-ratapopulasi (pupulation mean) J.LPerkirakan (estimate) adalah nilai dari estimator dalamlingkungan tertentu. Jika sampel yang kita amati terdiri dari angka-angka sn ,4/10,12 dan 4,

maka x = 'J..l=7 adalah perkiraan (estimate) untuk mean (rata-rata) pupulasi.

Apa yang kita lakukan menunjukkan rata-rata sampel x mempunyai beberapa halmenarik pada waktu digunakan untuk mengestimasi mean.

YANG HARUS DIINGA T

1. Inferensia statistik adalah suatu proses penggunaan informasi dari pengamatan sampeluntuk mengestimasi sifat dari populasi berdasarkan sampel yang dipilih.

2. Statistik adalah suatu kuantitas yang dihitung dengan menggunakan nilai-nilai yangdiamati dari sampel.

3. Estimator adalah statistik yang digunakan untuk mengestimasi nilai dari kuantitaspopulasi yang tidak diketahui. Sebagai contoh; rata-rata sampel:

-x=

n

136

~

digunakan sebagai estimator untuk rata-rata (mean) populasi yang tidak diketahui. Nilaipopulasi yang tidak diketahui disebut parameter.

MAXIMUM LIKELIHOOD ESTIMATOR

Anggaplah nilai sesungguhnya dari J.ladalah 10000. Tetapi rata-rata dari sampel tertentuadalah 7. Kejadian ini tidak dikehendaki. Di sisi lainjika J.l=7, maka kita ingin mendapatkannilai 7 untuk rata-rata sampel. Dalam kenyataan untuk setiap nilai kemungkinan Jl,kita dapat

menghitung probabilitas untuk mendapatkan nilai tertentu X untuk rata-rata sampel. Kita

tidak akan mengestimasi J.lyang hanya mempunyai satu nilai, dimana probabilitas untukmendapatkan rata-rata sampelnya sangat kecil. Kita akan memilih perkiraan untuk J.ldimanaprobabilitas mendapatkan rata-rata sampel yang diamati besar. Secara umum nilai dari J.l

yang memberikan probabilitas terbesar untuk mendapatkan nilai observasi sebenarnya dari

x disebut maximum likelihood estimator untuk J.L Ini dapat ditunjukkan bahwa rata-rata

sampel x akan menjadi maxsimum likelihood estimator untuk J.L

Metode dari maximum likelihood dapat juga digunakan untuk banyak tipe problem.Anggaplah, a adalah parameter yang tidak diketahui dalam distribusi probabilitas tertentu.Dalam banyak kasus kita dapat menghitung maximum likelihood estimator untuk a. Sebagaicontoh, kita dapat menunjukkan bahwa maximum likelihood estimator untuk varian (S2)daridistribusi normal adalah:

cr2=n

(Kita menyebut s/ sebagai varian sampel. Lihat bab2.)Jika kita mencoba untuk mengestimasi probabilitas keberhasilan p untuk variabel

random dengan distribusi binomial, maka estimator likelihood maksimum adalah:

Jumlah Keberhasilan

Jumlah Percobaan

anggaplah bahwa x dan y adalah dua variabel acak yang korelasinya tidak kita ketahui.Kita ingin menggambarkan estimator likelihood maksimum untuk korelasi. Misalnya kitamempunyai n pengamatan, masing-masing untuk X dan Y:

(X1,Y1), (X2,Y2), (X3,Y3), .., (Xn,Y)

Kita menghitung X,y, xy, Sx= -YX?- x2, dan Sy=-Yf - f. Kemudian estimator likelihoodmaksimum untuk korelasi adalah:

xy - xys sx y

137

- --

- - ---

Kitamenyebutkuantitas ini sebagai Koetisienkorelasi sampel. Sebagai contoh, anggaplahkita mempunyai hasil observasi untuk X dan Y:

X:1OY: 12

4

6

9

18

7

10

3

6

oo

1929

Kemudian X = 7,43; x2 = 88,0; sx= 5,729; Y = 11,57;? = 211,6;sy= 8.813;dan xy= 135. Koetisien korelasi sampel adalah

135 - 7,43 x 11,57= 0,971

5,729 x 8,813

Hal penting lain dari estimator likelihood maksimum adalah yang disebut invarianceproperty. Anggaplah a adalah estimator likelihood maksimum bagi suatu parameter a, tetapikita benar-benar ingin tahu estimator likelihood maksimum dari ...Ja.Jika kita terpaksa harnsmenebak, kita mungkin mengestimasi bahwa va adalah sama dengan ...Ja,dan kebetulan kitabenar. Misalnya, estimator likelihood maksimum dari deviasi standar (0-)adalah akar darivarian sampel. Secara umum, jika h(a) adalah fungsi sembarang dari parameter a, makaestimator likelihood maksimum dari h(a) adalah h(a).

ESTIMATOR KONSISTEN

Hal penting lainnya yang kita inginkan dari estimator kita adalah bahwa estimatormempunyai sifat yang konsisten. Anda akan menjadi ragu dan bingung bila menghadapiorang yang tidak konsisten, begitu juga bila anda menghadapi estimator yang tidakkonsiten.Inilah apa yangkita maksuddengan sifatkonsisten (ajeg)dariestimator. Anggaplahkita mampu untuk meningkatkan ukuran sampel kita lebih besar dan dengan demikian kitamendapatkan pengamatan yang lebih banyak dari variabel acak X.

Dalam kasus ini, apakah kita tahu bahwa nilai barn dari x akan lebih mendekati mean(rata-rata) dari J.latau ada kemungkinan lebih jauh? Estimator yang konsisten adalahestimator yang akan bergerak mendekati nilai sebenarnya bila jumlah elemen sampelditambah.

ESTIMATOR TIDAK BIAS

Pertanyaan penting lain yang mungkin kita tanyakan adalah apakah estimator merupakannilai sebenarnya? Estimator dikatakan tidak bias bila nilai harapan dari estimator samadengan nilai sesungguhnya dari parameter yang kita estimasi.

Sebagai contoh, kita telah tahu bahwa E(X) = J.1,jadi rata-rata sampel adalah estimatoryang tidak bias dari rata-rata populasi ~ Tetapi jika kita menghitung harapan dari variansampel (SI2),akan kita dapatkan bahwa :

138

(n - l)cr2

n

Karena E(S[2)tidak sama dengan S2,berarti s12 bukanlah estimator tidak bias dari a2. Kitadapat menghitung statistik barn :

Harapan dari statistik adalah:

E(s/) =E (ns(2 E(sI2)n

)=n-l n-l

= cr2

Dengan demikian S22adalah estimator tidak bias dari varian. Ingatlah bahwa S22dihitung

dengan cara yang sama, kecuali penjumlahan darijarak masing-masing Xke X dibagi dengan

n-l daripada dibagi dengan n. Sekarang kita tahu mengapa kita melakukan hal ini. Kitamenyebut S(2sdebagai varian tipe 1 dan S22sebagai varian tipe 2. Ini menggambarkan situasidimana tidak mungkin untuk menemukan estimator tunggal yang baik untuk setiap sifat yangdiinginkan.

Secara umum akan ada banyak estimator tidak bias yang berbeda-beda untuk parameteryang sama. Jika mungkin kita ingin memilih sebuah estimator yang mempunyai variansekecil mungkin. Karena estimator dalah statistik yang dihitung dari sampel acak, makavariabel acaknyalah yang dapat dihitung variannya. (Dustribusi estimator sering disebutdistribusi sampling dari estimator). Sebagai contoh, anggaplah kita sedang mencoba untuk

mengestimasi rata-rata (mean) dari variabel acak X berdasarkan sampel dari 3 observasi XI'x2' x3. Biasanya kita menggunakan

XI + x2 + x3 XI x2 x3x= +-+-+-

3 3 3 3

Sebagai estimator. Kita tabu bahwa estimator adalah tidak bias. Kita akan menemukanvanan:

Var(X) = 1/9 [Var(xl) + var(x2) + var(x3)]

~ cr2/3

139

n

ns 2 Li_( (Xi-X)2Is22= =

n-l n-l

--

~

Anggaplah seseorang menerka bahwa kita harns menggunakan estimator q sebagaiberikut:

q =x/2 + x/3 + x/6

Kita dapat menghitung:

Xl x2 x3E(q) =E (-) + E(-) + E (-)

236

= (1/2 + 1/3 + 1/6) E(x) =Il

Karena E(q) = J.l,kita dapat melihat bahwa q adalah estimator tidak bias dari J..LJika kitamenghitung variannya:

Var(q) = 1/4 Var(xl) + 1/9 Var(X2) + 1/36 Var(x3)=14/36 a2

kita menemukan bahwa Var(Q) > Var(X). Dengan demikian x adalah estimator yang lebihbaik karena mempunyai varian yang lebih kecil, meskipun lebih jauh dari J..LKenyataannyabahwa sebuah estimator yang tidak bias tidak berarti bahwa ini adalah satu-satunya yangterbaik untuk digunakan.

YANG HARUS DIINGAT

1. Adabebeapa sifatyangdiharapkandimilikiolehestimatorjika estimator itumenyediakanestimasi yang baik bagi parameter populsi.

2. Estimator likelihood maksimum mempunyai sifat-sifat sebagai berikut: jika nilaisesungguhnyadariparamereryang tidakdiketahuimempunyainilai ini,makaprobabilitasuntuk mendapatkan sampel yang diamati adalah maksimum.

3. Estimator konsisten adalahestimator yangnilainya akanmendekatinilai sebenarnyajikaukuran sampel diperluas.

4. Estimatortiadk bias adalahestimatoryangnilaiharapannyasarnadengannilaisebenarnya.

PENDEKA TAN SA YES/AN

Pendekatan penting lainnya dalam estimasi statistik adalah pendekatan Bayesian.Dalam pendekatan ini diasumsikan bahwa anda telah mempunyai beberapa informasi tent3?ggambaran nilai dari parameter yang sedang and a cob a untuk diestimasi. Distribusi probabilitasini disebut prior distribution. Setelah mendapatkan data observasi, anda mempelajarikembali distribusi probabilitas yang diestimasi berdasarkan pada apa yang anda amati. TeoriBayes menjelaskan bagaimana mempelajari kembali estimasi probabilitas dari suatu kejadiandim ana anda mendapatkan lebih banyak lagi informasi. Distribusi probabiolitas yang

140

idpelajari kembali didasarkan pada observasi yang diketahui sebagai posterior distribution.Kita tidak akan membahas metode Bayesian dalam buku ini.l

YANG HARUS DIINGAT

1. Apabila tersedia beberapa informasi tentang nilai parameter yang diestimasi, distribusiprobabilitas disebut Prior Distribution.

2. Apabila tersedia informasi yang lebihbanyak, prior distribution dapat dipelajari kembalidengan menggunakan teori Bayes, untuk mendapatkan posterior distribution.Dalam bab ini kita mempelajari berbagai cara untuk mendapatkan angka yang dapat

digunakan untuk mengestimasi nilai parameter yang tidak diketahui. Estimasi seperti itudisebut sebagai estimasi titik. Seringkali kita ingin mengetahui apakah nilai sebenarnya dariparameter mendekati estimasi titik ataujauh dari estimasi titik. Untuk menjawab pertanyaanini kita harns menghitung estimasi interval yang akan kita diskusikan pada bab berikutnya.

ISTILAH-ISTILAH YANG HARUS DIPELAJARI

Pendekatan BayesianEstimator yang konsistenEstimasiEstimatorEstimasi intervalEstimator likelihood maksimum

ParameterEstimasi titik

Distribusi sampelStatistikStatistik inferensial

Estimator yang tidak bias

141

---- -- -