Ringkasan Bab 2 dan Bab 3 Bayesian Statistik.docx

21
BAB 2PENGUMPULAN DATA ILMIAH Dalam metode statistic telah dikembangkan untuk mengumpulkan data secara acak, namun tetap relevan dengan pertanyaan khusus yang kita inginkan. Kesimpulan selalu bergabung pada model probabilitas yang kita asumsikan benar. Ketika data tidak dikumpulkan secar acak, maka terdapat resiko bahwa pola yang diamati menjadi lurking variable dan bukan cerminan sejati dari pola yang mendasarinya. 2.1 Pengambilan Sample Dari Populasi yang Nyata Istilah mendasar sebagai berikut: Populasi : kelompok objek atau orang yang diinginkan informasinya. Setiap anggota populasi memiliki nomor terkait dengan informasi. Secara khusus kita menginginkan informasi tentang parameter populasi, yang mana nomor terkait dengan distribusi dari populasi, misalnya rata- rata, median, dan standar deviasi. Karena jumlah yang terlalu besar, area yang luas, dan biaya yang banyak, sulit untuk mendapat informasi tentang seluruh unit populasi, sehingga kita tidak mengetahui parameternya. Sampel : bagian dari populasi. Statistic sampel dihitung dari data sampel. Statistik memiliki hubungan erat dengan sampel , sebagaimana pada parameter dengan populasi. Namun, sampel diketahui, jadi statistiknya dapat dihitung. Kesimpulan statistic : membuat pernyataan tentang parameter populasi dengan basis statistic sampel. Kesimpulan yang bagus dapat dibuat jika sampel

Transcript of Ringkasan Bab 2 dan Bab 3 Bayesian Statistik.docx

BAB 2PENGUMPULAN DATA ILMIAHDalam metode statistic telah dikembangkan untuk mengumpulkan data secara acak,

namun tetap relevan dengan pertanyaan khusus yang kita inginkan. Kesimpulan selalu bergabung pada model probabilitas yang kita asumsikan benar. Ketika data tidak dikumpulkan secar acak, maka terdapat resiko bahwa pola yang diamati menjadi lurking variable dan bukan cerminan sejati dari pola yang mendasarinya.

2.1 Pengambilan Sample Dari Populasi yang NyataIstilah mendasar sebagai berikut:

Populasi : kelompok objek atau orang yang diinginkan informasinya. Setiap anggota populasi memiliki nomor terkait dengan informasi. Secara khusus kita menginginkan informasi tentang parameter populasi, yang mana nomor terkait dengan distribusi dari populasi, misalnya rata-rata, median, dan standar deviasi. Karena jumlah yang terlalu besar, area yang luas, dan biaya yang banyak, sulit untuk mendapat informasi tentang seluruh unit populasi, sehingga kita tidak mengetahui parameternya.

Sampel : bagian dari populasi. Statistic sampel dihitung dari data sampel. Statistik memiliki hubungan erat dengan sampel , sebagaimana pada parameter dengan populasi. Namun, sampel diketahui, jadi statistiknya dapat dihitung.

Kesimpulan statistic : membuat pernyataan tentang parameter populasi dengan basis statistic sampel. Kesimpulan yang bagus dapat dibuat jika sampel representatif dari populasi. Distribusi sampel harus mirip dengan distribusi populasi.

Random sampel memberikan representatif sampel daripada metode non random sampel seperti quota sampel atau judgement sampel. Random sampel tidak hanya meminimalkan error pada kesimpulan, mereka juga mengizinkan pengukuran error.

Random Sampling Sederhana (tanpa penggantian)

Random sampling sederhana membutuhkan kerangka sampling, yang mana daftar dari populasi di nomori dari 1 sampai N. Urutan dari n nomor acak ditarik dari nomor 1 sampai N. Nomor yang telah di tarik telah dihapus dari pertimbangan (tidak bisa ditarik lagi). Setiap kemungkinan sampel dari ukuran yang dibutuhkan adalah sama.

Stratified Random Sampling/ Random Sampling Berstrata

Dalam stratified random sampling atau random sampling bertingkat, populasi dibagi menjadi subpopulasi yang dinamakan strata. Setelah itu random sapling sederhana digunakan untuk setiap subpopulasi dimana setiap ukuran stratum(lapisan) sampel proporsional dengan ukuran subpopulasi. Setiap kemungkinan item adalah sama untuk dipilih. Dan setiap kemungkinan sampel dari setiap representasi stratum sebagai proporsi yang benar adalah sama. Metode ini memberikan kesimpulan yang lebih akurat ketika variable yang berkepentingan memiliki distribusi yang berbeda atas strata. Jika variabel sama untuk setiap strata, stratified random sampling tidak leboh akurat daripada random sampling sederhana.

Cluster Random Sampling/ Klaster Random Sampling

Dalam cluster random sampling, kita membagi daerah menjadi klaster(gugus). Kemudian kita membuat kerangka sampling untuk klaster. Sampel random dari cluster terpilih. Segala item di cluster yang dipilih adalah termasuk dalam sampel. Kekurangan metode ini adalah item pada klaster cenderung sama dengan item pada klaster yang berbeda. Kelebihannya jika mendapat sampel yang besar biasanya lebih murah dengan metode ini.

Nonsampling Errors in Sample Surveys /

Nonsampling error ini termasuk respon yang bias; orang yang merespon bisa saja agak berbeda dengan yang tidak merespon. Survey yang terencana dengan baik akan memiliki callback, dimana pada sampel yang belum menanggapi akan dihubungi kembali, dalam urutan untuk mendapatkan respon dari beberapa orang di sampel asli yang mungkin. Error juga muncul dari pertanyaan yang kurang baik untuk responden. Pertanyaan survey harus diuji coba pada studi percontohan untuk menentukan apakah ada ambiguitas.

Randomized Response Methods / Metode Respon Acak

Metode random acak digunakan agar responden dapat memberikan jawaban yang baik dan tidak menolak untuk menanggapi pertanyaan. Ada dua pertanyaan, pertanyaan sensitive dan pertanyaan boneka. Kedua pertnyaan memiliki set jawaban yang sama. Namun jawaban yang salah berasal dari probabilitas acak yang diketahui. Untuk itu, informasi tentag populasi dapat diperoleh tanpa mengetahui informasi personal dari individu yang disurvei, karena hanya individu yang tau pertanyaan mana yang mereka jawab.

2.2 Observational Studies And Designed ExperimentsObservational Study

Jika kita mengamati perbedaan substansial antara dua grup, kita tidak dapat menyimpulkan hubungan sebab akibat dari studi observational. Beberapa kesimpulan kita buat dari studi observasioal adalah saling terikat dari asumsi bahwa tidak ada perbedaan antara distribusi dari kelompok perlakuan dan kelompok kontrol. Peneliti mengumpulkan data dari kumpulan unit eksperimen yang tidak dipilih secara acak, maka mungkin ada lurking variabel menjadi kurangnya pengacakan

Designed Experiment/ Perancangan Percobaan

Kita memerlukan data dari perancangan percobaan jika kita ingin membuat kesimpulan tentang hubungan sebab akibat. Peneliti menggunakan pengacakan untuk memutuskan subjek pada grup yang diperlakukan sebagai eksperimen (treatmet group) dan grup kontrol. Kita harus memastikan bahwa setiap grup memiliki rentangan unit yang mirip.

Completely Randomized Design

Peneliti secara acak menugaskan unit menjadi grup yang diamati (treatment group) secara bebas. Satu-satunya ketergantungan adalah pembatas bahwa treatment grop adalah jumlah yang benar. Pengacakan yang saling bebas memastikan bahwa perbandingan antara treatment group dan kontrol group itu adil (grup mengandung kisaran yang sama dari unit eksperimen)

Pada gambar 2.2 kita melihat empat treatmen grup memiliki kisaran yang sama unit eksperimental. Nilai yang diharapkan dari lurking variabel adalah sama untuk setiap grup. Rata-rata dari lurking variabel dari setiap grup mendekati nilai rata-rata dari populasi karena angka pengacakan saling bebas itu besar.

Randomized Block design

Peneliti mengelompokkan unit grup menjadi blok yang mengandung unit yang mirip. Orang mungkin berpikir bahwa penilaian tentang menugaskan unit ekperimental untuk kelompok yang diamati dan kelompok kontrol akan menyebabkan kisaran unit yang mirip yang diberikan kepada kedua kelompok.

Segala pengetahuan sebelumnya yang kita miliki seharusnya kita gunakan sebelum pengacakan. Dengan memilih yang mana menuju setiap blok variabel, kita menjaga terhadap resiko dari variabel pengamatan yang lain. Pada gambar 2.3, memperlihatkan unit eksperimental disetiap blok mirip. Kemudian unit di setiap block secara random di tugaskan, satu dari setiap kelompok. Pengacakan di blok yang terpisah dilakukan secara saling bebas satu sama lain.

BAB 3MENAMPILKAN DAN MERINGKAS DATAKita menggunakan metode statistik untuk mengekstrak informasi dari data dan memperoleh wawasan menuju proses dasar yang menghasilkan data. Sering kali set data terdiri dari pengukuran dari satu atau lebih variabel atas unit eksperimental satau atau lebih sampel. Distribusi dari sample akan memberikan kita wawasan dari distribusi populasi.

Alat untuk analisis data standar

Statistik terurut. Data diurut dari terkecil menuju terbesar y1 , . . . , yn. Median. Nilai tengah dari data observasi. Ketika statistik terurut n adalah genap

maka nilai tengahnya y ¿]. Ketika n adalah ganjil maka nilai tengahnya adalah rata-

rata dari 2 dua statistik terurut yang terdekat y [ n+12 ]=12 . y|n2|+12. y

|n2+1|. Median

juga diketahui sebagai quartil kedua.

Quartil bawah (Q1). Q1= y [n+14

]. Jika bukan bilangan bulat, maka diambil rata-rata

dari dua statistic terurut yang terdekat.

Quartil atas (Q3). Q3= y[3 (n+1)4

]. Jika bukan bilangan bulat, maka diambil rata-rata

dari dua statistic terurut yang terdekat.

3.1 Graphically Displaying A Single Variable / Grafik Menampilkan Satu Variabel

Tampilan visual dari pengukuran sampel , sebagai berikut :

Dotplot

Setiap observasi di representasikan dengan titik sepanjang sumbu horizontal. Sangat mudah untuk mengambil ide umum dari distribusi nilai sampel.

Boxplot ( Box and Whisker Plot)

Metode grafik yang simpel untuk meringkaskan distribusi dari data adalah boxplot. Nilai dari sampel diberikan adalah statistic terurut y1 , . . . , yn. Lima ringkasan data diketahui ialah y1, Q1, Q2, Q3 dan yn. Langkah dalam membuat boxplot adalah:

Gambar dan beri nama sumbu Gambar Box (kotak) yang diakhir dengan Kuartil pertama dan kuartil ketiga. Gambar garis melalui garis sebagai kuartil kedua (median) Gambar garis (whisker) dari kuartil pertama sampai observasi terendah. Dan

gambar garis (whisker) dari kuartil ketiga sampai observasi tertinggi.

Gambar 3.2 adalah boxplot dari table 3.1. Terlihat bahwa distribusi data cukup simetris tetapi dengan ekor bawah sedikit panjang.

Steam and Leaf Diagram / Diagram Batang-Daun

Grafik yang cepat dan mudah yang mengizinkan kita untuk mengekstrak informasi dari sampel. Untuk batang merepresentasikan digit pertama dari setiap data item, dan daun merepresentasikan digit selanjutnya. Langkahnya adalah

Gambar sumbu vertical (batang) dan berikan skala untuk unit batang. Selalu gunakan skala linear.

Plot daun untuk digit selanjutnya. Kita dapat membulatkan digit daun, tetapi tidak perlu repot jika kita melakukannya dengan tangan. Kasus lain, kita bisa saja kehilangan beberapa informasi jika melakukan pembulatan.

Urutkan daun dengan yang terkecil dekat dengan batang sampai yang terbesar jauh dengan batang.

Gambarkan unit daun pada diagram kita.

Gambar 3.3 adalah diagram batang daun dari pengukuran table 3.1

Terdapat 29 pengukuran. Kita dapat median X 29+12

=X15 adalah 5,46 dan Q1

X 29+14

=X7 12 , Q1=

12. X7+

12. X8 adalah 5,295.

Frequency Table / Tabel Frekuensi

Langkan dalam membuat table frekuensi adalah :

Partisi nilai yang mungkin dalam kelompok yang tidak tumpang tindih (sampah). Biasanya menggunakan kelompok dengan banyak yang sama.

Simpan setiap item dalam grup. Hitung angka dari item setiap grup.

Tabel 3.2 memperlihatkan table frekuensi. Terdapat dua cara untuk memperlihatkan data dalam table frekuensi. Mereka adalah Histogram dan Poligon Frekuensi Kumulatif.

Histogram

Langkah untuk mengkonstruksi histogram adalah:

Berikan batas grup pada sumnbu horizontal , tariklah skala linear. Gambar persegi panjang untuk setiap grup dimana area balok proporsional untuk

frekuensi grup tersebut. Tidak menempatkan celan antara balok jika data kontinyu. Skala pada sumbu vertical adalah kepadatan, dimana frekuensi grup terbagi atas

lebar grup. Area batang proporsional terhadap frekuensi. Yang penting adalah bentuk grafik, bukan skala vertikalnya

Gambar 3.4 menunjukkan histogram dari table 3.1 dengan menggunakan 12, 6 dan 4 grup. Kita liha histogram dengan 12 grup memiliki “gigi gergaji” . histogram dengan 6 grup memberikan representasi yang baik dari dasar distribusi. Histogram dengan 4 grup menghilangkan banyak detail. Dan histogram terakhis dengan lebar grup yang berbeda. Tinggi dari baris terlbear dipersingkat untuk membuat area proporsional kepada frekuensi.

Cumulative Frequency Polygon / Poligon Frekuensi KumulatifPoligon Frekuensi Kumulatif biasanya disebut Ogiv. Langkah membuat Ogiv adalah : Kelompokkan batas pada sumbu horizontal , tariklah skala linear Frekuensi atau persentasi diperlihatkan pada sumbu vertical. Untuk setiap grup, plot( batas atas kelas, frekuensi kumulatif). Kita tidak

mengetahui nila eksak dari setiap observsi dalam grup. Namun kita mengetahui bah semua nilai dalam grup lebih kecil atau sama dengan batas atas.

Gabungkan poin yang di plot dengan garis. Menggabungkannya dengan garis lurus, menunjukkan bahwa kita mempertimbangkan setiap nilai dengan kemungkinan yang sama.

Untuk mendapatkan median, naik hingga 50% pada sumbu vertical dan tarik garis horizontal untuk polygon frekuensi kumulaif dan garis vertical hingga sumbu horizontal. Begitupun untuk kuartil pertama dan kuartil ketiga.

3.2 Graphically Comparing Two Samples/ Grafik Membandingkan Dua Sampel

Kita mungkin memiliki tanggapan treatment grup dan control grup dari percobaan acak. Kita ingin menentukan apakah perlakuan telah efektif atau belum. Gambar untuk dua sampel harus sebaris dan dengan skala yang sama.

Contoh

Antara tahun 1879 dan 1882, para saintis merancang eksperimen untuk menentukan kecepatan cahaya. Pada table 3.3 , 20 pengukuran pertama dibuat tahun 1879, dan 23 pengukuran tambahan telah dibuat tahun 1882.

Gambar 3.6 menunjukkan dotplot yang ditumpuk untuk 2 set data. Gambar 3.7 menunjukkan boxplot yang ditumpuk untuk 2 data set. Dan gambar 3.8 menunjukkan diagram batang daun, dengan batang berada di tengah dan simpan daun untuk satu set data di bagian kanan, dan daun untuk set data lainnya di bagian kanan.

3.3 Measure Of Location / Ukuran LokasiUkuran Lokasi yang paling umum digunakan adalah mean dan median. Kita akan melihat pada setiap keuntungan dan kerugiannya.

Mean : Keuntungan dan Kerugian

y=1nx∑i=1

n

y i=1nx( y1+…+ yn)

Mean mudah dan sederhana untuk dihitung. Mean memiliki sifat matematika yang baik

Contoh y i=u i+v i+w i akan bernilai sama jika kita mengambil mean dari setiap aspeknya y=u+v+w

Mean menggabungkan dengan baik. Misal data berasal dari 2 sumber, pria dan wanita yang di wawancara terpisah. Mean seluruhnya dari rata-rata dari mean prian dan rata-rata dari mean wanita adalah proposional dari sample pria dan wanita.

Mean adalah pusat dari data. Mean adalah poin yang seimbang dalam garis data. Namun ini sangat dipengaruhi oleh outliers.

Menghitung mean untuk data berkelompok

Untuk data yang dalam bentuk table frekuensi, kita hanya mengetahui batas setiap pengamatan, kita tidak memiliki nilai yang actual. Berikut dua asumsi yang dapat dibuat dari nilai actual:

1. Semua nilai dalam kelompok terletak di titik tengah kelompok2. Semua nilai dalam kelompok secara merata tersebar di kelompok

y=1n∑h=1

J

n j x m j=∑h=1

J n jnxm j

Dimana nj adalah nomor dari pengamatan dari interval ke-j , n adalah total nomor dari pengamatan dan mj adalah titik tengah dari interval ke-j.

Median : Keuntungan dan Kerugian

Median tidak terpengaruh oleh outlier. Median digunakan terutama untuk data yang miring seperti pendapatan, dimana terdapa outlier yang mungkin mempengaruhi rata-rata.

Mean yang dipangkas

xk=∑i=k+1

n−k

x0

n−2kDengan membuang k terbesar atau k terkecil dari statistic terurut dan mengambil

rata-rata sisa. X0 adalah mean (tidak ada pemangkasan). Jika n genap, maka k= n2

,

kemudian xk adalah mediannya. Jika n ganjil, maka k=n−22

kemudian xkadalah

mediannya. Jika k bernilai kecil, mean yang dipangkas akan memiliki sifat mirip

dengan mean (tanpa pemangkasan). Jika k bernilai besar, maka mean yang dipangkas memiliki sifat mirip dengan median.

3.4 Measures Of Spread/Ukuran PenyebaranSetelah menentukan penempatan data pada garis angka, selanjutnya adalah distribusi dari data untuk menentukan bagaimana penyebaran datanya. Ukuran penyebaran akan memberikan ukuran dari variabilitas. Berikut adalah ukuran umum dari variabilitas :

Range : Keuntungan dan Kerugian

R= y[n]− y [1 ]

Observasi yang terbesar dan terkecil paling mungkin menjadi outliers. Maka range sangat terpengaruh dengan outliers

Interquartil Range Keuntungan dan Kerugian

IQR=Q 3−Q1

Interquartil range tidak terpengaruh oleh outlier. Tetapi tidak digunakan dalam kesimpulan karena seperti median yang peka terhadap penambahan jumlah.

Variansi : Keuntungan dan Kerugian

Var ( y )=1nx∑i=1

n

( yi− y)2

Rata-rata dari kuadrat deviasi dari mean, sangat dipengaruhi oleh outliers. Variansi memilih sifat matematika yang baik dan penggabungan yang baik, tetapi itu adalah unit kuadrat dan tidak langsung dibandingkan dengan mean.

Menghitung Variansi untuk Data Berkelompok

Untuk data yang dalam bentuk table frekuensi, kita hanya mengetahui batas setiap pengamatan, kita tidak memiliki nilai yang actual. Berikut dua asumsi yang dapat dibuat dari nilai actual:

1. Semua nilai dalam kelompok terletak di titik tengah kelompok2. Semua nilai dalam kelompok secara merata tersebar di kelompok

Dari asumsi diatas didapatkan

Var ( y )=1n∑j=1

J

n j x (m j− y)2

Dimana nj adalah nomor observasi dari interval ke j, n adalah jumlah nomor observasi, mj adalah titik tengan dari interval ke-j.

Dibalik asumsi kedua, kita tambahkan dalam variasi setiap grup untuk mendapatkan formula

Vary ( y )=1n∑j=1

J

¿¿

Dimana Rj adalah batas atas dikurang batas bawa dari kelompok ke-j.

Standar Deviasi : Keuntungan dan Kerugian

sd ( y )=√ 1n x∑i=1n

( y i− y )2

Standar deviasi adalah akar dari variansi. Standar deviasi kurang sensitive dengan outlier daripada variansi dan dibandingkan langsung dengan mean ketika unitnya sama. Standar Deviasi mewarisi sifat matematika yang baik dan sifat penggabungan dari variansi.

3.5 Menampilkan Hubungan Antara Dua atau Lebih VariabelScatterplot

Scatterplot adalah dotplot yang dua dimensi. Beri nama untuk sumbu horizontal untuk variabel pertama dan sumbu vertical untuk yang kedua. Ketika kita memiliki dua sampel dari data bivariat dan ingin melihat hubungan antara dua variabel adalah mirip dalam dua sampel, kita dapat plot poin untuk kedua sampel dalam scatterplot menggunakan symbol yang berbeda.

Contoh diatas adalah scatter plot dari panjang kepala dan lebar kepala dari beruang. Dari plot diatas, terlihat beruang dengan lebar kepala yang besar cenderung memiliki kepala yang panjang. Kita juga dapat melihat beruang jantan cenderung memiliki kepala lebih besar daripada beruang betina.

Scatterplot Matrix

Untuk menyelidiki hubungan antara variabel-variabe (data multivariat), bentuklah scatterplot matriks. Kita membangun scatterplot untuk setiap variabel yang berpasangan kemudian tunjukkan dalam bentuk array seperti matriks.

Gambar 3.12 menunjukkan scatterplot matriks dari panjang kepala, lebar kepala, lingkar leher, tinggi, lingkar dada, dan berat untuk pengukuran data beruang. Kita melihat hubungan positif antar variabel dan beberapa dari mereka nonlinear.

3.6 Ukuran Asosiasi untuk Dua atau Lebih VariabelPengukuran ini bagaimana variabel bervariasi bersama-sama, kovariansi dari dua variabel:

Cov ( x , y )=1n∑i=1

n

(x i−x )( y i− y )

Untuk korelasi untuk mengukur kekuatan dari hubungan linear antara dua variabel

Corr ( x , y )= Cov(x , y)

√Var ( x ) xVar ( y)

Korelasi +1 mengindikasikan poin terletak di garis lurus dengan kemiringan positif. Korelasi -1 mengindikasikan poin terletak di garis lurus dengan kemiringan negatif. Korelasi positif, mengindikasikan poin tersebar, secara umum nilai rendah dari variabel pertama berasosiasi dengan nilai rendah variabel kedua, dan nilai tinggi dari variabel pertama berasosiasi dengan nilai tinggi variabel kedua. Jika korelasi negative, mengindikasikan bahwa korelasi memiliki nilai rendah untuk asosiasi pertama dengan nilai tinggi untuk asosiasi kedua dan sebaliknya. Jika korelasi 0, mengindikasikan bahwa tidak ada asosiasi antara variabel. Bukan berarti variabel tidak memiliki relasi, hanya saja mereka tidak memiliki relasi linear.