The lady testing tea : Hipotesis testing
-
Upload
muhammad-asfar -
Category
Documents
-
view
1.268 -
download
0
Transcript of The lady testing tea : Hipotesis testing
HIPOTESIS TESTING
Pada awal kolaborasi Egon Pearson dan Jerzy Neyman, Egon Pearson bertanya kepada Jerzy Neyman
bagaimana dia bisa yakin bahwa sekumpulan data telah terdistribusi nolmal jika dia gagal menemukan
Nilai-p yang signifikan ketika pengujian dengan normalitas. Kolaborasi mereka dimulai dengan
pertanyaan ini, tapi pertanyaan awal Pearson membuka pintu ke banyak hal yang lebih luas. Apa artinya
memiliki hasil yang tidak signifikan dalam tes signifikansi ? Dapatkah kita menyimpulkan bahwa hipotesis
itu benar jika kita telah gagal untuk menyangkalnya ?
RA Fisher telah membahas pertanyaan yang secara tidak langsung. Fisher akan mengambil nilai P yang
besar (dan suatu kegagalan menemukan siknifikansi) untuk menunjukkan bahwa data tidak cukup untuk
mengambil keputusan. Bagi Fisher, tidak pernah ada anggapan bahwa kegagalan untuk menemukan
siknifikansi yang berarti menunjukkan hipotesis yang diuji adalah benar. Dalam kutipannya:
Untuk kesalahan logis dipercaya bahwa hipotesis telah terbukti benar, karena tidak
bertentangan dengan fakta yang ada, tidak lebih berhak untuk menyindir dirinya dalam
statistik daripada jenis lain dari penalaran ilmiah .... Oleh karena itu, bernambah besar
kejelasan dengan tes signifikansi dianggap olah itu umumnya dipahami bahwa uji
signifikansi, bila digunakan secara akurat, yang mampu menolak atau membatalkan
hipotesis, sejauh karena mereka bertentangan dengan data, tetapi bahwa mereka tidak
pernah mampu membangun mereka sebagai memang benar
Karl Pearson telah sering menggunakan chi squere untuk "membuktikan" bahwa data mengikuti
distribusi tertentu. Fisher telah memperkenalkan ketelitian yang lebih dalam statistik matematika, dan
metode Karl Pearson tidak lagi dapat diterima. Pertanyaannya masih tetap. Hal itu perlu untuk
berasumsi bahwa data cocok dengan distribusi tertentu, dalam rangka mengetahui parameter untuk
memperkirakan dan menentukan bagaimana parameter tersebut berhubungan dengan pertanyaan
ilmiah yang dimiliki. Ahli statistik sering tergoda untuk menggunakan tes signifikansi untuk
membuktikannya.
Dalam korespondensi, Egon Pearson dan Jerzy Neyman menjelajahi beberapa paradoks yang muncul
dari pengujian signifikansi, kasus di mana penggunaan uji signifikansi secara membabi buta akan
menolak hipotesis yang jelas benar. Fisher tidak pernah jatuh ke paradoks mereka, karena itu akan
menjadi jelas baginya bahwa tes signifikansi sedang diterapkan secara tidak benar. Neyman bertanya
apa kriteria yang digunakan untuk menentukan kapan tes signifikansi diterapkan dengan benar. Secara
bertahap, antara surat-menyurat mereka, dengan kunjungan Neyman ke Inggris selama musim panas
dan Pearson kunjungannya ke Polandia, ide-ide dasar pengujian hipotesis muncul.
Sebuah versi sederhana dari formulasi Neyman-Pearson uji hipotesis sekarang dapat ditemukan di
semua buku pelajaran statistik dasar. Ini memiliki struktur yang sederhana. Saya telah menemukan
bahwa itu adalah mudah bagi kebanyakan mahasiswa tahun pertama untuk memahami. Karena telah
dikodifikasi, versi formulasi yang tepat dan didaktik. Ini adalah bagaimana hal itu harus dilakukan, teks
menyiratkan, dan ini adalah satu-satunya cara itu bisa dilakukan. Pendekatan kaku untuk pengujian
hipotesis telah diterima oleh badan pengatur seperti Food and Drug Administration AS dan Badan
Perlindungan Lingkungan, dan itu diajarkan di sekolah-sekolah medis untuk para peneliti medis di masa
mendatang. Hal ini juga wormed jalan ke proses hukum ketika berhadapan dengan beberapa jenis kasus
diskriminasi.
Ketika perumusan Neyman-Pearson diajarkan dalam ketat, versi sederhana dari apa yang Neyman
dikembangkan, mendistorsi penemuannya dengan berkonsentrasi pada aspek yang salah formulasi.
Penemuan besar Neyman adalah bahwa pengujian signifikansi tidak masuk akal kecuali ada setidaknya
dua hipotesis mungkin. Artinya, Anda tidak dapat menguji apakah data cocok dengan distribusi normal
kecuali ada beberapa distribusi lain atau set distribusi yang Anda percaya itu akan cocok. Pilihan ini
hipotesis alternatif menentukan cara di mana uji signifikansi dijalankan. Kemungkinan mendeteksi
alternatif yang, jika benar, ia disebut "kekuatan" dari tes. Dalam matematika, kejernihan pikiran
dikembangkan dengan memberikan yang jelas, nama-nama yang jelas untuk konsep tertentu. Untuk
membedakan antara hipotesis yang digunakan untuk menghitung Fisher p-nilai dan hipotesis lain yang
mungkin atau hipotesis, Neyman dan Pearson disebut hipotesis yang menguji "hipotesis nol" dan
hipotesis lain "alternatif." Dalam formulasi mereka, p-nilai dihitung untuk menguji hipotesis nol tapi
daya mengacu pada bagaimana ini p-nilai akan berperilaku jika alternatif ini, pada kenyataannya, benar
Hal ini menyebabkan Neyman dua kesimpulan. Salah satunya adalah bahwa kekuatan tes adalah ukuran
dari seberapa baik tes itu. Semakin kuat dari dua tes adalah lebih baik untuk digunakan. Kesimpulan
kedua adalah bahwa set alternatif tidak bisa terlalu besar. Analis tidak bisa mengatakan bahwa data
berasal dari distribusi normal (null hipotesis) atau bahwa mereka berasal dari distribusi yang lain
mungkin. Itu terlalu lebar satu set alternatif, dan tidak ada tes bisa kuat terhadap semua alternatif yang
mungkin.
Pada tahun 1956, LJ Savage dan Raj Raghu Bahadur di University of Chicago menunjukkan bahwa kelas
alternatif tidak harus sangat luas untuk pengujian hipotesis gagal. Mereka membangun satu set yang
relatif kecil terhadap hipotesis alternatif yang ada tes memiliki kekuatan apapun. Selama tahun 1950,
Neyman mengembangkan gagasan tes hipotesis terbatas, di mana set hipotesis alternatif sangat sempit
didefinisikan. Dia menunjukkan bahwa tes tersebut lebih berkuasa daripada berurusan dengan set yang
lebih inklusif hipotesis.
Dalam banyak situasi, tes hipotesis digunakan terhadap hipotesis nol yang merupakan kaki tangan.
Misalnya, ketika dua obat yang dibandingkan dalam percobaan klinis, hipotesis nol yang akan diuji
adalah bahwa kedua obat menghasilkan efek yang sama. Namun, jika itu benar, maka penelitian ini tidak
akan pernah dijalankan. Hipotesis nol bahwa dua perlakuan yang sama adalah orang jerami,
dimaksudkan untuk knocked down oleh hasil penelitian. Jadi, setelah Neyman, desain penelitian harus
ditujukan untuk memaksimalkan kekuatan data yang dihasilkan untuk merobohkan bahwa manusia
jerami dan menunjukkan bagaimana obat berbeda dalam efek.
APA Apakah PROBABILITAS?
Sayangnya, untuk mengembangkan pendekatan matematis untuk pengujian hipotesis yang
konsisten secara internal, Neyman harus berurusan dengan masalah yang Fisher telah disapu di
bawah karpet. Ini adalah masalah yang terus wabah pengujian hipotesis, meskipun rapi, solusi
matematika murni Neyman itu. Ini adalah masalah dalam penerapan pada metode statistik untuk
ilmu pengetahuan secara umum. Dalam bentuk yang lebih umum, dapat disimpulkan dalam
pertanyaan: Apa yang dimaksud dengan probabilitas dalam kehidupan nyata?
Ingat bahwa penggunaan Fisher dari uji signifikansi menghasilkan sejumlah Fisher disebut p-value. Ini
adalah probabilitas dihitung, kemungkinan terkait dengan data yang diamati dengan asumsi bahwa
hipotesis nol benar. Misalnya, kita ingin menguji obat baru untuk pencegahan kambuhnya kanker
payudara pada pasien yang telah mastektomi, membandingkannya dengan plasebo. Hipotesis nol,
manusia jerami, adalah bahwa obat ini tidak lebih baik dari plasebo. Misalkan bahwa setelah lima tahun,
50 persen wanita pada plasebo memiliki kekambuhan dan tidak ada perempuan pada obat baru miliki.
Apakah ini membuktikan bahwa obat baru "bekerja"? Jawabannya, tentu saja, tergantung pada
seberapa banyak pasien yang 50 persen mewakili.
Jika studi termasuk hanya empat wanita dalam setiap kelompok, itu berarti kami memiliki delapan
pasien, dua di antaranya memiliki kekambuhan. Misalkan kita mengambil kelompok delapan orang, tag
dua dari mereka, dan membagi delapan secara acak menjadi dua kelompok empat. Probabilitas bahwa
kedua orang tag akan jatuh ke salah satu kelompok sekitar .30. Jika hanya ada empat wanita dalam
setiap kelompok, fakta bahwa semua kambuh jatuh pada kelompok plasebo tidak signifikan. Jika studi
termasuk 500 perempuan dalam setiap kelompok, itu akan menjadi sangat tidak mungkin bahwa semua
250 dengan rekurensi berada di plasebo, kecuali obat itu bekerja. Probabilitas bahwa semua 250 akan
jatuh dalam satu kelompok jika obat tidak lebih baik daripada plasebo adalah nilai-p, yang menghitung
menjadi kurang dari 0001.
Nilai p adalah probabilitas, dan ini adalah bagaimana hal itu dihitung. Karena digunakan untuk
menunjukkan bahwa hipotesis bawah yang dihitung adalah palsu, apa yang benar-benar berarti? Ini
adalah probabilitas teoritis yang terkait dengan pengamatan di bawah kondisi yang paling mungkin
palsu. Ini tidak ada hubungannya dengan kenyataan. Ini adalah indirectmeasurement dari masuk akal.
Ini bukan probabilitas bahwa kita akan salah untuk mengatakan obat itu bekerja. Ini bukan probabilitas
dari setiap jenis kesalahan. Ini bukan probabilitas bahwa pasien akan melakukannya juga pada plasebo
seperti pada obat. Tapi, untuk menentukan tes yang lebih baik daripada yang lain, Neyman harus
menemukan cara untuk menempatkan pengujian hipotesis dalam kerangka dimana probabilitas terkait
dengan keputusan yang dibuat dari tes dapat dihitung. Dia harus menghubungkan nilai-p dari uji
hipotesis dengan kehidupan nyata.
Perumusan frequentist DEFINISI PROBABILITAS
Pada tahun 1872, John Venn, filsuf Inggris, telah mengusulkan untuk-formulasi probabilitas matematis
yang masuk akal dalam kehidupan nyata. Dia berbalik teorema utama probabilitas di atas kepalanya. Ini
adalah hukum bilangan besar, yang mengatakan bahwa jika suatu peristiwa memiliki probabilitas
tertentu (seperti melempar satu mati dan setelah itu tanah dengan enam sisi atas) dan jika kita
menjalankan uji identik berulang-ulang, proporsi kali peristiwa terjadi akan lebih dekat dan lebih dekat
ke probabilitas.
Venn mengatakan probabilitas yang terkait dengan peristiwa tertentu adalah proporsi jangka panjang
kali peristiwa itu terjadi. Dalam proposal Venn, matematika teori probabilitas tidak menyiratkan hukum
bilangan besar, hukum bilangan besar probabilitas tersirat. Ini adalah definisi frequentist probabilitas.
Pada tahun 1921, John Maynard Keynes dihancurkan ini sebagai berguna atau bahkan berarti
interpretasi, menunjukkan bahwa ia memiliki inkonsistensi mendasar yang membuat tidak mungkin
untuk menerapkan definisi frequentist dalam banyak kasus di mana probabilitas dipanggil.
Ketika datang untuk penataan tes hipotesis dalam cara yang formal matematis, Neyman jatuh kembali di
atas definisi frekuentis Venn. Neyman menggunakan ini untuk membenarkan penafsirannya tentang p-
nilai dalam uji hipotesis. Dalam formulasi Neyman-Pearson, ilmuwan menetapkan nomor tetap, seperti
05, dan menolak hipotesis nol setiap kali uji signifikansi p-value kurang dari atau sama dengan 05.
Dengan cara ini, dalam jangka panjang, ilmuwan akan menolak null benar hipotesis tepat 5 persen dari
waktu. Pengujian hipotesis cara sekarang diajarkan, seruan Neyman tentang pendekatan frequentist
adalah ditekankan. Ini terlalu mudah untuk melihat formulasi Neyman-Pearson pengujian hipotesis
sebagai bagian dari pendekatan frequentist untuk probabil-ity dan mengabaikan wawasan yang lebih
penting bahwa Neyman pro-vided tentang kebutuhan untuk satu set yang didefinisikan dengan baik
hipotesis alternatif terhadap yang untuk menguji manusia jerami hipotesis nol.
Fisher disalahpahami wawasan Neyman itu. Ia berkonsentrasi pada definisi tingkat signifikansi, hilang
ide penting kekuasaan dan kebutuhan untuk mendefinisikan kelas alternatif. Dalam kritik Neyman, ia
menulis:
Neyman, berpikir ia mengoreksi dan memperbaiki karya awal saya sendiri di uji signifikansi,
sebagai sarana untuk "peningkatan pengetahuan alam," pada kenyataannya ditafsirkan kembali
mereka dalam hal bahwa alat teknologi dan komersial yang dikenal sebagai prosedur
penerimaan. Sekarang, prosedur penerimaan adalah sangat penting dalam dunia modern. Ketika
perhatian besar seperti Royal Navy menerima bahan dari sebuah perusahaan teknik itu, saya
kira, sasaran pemeriksaan yang cukup hati-hati dan pengujian untuk mengurangi frekuensi
penerimaan kiriman yang rusak atau cacat .... Namun, perbedaan logis antara seperti operasi
dan karya penemuan ilmiah oleh eksperimen fisik atau biologis tampaknya saya begitu lebar
sehingga analogi antara mereka tidak membantu, dan identifikasi dari dua jenis operasi adalah
jelas menyesatkan.
Terlepas dari distorsi ide dasar Neyman itu, pengujian hipotesis telah menjadi alat statistik yang paling
banyak digunakan dalam penelitian ilmiah. Matematika indah dari Jerzy Neyman kini telah menjadi idee
fixe di banyak bagian ilmu pengetahuan. Sebagian besar jurnal ilmiah mengharuskan penulis artikel
termasuk pengujian hipotesis dalam analisis data mereka. Ini telah melampaui jurnal ilmiah. Badan
pengawas obat di Amerika Serikat, Kanada, dan Eropa memerlukan penggunaan tes hipotesis dalam
pengiriman. Pengadilan telah menerima pengujian hipotesis sebagai metode yang sesuai bukti dan
memungkinkan penggugat untuk menggunakannya untuk menunjukkan diskriminasi kerja. Ini merasuki
semua cabang ilmu statistik.
Pendakian dari formulasi Neyman-Pearson ke puncak statistik tidak pergi tertandingi. Fisher menyerang
dari awal dan terus menyerang selama sisa hidupnya. Pada tahun 1955, ia menerbitkan sebuah makalah
berjudul "Metode Statistik dan Induksi Ilmiah" dalam Journal of Royal Society Statistik, dan ia
memperluas hal ini dengan buku terakhirnya, Metode Statistik dan Inference Ilmiah. Pada akhir tahun
1960, David Cox, segera menjadi editor Biometrika, menerbitkan analisis tajam tentang bagaimana tes
hipotesis benar-benar digunakan dalam ilmu pengetahuan, menunjukkan bahwa interpretasi frekuentis
Neyman adalah tidak pantas untuk apa yang sebenarnya dilakukan. Pada 1980-an, W. Edwards Deming
menyerang seluruh ide pengujian hipotesis sebagai tidak masuk akal. (Kami akan kembali ke pengaruh
Deming pada statistik dalam bab 24.) Tahun demi tahun, artikel terus muncul dalam literatur statistik
yang menemukan kesalahan baru dengan formulasi Neyman-Pearson sebagai dibekukan dalam buku
teks.
Neyman sendiri tidak mengambil bagian dalam kanonisasi perumusan Neyman-Pearson pengujian
hipotesis. Pada awal tahun 1935, dalam sebuah artikel yang diterbitkan (dalam bahasa Perancis) dalam
Buletin de la Societe mathématiques de France, ia mengangkat keraguan yang serius tentang apakah tes
hipotesis yang optimal dapat ditemukan. Dalam makalah di kemudian hari, Neyman jarang dibuat
menggunakan tes hipotesis secara langsung. Pendekatan statistik nya biasanya terlibat berasal distribusi
probabilitas dari prinsip-prinsip teoritis dan kemudian estimasi parameter dari data.
Lainnya mengambil ide-ide di balik formulasi Neyman-Pearson dan dikembangkan mereka. Selama
Perang Dunia II, Abraham Wald memperluas penggunaan Neyman tentang definisi frekuentis Venn
untuk mengembangkan bidang teori keputusan statistik. Eric Lehmann diproduksi kriteria alternatif
untuk tes yang baik dan kemudian, pada tahun 1959, menulis buku definitif tentang subjek pengujian
hipotesis, yang tetap penjelasan yang paling lengkap pengujian hipotesis Neyman-Pearson dalam
literatur.
Tepat sebelum Hitler menyerang Polandia dan menjatuhkan tirai malapetaka atas benua Eropa, Neyman
datang ke Amerika Serikat, di mana ia memulai program statistik di University of California di Berkeley.
Dia tetap ada sampai kematiannya pada tahun 1981, telah menciptakan salah satu departemen statistik
akademik yang paling penting di dunia. Ia dibawa ke departemen beberapa tokoh utama di lapangan.
Dia juga menarik dari ketidakjelasan lain yang kemudian tidak mampu untuk mendapatkan prestasi
besar. Misalnya, David Blackwell bekerja sendirian di Howard University, terisolasi dari statistik
matematika lainnya. Karena ras, dia punya janji di "White" sekolah, padahal potensi besar; Neyman
mengundang Blackwell ke Berkeley. Neyman juga membawa seorang mahasiswa pascasarjana yang
berasal dari keluarga petani Prancis buta huruf, Lucien Le Cam kemudian menjadi salah satu probabilists
terkemuka di dunia.
Neyman adalah selalu memperhatikan murid-muridnya dan anggota fakultas sesama. Mereka
menggambarkan kenikmatan teh departemen sore, yang Neyman memimpin dengan keanggunan
sopan. Dia akan bangga lembut seseorang, mahasiswa atau dosen, untuk menggambarkan beberapa
penelitian terbaru dan kemudian riang bekerja jalan di sekitar ruangan, mendapatkan komentar dan
membantu diskusi. Dia akan mengakhiri banyak teh dengan mengangkat cangkir dan memanggang,
"Untuk para wanita!" Dia adalah sangat baik untuk "para wanita," mendorong dan memajukan karir
perempuan. Menonjol di antara anak emas wanitanya adalah Dr Elizabeth Scott, yang bekerja dengan
Neyman dan rekan penulis di atas kertas mulai dari astronomi untuk karsinogenesis untuk zoologi, dan
Dr Evelyn Perbaiki, yang membuat kontribusi besar untuk epidemiologi.
Sampai RA Fisher meninggal pada tahun 1962, Neyman diserang konstan ini masam jenius. Semuanya
Neyman lakukan adalah gandum untuk kritik Fisher. Jika Neyman berhasil menunjukkan bukti beberapa
pernyataan Fisherian jelas, Fisher menyerangnya karena salah paham apa yang telah ditulis. Jika
Neyman diperluas pada ide Fisherian, Fisher menyerang dia untuk mengambil teori menyusuri jalan
tidak berguna. Neyman tidak pernah membalasnya, baik di media cetak atau, jika kita percaya orang-
orang yang bekerja dengannya, secara pribadi.
Dalam sebuah wawancara menjelang akhir hidupnya, Neyman dijelaskan waktu pada tahun 1950 ketika
ia akan menyajikan sebuah makalah dalam bahasa Perancis pada pertemuan internasional. Saat ia pergi
ke podium, ia menyadari bahwa Fisher berada di penonton. Sementara presentasi kertas, dia
menguatkan diri untuk serangan dia tahu akan datang. Dia tahu bahwa Fisher akan menerkam pada
beberapa aspek penting kecil kertas dan air mata dan Neyman-keping. Neyman selesai dan menunggu
pertanyaan dari penonton. Beberapa datang. Tapi Fisher pernah diaduk, tidak pernah mengatakan
sepatah kata pun. Kemudian, Neyman menemukan bahwa Fisher tidak bisa berbicara Perancis.
Sir Ronald Aylmer Fisher
Neyman mengajak kita menikmati kopi