The lady testing tea : Hipotesis testing

13
HIPOTESIS TESTING Pada awal kolaborasi Egon Pearson dan Jerzy Neyman, Egon Pearson bertanya kepada Jerzy Neyman bagaimana dia bisa yakin bahwa sekumpulan data telah terdistribusi nolmal jika dia gagal menemukan Nilai-p yang signifikan ketika pengujian dengan normalitas. Kolaborasi mereka dimulai dengan pertanyaan ini, tapi pertanyaan awal Pearson membuka pintu ke banyak hal yang lebih luas. Apa artinya memiliki hasil yang tidak signifikan dalam tes signifikansi ? Dapatkah kita menyimpulkan bahwa hipotesis itu benar jika kita telah gagal untuk menyangkalnya ? RA Fisher telah membahas pertanyaan yang secara tidak langsung. Fisher akan mengambil nilai P yang besar (dan suatu kegagalan menemukan siknifikansi) untuk menunjukkan bahwa data tidak cukup untuk mengambil keputusan. Bagi Fisher, tidak pernah ada anggapan bahwa kegagalan untuk menemukan siknifikansi yang berarti menunjukkan hipotesis yang diuji adalah benar. Dalam kutipannya: Untuk kesalahan logis dipercaya bahwa hipotesis telah terbukti benar, karena tidak bertentangan dengan fakta yang ada, tidak lebih berhak untuk menyindir dirinya dalam statistik daripada jenis lain dari penalaran ilmiah .... Oleh karena itu, bernambah besar kejelasan dengan tes signifikansi dianggap olah itu umumnya dipahami bahwa uji signifikansi, bila digunakan secara akurat, yang mampu menolak atau membatalkan hipotesis, sejauh karena mereka bertentangan dengan data, tetapi bahwa mereka tidak pernah mampu membangun mereka sebagai memang benar Karl Pearson telah sering menggunakan chi squere untuk "membuktikan" bahwa data mengikuti distribusi tertentu. Fisher telah memperkenalkan

Transcript of The lady testing tea : Hipotesis testing

Page 1: The lady testing tea : Hipotesis testing

HIPOTESIS TESTING

Pada awal kolaborasi Egon Pearson dan Jerzy Neyman, Egon Pearson bertanya kepada Jerzy Neyman

bagaimana dia bisa yakin bahwa sekumpulan data telah terdistribusi nolmal jika dia gagal menemukan

Nilai-p yang signifikan ketika pengujian dengan normalitas. Kolaborasi mereka dimulai dengan

pertanyaan ini, tapi pertanyaan awal Pearson membuka pintu ke banyak hal yang lebih luas. Apa artinya

memiliki hasil yang tidak signifikan dalam tes signifikansi ? Dapatkah kita menyimpulkan bahwa hipotesis

itu benar jika kita telah gagal untuk menyangkalnya ?

RA Fisher telah membahas pertanyaan yang secara tidak langsung. Fisher akan mengambil nilai P yang

besar (dan suatu kegagalan menemukan siknifikansi) untuk menunjukkan bahwa data tidak cukup untuk

mengambil keputusan. Bagi Fisher, tidak pernah ada anggapan bahwa kegagalan untuk menemukan

siknifikansi yang berarti menunjukkan hipotesis yang diuji adalah benar. Dalam kutipannya:

Untuk kesalahan logis dipercaya bahwa hipotesis telah terbukti benar, karena tidak

bertentangan dengan fakta yang ada, tidak lebih berhak untuk menyindir dirinya dalam

statistik daripada jenis lain dari penalaran ilmiah .... Oleh karena itu, bernambah besar

kejelasan dengan tes signifikansi dianggap olah itu umumnya dipahami bahwa uji

signifikansi, bila digunakan secara akurat, yang mampu menolak atau membatalkan

hipotesis, sejauh karena mereka bertentangan dengan data, tetapi bahwa mereka tidak

pernah mampu membangun mereka sebagai memang benar

Karl Pearson telah sering menggunakan chi squere untuk "membuktikan" bahwa data mengikuti

distribusi tertentu. Fisher telah memperkenalkan ketelitian yang lebih dalam statistik matematika, dan

metode Karl Pearson tidak lagi dapat diterima. Pertanyaannya masih tetap. Hal itu perlu untuk

berasumsi bahwa data cocok dengan distribusi tertentu, dalam rangka mengetahui parameter untuk

memperkirakan dan menentukan bagaimana parameter tersebut berhubungan dengan pertanyaan

ilmiah yang dimiliki. Ahli statistik sering tergoda untuk menggunakan tes signifikansi untuk

membuktikannya.

Dalam korespondensi, Egon Pearson dan Jerzy Neyman menjelajahi beberapa paradoks yang muncul

dari pengujian signifikansi, kasus di mana penggunaan uji signifikansi secara membabi buta akan

menolak hipotesis yang jelas benar. Fisher tidak pernah jatuh ke paradoks mereka, karena itu akan

Page 2: The lady testing tea : Hipotesis testing

menjadi jelas baginya bahwa tes signifikansi sedang diterapkan secara tidak benar. Neyman bertanya

apa kriteria yang digunakan untuk menentukan kapan tes signifikansi diterapkan dengan benar. Secara

bertahap, antara surat-menyurat mereka, dengan kunjungan Neyman ke Inggris selama musim panas

dan Pearson kunjungannya ke Polandia, ide-ide dasar pengujian hipotesis muncul.

Sebuah versi sederhana dari formulasi Neyman-Pearson uji hipotesis sekarang dapat ditemukan di

semua buku pelajaran statistik dasar. Ini memiliki struktur yang sederhana. Saya telah menemukan

bahwa itu adalah mudah bagi kebanyakan mahasiswa tahun pertama untuk memahami. Karena telah

dikodifikasi, versi formulasi yang tepat dan didaktik. Ini adalah bagaimana hal itu harus dilakukan, teks

menyiratkan, dan ini adalah satu-satunya cara itu bisa dilakukan. Pendekatan kaku untuk pengujian

hipotesis telah diterima oleh badan pengatur seperti Food and Drug Administration AS dan Badan

Perlindungan Lingkungan, dan itu diajarkan di sekolah-sekolah medis untuk para peneliti medis di masa

mendatang. Hal ini juga wormed jalan ke proses hukum ketika berhadapan dengan beberapa jenis kasus

diskriminasi.

Ketika perumusan Neyman-Pearson diajarkan dalam ketat, versi sederhana dari apa yang Neyman

dikembangkan, mendistorsi penemuannya dengan berkonsentrasi pada aspek yang salah formulasi.

Penemuan besar Neyman adalah bahwa pengujian signifikansi tidak masuk akal kecuali ada setidaknya

dua hipotesis mungkin. Artinya, Anda tidak dapat menguji apakah data cocok dengan distribusi normal

kecuali ada beberapa distribusi lain atau set distribusi yang Anda percaya itu akan cocok. Pilihan ini

hipotesis alternatif menentukan cara di mana uji signifikansi dijalankan. Kemungkinan mendeteksi

alternatif yang, jika benar, ia disebut "kekuatan" dari tes. Dalam matematika, kejernihan pikiran

dikembangkan dengan memberikan yang jelas, nama-nama yang jelas untuk konsep tertentu. Untuk

membedakan antara hipotesis yang digunakan untuk menghitung Fisher p-nilai dan hipotesis lain yang

mungkin atau hipotesis, Neyman dan Pearson disebut hipotesis yang menguji "hipotesis nol" dan

hipotesis lain "alternatif." Dalam formulasi mereka, p-nilai dihitung untuk menguji hipotesis nol tapi

daya mengacu pada bagaimana ini p-nilai akan berperilaku jika alternatif ini, pada kenyataannya, benar

Hal ini menyebabkan Neyman dua kesimpulan. Salah satunya adalah bahwa kekuatan tes adalah ukuran

dari seberapa baik tes itu. Semakin kuat dari dua tes adalah lebih baik untuk digunakan. Kesimpulan

kedua adalah bahwa set alternatif tidak bisa terlalu besar. Analis tidak bisa mengatakan bahwa data

berasal dari distribusi normal (null hipotesis) atau bahwa mereka berasal dari distribusi yang lain

mungkin. Itu terlalu lebar satu set alternatif, dan tidak ada tes bisa kuat terhadap semua alternatif yang

mungkin.

Page 3: The lady testing tea : Hipotesis testing

Pada tahun 1956, LJ Savage dan Raj Raghu Bahadur di University of Chicago menunjukkan bahwa kelas

alternatif tidak harus sangat luas untuk pengujian hipotesis gagal. Mereka membangun satu set yang

relatif kecil terhadap hipotesis alternatif yang ada tes memiliki kekuatan apapun. Selama tahun 1950,

Neyman mengembangkan gagasan tes hipotesis terbatas, di mana set hipotesis alternatif sangat sempit

didefinisikan. Dia menunjukkan bahwa tes tersebut lebih berkuasa daripada berurusan dengan set yang

lebih inklusif hipotesis.

Dalam banyak situasi, tes hipotesis digunakan terhadap hipotesis nol yang merupakan kaki tangan.

Misalnya, ketika dua obat yang dibandingkan dalam percobaan klinis, hipotesis nol yang akan diuji

adalah bahwa kedua obat menghasilkan efek yang sama. Namun, jika itu benar, maka penelitian ini tidak

akan pernah dijalankan. Hipotesis nol bahwa dua perlakuan yang sama adalah orang jerami,

dimaksudkan untuk knocked down oleh hasil penelitian. Jadi, setelah Neyman, desain penelitian harus

ditujukan untuk memaksimalkan kekuatan data yang dihasilkan untuk merobohkan bahwa manusia

jerami dan menunjukkan bagaimana obat berbeda dalam efek.

APA Apakah PROBABILITAS?

Sayangnya, untuk mengembangkan pendekatan matematis untuk pengujian hipotesis yang

konsisten secara internal, Neyman harus berurusan dengan masalah yang Fisher telah disapu di

bawah karpet. Ini adalah masalah yang terus wabah pengujian hipotesis, meskipun rapi, solusi

matematika murni Neyman itu. Ini adalah masalah dalam penerapan pada metode statistik untuk

ilmu pengetahuan secara umum. Dalam bentuk yang lebih umum, dapat disimpulkan dalam

pertanyaan: Apa yang dimaksud dengan probabilitas dalam kehidupan nyata?

Ingat bahwa penggunaan Fisher dari uji signifikansi menghasilkan sejumlah Fisher disebut p-value. Ini

adalah probabilitas dihitung, kemungkinan terkait dengan data yang diamati dengan asumsi bahwa

hipotesis nol benar. Misalnya, kita ingin menguji obat baru untuk pencegahan kambuhnya kanker

payudara pada pasien yang telah mastektomi, membandingkannya dengan plasebo. Hipotesis nol,

manusia jerami, adalah bahwa obat ini tidak lebih baik dari plasebo. Misalkan bahwa setelah lima tahun,

50 persen wanita pada plasebo memiliki kekambuhan dan tidak ada perempuan pada obat baru miliki.

Apakah ini membuktikan bahwa obat baru "bekerja"? Jawabannya, tentu saja, tergantung pada

seberapa banyak pasien yang 50 persen mewakili.

Jika studi termasuk hanya empat wanita dalam setiap kelompok, itu berarti kami memiliki delapan

pasien, dua di antaranya memiliki kekambuhan. Misalkan kita mengambil kelompok delapan orang, tag

Page 4: The lady testing tea : Hipotesis testing

dua dari mereka, dan membagi delapan secara acak menjadi dua kelompok empat. Probabilitas bahwa

kedua orang tag akan jatuh ke salah satu kelompok sekitar .30. Jika hanya ada empat wanita dalam

setiap kelompok, fakta bahwa semua kambuh jatuh pada kelompok plasebo tidak signifikan. Jika studi

termasuk 500 perempuan dalam setiap kelompok, itu akan menjadi sangat tidak mungkin bahwa semua

250 dengan rekurensi berada di plasebo, kecuali obat itu bekerja. Probabilitas bahwa semua 250 akan

jatuh dalam satu kelompok jika obat tidak lebih baik daripada plasebo adalah nilai-p, yang menghitung

menjadi kurang dari 0001.

Nilai p adalah probabilitas, dan ini adalah bagaimana hal itu dihitung. Karena digunakan untuk

menunjukkan bahwa hipotesis bawah yang dihitung adalah palsu, apa yang benar-benar berarti? Ini

adalah probabilitas teoritis yang terkait dengan pengamatan di bawah kondisi yang paling mungkin

palsu. Ini tidak ada hubungannya dengan kenyataan. Ini adalah indirectmeasurement dari masuk akal.

Ini bukan probabilitas bahwa kita akan salah untuk mengatakan obat itu bekerja. Ini bukan probabilitas

dari setiap jenis kesalahan. Ini bukan probabilitas bahwa pasien akan melakukannya juga pada plasebo

seperti pada obat. Tapi, untuk menentukan tes yang lebih baik daripada yang lain, Neyman harus

menemukan cara untuk menempatkan pengujian hipotesis dalam kerangka dimana probabilitas terkait

dengan keputusan yang dibuat dari tes dapat dihitung. Dia harus menghubungkan nilai-p dari uji

hipotesis dengan kehidupan nyata.

Perumusan frequentist DEFINISI PROBABILITAS

Pada tahun 1872, John Venn, filsuf Inggris, telah mengusulkan untuk-formulasi probabilitas matematis

yang masuk akal dalam kehidupan nyata. Dia berbalik teorema utama probabilitas di atas kepalanya. Ini

adalah hukum bilangan besar, yang mengatakan bahwa jika suatu peristiwa memiliki probabilitas

tertentu (seperti melempar satu mati dan setelah itu tanah dengan enam sisi atas) dan jika kita

menjalankan uji identik berulang-ulang, proporsi kali peristiwa terjadi akan lebih dekat dan lebih dekat

ke probabilitas.

Venn mengatakan probabilitas yang terkait dengan peristiwa tertentu adalah proporsi jangka panjang

kali peristiwa itu terjadi. Dalam proposal Venn, matematika teori probabilitas tidak menyiratkan hukum

bilangan besar, hukum bilangan besar probabilitas tersirat. Ini adalah definisi frequentist probabilitas.

Pada tahun 1921, John Maynard Keynes dihancurkan ini sebagai berguna atau bahkan berarti

interpretasi, menunjukkan bahwa ia memiliki inkonsistensi mendasar yang membuat tidak mungkin

untuk menerapkan definisi frequentist dalam banyak kasus di mana probabilitas dipanggil.

Page 5: The lady testing tea : Hipotesis testing

Ketika datang untuk penataan tes hipotesis dalam cara yang formal matematis, Neyman jatuh kembali di

atas definisi frekuentis Venn. Neyman menggunakan ini untuk membenarkan penafsirannya tentang p-

nilai dalam uji hipotesis. Dalam formulasi Neyman-Pearson, ilmuwan menetapkan nomor tetap, seperti

05, dan menolak hipotesis nol setiap kali uji signifikansi p-value kurang dari atau sama dengan 05.

Dengan cara ini, dalam jangka panjang, ilmuwan akan menolak null benar hipotesis tepat 5 persen dari

waktu. Pengujian hipotesis cara sekarang diajarkan, seruan Neyman tentang pendekatan frequentist

adalah ditekankan. Ini terlalu mudah untuk melihat formulasi Neyman-Pearson pengujian hipotesis

sebagai bagian dari pendekatan frequentist untuk probabil-ity dan mengabaikan wawasan yang lebih

penting bahwa Neyman pro-vided tentang kebutuhan untuk satu set yang didefinisikan dengan baik

hipotesis alternatif terhadap yang untuk menguji manusia jerami hipotesis nol.

Fisher disalahpahami wawasan Neyman itu. Ia berkonsentrasi pada definisi tingkat signifikansi, hilang

ide penting kekuasaan dan kebutuhan untuk mendefinisikan kelas alternatif. Dalam kritik Neyman, ia

menulis:

Neyman, berpikir ia mengoreksi dan memperbaiki karya awal saya sendiri di uji signifikansi,

sebagai sarana untuk "peningkatan pengetahuan alam," pada kenyataannya ditafsirkan kembali

mereka dalam hal bahwa alat teknologi dan komersial yang dikenal sebagai prosedur

penerimaan. Sekarang, prosedur penerimaan adalah sangat penting dalam dunia modern. Ketika

perhatian besar seperti Royal Navy menerima bahan dari sebuah perusahaan teknik itu, saya

kira, sasaran pemeriksaan yang cukup hati-hati dan pengujian untuk mengurangi frekuensi

penerimaan kiriman yang rusak atau cacat .... Namun, perbedaan logis antara seperti operasi

dan karya penemuan ilmiah oleh eksperimen fisik atau biologis tampaknya saya begitu lebar

sehingga analogi antara mereka tidak membantu, dan identifikasi dari dua jenis operasi adalah

jelas menyesatkan.

Terlepas dari distorsi ide dasar Neyman itu, pengujian hipotesis telah menjadi alat statistik yang paling

banyak digunakan dalam penelitian ilmiah. Matematika indah dari Jerzy Neyman kini telah menjadi idee

fixe di banyak bagian ilmu pengetahuan. Sebagian besar jurnal ilmiah mengharuskan penulis artikel

termasuk pengujian hipotesis dalam analisis data mereka. Ini telah melampaui jurnal ilmiah. Badan

pengawas obat di Amerika Serikat, Kanada, dan Eropa memerlukan penggunaan tes hipotesis dalam

pengiriman. Pengadilan telah menerima pengujian hipotesis sebagai metode yang sesuai bukti dan

memungkinkan penggugat untuk menggunakannya untuk menunjukkan diskriminasi kerja. Ini merasuki

semua cabang ilmu statistik.

Page 6: The lady testing tea : Hipotesis testing

Pendakian dari formulasi Neyman-Pearson ke puncak statistik tidak pergi tertandingi. Fisher menyerang

dari awal dan terus menyerang selama sisa hidupnya. Pada tahun 1955, ia menerbitkan sebuah makalah

berjudul "Metode Statistik dan Induksi Ilmiah" dalam Journal of Royal Society Statistik, dan ia

memperluas hal ini dengan buku terakhirnya, Metode Statistik dan Inference Ilmiah. Pada akhir tahun

1960, David Cox, segera menjadi editor Biometrika, menerbitkan analisis tajam tentang bagaimana tes

hipotesis benar-benar digunakan dalam ilmu pengetahuan, menunjukkan bahwa interpretasi frekuentis

Neyman adalah tidak pantas untuk apa yang sebenarnya dilakukan. Pada 1980-an, W. Edwards Deming

menyerang seluruh ide pengujian hipotesis sebagai tidak masuk akal. (Kami akan kembali ke pengaruh

Deming pada statistik dalam bab 24.) Tahun demi tahun, artikel terus muncul dalam literatur statistik

yang menemukan kesalahan baru dengan formulasi Neyman-Pearson sebagai dibekukan dalam buku

teks.

Neyman sendiri tidak mengambil bagian dalam kanonisasi perumusan Neyman-Pearson pengujian

hipotesis. Pada awal tahun 1935, dalam sebuah artikel yang diterbitkan (dalam bahasa Perancis) dalam

Buletin de la Societe mathématiques de France, ia mengangkat keraguan yang serius tentang apakah tes

hipotesis yang optimal dapat ditemukan. Dalam makalah di kemudian hari, Neyman jarang dibuat

menggunakan tes hipotesis secara langsung. Pendekatan statistik nya biasanya terlibat berasal distribusi

probabilitas dari prinsip-prinsip teoritis dan kemudian estimasi parameter dari data.

Lainnya mengambil ide-ide di balik formulasi Neyman-Pearson dan dikembangkan mereka. Selama

Perang Dunia II, Abraham Wald memperluas penggunaan Neyman tentang definisi frekuentis Venn

untuk mengembangkan bidang teori keputusan statistik. Eric Lehmann diproduksi kriteria alternatif

untuk tes yang baik dan kemudian, pada tahun 1959, menulis buku definitif tentang subjek pengujian

hipotesis, yang tetap penjelasan yang paling lengkap pengujian hipotesis Neyman-Pearson dalam

literatur.

Tepat sebelum Hitler menyerang Polandia dan menjatuhkan tirai malapetaka atas benua Eropa, Neyman

datang ke Amerika Serikat, di mana ia memulai program statistik di University of California di Berkeley.

Dia tetap ada sampai kematiannya pada tahun 1981, telah menciptakan salah satu departemen statistik

akademik yang paling penting di dunia. Ia dibawa ke departemen beberapa tokoh utama di lapangan.

Dia juga menarik dari ketidakjelasan lain yang kemudian tidak mampu untuk mendapatkan prestasi

besar. Misalnya, David Blackwell bekerja sendirian di Howard University, terisolasi dari statistik

matematika lainnya. Karena ras, dia punya janji di "White" sekolah, padahal potensi besar; Neyman

mengundang Blackwell ke Berkeley. Neyman juga membawa seorang mahasiswa pascasarjana yang

Page 7: The lady testing tea : Hipotesis testing

berasal dari keluarga petani Prancis buta huruf, Lucien Le Cam kemudian menjadi salah satu probabilists

terkemuka di dunia.

Neyman adalah selalu memperhatikan murid-muridnya dan anggota fakultas sesama. Mereka

menggambarkan kenikmatan teh departemen sore, yang Neyman memimpin dengan keanggunan

sopan. Dia akan bangga lembut seseorang, mahasiswa atau dosen, untuk menggambarkan beberapa

penelitian terbaru dan kemudian riang bekerja jalan di sekitar ruangan, mendapatkan komentar dan

membantu diskusi. Dia akan mengakhiri banyak teh dengan mengangkat cangkir dan memanggang,

"Untuk para wanita!" Dia adalah sangat baik untuk "para wanita," mendorong dan memajukan karir

perempuan. Menonjol di antara anak emas wanitanya adalah Dr Elizabeth Scott, yang bekerja dengan

Neyman dan rekan penulis di atas kertas mulai dari astronomi untuk karsinogenesis untuk zoologi, dan

Dr Evelyn Perbaiki, yang membuat kontribusi besar untuk epidemiologi.

Sampai RA Fisher meninggal pada tahun 1962, Neyman diserang konstan ini masam jenius. Semuanya

Neyman lakukan adalah gandum untuk kritik Fisher. Jika Neyman berhasil menunjukkan bukti beberapa

pernyataan Fisherian jelas, Fisher menyerangnya karena salah paham apa yang telah ditulis. Jika

Neyman diperluas pada ide Fisherian, Fisher menyerang dia untuk mengambil teori menyusuri jalan

tidak berguna. Neyman tidak pernah membalasnya, baik di media cetak atau, jika kita percaya orang-

orang yang bekerja dengannya, secara pribadi.

Dalam sebuah wawancara menjelang akhir hidupnya, Neyman dijelaskan waktu pada tahun 1950 ketika

ia akan menyajikan sebuah makalah dalam bahasa Perancis pada pertemuan internasional. Saat ia pergi

ke podium, ia menyadari bahwa Fisher berada di penonton. Sementara presentasi kertas, dia

menguatkan diri untuk serangan dia tahu akan datang. Dia tahu bahwa Fisher akan menerkam pada

beberapa aspek penting kecil kertas dan air mata dan Neyman-keping. Neyman selesai dan menunggu

pertanyaan dari penonton. Beberapa datang. Tapi Fisher pernah diaduk, tidak pernah mengatakan

sepatah kata pun. Kemudian, Neyman menemukan bahwa Fisher tidak bisa berbicara Perancis.

Page 8: The lady testing tea : Hipotesis testing

Sir Ronald Aylmer Fisher

Page 9: The lady testing tea : Hipotesis testing

Neyman mengajak kita menikmati kopi