Curso de Probabilidad y Estadística

57
Notas 1 : Curso de Probabilidad y Estad´ ıstica Antonio Murillo Salas Departamento de Matem´aticas Universidad de Guanajuato [email protected] Erick Alberto Cecilio Ayala Coordinaci´ on de Servicios Tecnol´ ogicos Centro de Investigaci´ on en Matem´ aticas [email protected] 20 de mayo de 2015 1 Versi´ on preliminar. No distribuirlas.

Transcript of Curso de Probabilidad y Estadística

Notas1: Curso de Probabilidad y Estadıstica

Antonio Murillo SalasDepartamento de Matematicas

Universidad de [email protected]

Erick Alberto Cecilio AyalaCoordinacion de Servicios TecnologicosCentro de Investigacion en Matematicas

[email protected]

20 de mayo de 2015

1Version preliminar. No distribuirlas.

Indice general

1. Estimacion de parametros 21.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Distribucion Normal y el Teorema del Lımite Central . . . . . . . . . . . 4

1.2.1. Distribucion de la media muestral . . . . . . . . . . . . . . . . . . 41.2.2. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3. Teorema del Lımite Central . . . . . . . . . . . . . . . . . . . . . 11

1.3. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.1. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3.2. Otros metodos de muestreo . . . . . . . . . . . . . . . . . . . . . 17

1.4. Estimacion de parametros . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5. Estimadores y estimaciones . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5.1. Estimaciones puntuales e intervalos de confianza . . . . . . . . . . 191.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2. Pruebas de hipotesis 392.1. Hipotesis y pruebas estadısticas . . . . . . . . . . . . . . . . . . . . . . . 392.2. Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.3. Pruebas unilaterales y bilaterales . . . . . . . . . . . . . . . . . . . . . . 45

2.3.1. Estadısticos de Prueba . . . . . . . . . . . . . . . . . . . . . . . . 482.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

A. Tablas de Distribuciones 54

1

Capıtulo 1

Estimacion de parametros

En el nucleo de la Estadıstica se encuentran las ideas de inferencia, que tiene porobjetivo obtener conclusiones sobre como se comporta una poblacion, sin que para estotengamos que analizar el 100 % de los elementos de esta poblacion, sino analizandosolamente una parte de ella (muestra). La siguiente figura ilustra el papel de la InferenciaEstadıstica.

Figura 1.1: Inferencia Estadıstica

1.1. Introduccion

Comunmente estamos interesados en aprender alguna caracterıstica numerica dela poblacion, tal como la proporcion de elementos de la poblacion que poseen ciertacaracterıstica establecida (por ejemplo, la proporcion de mujeres en el salon de clases),la media y desviacion estandar de la poblacion, o alguna otra medida central o de varia-cion.

Definicion 1.1.1 Un parametro es una caracterıstica numerica de una poblacion.

El valor verdadero de un parametro de una poblacion es una constante desconocida. Sepuede determinar correctamente al realizar un estudio completo de la poblacion. Mientras

2

que un parametro se refiere a una caracterıstica numerica de la poblacion, una cantidadbasada en la muestra se denomina estadıstico.

Definicion 1.1.2 Un estadıstico es una funcion numerica valuada en las observacio-nes de la muestra.

Por ejemplo, la media muestral

X =X1 + · · ·+Xn

n

es un estadıstico porque es un valor numerico que puede ser calculado desde los datosmuestrales, cuando los valores X1, . . . , Xn, estan disponibles. De igual forma, la media-na muestral y la desviacion estandar muestral son cantidades basadas en la muestra,entonces cada una de ellas es un estadıstico. Notese que cada estadıstico es una varia-ble aleatoria, pues, cada vez que se obtiene una muestra de una poblacion estos valoresfrecuentemente diferıran para cada muestra. Comenzamos modelando la poblacion conuna distribucion de probabilidad la cual tiene una caracterıstica numerica de interes de-nominada como parametro. Una muestra aleatoria de la poblacion proveera informacionacerca del parametro, mas aun, cuando queremos hacer generalizaciones acerca de lapoblacion con solo esa informacion a esto lo llamaremos inferencias estadısticas o soloinferencias La siguiente figura describe el proceso de la inferencia estadıstica

Figura 1.2: Proceso de inferir

Definicion 1.1.3 La inferencia estadıstica trata de obtener conclusiones sobre losparametros poblacionales a partir de un analisis de los datos de la muestra.

3

1.2. Distribucion Normal y el Teorema del Lımite

Central

1.2.1. Distribucion de la media muestral

La inferencia estadıstica sobre la media poblacional es de importancia practica pri-mordial. Las inferencias acerca de este parametro se basan en la media de la muestra

X =X1 +X2 + · · ·+Xn

n

y su distribucion. Consecuentemente, exploraremos las propiedades basicas de la distri-bucion muestral de X y explicaremos el rol de la distribucion normal como una apro-ximacion util. La distribucion muestral de X tiene una media E(X) y una desviacionestandar sd(X). Estos pueden expresarse en terminos de la media poblacional µ y unadesviacion estandar σ. (NOTA: La demostracion de estas igualdades se veran en el cursoy otras se dejaran como tarea)

E(X) = µ (= Media Poblacional)

V ar(X) =σ2

n

(=

Varianza Poblacional

Tamano de la muestra

)

sd(X) =σ√n

(=

Desviacion Estandar Poblacional√Tamano de la muestra

)El primer resultado muestra que la distribucion de X se centra en la media de la

poblacion µ en el sentido de que la esperanza sirve como una medida de centro de unadistribucion.El ultimo resultado indica que la desviacion estandar de X es igual a la desviacionestandar de la poblacion dividida por la raız cuadrada del tamano de muestra. Es decir,la variabilidad de la media de la muestra se rige por los dos factores: la variabilidad dela poblacion σ y el tamano de la muestra n. Gran variabilidad en la poblacion induceuna gran variabilidad en X lo que la informacion de la muestra sobre µ es menos fiable.Sin embargo, esto puede ser contrarrestado por la eleccion de un n grande. Por ejemplo,con n = 100, la desviacion estandar de X es σ/

√100 = σ/10, una decima parte de la

desviacion estandar de la poblacion. Al aumentar el tamano de la muestra, la desviacionestandar σ/

√n disminuye y la distribucion de X tiende a concentrarse mas en torno a

la media de la poblacion µ. Conozcamos ahora un poco mas de la distribucion Normal.

4

1.2.2. Distribucion Normal

Se llama distribucion normal, distribucion de Gauss o distribucion gaussiana, auna de las distribuciones de probabilidad de variable continua que con mas frecuenciaaparece aproximada en fenomenos reales.La grafica de su funcion de densidad tiene una forma acampanada y es simetrica respectode un determinado parametro estadıstico (en nuestro caso en su media µ). Esta curva seconoce como campana de Gauss y es el grafico de una funcion gaussiana. Su funcion dedensidad esta definida como

f(x;µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R (1.1)

La grafica que se muestra a continuacion es la forma que tiene una funcion como la (1.1),donde se muestra el porcentaje de area que esta entre cada marca indicada

Si X es una variable aleatoria normal, es decir, si X tiene la densidad f(x;µ, σ) definidaen (1.1), entonces la distribucion normal estandar es la funcion Φ(x) definida por

Φ(a) = P [X ≤ a] , a ∈ R, (1.2)

y es numericamente igual al area bajo la curva de densidad f(x;µ, σ) que esta a laizquierda del punto a, como se muestra en la figura 1.3.En particular, como el area total bajo f(x;µ, σ) es 1, de la simetrıa de f se siguen que

5

Figura 1.3: Φ(a) = P [X ≤ a] = area bajo la curva f a la izquierda de a

el area a la izquierda de 0 es 1/2, o sea,

Φ(0) = P [X ≤ 0] = 1/2. (1.3)

La importancia de esta distribucion radica en que permite modelar numerosos fenomenosnaturales, sociales y psicologicos.

Propiedades

Algunas propiedades de la distribucion normal son:

1. Es simetrica respecto de su media, µ;

2. La moda y la mediana son ambas iguales a la media, µ;

3. Si X ∼ N(µ, σ2) y a y b son numeros reales, entonces (aX + b) ∼ N (aµ+ b, a2σ2).

4. Si X ∼ N(µX , σ2X) e Y ∼ N(µY , σ

2Y ) son variables aleatorias normales indepen-

dientes, entonces:

• Su suma esta normalmente distribuida con U = X+Y ∼ N(µX+µY , σ2X+σ2

Y ).Recıprocamente, si dos variables aleatorias independientes tienen una sumanormalmente distribuida, deben ser normales (Teorema de Cramer).

• Su diferencia esta normalmente distribuida con V = X−Y ∼ N(µX−µY , σ2X+

σ2Y ).

• Si las varianzas de X e Y son iguales, entonces U y V son independientesentre sı.

6

Uso de la tabla normal

Ası pues, para calcular la probabilidad de que una variable aleatoria X con distribu-cion normal estandar tome valores en un cierto intervalo, basta medir el area que esta,sobre ese intervalo, abajo de la curva normal. Sin embargo, esto no es tan sencillo; nisiquiera usando integracion es posible calcular directamente esa area. Afortunadamente,usando metodos numericos se han elaborado tablas con valores aproximados de dichasareas, como en la “tabla de Distribucion Normal Estandar” del Anexo. En esa tabla sedan unicamente las areas entre 0 y valores positivos de x, o sea,

P [0 ≤ X ≤ x] = Φ(x)− Φ(0).

Sabemos que esto es suficiente por la simetrıa de la curva normal. En la primera columnade esa tabla se dan algunos valores de x para aquellos casos en que sea necesaria unamejor aproximacion.

Ejemplo:Sea X una variable normal estandar. Calcular la probabilidad de que,

(a) X este entre cero y 1.1.

(b) X este entre cero y 1.17.

(c) X sea menor o igual que 1.1.

(d) X sea menor o igual que 1.17.

(e) X sea mayor que -1.57.

(f) |X| sea mayor que 1.3.

Solucion:

(a) El area que se esta buscando es

Que es equivalente a decir P [0 ≤ X ≤ 1.1]; del renglon 1.1 y la columna 0.00 en la“tabla de la normal”, vemos que

P [0 ≤ X ≤ 1.1] = 0.3643 = Φ(1.1)− Φ(0).

7

(b) En este caso lo que se busca es

De la misma forma que el inciso anterior, esto es equivalente a decir P [0 ≤ X ≤ 1.17];luego, del renglon 1.1 y la columna 0.07 en la “tabla de la normal”, vemos que

P [0 ≤ X ≤ 1.17] = 0.3790 = Φ(1.17)− Φ(0).

(c) Ahora lo que se busca es

Esto es equivalente a decir P [X ≤ 1.1]; ademas, por (1.3), es claro que

P [X ≤ 1.1] = P [X ≤ 0] + P [0 ≤ X ≤ 1.1]

= 0.5000 + 0.3643 = 0.8643.

(d) En este caso es similar al caso anterior, esto es

P [X ≤ 1.17] = P [X ≤ 0] + P [0 ≤ X ≤ 1.17]

= 0.5000 + 0.3790 = 0.8790.

(e) Vemos ahora que lo que se busca es

Esto es

P [X > −1.57] = P [0 ≤ X ≤ 1.57] + 1/2 (explique)

= 0.4418 + 0.5000 = 0.9418.

8

(f) En este ultimo inciso el area buscada es

Luego

P [|X| > 1.3] = P [X > 1.3] + P [X < −1.3]

= 2P [X > 1.3] (explique)

= 2 (1/2− P [0 ≤ X ≤ 1.3]) (explique)

= 0.1936 (explique)

C

Estandarizacion

Hasta el momento hemos visto la densidad normal estandar, es decir, que tiene mediaµ = 0 y varianza σ2 = 1. En la mayorıa de las aplicaciones, sin embargo, es necesario con-siderar variables aleatorias distribuidas normalmente con media µ y varianza σ2 (σ2 > 0)arbitrarias. A continuacion se muestran distintas distribuciones normales con diferentesvalores para la media y desviacion estandar σ

9

como podemos observar, la media nos da el centro de cada grafica, es por eso que µse conoce como el parametro de localizacion, mientras que σ entre mas chico el valorde este sea, la grafica se ve mas “delgada” y si es mas grande se ve mas “apachurrada”,luego este se conoce como parametro de escala.Para indicar que X es una variable aleatoria normal con parametros µ = E(X) y

σ2 = var(X), escribimos XD= N(µ, σ2). En particular, si X es una variable aleatoria

estandar, escribimos XD= N(0, 1). Por supuesto, ahora deseamos calcular probabilidades

comoP[X ≤ x]

en donde XD= N(µ, σ2), con µ y σ2 no necesariamente iguales a 0 y 1 como en el caso

estandar. Esto es muy facil, porque si XD= N(µ, σ2), entonces la variable “estandarizada”

(X − µ)/σ es una variable aleatoria normal con media 0 y varianza 1, o sea,

X∗ = (X − µ)/σD= N(0, 1).

Ejemplo:

(a) Sea XD= N(400, 40000). Calcular la probabilidad de que X sea menor o igual a

800.

(b) Sea XD= N(10, 4). Calcular el valor de a tal que

P[X ≥ a] = 0.01.

10

Solucion:

(a) Como σ =√

40000 = 200, entonces

P [X ≤ 800] = P [(X − 400)/200 ≤ (800− 400)/200]

= P [(X − 400)/200 ≤ 2]

= Φ(2).

Luego, de la “tabla normal”,

P [X ≤ 800] = Φ(2) = 1/2 + P [0 ≤ X∗ ≤ 2]

= 0.5000 + 0.4772 = 0.9772,

pues X∗ = (X − 400)/200D= N(0, 1).

(b) Si hacemos X∗ = (X − 10)/2, entonces X∗D= N(0, 1) y

0.01 = P[X ≥ a] = P [(X − 10)/2 ≥ (a− 10)/2]

= P [X∗ ≥ (a− 10)/2]

= 1/2− P [0 ≤ X∗ ≤ (a− 10)/2] .

Por lo tanto,P [0 ≤ X∗ ≤ (a− 10)/2] = 0.50− 0.01 = 0.49,

de modo que (de la “tabla normal”) (a− 10)/2 = 2.33 (aprox.), es decir a = 14.66.

C

1.2.3. Teorema del Lımite Central

Cuando se muestrea de una poblacion no-normal, la distribucion de X depende dela forma particular de la distribucion de la poblacion la cual prevalece. Un resultadosorprendente, conocido como el Teorema del Lımite Central, establece que cuandoel tamano de la muestra n es grande, la distribucion de X es aproximadamente normal,sin importar la forma de la distribucion de la poblacion. En la practica, la aproximacionnormal es ideal cuando n es mayor a 30.

Teorema 1.2.1 (Teorema del Lımite Central) Si la poblacion tiene una distribucion conmedia µ y varianza σ2, entonces la media muestral X (de muestras aleatorias de tamanon), tiene aproximadamente una distribucion normal con media µ y varianza σ2/n, esdecir,

XD= N(µ, σ2/n) (1.4)

aproximadamente, para valores grandes de n.

11

La ecuacion (1.4) del resultado anterior, tiene varias conotaciones diferentes algunas deellas son:

(1)

Z =X − µσ/√n

es aproximadamente N(0, 1)

(2) Para cada x,

P[X1 + · · ·+Xn − nµ

σ√n

≤ x

]∼ Φ(x)

en donde Φ(x) es la distribucion normal estandar.

(3) Definimos

Un =√n

(X − µσ

)Entonces la funcion de distribucion Un converge a una funcion de distribucionnormal estandar cuando n→∞.

Ejemplo 1.2.2 Supongamos que en individuos con presion sanguınea alta, es igualmen-te probable que despues de un cierto periodo de tiempo, la presion le haya bajado o noligeramente. Por otro lado se ha comprobado que en individuos con presion sanguıneaalta, que se encuentren bajo el efecto de un cierto medicamento H, la presion disminu-ye en el 80 % de los casos. Consideremos una muestra de 200 individuos con presionsanguınea alta:

(a) Si suponemos que no estan afectados por ningun medicamento, calcula la pro-babilidad de que le baje la presion a mas de 90 individuos.Solucion:Puesto que estamos bajo el supuesto de que no estan afectados por ningun medi-camento, entonces la probabilidad de le sube o baje la presion a un individuo esp = 0.5, tenemos una muestra de tamano n = 200. En este caso, estamos tra-tando con una distribucion binomial (Bin(n = 200, p = 0.5)), y lo que se buscaes

P(X ≥ 90) =200∑x=90

(0.5)x(0.5)200−x

= 1−90∑x=1

(0.5)x(0.5)200−x

= 0.9313

12

Figura 1.4: Probabilidad de X ≥ 90

Existe un problema en este caso, pues cualquiera de la dos opciones para calcularla probabilidad deseada se tiene que realizar 110 o 90 sumas respectivamente, locual es poco practico; en este caso el resultado de 0.9313 es el resultado exactode la sumatoria. Ahora utilizaremos el Teorema del Lımite Central, para dar unaaproximacion al resultado anterior, tenemos que X es una variable binomial conparametros n = 200 y p = 0.5; ademas, X tiene media y desviacion estandar:

µ = np = 100, σ =√npq =

√200(0.25) =

√50.

Luego, lo que deseamos encontrar estara dado por:

P(X ≥ 90) ≈ P(X∗ ≥ (90− 100)/√

50)

= P(X∗ ≥ −10/7.07)

= P(X∗ ≥ −1.4144)

en donde X∗ = (X − µ)/σ. De la ”tabla normal”se ve entonces que

P(X ≥ 90) ≈ P(X∗ ≥ −1.4144)

= 0.9207

(b) Si la muestra se encuentra bajo el efecto de H, calcula la probabilidad de quebaje la presion en mas de 172 casos o en menos de 148.Solucion:En este caso como la muestra se encuentra bajo el efecto de H, tomaremos comola probabilidad de exito (disminuye la presion) p = 0.8. En este caso, estamostratando con una distribucion binomial (Bin(n = 200, p = 0.8)), y lo que se

13

Figura 1.5: Probabilidad de X < 148 y X > 172

busca es:

P(X < 148) + P(X > 172) = P(X ≤ 147) + P(X ≥ 173)

≈ P(X∗ ≤ (147− 160)/√

32) + P(X∗ ≥ (173− 160)/√

32)

= P(X∗ ≤ −13/5.66) + P(X∗ ≥ 13/5.66)

= 2 ∗ P(X∗ ≥ −2.29)

en donde X∗ = (X − µ)/σ. De la ”tabla normal”se ve entonces que

P(X < 148) + P(X > 172) ≈ 2 ∗ P(X∗ ≥ −2.29)

= 2 ∗ (0.01101)

= 0.02202

C

1.3. Muestreo

En las secciones anteriores supusimos que una muestra era dada y calculamos algunosparametros (o estadısticos) asociados a dicha muestra. En esta seccion y las siguientes,

14

que se pueden agrupar bajo el nombre de inferencia estadıstica, estaremos interesadosen que conclusiones se pueden obtener acerca de una poblacion a partir de una muestradaday que tan confiables son dichas conclusiones.

1.3.1. Muestreo aleatorio

En primer lugar, la informacion que se obtiene de una poblacion a partir de unamuestra se basa en criterios probabilısticos. Consecuentemente las muestras se debenseleccionar en tal forma que las reglas de la probabilidad sean aplicadas. Para que estose cumpla, el muestreo debe ser aleatorio. Esto significa que el muestreo debe satisfacerlas siguientes condiciones:

(a) Cada individuo en la poblacion debe tener una probabilidad conocida de ser se-leccionado. El caso mas simple y mas comun es cuando dicha probabilidad es lamisma para cada uno de los individuos o elementos de la poblacion. Ademas,

(b) La muestra debe ser independiente; es decir, cada seleccion debe ser independientede las demas.

Cuando se realiza un muestreo que satisface estas condiciones, se dice entonces quela muestra obtenida es una muestra aleatoria. En lo que sigue, para abreviar unpoco, eliminaremos el adjetivo “aleatorio” y supondremos que el muestreo realizado y lamuestra obtenida siempre son aleatorios.Como el unico resultado que se obtiene al realizar una investigacion es la informacion,deberıamos de obtenerla a un costo mınimo. El procedimiento de muestreo afecta lacantidad de esta informacion debido a la medicion. Esto, junto con el tamano n de lamuestra, controla la cantidad total de informacion relevante en una muestra. En nuestrocaso estaremos interesados en la situacion mas sencilla de muestreo -el muestreo aleatoriode una poblacion relativamente grande- y dedicaremos nuestra atencion a la selecciondel tamano n de la muestra.El tamano de la muestra depende de tres factores:

La variabilidad del parametro a estudiar (σ2); esta se puede obtener de datosprevios o estudios pilotos.

Precision; se refiere a la amplitud del intervalo de confianza (este tema se encuen-tra mas adelante).

15

Nivel de confianza (1 − α); comunmente se toma 95 % o 99 %. La cual es laprobabilidad complementaria al error admitido (α).

Para encontrar la expresion del tamano de la muetra cuando se hace estudio sobre lamedia, utilizaremos el Teorema del Lımite Central, pues, sabemos que

P[√

n

(X − µσ

)≤ x

]∼ Φ(x)

en donde Φ(x) es la distribucion normal estandar. Hacemos E = X − µ, que nos deno-tara un nivel de “error” en la diferencia entre el promedio que obtengamos de la muestray la media poblacional que sera desconocida para nosotros, luego, si queremos que elpromedio no se aleje mucho de la media con una probabilidad 1−α, debemos encontrarn de tal forma que

P[∣∣∣∣√n(Eσ

)∣∣∣∣ ≤ x

]= 1− α.

Se toma el valor absoluto porque queremos que esa diferencia entre el promedio y lamedia sea en ambos sentidos (la diferencia puede ser negativa o positiva), de aquı que,se tiene que encontrar el valor de “x” de la tabla normal tal que la probabilidad deseadasea de 1 − α, denotaremos a este x como zα/2 (explique), luego si sabemos el valor deE que deseamos como el “error”, el nivel de confianza, y la variabilidad, solo nos restaencontrar el valor de n en la expresion anterior eso es

E√n

σ= zα/2

E√n = σ · zα/2√n =

σ · zα/2E

n =[σ · zα/2

E

]2Ejemplo:

Un economista quiere estimar el ingreso medio para el primer ano de trabajo de uncolegio. ¿Cuantos de estos ingresos debe encontrar si quiere estar 95 % seguro que lamedia muestral esta en $500 de la verdadera media poblacional? Supongamos que unestudio previo ha revelado que para estos ingresos, se tiene un σ = $6250.Solucion:Sabemos que el valor zα/2 de la tabla normal es de 1.96 (aprox.), y tenemos que E = 500

16

y σ = 6250. Luego,

n =

[(6250) · (1.96)

500

]2=

[12250

500

]2= (24.5)2

= 600.25 ≈ 601.

Por lo tanto, si el economista quiere estimar el ingreso medio para el primer ano con unerror sobre su estimacion de $500 y un nivel de confianza del 95 % entonces tendra quetomar una muestra de tamano de 601. C

Los tamanos de muestra para las distintas estimaciones entonces se pueden resumir:

n =[σ·zα/2

E

]2Media

n =(0.25)·z2

α/2

E2 Proporcion desconocida

n =(pq)·z2

α/2

E2 Proporcion (p y q son conocidos)

Puesto que supusimos que nos encontrabamos en la situacion mas sencilla de muestreoel cual es aleatorio de una poblacion relativamente grande las igualdades anteriores sonvalidas, se deja al lector la investigacion sobre otras configuraciones de muestreo, pues,existen expresiones para el tamano de muestra cuando la poblacion es finita, y si elmuestreo es aleatorio o por estratos, etc.

1.3.2. Otros metodos de muestreo

En este apartado, y solo a nivel de comentario, mencionaremos algunos metodos mo-dificados. El nombre se debe a que estos metodos se reducen, en ultima instancia, a unmuestreo simple.Si se desea conocer el ingreso medio de los habitantes de una ciudad, un muestreo alea-torio simple podrıa dar resultados poco apegados a la realidad si es que los ingresos delas personas son de ordenes demasiado heterogeneos. Una forma de obtener resultadosmas reales consiste en hacer un muestreo estratificado. Este tipo de muestreo se basaen dividir la poblacion en estratos o grupos (economicos, en nuestro ejemplo), y tomardespues muestras aleatorias de cada grupo por separado. Si el tamano de las muestrasde cada grupo es proporcional al tamano del grupo, se dice entonces que el muestreoes un muestreo (estratificado) proporcional. (Este tipo de muestreo se puede justificarteoricamente usando el teorema de la probabilidad total)

17

En otros casos (como en los censos nacionales) es mas conveniente hacer un muestreoramificado. En este tipo de muestreo, la region completa de donde se desea tomar lamuestra se divide en regiones mas pequenas de las cuales ya se toma una muestra alea-toria, o bien, se vuelven a subdividir en regiones todavıa mas pequenas antes de hacerel muestreo en sı.Combinando estos metodos se obtienen metodos compuestos que pueden ser mejores enun caso particular. En ultima instancia, el metodo que se escoja depende de las facilidadesde realizarlo y, desde luego, el problema que se tenga en mente.

1.4. Estimacion de parametros

En esta seccion estudiaremos brevemente uno de los problemas mas importantes dela estadıstica: la estimacion de parametros.Ejemplo de una situacion en la que se presenta el problema de la estimacion de parametroses la siguiente:

Ejemplo 1.4.1 La siguiente tabla muestra 106 temperaturas corporales (medidas en gra-dos Fahrenheit) obtenidas por los investigadores de la Universidad de Maryland.

Temperaturas corporales de 106 adultos saludables98.6 98.6 98.0 98.0 99.0 98.4 98.4 98.4 98.4 98.698.6 98.8 98.6 97.0 97.0 98.8 97.6 97.7 98.8 98.098.0 98.3 98.5 97.3 98.7 97.4 98.9 98.6 99.5 97.597.3 97.6 98.2 99.6 98.7 99.4 98.2 98.0 98.6 98.697.2 98.4 98.6 98.2 98.0 97.8 98.0 98.4 98.6 98.697.8 99.0 96.5 97.6 98.0 96.9 97.6 97.1 97.9 98.497.3 98.0 97.5 97.6 98.2 98.5 98.8 98.7 97.8 98.097.1 97.4 99.4 98.4 98.6 98.4 98.5 98.6 98.3 98.798.8 99.1 98.6 97.9 98.8 98.0 98.7 98.5 98.9 98.498.6 97.1 97.9 98.8 98.7 97.6 98.2 99.2 97.8 98.098.4 97.8 98.4 97.4 98.0 97.0

De los cuales tenemos las siguientes estadısticas:

La media de los datos es x = 98.20

La desviacion estandar es s = 0.62

El tamano de la muestra es n = 106.

Si usamos µ = 98.20 como una “estimacion” del parametro µ de la poblacion, senos antoja afirmar que aproximadamente la temperatura corporal promedio es de 98.20.

18

Pero, ¿que significa el “aproximadamente”?¿Queremos decir que la diferencia entre lamedia real µ y la estimacion µ = 98.20 es de 1oF , o de 10oF , o de 20oF? Ası pues, esobvia la necesidad de precisar el “grado de confianza” con que se aceptara la estimacionµ. La relacion con los grados centıgrados es de acuedo a C =

(59

)(F − 32).

1.5. Estimadores y estimaciones

Como se ha visto en secciones anteriores la distribucion normal esta completamentedeterminada por los parametros µ y σ. Esto significa que cualquier propiedad de la dis-tribucion normal depende de estos dos parametros. Asimismo, la distribucion binomialesta determinada por los parametros n y p.Consideremos una distribucion con un parametro desconocido θ y supongase que tene-mos una formula para calcular un valor aproximado θ del parametro θ a partir de unamuestra x1, x2, . . . , xn. (Por ejemplo, si la distribucion es normal y se conoce σ2, pero µes desconocida, entonces podrıamos pensar que una aproximacion de µ es la media dela muestra: µ = x = 1

n(x1 + x2 + · · · + xn)) Es claro que θ depende de los valores de la

muestra y, por lo tanto, podemos escribir

θ = f(x1, x2, . . . , xn), (1.5)

en donde f es una funcion conocida de x1, x2, . . . , xn. (En nuestro ejemplo, la funcionf es f(x1, x2, . . . , xn) = 1

n(x1 + x2 + · · · + xn).) Supongamos que x1, x2, . . . , xn son los

valores respectivos de n variables aleatorias X1, X2, . . . , Xn independientes y con la mis-ma distribucion. Entonces θ = f(x1, x2, . . . , xn) se puede considerar como un valor de lavariable aleatoria

Θ = f(X1, X2, . . . , Xn). (1.6)

Esta variable aleatoria es un estimador del parametro θ, y un valor particular del nume-ro θ en (1.5) es una estimacion de θ.

1.5.1. Estimaciones puntuales e intervalos de confianza

Las estimaciones de parametros de uso comun en estadıstica son de dos tipos: lasestimaciones puntuales y las estimaciones por intervalos.

Definicion 1.5.1 Un estimador es un estadıstico muestral usado para aproximar unparametro de una poblacion. Una estimacion es un valor especıfico o rango de valoresusados para aproximar algun parametro poblacional.

19

Definicion 1.5.2 Un estimador puntual es un valor simple (o punto) usado paraaproximar un parametro poblacional.

Regresando al ejemplo de las temperaturas corporales, vemos que 98.20◦ es nuestro mejorestimador puntual de la media poblacional µ, pero no tenemos indicacion de que tanbueno fue. Si supieramos solo las primeras cuatro temperaturas 98.6, 98.6, 98.0 y 98.0,el mejor estimador puntual de µ serıa su media (x = 98.30◦ F), pero no esperarıamosque este estimador fuera muy bueno porque esta basado en una muestra muy pequena.La media muestral x es el mejor estimador puntual de la media poblacionalµ, ¿Porque?, a continuacion mencionamos algunas caracterısticas de este estimador:

Para muchas poblaciones, la distribucion de las medias muestrales x tiende a sermas consistente (con menos variacion) que la distribucion de otros estadısticosmuestrales.

Para todas las poblaciones, decimos que la media muestral x es un estimadorinsesgado de la media poblacional µ, lo que significa que la distribucion de lasmedias muestrales tiende a centrarse alrededor del valor de la media poblacionalµ.

Metodos de Estimacion

En este apartado veremos dos metodos para encontrar estimadores: el metodo de losmomentos y el metodo de la maxima verosimilitud. Un tercer metodo importante parala estimacion es el metodo de los mınimos cuadrados, que se tratara en el Capıtulo X(Regresion Lineal).

Metodo de los momentosEn esta parte se explicara uno de los metodos mas antiguos para obtener estimadorespuntuales.El metodo de los momentos es un procedimiento muy sencillo para encontrar un estima-dor para uno o mas parametros poblacionales. Recuerdese que el k−esimo momento deuna variable aleatoria, tomado con respecto al origen, es

µ′k = E(Xk)

El correspondiente k−esimo momento de la muestra es el promedio

m′k =1

n

n∑i=1

Xki

El metodo de los momentos se basa en el supuesto de que los momentos de la muestradeben proporcionar estimaciones apropiadas para los momentos correspondientes de la

20

poblacion. Es decir, m′k serıa un buen estimador de µ′k, k = 1, 2, . . . Entonces, ya que losmomentos de la poblacion µ′1, µ

′2, . . . , µ

′k seran funciones de los parametros poblacionales,

igualaremos los momentos correspondientes de la poblacion y de la muestra, y resolvere-mos para determinar los parametros deseados. Por lo tanto el metodo de los momentospuede expresarse como sigue:

Metodo de los momentos: Elija como estimaciones aquellos valores de losparametros que son soluciones de las ecuaciones µ′k = m′k, k = 1, 2, . . . , t, endonde t es igual al numero de parametros.

Ejemplo:Se selecciona una muestra aleatoria de n observaciones Y1, Y2, . . . , Yn, de una poblacionen la cual Yi, i = 1, 2, . . . , n, tiene una funcion de densidad de probabilidad uniforme so-bre el intervalo (0, θ) con θ desconocido. Utilice el metodo de los momentos para estimarel parametro θ.

Solucion:Su funcion de densidad esta definida como

f(y; θ) = 1θ, y ∈ (0, θ)

El valor de µ′1 para una variable aleatoria uniforme es

µ′1 = µ = E(Y ) =

∫ θ

0

y · f(y; θ)dy

=

∫ θ

0

y

θdy

=1

θ

∫ θ

0

ydy

=1

θ· y

2

2

∣∣∣∣θ0

=1

θ·[θ2

2− 0

2

]=θ

21

El primer momento muestral correspondiente es

m′1 =

∑ni=1 Yin

= Y

Al igualar los momentos correspondientes y al resolver con respecto al parametro desco-nocido θ, obtenemos

µ′1 =θ

2= Y o θ = 2Y

Por lo tanto 2Y es el estimador mediante momentos para θ. C

Metodo de la maxima verosimilitudEl metodo implica determinar alguna funcion de un estadıstico de “mınima suficiencia”que sea un estimador insesgado del parametro-objetivo. El metodo de los momentos esintuitivo y facil de aplicar, pero generalmente no lleva a los mejores estimadores. En estaseccion presentamos un metodo, el metodo de la maxima verosimilitud, que suele generarestimadores insesgados de mınima varianza.La tecnica llamada metodo de la maxima verosimilitud selecciona como estimacionesaquellos valores de los parametros que maximizan la verosimilitud (la funcion de proba-bilidad o la funcion de densidad conjunta) de la muestra observada.

Definicion 1.5.3 Sean x1, x2, . . . , xn observaciones muestrales para las variables aleato-rias correspondientes X1, X2, . . . , Xn. Entonces si X1, X2, . . . , Xn son variables aleatoriasdiscretas, la verosimilitud (factibilidad) de la muestra, L = L(x1, x2, . . . , xn) se define co-mo la probabilidad conjunta de x1, x2, . . . , xn. Si X1, X2, . . . , Xn son variables aleatoriascontinuas, la verosimilitud L = L(x1, x2, . . . , xn) se define como la densidad conjuntaevaluada en x1, x2, . . . , xn.

Metodo de la maxima verosimilitud: Escoja como estimaciones aquellosvalores de los parametros que maximizan la verosimilitud L(x1, x2, . . . , xn).

Ilustraremos el metodo con un ejemplo

Ejemplo:Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribucion normal con media µ y va-rianza σ2. Encuentre los estimadores de maxima verosimilitud de µ y σ2.

Solucion:

22

Como Y1, Y2, . . . , Yn son variables aleatorias continuas, L es la funcion de densidad con-junta de la muestra. Por lo tanto, L = f(y1, y2, . . . , yn). En este caso

L = f(y1, y2, . . . , yn) = f(y1)f(y2) · · · f(yn)

=

exp[−(y1−µ)2

2σ2

]σ√

exp

[−(y2−µ)2

2σ2

]σ√

· · ·exp

[−(yn−µ)2

2σ2

]σ√

=

(1

σn(2π)n/2

)exp

[−∑n

i=1(yi − µ)2

2σ2

][recuerde que exp( ) es solamente otra manera de escribir e( )] y

lnL = −n2

lnσ2 − n

2ln 2π −

∑ni=1(yi − µ)2

2σ2

Los estimadores de maxima verosimilitud de µ y σ2 son aquellos valores que maximizanlnL. Al derivar con respecto a µ y σ2, obtenemos

d lnL

dµ=

∑ni=1(yi − µ)

σ2

yd lnL

dσ2= −

(n2

)( 1

σ2

)+

∑ni=1(yi − µ)2

2σ4

Al igualar las derivadas a cero y resolver simultaneamente, obtenemos de la primeraecuacion ∑n

i=1(yi − µ)

σ2= 0

n∑i=1

yi − nµ = 0

luego

µ =

∑ni=1 yin

= y

Al sustituir y por µ en la segunda ecuacion y despejar σ2, tenemos

−nσ2

+

∑ni=1(yi − y)2

σ4= 0

σ2 =

∑ni=1(yi − y)2

n= s′2

Por lo tanto Y y S ′2 son los estimadores de maxima verosimilitud de µ y σ2, respecti-vamente. Notese que Y es insesgado para µ. Aunque S ′2 no es insesgado para σ2, se lepuede ajustar facilmente para obtener el estimador insesgado S2. C

23

Intervalos de Confianza

Dado que basarnos en un solo dato para tomar decisiones es poco “confiable”, esnecesario utilizar un rango de valores plausibles para el parametro de la poblacion, aeste rango de valores se les denomina intervalos de confianza.

Definicion 1.5.4 Un intervalo de confianza (o estimacion por intervalos) es unrango de valores que es muy probable que contengan el verdadero valor del parametro dela poblacion.

Definicion 1.5.5 El grado de confianza es la probabilidad 1 − α de que el inter-valo de confianza contenga el valor verdadero del parametro de la poblacion. (El gradode confianza tambien es conocido como el nivel de confianza o el coeficiente deconfianza).

Ejemplo:El intervalo de confianza de grado de confianza del 0.95 en (1.4.1), para la media

poblacional µ es 98.08◦ F < µ < 98.32◦ F. Esta media poblacional µ puede o no estar

Figura 1.6: 95 % de confianza

en los valores del rango del intervalo, pues los valores dependen mucho de los datos dela muestra. En este caso tenemos un 95 % de confianza, lo cual nos quiere decir que decada 100 muestras que se tomen, 95 de ellas tendran la media poblacional.

24

Ahora veamos como calcular el intervalo de confianza; como podemos observar en laFigura 1.6 el centro del intevalo es la media de la muestra (98.20◦ F) y los lımites delintervalo estan alrededor de este valor, es decir, este intervalo tiene la forma

x± ε (donde ε = error).

El problema es calcular un error ε con un “nivel de confianza” del 95 %; en terminos deprobabilidades el problema es el siguiente: calcular el valor de ε tal que

P[X − ε < µ < X + ε

]= 0.95. (1.7)

Este problema no es muy difıcil porque, afortunadamente, tenemos el teorema del lımitecentral. Ası pues, (1.7) se puede reescribir como

P[−ε

σ/√n<X − µσ/√n<

ε

σ/√n

]= 0.95

en donde X∗

= (X − µ)/(σ/√n)

D= N(0, 1) aproximadamente. Luego, de la “tabla

normal” vemos que−ε

σ/√n

= 1.96 o ε = 1.96 · σ√n

y (1.7) resulta:

P[X − 1.96 · σ√

n< µ < X + 1.96 · σ√

n

]= 0.95 (1.8)

De (1.8) vemos que para las estimaciones x = 98.20 y s = 0.62, el “intervalo de confianzadel 95 %” para la temperatura media corporal (µ) es

98.20− 1.96 · 0.62√106

< µ < 98.20 + 1.96 · 0.62√106

,

es decir,98.20− 0.118 < µ < 98.20 + 0.118

98.082 < µ < 98.318.

C

Los extremos x± 1.96(σ/√n) del intervalo de confianza se llaman lımites de confianza.

Por supuesto, estos lımites varıan cuando se toma un nivle de confianza distinto del 95 %.De lo anterior tenemos las siguientes definiciones,

Definicion 1.5.6 Un valor crıtico es el numero en la base de la lınea que separalos estadısticos muestrales que son muy probables de ocurrir de aquellos que son pocoprobables. El numero zα/2 es un valor crıtico.

25

Definicion 1.5.7 Cuando los datos son usados para estimar la media de la poblacion µel margen de error, denotado por E, es la diferencia maxima probable (con probabilidad1− α) entre la media muestral estimada x y el verdadero valor µ.

E = zα/2 ·σ√n

Para el ejemplo anterior zα/2 = 1.96 y E = 0.118. Por lo tanto, los intervalos de confianzapara la media, se puede resumir en lo siguiente:

x− E < µ < x+ E.

donde E sera:

E = zα/2 · σ√n

(σ conocida o n > 30)

E = tα/2 · s√n

(σ desconocida y n ≤ 30)

donde tα/2 tiene n− 1 grados de libertad.

Hasta el momento hemos utilizado la media (x) de una muestra para estimar la media(µ) de la poblacion. Aunque eso parece muy natural, alguien podrıa preguntarse porque no usamos la moda o la mediana o alguna otra medida de tendencia central, distintade la media, para estimar µ. Claro que las podemos usar, pero se eligio la media porquees el “mejor” estimador de µ en varios sentidos, uno de ellos es porque es un estimadorinsesgado, esto lo vimos en la seccion 1.2.1.

Definicion 1.5.8 Decimos que Θ es un estimador insesgado del parametro θ si

E(Θ) = θ (1.9)

En caso contrario, es decir, si E(Θ) 6= θ, entonces Θ es un estimador sesgado. Cuando

Θ es sesgado, el sesgo de Θ se define como la diferencia E(Θ)− θ.Vamos a ver algunos intervalos de confianza, se mencionan a continuacion:

Intervalo de confianza para diferencia de dos medias, varianza conocida y descono-cida

Intervalo de confianza para la varianza de una distribucion normal

Intervalo de confianza para una proporcion y diferencia de dos proporciones

26

Intervalo de confianza para la diferencia de dos medias

En este caso dividiremos los intervalos cuando las muestras son dependientes o inde-pendientes.

Muestras dependientesLos intervalos de confianza para la diferencia de dos medias, se puede resumir en lo

siguiente:

d− E < µd < d+ E

donde E = tα/2 · sd√n con n− 1 grados de libertad, µd es el valor medio de las diferen-

cias, d es el valor medio de las diferencias para los datos pareados muestrales y sd es ladesviacion estandar de las diferencias.Pero, ¿Que es dependencia?, ¿Cuando dos muestras son dependientes?, veamos un ejem-plo donde los datos son dependientes.Ejemplo:

Consideramos la siguiente muestra de datos pareados, que muestra los pesos de pre-entrenamiento y los pesos de pos-entrenamiento de seis personas:

Sujeto A B C D E FPre-entrenamiento (Kg) 99 62 74 59 70 73Pos-entrenamiento (Kg) 94 62 66 58 70 76

Basados en los datos de Journal of Applied Psychology, Vol. 62, No.1.

Se dice que que los datos son dependientes porque son datos que se toman de las mismaspersonas en distintos tiempos.Para encontrar los valores de d y sd, primero debemos calcular las diferencias de los datospareados,

Sujeto Pre Pos Pre− PosA 99 94 5B 62 62 0C 74 66 8D 59 58 1E 70 70 0F 73 76 −3

d = 1.833sd = 3.97

Nos falta calcular el valor crıtico tα/2. Luego, de la “tabla t-student” con n−1 = 5 gradosde libertad vemos que tα/2 = 2.57, el “intervalo de confianza del 95 %” para la diferenciade las medias (µd) es

1.83− 2.57 · 3.97√6< µd < 1.83 + 2.57 · 3.97√

6,

27

es decir,1.83− 4.17 < µd < 1.83 + 4.17

−2.34 < µd < 6.00

Como el valor de “cero” se encuentra en el intervalo de las diferencias, es decir, se puededar que Pre − Pos = 0, entonces no hay diferencia significativa entre los pesos antes ydespues del entrenamiento. C

Muestras independientesLos intervalos de confianza para la diferencia de dos medias cuando tenemos muestras

independientes, se puede resumir en lo siguiente:

(x1 − x2)− E < (µ1 − µ2) < (x1 − x2) + E

donde E en este caso puede ser de distintas maneras:

1. σ1, σ2 conocidas o n1 > 30 y n2 > 30 entonces E = zα/2 ·√

σ21

n1+

σ22

n2.

2. Rechazamos σ21 = σ2

2 y n1 ≤ 30 o n2 ≤ 30 entonces E = tα/2 ·√

s21n1

+s22n2

(g.l. = el

menor de n1 − 1, n2 − 1).

3. No rechazamos σ21 = σ2

2 y n1 ≤ 30 o n2 ≤ 30 entonces E = tα/2 ·√

s2pn1

+s2pn2

(g.l. =

n1 + n2 − 2) y s2p =(n1−1)s21+(n2−1)s22

(n1−1)+(n2−1) .

Ejemplo:Como parte de una encuesta nacional de salud, se obtuvieron los pesos para los

hombres. Para 804 hombres de edades 25-34, la media es 176 lb y la desviacion estandares de 35.0 lb. Para 1657 hombres de 65-74, la media y desviacion estandar son 164 y 27.0lb, respectivamente. Construye un intervalo de 99 % de confianza para la diferencia entrelas medias de los hombres en las dos categorıas. ¿El intervalo de confianza contiene al0?, ¿Indica que hay o no diferencia significante entre las dos medias?Solucion: Tenemos los siguientes datos:

Edades 25− 34 Edades 65− 74n1 = 804 n2 = 1657x1 = 176 x2 = 164s1 = 35.0 s2 = 27.0

Luego tenemos que x1 − x2 = 176 − 164 = 12, ahora calculemos el margen de error,utilizaremos el punto (2),

E = tα/2 ·

√s21n1

+s22n2

28

de la “tabla t-student” con n1 − 1 = 803 grados de libertad vemos que tα/2 = 2.58,entonces la expresion del margen de error resulta

E = 2.58 ·√

(35)2

804+

(27)2

1657

= 2.58 ·√

1.52 + 0.44

= 2.58 · (1.4)

= 3.612

y el “intervalo de confianza del 99 %” para la diferencia de las medias (µ1 − µ2) es

12− 3.61 < (µ1 − µ2) < 12 + 3.61

8.39 < (µ1 − µ2) < 15.61

Como el intervalo de confianza sugiere que la diferencia de las medias es estrictamentepositiva, es decir, (µ1 − µ2) > 0, es equivalente a decir que µ1 > µ2 entonces hay dife-rencia significativa entre los pesos de hombres de edades 25-34 y de 65-74; las personas“jovenes” en general tienden a pesar mas que las personas de la tercera edad. C

Intervalo de confianza para la varianza de una distribucion normal

Este tipo de intervalos para la varianza en general se utiliza para control de procesos,que mantengan un cierto balance en la variacion del producto. Los intervalos de confianzapara la varianza de una distribucion normal, se puede resumir en lo siguiente:

(n− 1) s2

χ2R

< σ2 <(n− 1) s2

χ2L

donde χ2R y χ2

L son los valores crıticos de una distribucion ji-cuadrada de los ladosderecho e izquierdo respectivamente (donde χ2

L = χ2α/2 y χ2

R = χ21−α/2), la distribucion

tendra n − 1 grados de libertad. Pues, asumiendo normalidad de los datos, la siguienteexpresion tendra una distribucion ji-cuadrada:

χ2 =(n− 1) s2

σ2

Ejemplo:En la siguiente tabla se muestran los pesos de 12 bunuelos (oz). El supervisor de

calidad ha encontrado que puede estar fuera de problemas si los bunuelos tienen unamedia de 3.50 oz. y una desviacion estandar de 0.06 oz o menos (pues han etiquetado 42oz).

3.43 3.37 3.58 3.50 3.68 3.61 3.42 3.52 3.66 3.50 3.36 3.42

29

Construir intervalo de confianza del 95 % para σ2 y un intervalo de confianza del 95 %para σ, luego determina si el supervisor de control de calidad esta en problemas.Solucion:Para poder calcular el intervalo de confianza solo necesitamos encontrar los valores des2, χ2

L y χ2R. Luego, s2 = 0.0119 y de “tablas” de la distribucion ji-cuadrada tenemos que

χ2L = 3.82 y χ2

R = 21.92 con n− 1 = 11 grados de libertad, y el “intervalo de confianzadel 95 %” para la varianza σ2 es

(11) 0.0119

21.92< σ2 <

(11) 0.0119

3.82

0.1309

21.92< σ2 <

0.1309

3.82

0.0060 < σ2 < 0.0343

Dado que la funcion “raız cuadrada” es una funcion 1-1 podemos obtener tambien elintervalo para la desviacion estandar con solo tomar la raız cuadrada en la expresionanterior, es decir, √

0.0060 <√σ2 <

√0.0343

0.077 < σ < 0.185.

Luego, como en el intervalo de confianza para la desviacion estandar no se encuentrael valor de 0.06, de hecho el intervalo “abarca” valores mayores a este y se necesitabavalores menores para que el supervisor estuviera fuera de problemas, entonces quieredecir que el proceso de la preparacion de bunuelos tiene mucha variacion. C

Intervalo de confianza para una proporcion y diferencia de dos proporciones

Supongamos que queremos estimar una proporcion de poblacion (p), en este caso laproporcion muestral (p) es el mejor estimador para nuestro parametro, esta proporcionmuestral sera el cociente del numeros de sucesos (exitos) en una muestra de tamano n.El intervalo de confianza para la proporcion poblacional, se puede resumir en lo siguiente:

p− E < p < p+ E

donde E = zα/2 ·√

pqn

con q = 1− p

Ejemplo:Ha sido realizado (Journal of Clinical Epidemiology, (1988) 41(6), 531-541 ) un estu-

dio caso-control sobre la efectividad del Test de Pap en la prevencion del cancer cervical(por identificacion de lesiones precancerosas). Se obtuvo que un 28.1 % de 153 casos decancer cervical y un 7.2 % de 153 controles nunca se habıan realizado un Test de Papprevio al diagnostico del caso.

30

(a) Obten un intervalo de confianza, al 95 %, para el porcentaje de casos de cancercervical que nunca se han realizado un Test de Pap.

(b) Idem para los controles.

Solucion:(a) Tenemos que p = 0.281, q = 1 − 0.281 = 0.719 y n = 153, y de la tabla de ladistribucion normal para el nivel de 95 % tenemos que zα/2 = 1.96, luego

E = 1.96 ·√

(0.281)(0.719)

153= 1.96 ·

√0.0013 = 0.071

y el “intervalo de confianza del 95 %” para la proporcion p de casos de cancer cervicalque nunca se han realizado un Test de Pap es

0.281− 0.071 < p < 0.281 + 0.071

0.210 < p < 0.352

(b) De igual forma que anteriormente, tenemos ahora para los controles tenemos quep = 0.072, q = 1− 0.072 = 0.928 y n = 153, y de la tabla de la distribucion normal parael nivel de 95 % tenemos que zα/2 = 1.96, luego

E = 1.96 ·√

(0.072)(0.928)

153= 1.96 ·

√0.00044 = 0.041

y el “intervalo de confianza del 95 %” para la proporcion p de casos de cancer cervicalcontroles es

0.072− 0.041 < p < 0.072 + 0.041

0.031 < p < 0.113

C

Otro caso es cuando queremos comparar dos proporciones de dos poblaciones indepen-dientes. El intervalo de confianza en este caso sera:

(p1 − p2)− E < (p1 − p2) < (p1 − p2) + E

donde E = zα/2 ·√

p1q1n1

+ p2q2n2

.

Ejemplo:Segun un estudio senalo que una gran proporcion de crimenes cometidos por personas

menores de 21 anos son crimenes violentos. De 2750 arrestos seleccionados aleatoriamentede criminales menores de 21 anos, el 4.25 % involucran crimenes violentos. De 2200

31

arrestos seleccionados aleatoriamente de criminales mayores o iguales a 21 anos, el 4.55 %involucran crimenes violentos. Construye un intervalo de confianza del 95 % para ladiferencia entre las dos proporciones de crimenes violentos. ¿El intervalo de confianzacontiene al cero?, ¿Esto indica que no hay una diferencia significativa entre estos dosındices de crimenes violentos?Solucion:Tenemos los datos de los menores de 21 anos, p1 = 0.0425, q1 = 1 − 0.0425 = 0.9575 yn1 = 2750, y para los mayores o iguales a 21 anos, p2 = 0.0455, q2 = 1− 0.0455 = 0.9545y n2 = 2200, de la tabla de la distribucion normal para el nivel de 95 % tenemos quezα/2 = 1.96, luego

E = 1.96 ·√

(0.0425)(0.9575)

2750+

(0.0455)(0.9545)

2200= (1.96) · (0.0059) = 0.012

y el “intervalo de confianza del 95 %” para la diferencia de proporciones (p1 − p2) es

(0.0425− 0.0455)− 0.012 < (p1 − p2) < (0.0425− 0.0455) + 0.012

−0.003− 0.012 < (p1 − p2) < −0.003 + 0.012

−0.015 < (p1 − p2) < 0.009

Como el intervalo de confianza sugiere que la diferencia de las proporciones puede sercero, es decir, (p1 − p2) = 0, es equivalente a decir que p1 = p2 entonces no hay diferenciasignificativa entre las dos proporciones de crimenes violentos. C

32

1.6. Ejercicios propuestos

1. En una cierta poblacion se estudia la variable aleatoria “cifra de urea en sangre”(expresada en SDS-puntuaciones estandar). Se acepta que dicha variable se distri-buye segun una ley normal de media 0 y desviacion tıpica 1.

(a) ¿Cual es la probabilidad de que un individuo escogido al azar de estapoblacion tenga una SDS de urea en sangre inferior a 1.83?

(b) ¿Cual es la probabilidad de que un individuo escogido al azar de estapoblacion tenga una SDS de urea en sangre igual o superior a 1.65?

(c) ¿Cual es la probabilidad de que un individuo escogido al azar de esta po-blacion tenga una SDS de urea en sangre igual o inferior a -1.65?

(d) ¿Cual es la probabilidad de que un individuo escogido al azar de estapoblacion tenga una SDS de urea en sangre comprendida entre 0.25 y 1.25?

(e) ¿Cual es la probabilidad de que un individuo escogido al azar de esta po-blacion tenga una SDS de urea en sangre comprendida entre -0.25 y 1.25?

(f) ¿Cual es el valor de la variable urea en sangre expresada en SDS que limitael 25 % superior de la distribucion de todos los individuos de la poblacion?

2. El valor medio de acido piruvico en sangre es de 10 µgr/cc, con una desviaciontıpica de 4 µgr/cc, y se supone que se distribuye normalmente. Calcula:

(a) La probabilidad de encontrar valores de dicho acido inferiores a 1.8 µgr/cco superiores a 22.2 µgr/cc.

(b) La probabilidad de encontrar valores de dicho acido comprendidos entre17.36 µgr/cc y 18.8 µgr/cc.

(c) ¿Cual es el valor de u si se sabe que la probabilidad de encontrar valoresde dicho acido comprendidos entre 3.6 y u µgr/cc es de 0.8201?

(d) ¿Cual es el valor de u si se sabe que la probabilidad de encontrar valoresde dicho acido igual o superior a u µgr/cc es de 0.9678?

3. Supongamos que la estatura media de los varones espanoles mayores de 17 anosse distribuye normalmente con media 1.73m y que el 67 % de estos mide mas de1.69m.

(a) Calcula la desviacion tıpica de la poblacion.

(b) Se pretende clasificar la poblacion en tres grupos: altos, normales y bajos.Para ello se toma un cierto intervalo centrado en la media, considerandose entoncesun varon como normal cuando su estatura quede dentro de ese intervalo, como altocuando sea superior al lımite superior del intervalo y como bajo cuando sea inferioral lımite inferior del intervalo. El intervalo se construye de tal forma que sean

33

considerados como normales el 66.8 % de los varones mayores de 17 anos. ¿A partirde que estatura sera considerado como alto un varon mayor de 17 anos? ¿Hastaque estatura es considerado bajo?

4. En una poblacion de ninos con edades comprendidas entre 5 y 7 anos se ha com-probado que el perımetro carpiano (X) se distribuye segun una normal de media12 cm. Sabiendo que el 47.51 % de los ninos de esta poblacion tienen su perımetrocarpiano entre 8 cm y 12 cm, calcula:

(a) P(X < 16)

(b) P(X = 12)

(c) La varianza del perımetro carpiano en la citada poblacion.

5. Se sabe que la estatura de los varones sigue una distribucion Normal. ¿Cuales sonsus parametros si el percentil 5 es 156 cm y el 95 es 184 cm?

6. El periodo de incubacion de una determinada enfermedad se distribuye normal-mente con un tiempo medio de 800 horas y una desviacion tıpica de 60 horas.Calcula las siguientes probabilidades en una muestra de 16 pacientes contagiados:

(a) Que muestren una incubacion media entre 790 y 810 horas.

(b) Que la incubacion media fuese inferior a 785 horas.

(c) Que la incubacion media fuese mayor que 820 horas.

(d) Que ningun paciente muestre sıntomas de la enfermedad antes de 830 horas.

(e) Que todos los pacientes muestren sıntomas antes de las 800 horas.

(f) Que la desviacion tıpica muestral en la duracion de las incubaciones este en-tre 50 y 65 horas.

(g) Que la desviacion tıpica muestral sea menor de 60 horas. Nota: P(χ215 ≤

10.42) = 0.2075, P(χ215 ≤ 15) = 0.5486 y P(χ2

15 ≤ 17.6) = 0.7157.

7. Un fabricante de cigarrillos asegura que el contenido promedio de nicotina, en unade sus marcas, es de 0.6 mg por cigarrillo. Una organizacion independiente mideel contenido de nicotina de 16 cigarrillos de esta marca y encuentra que la mediay la desviacion tıpica muestrales son 0.75 y 0.175, respectivamente, de nicotina.Si se supone que la cantidad de nicotina de estos cigarrillos sigue una distribucionnormal, ¿que podemos decir de la probabilidad del resultado muestral dado el datoproporcionado por el fabricante?

8. Supongamos que en individuos con presion sanguınea alta, es igualmente probableque despues de un cierto periodo de tiempo, la presion le haya bajado o no ligera-mente. Por otro lado se ha comprobado que en individuos con presion sanguınea

34

alta, que se encuentren bajo el efecto de un cierto medicamento H, la presion dis-minuye en el 80 % de los casos. Consideremos una muestra de 200 individuos conpresion sanguınea alta:

(a) Si suponemos que no estan afectados por ningun medicamento, calcula laprobabilidad de que le baje la presion a mas de 90 individuos.

(b) Si la muestra se encuentra bajo el efecto de H, calcula la probabilidad deque baje la presion en mas de 172 casos o en menos de 148.

9. Se ha comprobado que un cierto tipo de intervencion quirurgica tiene un porcen-taje de complicaciones secundarias del 30 %. Consideremos cien pacientes que sesometen a dicha intervencion:

(a) Calcula la probabilidad de que se produzcan menos de 20 complicaciones.

(b) Calcula el numero maximo de complicaciones esperado, con una probabili-dad del 95 %.

10. Si en una poblacion de mujeres un 15 % estan sometidas a cierta dieta, ¿cual es laprobabilidad de que una muestra aleatoria de tamano 100 de una proporcion deaquellas que se encuentran a dieta:

(a) mayor o igual que 0.2?

(b) entre 0.1 y 0.2?

(c) no mayor que 0.12?

11. En una determinada comunidad hay unos habitos alimenticios generales basadosen una dieta hipercalorica. Se piensa que este puede ser un factor que produzcaun incremento de la presion sanguınea en los individuos de la comunidad, respectoa la media regional. Estudios previos han determinado que la presion sanguıneasistolica se distribuye de manera normal, y que en la region su nivel medio es de140 mmHg y σ = 20 mmHg. Con objeto de determinar los valores de la presionsistolica en esa comunidad se tomo una muestra de 25 individuos, para los cualesse obtuvo x = 146 mmHg. Si suponemos que en nuestra comunidad la dispersionde la presion sistolica es la misma que en la region:

(a) Da una estimacion del nivel medio de la presion sistolica en esa comunidad.¿Que error cometemos al hacer dicha estimacion?

(b) ¿Que tamano de muestra debemos tomar para poder estimar la presionsistolica media de la comunidad con un error maximo de 4 mmHg, para un nivelde confianza del 95 %?

12. Estima puntualmente y mediante un intervalo de confianza, la cantidad media degastrina, en mujeres gestantes, entre 15 y 25 semanas de gestacion, mediante losdatos siguientes:

35

39 49 35 39 34 21 49 40 35 38

Consideraremos que los valores de gastrina se distribuyen normalmente. Utiliza unnivel de confianza del 95 %.Sabemos que para un nivel de confianza fijo, mientras mas estrecho es el intervalo,mas deseable es. ¿Que podrıamos hacer para obtener, en nuestro problema, unareduccion de la anchura del intervalo?

13. Un dermatologo investiga cierto tipo de afeccion de piel induciendolo en una mues-tra aleatoria de 25 ratas y tratandolas luego con un nuevo farmaco. Se cuenta elnumero de horas hasta que desaparece dicha afeccion, con los resultados siguientes:

x = 132 horas s = 40 horas

Supondremos que el numero de horas hasta que desaparece la afeccion se distribuyenormalmente.

(a) Calcula un intervalo de confianza para el numero medio de horas que tardaen desaparecer la afeccion dermatologica con el nuevo farmaco. ¿Cual es el errormaximo de esta estimacion? Utiliza un nivel de confianza del 95 %.

(b) Si repetimos este experimento exactamente en las mismas condiciones, lalongitud del intervalo que obtendrıamos, ¿serıa la misma?. Razona la respuesta.

(c) Supongamos ahora que σ = 32 horas. Calcula un intervalo de confianza al90 % para el numero medio de horas que tarda en desaparecer la afeccion derma-tologica. En estas condiciones, ¿que tamano de muestra se necesitarıa para tenerel 90 % de confianza de que la media se estima dentro de ±5 horas?

14. Estudiando la estatura de los individuos de una poblacion, dos investigadores es-cogieron, independientemente el uno del otro, dos muestras de 16 y 400 individuos,respectivamente. La muestra de 16 individuos dio una estatura media de 172.94cm. y una desviacion tıpica muestral de 3.3 cm. La muestra de tamano 400 dio unamedia de 172.23 cm y una desviacion tıpica muestral de 2.5 cm. Supongamos quela estatura se distribuye normalmente.

(a) Calcula un intervalo de confianza para la estatura media de la poblacion,en el caso de la muestra de tamano 16, para una confianza del 95 %.

(b) Idem para la muestra de tamano 400.

(c) Si nos preguntasen acerca de la estatura media de la poblacion, ¿cual delas dos experiencias elegirıamos para responder?. Razona la respuesta.

15. En un estudio sobre la talla de ninos menores de 4 meses se obtuvo, a partir de unamuestra de 200 ninos, que la talla media en la poblacion considerada esta entre

36

63.2 cm y 69.6 cm, con un nivel de confianza del 95 %. Por otro lado, solo a 120ninos se les midio una cierta variable bioquımica, obteniendose a partir de dichamuestra, que el valor medio de dicha variable esta entre 320mg/l y 336mg/l conun nivel de confianza del 99 %.

(a) Da una estimacion puntual del valor medio y de la varianza, tanto de latalla como de la variable bioquımica, para los ninos de la poblacion.

(b) ¿Que medida de dispersion utilizarıas para saber en que muestra estan losdatos mas agrupados? Calculala para ambas muestras e indica que conjunto dedatos es mas homogeneo.

16. Los datos de la tabla adjunta corresponden al peso total del corazon en un grupode 10 hombres normales y 11 con enfermedad de corazon (valores tomados enautopsias realizadas en un determinado hospital). Suponiendo normalidad de lavariable, construye un intervalo de confianza, para un nivel de confianza del 99 %,para la varianza del peso total del corazon de hombres con la enfermedad. Idempara hombres normales.

Enfermos 450 760 325 495 285 450 460 375 310 615 425Normales 245 350 340 300 310 270 300 360 405 290

17. Se pretende conocer la influencia de un tratamiento con metil-dopa sobre pacienteshipertensos. Para ello se toman 10 pacientes hipertensos a los que se les mide lapresion sanguınea. Posteriormente se les administra el tratamiento y se les vuelvea medir la presion una semana despues. Los datos de la presion sanguınea antes ydespues de la administracion del tratamiento estan en la siguiente tabla:

Antes 200 194 236 163 240 225 203 180 177 240Despues 188 212 186 150 200 222 190 154 180 225

Para probar la efectividad del farmaco, queremos medir la diferencia, D, entre lapresion sanguınea inicial y final para cada persona. Supongamos que D esta nor-malmente distribuida con media µD y varianza σ2

D, ambas desconocidas

(a) Estima puntualmente y mediante un intervalo de confianza µD y σ2D.

(b) ¿Que opinion tienes de la efectividad de la metil-dopa a partir de los resul-tados obtenidos para estos 10 pacientes hipertensos?

18. En una prueba sobre la leucemia en ratones AKR, se toma una muestra testigo de 56ratones, (ratones sin ningun tratamiento), de los cuales aparecieron 45 leucemicos.

(a) Calcula una estimacion puntual de la proporcion de ratones con leucemia.

(b) Calcula un intervalo de confianza, al 95 %, para la proporcion anterior.Interpreta el resultado.

37

19. En un muestreo llevado a cabo en una amplia region se tomaron 125 individuos, alazar, de los cuales 30 padecieron afecciones pulmonares.

(a) Estima la proporcion de afecciones pulmonares en dicha region.

(b) Si queremos estimar dicha proporcion con un error maximo del 4 %, parauna confianza del 95 %, ¿que tamano de muestra debemos tomar?.

20. En un experimento sobre los efectos de la insulina en la disminucion de la glucemiaen conejos, se administro una dosis alta de insulina a 9 conejos, resultando unadisminucion media de glucemia de 16.4 con una desviacion tıpica muestral de 4. Aotro grupo de 9 conejos se les administro una dosis baja de insulina, resultando unadisminucion media de 9.3 con una desviacion tıpica muestral de 3. Si suponemosque la distribucion de la glucemia es Normal, contesta las siguientes preguntas:

(a) ¿Es posible afirmar, con un nivel de significancia del 5 %, que existe dife-rencia significativa en la disminucion de la glucemia segun se aplique una dosis altao baja de insulina?

(b) ¿En cuanto podemos estimar dicha diferencia?

(c) Idem para un nivel de significancia del 1 %.

38

Capıtulo 2

Pruebas de hipotesis

En el capıtulo anterior estudiamos el problema de estimar un parametro de la distri-bucion de probabilidad de una poblacion. Ahora estudiaremos un problema relacionado,las pruebas de hipotesis.En muchos aspectos el procedimiento formal para la prueba de hipotesis es similar almetodo cientıfico. El cientıfico observa la naturaleza, establece una teorıa y despues prue-ba su teorıa respecto de la observacion. En este contexto el cientıfico propone una teorıarelativa a los valores especıficos de uno o mas parametros poblacionales. Luego obtieneuna muestra de la poblacion y compara la observacion con la teorıa. Si las observacionesse contraponen a la teorıa, el cientıfico rechaza la hipotesis. En caso contrario concluyeque la teorıa es valida o bien que la muestra no detecto la diferencia entre los valoresreales y los valores de la hipotesis respecto de los parametros poblacionales.Supongamos que se afirma que el parametro de la poblacion tiene un cierto valor. ¿Comodecidimos que efectivamente el valor dado es el valor real del parametro? Es decir, su-ponga que se nos dice que la media de una poblacion es µ = 3.4. ¿En que forma podemosprobar la afirmacion de que µ = 3.4? Puede ocurrir que al tomar una muestra de lapoblacion se encuentre que la media de la muestra es x = 2.9. Entonces debemos decidirentre aceptar o rechazar que x = 2.9 coincide con antes dicho: µ = 3.4 dentro de cierto“nivel de confianza”.Primero veremos lo que se entiende por hipotesis estadıstica y algunos de los tipos dehipotesis, ası como los errores que se pueden cometer al aceptar o rechazar una hipote-sis. En la siguiente seccion introduciremos una metodologıa para “probar” hipotesis y,finalmente, estudiamos el caso en el que se desea comparar las medias de dos poblaciones.

2.1. Hipotesis y pruebas estadısticas

Las hipotesis no son producto de la matematica si no que surgen de un contexto.La matematica que se desarrolla en la teorıa de prueba de hipotesis esta reaccionandoal concepto de hipotesis como surge en la practica. Por ejemplo, una persona sin sa-

39

ber estadıstica puede formularse la siguiente hipotesis al comprar un tanque de gas de30kg:“este tanque me durara un mes, pues, siempre me ha durado ese tiempo”, en estecaso el ejemplo es muy burdo pues, la forma de probar esta hipotesis es cuando se terminedicho tanque; pero, el punto en este caso es que la proposicion salio de un contexto queno fue matematico.En general, una hipotesis estadıstica es una proposicion o conjetura sobre un parame-tro o parametros de una distribucion de probabilidad.Considerando el ejemplo del gas, ¿que sucede si la afirmacion que se dio no se cumple?,es decir, se acabo el gas y no llego al mes o fue mas de lo esperado. Siempre al realizaruna prueba de hipotesis hay dos opciones, supongamos que hay µ = 1 y µ = 1.5 (duraun mes o 1.5 meses, no se sabe). Para distinguir entre las dos proposiciones, a una deellas se le llama hipotesis nula y se le denota por H0, y la otra se llama hipotesisalternativa y se le denota por H1. Entonces podemos escribir:

H0 : µ = 1,

H1 : µ = 1.5,

o bien,H0 : µ = 1.5,

H1 : µ = 1.

En el mismo ejemplo citado, si se conocen los demas parametros la poblacion, entoncesH0 y H1 se llaman hipotesis simples. Si en lugar de µ = 1 se tuviera que

H0 : µ < 1 (o µ > 1)

entonces la hipotesis serıa una hipotesis compuesta, porque, aunque H0 fuera cierta,no se conocerıa el valor exacto de µ, el cual puede ser una infinidad de numeros.Al realizar una prueba de hipotesis se pueden cometer dos tipos de errores: Tipo I y TipoII. Se comete error tipo I cuando se rechaza una hipotesis que deberıa ser aceptada,y se comete el error tipo II cuando de acepta una hipotesis que deberıa ser rechazada(vease figura).

40

Como veremos adelante, el problema de minimizar los errores de decision no es simple.La dificultad se debe a que, para un tamano de muestra dado, es usual que un intentode disminuir uno de los errores este acompanado de un incremento en el otro error. Enlas secciones siguientes calcularemos las probabilidades con que se pueden ocurrir esoserrores y algunas formas de disminuirlas.

2.2. Pruebas de hipotesis

Veamos un ejemplo sencillo para ilustrar las ideas anteriores. Supongase que en 100lanzamientos de una moneda se obtuvieron 38 aguilas. Este resultado nos podra sugerirque posiblemente la moneda no esta bien hecha, es decir, quizas la moneda tiene algunairregularidad en su forma o su peso no esta debidamente balanceado, y esto hace que laproporcion de aguilas que ocurren en lanzamientos sucesivos de la moneda es menor dela que esperarıamos (50/100 = 0.5) si estuviera bien hecha. Entonces nos preguntamos:¿el hecho de obtener solo 38 aguilas en los 100 lanzamientos es suficiente para concluirque la moneda es irregular?Para responder a esta pregunta elaboraremos una prueba que nos de un grado razonablede confianza en la conclusion que hagamos. Ensayaremos la hipotesis nula H0 de que laproporcion de aguilas es p = 0.50 (la moneda es regular) contra la hipotesis alternativaH1 de que la proporcion de aguilas es p = 0.40. (Para simplificar los calculos tomamosp = 0.40 en lugar de p = 0.38) Entonces tenemos

H0 : p = 0.5, H1 : p = 0.4. (2.1)

Una posible regla para decidir si se acepta o se rechaza H0 es la siguiente: Al efectuar100 lanzamientos de la moneda

(a) aceptamos H0 si ocurren 45 o mas aguilas,

(b) rechazamos H0 (y aceptamos H1) si ocurren menos de 45 aguilas.

41

Optamos por esta regla porque el resultado en los primeros 100 lanzamientos nos sugi-rio que, si la moneda esta desviada, en todo caso serıa a favor de obtener menos del 50 %de aguilas, en lugar de obtener mas del 50 %. En la siguiente figura se ilustra la regladecision.

El punto 0.45 que separa las regiones de “aceptacion” y de “rechazo” de H0 se llamapunto crıtico. La region p < 0.45 se llama region de rechazo o region crıtica. Existeotro elemento en una prueba de hipotesis que es el estadıstico de prueba el cual esun valor basado en la muestra que nos permite tomar una decision; en nuestro caso estevalor es de p = 0.38 (pues consideramos el caso de obtener 38 aguilas). En nuestro caso elestadıstico de prueba cae en la region de rechazo, es decir rechazamos nuestra hipotesisnula.

Los elementos de una prueba estadıstica son

1. la hipotesis nula, H0

2. la hipotesis alternativa, H1

3. el estadıstico de la prueba

4. la region de rechazo

Como en general no tenemos manera de afirmar que esta regla nos dara siempre ladecision correcta, calcularemos la probabilidad de cometer los errores tipo I y tipo II.Primeros calcularemos la probabilidad del error tipo I. Es decir, si H0 es correcta (p =0.5), ¿cual es la probabilidad de obtener menos de 45 aguilas en 100 lanzamientos de lamoneda?. Sabemos que la distribucion del numero de aguilas en 100 lanzamientos (quees una distribucion binomial) se puede aproximar por la distribucion de una variablenormal X con media y desviacion estandar

µ = p = 0.5, σ =√p(1− p)/n = 0.05 (2.2)

Por lo tanto, la probabilidad del error tipo I, que se denota por α, es

42

α = P[rechazar H0 dado que es cierta]

= P[X < 0.45|p = 0.5]

= P[(X − 0.5)/0.05 < −1]

= 0.1587 (de la tabla normal).

Entonces la probabilidad de rechazar la hipotesis H0 siendo esta correcta es α = 0.1587.Calculemos ahora la probabilidad del error tipo II. Supongamos pues que H0 es falsa(p = 0.4). ¿Cual es la probabilidad de aceptar H0? En otras palabras, si p = 0.4, ¿cuales la probabilidad de obtener 45 o mas aguilas?. Argumentando como el parrafo anteriorse tiene que la probabilidad β del error tipo II es

β = P[aceptar H0 dado que es falsa]

= P[X ≥ 0.45|p = 0.4]

= P[(X − 0.4)/√

0.4(0.6)/100 ≥ 1.02]

= 0.1539 (de la tabla normal).

La probabilidad α del error tipo I se llama el nivel de significancia de la prueba. (Ennuestro ejemplo decimos que la prueba tiene un nivel de significancia del 15.87 %.) Elcomplemento del error tipo I, es decir aceptar H0 siendo verdadera (decision correcta)tiene la probabilidad 1 − α y a esta probabilidad se le llama el nivel de confianza dela prueba. (En el ejemplo, la prueba tiene un nivel de confianza del 84.13 %.) Por otraparte, la probabilidad β del error tipo II se le llama la caracterıstica de operacion dela prueba, y 1−β es la potencia de la prueba (la potencia de la prueba es la probabilidadde rechazar una hipotesis falsa).Ahora se nos ocurre preguntar: ¿es la regla (2.1) un buen criterio de decision? ¿Se puedemejorar? En otras palabras, ¿se pueden disminuir las probabilidades α y β de los errores?Por (2.2) se puede ver que α disminuye (y tambien β) si aumentamos el tamano n dela muestra; pues, la varianza disminuye. Pero para un valor fijo de n, es claro que aldisminuir α (moviendo el punto crıtico de 0.45 a 0.42 por ejemplo) necesariamente creceβ (vease figura)

43

Ası pues, α se puede reducir a costa de aumentar β. En este caso, la potencia 1−β de laprueba disminuye, lo cual hace crecer el riesgo de aceptar una hipotesis falsa. Asi mismo,si se desea reducir β (moviendo el punto crıtico 0.45 hacia la derecha) necesariamenteaumenta α.Ante esta disyuntiva se acostumbra fijar de antemano el nivel de confianza de la prueba.Por ejemplo, si se desea un nivel de confianza de 1− α = 95 % (o equivalentemente, unnivel de significancia = 5 % = 0.05) entonces se puede calcular el punto crıtico para elcual nuestra regla de decision (2.1) sera correcta en (aproximadamente) 95 de cada 100veces que se repita el experimento. Es decir (aproximadamente), solo en uno de cada20 experimentos rechazaremos la hipotesis cierta H0. Entonces con los datos (2.2) denuestro ejemplo (H0 : µ = 0.5, σ = 0.05), de la tabla normal,

α = P[(X − µ)/σ ≤ x] = 0.05

si x = −1.65. (El signo negativo aparece porque recuerde que estamos calculando el areabajo la curva N(µ, σ) a la izquierda de x0 que a su vez se encuentra a la izquierda de µ.)Esto significa que el valor x0 (el punto crıtico) a la izquierda del cual esta contenida el5 % del area bajo la curva normal correspondiente a H0 es la solucion a la ecuacion

(x0 − µ)/σ = −1.65

o sea,x0 = (0.05)(−1.65) + (0.5) = 0.4175.

Este resultado nos dice que con un nivel de confianza del 95 % podemos modificar (2.1)y aceptar como nuestra regla de decision la siguiente: Al efectuar 100 lanzamientos de lamoneda

(a) aceptamos H0 si ocurren 42 o mas aguilas,

44

(b) rechazamos H0 (y aceptamos H1) si ocurren menos de 42 aguilas.

Por lo tanto, con el resultado original que tenıamos de 38 aguilas, la hipotesis H0 serechaza porque 0.38 esta en la region de rechazo. Lo mas que podemos afirmar connuestro metodo es que con probabilidad 0.95 aceptaremos H0 cuando es cierta (pero nopodemos afirmar que la regla siempre nos dara la decision correcta).El metodo que utilizamos se puede resumir como sigue:

(i) Se enuncian las hipotesis nula y alternativa (H0 y H1), y se dan el nivel de signifi-cancia (usualmente α = 1 % o α = 5 %) y el tamano de la muestra.

(ii) Se supone que H0 es cierta y se determina el punto crıtico para conocer las regionesde aceptacion y de rechazo de H0. (En algunos casos, no siempre, tambien es nece-sario calcular β, la probabilidad del error tipo II.) Lo anterior equivale a formularnuestra regla de desicion.

(iii) Se toma una muestra de tamano indicado en (i) y se ve si los resultados sonsignificativos (se rechaza H0) o no lo son (se acepta H0).

2.3. Pruebas unilaterales y bilaterales

En la seccion anterior vimos un ejemplo en el que la region crıtica (o region de rechazode H0) corresponde a un intervalo en la cola izquierda de una curva normal. En otroscasos la region crıtica corresponde a un intervalo en la cola derecha de una curva normal.En estas dos situaciones se dice que la prueba es unilateral.Si la region crıtica es la union de un intervalo en la cola izquierda con otro en la coladerecha, se dice entonces que la prueba es bilateral o de dos colas. Ahora veremos unejemplo para ilustrar esto.Ejemplo:Usando los datos vistos en el capıtulo anterior, (n = 106, x = 98.2, s = 0.62) y con unnivel de significancia de 0.05, probaremos que la temperatura media del cuerpo de adultossanos es igual a 98.6◦ F. Veremos un metodo mas simple que en la seccion anterior.

En este caso usaremos el estadıstico de prueba para µ cuando n > 30 :

z =x− µxσ/√n

Solucion:Paso 1: La afirmacion de que la media es igual a 98.6 es expresada en forma simbolicacomo µ = 98.6.

45

Paso 2: La alternativa a la afirmacion original es µ 6= 98.6.

Paso 3: Entonces tenemos:

H0 : µ = 98.6 (afirmacion original) H1 : µ 6= 98.6

Paso 4: Como se especifico en el enunciado del problema, el nivel de significancia esα = 0.05.

Paso 5: Puesto que la afirmacion es acerca de la media poblacional, el estadıstico mues-tral mas logico (reelevante) para la prueba es x = 98.2. Y dado que n > 30, las mediasmuestrales pueden aproximarse por una distribucion normal.

Paso 6: Para calcular el estadıstico de prueba, podemos usar s = 0.62 como un es-timador razonable de σ (pues n > 30), entonces el estadıstico de prueba se encuentraconvirtiendo la media muestral x = 98.2 en z = −6.64, a traves del siguiente calculo:

z =x− µx

σ√n

=98.20− 98.6

0.62√106

= −6.64

el cual lo comparamos con z = −1.96, 1.96. Nuestra region de rechazo es de dos colas.

Paso 7: La media muestral x = 98.2 se convirtio a un estadıstico de prueba z = −6.64,el cual cae dentro de la region crıtica, entonces rechazamos la hipotesis nula.

Paso 8: Para refrasear la conclusion del paso 7 en terminos no tecnicos, concluimosque hay suficiente evidencia para garantizar el rechazo de la afirmacion de que la tem-peratura media corporal de adultos sanos es 98.6◦ F.

El metodo anterior de los 8 pasos es diferente al utilizado en la seccion anterior enque, ahora estamos “estandarizando” la region de rechazo pues ahora normalizamos elestadıstico de prueba y lo comparamos con la region de una normal estandar. Que en elejemplo anterior esta definido por los valores z = −1.96, 1.96.

46

Siguiendo esta metodologıa para el ejemplo de la moneda de la seccion anterior, su-pusimos que de 100 lanzamientos obtuvimos 38 aguilas, esto es p = 0.38, luego los pasosen este caso estaran dados por,Paso 1: La afirmacion de que la proporcion es igual a 0.50 es expresada en forma simboli-ca como p = 0.50.

Paso 2: La alternativa a la afirmacion original es p < 0.50 (por como definimos lahipotesis en la seccion anterior, en este caso es una prueba unilateral)

Paso 3: Entonces tenemos:

H0 : p = 0.50 (afirmacion original) H1 : p < 0.50

Paso 4: Como no se especifico en el enunciado del problema, tomamos el nivel de signi-ficancia de α = 0.05.

Paso 5: Puesto que la afirmacion es acerca de la proporcion de la moneda, el estadısticomuestral mas logico (reelevante) para la prueba es p = 0.38, considerando una distribu-cion Bernoulli tenemos que la varianza estara dada por var = p·q = (0.38)·(0.62) = 0.236.y n = 100.

Paso 6: Para calcular el estadıstico de prueba, sera a traves del siguiente calculo:

z =p− pp√

p·qn

=0.38− 0.50√

0.236100

= −2.47

entonces el estadıstico de prueba es z = −2.47, el cual lo comparamos con z = −1.96.Nuestra region de rechazo es de una cola.

47

Paso 7: La proporcion muestral p = 0.38 se convirtio a un estadıstico de pruebaz = −2.47, el cual cae dentro de la region crıtica, entonces rechazamos la hipotesisnula.

Paso 8: Para refrasear la conclusion del paso 7 en terminos no tecnicos, concluimosque hay suficiente evidencia para garantizar el rechazo de la afirmacion de que la mone-da es regular (p = 0.50).Para esta metodologia lo unico que cambia es el estadıstico de prueba, la region de re-chazo es la misma para todas las pruebas, solo depende del nivel de significancia (α) dela prueba. A continuacion se muestran los diferentes estadısticos de prueba dependiendodel contraste que se quiera realizar.

2.3.1. Estadısticos de Prueba

Una poblacion

z = x−µσ√n

Poblacion con una media.(σ conocida o n > 30)

t = x−µs√n

Poblacion con una media.(σ desconocida y n ≤ 30)

z = p−p√pqn

Poblacion con una porporcion.

χ2 = (n−1)s2σ2 Poblacion con una desviacion estandar o varianza.

48

Dos poblaciones

t = d−µdsd√n

Dos medias dependientes.(gl = n− 1)

z = (x1−x2)−(µ1−µ2)√σ21n1

+σ22n2

Dos medias independientes(σ1, σ2 conocidas o n1 > 30 y n2 > 30)

F =s21s22

Desviacion estandar o varianza de dos poblaciones.(donde s21 ≥ s22)

t = (x1−x2)−(µ1−µ2)√s21n1

+s22n2

Dos medias independientes.Rechazamos σ2

1 = σ22 y n1 ≤ 30 o n2 ≤ 30.

(gl = mın (n1 − 1, n2 − 1))

t = (x1−x2)−(µ1−µ2)√s2pn1

+s2pn2

Dos medias independientes.No rechazamos σ2

1 = σ22 y n1 ≤ 30 o n2 ≤ 30.

(gl = n1 + n2 − 2) y s2p =(n1−1)s21+(n2−1)s22

(n1−1)+(n2−1) .

z = (p1−p2)−(p1−p2)√pqn1

+ pqn2

Dos proporciones

(donde p = (x1+x2)(n1+n2)

)

49

2.4. Ejercicios propuestos

1. Suponer que existe una droga experimental que puede aumentar la probabilidadde concebir un varon. Debe ser administrada a la mujer algunos dıas previos a laovulacion. Se planea un experimento con mujeres, clasificadas en dos grupos: lasque se les administra la droga, y las que se les aplica un placebo. Se observaran lasfrecuencias de concepcion de varones en cada grupo.

(a) El Cientıfico #1, versado en embriologıa, desea aprovechar el experimentosobre el grupo placebo, para verificar la hipotesis de que la determinacion del sexoes totalmente aleatoria.

(b) El Cientıfico #2, desea analizar ambos grupos para determinar si la drogacumple el objetivo pretendido.Plantea las hipotesis que son de interes para cada uno de los cientıficos.

2. En el servicio regional de salud existe la sospecha de que un determinado farmaco,empleado habitualmente en el tratamiento de ciertas afecciones, tiene como efectosecundario un aumento de la tension ocular media de su nivel normal 15, a 18; efectoinsensible para los pacientes pero que a la larga aumenta el riesgo de glaucoma.Por los servicios medicos regionales es conocido que la tension ocular se distribuyede forma normal en la region, con varianza 1. Si se toma una muestra de tamanon, ¿como podemos tomar una decision acerca del valor de la tension ocular mediade los pacientes, que emplean habitualmente el farmaco bajo sospecha?

3. Se cree que la proporcion p de mujeres que han iniciado el proceso de pubertad alos 11 anos supera el 50 %. Para reunir datos que verifiquen esta afirmacion se vaa seguir el desarrollo de 20 chicas.

(a) Indica las hipotesis nulas y alternativas adecuadas.

(b) Si utilizamos como estadıstico de contraste la variable “numero de chicas(entre las 20) que han comenzado su desarrollo a los 11 anos”, ¿cual serıa la regioncrıtica para α = 0.0577?

(c) Para α = 0.0059 la region crıtica es RC = {16, 17, 18, 19, 20}. Si en unamuestra de 20 chicas 19 habıan iniciado el proceso de pubertad antes de 11 anos,¿que decision tomarıamos en el test para α = 0.0059? ¿Que tipo de error podemoscometer? Contesta a ambas preguntas si fueron 15 las chicas que habıan iniciadodicho proceso. Razona todas las respuestas.

Nota: Para resolver b) utiliza la distribucion binomial de parametros 20 y 0.5.

4. La ingestion de calorıas por persona y por dıa en una determinada region es de 2900calorıas. En una region vecina, se efectuo un muestreo para estudiar el consumomedio de calorıas. Se eligieron aleatoriamente 50 personas y los resultados fueron

50

de un consumo medio de 3000 calorıas por persona y por dıa, con una desviaciontıpica muestral de 100 calorıas. Suponiendo que la distribucion del consumo decalorıas en esa region es normal, contesta las siguientes preguntas:

(a) ¿Podemos admitir, con un nivel de significancia del 5 %, que las dos regionestienen diferente consumo medio de calorıas por persona y por dıa?.

(b) Si la muestra hubiese sido de tamano 27, ¿a que conclusiones llegarıamos?

5. En un estudio sobre sanidad dental se hace la hipotesis de que el 90 % de ninosmenores de 4 anos no muestran indicios de caries dental. Se tomaron 100 ninos,menores de 4 anos, de los cuales el 82 % no dio tales indicios. En base a estosresultados , ¿serıa aceptable el hipotetico valor del 90 %?.

6. Se ha comprobado que el porcentaje de curaciones espontaneas de cierta enferme-dad es del 40 %. Un laboratorio ha obtenido un antibiotico y asegura que es eficazsobre dicha enfermedad. Para comprobarlo se tomo una muestra de 100 personas,a las que se les inyecto este antibiotico. El porcentaje de personas curadas fuedel 55 %. ¿Podemos creer, con un nivel del significancia del 5 %, la afirmacion dellaboratorio?

7. El 70 % de los pacientes internados en un hospital traumatologico requieren in-tervencion quirurgica. A 30 de estos pacientes se les aplica un nuevo metodo defisioterapia y 17 de ellos requieren intervencion quirurgica. ¿Es eficaz la fisioterapia?

8. Se da a continuacion la dosis de colesterol serico en mg/l, de dos grupos de indi-viduos hiperlipidemicos, bajo el efecto de un placebo y despues de un tratamientoque reduce el colesterol:

Placebo 5.6 6.25 7.45 5.05 4.56 4.5 3.9 4.3Tratamiento 3.35 3.6 3.75 4.15 3.6

(a) Probar si existe diferencia significativa entre las dosis medias de colesterolserico en ambas poblaciones, suponiendo normalidad de ambas variables.

(b) ¿Que podemos hacer si no tenemos la hipotesis de normalidad?

9. Se quiere comprobar si existe diferencia en eficacia entre la aspirina y un productode comparacion, en el alivio de determinados sıntomas. Se registraron los tiemposdesde la toma del preparado hasta que el paciente declaraba sentirse mejor, siendolos datos obtenidos:

Aspirina: m = 10; x = 15.2; s1 = 8.7Producto comparacion: n = 20; y = 13.4; s2 = 6.9

51

(Unidades=minutos). Si suponemos que las variables se distribuyen normalmente,realiza el contraste adecuado.

10. Se ha estudiado el tiempo de reaccion ante un estımulo auditivo bajo dos situacioneso condiciones radicalmente diferentes F y Q. Para ello se ha elegido una muestraaleatoria de 9 ninos, los cuales han sido estimulados, en primer lugar, bajo lasituacion F y pasado un tiempo prudencial de reposo, son nuevamente estimuladosbajo Q. Los tiempos de reaccion, en centesimas de segundo, aparecen en la siguientetabla:

nino 1 2 3 4 5 6 7 8 9sist. F 14 12 9 13 15 17 13 12 13sist. Q 17 14 13 15 16 16 16 15 13

Suponiendo que la diferencia de los tiempos de reaccion se distribuye normalmente,¿puede afirmarse que el tiempo de reaccion medio difiere de la situacion F a la Q,si admitimos un nivel de error del 1 %?

11. Se quiere probar si los efectos hipnoticos de un nuevo farmaco M, son mejores quelos del farmaco usado habitualmente L. Para ello se eligieron 10 personas, de formaaleatoria, a las que primeramente se les administro L y se les anoto el tiempo, enhoras, de sueno. Pasado un tiempo prudencial se les administro M, obteniendosedel mismo modo, el tiempo, en horas, de sueno. Los resultados fueron los siguientes:

Persona 1 2 3 4 5 6 7 8 9 10L 7 6 8 9 6.5 8 8.5 8 9.5 8M 9 8 10 8.5 9 7 9 8.5 9.5 7.5

Suponiendo normalidad, ¿puede afirmarse que el nuevo farmaco es mejor que elhabitual, si admitimos un nivel de error del 1 %?

12. A 11 ratas tratadas cronicamente con alcohol se les midio la presion sanguıneasistolica antes y despues de 30 minutos de administrarles a todas ellas una cantidadfija de etanol, obteniendose los datos que aparecen en la siguiente tabla:

Ratas 1 2 3 4 5 6 7 8 9 10 11Antes 126 120 124 122 130 129 114 116 119 112 118

Despues 119 116 117 122 127 122 110 120 112 110 111

¿Hay un descenso significativo de la presion sanguınea sistolica tras la ingestion deetanol?

52

13. Los porcentajes de curacion de dos tipos de cancer de piel A y B han sido del 85 %sobre una muestra de 400 cancerosos A y de 225 curaciones sobre una muestra de300 cancerosos B. ¿Existe diferencia significativa en las proporciones de curacionesde estos tipos de cancer?. Si es afirmativa la respuesta, ¿es posible estimar dichadiferencia?

14. Se sospecha que anadiendo al tratamiento habitual para la curacion de una deter-minada enfermedad, un medicamento A, se consigue mayor numero de curaciones.Tomamos dos grupos de enfermos de 100 individuos cada uno. Al primero se lesuministra el medicamento A y se curan 60, mientras que al otro grupo no se leadministra y se curan 55. ¿Podemos decir que es beneficioso el uso del medicamentoA, para la curacion de la enfermedad, para un nivel de significancia del 5 %? ¿Comoqueda la respuesta a la pregunta anterior reflejado en el intervalo de confianza parala diferencia de proporciones?

15. Se quiere comprobar la efectividad de una vacuna contra una determinada enfer-medad. Para ello se suministra la vacuna a 100 animales y se les comparo con ungrupo control de otros 100, de modo que a los 200 se les contagio la enfermedad.Entre los vacunados murieron solo 8 como resultado de la enfermedad, mientrasque del grupo testigo murieron 20. ¿Podemos decir, con un nivel de significanciadel 5 %, que la vacuna es eficaz para reducir la mortalidad?

16. Durante mucho tiempo se ha afirmado que en los nacimientos gemelares el segundonacido tiene una mayor probabilidad de sufrir determinados problemas respiratoriosque el primero. ¿Es aceptable la hipotesis si, de 221 nacimientos gemelares, en 24casos ambos ninos presentaron los problemas, en 158 ninguno los presento, en 8 lospresento el primero pero no el segundo y al reves en los 31 restantes?. Cuantificael incremento de la probabilidad. (Arnold et al.(1987) The New England Journalof Medicine, 317(18), 1121-1125).

17. En un estudio sobre el efecto de un farmaco A en la prevencion de nacimientosprematuros, se conto con 500 pares de mujeres embarazadas, emparejadas de talmanera que el peso de las dos mujeres de un par se diferenciase, a lo sumo, en 500g.A una de las mujeres se le administro un placebo, mientras que al otro miembrodel par se le administro el farmaco A. En 30 de estos pares ambas mujeres tuvieronun nino prematuro. En 420 pares, ambas tuvieron ninos normales. En 35 pares, lamujer que tomo el farmaco A tuvo un nino normal y la que tomo el placebo, unoprematuro. Y, por ultimo, en 15 pares, la mujer que tomo el farmaco tuvo un ninoprematuro y la que no lo tomo, uno normal. ¿Que podemos decir del efecto delfarmaco A?

53

Apendice A

Tablas de Distribuciones

54

Distribucion Normal Estandar

Valores de

P [0 ≤ X ≤ x] = Φ(x)− Φ(0) = Φ(x)− 1/2. (x > 0).

Para valores negativos de x, las probabilidades se pueden obtener por simetrıa.Segundo decimal de x

x 0 1 2 3 4 5 6 7 8 90.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .03590.1 .0398 .0434 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .07530.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .11410.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .15170.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .18790.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .22240.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .25490.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 28520.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .31330.9 .3159 .3186 .3212 .3238 .3265 .3289 .3315 .3340 .3365 .33891.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .36211.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .38301.2 .3849 .3869 .3888 .3907 .3925 .3944 .3964 .3980 .3997 .40151.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .41771.4 .4199 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .43191.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .44411.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .45451.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .46331.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .47061.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .47672.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .48172.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .48572.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .48902.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .49162.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .49362.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .49522.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .49642.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .49742.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .49812.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .49863.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990

55

Distribucion t

υ = n − 1 es el numero de grados de libertad (n es el tamano de muestra). P es laprobabilidad de que |t| sea mayor que t0, P = P [|t| > t0] .

ν \ P 0.50 0.25 0.10 0.05 0.025 0.01 0.005

1 1.00000 2.4142 6.3138 12.706 25.452 63.657 127.322 0.81650 1.6036 2.9200 4.3027 6.2053 9.9248 14.0893 0.76489 1.4226 2.3534 3.1825 4.1765 5.8409 7.45334 0.74070 1.3444 2.1318 2.7764 3.4954 4.6041 5.59765 0.72669 1.3009 2.0150 2.5706 3.1634 4.0321 4.77336 0.71756 1.2733 1.9432 2.4469 2.9687 3.7074 4.31687 0.71114 1.2543 1.8946 2.3646 2.8412 3.4995 4.02938 0.70639 1.2403 1.8595 2.3060 2.7515 3.3554 3.83259 0.70272 1.2297 1.8331 2.2622 2.6850 3.2498 3.689710 0.69981 1.2213 1.8125 2.2281 2.6338 3.1693 3.581411 0.69745 1.2145 1.7559 2.2010 2.5931 3.1058 3.496612 0.69548 1.2089 1.7823 2.1788 2.5600 3.0545 3.428413 0.69384 1.2041 1.7709 2.1604 2.5326 3.0123 3.372514 0.69242 1.2001 1.7613 2.1448 2.5096 2.9768 3.325715 0.69120 1.1967 1.7530 2.1315 2.4899 2.9467 3.286016 0.69013 1.1937 1.7459 2.1199 2.4729 2.9208 3.252017 0.68919 1.1910 1.7396 2.1098 2.4581 2.8982 3.222518 0.68837 1.1887 1.7341 2.1009 2.4450 2.8784 3.196619 0.68763 1.1866 1.7291 2.0930 2.4334 2.8609 3.173720 0.68696 1.1848 1.7247 2.0860 2.4231 2.8453 3.153421 0.68635 1.1831 1.7207 2.0796 2.4138 2.8314 3.135222 0.68580 1.1816 1.7171 2.0739 2.4055 2.8188 3.118823 0.68531 1.1802 1.7139 2.0687 2.3979 2.8073 3.104024 0.68485 1.1789 1.7109 2.0639 2.3910 2.7969 3.090525 0.68443 1.1777 1.7081 2.0595 2.3846 2.7874 3.078226 0.68405 1.1766 1.7056 2.0555 2.3788 2.7787 3.066927 0.68370 1.1757 1.7033 2.0518 2.3734 2.7707 3.056528 0.68335 1.1748 1.7011 2.0484 2.3685 2.7633 3.046929 0.68304 1.1739 1.6991 2.0452 2.3638 2.7564 3.038030 0.68276 1.1731 1.6973 2.0423 2.3596 2.7500 3.029840 0.68066 1.1673 1.6839 2.0211 2.3289 2.7045 2.971260 0.67862 1.1616 1.6707 2.0003 2.2991 2.6603 2.9146120 0.67656 1.1559 1.6577 1.9799 2.2699 2.6174 2.8599∞ 0.67449 1.1503 1.6449 1.9600 2.2414 2.5758 2.8070

t0

56