Glosario de Términos

73
Glosario de Términos -. Dispersión: Tendencia de los datos de una serie estadística a separarse respecto de un valor central. -. Elemento: es un principio químico o físico que forma parte de la composición de un cuerpo. -. Escala: Es la proporción de aumento o disminución que existe entre las dimensiones reales y las dimensiones representadas de un objeto. -. Estadística: Es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. -. Estadística Descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. -. Estadística Inferencial: Se dedica ala generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. -. Estadísticos: Es también una variable aleatoria y como tal adquiere diferentes valores de una muestra a otra.

Transcript of Glosario de Términos

Glosario de Términos-. Dispersión: Tendencia de los datos de unaserie estadística a separarse respecto de unvalor central.-. Elemento: es un principio químico o físico que forma parte de la composición de un cuerpo.-. Escala: Es la proporción de aumento o disminución que existe entre las dimensionesreales y las dimensiones representadas de unobjeto.-. Estadística: Es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algúnfenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. -. Estadística Descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. -. Estadística Inferencial: Se dedica ala generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. -. Estadísticos: Es también una variable aleatoria y como tal adquiere diferentes valores de una muestra a otra. 

-. Frecuencia: Es la cantidad de veces que se repite un determinado valor de la variable.Frecuencia absoluta: Es el promedio de una suma predeterminada y además consiste en saber cuál es el número o símbolo de mayor equivalencia. Frecuencia relativa: Es el cociente entre lafrecuencia absoluta y el tamaño de la muestra. Frecuencia absoluta acumulada: Es el número de veces en la muestra  con un valor igual omenor al de la variable.Frecuencia relativa acumulada: Es el cociente entre la frecuencia absoluta acumulada y el número total de datos..- Gráficos: Son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de la información. Gráficos de barras verticales: (Llamados poralgunos software de columnas); representan valores usando trazos verticales, aislados ono unos de otros, según la variable a graficar sea discreta o continua. Pueden usarse para representar: una serie o dos o más series (también llamado de barras comparativas).Gráficos de barras horizontales: Representanvalores discretos a base de trazos horizontales,aislados unos de otros. Se

utilizan cuando los textos correspondientes a cada categoría son muy extensos.Gráficos de barras proporcionales: Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos  que componen un total.Gráficos de barras comparativas: Se utilizanpara comparar dos o más series, para comparar valores entre categorías. Gráficos de barras apiladas: Se usan para mostrar las relaciones  entre dos o más  series con el total.Gráficos de líneas: En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. Gráficos circulares: Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separarel sector correspondiente al mayor o menor valor, según lo que se desee destacar.Gráficos de Áreas: En estos tipos de gráficos se busca mostrar la tendencia de lainformación generalmente en un período de tiempo.Cartogramas: Estos tipos de gráficos se utilizan para mostrar datos sobre una base geográfica.Gráficos Mixtos: En estos tipos de gráficos se representan dos o más series de datos, cada una con un tipo diferente de gráfico. Son gráficos más vistosos y se usan para

resaltar las diferencias entre las series.Histogramas: Estos tipos de gráficos se utilizan para representa distribuciones de frecuencias..-Muestra: Es un subconjunto de casos o individuos de una población estadística..- Muestreo: Es la técnica para la selecciónde una muestra a partir de una población.Muestreo probabilístico (aleatorio): En estetipo de muestreo, todos los individuos de lapoblación pueden formar parte de la muestra,tienen probabilidad positiva de formar partede la muestra. Muestreo no probabilístico (no aleatorio): En este tipo de muestreo, puede haber clara influencia de la persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. .- Parámetros: Es un número que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable estadística..- Población: Es el conjunto de elementos dereferencia sobre el que se realizan unas de las observaciones..- Variable: Es una característica que al ser medida en diferentes individuos es susceptible de adoptar diferentes valores.Variables cualitativas: Son las variables que expresan distintas cualidades, características o modalidad. 

Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme.Variable cualitativa nominal: En esta variable los valores no pueden ser sometidosa un criterio de orden como por ejemplo los colores.Variables cuantitativas: Son las variables que se expresan mediante cantidades numéricas. Variable discreta: Es la variable que presenta separaciones o interrupciones en laescala de valores que puede tomar. Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores.Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Variables dependientes: Son las variables derespuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes.Variables intervinientes: Son aquellas características o propiedades que, de una manera u otra, afectan el resultado que se espera y están vinculadas con las variables independientes y dependientes.Variables moderadoras: Representan un tipo

especial de variable independiente, que es secundaria, y se selecciona con la finalidadde determinar si afecta la relación entre lavariable independiente primaria y las variables dependientes. Son las variables que expresan distintas cualidades, características o modalidad. 

Diccionario de Estadística práctica

 

Selecciona una letra o un tema:

A

Agrupación, Aleatorio, Amplitud,Análisis, Aplastamiento, Asimetría

B

Bernouilli, Bidimensional,  Binomial

C

Campana, Característica, Censo, Coeficiente, C onfia bilidad, Constante,Continua, Contraste, Correlación,Covarianza, Cualitativo, Cuasivarianza,Cuantitativo, Cuantil, Cuartil, Curtosis,

CH

Chi-cuadrado

D

Dato, Decil, Desviación, Determinación, Diagrama, Dicotómico, Discreta, Distribución

E

Error, Escala, Esperanza, Estadístico,Estimación, Estimador, Extremo inferior, Extremo superior,

F

Frecuencia,

 

G

Gauss

H

Hipótesis, Histograma

I

Índice, Inferencia, Insesgado,Intervalo,

 

J

 

K

 

L

Leptocúrt

M

Marca de

N

Nivel de confianza, Nivel

ica, Ley, 

 

clase, Media, Mediana,Medida, Mesocúrtica,  Moda,Modalidad, Muestra, Muestreo

de significación, Nominal, Normal

O

Ordenada en el origen

 

P

Parámetro, Pendiente, Percentil,Platicúrtica, Población, Poisson,Porcentaje, Predicción, Proporción,  P-valor,  Puntual

 

R

Rango, Razón, Regresión,

S

Sesgo, Sumas de cuadrados, Supuesto,

 

T

T de Student, Teorema, Test,Tipificación,

U

Uniforme

V

Variable, Variación,  Varianza

 

   

 

A

Agrupación de datos

Si la variable que se estudia es continua, o discreta con muchos valores distintos, se organizarán sus datos en forma de intervalos. Para ello se fija un valor mínimo y otro máximo, de formaque todos los datos estén comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos). La diferencia entre ambos se denomina rango de los datos y posteriormente se divide en un número deintervalos mediante valores intermedios.

Aleatorio

Experimento aleatorio

Un experimento se llama aleatorio cuando repetido indefinidamente presenta siempre resultados totalmente impredecibles.

Variable aleatoria

Llamaremos Variable aleatoria simple (discreta) a unconjunto de valores X1, X2, X3, ...,Xn (llamados también sucesos) a los que les corresponden unos números (llamados probabilidades) , p1, p2, p3, ..., pn que cumplen:

a) Todas las probabilidades son positivas o nulas.

b) La suma de todas ellas es igual a la unidad

 

 

 

Amplitud

Se llama amplitud de un intervalo de datos agrupadosa la diferencia entre los valores de sus extremos.

 

Análisis

Análisis de varianza

 

Aplastamiento

Sinónimo de curtosis.

 

Asimetría

Asimetría de una distribución de frecuencias es la característica por la que los datos pierden su simetría respecto a la media. Expresado de otra forma, es el mayor o menor grado de desviación que existe entre la media   (reparto equitativo) y la mediana (punto medio de la distribución).

 

 

 

BBernouilli

Una distribución de Bernouilli se compone de dos sucesos contrarios A y B, a los que se les suele

llamar éxito y fracaso, con probabilidades p y q respectivamente

 

Binomial

Distribución binomial

Esta importante distribución se aplica a pruebas repetidas de la ley de Bernouilli, con las siguientes condiciones:

a) Se realizan experimentos repetidos del tipo Bernouilli, n en total. b) La probabilidad p permanece constante en todos ellos c) Cada experimento es independiente del resultado anterior.

 

 

 

 

Campana de Gauss

Nombre asignado coloquialmente a la representación gráfica de la distribución normal.

 

 

Característica

Es cualquier propiedad de objetos o personas que deseamos estudiar en Estadística

 

Censo

Es el estudio y recuento de todos los elementos de una población.

 

Coeficiente

De variación

De correlación

De determinación

 

 

Confiabilidad

(Ver Nivel de Confianza)

 

Constante

Llamaremos constante a una característica que sólo admite una modalidad, por ejemplo la constante de gravitación universal

 

Continua

Una variable se llama continua si entre cada dos valores suyos pueden existir infinitos otros, como el peso, la estatura, etc.

 

Contraste

Contraste de hipótesis

Sinónimo de Test de hipótesis

 

Correlación

Coeficiente

Es el cociente de dividir la covarianza de una distribución bidimensional entre las desviaciones típicas de X e Y respectivamente.

Covarianza

Es la varianza conjunta en una distribución bidimensional X-Y. Se calcula como el cociente de los productos de las diferencias de X y de Y respecto a sus medias, entre el número de pares de la distribución.

 

Cuadrados mínimos

 

Cualitativo/a

Se aplica a la variable (o dato, o medida) que sólo admite una medida nominal

 

Cuantil

Diremos que un número es el cuantil de orden p en una distribución de frecuencias si el porcentaje de datos inferiores a él es igual a p (y los superiores 100-p). Por ejemplo, el cuantil C85 será un punto que cumple que el 85%de los datos es inferior a él.

 

Cuantitativo/a

Se aplica a la variable que admite medidas de intervalo o de razón

 

Cuartil

Los cuantiles que dividen a la distribución en cuatro partes iguales, es decir, C25, C50 y C75, reciben el nombrede cuartiles, y se representan por Q1 o primer cuartil es el número que deja inferiores a él un 25% de los datos. Q2 o segundo cuartil o mediana es el número que deja inferiores a él un 50% de los datos. Q3 o tercer cuartil esel número que deja inferiores a él un 75% de los datos.

 

Cuasivarianza

Cuasivarianza o varianza insesgada es similar a la varianza, pero dividiendo las sumas de cuadrados entre n-1.

 

 

Curtosis

Independientemente de su asimetría, una distribución puede presentar los datos con un reparto más uniforme, en el que

las frecuencias sean muy parecidas. El gráfico aparecerá como aplastado y diremos que la distribución es platicúrtica o de poca curtosis. En el otro extremo, si las frecuencias cercanas al centro son mayores (con diferencia) que las alejadas, diremos que es leptocúrtica ocon gran curtosis. Al caso intermedio lo denominaremos comodistribución mesocúrtica

 

 

 

 

CH 

Chi-cuadrado

Es la distribución teórica que representa la distribución muestral de la suma de cuadrados de losdatos dividida entre la varianza de la población.

 

Dato

Es el valor cuantitativo o cualitativo que representa un atributo o medida en la población.

 

Decil

Se suelen definir 9 deciles D1, D2, ... D9, que son los puntos que dividen al intervalo en diez partes iguales, correspondientes a loscuantiles de porcentajes 10%, 20%, ...90% respectivamente.

 

Desviación

Desviación media

Es una medida de la dispersión consistente en la media aritmética de las desviaciones individuales respecto a la media, tomadas en valor absoluto. También se usan desviaciones respecto a la mediana.

Desviación típica

Es la raíz cuadrada de la varianza.

 

Determinación

Coeficiente

El coeficiente de determinación es el cociente entrela varianza explicada y la total en un ajuste a la recta de regresión.

 

Dicotómico/a

Adjetivo que se aplica a toda medida o proceso que sólo puede presentar dos valores, como SÍ/NO, Hombre/Mujer, Encendido/Apagado.

 

Discreta

Si una variable  solo admite un número finito de valores entre cada dos, recibirá el nombre de discreta (edades medidas en años, número de hermanos, etc.).

 

Distribución

De frecuencias

El conjunto formado por los valores de la variable ysus frecuencias constituye la distribución de frecuencias de la población o muestra, y se representa en las tablas de frecuencias. 

Bidimensional

Si en un experimento todas las medidas que se obtienen son dobles, pertenecientes a dos variables distintas, a las que llamaremos X e Y respectivamente, se denominará distribución bidimensional a la formada por los pares X-Y de valores relacionados en ambas variables.

Muestral

Distribución muestral es la resultante de considerar, de forma teórica, todas las posibles muestras que se puedan elegir. Es una distribución teórica, construida sobre variables aleatorias, y sus elementos se obtienen mediante técnicas matemáticas.

 

Función de distribución

 

Función de distribución

Llamaremos distribución teórica a la correspondientedistribución de probabilidades en una variable aleatoria.

Las principales distribuciones teóricas son:

Uniforme

Una distribución se llama uniforme cuando todas las probabilidades son iguales. Como todas suman 1 (caso discreto), cada una será igual a 1/n.

De Bernouilli

Binomial

De Poisson

Normal

 

 

 

 

 

 

 

 

 

EError

De predicción

Es la diferencia entre un valor de Y y su estimación Y' en una recta de regresión (o en una curva de regresión general)

Muestral

 

Típico de estimación

Es la raíz cuadrada de la varianza residual en una operación de estimación.

 

 

Escala

Escala de medida

Es un conjunto básico de modalidades y números (considerados como sus medidas) a partir del cual se construye un procedimiento para medir las restantes modalidades. Así, la escala centígrada de temperaturas se basa en asignar 0º a la temperatura de fusión del agua y 100º a la de ebullición

Escala nominal

Una escala se llama nominal si la única relación que tiene en cuenta es la de igualdad (y su contraria la

desigualdad). Suele estar formada por nombres, códigos o números considerados como etiquetas (como el DNI). Así, son nominales los apellidos, la Comunidad Autónoma, el distrito postal, etc.

Escala ordinal

La escala ordinal añade a la nominal la posibilidad de ordenar los datos, es decir, considera las relaciones de mayor y menor, aunque no se plantea una distancia entre unas medidas y otras. La escala de Insuficiente, Suficiente, Bien, Notable y Sobresaliente es ordinal.

Escala de intervalos

Se introduce una medida tipo (o patrón) llamada unidad y se tiene en cuenta cuantas unidades están comprendidas entre dos medidas distintas. Tienen sentido, además de la igualdad y el orden, las diferencias entre dos medidas. Podemos sumar y restar medidas, pero no tienen sentido sus cocientes. Son de intervalo la gran mayoría de las escala de las ciencias experimentales: temperatura, peso, velocidad, intensidad de la corriente eléctrica, etc.

Escala de razón

En esta escala se le da también un sentido a las razones entre dos medidas, es decir, las veces que una medida contiene a la otra. Fue la medida por excelencia de la Geometría griega y se ha trasladadoa todas las Ciencias Sociales y de la Naturaleza. Sedistingue también por la existencia de un cero verdadero, no convencional. Así, la escala centígrada de temperatura es sólo de intervalo y la Kelvin es de razón.

 

Esperanza

La esperanza matemática de una variable aleatoria discreta es la suma de los productos de sus valores por sus probabilidades. Equivale a la media en una distribución de frecuencias.

 

Estadístico

Se llama estadístico a todo valor numérico extraído mediante cálculos de los datos de una muestra. Normalmente se usa para estimar unparámetro de la población.

Estadístico de contraste

Es la expresión matemática, calculada a partir de lamuestra, que nos servirá para tomar la decisión en un contraste de hipótesis.

 

Estimación

Es la operación por la que se asigna a un parámetro de la población el mismo valor que a un estadístico calculado a partir de una muestra.

Estimación puntual

Estimación por intervalos

Al ser la estimación una operación arriesgada, en lugar de apostar por una estimación puntual, se rodea esta de un intervalo de seguridad, que es el Intervalo de confianza.

 

 

Estimador

Es un estadístico calculado en una muestra que estima un parámetro de la población. Los más importantes son los que estiman la media y la varianza.

 

 

 

 

 

 

Extremo inferior

Es el valor mínimo que puede tener un valor incluidoen un intervalo  de datos agrupados.

 

Extremo superior

Es el valor máximo posible en un intervalo de datos agrupados. Se considera no alcanzable. Así si un intervalo comprende desde 5 hasta 10, incluiremos enel mismo los valores comprendidos entre estos dos, incluyendo el 5 y sin incluir el 10.

 

 

 

 

 

 

 

 

Frecuencia

Definición

El número de veces que se repite un valor concreto en una recogida de datos se llama frecuencia absoluta o simplemente frecuencia.

Frecuencia absoluta

Es sinónimo de frecuencia. Se representa por la letra n o por la f, según los distintos textos.

Frecuencia relativa o proporción

Es el cociente de dividir cada frecuencia absoluta entre eltotal de valores N. Se representa por f o por h.

Frecuencia acumulada

Es el número de datos del conjunto que son menores o iguales a u valor dado. Por tanto, se calculará sumando todas las frecuencias de datos menores o iguales al mismo.

Podemos acumular las frecuencias absolutas y también las relativas y los porcentajes.

Frecuencias conjuntas

Son los pares de frecuencias formados en una distribución bidimensional

Frecuencia marginal

Llamaremos frecuencia marginal de un valor de X en una distribución bidimensional X-Y a la que le corresponde a ese valor si no tenemos en cuenta la existencia de Y. En lapráctica coincide con la suma de todas las frecuencias contenidas en la fila correspondiente a ese valor.

Frecuencias condicionadas

Son las frecuencias que posee una variable si sólo consideramos un valor (o varios) de la otra variable en unadistribución bidimensional X-Y. En la práctica se traduce aconsiderar sólo una fila o sólo una columna, según el valorelegido.

 

Función

Función de distribución

Llamaremos función de distribución F(x) de una variable aleatoria, a la formada por las probabilidades acumuladas, es decir: F(m) = Prob(x≤m) (El símbolo Prob designa a la probabilidad de que sea cierta la comparación del paréntesis)

 

 

 

GGauss

Distribución de Gauss

Sinónimo de distribución normal.

 

HHipótesis

Hipótesis nula

Llamaremos Hipótesis nula H0. a la afirmación que hacemos sobre los parámetros de una población y cuyavalidez deseamos contrastar.

Hipótesis alternativa

Frente a la hipótesis nula podemos oponer otra, a laque llamamos hipótesis alternativa H1. Suele ser unadesigualdad que se opone a la igualdad que afirmamos.

 

Test de hipótesis

 

Histograma

Representación gráfica de una distribución de datos agrupados en intervalos. Es similar al diagrama de

barras, pero con los rectángulos adosados y de áreasproporcionales a las frecuencias de los intervalos.

 

 

 

Índice

Índice simple de base fija

Un término de la serie se identifica (convencionalmente) con el número 1, o el 100%. Diremos que este valor y0 posee el índice 1. Para elresto de valores se define el índice como el cociente entre su propio valor yi y el valor y0 identificado como de índice 1.

Índice simple de base variable (o en cadena)

Tiene la misma definición que el anterior, pero en lugar deelegir un valor y0 como base, en el cociente se toma el término anterior yi-1.

Índice compuesto

Cuando se desea comparar la evolución de varios conjuntos a la vez, se definen índices compuestos, obtenidos combinando los índices simples. Una técnica sencilla es sustituir los múltiples valores de cada término por su media ponderada.

 

Inferencia

Inferencia estadística

Es la ciencia que estudia las operaciones de estimación

 

Insesgado

Un estimador es insesgado cuando su media muestral coincide con el parámetro

 

Intervalo

Escala de intervalo

 

Intervalos en distribuciones de frecuencias

Si la variable que se estudia es continua, o discreta con muchos valores distintos, se organizarán sus datos en forma de intervalos, que son conjuntos formados por los números reales comprendidos entre un máximo y un mínimo.

Intervalo de confianza

Es el intervalo del que se rodea una estimación puntual   acompañada de una probabilidad deque el parámetro   estimado pertenezca a dicho intervalo.

 

 

Leptocúrtica

Distribución de frecuencias con gran curtosis.

Ley

Ley de los grandes números

"Las frecuencias observadas tienen como límite las probabilidades cuando n tiende al infinito"

 

 

M

 

Marca de clase

Promedio entre los dos extremos (o punto medio de un intervalo de datos agrupados), que se elige como representante de todos los valores comprendidos.

 

Media

Media aritmética

Llamaremos media aritmética o simplemente media al valor resultante de sumar todos los datos y después dividir el resultado entre el número de ellos.

Media geométrica

Es la raíz enésima del producto de los datos. Se usa cuandoel producto es más representativo que la suma, como ocurre cuando se promedian cocientes o razones.

Media armónica

Es la media diseñada para promediar cantidades inversamenteproporcionales y equivale al inverso de la media de los inversos de x

Media cuadrática

Es muy usada en la teoría de errores y en estudios sobre ajustes de datos. Es la raíz cuadrada de la media de los cuadrados de los datos.

Media ponderada

En esta media se multiplica cada dato por un peso (valor numérico), se suman todos los productos  se divide el resultado entre la suma e los pesos.

 

Mediana

Llamaremos mediana de un conjunto de datos de tipo ordinal (o de intervalo o razón) al dato que ocupa el punto medio de la distribución ordenada de datos.Es decir, es el punto que divide a la distribución en dos partes iguales: el total de frecuencias de los datos inferiores a la mediana es igual al de lasfrecuencias de los datos mayores.

 

Medida

Es la operación de asignar un número a cada una de las modalidades de una característica, convirtiendo algunasrelaciones entre modalidades en sus correspondientes relaciones entre los números que representan su medida.

Medida directa

Llamaremos medida directa en cualquier estudio o experimento, a aquella que se ha obtenido directamente sobre los objetos, individuos o entidades con los instrumentos usuales de medida.

Medida diferencial

Dada una medida directa X, llamaremos medida diferencial x a su diferencia con la media del grupo.

Medida típica Z

Si se divide una medida diferencial entre la desviación típica del grupo, se obtiene la medida o puntuación típica Z.

 

Mesocúrtica

Distribución de frecuencias con curtosis media.

 

 

Mínimos cuadrados

 

Moda

Llamaremos Moda al valor de la distribución de datos que presente una frecuencia mayor.

 

Modalidad

Las distintas formas de presentarse una característica se llaman modalidades. Por ejemplo, 1,82 y 1,65 cm. son dos modalidades de la característica altura, y varón y mujer dosmodalidades de la característica sexo

 

Muestra

Definición

Es un subconjunto de la población que es más fácil de estudiar que la población.

 

Muestreo

Definición

Es un conjunto de operaciones o técnicas dirigidos a la elección de la muestra adecuada.

 

 

 

Nivel de confianza

Es la probabilidad de que unvalor estimado pertenezca al intervalo deconfianza que rodea a la estimación. Los más usadosson 90%, 95% y 99%

 

Nivel de significación

La probabilidad de que unos valores caigan en la región de rechazo n un contraste de hipótesis, a pesar de que H0 sea verdadera, se conoce con el nombre de nivel de significación a,

 

Nominal

Escala Nominal

 

Normal

Distribución normal

La distribución Normal o ley de Gauss es la más usada de las distribuciones teóricas continuas. La popularizaron Gauss, en el estudio de los errores de

las medidas, y también Laplace, pero ya la había usado Moivre como límite de la binomial.

Por su característica forma, se la conoce también como campana de Gauss. Aquí sólo nos interesa su definición y uso dentro de la Estadística. La expresión de su función de densidad con media 0 y desviación típica 1 es

 

 

 

Ordenada en el origen

Su significado más usual es el del término independiente de la ecuación de la recta de regresión. Se puede representar como el corte de esarecta con el eje Y.

 

 

Parámetro

Un número que caracterice o describa una población recibe el nombre de parámetro. La estatura media de los alumnos y alumnas de 16 años es un parámetro de esa población, o la Renta per cápita de la población española

 

Pendiente

Su significado más usual es el del coeficiente de lavariable X en la recta de regresión lineal.

 

Percentil

Similares a los deciles, P1, P2, P3, ......P99, son 99 números que dividen la distribución en 100 partes iguales.

 

Poisson

Esta distribución, llamada de los sucesos raros, es el caso límite de la binomial, con las siguientes condiciones: a) El número de intentos n debe tender a infinito. b) La propiedad p debe ser muy pequeña (de ahí el nombre de suceso raro) c) El producto de n.p ha de ser constante, y al que llamaremos m.

 

Platicúrtica

Distribución de frecuencias con poca curtosis.

 

 

Población

Llamaremos población a un conjunto bien definido por ciertas características que deseamos estudiar: La poblaciónde una Comunidad Autónoma, los aprobados de 2º de Bachillerato en mi Centro, los profesores de E.S.O. en la Delegación Norte, etc.

 

Porcentaje

Equivale a la frecuencia relativa expresada como tanto por ciento o porcentaje.

 

Predicción

Llamaremos pronóstico o predicción para un valor de X a su imagen Y´en la recta de regresión. Esta definición se extiende a cualquier otra curva de ajuste de datos.

 

Proporción

Es sinónimo de frecuencia relativa

 

Puntual

La estimación se llama puntual cuando identificamos,sin más, el parámetro con el estadístico. En ese caso añadiremos un acento circunflejo al parámetro para representar que estamos estimando.

 

P-valor

El p-valor de un resultado en un experimento es la probabilidad de obtener ese valor u otros menores (omayores, según sea el experimento) si se satisface la hipótesis nula.

 

 

 

Rango

Si se fija un valor mínimo y otro máximo, de forma que todos los datos de un recuento estén comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos), la diferencia entre ambos se denomina rango de los datos.

Rango percentil

Es la medida inversa del percentil. Dada una medida concreta, como puede ser la calificación de una alumna en Música, su rango percentil equivale al percentil más cercano a esa calificación. Un alumno que tenga rango percentil de 78 es aquel en el que el 78% de sus compañeros tiene una puntuación inferior a él.

 

Razón

Escala de razón

 

Regresión

Recta de regresión

La recta de regresión de Y sobre X es aquella que minimiza la suma de cuadrados de las diferencias entre los valores de Y y los correspondientes Y’ medidos en dicha recta.

 

 

 

SSesgo

Sinónimo de asimetría

 

Sumas de cuadrados

En ANOVA

Total

Es la suma de las diferencias al cuadrado entre los datos experimentales y su media.

Intragrupos

Representa la suma de cuadrados corregidos que se dadentro de los grupos, es decir, las diferencias de los datos entre la media de cada grupo.

Intergrupos

Es la suma ponderada de las diferencias al cuadrado entre as medias de los grupos y la media total.

Interacción

En un modelo con varios factores representa la influencia mutua entre ellos.

 

 

Supuesto

Es una afirmación que se hace de una población en laEstadística Inferencial: si es es simétrica, normal,continua… y sobre la muestra, si es aleatoria simple, es de tamaño mayor que 30…

 

 

T de Student

Distribución que sigue la estimación de la desviación típica.

Teorema

Teorema central del límite

Si las variables x1, x2, x3,... xn, tienen todas la misma distribución, con los mismos valores m para lamedia y s para la desviación típica, la variable

sigue asintóticamente la distribución normal N(0,1).

 

Test

Test de hipótesis

Un test de hipótesis (o contraste) es un proceso, compuesto de varios pasos muy concretos, que nos permite aceptar o rechazar una hipótesis en términosestadísticos.

 

Tipificación

Es la operación de convertir una medida en típica restándole la media y dividiendo entre la desviacióntípica.

 

Uniforme

Distribución uniforme

 

V

Variable

Variable aleatoria

Llamaremos Variable aleatoria simple (discreta) a un conjunto de valores X1, X2, X3, ...,Xn (llamados también sucesos) a los que les corresponden unos números (llamados probabilidades) , p1, p2, p3, ..., pn que cumplen:

a) Todas las probabilidades son positivas o nulas. b) La suma de todas ellas es igual a la unidad

 

 

Variación

Coeficiente de variación

Es el cociente de dividir la desviación típica entrela media.

 

 

Varianza

Definición

Es el cociente de dividir la suma de los cuadrados de las desviaciones de los datos respecto a la media

entre el número total de datos. Su raíz cuadrada es la desviación típica.

Explicada

Es la parte de una varianza que se considera producida por un factor determinado que influya en un experimento. En la regresión lineal es la varianza de las predicciones.

Total

Es la varianza total observada en un experimento, independientemente de las variables que puedan influir en los resultados.

Residual

Es la diferencia entre la varianza total y la explicada.

Análisis de Varianza

La técnica del Análisis de la Varianza consiste en descomponer la variabilidad de una población (representada por su varianza) en diversos sumandos según los factores que intervengan en la creación deesa variabilidad.

UNIDAD 1 CONCEPTOS BÁSICOS, PRESENTACIÓN DE INFORMACIÓN, MEDIDASDE TENDENCIA CENTRAL Y DISPERSIÓN.1.

1. SIGNIFICADO DE ESTADÍSTICA2. CONCEPTOS BÁSICOS

La estadística es una rama de las matemáticas que conjunta herramientas para recolectar, organizar, presentar y analizar datos numéricos u observacionales. Presenta números quedescriben una característica de una muestra. Resulta de la manipulación de datos de la muestra según ciertos procedimientos especificados.Procedimiento:1. Obtención de datos2. Clasificación3. Presentación4. Interpretación5. Descripción6. Generalizaciones7. Comprobación de hipótesis por su aplicación.8. Toma de decisiones

Términos comunes.Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos la edad de los habitantes en una ciudad, la población será el total de los habitantes de dicha ciudad.Muestra: Subconjunto de la población seleccionado de acuerdo conun criterio, y que sea representativo de la población. Por ejemplo, elegir 30 personas por cada colonia de la ciudad para saber sus edades, y este será representativo para la ciudad.Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos la edad de cada habitante, cada habitante es un individuo.Variable: Fenómeno que puede tomar diversos valores. Las variables pueden ser de dos tipos:Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anualesPor su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45).Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.Las variables también se pueden clasificar en:Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alunmos de una clase).Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).1. CONCEPTO Y CLASIFICACIÓN DE DATOS

DATOSCaracterísticas o números que son recolectados por observación. No son otra cosa que el producto de las observaciones efectuadasen las personas y objetos en los cuales se produce el fenómeno que queremos estudiarLos datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y geográficosDatos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad. Ejemplo: Sideseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existirsolteros, casados, divorciados, viudos.Datos cuantitativos: cuando los valores de los datos representandiferentes magnitudes, decimos que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o períodos de tiempo, los datos son reconocidos como cronológicos. Ejemplo: Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes semestres.Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que son datos geográficos. Ejemplo: El número de estudiantes de educación superior en las distintas regiones del país1. PRESENTACION DE INFORMACIÓN

1.2.1 DISTRIBUCION DE TABLAS DE FRECUENCIAS

Estadística Descriptiva:Tienen por objeto fundamental describir y analizar las características de un conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. No obstante puede no solo referirse a la observación de todos los elementos de una población (observaciónexhaustiva) sino también a la descripción de los elementos de una muestra (observación parcial).En relación a la estadística descriptiva, Ernesto Rivas Gonzálesdice; "Para el estudio de estas muestras, la estadística descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrán la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendrá dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilará dentro de cierto límite de confianza, que casi siempre es de un 95 a 99% de los casos.Distribución de frecuencias: muestra el número de veces que ocurre cada observación.Ejemplo: Se elaboró una encuesta en un jardín de niños y ésta informó que las mascotas más comunes que tiene un niño son perros, gatos, peces, hámsteres y pájarosperro gato perro hamste

rpájaro hamste

rgato perro

hámster

gato pájaro gato

perro perro hámster pájaroperro perro pájaro gato A continuación se muestra la distribución de frecuencias absolutas, relativas y porcentuales de las mascotas mas comunes de los niños.Mascota Frecuencia

absolutaFrecuencia relativa

Frecuencia acumulada

Perro 7 .35 35 %Pajaro 4 .20 20 %Hamster 4 .20 20 %gato 5 .25 25 %

Estos datos se pueden representar en una gráfica de barras o en una gráfica de pastel:

Gráfica de barras

Gráfica de pastel

NOTA :Para calcular:..Frecuencia absoluta: se cuenta la cantidad de veces que ocurre el evento, en este caso, las mascotas.Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de eventos.Frecuencia porcentual: se multiplica la frecuencia relativa por 100.1.2.2 CONSTRUCCION DE TABLAS ESTADÍSTICASDistribución agrupada de frecuencias: Distribución de frecuencias en la que los valores de la variable se han agrupadoen clases. Esto se debe principalmente a la disposición de gran número de datos. Las razones por las que se elaboran este tipo de agrupación de datos es por economía, practicidad, y baja frecuencia de algunos puntajes.Agrupación de datos: para elaborar las tablas estadísticas, se debe seguir un procedimiento preciso:1. Estos son algunos métodos para obtener datos:

Censo: Se entiende por censo aquella numeración que se efectúa a todos y cada uno de los caracteres componentes de

una población. Para Levin & Rubin (1996) "Algunas veces es posible y práctico examinar a cada persona o elemento de la población que deseamos describir. A esto lo llamamos una numeración completa o censo. Utilizamos el muestre cuando no es posible contar o medir todos los elementos de la población. Si es posible listar (o enumerar) y observar cada elemento de la población, los censos se utilizan rara vez porque a menudo su compilación es bastante difícil, consume mucho tiempo por lo que resulta demasiado costoso.Encuesta: Se entiende por encuesta las observaciones realizadas por muestreo, es decir son observaciones parciales. El diseño de encuestas es exclusivo de las ciencias sociales y parte de la premisa de que si queremos conocer algo sobre el comportamiento de las personas, lo mejor, más directo y simple es preguntárselo directamente a ellas. (Cadenas, 1974). Según Antonio Napolitano "La encuesta, es un método mediante el cual se quiere averiguar. Se efectúa a través de cuestionarios verbales o escritos que son aplicados a un gran número de personas".

2. Toma de datos.- es la obtención de una colección de datos por medio de encuestas, preguntas, sondeos etc. Que no han sido ordenados numéricamente y que dicha información se extrae al azar, es decir, de tal forma que cada miembro de lapoblación tenga la misma oportunidad de ser elegida o seleccionada.

3. Ordenación de datos: es una colocación de los datos numéricos tomados en orden creciente a decreciente de magnitud. La diferencia entre el mayor y el menor de los números se llama rango o recorrido de datos.

*No. De clases (Regla de Sturges): 1 + 3.332 log N*Tamaño de clase = Rango / No. De clases

4. Cálculo de tamaño de clase: para calcular el tamaño de clase es necesario calcular primeramente el número de clases utilizando la regla de Sturges y despés se obtiene el tamaño de clase dividiendo el rango entre el número de clases.

5. Límites de clase: representan el tamaño de cada clase. El límite inferior de la primer clase toma el valor de el dato menor de la colección de datos, para obtener el límite inferior de la clase siguente, se suma al límite inferior de la case anterior el tamaño de clase.

6. Límites reales de clase: se obtienen sumando al LS de la clase el Lide la clase contigua superior y dividiendo entre dos.

7. Marca de clase: Es el punto medio de la clase y se obtienesumando los LI y LS de la clase y dividiendo entre 2. La marca de clase también se llama punto medio de la clase.

Ejemplo de tablas estadísticas:AUTOBUSES FORANEOS

1) Toma de datosLos siguientes datos corresponden a la cantidad de asientosvacíos que reportaron 50 autobuses foráneos en un domingo.12 11 4 6 6 11 3 10 12 410 1 1 2 4 5 2 4 4 88 7 8 4 10 4 2 6 2 95 6 6 4 12 8 1 12 1 77 6 8 4 6 9 3 7 7 52) Ordenación de datos1 2 4 4 5 6 7 8 9 111 2 4 4 5 6 7 8 10 121 2 4 4 6 6 7 8 10 121 3 4 4 6 6 7 8 10 122 3 4 5 6 7 8 9 11 12Rango = 12-1 = 113) Tamaño de claseNo de clases = 1 + 3.332log (50) = 6Tamaño de clase = 11/6 = 24) Límites de clase5) Límites reales de clase6) Marca de claseClase Intervalo LRI LRS Frec.

AbsolutaFrec.Relat

Frec. Porcentual

XLI LS

1 1 2.9 0.95 2.95 8 .16 16 % 1.952 3 4.9 2.95 4.95 11 .22 22 % 3.953 5 6.9 4.95 6.95 10 .20 20 % 5.954 7 8.9 6.95 8.95 10 .20 20 % 7.955 9 10.9 8.95 10.95 5 .10 10 % 9.956 11 12.9 10.95 12.95 6 .12 12 % 11.95total 50 1 100 %Representación gráfica de datos.

Se tomará el ejemplo anterior para demostrar el uso de diferentes gráficas.Histograma: forma gráfica de barras que emplea variables con escala de intervalos o de proporciones. Para realizarla, se toma en cuenta para el eje X, los Límites reales, y para el eje Y, las frecuencias absolutas.

Polígono de frecuencias: Forma gráfica que representa una distribución de frecuncias en la forma de una línea continua quetraza un histograma. Para su elaboración, se consideran las marcas de clase en el eje X y las frecuencias absolutas en el eje Y.

 Gráfica de barras: la gráfica de barras es una forma de gráfica que utiliza barras para indicar la frecuencia de ocurrencia de las observaciones. Para construirla se constituye el eje y por las frecuencias absolutas y el eje X por los límites inferior y superior de cada clase, dejando un espacio entre barra y barra.

1.3 CALCULO DE LA MEDIA MEDIANA Y MODAMedidas de tendencia central:La tendencia central se refiere al punto medio de una distribución. Las medidas de tendencia central se conocen como medidas de posición.

MediaLa media es el punto en una distribución de medidas, alrededor del cual las desviaciones sumadas son iguales a cero. Es el valor promedio de una muestra o población. La media es muy sensible a mediciones extremas que no estén balanceadas en amboslados. Se pueden calcular diversos tipos de media, siendo las más utilizadas:a. Media aritmética: se calcula multiplicando cada valor por

el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información.Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar engran medida el valor de la media, perdiendo ésta representatividad.

MedianaObservación u observación potencial en un conjunto que divide elconjunto, de modo que el mismo número de observaciones estén en cada uno de sus lados. Para un número impar de valores, es el valor de en medio; para un número par es el promedio de los dos medios. Para un conjunto con un número par de números, la mediana será el promedio aritmético de los dos números medios.Ejemplo:Calcule la mediana para los siguientes datos.La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y22.Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25.La mediana es 21.La mediana de una muestra de datos organizados en una distribución de frecuencias se calcula mediante la siguiente fórmula:

Mediana = LRI + [(n/2 - FA)/f] cdonde L es el límite inferior de la clase que contiene a la mediana, FA es la frecuencia acumulada que precede a la clase dela mediana, f es la frecuencia de clase de la mediana e i es el intervalo de clase de la mediana.

MODALa moda es el valor de la observación que aparece con más frecuencia.Ejemplo:las calificaciones de un examen de diez estudiantes son:81, 93, 84, 75, 68, 87, 81, 75, 81, 87.Como la calificación 81 es la que más ocurre, la calificación modal es 81La moda de los datos agrupados se aproxima por el punto medio dela clase que contiene la frecuencia de clase mayor.Cuando dos valores ocurren una gran cantidad de veces, la distribución se llama bimodal, como en dicho ejemplo.Ejemplo de cálculo de media mediana y moda. Para ejemplificar, tomaremos el ejemplo de autobuses foráneos dela pagina 6.

Clase Intervalo LRI LRS Frec. Absoluta

Frec. Relat

Frec. Porcentual

X fxLI LS

1 1 2.9 0.95 2.95 8 .16 16 % 1.95 15.602 3 4.9 2.95 4.95 11 .22 22 % 3.95 43.453 5 6.9 4.95 6.95 10 .20 20 % 5.95 59.504 7 8.9 6.95 8.95 10 .20 20 % 7.95 79.505 9 10.9 8.95 10.9

55 .10 10 % 9.95

49.756 11 12.9 10.95 12.9

56 .12 12 % 11.9

5 71.70total 50 1 100 % 319.5

1. CÁLCULO DE VARIANZA, DESVIACIÓN ESTÁNDAR Y COEFICIENTE DE VARIACIÓN.

Medidas de dispersión: Estudia la distribución de los valores dela serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersosVarianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.Desviación estándar: Se calcula como raíz cuadrada de la varianza.

Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media de la muestra

Continuando con el caso de los autobuses foráneos, se realizará el ejemplo de medidas de dispersión.Clase

Intervalo LRI LRS Frec. Absoluta

Frec. Relat

Frec. Porcentual

X fxf(x-x)2

LI LS

1 1 2.9 0.95 2.95 8 .16 16 % 1.95 15.60 157.712 3 4.9 2.95 4.95 11 .22 22 % 3.95 43.45 171.633 5 6.9 4.95 6.95 10 .20 20 % 5.95 59.50 354.034 7 8.9 6.95 8.95 10 .20 20 % 7.95 79.50 632.035 9 10.9 8.95 10.9

55 .10 10 % 9.95

49.75 495.016 11 12.9 10.9

512.95

6 .12 12 % 11.95 71.70 856.82

total

50 1 100 % 319.502667.2

UNIDAD II FUNDAMENTOS DE PROBABILIDAD2.1 CONCEPTOS BÁSICOSProbabilidad: valor entre cero y uno, inclusive, que describe laposibilidad relativa de que ocurra un evento.Experimento: proceso que conduce a la ocurrencia de una de varias observaciones posibles.Resultado: lo que resulta en particular de un experimento.Evento: conjunto de uno o más resultados de un experimento.Espacio muestral: son todos los posibles resultados de un experimento. Cualquier resultado experimental particular se llama punto muestral y es un elemento del espacio muestral.Tipos de sucesos

Exhaustivo: se dice que dos o más sucesos son exhaustivos

si se consideran todos los posibles resultados.

Simbólicamente: p (A o B o...) = 1 No exhaustivos: se dice que dos o más sucesos son

exhaustivos si no cubren todos los posibles resultados. Mutuamente excluyentes: sucesos que no pueden ocurrir en

forma simultánea:

P(A y B) = 0 y p(A o B) = p(A) + p (B)Ejemplo: hombres, mujeres

No mutuamente excluyentes: sucesos que pueden ocurrir en forma simultánea:

P (A o B) = p (A) + p (B) – p (A y B )Ejemplo: hombres, ojos cafés

Independientes: Sucesos cuya probabilidad no se ve afectada por la ocurrencia o no ocurrencia del otro :

P ( AI B ) = P ( A ); P ( BIA ) = P (B) Y P (A Y B) = P(A) P(B)Ejemplo: sexo y color de ojos

Dependientes: sucesos cuya probabilidad cambia dependiendode la ocurrencia o no ocurrencia del otro:

P ( AI B ) difiere de p (A); P ( BIA ) difiere de P(B);y P (A Y B)= P ( A ) P ( BIA )= P (B) P ( AI B )Ejemplo: raza y color de ojosProbabilidades conjuntas: probabilidad de que dos sucesos o más,ocurran simultáneamenteProbabilidades marginales: o probabilidades incondicionales = suma de probabilidades.Enfoques de la probabilidadProbabilidad clásica se basa en la consideración de que los resultados de un experimento son igualmente posibles.Utilizando el punto de vista clásico,Probabilidad de un evento = no. de resultados probables no. De resultados posiblesEjemploConsidere el experimento de lanzar dos monedas al mismo tiempo.El espacio muestral S = {HH, HT, TH, TT}Considere el evento de una cara.Probabilidad de una cara = 2/4 = 1/2.Distribución muestralEl diagrama de árbol es muy útil para visualizar las probabilidades condicional y conjunta y en particular para el análisis de decisiones administrativas que involucran varias etapas.

EJEMPLO: una bolsa contiene 7 fichas rojas (R) y 5 azules (B), se escogen 2 fichas, una después de la otra sin reemplazo. Construya el diagrama de árbol con esta información.

2.2 AXIOMAS DE PROBABILIDADPrimer axioma : La probabilidad de un suceso A es un número real entre 0 y 1.Segundo axioma :Ocurre un suceso de la muestra de todos los sucesos o espacio de sucesos Ω con probabilidad 1.Tercer axioma Si A1, A2 ... son sucesos mutuamente excluyentes2.3 PROBABILIDAD CONDICIONALProbabilidad condicional es la probabilidad de que ocurra un evento en particular, dado que ocurrió otro evento.Nota: la probabilidad de que ocurra el evento A dado que ya ocurrió B se denota comoP(A|B).Reglas básicas de probabilidadSi los eventos son mutuamente excluyentes, la ocurrencia de cualquier evento impide que otro eventos ocurra.Reglas de adición: si dos eventos A y B son mutuamente excluyentes, la regla especial de adición indica que la probabilidad de que ocurra A o B es igual a la suma de sus probabilidades respectivas:P(A o B) = P(A) + P(B)Ejemplo

Llegada Frecuencia

Antes detiempo

100

A tiempo 800Demorado 75Cancelado 25

Total 1000 

Aerolíneas Argentinas acaba de proporcionar la siguiente información de sus vuelos de Buenos Aires a Rosario:

EjemploSi A es el evento de que un vuelo llegue antes de tiempo, entoncesP(A) = 100 /1000 = 0.1.Si B es el evento de que un vuelo llegue demorado, entoncesP(B) = 75 /1000 = 0.075.La probabilidad de que un vuelo llegue antes de tiempo o demorado esP(A o B) = P(A) + P(B) = .1 + .075 = 0.175.

UNIDAD III DISTRIBUCIONES DE PROBABILIDAD3.1 VARIABLES ALEATORIASLas variables aleatorias son una transformación o función que asignan uny sólo un valor numérico a cada resultado de un experimento.Variables aleatorias discretas: comprenden reglas o modelos de probabilidad para asignar o generar sólo valores diversos (no mediciones fraccionarias).Variables aleatorias continuas:3.2 DISTRIBUCION BINOMIALUna distribución de probabilidad ampliamente utilizada de una variable aleatoria discreta es la distribución binomial. Esta describe varios procesos de interés para los administradores.  Describe datos discretos, resultantes de un experimento denominado proceso de Bernoulli en honor del matemático suizo Jacob Bernoulli, quien vivió en el siglo XVII.Empleo del proceso de Bernoulli.Podemos servirnos de los resultados de un número fijo de lanzamientos de una moneda como ejemplo de un proceso de Bernoulli. Este proceso lo describimos así:1. Cada ensayo ( cada lanzamiento, en nuestro caso) tiene sólo dos resultados posibles: lado A o lado B, sí o no, éxito o fracaso.2. La probabilidad del resultado de cualquier ensayo (lanzamiento) permanece fija con el tiempo. Tratándose de una moneda la probabilidad de que salga de el lado A sigue siendo de

0.5 en cada lanzamiento, cualquiera que sea el número de veces que la moneda sea arrojada.3. Los ensayos son estadísticamente independientes, es decir, elresultado de un lanzamiento no afecta al de cualquier otro lanzamiento.Cada proceso de Bernoulli tiene su propia probabilidad característica. Pongamos el caso en que siete décimas partes de las personas que solicitaron cierto tipo de empleo pasaron la prueba. Diremos entonces que la probabilidad característica fue de 0.7 pero podemos describir los resultados de la prueba como un proceso de Bernoulli sólo si tenemos laseguridad de que la proporción de los que fueron aprobados permaneció constante con el tiempo.Des de luego, la otra característica del proceso de Bernoulli también deberá ser satisfecha. Cada prueba deberá arrojar tan sólo dos resultados (éxito o fracaso= y los resultados de las pruebas habrán de ser estadísticamente independientes.En un lenguaje más formal, el símbolo p representa la probabilidad de un éxito y el símbolo q ( 1- p ) representa la probabilidad de un fracaso. Para representar cierto número de éxitos, utilizaremos el símbolo r y para simbolizar el número total de ensayos emplearemos el símbolo n.Entonces tenemos que : P Probabilidad de éxito.Q Probabilidad de fracaso.r Número de éxitos

deseados.n Número de ensayos

efectuados. Existe una fórmula binomial:  Probabilidad de r éxitos en n ensayos es :N! / R! (N-R)! PR QN-RRecordemos que el símbolo factorial! Significa por ejemplo que es 3! = 3*2*1 = 6Los matemáticos definen 0! = 1.3.3 DISTRIBUCION NORMALLa Distribución Normal: una distribución de una variable aleatoria continua.Una muy importante distribución continua de probabilidad es la distribución normal. Varios matemáticos intervinieron en su desarrollo entre ellos figura el astrónomo del siglo XVIII Karl Gauss, a veces es llamada en sus honor la distribución de Gauss.

Características de la distribución normal de la probabilidad.1. La curva tiene un solo pico, por consiguiente es unimodal. Presenta una forma de campana.2. La media de una población distribuida normalmente se encuentra en el centro de su curva normal.3. A causa de la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución también sehallan en el centro, por tanto en una curva normal, la media, lamediana y la moda poseen el mismo valor.4. Las dos colas (extremos) de una distribución normal de probabilidad se extienden de manera indefinida y nunca tocan el eje horizontal.Áreas bajo la curva normal.El área total bajo la curva normal será de 1.00 por lo cual podemos considerar que las áreas bajo la curva son probabilidades.El valor de Z.Z= Número de desviaciones estándar de x respecto a la media de esta distribución.Z= x-m / sX=valor de la variable aleatoria que nos interesa.m = media de la distribución de esta variable aleatoria.s = desviación estándar de esta distribución.Las variables aleatorias distribuidas en forma normal asumen muchas unidades diferentes de medición, por lo que hablaremos deforma estándar y les daremos el símbolo de Z.

UNIDAD IV TIPOS DE MUESTREO4.1 TIPOS DE MUESTREOLos autores proponen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos:métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.

Muestreo probabilísticoLos métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos enlos que todos los individuos tienen la misma probabilidad de serelegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables.Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad noes nula para ningún elemento.Los métodos de muestreo no probabilísticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población.(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso−control, donde los casos no son seleccionados aleatoriamente de la población.)Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos:

Muestreo aleatorio simple:

El procedimiento empleado es el siguiente:1. Se asigna un número a cada individuo de la población2. A través de algún medio mecánico (bolas dentro de una

bolsa, tablas de números aleatorios, números aleatorios

generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido.Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejandoes muy grande.Ejemplo: formar el equipo de fútbol de la universidad seleccionando 11 boletas de una urna con el nombre de todos los alumnos de la universidad.

Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegidoal azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n−1)k, esdecir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partidaserá un número al azar entre 1 y k.El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población.

Imaginemos que estamos seleccionando una muestra sobre listas de10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres,no podría haber una representación de losdos sexos.

Muestreo aleatorio estratificado:

Trata de obviar las dificultades que presentan los anteriores yaque simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.).Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en lamuestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población.(Tamaño geográfico, sexos, edades,...).La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales.Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato.Afijación Optima: Se tiene en cuenta la previsible dispersión delos resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación.

Muestreo aleatorio por conglomerados:

Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población.En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales.

En otras ocasiones se pueden utilizar conglomerados no naturalescomo, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.

Métodos de muestreo no probabilísticosA veces, para estudios exploratorios, el muestreo probabilísticoresulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetosde la población tienen la misma probabilidad de se elegidos.En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa.Muestreo por cuotas:También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buenconocimiento de los estratos de la población y/o de los individuos más "representativos" "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.En este tipo de muestreo se fijan unas "cuotas" que consisten enun número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexofemenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.Muestreo opinático o intencional:Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anterioresvotaciones han marcado tendencias de voto.Muestreo casual o incidental:Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos).

Bola de nieve:Se localiza a algunos individuos, los cuales conducen a otros, yestos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones4.2 ESTIMACIÓN DE LÍMITESPara una población con media σ y variancia  σ 2, la distribuciónde muestreo de las medias de todas las muestras posibles de tamaño n obtenidas de una población tendrá una distribución normal aproximada —con la media de la distribución de muestreo igual a  σ  y la variancia igual a  σ 2/ n —si se supone que el tamaño de la muestra es suficientemente grande.4.3 PRUEBA DE HIPÓTESIS PARA UNA MEDIAQué es una hipótesis? Hipótesis: enunciado acerca de una población elaborada con el propósito de ponerse a prueba.Ejemplos de hipótesis acerca de un parámetro de población son:la media mensual de ingresos para analistas de sistemas es $3625,el 20% de los delincuentes juveniles son capturados y sentenciados a prisión.CONCEPTO DE PRUEBA DE HIPÓTESISAfirmación acerca de los parámetros de la población.Etapas Básicas en Pruebas de Hipótesis.Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar unamuestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (). Después se acepta o se rechaza elvalor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segadodel parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor

hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística de prueba.DefinicionesHipótesis nula H0: afirmación acerca del valor de un parámetro poblacional.Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales proporcionan evidencia de que la hipótesis nula es falsa.Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es verdadera.Error Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera.Error Tipo II: aceptar la hipótesis nula cuando en realidad es falsa.Estadístico de prueba: valor obtenido a partir de la informaciónmuestral, se utiliza para determinar si se rechaza o no la hipótesis.Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la hipótesis nula.Valor p en la prueba de hipótesisValor p: es la probabilidad de observar un valor muestral tan extremo o más que el valor observado, dado que la hipótesis nulaes verdadera.Si el valor p es menor que el nivel de significancia, H0 se rechaza.Si el valor p es mayor que el nivel de significancia, H0 no se rechaza

UNIDAD V ANÁLISIS DE REGRESIÓN5.1 CONCEPTOS BÁSICOS DE SERIES DE TIEMPOSe llama Series de Tiempo a un conjunto de mediciones de cierto fenómeno o experimento registrado secuencialmente en el tiempo. El primer paso para analizar una serie de tiempo es graficarla, esto permite: identificar la tendencia, la estacionalidad, las variaciones irregulares (componente aleatoria). Un modelo clásico para una serie de tiempo, puede ser expresada como suma o producto de tres componentes: tendencia, estacional y un término de error aleatorio.En adelante se estudiará como construir un modelo para explicar la estructura y prever la evolución de una variable que observamos a lo largo del tiempo.5.2 METODO DE MINIMOS CUADRADOSModelo de minimos cuadrados ordinariosEl análisis de regresión trata de la dependencia de las variables explicativas, con el objeto de estimar y/o predecir la

media o valor promedio poblacional de la variable dependiente entérminos de los valores conocidos o fijos de las variables explicativas.Se trata de encontrar una método para hallar una recta que se ajuste de una manera adecuada a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi).Este método de estimación se fundamenta en una serie de supuestos, los que hacen posible que losestimadores poblacionales que se obtienen a partir de una muestra, adquieran propiedades que permitan señalar que los estimadores obtenidos sean los mejores.Pues bien, el método de los mínimos cuadrados ordinarios consiste en hacer mínima la suma de los cuadrados residuales, esdecir lo que tenemos que hacer es hallar los estimadores que hagan que esta suma sea lo más pequeña posible.Los supuestos del método MCO son los que se presentan a continuación:Supuesto 1El modelo de regresión es lineal en los parámetros:Yi = _ + _*Xi +_iLa linealidad de los parámetros se refiere a que los _´s son elevados solamente a la primera potencia.Supuesto 2Los valores que toma el regresor X son considerados fijos en muestreo repetido. Esto quiere decir que la variable X se considera no estocástica. Este supuesto implica que el análisis de regresión es un análisis condicionado a los valores dados del(los) regresores.Supuesto 3Dado el valor de X, el valor esperado del término aleatorio de perturbación _i es cero.E ( _i/Xi ) = 0Cada población de Y corresponde a un X dado, está distribuida alrededor de los valores de su media con algunos valores de Y por encima y otros por debajo de ésta. Las distancias por encimay por debajo de los valores medios son los errores, y la ecuación antes señalada requiere que en promedio estos valores sean cero.Supuesto 4Homoscedasticidad. Dado el valor de X, la varianza de _i es la misma para todas las observaciones.Var (_i/Xi ) = E (_i E(_i)/ Xi)2−= E (_i2/Xi )= _Esta ecuación señala que la varianza de las perturbaciones para cada Xi es algún número positivo igual a _. Homoscedastidad

significa igual dispersión, en otras palabras significa que las poblaciones Y correspondientes a diversos valores de X tienen lamisma varianza. Por el contrario, se dice que existe heteroscedasticidad cuando la varianza poblacional, ya no es la misma en cada muestra. El supuesto de homoscedasticidad está indicando que todos los valores de Y correspondientes a diversosvalores de X son igualmente importantes.Supuesto 5Dados dos valores cualquiera de X, Xi y Xj ( i " j ), la correlación entre _i y _j cualquiera ( i " j ) es cero.Cov ( _i, _j / Xi, Xj ) = E (_i E(_i)/ Xi) (_j E (_j/Xj ))− −= E (_i/Xi ) (_j/Xj )= 0Este supuesto indica que las perturbaciones no están correlacionadas. Esto significa que los errores no siguen patrones sistemáticos. La implicancia del no cumplimiento de este supuesto (existencia de autocorrelación) implicaría que Yt no depende tan sólo de Xt sino también de _t−1, puesto que _t−1 determina en cierta forma a _t.Supuesto 6La covarianza entre _i y Xi es cero, formalmente:Cov (_i/Xi ) = E (_i E(_i)) (Xi E(Xi))− −= E (_i (Xi E(Xi)))−= E (_i Xi E(Xi) E(_i))−= E (_i Xi)= 0Este supuesto indica que la variable X y las perturbaciones no están correlacionadas. Si X y _ estuvieran relacionadas, no podrían realizarse inferencias sobre el comportamiento de la variable endógena ante cambios en las variables explicativas.Supuesto 7El número de observaciones debe ser mayor que el número de parámetros a estimar.Supuesto 8Debe existir variabilidad en los valores de X. No todos los valores de una muestra dada deben seriguales.Técnicamente la varianza de X debe ser un número finito positivo. Si todos los valores de X son idénticos entonces se hace imposible la estimación de los parámetros.Supuesto 9El modelo de regresión debe ser correctamente especificado, estoindica que no existe ningún en el modelo a estimar. La especificación incorrecta o la omisión de variables importantes,harán muy cuestionable la validez de la interpretación de la regresión estimada.Supuesto 10

No hay relaciones perfectamente lineales entre las variables explicativas. No existe multicolinealidad perfecta. Aunque todaslas variables económicas muestran algún grado de relación entre sí, ello no produce excesivas dificultades, excepto cuando se llega a una situación de dependencia total, que es lo que se excluyó al afirmar que las variables explicativas son �inealmente dependientes.

Leer más: http://www.monografias.com/trabajos30/estadistica-basica/estadistica-basica.shtml#ixzz39aSM8S9d

C Contraste de hipótesis: Test de hipótesis Correlación: Medida de la relación existente entre dos

variables. Su valor está comprendido entre –1 y 1. Si esnegativo la relación entre las variables es inversa, esdecir, a medida que aumentan los valores de una decrecen losde la otra. Si es positivo la asociación es directa, esdecir, los valores de una variable aumentan con la otra. Unvalor de cero indica ausencia de relación. Cuando lasvariables son continuas y tienen una relación lineal, elcoeficiente de correlación lineal de Pearson es una medidade asociación adecuada. Cuando las variables no soncontinuas se utilizan otros coeficientes de correlación.

D Desviación típica: Valor mayor o igual a cero que mide la

dispersión de una característica de los individuos alrededorde la media del grupo. Los sujetos serán más parecidos uhomogéneos entre sí cuanto más próxima a cero esté ladesviación típica. Su unidad de medida coincide con launidad de medida de la variable original. Es la raízcuadrada de la varianza.

Diseño de experimentos: Método estadístico cuyo objetivoes estudiar cómo cambian los valores de una variablerespuesta cuando se modifican los valores de una o variasvariables independientes, denominadas factoresexperimentales. Un experimento bien diseñado puede ser elpunto de partida para establecer relaciones causales entrelas variables estudiadas.

E Estadística: Ciencia que estudia los fenómenos aleatorios.

Es un área de conocimiento específico de las Matemáticas quecomenzó a desarrollarse a mediados del siglo XVII. Sustécnicas permiten resumir grandes cantidades de información,estudiar la relación entre variables, investigar la causa de

algunos sucesos o predecir la evolución de un fenómeno en eltiempo y en el espacio, entre otras cosas.

Estimador: Valor numérico extraído de las observaciones deuna muestra que se aproxima en mayor o menor medida alparámetro de la población sobre el que se quiere investigar.Así, la edad media de un grupo de individuos elegidosaleatoriamente de una población es un estimador de laverdadera edad media de la población.

Error alfa (α): Valor comprendido entre 0 y 1 que midecuánto se equivoca el investigador al aceptar como verdaderala hipótesis alternativa de un test de hipótesis. Cuanto máspróximo a cero esté, menor será el riesgo de establecerhipótesis falsas en la población de estudio. Su valor sefija a priori, antes de comenzar la investigación, paraconocer el número de individuos necesario para llevar a caboel estudio. Cuanto más pequeño sea el error alfa mayor seráel tamaño de la muestra y, por tanto, más precisos serán losresultados. Habitualmente este error se fija en 0.05, aunquepuede variar dependiendo del tipo de investigación.

Error beta (β): Valor comprendido entre 0 y 1 que midecuánto se equivoca el investigador al aceptar como verdaderala hipótesis nula de un test de hipótesis. Cuanto máspróximo a cero esté, menor será el riesgo de establecerhipótesis falsas en la población de estudio. Su valor sefija a priori, antes de comenzar la investigación, paraconocer el número de individuos necesario para llevar a caboel estudio. Cuanto más pequeño sea el error beta mayor seráel tamaño de la muestra y, por tanto, más precisos serán losresultados. Habitualmente este error se fija en 0.20, aunquepuede variar dependiendo del tipo de investigación.

Error estándar: Variabilidad del estimador cuando seobtiene a partir de muestras diferentes, resultando un valordistinto en cada muestra. El error estándar siempre es mayorque cero. Cuanto más pequeño sea mayor es la precisión de laestimación realizada.

Especificidad: Probabilidad de que una prueba diagnósticaproporcione un resultado negativo cuando el sujeto no estáafectado por la enfermedad investigada. Lo ideal es que estaprobabilidad sea 1 siempre que la prueba diagnóstica seaplique en el grupo de población libre de enfermedad. Sinembargo, no siempre es así. Cualquier prueba puede fallar

mostrando un resultado positivo en un individuo sano. Laespecificidad es, por tanto, la capacidad de la pruebadiagnóstica para detectar la ausencia de la enfermedadestudiada.

F Falso negativo: Probabilidad de que una prueba diagnóstica

proporcione un resultado negativo cuando el sujeto realmentetiene la enfermedad investigada. Es el valor complementarioa la sensibilidad.

Falso positivo: Probabilidad de que una prueba diagnósticaproporcione un resultado positivo cuando el sujeto no estáafectado por la enfermedad investigada. Es el valorcomplementario a la especificidad.

H Hipótesis nula: Afirmación establecida por el investigador

sobre la población de estudio cuando realiza un test ocontraste de hipótesis. Esta hipótesis siempre se asumeverdadera a menos que los datos de la muestra proporcionenevidencia de lo contrario. Se suele formular mediante unanegación o una igualdad. Así, la hipótesis nula de unestudio sobre cirrosis hepática puede establecer que noexiste relación entre el consumo habitual de alcohol y lacirrosis o, de forma equivalente, que el porcentaje depersonas con cirrosis es igual en bebedores y no bebedores.

Hipótesis alternativa: Aseveración opuesta a la hipótesisnula en un test o contraste de hipótesis. Así, la hipótesisalternativa de un estudio sobre cirrosis hepática puedeestablecer que existe relación entre el consumo habitual dealcohol y la cirrosis o, de forma equivalente, que elporcentaje de personas con cirrosis es diferente enbebedores y no bebedores.

I Inferencia estadística: Procedimiento que permiten

extrapolar o generalizar a la población los resultados

obtenidos en el análisis de una muestra. Las técnicasutilizadas para ello incluyen los intervalos de confianza ylos tests de hipótesis.

Intervalo de confianza: Rango de valores que, con unacierta confianza, contiene al parámetro poblacional que sepretende conocer. El intervalo de confianza se construye apartir de la información de la muestra y es una de lasherramientas utilizadas para extrapolar los resultados a lapoblación.

M Media: Valor numérico en torno al cual se sitúan los

valores de una característica de los individuos. Es unrepresentante del grupo de sujetos analizado.

Muestra: Grupo de individuos extraídos aleatoriamente dela población de estudio. La información proporcionada porestos sujetos se almacena en una base de datos paraanalizarla posteriormente. Los resultados obtenidos en esteanálisis son una aproximación a lo que realmente ocurre entoda la población. La inferencia estadística permiteextrapolar los resultados de la muestra a la población yconocer el error cometido en estas estimaciones.

N Nivel de confianza (1-α): Probabilidad de que el intervalo

de confianza obtenido a partir de los datos de la muestracontenga al parámetro de la población que se pretendeestimar. Aunque puede tomar cualquier valor entre 0 y 1, elmás usual es 0.95 (95%).

Nivel de significación (α): Error alfa.

P Población: Todos los individuos sobre los que se desea

realizar una investigación o estudio. Cuando la informaciónnecesaria para el estudio ha sido extraída de todos y cadauno de los individuos de la población se habla de censo depoblación. Si por el contrario no es posible acceder a todos

los sujetos por falta de recursos se procede a tomar unamuestra aleatoria de la población de estudio.

Potencia (1-β): Valor comprendido entre 0 y 1complementario al error beta. Mide el grado de acierto delinvestigador cuando acepta como verdadera la hipótesis nulade un test de hipótesis. Su valor se fija a priori, antes decomenzar la investigación, para conocer el número deindividuos necesario para llevar a cabo el estudio. Cuantomayor sea la potencia, mayor será el tamaño de la muestra y,por tanto, más precisos serán los resultados obtenidos.Habitualmente este error se fija en 0.80, aunque puedevariar dependiendo del tipo de investigación.

Probabilidad: Medida adimensional que cuantifica laocurrencia de los fenómenos producidos por azar. Sus valoresson números comprendidos entre 0 y 1. Cuando la probabilidades cero, el suceso no ocurrirá nunca. Si la probabilidad esuno, ocurrirá con total certeza. Los valores intermediosmiden el gradiente de certidumbre.

Prueba diagnóstica: Procedimiento destinado a detectar lapresencia o ausencia de una enfermedad en el individuo. Sucapacidad de discriminación está determinada por lasensibilidad y la especificidad, características propias decada prueba o test diagnóstico.

R Regresión: Técnicas estadísticas que permiten determinar

la ecuación matemática que relaciona un efecto (variabledependiente o respuesta) con una o varias causas (variablesindependientes o predictoras).

S Sensibilidad: Probabilidad de que una prueba diagnóstica

proporcione un resultado positivo cuando el sujeto tienerealmente la enfermedad. Lo ideal es que esta probabilidadsea 1 siempre que la prueba diagnóstica se aplique en elgrupo de población afectado por la enfermedad. Sin embargo,no siempre es así. Cualquier prueba puede fallar mostrandoun resultado negativo en un individuo enfermo. La

sensibilidad es, por tanto, la capacidad de la pruebadiagnóstica para detectar la presencia de la enfermedadestudiada.

T Tamaño de muestra: Número de sujetos necesario para llevar

a cabo una investigación, de manera que los resultadosobtenidos a partir de ellos se aproximen a los resultadosque se hubieran obtenido al estudiar a toda la población. Elerror cometido en esa extrapolación de resultados esconocido y prefijado antes de comenzar la investigación. Eltamaño de muestra será mayor cuanto más pequeño sea el errorque se desee cometer.

Test de hipótesis: Técnica estadística utilizada paradecidir si una afirmación establecida por el investigadorsobre la población de estudio es compatible con losresultados observados en una muestra. Cualquier test dehipótesis se compone de una hipótesis nula, formulada entérminos de igualdad o negación, y una hipótesisalternativa.

Test diagnóstico: Prueba diagnóstica

V Valor P: Valor comprendido entre 0 y 1 que mide el grado

de acuerdo entre la información que proporciona la muestra yla hipótesis nula del test de hipótesis. Cuanto más próximoa cero esté, menor será el acuerdo entre ambas. Así, lahipótesis nula será rechazada en favor de la alternativasiempre que el Valor P sea muy pequeño, inferior al nivel designificación preestablecido.

Valor predictivo negativo: Probabilidad de que unindividuo no padezca la enfermedad cuando la pruebadiagnóstica aplicada proporcione un resultado negativo. Estevalor depende tanto de la especificidad y de la proporciónde falsos negativos de la prueba como del número de personasenfermas registrado en la población a la que pertenece elindividuo. Por este motivo, el valor predictivo negativo

puede ser diferente dependiendo del país o región en que secalcule, aún utilizando la misma prueba diagnóstica.

Valor predictivo positivo: Probabilidad de que unindividuo padezca la enfermedad cuando la prueba diagnósticaaplicada proporcione un resultado positivo. Este valordepende tanto de la sensibilidad y de la proporción defalsos positivos de la prueba como del número de personasenfermas registrado en la población a la que pertenece elindividuo. Por este motivo, el valor predictivo positivopuede ser diferente dependiendo del país o región en que secalcule, aún utilizando la misma prueba diagnóstica.

Variable: Cualquier característica de los individuos quecomponen la muestra que toma un valor diferente para cadauno de ellos. La edad y el sexo son variables habituales enmuchas investigaciones.

Variable cualitativa: Característica que recoge unacualidad de los individuos de la muestra. Una variablecualitativa no puede medirse con un instrumento ni llevaasociada una unidad de medida. La gravedad de un accidentees una variable cualitativa ordinal, ya que registra unacualidad que pueden ordenarse de forma natural de menor amayor severidad. El sexo, en cambio, es una variablecualitativa nominal porque sus categorías, masculino yfemenino, no tienen un orden natural preestablecido.

Variable cuantitativa: Característica de los individuos dela muestra que puede medirse con un instrumento y llevaasociada una unidad de medida. El peso es una variablecuantitativa, ya que puede medirse con una báscula y suunidad de medida es el gramo. Además, esta variable escontinua, ya que el valor del peso asignado a cada individuopuede tener tantos decimales como admita la precisión de labáscula. Otras variables cuantitativas, como el número dehijos, se denominan discretas porque sus valores solo puedenser números enteros, sin decimales.

Varianza: Valor mayor o igual a cero que mide ladispersión de una característica de los individuos alrededorde la media del grupo. Los sujetos serán más parecidos uhomogéneos entre sí cuanto más próxima a cero esté lavarianza. Su unidad de medida es la unidad de medida de lavariable original elevada al cuadrado. Su valor coincide conel cuadrado de la desviación típica.