Estadística Descriptiva Formulario
Transcript of Estadística Descriptiva Formulario
FORMULARIO II.- ESTADISTICA DESCRIPTIVA Y MEDIDAS ESTADÍSTICAS
IIA.- DISTRIBUCIONES DE FRECUENCIAS: Muestra el número (frecuencia) de elementos correspondientes a cada una de varias clases que no se traslapan.
Datos cualitativos clase o categoría
frecuencia absoluta
fi
frecuencia relativa
fr fi
n
frecuencia porcentual
f % fr 100
Noticieros 1 0.0333 3.33%
Deportivos 10 0.3333 33.33%
Culturales 5 0.1667 16.67%
Comedias 8 0.2667 26.67%
Telenovelas 6 0.2000 20.00%
total n=30 1.00 100%
gráfica: barras pastel
Datos cuantitativos Construcción distribución de frecuencias 1.- Determinar el rango = dato mayor – dato menor
2.- determinar nclases log3.31# →redondear a entero
2.- Determinar
clases#
rangoW
→redondear según la precisión de los datos
4.- formar las clases usando como li de la primera clase un número menor o igual que el dato menor.
Clase Li a Ls
fi
fr
mi
fa ii fm 2xmf ii
30 – 39 7 0.14 34.5 7 241.5 2369.92
40 – 49 12 0.24 44.5 19 534 846.72
50 – 59 18 0.36 54.5 37 981 46.08
60 – 69 9 0.18 64.5 46 580.5 1211.04
70 – 79 3 0.06 74.5 49 223.5 1399.68
80 - 89 1 0.02 84.5 50 84.5 998.56
total n=50 1 2645 6872
Auxiliares para determinar media aritmética y varianza, datos agrupados
Gráficas: histograma: grafico de barras de ancho proporcional al tamaño de clase y altura proporcional a la frecuencia.
polígono de frecuencias: gráfico de líneas.
ojiva menor que: gráfico de líneas de la distribución de frecuencias acumuladas
Algunas formas características de distribución:
uniforme sesgada hacia la
derecha o positivamente asimétrica
normal o forma de campana
IIB.- MEDIDAS ESTADÍSTICAS: Medidas descriptivas para presentar de la tendencia central o la dispersión de una serie de datos. MEDIDAS DE TENDENCIA CENTRAL Igual que los promedios, la medida de tendencia central es un valor único que nos indica el punto medio o típico de los datos que cabe esperar.
MEDIDA DATOS SIMPLES ó NO AGRUPADOS
DATOS AGRUPADOS. (Distribuciones de frecuencias)
EXCEL NO TIENE FUNCIONES PARA OBTENER MEDIDAS ESTADÍSTICAS CON DATOS
AGRUPADOS MEDIA ARITMÉTICA Es el más comúnmente usado. También llamado promedio o simplemente media.
x = media muestral
media poblacional
Media de la muestra
x x
i
n
x i =valor de cada observación
n=# elementos en el conjunto
Media de la población
x
i
N
EXCEL: =PROMEDIO()
mi = punto medio de la clase
fi = frecuencia de clase
n = # elementos en el conjunto
x mi fin
MEDIANA Md Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente. se prefiere sobre la media cuando hay valores extremos (muy altos o muy bajos) en el conjunto de datos.
1. Ordene los datos de manera ascendente
2. Calcule un índice i
i n
2
3. a) si i no es entero: El valor entero inmediato mayor que i indica la posición de la mediana
b) Si i sí es entero, la mediana es el promedio de los valores de los datos ubicados en los lugares
i e 1i
EXCEL: =MEDIANA()
Aproxime su valor mediante el gráfico de ojiva
Noticieros; 1 Deportivos
; 10
Culturales; 5
Comedias; 8
Telenovelas; 6
0
5
10
15
20
25
30
35
40
45
50
29 39 49 59 69 79 89
MODA Mo Es el valor de los datos que se presenta con más frecuencia. Cuando hay dos o más modas en un conjunto, los datos son llamados bimodales o multi-modales. También puede ser que no haya moda.
Se determina por inspección (buscamos el valor que más se presenta en el conjunto)
EXCEL: =MODA()
Cuando los datos están agrupados, debemos suponer que la moda se halla en la clase que tenga más elementos, llamada Clase Modal.
MEDIDAS DE DISPERSION. Se usa el término dispersión para describir el grado en que una serie de valores varía respecto a su media. Los valores incluidos en un conjunto de datos usualmente varían en magnitud; algunos valores son pequeños y algunos son grandes. La variación de los valores es llamada Dispersión, y hay varios criterios para medirla: Una medida de dispersión es importante en dos modos:
1. Puede ser usada para mostrar el grado de variación de los valores en los datos 2. Puede ser usada para suplementar un promedio: si la dispersión es alta, el promedio no es significativo; si la dispersión es baja, el promedio se vuelve
altamente significativo.
RANGO Es La amplitud del intervalo en que están contenidos todos los datos observados.
ínimomo-valor mvalor máxiR clase)i. primerase)- (l.r.última claR=(l.r.s.
VARIANZA Es una medida de la dispersión que emplea todos los datos para su cálculo. Es el promedio de las desviaciones de los datos respecto a su media elevadas al cuadrado. Se mide en el cuadrado de las unidades originales. s2= variancia muestral.
2= variancia poblacional.
varianza muestral
s2 x i x
2
n 1
EXCEL: =VAR()
varianza poblacional
2 x i
2
N
EXCEL: =VARP()
varianza muestral
1
2
2
n
xmfis
i
varianza poblacional
N
mfi i
2
2
DESVIACIÓN ESTANDAR Dispersión promedio de los datos alrededor de la media aritmética, se mide con las mismas unidades que las de los datos originales. Es la raíz cuadrada positiva de la varianza.
desviación estándar muestral
s s2 x i x
2
n 1
n – 1 = grados de libertad. EXCEL: =DESVEST()
desviación estándar poblacional
2 x i
2
N
EXCEL: =DESVESTP()
desviación estándar muestral
1
2
2
n
xmfiss
i
desviación estándar poblacional
N
mfi i
2
2
MEDIDAS DE POSICIÓN Ó DE LOCALIZACIÓN.
Percentiles: limitan centésimas partes de los datos: P1 a P99.
Cuartiles: limitan cuartas partes de los datos: Q1, Q2, Q3 Nota: la mediana corresponde a Q2, a P50.
PERCENTILES. El p-ésimo percentil es un valor tal que por lo menos p porciento de las observaciones son menores o iguales que p y (100 – p) porciento de las observaciones son mayores o iguales que p.
Cálculo del p-ésimo percentil 1. Ordene los datos de manera ascendente
2. Calcule un índice i
i p
100
n
en donde p es el percentil de interés. 3. a) si i no es entero, se redondea. El valor entero
inmediato mayor que i indica la posición del p-ésimo percentil
b) Si i sí es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados
en los lugares i e 1i
EXCEL: =PERCENTIL(MATRIZ,K)
Aproxime su valor mediante el gráfico de ojiva
CUARTILES Valores que dividen los datos en cuatro partes: Q1= primer cuartil, Q2= segundo cuartil, Q3= tercer cuartil.
Localización
Q1 : i = 14 n
Localización
Q2 : i = 24 n
Localización
Q3 : i = 34 n
EXCEL: =CUARTIL(MATRIZ,CUARTIL)
Aproxime su valor mediante el gráfico de ojiva
COEFICIENTE DE VARIACIÓN CV Es una medida de dispersión relativa. Para comparar la dispersión de variables que tienen distintas desviaciones estándar y distintos promedios.
C.V .desviación estandar
media aritmética100
Indica lo grande que es la desviación estándar en comparación con la media.
C.V .desviación estandar
media aritmética100
APLICACIONES DE LA DESVIACIÓN ESTÁNDAR La desviación estándar nos permite determinar, con cierto grado de precisión, donde se sitúan los valores de una distribución en relación con la media. Cuando los valores de una serie de datos están concentrados cerca de su media, la desviación estándar es pequeña.
REGLA EMPÍRICA: Para datos con distribución en forma de campana, se puede aplicar la regla empírica para determinar el porcentaje de elementos que debe estar dentro de determinada cantidad de desviaciones estándar respecto al promedio.
Aproximadamente 68.27% de los elementos están a menos de una desviación estándar de la media.
Aproximadamente 95.45% de los elementos están a menos de dos desviaciones estándar de la media.
Casi todos los elementos (99.73%) están a menos de tres desviaciones estándar de la media. Podemos medir con mayor precisión la proporción de elementos que caen dentro de intervalos específicos si estos están distribuidos normalmente, es decir, si la
gráfica de la distribución es simétrica con forma de campana, MoMd
Distribución normal estándar
donde
z x i x
s;
se considera que cualquier elemento con valor z fuera del intervalo de
3 es un valor atípico.
III.- REGRESIÓN LINEAL Y CORRELACIÓN. REGRESIÓN LINEAL SIMPLE: Nos interesa saber si dos variables cuantitativas x e y están asociadas, qué tan fuertemente lo están y como se asocian.
Datos: un muestra de n pares ordenados yx,
error o residuoˆ
regresión, de línea la deecuación la mediante estimado e,dependient variablela devalor ˆ
edependient opredecir a variablela de observadovalor
nteindependie o predictora variablela de observado valor
yye
y
y
x
MÉTODO DE MÍNIMOS CUADRADOS PARA ESTIMAR LA LÍNEA DEL MEJOR AJUSTE Mediante excel:
Ecuación de la línea de regresión estimada: bxay ˆ
La línea de regresión siempre pasa por el par ordenado
x,y
Insertar el gráfico de dispersión de los datos,
Clic derecho en uno de los puntos de datos observados
Modelo lineal,
(pestaña opciones) línea de tendencia en el gráfico,
presentar r2 en el gráfico (r2 = coeficiente de
determinación)
a = intersección de la recta con el eje vertical xbya
=intercepción.eje(conocido_y,conocido_x)
b = pendiente o inclinación de la recta 22 xnx
yxnxyb
Interpretación de la pendiente: representa el cambio promedio del valor de y por
cada unidad que aumenta x
=pendiente(conocido_y,conocido_x)
COEFICIENTE DE CORRELACIÓN DE PEARSON : Es una herramienta estadística que nos sirve para describir el grado de asociación entre dos variables. Su valor varía desde -1 hasta 1, el signo es el de la pendiente, su valor numérico informa la fuerza de la relación entre las variables, hasta una correlación perfecta en r=-1 ó r=1.
rxy
xy n x y
x 2 n x
2
y 2
n y 2
=Pearson(matriz1,matriz2)
COEFICIENTE DE DETERMINACIÓN: 2r : corresponde al cuadrado del coeficiente
de correlación; multiplicado por 100, Interpretación: nos informa qué porcentaje del valor de Y, está explicado por la ecuación de regresión.
Excel: coeficiente.r2(conocido_y,conocido_x)
REGRESIÓN MÚLTIPLE: Estudia la relación entre una variable dependiente 𝑦, con dos o más variables independientes 𝑥. Se utiliza: p para denotar el número de variables independientes utilizadas en el análisis
𝑦: variable dependiente 𝑥1, 𝑥2, … , 𝑥𝑝: variables independientes
Ecuación de regresión múltiple estimada:
pp xbxbxbay ...ˆ 2211
Donde
pbbba ,,, 21 son los coeficientes de regresión
𝑥1, x2, … , xp: son las variables independientes
y es el valor estimado de la variable dependiente.
COEFICIENTE DE DETERMINACIÓN: 2r : multiplicado por 100, nos informa qué
porcentaje del valor de Y, está explicado por la ecuación de regresión estimada.
Menú principal: Datos Análisis de datos Regresión aceptar. Seleccionamos los datos como solicita el cuadro de diálogo: el rango de celdas que contiene los valores de Y, el rango de celdas que contiene los valores de X, seleccionamos la casilla correspondiente si se incluyeron rótulos, clic en el botón radial de rango de salida y en el campo de la derecha, seleccionamos una celda vacía de la hoja de cálculo y clic en aceptar. De la información que proporciona el programa, interesa: coeficiente de determinación R2 R2 ajustado Coeficientes de regresión: a, b1, b2,…
IV.- SERIE DE TIEMPO Y PRONÓSTICOS. Elementos:
t = Valores observados de la variable independiente (tiempo)
Y = Valor observado de la variable dependiente (la variable de interés)
Y = Valor estimado de la variable dependiente
n Número de datos de la serie de tiempo
T = tiempo codificado
TIPO DE CAMBIO O VARIACIÓN Mediante excel: 1. Tendencia secular: La tendencia secular representa la dirección de la serie a largo plazo, y es resultado de factores como cambios en la población, características demográficas de la misma, la tecnología
Ecuación de la línea de tendencia: bTaY ˆ
TbYay
TnT
yTnyTb
:ón intersecci
, :pendiente22
Insertar el gráfico de dispersión de los datos,
Clic derecho en uno de los puntos de datos observados
Modelo lineal,
(pestaña opciones) línea de tendencia en el gráfico,
presentar ecuación en el gráfico
pendiente
b: =pendiente(conocido_y,conocido_x)
intersección y:
a: =intercepción.eje(conocido_y,conocido_x)
2. Variación cíclica: es la componente de una serie de tiempo que tiende a oscilar arriba y abajo de la línea de tendencia secular en periodos mayores que un año, debido a que estos factores son relativamente impredecibles, no podemos determinar ningún patrón específico futuro de variación. Método de residuos
100ˆ
a tendencide porcentaje Y
Y
interpretación: informa a qué % del valor esperado corresponde el valor real.
100ˆ
ˆrelativo cíclico residuo
Y
yY
interpretación: informa el % en qué valor real está por arriba o por abajo del valor esperado.
Y Valor real de la serie temporal
Yˆ
Valor de tendencia estimado a partir del mismo punto de la serie de tiempo.
3. Componente temporal o variación estacional: Este tipo de variación se define como un movimiento repetitivo y predecible alrededor de la línea de tendencia que se da en un año o en menos. Por ejemplo, con datos trimestrales:
1. calculamos el promedio móvil de cuatro trimestres dividiendo cada uno de los totales de cuatro trimestres entre cuatro.
2. centramos el promedio móvil de cuatro trimestres. Los promedios móviles caen a la mitad de los trimestres. Es mejor tenerlos asociados a cada trimestre.
3. calculamos la razón del valor real con respecto al valor de promedio móvil para cada trimestre de la serie temporal que tenga una entrada de promedio temporal de cuatro trimestres, obteniendo el valor irregular estacional.
Móvil Promedio
Realestacionalirregular valor
4. Reunimos todos los valores irregulares estacionales, organizándolos por trimestre.
5. Calcular la media para cada trimestre. 6. Ajuste de la media. La base de un índice es 100. Las medias trimestrales deben
dar un total de 400 y su media debe ser 100. Esta media ajustada es el Índice estacional S
4. Variación irregular. En muchas situaciones, el valor de la variable puede ser completamente impredecible, cambiando de manera aleatoria.
Desestacionalizar la serie de tiempo: Al dividir los datos reales Y entre el índice estacional, obtenemos la serie de tiempo desestacionalizada, que nos permitirán calcular el componente de tendencia
Pronóstico: sustituimos el tiempo codificado T correspondiente al periodo para el
que queremos pronosticar, en la ecuación de tendencia bTaY ˆ
y el pronostico de tendencia.
Pronóstico ajustado= y *S
multiplicando el pronóstico obtenido con la ecuación de tendencia secular por el correspondiente índice estacional
V. PROBABILIDAD
Probabilidad de ocurrencia del evento A:
ocurrenciadecerteza
ocurrencianocerteza
posiblesresultados
favorablesresultadosAp
1
0
#
#
Al conjunto de todos los resultados de un experimento se llama espacio muestral S. Cada uno de los posibles resultados del experimento se llama punto muestral. Un subconjunto de uno o más resultados del espacio muestral se llama evento. TECNICAS DE CONTEO: Para determinar el número de formas en que ocurre un experimento o un evento, usando fórmulas o procedimientos sistemáticos. 1. Diagrama de árbol: Dispositivo gráfico útil para visualizar un experimento de varias etapas y enumerar los resultados posibles..
2. Técnica de conteo de etapas múltiples: knnn 21
3. Permutaciones: Una permutación es cualquier arreglo u ordenación de todos o una parte de n elementos
Permutaciones de r elementos tomados de n elementos elegibles:
nPr n!
n r !, nr
4. Combinaciones: Una combinación es un subconjunto de r objetos, tomado de un conjunto de n objetos elegibles. El orden de los elementos
carece de importancia. El número de combinaciones es:
nCr n!
r! n r !
Métodos más comunes para asignar probabilidades:
Probabilidad clásica Todos los resultados del experimento son igualmente probables
p E i NEiN
Número de resultados asociados con E i
Número de resultados posibles
Probabilidad empírica o de frecuencia relativa
Se analiza como ha ocurrido el experimento en el pasado para calcular probabilidades
p E i nEin
número de veces que ocurre el evento E i
Número de ensayos u observaciones
Probabilidad subjetiva o de juicio Es una evaluación personal de la probabilidad de que ocurra un evento
Reglas o requerimientos básicos para la asignación de probabilidades
1. 10 i
Ep 2.- 1iEp 3.- 2121 EpEpEEp
Probabilidad marginal o simple.: Es una probabilidad sencilla; quiere decir que solo un evento puede llevarse a cabo, al margen de otros eventos o clasificaciones.
p A # resultados favorables
# resultados posiblesf
n
Ley aditiva: Sean A y B dos eventos de S, la probabilidad de que ocurra A ó B (ó ambos):
BpApBAp , cuando A y B son mutuamente excluyentes.
BApBpApBAp , cuando A y B no son mutuamente excluyentes.
Ley multiplicativa: A y B se presenten al mismo tiempo o en sucesión. Sean A y B dos eventos de S,
p AB p A p B , si A y B son independientes.
p AB p A p B A , si A y B no son independientes.
Probabilidad Condicional: la probabilidad de que ocurrencia del evento B, si se sabe que ha ocurrido el evento A,
p B A p AB p A
;
Si A y B son independientes,
p B A p B , o también
p AB p A p B
Teorema de Bayes: En un experimento en dos etapas, si se sabe que en la segunda etapa se obtuvo el resultado B, ¿cuál es la probabilidad posterior de que provenga del resultado Ai de la primera etapa Método tabular:
Evento
iA
Probabilidad previa
iAp Probabilidad condicional
iABp
Probabilidad conjunta
BAp i Probabilidad posterior
Bp
BApBAp i
i
A1 A2 …
Total 1 iAp BpBAp i
VI. DISTRIBUCIONES DE PROBABILIDAD Distribución de probabilidad: describe como se espera que varíen los resultados de un experimento, si este se llevara a cabo: La distribución de probabilidad de una variable aleatoria describe cómo se distribuyen las probabilidades de los diferentes valores de la variable aleatoria. Variable aleatoria es aquella que asocia un valor numérico con cada resultado experimental posible. El valor numérico de la variable aleatoria depende del resultado del experimento. Se puede clasificar como discreta o continua, dependiendo de los valores numéricos que asume. Para variable aleatoria discrita,
Valor esperado,
E x x f x , donde )(xf es la probabilidad de ocurrencia del evento
x
varianza: xfxxVar22
DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
DISTRIBUCION BINOMIAL: Para describir situaciones en las que tenemos n ensayos, cada uno de los cuales tiene dos resultados posibles, éxito o
fracaso, y los resultados de los ensayos son independientes.
Probabilidad de x éxitos: Parámetros: n p
xnx
xn qpCxp éxitos
p= probabilidad de éxito en cada ensayo x= número de éxitos en los n ensayos
n-x = número de fracasos en los n ensayos =distr.binom(núm_exito,ensayos,prob_exito)
Media aritmética:
pn
Desviación estándar:
qpn
DISTRIBUCION DE POISSON: para describir situaciones donde nos interesa el número de veces que ocurre un fenómeno durante un intervalo dado o en una región específica se llaman experimentos de Poisson.
Probabilidad de x ocurrencias: Parámetro:
!x
exf
x
=poisson(x,media)
Media aritmética:
Desviación estándar
APROXIMACIÓN DE POISSON A LA BINOMIAL: es adecuada cuando n≥20 , p≤0.05, consiste en
pn
binomialpoisson
entonces calculamos la probabilidad de X éxitos:
!x
exf
x
=poisson(x,media) DISTRIBUCIONES CONTINUAS DE PROBABILIDAD DISTRIBUCION NORMAL: Muy importante distribución continua de probabilidad. Proporciona una base sobre la cual se fundamenta gran parte de la teoría de Estadística Inferencial.
Para definir una población distribuida normalmente, se necesitan solo 2 parámetros: la media y la desviación estándar . Distribución normal estándar:
El área total bajo la curva es 1.00, por lo cual las áreas bajo la curva y dentro de dos límites corresponden a la probabilidad de que la variable tenga valor dentro de ésos límites. La tabla muestra las áreas bajo la curva normal a la izquierda de un valor Z, donde (Z es la forma estandarizada o tipificada de la variable aleatoria x).
z x
zx
=distr.norm.estand(Z) para obtener el área bajo la curva, a la izquierda de Z =inv.norm.estand(probabilidad) ó =distr.norm.estand.inv(probabilidad) para obtener Z dada el área APROXIMACIÓN DE LA DISTRIBUCIÓN NORMAL A LA BINOMIAL. Las áreas bajo la curva de la distribución normal se utilizan para aproximar las probabilidades binomiales.
Es aceptable cuando n30 y p0.05, y tanto np≥5 como nq 5. Se realiza una corrección por continuidad, sumando o restando 0.5 al valor de la variable a estandarizar, según corresponda.
Media aritmética:
n p Desviación estándar: qpn
corrx
z