Estadística Descriptiva Formulario

FORMULARIO II.- ESTADISTICA DESCRIPTIVA Y MEDIDAS ESTADÍSTICAS

IIA.- DISTRIBUCIONES DE FRECUENCIAS: Muestra el número (frecuencia) de elementos correspondientes a cada una de varias clases que no se traslapan.

Datos cualitativos clase o categoría

frecuencia absoluta

fi

frecuencia relativa

fr fi

n

frecuencia porcentual

f % fr 100

Noticieros 1 0.0333 3.33%

Deportivos 10 0.3333 33.33%

Culturales 5 0.1667 16.67%

Comedias 8 0.2667 26.67%

Telenovelas 6 0.2000 20.00%

total n=30 1.00 100%

gráfica: barras pastel

Datos cuantitativos Construcción distribución de frecuencias 1.- Determinar el rango = dato mayor – dato menor

2.- determinar nclases log3.31# →redondear a entero

2.- Determinar

clases#

rangoW

→redondear según la precisión de los datos

4.- formar las clases usando como li de la primera clase un número menor o igual que el dato menor.

Clase Li a Ls

fi

fr

mi

fa ii fm 2xmf ii

30 – 39 7 0.14 34.5 7 241.5 2369.92

40 – 49 12 0.24 44.5 19 534 846.72

50 – 59 18 0.36 54.5 37 981 46.08

60 – 69 9 0.18 64.5 46 580.5 1211.04

70 – 79 3 0.06 74.5 49 223.5 1399.68

80 - 89 1 0.02 84.5 50 84.5 998.56

total n=50 1 2645 6872

Auxiliares para determinar media aritmética y varianza, datos agrupados

Gráficas: histograma: grafico de barras de ancho proporcional al tamaño de clase y altura proporcional a la frecuencia.

polígono de frecuencias: gráfico de líneas.

ojiva menor que: gráfico de líneas de la distribución de frecuencias acumuladas

Algunas formas características de distribución:

uniforme sesgada hacia la

derecha o positivamente asimétrica

normal o forma de campana

IIB.- MEDIDAS ESTADÍSTICAS: Medidas descriptivas para presentar de la tendencia central o la dispersión de una serie de datos. MEDIDAS DE TENDENCIA CENTRAL Igual que los promedios, la medida de tendencia central es un valor único que nos indica el punto medio o típico de los datos que cabe esperar.

MEDIDA DATOS SIMPLES ó NO AGRUPADOS

DATOS AGRUPADOS. (Distribuciones de frecuencias)

EXCEL NO TIENE FUNCIONES PARA OBTENER MEDIDAS ESTADÍSTICAS CON DATOS

AGRUPADOS MEDIA ARITMÉTICA Es el más comúnmente usado. También llamado promedio o simplemente media.

x = media muestral

media poblacional

Media de la muestra

x x

i

n

x i =valor de cada observación

n=# elementos en el conjunto

Media de la población

x

i

N

EXCEL: =PROMEDIO()

mi = punto medio de la clase

fi = frecuencia de clase

n = # elementos en el conjunto

x mi fin

MEDIANA Md Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente. se prefiere sobre la media cuando hay valores extremos (muy altos o muy bajos) en el conjunto de datos.

1. Ordene los datos de manera ascendente

2. Calcule un índice i

i n

2

3. a) si i no es entero: El valor entero inmediato mayor que i indica la posición de la mediana

b) Si i sí es entero, la mediana es el promedio de los valores de los datos ubicados en los lugares

i e 1i

EXCEL: =MEDIANA()

Aproxime su valor mediante el gráfico de ojiva

Noticieros; 1 Deportivos

; 10

Culturales; 5

Comedias; 8

Telenovelas; 6

0

5

10

15

20

25

30

35

40

45

50

29 39 49 59 69 79 89

MODA Mo Es el valor de los datos que se presenta con más frecuencia. Cuando hay dos o más modas en un conjunto, los datos son llamados bimodales o multi-modales. También puede ser que no haya moda.

Se determina por inspección (buscamos el valor que más se presenta en el conjunto)

EXCEL: =MODA()

Cuando los datos están agrupados, debemos suponer que la moda se halla en la clase que tenga más elementos, llamada Clase Modal.

MEDIDAS DE DISPERSION. Se usa el término dispersión para describir el grado en que una serie de valores varía respecto a su media. Los valores incluidos en un conjunto de datos usualmente varían en magnitud; algunos valores son pequeños y algunos son grandes. La variación de los valores es llamada Dispersión, y hay varios criterios para medirla: Una medida de dispersión es importante en dos modos:

1. Puede ser usada para mostrar el grado de variación de los valores en los datos 2. Puede ser usada para suplementar un promedio: si la dispersión es alta, el promedio no es significativo; si la dispersión es baja, el promedio se vuelve

altamente significativo.

RANGO Es La amplitud del intervalo en que están contenidos todos los datos observados.

ínimomo-valor mvalor máxiR clase)i. primerase)- (l.r.última claR=(l.r.s.

VARIANZA Es una medida de la dispersión que emplea todos los datos para su cálculo. Es el promedio de las desviaciones de los datos respecto a su media elevadas al cuadrado. Se mide en el cuadrado de las unidades originales. s2= variancia muestral.

2= variancia poblacional.

varianza muestral

s2 x i x

2

n 1

EXCEL: =VAR()

varianza poblacional

2 x i

2

N

EXCEL: =VARP()

varianza muestral

1

2

2

n

xmfis

i

varianza poblacional

N

mfi i

2

2

DESVIACIÓN ESTANDAR Dispersión promedio de los datos alrededor de la media aritmética, se mide con las mismas unidades que las de los datos originales. Es la raíz cuadrada positiva de la varianza.

desviación estándar muestral

s s2 x i x

2

n 1

n – 1 = grados de libertad. EXCEL: =DESVEST()

desviación estándar poblacional

2 x i

2

N

EXCEL: =DESVESTP()

desviación estándar muestral

1

2

2

n

xmfiss

i

desviación estándar poblacional

N

mfi i

2

2

MEDIDAS DE POSICIÓN Ó DE LOCALIZACIÓN.

Percentiles: limitan centésimas partes de los datos: P1 a P99.

Cuartiles: limitan cuartas partes de los datos: Q1, Q2, Q3 Nota: la mediana corresponde a Q2, a P50.

PERCENTILES. El p-ésimo percentil es un valor tal que por lo menos p porciento de las observaciones son menores o iguales que p y (100 – p) porciento de las observaciones son mayores o iguales que p.

Cálculo del p-ésimo percentil 1. Ordene los datos de manera ascendente

2. Calcule un índice i

i p

100

n

en donde p es el percentil de interés. 3. a) si i no es entero, se redondea. El valor entero

inmediato mayor que i indica la posición del p-ésimo percentil

b) Si i sí es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados

en los lugares i e 1i

EXCEL: =PERCENTIL(MATRIZ,K)


CUARTILES Valores que dividen los datos en cuatro partes: Q1= primer cuartil, Q2= segundo cuartil, Q3= tercer cuartil.

Localización

Q1 : i = 14 n

Localización

Q2 : i = 24 n

Localización

Q3 : i = 34 n

EXCEL: =CUARTIL(MATRIZ,CUARTIL)


COEFICIENTE DE VARIACIÓN CV Es una medida de dispersión relativa. Para comparar la dispersión de variables que tienen distintas desviaciones estándar y distintos promedios.

C.V .desviación estandar

media aritmética100

Indica lo grande que es la desviación estándar en comparación con la media.

C.V .desviación estandar

media aritmética100

APLICACIONES DE LA DESVIACIÓN ESTÁNDAR La desviación estándar nos permite determinar, con cierto grado de precisión, donde se sitúan los valores de una distribución en relación con la media. Cuando los valores de una serie de datos están concentrados cerca de su media, la desviación estándar es pequeña.

REGLA EMPÍRICA: Para datos con distribución en forma de campana, se puede aplicar la regla empírica para determinar el porcentaje de elementos que debe estar dentro de determinada cantidad de desviaciones estándar respecto al promedio.

Aproximadamente 68.27% de los elementos están a menos de una desviación estándar de la media.

Aproximadamente 95.45% de los elementos están a menos de dos desviaciones estándar de la media.

Casi todos los elementos (99.73%) están a menos de tres desviaciones estándar de la media. Podemos medir con mayor precisión la proporción de elementos que caen dentro de intervalos específicos si estos están distribuidos normalmente, es decir, si la

gráfica de la distribución es simétrica con forma de campana, MoMd

Distribución normal estándar

donde

z x i x

s;

se considera que cualquier elemento con valor z fuera del intervalo de

3 es un valor atípico.

III.- REGRESIÓN LINEAL Y CORRELACIÓN. REGRESIÓN LINEAL SIMPLE: Nos interesa saber si dos variables cuantitativas x e y están asociadas, qué tan fuertemente lo están y como se asocian.

Datos: un muestra de n pares ordenados yx,

error o residuoˆ

regresión, de línea la deecuación la mediante estimado e,dependient variablela devalor ˆ

edependient opredecir a variablela de observadovalor

nteindependie o predictora variablela de observado valor

yye

y

y

x

MÉTODO DE MÍNIMOS CUADRADOS PARA ESTIMAR LA LÍNEA DEL MEJOR AJUSTE Mediante excel:

Ecuación de la línea de regresión estimada: bxay ˆ

La línea de regresión siempre pasa por el par ordenado

x,y

Insertar el gráfico de dispersión de los datos,

Clic derecho en uno de los puntos de datos observados

Modelo lineal,

(pestaña opciones) línea de tendencia en el gráfico,

presentar r2 en el gráfico (r2 = coeficiente de

determinación)

a = intersección de la recta con el eje vertical xbya

=intercepción.eje(conocido_y,conocido_x)

b = pendiente o inclinación de la recta 22 xnx

yxnxyb

Interpretación de la pendiente: representa el cambio promedio del valor de y por

cada unidad que aumenta x

=pendiente(conocido_y,conocido_x)

COEFICIENTE DE CORRELACIÓN DE PEARSON : Es una herramienta estadística que nos sirve para describir el grado de asociación entre dos variables. Su valor varía desde -1 hasta 1, el signo es el de la pendiente, su valor numérico informa la fuerza de la relación entre las variables, hasta una correlación perfecta en r=-1 ó r=1.

rxy

xy n x y

x 2 n x

2

y 2

n y 2

=Pearson(matriz1,matriz2)

COEFICIENTE DE DETERMINACIÓN: 2r : corresponde al cuadrado del coeficiente

de correlación; multiplicado por 100, Interpretación: nos informa qué porcentaje del valor de Y, está explicado por la ecuación de regresión.

Excel: coeficiente.r2(conocido_y,conocido_x)

REGRESIÓN MÚLTIPLE: Estudia la relación entre una variable dependiente 𝑦, con dos o más variables independientes 𝑥. Se utiliza: p para denotar el número de variables independientes utilizadas en el análisis

𝑦: variable dependiente 𝑥1, 𝑥2, … , 𝑥𝑝: variables independientes

Ecuación de regresión múltiple estimada:

pp xbxbxbay ...ˆ 2211

Donde

pbbba ,,, 21 son los coeficientes de regresión

𝑥1, x2, … , xp: son las variables independientes

y es el valor estimado de la variable dependiente.

COEFICIENTE DE DETERMINACIÓN: 2r : multiplicado por 100, nos informa qué

porcentaje del valor de Y, está explicado por la ecuación de regresión estimada.

Menú principal: Datos Análisis de datos Regresión aceptar. Seleccionamos los datos como solicita el cuadro de diálogo: el rango de celdas que contiene los valores de Y, el rango de celdas que contiene los valores de X, seleccionamos la casilla correspondiente si se incluyeron rótulos, clic en el botón radial de rango de salida y en el campo de la derecha, seleccionamos una celda vacía de la hoja de cálculo y clic en aceptar. De la información que proporciona el programa, interesa: coeficiente de determinación R2 R2 ajustado Coeficientes de regresión: a, b1, b2,…

IV.- SERIE DE TIEMPO Y PRONÓSTICOS. Elementos:

t = Valores observados de la variable independiente (tiempo)

Y = Valor observado de la variable dependiente (la variable de interés)

Y = Valor estimado de la variable dependiente

n Número de datos de la serie de tiempo

T = tiempo codificado

TIPO DE CAMBIO O VARIACIÓN Mediante excel: 1. Tendencia secular: La tendencia secular representa la dirección de la serie a largo plazo, y es resultado de factores como cambios en la población, características demográficas de la misma, la tecnología

Ecuación de la línea de tendencia: bTaY ˆ

TbYay

TnT

yTnyTb

:ón intersecci

, :pendiente22

Insertar el gráfico de dispersión de los datos,

Clic derecho en uno de los puntos de datos observados

Modelo lineal,

(pestaña opciones) línea de tendencia en el gráfico,

presentar ecuación en el gráfico

pendiente

b: =pendiente(conocido_y,conocido_x)

intersección y:

a: =intercepción.eje(conocido_y,conocido_x)

2. Variación cíclica: es la componente de una serie de tiempo que tiende a oscilar arriba y abajo de la línea de tendencia secular en periodos mayores que un año, debido a que estos factores son relativamente impredecibles, no podemos determinar ningún patrón específico futuro de variación. Método de residuos

100ˆ

a tendencide porcentaje Y

Y

interpretación: informa a qué % del valor esperado corresponde el valor real.

100ˆ

ˆrelativo cíclico residuo

Y

yY

interpretación: informa el % en qué valor real está por arriba o por abajo del valor esperado.

Y Valor real de la serie temporal

Yˆ

Valor de tendencia estimado a partir del mismo punto de la serie de tiempo.

3. Componente temporal o variación estacional: Este tipo de variación se define como un movimiento repetitivo y predecible alrededor de la línea de tendencia que se da en un año o en menos. Por ejemplo, con datos trimestrales:

1. calculamos el promedio móvil de cuatro trimestres dividiendo cada uno de los totales de cuatro trimestres entre cuatro.

2. centramos el promedio móvil de cuatro trimestres. Los promedios móviles caen a la mitad de los trimestres. Es mejor tenerlos asociados a cada trimestre.

3. calculamos la razón del valor real con respecto al valor de promedio móvil para cada trimestre de la serie temporal que tenga una entrada de promedio temporal de cuatro trimestres, obteniendo el valor irregular estacional.

Móvil Promedio

Realestacionalirregular valor

4. Reunimos todos los valores irregulares estacionales, organizándolos por trimestre.

5. Calcular la media para cada trimestre. 6. Ajuste de la media. La base de un índice es 100. Las medias trimestrales deben

dar un total de 400 y su media debe ser 100. Esta media ajustada es el Índice estacional S

4. Variación irregular. En muchas situaciones, el valor de la variable puede ser completamente impredecible, cambiando de manera aleatoria.

Desestacionalizar la serie de tiempo: Al dividir los datos reales Y entre el índice estacional, obtenemos la serie de tiempo desestacionalizada, que nos permitirán calcular el componente de tendencia

Pronóstico: sustituimos el tiempo codificado T correspondiente al periodo para el

que queremos pronosticar, en la ecuación de tendencia bTaY ˆ

y el pronostico de tendencia.

Pronóstico ajustado= y *S

multiplicando el pronóstico obtenido con la ecuación de tendencia secular por el correspondiente índice estacional

V. PROBABILIDAD

Probabilidad de ocurrencia del evento A:

ocurrenciadecerteza

ocurrencianocerteza

posiblesresultados

favorablesresultadosAp

1

0

#

#

Al conjunto de todos los resultados de un experimento se llama espacio muestral S. Cada uno de los posibles resultados del experimento se llama punto muestral. Un subconjunto de uno o más resultados del espacio muestral se llama evento. TECNICAS DE CONTEO: Para determinar el número de formas en que ocurre un experimento o un evento, usando fórmulas o procedimientos sistemáticos. 1. Diagrama de árbol: Dispositivo gráfico útil para visualizar un experimento de varias etapas y enumerar los resultados posibles..

2. Técnica de conteo de etapas múltiples: knnn 21

3. Permutaciones: Una permutación es cualquier arreglo u ordenación de todos o una parte de n elementos

Permutaciones de r elementos tomados de n elementos elegibles:

nPr n!

n r !, nr

4. Combinaciones: Una combinación es un subconjunto de r objetos, tomado de un conjunto de n objetos elegibles. El orden de los elementos

carece de importancia. El número de combinaciones es:

nCr n!

r! n r !

Métodos más comunes para asignar probabilidades:

Probabilidad clásica Todos los resultados del experimento son igualmente probables

p E i NEiN

Número de resultados asociados con E i

Número de resultados posibles

Probabilidad empírica o de frecuencia relativa

Se analiza como ha ocurrido el experimento en el pasado para calcular probabilidades

p E i nEin

número de veces que ocurre el evento E i

Número de ensayos u observaciones

Probabilidad subjetiva o de juicio Es una evaluación personal de la probabilidad de que ocurra un evento

Reglas o requerimientos básicos para la asignación de probabilidades

1. 10 i

Ep 2.- 1iEp 3.- 2121 EpEpEEp

Probabilidad marginal o simple.: Es una probabilidad sencilla; quiere decir que solo un evento puede llevarse a cabo, al margen de otros eventos o clasificaciones.

p A # resultados favorables

# resultados posiblesf

n

Ley aditiva: Sean A y B dos eventos de S, la probabilidad de que ocurra A ó B (ó ambos):

BpApBAp , cuando A y B son mutuamente excluyentes.

BApBpApBAp , cuando A y B no son mutuamente excluyentes.

Ley multiplicativa: A y B se presenten al mismo tiempo o en sucesión. Sean A y B dos eventos de S,

p AB p A p B , si A y B son independientes.

p AB p A p B A , si A y B no son independientes.

Probabilidad Condicional: la probabilidad de que ocurrencia del evento B, si se sabe que ha ocurrido el evento A,

p B A p AB p A

;

Si A y B son independientes,

p B A p B , o también

p AB p A p B

Teorema de Bayes: En un experimento en dos etapas, si se sabe que en la segunda etapa se obtuvo el resultado B, ¿cuál es la probabilidad posterior de que provenga del resultado Ai de la primera etapa Método tabular:

Evento

iA

Probabilidad previa

iAp Probabilidad condicional

iABp

Probabilidad conjunta

BAp i Probabilidad posterior

Bp

BApBAp i

i

A1 A2 …

Total 1 iAp BpBAp i

VI. DISTRIBUCIONES DE PROBABILIDAD Distribución de probabilidad: describe como se espera que varíen los resultados de un experimento, si este se llevara a cabo: La distribución de probabilidad de una variable aleatoria describe cómo se distribuyen las probabilidades de los diferentes valores de la variable aleatoria. Variable aleatoria es aquella que asocia un valor numérico con cada resultado experimental posible. El valor numérico de la variable aleatoria depende del resultado del experimento. Se puede clasificar como discreta o continua, dependiendo de los valores numéricos que asume. Para variable aleatoria discrita,

Valor esperado,

E x x f x , donde )(xf es la probabilidad de ocurrencia del evento

x

varianza: xfxxVar22

DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

DISTRIBUCION BINOMIAL: Para describir situaciones en las que tenemos n ensayos, cada uno de los cuales tiene dos resultados posibles, éxito o

fracaso, y los resultados de los ensayos son independientes.

Probabilidad de x éxitos: Parámetros: n p

xnx

xn qpCxp éxitos

p= probabilidad de éxito en cada ensayo x= número de éxitos en los n ensayos

n-x = número de fracasos en los n ensayos =distr.binom(núm_exito,ensayos,prob_exito)

Media aritmética:

pn

Desviación estándar:

qpn

DISTRIBUCION DE POISSON: para describir situaciones donde nos interesa el número de veces que ocurre un fenómeno durante un intervalo dado o en una región específica se llaman experimentos de Poisson.

Probabilidad de x ocurrencias: Parámetro:

!x

exf

x

=poisson(x,media)

Media aritmética:

Desviación estándar

APROXIMACIÓN DE POISSON A LA BINOMIAL: es adecuada cuando n≥20 , p≤0.05, consiste en

pn

binomialpoisson

entonces calculamos la probabilidad de X éxitos:

!x

exf

x

=poisson(x,media) DISTRIBUCIONES CONTINUAS DE PROBABILIDAD DISTRIBUCION NORMAL: Muy importante distribución continua de probabilidad. Proporciona una base sobre la cual se fundamenta gran parte de la teoría de Estadística Inferencial.

Para definir una población distribuida normalmente, se necesitan solo 2 parámetros: la media y la desviación estándar . Distribución normal estándar:

El área total bajo la curva es 1.00, por lo cual las áreas bajo la curva y dentro de dos límites corresponden a la probabilidad de que la variable tenga valor dentro de ésos límites. La tabla muestra las áreas bajo la curva normal a la izquierda de un valor Z, donde (Z es la forma estandarizada o tipificada de la variable aleatoria x).

z x

zx

=distr.norm.estand(Z) para obtener el área bajo la curva, a la izquierda de Z =inv.norm.estand(probabilidad) ó =distr.norm.estand.inv(probabilidad) para obtener Z dada el área APROXIMACIÓN DE LA DISTRIBUCIÓN NORMAL A LA BINOMIAL. Las áreas bajo la curva de la distribución normal se utilizan para aproximar las probabilidades binomiales.

Es aceptable cuando n30 y p0.05, y tanto np≥5 como nq 5. Se realiza una corrección por continuidad, sumando o restando 0.5 al valor de la variable a estandarizar, según corresponda.

Media aritmética:

n p Desviación estándar: qpn

corrx

z

Estadística Descriptiva Formulario

Documents

Transcript of Estadística Descriptiva Formulario