ESTADISTICA 3

MODELOS DE REGRESION

Medidas de asociacion entre variables

COVARIANZA: Mide la variabilidad que comparten dos variables

varianza: Mide la dispersion de los datos con respecto a otro.

varianza muestral

varianza poblacional

estimadores: son valores numerico estadisticos

parametros: son valores poblacionales

covarianza muestral

covarianza poblacional

la covarianza mide la asociacion lineal entre X & Y. no mide la intensidad de esa asociacion, lo unico que nos interesa es el signo para

identificar si es una asociancion lienal positiva o negativa

SEMANAS NUEMERO DE COMERCIALES VOLUMEN DE VENTAS (Xi-X)1 2 50 -12 5 57 23 1 41 -24 3 54 05 4 54 16 1 38 -27 5 63 28 3 48 09 4 59 110 2 46 -1

PROMEDIO 3 51 SUMA

Se empieza retomando la aplicación concerniente a la tienda de equipos de sonido que se presentó en la sección 2.4. El administrador de la tienda desea determinar la relación entre el número de comerciales televisados en un fin de semana y las ventas de la tienda durante la semana siguiente. En la tabla 3.7

se presentan datos muestrales de las ventas expresadas en cientos de dó- lares. En esta tabla se presentan 10 observaciones (n _x0004_ 10), una por

cada semana. El diagrama de dispersión en la figura 3.7 muestra una relación positiva, en que las mayores ventas (y) están asociadas con mayor número de comerciales (x). En efecto, el diagrama de dispersión sugiere que podría

emplearse una línea recta como aproximación a esta relación. En la argumentación siguiente se introduce la covarianza como una medida descriptiva

de la asociación entre dos variables.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50

10

20

30

40

50

60

70

VOLUMEN DE VENTAS

VOLUMEN DE VENTAS

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50

10

20

30

40

50

60

70

VOLUMEN DE VENTAS

VOLUMEN DE VENTAS

(Yi-Y) (Xi-X)(Yi-Y)Sxy=

-1 16 12

-10 203 0 NUEMERO DE COMERCIALES3 3 VOLUMEN DE VENTAS

-13 2612 24-3 08 8

-5 5SUMA 99

Se empieza retomando la aplicación concerniente a la tienda de equipos de sonido que se presentó en la sección 2.4. El administrador de la tienda desea determinar la relación entre el número de comerciales televisados en un fin de semana y las ventas de la tienda durante la semana siguiente. En la tabla 3.7

se presentan datos muestrales de las ventas expresadas en cientos de dó- lares. En esta tabla se presentan 10 observaciones (n _x0004_ 10), una por cada semana. El diagrama de dispersión en la figura 3.7 muestra una relación positiva, en que las mayores ventas (y) están asociadas con mayor número de comerciales (x). En efecto, el diagrama de dispersión sugiere que podría

emplearse una línea recta como aproximación a esta relación. En la argumentación siguiente se introduce la covarianza como una medida descriptiva

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50

10

20

30

40

50

60

70

VOLUMEN DE VENTAS

VOLUMEN DE VENTAS

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50

10

20

30

40

50

60

70

VOLUMEN DE VENTAS

VOLUMEN DE VENTAS

11 muestral9.9 poblacional

NUEMERO DE COMERCIALES VOLUMEN DE VENTAS2

9.9 56.6

De donde

sx = √ Desviacion estandar al cuadrado

poblacional

sigmaxy: sigmaxy/sigmax*sigmay

de donde: sigmaxy:

cuando da cercano a cero no existe asociacion lineal a r

variable x & ynegativo

el coeficiente de correlacion se utiliza como medida de ajuste para cualquier tipo de relacion

X Y (Xi-Xbarra)(Yi-Ybarra)(Xi-Xbarra)*(Yi-Ybarra)5 10 -5 -20 100

10 30 0 0 015 50 5 20 100

PROMEDIO 10 30 SUMA 200

100 asociacion positiva520

1

poblacionalX Y

X 16.6666667Y 66.6666667 266.666667

Sxy=Sx=Sy=rxy=

EJERCICIO

RATING 19 17 17 14 16SHARE 32 28 29 24 26

RATING SHARE (Xi-Xbarra)(Yi-Ybarra)(Xi-Xbarra)*(Yi-Ybarra)19 32 4 7 2817 28 2 3 617 29 2 4 814 24 -1 -1 116 26 1 1 112 20 -3 -5 1515 24 0 -1 012 20 -3 -5 1513 22 -2 -3 6

PROMEDIO 15 25 SUMA 80

102.44949

4.123106

Sxy=Sx=Sy=

0.990148

r^2= 0.990152

POBLACIONAL

RATING SHARERATING 5.33333333SHARE 8.88888889 15.1111111

CAPITULO DE LINEAL SIMPLE Y LIAL REGRESION CAPITULO 14 Y 15

rxy=

(Xi-Xbarra)*(Yi-Ybarra) 4 6 8 10 12 14 160

10

20

30

40

50

60

R² = 1

Y

12 15 12 1320 24 20 22

(Xi-Xbarra)*(Yi-Ybarra)

11 12 13 14 15 16 17 18 19 200

5

10

15

20

25

30

35

R² = 0.980392156862745

SHARE

CON BASE EN EL DIAGRAMA DE DISPERSION LOS DATOS SE ENCUENTRAN EL CUADRANTE 1

11 12 13 14 15 16 17 18 19 200

5

10

15

20

25

30

35

R² = 0.980392156862745

SHARE

11 12 13 14 15 16 17 18 19 200

5

10

15

20

25

30

35

R² = 0.980392156862745

SHARE

modelo de regresion lineal simple

NOTA: solo una variable independiente. B0 y b1 el metodo de minimos cuadrados se encarga de minimizar el error

Yi: Valor observado de la variable i-esima observacion.

Y^i: Vlaor stimado de la variable dependiente para la i-esima observacion.

ejercicio 14,1

RESTAURANTE123456789

10promedio 5.5

EXISTE ASOCCIACION LINEAL POSITIVAR POSITIVO ESTA CERCA DE 1 LA ASOCIACION ES FUERTE

b1=

El método de mínimos cuadrados es un método en el que se usan los datos muestrales para hallar la ecuación de regresión estimada. Para ilustrar el método de mínimos cuadrados, supóngase que se recolectan datos de una muestra de 10 restaurantes Armand’s Pizza Parlors ubicados todos cerca de campus universitarios. Para la observación i o el restaurante i de la muestra, xi es el tamaño de la población de

estudiantes (en miles) en el campus y yi son las ventas trimestrales (en miles de dólares). En la tabla 14.1 se presentan los valores de xi y yi en esta muestra de 10 restaurantes. Como se ve, el restaurante 1, para el que x1 _x0004_ 2 y y1 _x0004_ 58, está cerca de un campus de 2000 estudiantes y sus ventas trimestrales son de $58 000. El restaurante 2, para el que x2 _x0004_ 6 y y2 _x0004_ 105,

está cerca de un campus de 6000 estudiantes y sus ventas trimestrales son de $105 000. El valor mayor es el que corresponde a ventas del restaurante 10, el cual está cerca de un campus de 26 000 estudiantes y sus ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispersión de los datos de la tabla 14.1. La población de estudiantes se indica en el eje horizontal y las ventas

trimestrales en el eje vertical. Los diagramas de dispersión para el análisis de regresión se trazan colocando la variable independiente x en el eje horizontal y la variable dependiente y en el eje vertical. El diagrama de dispersión permite observar gráficamente los datos y obtener conclusiones acerca de la relación entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura 14.3? Las ventas trimestrales parecen ser mayores cerca de campus en los que la población de estudiantes es mayor. Además, en estos datos se observa que la relación entre el tamaño de la población de

estudiantes y las ventas trimestrales parece poder aproximarse mediante una línea recta; en efecto, se observa que hay

b0=

Resumen

Estadísticas de la regresiónCoeficiente de correlación múltipleCoeficiente de determinación R^2R^2 ajustadoError típicoObservaciones

ANÁLISIS DE VARIANZA

RegresiónResiduosTotal

IntercepciónX= POBLACION DE ESTUDIANTES(miles)

Análisis de los residuales

Observación1234567

conclusion: el modelo de regresion lineal estimado (que relaciona poblacion y ventas): estimado a Ŷ=60 + 5x

b1= Ʃ()

89

10

CAPITULO 14 Y 15 PARA LA PROXIMA CLASEIMPORTANTE REPASAR ESTADISTICA 2PRUEBAS DE SIGNIFICANCIA

X= POBLACION DE ESTUDIANTES(miles) 2 586 1058 888 11812 11716 13720 15720 16922 14926 20214 130

EXISTE ASOCCIACION LINEAL POSITIVAR POSITIVO ESTA CERCA DE 1 LA ASOCIACION ES FUERTE

5






TRIMESTRALES (ventas de miles $)

60

Estadísticas de la regresión0.9501229552044080.9027336300063570.89057533375715213.8293166859393

10

Grados de libertad Suma de cuadrados1 142008 15309 15730

Coeficientes Error típico60 9.226034809703425 0.580265238041082

Pronóstico Y=VENTAS TRIMESTRALES (ventas de miles $) Residuos70 -1290 15

100 -12100 18120 -3140 -3160 -3

conclusion: el modelo de regresion lineal estimado (que relaciona poblacion y ventas): estimado a Ŷ=60 + 5x

0 5 10 15 20 25 300

400

X= POBLACION DE ESTUDIANTES(miles) Curva de regresión ajustada Y=VENTAS TRIMESTRALES (ventas de

miles $)Pronóstico Y=VENTAS TRIMESTRALES (ventas de miles $)

X= POBLACION DE ESTUDIANTES(miles)

Y=VE

NTAS

TRIM

ESTRAL

ES

(ven

tas

de m

iles

$)

160 9170 -21190 12

(Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra(Xi-Xbarra)^2-12 -72 864 144-8 -25 200 64-6 -42 252 36-6 -12 72 36-2 -13 26 42 7 14 46 27 162 366 39 234 368 19 152 64

12 72 864 144SUMA 2840 568






0 5 10 15 20 25 300

50

100

150

200

250

f(x) = 5 x + 60R² = 0.902733630006357

Y=VENTAS TRIMESTRALES (ventas de miles $)

Y=VENTAS TRIMESTRALES (ventas de miles $)Linear (Y=VENTAS TRIMESTRALES (ventas de miles $))

Promedio de los cuadrados F Valor crítico de F14200 74.248366013 2.54886628529355E-05191.25

Estadístico t Probabilidad Inferior 95% Superior 95%6.5033355322804 0.0001874441 38.7247255772863 81.27527442278.6167491557473 2.548866E-05 3.66190596156203 6.33809403844

COMO HALLAR POR ANALISIS DE DATOS

conclusion: el modelo de regresion lineal estimado (que relaciona poblacion y ventas): estimado a Ŷ=60 + 5x0 5 10 15 20 25 30

0

50

100

150

200

250

f(x) = 5 x + 60R² = 0.902733630006357



0 5 10 15 20 25 300

400




Y=VE

NTAS

TRIM

ESTRAL

ES

(ven

tas

de m

iles

$)

Ŷ ventas estimadas ERROR(Residual)70 -1290 15

100 -12100 18120 -3140 -3160 -3160 9170 -21190 12130 0



está cerca de un campus de 6000 estudiantes y sus ventas trimestrales son de $105 000. El valor mayor es el que corresponde a ventas del restaurante 10, el cual está cerca de un campus de 26 000 estudiantes y sus ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispersión de los datos de la tabla 14.1. La población de estudiantes se indica en el eje horizontal y las ventas trimestrales en el eje vertical. Los diagramas de dispersión para el análisis de regresión se trazan colocando la variable independiente x en el eje horizontal y la variable dependiente y en el eje vertical. El diagrama de dispersión permite observar gráficamente los datos y obtener conclusiones acerca de la relación entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura 14.3? Las ventas trimestrales parecen ser mayores cerca de campus en los que la población de estudiantes es mayor. Además, en estos datos se observa que la relación entre el tamaño de la población de

0 5 10 15 20 25 300

50

100

150

200

250

f(x) = 5 x + 60R² = 0.902733630006357



Inferior 95,0% Superior 95,0%38.7247255772863 81.27527442271373.66190596156203 6.33809403843796

COMO HALLAR POR ANALISIS DE DATOS

0 5 10 15 20 25 300

50

100

150

200

250

f(x) = 5 x + 60R² = 0.902733630006357



0 5 10 15 20 25 300

400




Y=VE

NTAS

TRIM

ESTRAL

ES

(ven

tas

de m

iles

$)

Modelo de regresión múltiple

B0: ESTIMADOR DE B1: ESTIMADORESDE

El análisis de regresión múltiple estudia la relación de una variable dependiente con dos o más variables independientes. Para denotar el

número de variables independientes se suele usar p.

capítulo previo, son aplicables en el caso de la regresión múltiple. A la ecuación que describe cómo está relacionada la variable dependiente y con las variables independientes x1, x2, ..., xp se le conoce como modelo de regresión múltiple. Se supone que el modelo de regresión múltiple toma la

forma siguiente

Y: VALOR OBSERVADO

COEFICIENTE DE DETERMINACION: ES UNA MEDIDA DE BONDAD DE AJUSTE DEL MODELO A LOS DATOS

R^2: MIDE LA VARIABILIDAD DE LA RESPUESTA QUE ES EXPLICADA A PARTIR DE LAS VARIABLES INDEPENDIENTE O DEPENDIENTES

Ӯ:PROMEDIO

ecuación de regresión múltiple estimada.

COEFICIENTE DE DETERMINACION: ES UNA MEDIDA DE BONDAD DE AJUSTE DEL MODELO A LOS DATOS

R^2: MIDE LA VARIABILIDAD DE LA RESPUESTA QUE ES EXPLICADA A PARTIR DE LAS VARIABLES INDEPENDIENTE O DEPENDIENTES

ecuación de regresión múltiple estimada.

RECORRIDO123456

789

10promedio

Resumen

Estadísticas de la regresiónCoeficiente de correlación múltip 0.814905707198399Coeficiente de determinación R^2 0.664071311624523R^2 ajustado 0.622080225577588Error típico 1.0017918728567Observaciones 10

ANÁLISIS DE VARIANZAGrados de libertad

Regresión scr 1Residuos sce 8

40 50 60 70 80 90 100 1100

1

2

3

4

5

6

7

8

9

10

f(x) = 0.0678260869565218 x + 1.27391304347826R² = 0.664071311624523

y: tiempo de recorrido (horas)

Total suma de cuadrados total 9

CoeficientesIntercepción 1.27391304347826X1: MILLAS RECCORIDAS 0.0678260869565218


Observación Pronóstico y: tiempo de recorrido (horas)1 8.056521739130442 4.665217391304353 8.056521739130444 8.056521739130445 4.665217391304356 6.77 6.360869565217398 5.682608695652179 7.37826086956522

10 7.37826086956522

RECORRIDO123456789

10

R^2 ajustadoResumen p=

Estadísticas de la regresión

Coeficiente de correlación múltip 0.950678166095689Coeficiente de determinación R^2 0.903788975491063R^2 ajustado 0.876300111345653Error típico 0.573142152120794Observaciones 10

ANÁLISIS DE VARIANZAGrados de libertad

Suma de cuadrados debido a Regres 2suma de cuadrados debido a Residu 7Total 9

CoeficientesIntercepción -0.868701466781709X1: MILLAS RECCORIDAS 0.0611345987920621X2: CANTIDAD DE ENTREGAS 0.923425366695427


Observación Pronóstico y: tiempo de recorrido (horas)1 8.938459879206212 4.958304572907683 8.938459879206214 7.091609145815365 4.034879206212256 5.868917169974127 6.486669542709238 6.798748921484049 7.40368852459016

10 6.48026315789474

(Xi-Xbarra)(Yi-Ybarra)100 9.3 20 2.650 4.8 -30 -1.9100 8.9 20 2.2100 6.5 20 -0.250 4.2 -30 -2.580 6.2 0 -0.5

X1: MILLAS RECCORIDAS


75 7.4 -5 0.765 6 -15 -0.790 7.6 10 0.990 6.1 10 -0.680 6.7 SUMA

b1= 0.068 EXISTE ASOCIACION LINEAL NEGATIVAb0= 1.27391304347826

ESTE TAMBIEN SE PUEDE CALCULAR CON LA COVARIANZA

Suma de cuadrados Promedio de los cuadrados F Valor crítico de F15.8713043478261 15.8713043478261 15.8145781 0.004080188.02869565217392 1.00358695652174

40 50 60 70 80 90 100 1100

1

2

3

4

5

6

7

8

9

10

f(x) = 0.0678260869565218 x + 1.27391304347826R² = 0.664071311624523


40 50 60 70 80 90 100 1100

10

X1: MILLAS RECCORIDAS Curva de regresión ajustada y: tiempo de recorrido

(horas)Pronóstico y: tiempo de recorrido (horas)

X1: MILLAS RECCORIDASy: t

iemp

o de

re

corr

ido

(hor

as)

23.9

Error típico Estadístico t Probabilidad Inferior 95%1.40074452477691 0.909454237332212 0.38968736 -1.9562096

0.0170556374846061 3.97675472510127 0.00408018 0.02849572

Residuos SE PUEDE CONCLUIR QUE LA ECUACION ESTA RELACIONADA EN B1 Y B01.24347826086957

0.1347826086956530.843478260869565-1.55652173913044

-0.465217391304347-0.5

1.039130434782610.3173913043478260.221739130434782-1.27826086956522

100 4 9.350 3 4.8100 4 8.9100 2 6.550 2 4.280 2 6.275 3 7.465 4 690 3 7.690 2 6.1

0.876300111346 teorica mente el modelo esta explicando el numero real de tempo vs las millas 2 numero de variables

X1: MILLAS RECCORIDAS

X2: CANTIDAD DE ENTREGAS


el 90% del tiempo es explicado por la distancia y el numero de entregas

Suma de cuadrados Promedio de los cuadrados F Valor crítico de F21.6005565142364 10.8002782571182 32.8783674 0.000276242.29944348576359 0.328491926537656

23.9

Error típico Estadístico t Probabilidad Inferior 95%0.951547724665958 -0.912935257227027 0.3916343 -3.1187543

0.0098884945761813 6.18239695851364 0.00045296 0.037752020.221113460674794 4.17625125072583 0.00415662 0.40057512

Residuos0.361540120793787

-0.158304572907679-0.038459879206213-0.5916091458153590.1651207937877480.3310828300258850.913330457290769

-0.7987489214840380.196311475409836

-0.380263157894738

(Xi-Xbarra)*(Yi-Ybarra(Xi-Xbarra)^2Ŷ ventas estimadasERROR(Residual)52 400 8.05652173913044 1.243478260869657 900 4.66521739130435 0.134782608695744 400 8.05652173913044 0.8434782608696-4 400 8.05652173913044 -1.5565217391375 900 4.66521739130435 -0.4652173913040 0 6.7 -0.5

40 50 60 70 80 90 100 1100

10

X1: MILLAS RECCORIDAS Curva de regresión ajustaday: tiempo de recorrido



iemp

o de

reco

rrid

o (hor

as)

-3.5 25 6.36086956521739 1.039130434782610.5 225 5.68260869565217 0.3173913043478

9 100 7.37826086956522 0.2217391304348-6.00000000000001 100 7.37826086956522 -1.278260869565

234 3450 67 8.881784197E-16

EXISTE ASOCIACION LINEAL NEGATIVA

Valor crítico de F

40 50 60 70 80 90 100 1100

1

2

3

4

5

6

7

8

9

10

f(x) = 0.0678260869565218 x + 1.27391304347826R² = 0.664071311624523


40 50 60 70 80 90 100 1100

10




iemp

o de

re

corr

ido

(hor

as)

Superior 95% Inferior 95,0% Superior 95,0%4.50403570997842 -1.956209623 4.50403570997842

0.107156457524567 0.0284957164 0.107156457524567

SE PUEDE CONCLUIR QUE LA ECUACION ESTA RELACIONADA EN B1 Y B0

teorica mente el modelo esta explicando el numero real de tempo vs las millas

el 90% del tiempo es explicado por la distancia y el numero de entregas

Valor crítico de Fcon valor critico de f determinamos si aceptamos o rechazamos la hipotesis nula

Superior 95% Inferior 95,0% Superior 95,0%1.38135135951135 -3.118754293 1.38135135951135

0.0845171728786442 0.0377520247 0.0845171728786441.44627561816065 0.4005751152 1.44627561816065

40 50 60 70 80 90 100 1100

10

X1: MILLAS RECCORIDAS Curva de regresión ajustaday: tiempo de recorrido



iemp

o de

reco

rrid

o (hor

as)

1.5 2 2.5 3 3.5 4 4.5010

X2: CANTIDAD DE ENTREGAS Curva de regresión ajustaday: tiempo de

recorrido (horas)Pronóstico y: tiempo de recorrido (horas)

X2: CANTIDAD DE ENTREGASy: t

iemp

o de

reco

rrido

(hor

as)

40 50 60 70 80 90 100 1100

10




iemp

o de

re

corr

ido

(hor

as)

con valor critico de f determinamos si aceptamos o rechazamos la hipotesis nula

R^2: F(R^2, n, p)

el R^2 ajustado quita el numero de variables independientes y el tamaño de la muestra

el R^2 mide la bondad de ajsute para con los datos el modelo de ajuste para los datos

5 2 1020 3 1140

1145 50 9.67647E+87

permiten validar el modelo muestral para toda la poblacion

la prueba F valida el modelo en general

la prueba T valida cada parametro de modelo uno a uno

valor esperado: se da por que se toma una muestra aleatoria

el R^2 mide la bondad de ajsute para con los datos el modelo de ajuste para los datos

0.0127

9.54657802

ESTADISTICA 3

Documents

Transcript of ESTADISTICA 3