MODELO DE REGRESION LINEAL SIMPLE

15
MODELO DE REGRESION LINEAL SIMPLE Luis Felipe Arroyave Jaramillo 71.242.465 Laura Carolina Agudelo Quintero 1.088.260.317 Maria Fernanda Patiño Cardona Procesos estadísticos Jairo Torres Universidad de Antioquia Ingeniería industrial Medellín - Antioquia 2014

Transcript of MODELO DE REGRESION LINEAL SIMPLE

MODELO DE REGRESION LINEAL SIMPLE

Luis Felipe Arroyave Jaramillo 71.242.465

Laura Carolina Agudelo Quintero 1.088.260.317

Maria Fernanda Patiño Cardona

Procesos estadísticos

Jairo Torres

Universidad de Antioquia

Ingeniería industrial

Medellín - Antioquia

2014

Tabla de contenido

1. MODELO DE REGRESION LINEAL .......................................................................................... 3

1.1 Definición del problema ................................................................................................. 3

1.2 Grafica y Modelo de regresión lineal ............................................................................... 4

1.3 Prueba de hipótesis de la pendiente y análisis de los coeficientes de determinación (R2 ) y

correlación (r)......................................................................................................................... 4

1.4 intervalo de confianza para Xh= 100 y Xh=650 .............................................................. 5

2. CUMPLIMIENTO DE LOS SUPUESTOS .................................................................................... 5

2.1 Prueba de normalidad de Y ............................................................................................ 5

2.2 Prueba de homogeneidad de las varianzas ...................................................................... 9

2.3 Prueba de independencia de los errores .......................................................................... 9

2.4 Eliminación de datos atípicos........................................................................................ 10

3. MODELO DE REGRESION LINEAL DEFINITIVO ..................................................................... 11

3.1 Gráfica y Modelo de regresión lineal ............................................................................. 11

3.2 Prueba de hipótesis de la pendiente y análisis de los coeficientes de determinación (R2 ) y

correlación (r)....................................................................................................................... 11

3.3 intervalo de confianza para Xh= 100 y Xh=650 ............................................................ 12

3.4 prueba de normalidad de Y-transformada ..................................................................... 12

3.5 Prueba de homogeneidad de las varianzas .................................................................... 13

3.6 Prueba de independencia de los errores ........................................................................ 13

3.1 Eliminación de datos atípicos........................................................................................ 14

4. Conclusiones ..................................................................................................................... 15

1. MODELO DE REGRESION LINEAL

1.1 Definición del problema

Se quiere realizar un modelo de regresión lineal entre el

SUELDO como variable dependiente de la cantidad de

PERSONAL que existe en la ciudad de barranquilla, para lo

cual se tomaron los datos del DANE, del año 2012.

La tabla muestra la relación del numero de personal y lo

que se gasta en personal los diferentes sectores

económicos de la ciudad de Barranquilla.

N° de fila PERSONAL Y obs

1 162 733241

2 905 11155342

3 385 2603990

4 791 14382969

5 998 6415497

6 517 3910654

7 727 8784111

8 118 876682

9 138 1161420

10 113 3228178

11 412 6690751

12 694 5532084

13 1005 16242468

14 811 10960025

15 187 1161620

16 1582 10621192

17 297 3111473

18 29 239081

19 223 2314044

20 245 2401652

21 276 3710369

22 1799 31913665

1.2 Grafica y Modelo de regresión lineal

1.3 Prueba de hipótesis de la pendiente y análisis de los coeficientes de

determinación (R2 ) y correlación (r)

Coeficientes

Mínimos Cuadrados Estándar Estadístico

Parámetro Estimado Error T Valor-P

Intercepto -727301, 1,22903E6 -0,591767 0,5606

Pendiente 13223,1 1676,39 7,88782 0,0000

Análisis de Varianza

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P

Modelo 8,42783E14 1 8,42783E14 62,22 0,0000

Residuo 2,70914E14 20 1,35457E13

Total (Corr.) 1,1137E15 21

Coeficiente de Correlación = 0,86991 R-cuadrada = 75,6743 porciento R-cuadrado (ajustado para g.l.) = 74,4581 porciento Error estándar del est. = 3,68045E6 Error absoluto medio = 2,19547E6 Estadístico Durbin-Watson = 1,84028 (P=0,3404)

Gráfica Cuantil-Cuantil

-7 3 13 23 33(X 1,E6)

Distribución Normal

-7

3

13

23

33(X 1,E6)

SU

EL

DO

DistribuciónNormal

Autocorrelación de residuos en retraso 1 = -0,0656393

El estadístico de prueba F nos muestra que su valor-p es menor que alfa (α=0,05) por lo tanto se

rechaza la hipótesis de que la pendiente del modelo de regresión lineal es igual a cero y no se rechaza

con un nivel de confianza del 95% la hipótesis de que la pendiente del modelo, es diferente de cero.

El modelo de regresión lineal explica el 86.99%la variabilidad del sueldo, y que este depende del

personal en un 74.46%.

El intervalo de confianza de la pendiente es:

1.4 intervalo de confianza para Xh= 100 y Xh=650

95,00% 95,00%

Predicciones Límite Predicción Límite Confianza

X Y Inferior Superior Inferior Superior

100,0 595006, -7,42097E6 8,61098E6 -1,71041E6 2,90042E6

650,0 7,86769E6 12124,5 1,57233E7 6,20366E6 9,53172E6

2. CUMPLIMIENTO DE LOS SUPUESTOS

2.1 Prueba de normalidad de Y

Debido a que el valor-p es mas pequeño que un alfa de 0,05 se rechaza la idea de que la variable SUELDO proviene de una distribución normal, con un 95% de confianza. Debido a que no cumple con este supuesto, se realizaran las

transformaciones correspondientes. El λ que se va a utilizar es igual a

0,15.

Por lo tanto los datos nos queda del siguiente modo:

Ya que es diferente de cero.

A continuación se realizara lel modelo de regresión lineal con los datos anteriores

Prueba Estadístico Valor-P

Estadístico W de Shapiro-Wilk 0,773384 0,000100457

Lambda CME

0,147129 1,91919E13

0,149703 1,91915E13

0,152277 1,91915E13

0,154851 1,91919E13

N° de fila PERSONAL Y transformada

1 162 50,55

2 905 76,04

3 385 61,13

4 791 78,99

5 998 69,98

6 517 64,97

7 727 73,36

8 118 51,92

9 138 54,16

10 113 63,13

11 412 70,43

12 694 68,45

13 1005 80,45

14 811 75,84

15 187 54,16

16 1582 75,48

17 297 62,78

18 29 42,73

19 223 60,06

20 245 60,39

21 276 64,46

22 1799 89,02

Gráfico del Modelo Ajustado

Y trans = 54,4124 + 0,0202517*PERSONAL

0 300 600 900 1200 1500 1800

PERSONAL

42

52

62

72

82

92

Y t

ran

s

2.1.1 GRAFICO Y MODELO DE REGRESION LINEAL CON DATOS TRANSFORMADOS

2.1.2 PRUEBA DE HIPOTESIS DE LA PENDIENTE Y ANALISIS DE LOS COEFICIOENTES DE

DETERMINACION (R2) Y DE CORRELACION (r)

Coeficientes

Mínimos Cuadrados Estándar Estadístico

Parámetro Estimado Error T Valor-P

Intercepto 54,4124 1,95404 27,8461 0,0000

Pendiente 0,0202517 0,0026653 7,59829 0,0000

Análisis de Varianza

Coeficiente de Correlación = 0,861808 R-cuadrada = 74,2713 porciento R-cuadrado (ajustado para g.l.) = 72,9848 porciento

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P

Modelo 1976,86 1 1976,86 57,73 0,0000

Residuo 684,816 20 34,2408

Total (Corr.) 2661,68 21

Gráfica Cuantil-Cuantil

42 52 62 72 82 92

Distribución Normal

42

52

62

72

82

92

Y t

ran

s

DistribuciónNormal

Error estándar del est. = 5,85157 Error absoluto medio = 4,53876 Estadístico Durbin-Watson = 2,12796 (P=0,6074) Autocorrelación de residuos en retraso 1 = -0,103689

Y trans = 54,4124 + 0,0202517*PERSONAL

El valor-p de la pendiente en menor que un alfa igual a 0,05 lo que nos indica que se rechaza con un

nivel de confianza del 95% la hipotesis de que la pendiente es cero, ademas se observa que el

coeficiente de correlacion es de 86,18% lo que nos indica que existe una relación moderadamente

fuerte entre el PERSONAL y el SUELDO.

También se observa un coeficiente de determinación igual a 72,98% lo que indica que el modelo

explica la variabilidad del sueldo se explica en ese porcentaje.

2.1.3 INTERVALOS DE CONFIANZA PARA Xh=100 Y Xh=650

95,00% 95,00%

Predicciones Límite Predicción Límite Confianza

X Y Inferior Superior Inferior Superior

150,0 57,4502 44,7589 70,1414 53,9749 60,9254

650,0 67,576 55,0864 80,0656 64,9304 70,2217

2.1.4 PRUEBA DE NORMALIDAD DE Y-tranformada

Grafico de residuos de Y-transformada

54 64 74 84 94

predicho Y-trans

-9

-5

-1

3

7

11

15

resid

ual

de Y

-tra

ns

Gráfico de residual de Y-trans

0 4 8 12 16 20 24

fila

-9

-5

-1

3

7

11

15

resid

ual

de Y

-tra

ns

Pruebas de Normalidad para Y trans

Prueba Estadístico Valor-P

Estadístico W de Shapiro-Wilk 0,989284 0,9924

Con un valor-p mayor a un alfa de 0,05 nos indica que con un nivel de significancia del 95%, que la

variable Y-tranformada proviene de una distribución normal, por lo tanto cumple con el supuesto de

normalidad.

2.2 Prueba de homogeneidad de las varianzas

Se obseva que la grafica no tiene algún patrón, por lo tanto el modelo cumple con el supuesto de

homogeneidad de las varianzas.

2.3 Prueba de independencia de los errores

Gráfico de Residuos

Y trans = 54,4124 + 0,0202517*PERSONAL

54 64 74 84 94

predicho Y trans

-2,5

-1,5

-0,5

0,5

1,5

2,5

Re

did

uo

Es

tud

en

tiza

do

Estadístico Durbin-Watson = 2,12796 (P=0,6074), lo que nos indica con un nivel de significancia del

95%, que los residuos tienen una autocorrelacion igual a cero, ademas la grafica nos muestra que los

residuos no poseen alguna tendencia.

2.4 Eliminación de datos atípicos

Residuos Atípicos

Predicciones Residuos

Fila X Y Y Residuos Studentizados

16 1582,0 75,4805 86,4507 -10,9702 -2,43

18 29,0 42,7258 54,9997 -12,2739 -2,49

Gráfico del Modelo Ajustado

Y-trans = 54,7761 + 0,0217299*personall

0 300 600 900 1200 1500 1800

personall

50

60

70

80

90

Y-t

ran

s3. MODELO DE REGRESION LINEAL DEFINITIVO

3.1 Gráfica y Modelo de regresión lineal

3.2 Prueba de hipótesis de la pendiente y análisis de los coeficientes de

determinación (R2 ) y correlación (r)

Coeficientes

Mínimos Cuadrados Estándar Estadístico

Parámetro Estimado Error T Valor-P

Intercepto 54,7761 1,67819 32,6401 0,0000

Pendiente 0,0217299 0,00245819 8,83978 0,0000

Análisis de Varianza

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P

Modelo 1646,1 1 1646,1 78,14 0,0000

Residuo 379,181 18 21,0656

Total (Corr.) 2025,28 19

Coeficiente de Correlación = 0,901541 R-cuadrada = 81,2777 porciento R-cuadrado (ajustado para g.l.) = 80,2375 porciento Error estándar del est. = 4,58973 Error absoluto medio = 3,72509 Estadístico Durbin-Watson = 2,25295 (P=0,6872) Autocorrelación de residuos en retraso 1 = -0,236596

Gráfica Cuantil-Cuantil

47 57 67 77 87 97

Distribución Normal

47

57

67

77

87

97

Y-t

ran

s

DistribuciónNormal

Y-trans = 54,7761 + 0,0217299*personall

El valor-p de la pendiente en menor que un alfa igual a 0,05 lo que nos indica que se rechaza con un

nivel de confianza del 95% la hipotesis de que la pendiente es cero, ademas se observa que el

coeficiente de correlacion es de 90,15% lo que nos indica que existe una relación fuerte entre el

PERSONAL y el SUELDO.

El modelo explica en un 80,24% la variabilidad del sueldo.

3.3 intervalo de confianza para Xh= 100 y Xh=650

95,00% 95,00%

Predicciones Límite Predicción Límite Confianza

X Y Inferior Superior Inferior Superior

100,0 56,9491 46,8102 67,088 53,816 60,0822

650,0 68,9005 59,0034 78,7976 66,671 71,1301

3.4 prueba de normalidad de Y-transformada

Pruebas de Normalidad para Y-trans

Prueba Estadístico Valor-P

Estadístico W de Shapiro-Wilk 0,971996 0,784794

Valor-p es mayor que alfa igual a 0,05 entonces con un nivel de confianza del 95%, no se rechaza la

hipótesis de que Y-transformada provenga de una distribución normal.

Gráfico de residuales

57 67 77 87 97

predicho Yt

-8

-4

0

4

8

Res Y

t

Gráfico de Res Yt

0 4 8 12 16 20 24

fila 2

-8

-4

0

4

8

Res Y

t

3.5 Prueba de homogeneidad de las varianzas

Se observa que la gráfica de residuales no tiene patrón alguno, por lo tanto el modelo cumple con el

supuesto de homogeneidad de las varianzas.

3.6 Prueba de independencia de los errores

Estadístico Durbin-Watson = 2,25295 (P=0,6872)

El valor-p es menor que un alfa de 0,05 por lo tanto, no se rechaza la hipotesis de que los errors tienen

una autocorrelacion igual a cero, con un nivel de confianza del 95%.

Gráfico de Residuos

Y-trans = 54,7761 + 0,0217299*personall

57 67 77 87 97

predicho Y-trans

-2

-1

0

1

2

Re

did

uo

Es

tud

en

tiza

do

3.1 Eliminación de datos atípicos

Ningún dato exede los 2 sigma, por lo tanto se dice que no existen datos atípicos.

4. Conclusiones Cuando se realizo la primera regresión, parecía que todo funcionaba, pero no logro cumplir con el

supuesto de normalidad de la variable dependiente Y(SUELDO), aunque no se muestra en el trabajo,

pero este primer modelo, tampoco cumplió con el supuesto de homogeneidad de varianzas, en donde

el grafico de este dibujaba una forma de trompeta.

Al realizar la respectivas transformaciones a la variable Y, el modelo cumplió con todos los supuestos,

con lo que logramos un mejor modelo de regresión lineal. En este nuevo modelo nos encontramos con

dos datos atípico, los cuales fueron eliminados y calculamos un nuevo modelo. Donde se observo que

las pendientes de ambos modelos no cambio en mayor proporción, adema se mejoro el coeficiente de

determinación y correlación.

Finalmente nuestro modelo explica en mas del 85% la variabilidad del gasto en sueldo, de las

diferentes grupos económicos de la ciudad de barranquilla, con respecto la cantidad de personal que

posea la empresa.