MODELO DE REGRESION LINEAL SIMPLE
Luis Felipe Arroyave Jaramillo 71.242.465
Laura Carolina Agudelo Quintero 1.088.260.317
Maria Fernanda Patiño Cardona
Procesos estadísticos
Jairo Torres
Universidad de Antioquia
Ingeniería industrial
Medellín - Antioquia
2014
Tabla de contenido
1. MODELO DE REGRESION LINEAL .......................................................................................... 3
1.1 Definición del problema ................................................................................................. 3
1.2 Grafica y Modelo de regresión lineal ............................................................................... 4
1.3 Prueba de hipótesis de la pendiente y análisis de los coeficientes de determinación (R2 ) y
correlación (r)......................................................................................................................... 4
1.4 intervalo de confianza para Xh= 100 y Xh=650 .............................................................. 5
2. CUMPLIMIENTO DE LOS SUPUESTOS .................................................................................... 5
2.1 Prueba de normalidad de Y ............................................................................................ 5
2.2 Prueba de homogeneidad de las varianzas ...................................................................... 9
2.3 Prueba de independencia de los errores .......................................................................... 9
2.4 Eliminación de datos atípicos........................................................................................ 10
3. MODELO DE REGRESION LINEAL DEFINITIVO ..................................................................... 11
3.1 Gráfica y Modelo de regresión lineal ............................................................................. 11
3.2 Prueba de hipótesis de la pendiente y análisis de los coeficientes de determinación (R2 ) y
correlación (r)....................................................................................................................... 11
3.3 intervalo de confianza para Xh= 100 y Xh=650 ............................................................ 12
3.4 prueba de normalidad de Y-transformada ..................................................................... 12
3.5 Prueba de homogeneidad de las varianzas .................................................................... 13
3.6 Prueba de independencia de los errores ........................................................................ 13
3.1 Eliminación de datos atípicos........................................................................................ 14
4. Conclusiones ..................................................................................................................... 15
1. MODELO DE REGRESION LINEAL
1.1 Definición del problema
Se quiere realizar un modelo de regresión lineal entre el
SUELDO como variable dependiente de la cantidad de
PERSONAL que existe en la ciudad de barranquilla, para lo
cual se tomaron los datos del DANE, del año 2012.
La tabla muestra la relación del numero de personal y lo
que se gasta en personal los diferentes sectores
económicos de la ciudad de Barranquilla.
N° de fila PERSONAL Y obs
1 162 733241
2 905 11155342
3 385 2603990
4 791 14382969
5 998 6415497
6 517 3910654
7 727 8784111
8 118 876682
9 138 1161420
10 113 3228178
11 412 6690751
12 694 5532084
13 1005 16242468
14 811 10960025
15 187 1161620
16 1582 10621192
17 297 3111473
18 29 239081
19 223 2314044
20 245 2401652
21 276 3710369
22 1799 31913665
1.2 Grafica y Modelo de regresión lineal
1.3 Prueba de hipótesis de la pendiente y análisis de los coeficientes de
determinación (R2 ) y correlación (r)
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto -727301, 1,22903E6 -0,591767 0,5606
Pendiente 13223,1 1676,39 7,88782 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 8,42783E14 1 8,42783E14 62,22 0,0000
Residuo 2,70914E14 20 1,35457E13
Total (Corr.) 1,1137E15 21
Coeficiente de Correlación = 0,86991 R-cuadrada = 75,6743 porciento R-cuadrado (ajustado para g.l.) = 74,4581 porciento Error estándar del est. = 3,68045E6 Error absoluto medio = 2,19547E6 Estadístico Durbin-Watson = 1,84028 (P=0,3404)
Gráfica Cuantil-Cuantil
-7 3 13 23 33(X 1,E6)
Distribución Normal
-7
3
13
23
33(X 1,E6)
SU
EL
DO
DistribuciónNormal
Autocorrelación de residuos en retraso 1 = -0,0656393
El estadístico de prueba F nos muestra que su valor-p es menor que alfa (α=0,05) por lo tanto se
rechaza la hipótesis de que la pendiente del modelo de regresión lineal es igual a cero y no se rechaza
con un nivel de confianza del 95% la hipótesis de que la pendiente del modelo, es diferente de cero.
El modelo de regresión lineal explica el 86.99%la variabilidad del sueldo, y que este depende del
personal en un 74.46%.
El intervalo de confianza de la pendiente es:
1.4 intervalo de confianza para Xh= 100 y Xh=650
95,00% 95,00%
Predicciones Límite Predicción Límite Confianza
X Y Inferior Superior Inferior Superior
100,0 595006, -7,42097E6 8,61098E6 -1,71041E6 2,90042E6
650,0 7,86769E6 12124,5 1,57233E7 6,20366E6 9,53172E6
2. CUMPLIMIENTO DE LOS SUPUESTOS
2.1 Prueba de normalidad de Y
Debido a que el valor-p es mas pequeño que un alfa de 0,05 se rechaza la idea de que la variable SUELDO proviene de una distribución normal, con un 95% de confianza. Debido a que no cumple con este supuesto, se realizaran las
transformaciones correspondientes. El λ que se va a utilizar es igual a
0,15.
Por lo tanto los datos nos queda del siguiente modo:
Ya que es diferente de cero.
A continuación se realizara lel modelo de regresión lineal con los datos anteriores
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0,773384 0,000100457
Lambda CME
0,147129 1,91919E13
0,149703 1,91915E13
0,152277 1,91915E13
0,154851 1,91919E13
N° de fila PERSONAL Y transformada
1 162 50,55
2 905 76,04
3 385 61,13
4 791 78,99
5 998 69,98
6 517 64,97
7 727 73,36
8 118 51,92
9 138 54,16
10 113 63,13
11 412 70,43
12 694 68,45
13 1005 80,45
14 811 75,84
15 187 54,16
16 1582 75,48
17 297 62,78
18 29 42,73
19 223 60,06
20 245 60,39
21 276 64,46
22 1799 89,02
Gráfico del Modelo Ajustado
Y trans = 54,4124 + 0,0202517*PERSONAL
0 300 600 900 1200 1500 1800
PERSONAL
42
52
62
72
82
92
Y t
ran
s
2.1.1 GRAFICO Y MODELO DE REGRESION LINEAL CON DATOS TRANSFORMADOS
2.1.2 PRUEBA DE HIPOTESIS DE LA PENDIENTE Y ANALISIS DE LOS COEFICIOENTES DE
DETERMINACION (R2) Y DE CORRELACION (r)
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 54,4124 1,95404 27,8461 0,0000
Pendiente 0,0202517 0,0026653 7,59829 0,0000
Análisis de Varianza
Coeficiente de Correlación = 0,861808 R-cuadrada = 74,2713 porciento R-cuadrado (ajustado para g.l.) = 72,9848 porciento
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1976,86 1 1976,86 57,73 0,0000
Residuo 684,816 20 34,2408
Total (Corr.) 2661,68 21
Gráfica Cuantil-Cuantil
42 52 62 72 82 92
Distribución Normal
42
52
62
72
82
92
Y t
ran
s
DistribuciónNormal
Error estándar del est. = 5,85157 Error absoluto medio = 4,53876 Estadístico Durbin-Watson = 2,12796 (P=0,6074) Autocorrelación de residuos en retraso 1 = -0,103689
Y trans = 54,4124 + 0,0202517*PERSONAL
El valor-p de la pendiente en menor que un alfa igual a 0,05 lo que nos indica que se rechaza con un
nivel de confianza del 95% la hipotesis de que la pendiente es cero, ademas se observa que el
coeficiente de correlacion es de 86,18% lo que nos indica que existe una relación moderadamente
fuerte entre el PERSONAL y el SUELDO.
También se observa un coeficiente de determinación igual a 72,98% lo que indica que el modelo
explica la variabilidad del sueldo se explica en ese porcentaje.
2.1.3 INTERVALOS DE CONFIANZA PARA Xh=100 Y Xh=650
95,00% 95,00%
Predicciones Límite Predicción Límite Confianza
X Y Inferior Superior Inferior Superior
150,0 57,4502 44,7589 70,1414 53,9749 60,9254
650,0 67,576 55,0864 80,0656 64,9304 70,2217
2.1.4 PRUEBA DE NORMALIDAD DE Y-tranformada
Grafico de residuos de Y-transformada
54 64 74 84 94
predicho Y-trans
-9
-5
-1
3
7
11
15
resid
ual
de Y
-tra
ns
Gráfico de residual de Y-trans
0 4 8 12 16 20 24
fila
-9
-5
-1
3
7
11
15
resid
ual
de Y
-tra
ns
Pruebas de Normalidad para Y trans
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0,989284 0,9924
Con un valor-p mayor a un alfa de 0,05 nos indica que con un nivel de significancia del 95%, que la
variable Y-tranformada proviene de una distribución normal, por lo tanto cumple con el supuesto de
normalidad.
2.2 Prueba de homogeneidad de las varianzas
Se obseva que la grafica no tiene algún patrón, por lo tanto el modelo cumple con el supuesto de
homogeneidad de las varianzas.
2.3 Prueba de independencia de los errores
Gráfico de Residuos
Y trans = 54,4124 + 0,0202517*PERSONAL
54 64 74 84 94
predicho Y trans
-2,5
-1,5
-0,5
0,5
1,5
2,5
Re
did
uo
Es
tud
en
tiza
do
Estadístico Durbin-Watson = 2,12796 (P=0,6074), lo que nos indica con un nivel de significancia del
95%, que los residuos tienen una autocorrelacion igual a cero, ademas la grafica nos muestra que los
residuos no poseen alguna tendencia.
2.4 Eliminación de datos atípicos
Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
16 1582,0 75,4805 86,4507 -10,9702 -2,43
18 29,0 42,7258 54,9997 -12,2739 -2,49
Gráfico del Modelo Ajustado
Y-trans = 54,7761 + 0,0217299*personall
0 300 600 900 1200 1500 1800
personall
50
60
70
80
90
Y-t
ran
s3. MODELO DE REGRESION LINEAL DEFINITIVO
3.1 Gráfica y Modelo de regresión lineal
3.2 Prueba de hipótesis de la pendiente y análisis de los coeficientes de
determinación (R2 ) y correlación (r)
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 54,7761 1,67819 32,6401 0,0000
Pendiente 0,0217299 0,00245819 8,83978 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1646,1 1 1646,1 78,14 0,0000
Residuo 379,181 18 21,0656
Total (Corr.) 2025,28 19
Coeficiente de Correlación = 0,901541 R-cuadrada = 81,2777 porciento R-cuadrado (ajustado para g.l.) = 80,2375 porciento Error estándar del est. = 4,58973 Error absoluto medio = 3,72509 Estadístico Durbin-Watson = 2,25295 (P=0,6872) Autocorrelación de residuos en retraso 1 = -0,236596
Gráfica Cuantil-Cuantil
47 57 67 77 87 97
Distribución Normal
47
57
67
77
87
97
Y-t
ran
s
DistribuciónNormal
Y-trans = 54,7761 + 0,0217299*personall
El valor-p de la pendiente en menor que un alfa igual a 0,05 lo que nos indica que se rechaza con un
nivel de confianza del 95% la hipotesis de que la pendiente es cero, ademas se observa que el
coeficiente de correlacion es de 90,15% lo que nos indica que existe una relación fuerte entre el
PERSONAL y el SUELDO.
El modelo explica en un 80,24% la variabilidad del sueldo.
3.3 intervalo de confianza para Xh= 100 y Xh=650
95,00% 95,00%
Predicciones Límite Predicción Límite Confianza
X Y Inferior Superior Inferior Superior
100,0 56,9491 46,8102 67,088 53,816 60,0822
650,0 68,9005 59,0034 78,7976 66,671 71,1301
3.4 prueba de normalidad de Y-transformada
Pruebas de Normalidad para Y-trans
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0,971996 0,784794
Valor-p es mayor que alfa igual a 0,05 entonces con un nivel de confianza del 95%, no se rechaza la
hipótesis de que Y-transformada provenga de una distribución normal.
Gráfico de residuales
57 67 77 87 97
predicho Yt
-8
-4
0
4
8
Res Y
t
Gráfico de Res Yt
0 4 8 12 16 20 24
fila 2
-8
-4
0
4
8
Res Y
t
3.5 Prueba de homogeneidad de las varianzas
Se observa que la gráfica de residuales no tiene patrón alguno, por lo tanto el modelo cumple con el
supuesto de homogeneidad de las varianzas.
3.6 Prueba de independencia de los errores
Estadístico Durbin-Watson = 2,25295 (P=0,6872)
El valor-p es menor que un alfa de 0,05 por lo tanto, no se rechaza la hipotesis de que los errors tienen
una autocorrelacion igual a cero, con un nivel de confianza del 95%.
Gráfico de Residuos
Y-trans = 54,7761 + 0,0217299*personall
57 67 77 87 97
predicho Y-trans
-2
-1
0
1
2
Re
did
uo
Es
tud
en
tiza
do
3.1 Eliminación de datos atípicos
Ningún dato exede los 2 sigma, por lo tanto se dice que no existen datos atípicos.
4. Conclusiones Cuando se realizo la primera regresión, parecía que todo funcionaba, pero no logro cumplir con el
supuesto de normalidad de la variable dependiente Y(SUELDO), aunque no se muestra en el trabajo,
pero este primer modelo, tampoco cumplió con el supuesto de homogeneidad de varianzas, en donde
el grafico de este dibujaba una forma de trompeta.
Al realizar la respectivas transformaciones a la variable Y, el modelo cumplió con todos los supuestos,
con lo que logramos un mejor modelo de regresión lineal. En este nuevo modelo nos encontramos con
dos datos atípico, los cuales fueron eliminados y calculamos un nuevo modelo. Donde se observo que
las pendientes de ambos modelos no cambio en mayor proporción, adema se mejoro el coeficiente de
determinación y correlación.
Finalmente nuestro modelo explica en mas del 85% la variabilidad del gasto en sueldo, de las
diferentes grupos económicos de la ciudad de barranquilla, con respecto la cantidad de personal que
posea la empresa.
Top Related