Análisis de Series de Tiempo

Análisis de Series de Tiempo

96

Note que dada la estructura de n , diferenciar la función de verosimilitud es muy

complicado y por tanto difícil de optimizar. En estos casos, se aplican métodos numéricos con

estimadores iniciales dados en la estimación preliminar.

Podemos transformar la distribución conjunta usando las innovaciones jj XX ˆ y sus

respectivas varianzas 1j calculadas recursivamente por el algoritmo de Innovaciones.

Recordemos que por el algoritmo de innovaciones, se tiene la igualdad:

)ˆ(n nnn XXCX

Por otra parte, sabemos que las innovaciones son no correlacionadas, por lo tanto la

matriz de covarianzas de las innovaciones es la matriz diagonal Dn siguiente:

},...,,{ 110 nn diagD

Por la igualdad anterior y la matriz D, se tiene que:

'

nnnn CDC

Usando las igualdades anteriores, podemos ver que la forma cuadrática nnn XX 1' está

dada por: n

j

jjjnnnnnnnn XXXXDXXXX1

1

211'/)ˆ()ˆ()'ˆ(

Recordemos, también, que Cn es una matriz triangular con elementos en la diagonal

igual a uno, por lo tanto su determinante es uno. De donde:

110

2' ... nnnnnnnn DDCCDC

Sustituyendo, la función de distribución conjunta inicial se reduce a:

}/)ˆ(2

1exp{

...)2(

1)(

1

1

2

110

n

j

jjj

n

nn XXL

Si n puede ser expresada en términos de un número finito de parámetros

desconocidos, como es el caso de un proceso ARMA(p,q), entonces los estimadores de

Máxima Verosimilitud de los parámetros son los valores que maximizan la función L para el

conjunto de datos dado.

La verosimilitud para los datos de un proceso ARMA(p,q) puede ser calculada

recursivamente por el algoritmo de innovaciones.


97

Así, el predictor de Xn+1, como su error cuadrado medio están dados por:

nnnjnjn

n

j

jnjnnjpnpn

n

j

jnjnnj

n

rWWEXXE

y

mnXXXX

mnXX

X

22

11

22

11

1

1111

1

11

1

)ˆ()ˆ(

, )ˆ(....

1 , )ˆ(

ˆ

donde θnj y rn son determinados por el algoritmo de innovaciones y m=max(p,q). De esta

forma, la función de verosimilitud para el proceso ARMA(p,q) es:

})ˆ(

2

1exp{

...)2(

1),,(

1 1

2

2

110

2

2n

j j

jj

n

n r

XX

rrrL

Derivando parcialmente el logaritmo de L con respecto a la varianza del ruido blanco y

teniendo que jX y rj son independientes de

2, encontramos los estimadores de máxima

verosimilitud.

n

j

j

n

j

jjj

rnSnl

y

rXXS

n

S

1

1

11

1

1

2

2

)ln()),(ln(),(

minimizan que valoreslosson ˆ,ˆ

/)ˆ()ˆ,ˆ(

donde

)ˆ,ˆ(ˆ

El criterio de selección del orden del modelo es la minimización del AICC. Este

criterio consiste en escoger p, q, p

y q que minimicen la cantidad:

)2/()1(2)/),(,,ln(2 qpnnqpnSAICC qpqp

Una de las opciones del programa ITSM es un “autoajuste” del modelo. Esto se lleva a

cabo seleccionando Model>Estimation>Autofit. La selección de esta opción nos permite

especificar un rango de los valores de p y de q (el rango máximo es de 0 a 27 para ambos, p y

q). El modelo elegido es el que tenga mínimo AICC y una vez que el modelo ha sido

determinado, debe ser estimado por máxima verosimilitud. Más adelante se ejemplificará la

teoría. En S-PLUS la función de estimación por máxima Verosimilitud es: arima.mle(x,

model, n.cond=<< >>, xreg=NULL, ...)


98

Para hacer inferencia sobre los parámetros se usan resultados asintóticos, es decir, se

suponen muestras “grandes”. En este caso, consideremos el vector de parámetros )'ˆ,ˆ(ˆ ,

entonces para una muestra grande:

))(,(ˆ 1VnN

donde )(V es la matriz Hessiana definida por:

qp

jiji

lV

1,

2 )()(

Si se quiere probar la hipótesis H0: parámetro=0, la prueba se lleva a cabo calculando

el cociente:

)(*96.1 parámetroEE

parámetro

La regla de decisión es rechazar H0 si el cociente anterior se encuentra fuera del

intervalo [-1,1].

Ejemplo V.2.1. Consideremos los datos del nivel del Lago Hurón (ver ejemplo V.1.2) y

ajustemos un modelo por máxima verosimilitud.

Solución.

Recordemos que en la estimación preliminar se encontró que el mejor modelo ajustado

(mínimo AICC) a los datos corregidos por la media fue el modelo ARMA(1,1):

X(t) = Y(t) - 9.0041

Method: Innovations

ARMA Model:

X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)

WN Variance = .475680

AICC = .212894E+03

El siguiente paso es ajustar el modelo por máxima verosimilitud usando como

estimación preliminar el modelo ARMA(1,1). Usando la función arima.mle de S-PLUS

obtenemos:

Coefficients:

AR : 0.75544 MA : -0.30721

Variance-Covariance Matrix:

ar(1) ma(1)

ar(1) 0.005949613 0.004373168

ma(1) 0.004373168 0.012550728


99

Optimizer has converged

Convergence Type: relative function convergence

AIC: 207.81105

Los resultados anteriores se obtienen escribiendo las instrucciones:

Lake.corr<-Lake-mean(t(Lake))

mod<-list(ar=-0.7234,ma=0.3596)

arima.mle(Lake.corr, model=mod)

donde “Lake” es el nombre del Dataset con la serie del Lago Hurón.

En los resultados también se obtienen las varianzas de los parámetros, con lo cual

podemos establecer los siguientes intervalos de confianza al 95% como sigue:

)0876.0,5268.0(01255.0*96.13072.0:

)9066.0,6042.0(0059.0*96.17554.0:

[Hamilton (1994)] desarrolla la estimación de Máxima Verosimilitud usando

distribuciones condicionales. Esto es, parte de:

1,...,

21/

1,

2/

31/

21,...,

2,

1Y

nY

nY

nYYYYYYY

nYYY fffff

Por ejemplo, para el proceso AR(1) dado por ttt ZYY 1 y dados Y1, Y2 y Y3, se

tiene:

)1/(2

)]1/([exp

)1/(2

122

2

1

221

yfY

ya que )1/()(y )1/()( 22

11 YVYE . Además,

2

2

23

21,

2/

3

2

2

12

21/

2

2

][exp

2

1

y

2

][exp

2

1

yyf

yyf

YYY

YY

Por lo tanto, la distribución conjunta está dada por:

3

1

11

/

2

321),/()|,,(

t

ttt

Yt

YYYY yyfyLf


100

Como puede observarse en los argumentos de la función exponencial, el numerador

corresponde a las Innovaciones. Esta es la similitud entre el procedimiento de Hamilton y el

que se presenta en este trabajo. El procedimiento de Hamilton se puede extender para

cualquier modelo ARMA(p,q).

V.3. PRUEBAS DE BONDAD DE AJUSTE

El paso final en el proceso de ajuste de modelos de series de tiempo es verificar qué tan

“bueno” es el modelo. Esto se consigue mediante las pruebas de bondad de ajuste. Tales

pruebas consisten en verificar que los supuestos de los residuales se cumplan, es decir, que

forman un proceso de Ruido Blanco.

Enseguida se mencionarán algunas de las pruebas que se utilizan para probar los

supuestos iniciales (de los residuales). Cabe mencionar que no son las únicas, algunas otras se

pueden consultar en [Brockwell y Davis (2002) pp. 35-38].

V.3.1. La función de autocorrelación de residuales

Si {Zt} forma un proceso de Ruido Blanco, entonces las autocorrelaciones de las

innovaciones (errores) deben ser estadísticamente iguales con cero. Es decir, con el 95% de

confianza, se debe cumplir:

1,2,3,.... )/96.1,/96.1()( hnnhtZ

Si calculamos las correlaciones muestrales para más de 40 observaciones y

encontramos que más de dos valores caen fuera del intervalo de confianza, entonces

rechazaremos la hipótesis de que los errores son independientes. Las bandas n/96.1

son graficadas automáticamente cuando se grafica la función de autocorrelación en el

programa ITSM.

En la siguiente gráfica se muestran las funciones de autocorrelación y autocorrelación

parcial de los residuales después de haber ajustado un modelo ARMA(1,1) a los datos del

Lago Hurón. Podemos ver que ningún valor cae fuera de las bandas de confianza, por lo que

podemos concluir que los residuales, en efecto, son independientes.

La gráfica se logra de la siguiente forma: En el Dataset “Lake”, seguimos Data>

Transform y en el cuadro Expression escribimos Lake-mean(t(Lake)). Esto creará una nueva

columna de datos corregidos por la media. Enseguida, ajustamos el modelo ARMA(1,1)

siguiendo Statistics> Time Series> ARIMA Models y especificamos 1 en Autorregresive (p) y

1 en Moving Avg. (q). Finalmente, en la pestaña Diagnostics marcamos Autocorrelation of

Residuals y Plot Diagnostics.


101

Gráfica24. ACF y PACF de los residuales después de ajustar un modelo

ARMA(1,1) a la serie nivel del lago Hurón.

ACF Plot of Residuals

ACF

0 5 10 15 20

-1.0

-0.5

0.0

0.5

1.0

PACF Plot of Residuals

PAC

F

5 10 15 20

-0.2

-0.1

0.0

0.1

0.2

ARIMA Model Diagnostics: Lake$V1

ARIMA(1,0,1) Model with Mean 0 V.3.2. Prueba de puntos cambiantes (turning points)

Esta prueba consiste en determinar si los residuales forman un patrón aleatorio.

Supongamos que tenemos una muestra aleatoria nyy ,...,1 . Se dice que la i-ésima

observación es un punto cambiante si:

1111 y o y iiiiiiii yyyyyyyy

Si definimos a T como el número de puntos cambiantes en una sucesión de variables

aleatorias iid de tamaño n, entonces, dado que la probabilidad de que haya un punto cambiante

en el tiempo i es 2/3, el valor esperado de T es:

3/)2(2)( nTET

También, la varianza de T es:

90/)2916()(2 nTVarT

Por otro lado, para una muestra iid “grande”, puede mostrarse que:

)1,0(NT

TT

Tp

Con esto, podemos llevar a cabo la prueba de hipótesis de que los residuales son

aleatorios, usando el criterio de decisión:


102

Rechazar H0: La muestra es aleatoria, al nivel de significancia α si 2/1ZTp , donde

2/1Z es el cuantil 1- α/2 de la distribución Normal estándar.

V.3.3. Prueba de signo (difference-sign)

En esta prueba se cuenta el número de observaciones i tales que niyy ii 1,..., ,1 .

Definimos a S como el total de tales observaciones. Entonces, bajo el supuesto de muestra

aleatoria, se tiene que:

12/)1()(

2/)1()(

2 nSVar

y

nSE

S

S

De la misma forma que para T, para un valor grande de n, se tiene que:

)1,0(NS

SS

S

p

Un valor grande, en valor absoluto, de SS indicaría la presencia de un incremento

(o decremento) en la tendencia de los datos. De aquí que, rechazaremos la hipótesis de

tendencia en los datos al nivel α de significancia si 2/1ZS p , donde 2/1Z es el cuantil 1-

α/2 de la distribución Normal estándar.

Las tres pruebas mencionadas, entre otras, son calculadas por el programa ITSM

usando la opción Statistics>Residual Analysis>Test of Randomness. S-PLUS sólo ofrece la

estadística de Ljung-Box que se distribuye como Ji-Cuadrada. Para obtenerla, en el cuadro

de diálogo que aparece después de Statistics> Time Series> ARIMA Models, en la pestaña

Diagnostics marcamos la opción Portmanteau Statistics.

Es claro que, si no se ha ajustado algún modelo a los datos, los residuales son los

mismos que las observaciones. Esto significa que podemos llevar a cabo las pruebas para las

observaciones (cuando no se ha ajustado algún modelo), como para los residuales.

Ejemplo V.3.1. Consideremos los datos del archivo SIGNAL.TXT. Veremos las opciones que

ofrecen ambos programas, ITSM-2000 y S-PLUS, para llevara cabo las pruebas de bondad de

ajuste.


103

Gráfica25. Valores simulados de la serie X(t)=cos(t) +N(t), t=0.1,0.2,…,20, donde

N(t) es WN(0,0.25).

30 80 130 180

-3

-2

-1

0

1

2

3

signa

l

En primer lugar, veremos la gráfica de la función de autocorrelación.

Gráfica26. ACF de la serie X(t)=cos(t) + N(t), t=0.1,0.2,…,20, donde N(t) es

WN(0,0.25).

Lag

ACF

0 5 10 15 20

0.00.2

0.40.6

0.81.0

Series : signal$signal

Las gráficas 25 y 26 son resultado de las instrucciones:

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="signal")

acf(x = signal$signal, type = "correlation")

donde “signal” es el Dataset con los datos de la serie simulada.

Note que algunas observaciones (más de dos) salen de las bandas de confianza, por

tanto rechazaremos la hipótesis de que la serie es independiente. La estimación preliminar de

Yule-Walker sugiere ajustar un modelo AR(7) a los datos corregidos por la media. Ajustando

este modelo, podemos verificar si los residuales cumplen con las pruebas de bondad de ajuste.

En ITSM se obtienen mediante Statistics>Residual Analysis> Test of Randomness.

Los resultados son:

============================================

ITSM::(Tests of randomness on residuals)

============================================

Ljung - Box statistic = 16.780 Chi-Square ( 20 ), p-value = .66719


104

McLeod - Li statistic = 25.745 Chi-Square ( 27 ), p-value = .53278

# Turning points = .13600E+03~AN(.13200E+03,sd = 5.9358), p-value = .50039

# Diff sign points = .10300E+03~AN(99.500,sd = 4.0927), p-value = .39245

Rank test statistic = .10083E+05~AN(.99500E+04,sd = .47315E+03), p-value = .77864

Jarque-Bera test statistic (for normality) = 3.8175 Chi-Square (2), p-value = .14826

Order of Min AICC YW Model for Residuals = 0

El programa ITSM nos da el p-value. La regla es rechazar la hipótesis nula al nivel de

significancia α si α > p-value. Si establecemos un nivel de significancia del 5%, podemos ver

que, utilizando cualquier estadística, no se rechaza la hipótesis nula de que los residuales

forman una serie iid.

En S-PLUS seleccionamos la opción Statistics> Time Series> ARIMA Models,

especificamos 7 en Autorregresive (p), y marcamos las opción Portmanteau Statistics y Plot

Diagnostics en la pestaña Diagnostics. Obteniendo:

P-values of Ljung-Box Chi-Squared Statistics

Lag

p-va

lue

8.0 8.5 9.0 9.5 10.0

0.0

0.2

0.4

0.6

ARIMA Model Diagnostics: signal$V2

ARIMA(7,0,0) Model with Mean 0 En conclusión, el modelo propuesto para los datos corregidos por la media, AR(7),

resulta “bueno”, pues los residuales cumplen satisfactoriamente con las pruebas de bondad de

ajuste.


105

CAPITULO VI. MODELOS NO-ESTACIONARIOS

En la mayoría de los casos, las observaciones no son generadas por series de tiempo

necesariamente estacionarias, por lo que en este capítulo este tipo de conjunto de datos será

nuestro objetivo de estudio.

El tipo de modelo que analizaremos en la siguiente sección serán los modelos ARIMA

(Autorregresivo Integrado de Promedio Móvil).

VI.1. MODELOS ARIMA PARA SERIES NO-ESTACIONARIAS

Cuando ajustamos un modelo ARMA a una serie diferenciada, en realidad estamos

ajustando un modelo ARIMA a los datos originales. Es decir, un modelo ARIMA es un

proceso que se reduce a un proceso ARMA cuando diferenciamos un número finito de veces.

Definición VI.1.1. [Modelo ARIMA(p,d,q)].- Si d es un entero no-negativo, entonces

}{ tX es un proceso ARIMA(p,d,q) si t

d

t XBY )1( es un proceso ARMA(p,q) causal.

Esto significa que:

tt

tt

d

tt

ZBXB

ZBXBB

ZBYB

)()(

)()1)((

)()(

*

Note que el proceso }{ tX es estacionario si y solo si d=0. Si es el caso, entonces el

proceso se reduce a un ARMA(p,q).

Ejemplo VI.1.1. Supongamos que }{ tX es un proceso ARIMA(1,1,0).

Podemos escribir el modelo como:

1

1

01111

0111

0122122

011011

n

j

jnnnnnn

nnnnnn

YXYXXXXY

XYYYXXXY

XYYXXXY

XYXXXY

Esto significa que, para predecir al proceso }{ tX , primero podemos predecir el

proceso }{ tY y agregar la observación inicial. Esto es,


106

111

1

1

01

)( nnnnnnnn

n

j

jnnn

YPXYXPXP

o

YPXXP

Asumiendo que el proceso }{ tX satisface t

d

t XBY )1( . Podemos reescribirlo

como:

d

j

jt

j

tt Xj

dYX

1

)1(

De aquí que, el procedimiento de predicción se puede generalizar, de modo que, para

un proceso ARIMA(p,d,q), se tiene:

d

j

jhnn

j

hnnhnn XPj

dYPXP

1

)1(

donde }{ tY es un proceso ARMA(p,q) causal.

Con respecto al Error Cuadrado Medio. Tenemos que, para cualquier h:

d

j

jhn

j

hn

d

j

jhnn

j

hnnhnhnn Xj

dYXP

j

dYPXXP

11

)1()1(

Para h=1, la expresión se reduce a:

11

1

11

1

1111

)1()1(

nnn

d

j

jn

j

n

d

j

jnn

j

nnnnn

YYP

Xj

dYXP

j

dYPXXP

Por lo tanto,

11

2

11

2

11

nn

nnnnnn

YECMXECM

YYPEXXPE

Hemos llegado a una expresión que nos dice que, para h=1, el ECM de la predicción de

la observación no estacionaria es igual al ECM de la estacionaria.

Por otra parte, sabemos que, bajo el supuesto de causalidad en }{ tY ,


107

0

*

0

0

)1(

)(

)()1(

j

jtjt

tdt

t

j

jtjt

d

j

jtjt

ZX

ZB

BX

ZBZXB

ZY

Note que, según la expresión anterior, podemos expresar la serie no estacionaria como

un proceso lineal en términos de los coeficientes lineales de la serie estacionaria.

Ejemplo VI.1.2. Consideremos los datos del Índice de Utilidad Dow Jones (del 28 de Agosto

al 18 de Diciembre de 1972). El archivo es DOWJ.TXT.

Recordemos que para esta serie de datos se tuvo que diferenciar una vez a distancia

uno para tener una serie estacionaria. Así mismo, se ajustó un modelo AR(1) para los datos

corregidos por la media (ver ejemplo V.1.1), teniendo como resultados aplicando Máxima

Verosimilitud:

> media

[1] 0.1336364

$var.pred:

[,1]

[1,] 0.1518409

Coefficients:

AR : 0.4483


ar(1)

ar(1) 0.01051349

Las instrucciones son:

dif.DJ<-diff(DOWJ,1,1)

media<-mean(t(dif.DJ))

dif.DJcorr<-dif.DJ-media

mod<-list(ar=0.4218786)

media

arima.mle(dif.DJcorr, model=mod)

donde “DOWJ” es el Dataset con la serie del Índice de utilidad Dow Jones.

Note que el ajuste anterior es para la serie 1336.01ttt DDX . En consecuencia,

el modelo para }{ tD es:


108

)1518.0,0( Z , 1336.0)1(4483.01 t WNZDBB tt

Note que, de acuerdo a la definición VI.1.1, {Dt} es un proceso ARIMA(1,1,0).

Sabemos que para un proceso AR(1), el mejor predictor lineal está dado por

n

h

hnn YYP . Así, la predicción para Dt+1 quedaría como:

11

11

1

4483.04483.10737.0

1336.04483.01336.0

4483.0

ttt

tttt

tt

DDD

DDDD

XX

El ECM se obtiene de la misma manera que antes para un modelo AR(1).

En este ejemplo se mostró la estrategia de predicción para un modelo (sencillo)

ARIMA(1,1,0); Sin embargo, el procedimiento es similar para modelos más generales

ARIMA(p,d,q).

VI.1.1 Identificación y estimación de modelos

Cuando tenemos una serie {Xt} con media cero (o corregida por la media), nos

enfrentamos al problema de encontrar un modelo ARMA(p,q) que represente nuestra serie. Si

los valores de p y q son conocidos, tenemos una gran ventaja. Sin embargo, no siempre es el

caso, por lo que necesitamos de técnicas que nos den una aproximación de p y q. Como hemos

comentado, nosotros basamos el criterio de selección de p y q en base al mínimo AICC,

definido por:

)2/()1(2)/),(,,ln(2 qpnnqpnSAICC qpqp

discutido en el capítulo V.

La estimación e identificación de modelos se resume en los siguientes pasos:

1. Después de transformar nuestra serie (si es necesario) para tener una serie estacionaria,

examine las gráficas de las funciones FAC y PACF para tener una idea de los valores

de p y q. Después de esto, podemos obtener la estimación preliminar por alguno de los

métodos descritos en el capítulo V.

2. Cuando introduzcamos la función (en S-PLUS) de estimación preliminar, ya sea por el

algoritmo de Yule-Walker o Burg, debemos agregar la condición aic=T. Esto nos

garantizará modelos con p y q, tales que el AICC sea mínimo. Por ejemplo, debemos

escribir: ar.burg(x, aic=T).

3. Examinar los valores de los coeficientes calculados y los errores estándar. Esto nos

ayudará a concluir que algunos coeficientes son estadísticamente igual con cero. Si es


109

así, podemos ajustar un “nuevo” modelo a la serie mediante la opción Model>

Estimation>Max Likelihood, dar clic en la opción Constrain Optimization y

especificar cuales valores son iguales con cero en ITSM y especificando los valores

diferentes de cero en la opción “model” de la función arima.mle(x, model) de S-PLUS.

4. Ya hemos discutido que no existe unicidad en el ajuste de un modelo a una serie de

tiempo, por lo que una vez que tenemos varios candidatos, tenemos que ver cuáles de

ellos cumplen con las pruebas de bondad de ajuste (capítulo V).

VI.2. MODELOS SARIMA

Ya hemos visto que para eliminar el componente estacional de periodo s de una serie

es necesario diferenciar, justamente, a distancia s. Si ajustamos un modelo ARMA(p,q) a la

serie diferenciada a distancia s, entonces el modelo ajustado a la serie original es un caso de un

proceso ARIMA estacional o también llamado SARIMA.

Para tener una idea de qué es lo que estudiaremos en esta sección, supongamos que

tenemos mediciones mensuales de algún fenómeno. Es decir, tenemos una colección de 12

series por año, a las cuales les podemos ajustar un modelo ARMA(p,q).

Definición VI.2.1. [Modelo SARIMA(p,d,q) x (P,D,Q)s].- Si d y D son enteros no-negativos,

entonces }{ tX es un proceso SARIMA(p,d,q) x (P,D,Q)s con periodo s, si la serie diferenciada

t

Dsd

t XBBY )1()1( es un proceso causal ARMA definido por:

tt

t

s

t

s

ZBYB

ZBBYBB

)()(

)()()()(

**

Supongamos que:

ssss BBBB

BBBB

1)( , 1)(

1)( , 1)(

Sustituyendo en la definición, tenemos:

1*

1*

1)1)(1()(

1)1)(1()(

sss

sss

BBBBBB

BBBBBB

Podemos ver que, la diferencia fundamental entre un modelo cualquiera estacional y un

modelo SARIMA es la restricción que existe en los parámetros del modelo y, además, para

varios valores de t los parámetros tienen un valor igual con cero.

Los pasos para identificar un modelo SARIMA para un posible conjunto de datos son

los siguientes:


110

1. Encontrar valores posibles de d y D que hagan que la serie diferenciada sea estacionaria:

t

Dsd

t XBBY )1()1(

2. Examinar las funciones de autocorrelación y autocorrelación parcial (ACF y PACF)

muestrales de {Yt} a distancias que sean múltiplos de s para obtener una aproximación de P y

Q. Es decir, )(ˆ ks , k=1,2,… debe ser compatible con un modelo ARMA(P,Q).

3. Los valores de p y q se obtienen observando los valores de )1(ˆ),...,1(ˆ s , los cuales

deben ser compatibles con los de un modelo ARMA(p,q).

A continuación, veremos un ejemplo con el cual se pretende explicar los tres pasos

anteriores.

Ejemplo VI.2.1. Consideremos el archivo DEATHS.TXT. Los datos presentan la siguiente

gráfica:

Gráfica27. Serie Muertes mensuales causadas por accidentes en USA de 1973-

1978.

0 10 20 30 40 50 60 70

7000

8000

9000

10000

11000

muert

es

Podemos ver que la serie presenta estacionalidad a distancia s=12. Por lo que

diferenciamos una vez a esta distancia. Una vez eliminado el componente de estacionalidad, se

tiene:

Gráfica28. Serie tXB )1( 12, donde Xt es la serie de muertes causadas por

accidentes.

0 10 20 30 40 50 60

-1500

-1000

-500

0

500

muert

es


111

Gráfica29. Serie tXBB )1)(1( 12, donde Xt es la serie de muertes causadas por

accidentes.

0 10 20 30 40 50 60

-1000

-500

0

500

1000

muerte

s

Las instrucciones para hacer las gráficas de este ejemplo son:

guiPlot(PlotType="Y Series Lines",DataSet="deaths")

deat.difD<-diff(deaths,12,1)

guiPlot(PlotType="Y Series Lines",DataSet="deat.dif")

deat.difDd<-diff(deat.difD,1,1)

guiPlot(PlotType="Y Series Lines",DataSet="deat.difDd")

La última gráfica presenta, pues, la serie: tt XBBY )1)(1( 12. Note que s=12, d=1,

D=1.

Las gráficas de ACF y PACF muestrales de la serie {Yt} se obtienen adicionando a las

instrucciones de arriba las líneas:

acf(x = deat.difDd,24, type = "correlation")

acf(x = deat.difDd,24, type = "partial")

Gráfica30. ACF y PACF de la Serie tXBB )1)(1( 12, donde Xt es la serie

muertes.

Lag

AC

F

0 5 10 15

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Series : deat.difDd

Lag

Pa

rtia

l A

CF

0 5 10 15

-0.3

-0.2

-0.1

0.0

0.1

0.2

Series : deat.difDd

Autocorrelation matrix:

lag deat.difDd lag deat.difDd

1 0 1.0000 13 12 -0.3332

2 1 -0.3558 14 13 0.0902

3 2 -0.0987 15 14 0.1163

4 3 0.0955 16 15 -0.0406

5 4 -0.1125 17 16 -0.0633

6 5 0.0415 18 17 0.1833


112

7 6 0.1141 19 18 -0.1929

8 7 -0.2041 20 19 0.0242

9 8 -0.0071 21 20 0.0496

10 9 0.1001 22 21 -0.1201

11 10 -0.0814 23 22 0.0411

12 11 0.1952 24 23 0.1631

25 24 -0.0989

Los valores 0126.0)36(ˆ,0989.0)24(ˆ,333.0)12(ˆ sugieren un modelo

MA(1) para los datos anuales, pues después de )12(ˆ , los valores de )(ks para k=2,3… son

estadísticamente igual con cero. Es decir, P=0 y Q=1.

Por otra parte, )1(ˆ es el único término de correlación de los 11 primeros

significativamente diferente de cero. Por lo que escogemos un modelo MA(1) para los datos

mensuales. Es decir, p=0 y q=1.

De acuerdo a lo anterior, tenemos que:

1312*

131212*

1)1)(1()(

1)1)(1()(

BBBBBB

BBBBBB

s

Hemos visto, pues, que el modelo adecuado para la serie {Xt} corregida por la media es

un proceso SARIMA(0,1,1) x (0,1,1)12. El ajuste se llevó a cabo con el paquete R. Una vez

que tenemos nuestros datos en un vector, usamos la función arima0. Es decir,

> deat

[1] 9007 8106 8928 9137 10017 10826 11317 10744 9713 9938 9161 8927

[13] 7750 6981 8038 8422 8714 9512 10120 9823 8743 9129 8710 8680

[25] 8162 7306 8124 7870 9387 9556 10093 9620 8285 8433 8160 8034

[37] 7717 7461 7776 7925 8634 8945 10078 9179 8037 8488 7874 8647

[49] 7792 6957 7726 8106 8890 9299 10625 9302 8314 8850 8265 8796

[61] 7836 6892 7791 8129 9115 9434 10484 9827 9110 9070 8633 9240

> deatD<-diff(deat,12,1)

> deatDd<-diff(deatD,1,1)

> fit<-arima0(deat,order=c(0,1,1),seasonal=list(order=c(0,1,1),period=12),method="ML")

> mean(deatDd)

[1] 28.83051

> fit

Call:

arima0(x = deat, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1), period = 12),

method = "ML")

Coefficients:

ma1 sma1

-0.4277 -0.5546

s.e. 0.1229 0.1715

sigma^2 estimated as 99797: log likelihood = -425.54, aic = 857.08


113

Por lo que el modelo ajustado para {Xt} (la serie original) es un proceso

SARIMA(0,1,1) x (0,1,1)12, dado por:

)99797,0( Z, )5546.01)(4277.1(8305.28 t

12

12 WNZBBX tt

Ejemplo VI.2.2. Consideremos el archivo VIAJEROS.TXt. Esta serie la vimos en el capítulo

2, y recordemos que fue necesario diferenciar a distancia 12 y a distancia uno, es decir s=12,

D=1 y d=1. Con lo que obtuvimos:

Gráfica31. Serie tXBB )1)(1( 12, donde Xt es la serie de viajeros.

0 50 100 150 200 250 300

-500

0

500

1000

Viaj

El paso siguiente es analizar las gráficas de ACF y PACF para obtener los valores de

P, Q, p y q. Las gráficas son:

Gráfica32. ACF y PACF de tXBB )1)(1( 12, donde Xt es la serie de viajeros.

Lag

AC

F

0 5 10 15 20

-0.5

0.0

0.5

1.0

Series : viaj.difDd

Lag

Pa

rtia

l A

CF

0 5 10 15 20

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

Series : viaj.difDd

Las gráficas anteriores las obtenemos, en S-PLUS, mediante:

guiPlot(PlotType="Y Series Lines",DataSet="viajeros")

viaj.difD<-diff(viajeros,12,1)

guiPlot(PlotType="Y Series Lines",DataSet="viaj.difD")

viaj.difDd<-diff(viaj.difD,1,1)

guiPlot(PlotType="Y Series Lines",DataSet="viaj.difDd")

acf(x = viaj.difDd,24, type = "correlation")

acf(x = viaj.difDd,24, type = "partial")


114

De acuerdo a la ACF, podemos ver que después de h=12, la ACF es estadísticamente

igual con cero, por lo que Q=1. Para h=1,…,11, la ACF toma varios valores distintos de cero,

sin embargo, usaremos solo el primero, es decir, q=1. De la gráfica de la PACF, como lo

hicimos con la ACF, podemos obtener P=1 y p=1. Así, el modelo que ajustaremos a la serie de

viajeros será un modelo SARIMA(1,1,1) x (1,1,1)12.

El ajuste lo hicimos en con el paquete R y, específicamente, con la función arima0.

fit<-arima0(viaj,order=c(1,1,1),seasonal=list(order=c(1,1,1),period=12),method="ML")

> media<-mean(viaj)

Obteniendo:

Coefficients:

ar1 ma1 sar1 sma1

0.4074 -0.9156 0.0125 -0.8349

s.e. 0.0525 0.2583 0.0690 0.0422

sigma^2 estimated as 13377: log likelihood = -1969.67, aic = 3949.33

> media

[1] 785.8164

Por lo que el modelo ajustado para la serie original es un proceso SARIMA(1,1,1) x

(1,1,1)12, dado por:

)13377,0( Z

, )835.01)(916.01()012.01)(407.01(8.785

t

1212

12

WN

ZBBXBBX ttt

VI.2.1 Predicción con Modelos SARIMA

El proceso de predicción en los procesos SARIMA es análogo al presentado en los

procesos ARIMA. El proceso consiste en desarrollar los binomios usados para volver

estacionaria la serie. Es decir, desarrollar el término Dsd BB )1()1( , el cual está dado por:

)2..(....................)()1()1(

)1........(....................)()1()1(

0

0

VIBj

DB

VIBk

dB

jDsjD

j

Ds

kdkd

k

d

El producto de estas dos expresiones resulta un polinomio de orden Ds+d, que se

puede expresar como un solo polinomio )(B . Por lo que podemos escribir:


115

t

dDs

j

jtjt

tt

t

Dsd

t

YXaX

YBX

YBBX

1

)(

)1()1(

donde el término aj expresa el producto de signos y combinatorias de los términos dados en

(VI.1) y (VI.2).

Para t=n+h, despejando Xn+h, obtenemos:

dDs

j

jhnjhnhn XaYX1

,

y dado que el predictor es un operador lineal, la predicción de Xn+h, hnn XP , queda como:

dDs

j

jhnnjhnnhnn XPaYPXP1

Note que el primer término de la derecha es la predicción de un proceso ARMA, el cual

ya hemos estudiado en capítulos anteriores. El segundo término se calcula recursivamente

partiendo del resultado 1. para , 11 jXXP jnjnn

Con respecto al ECM, tenemos que encontrar una expresión análoga a la que

encontramos para el proceso ARIMA. Esto es, una expresión de la forma

0

*

j

jtj Z .

Para esto, tal como lo hicimos para el proceso ARIMA, partimos de la igualdad:

tt

tDsds

s

t

t

s

t

Dsds

t

s

t

s

ZBX

ZBBBB

BBX

ZBBXBBBB

ZBBYBB

)(

)1()1)(()(

)()(

)()()1()1)(()(

)()()()(

*

De esta forma, para un número de observaciones, n, “grande”, podemos usar la

aproximación:

1

0

2*2)ˆ(h

j

jhnXECM ,


116

donde

0

1 , )1()1)(()(

)()()(

jDsd

sj

j zzzzz

zzzz

Ejemplo VI.2.2. Consideremos, nuevamente, el archivo DEATHS.TXT.

Una vez ajustado el modelo como en el ejemplo V.2.1, podemos predecir los siguientes

valores de la serie. En este ejemplo, vamos a estimar los siguientes seis valores (de la

observación 73 a la 78). Para esto, nuevamente usando el paquete R, usamos la función

predict. Así, adicionamos la línea siguiente a las líneas con las que ajustamos el proceso del

ejemplo V.2.1:

> forecast<-predict(fit,n.ahead=6,se.fit=TRUE)

> forecast

$pred

Time Series:

Start = 73

End = 78

Frequency = 1

[1] 8336.999, 7533.183, 8317.035, 8589.337, 9490.938, 9860.644

$se

Time Series:

Start = 73

End = 78

Frequency = 1

[1] 315.8686 363.8916 406.2772 444.6406 479.9473 512.8289

En la primera línea en negritas de los resultados se tienen las estimaciones y en la

segunda su correspondiente raíz del ECM.

Al final del capítulo aparece una tabla, extraída de [Box, Jenkins y Reinsel (1994)] en

la que se resumen algunos modelos estacionales, junto con su función de autocovarianzas y

algunas propiedades importantes.

VI.3. REGRESIÓN CON ERRORES ARMA(p,q)

Como tarea importante en la generalización de la técnica de regresión tradicional, se

presenta el caso donde los errores del modelo de regresión siguen un proceso ARMA(p,q), en

vez de suponer que son independientes e idénticamente distribuidos (iid). Esta generalización

es muy útil ya que en muchos casos prácticos, la suposición de independencia no se cumple.

Enseguida daremos un breve resumen de las técnicas de estimación del Análisis de

Regresión.


117

VI.3.1 Mínimos Cuadrados Ordinarios (MCO)

Consideremos el modelo de regresión simple en forma matricial:

XY

Este método consiste en escoger el valor de ˆ que minimice la suma de cuadrados de

las desviaciones de las observaciones respecto a su valor esperado, es decir, el valor que

minimiza:

)()'()]([1

2 XYXYyEyN

i

ii

donde N es el número de observaciones.

El estimador resultante, MCO

ˆ , es el siguiente:

YXXXMCO

')(ˆ 1'

VI.3.2 Mínimos Cuadrados Generalizados (MCG)

Cuando asumimos que conocemos la matriz de varianzas-covarianzas del vector de

errores, es decir, suponemos VCov )( , podemos minimizar, respecto a , la cantidad:

)()'( 1 XYVXY

El estimador resultante, MCG

ˆ , es el siguiente:

YVXXVXMCG

1'11' )(ˆ

Note que si IV 2, tenemos el caso de MCO. Para más detalles revisar [Searle S.R.

Linear Models (1997)].

En el Análisis de Regresión Estadístico, generalmente, se supone que los errores son

independientes e idénticamente distribuidos (iid). Sin embargo, en la práctica este supuesto no

se cumple. Esto se puede corroborar examinando los residuales del modelo ajustado y su

autocorrelación muestral.

Por lo anterior, una aplicación del análisis de Series de Tiempo en el Análisis de

Regresión es considerar que los errores {Wt} siguen un proceso causal ARMA(p,q) con media

cero dado por ),0(con , )()( 2WNZZBWB ttt .

Consideremos el modelo de regresión simple:


118

0]E[Wcon ),( donde , t

' qpARMAWWxY tttt , t=1,…,n

Dicho de otra forma, {Wt} satisface:

),0(con , )()( 2WNZZBWB ttt

El modelo lo podemos expresar en forma matricial como:

WXY

donde )',...,,( 21 nYYYY , X es la matriz diseño cuya i-ésima hilera está dada por los valores

que toman las variables explicatorias en el tiempo t, ),...,,,1( 1

'

tktktt xxxx , k es el número de

variables explicatorias, es decir, X es de orden n x (k+1) y )',...,,( 21 nWWWW es el vector de

errores. También, definimos los vectores de parámetros asociados al proceso {Wt},

),...,( 1 p y )',...,( 1 q .

El problema que abordaremos será ¿cómo estimar este modelo? Es decir, identificar el

proceso que sigue {Wt} y estimar el vector de regresión, . Para esto, debemos recurrir a

estrategias que nos permitan tener valores iniciales de los parámetros en cuestión.

Tomemos como estimador inicial de al estimador de regresión por MCO

YYW

XY

YXXX

ˆˆ

ˆˆ

)(ˆ

)0(

)0()0(

'1')0(

Una vez que conocemos la primera estimación de W , podemos conocer su matriz de

varianzas-covarianzas. Sea ]'[ WWEn dicha matriz. Así, se puede obtener la matriz de

covarianzas de )0(

ˆ , la cual está dada por:

1''1')0(

)()()ˆ( XXXXXXCOV n

Ahora, teniendo )0(

W , podemos identificar qué proceso sigue. Es decir, podemos

ajustar un modelo de la forma ),0(con , )()( 2WNZZBWB ttt .

El siguiente paso es refinar la estimación del vector por el método de MCG

considerando que conocemos la matriz de covarianzas de los errores, ]'[ WWEn . Así,


119

)1()1(

)1()1(

1'11')1(

ˆˆ

ˆˆ

)(ˆ

YYW

XY

YXXX nn

Ahora el nuevo vector de parámetros )1(

ˆ tiene matriz de Covarianzas:

11'

11'11'11')1(

)(

)()()ˆ(

XX

XXXXXXCOV

n

nnnnn

Cabe mencionar que para efectuar esta estimación es necesario conocer los vectores

y .

Se puede mostrar que,

)()()0(')1('

cVARcVAR

Usando )1(

ˆ se vuelven a estimar los residuales )1(

W , a los cuales se les ajusta un

nuevo modelo ARMA(p,q) con el fin de refinar los vectores y . El proceso es iterativo y

termina cuando los parámetros convergen.

El proceso de estimación nos conducirá a la convergencia

(i)

)(

ˆy

ˆ

ˆ

i

MCG

Cabe destacar que el proceso ARMA(p,q) ajustado en cada iteración i > 0 actualiza los

valores de y del proceso inicial.

Lo anterior se resume en el siguiente diagrama:


120

Figura4. Proceso de ajuste de un modelo de regresión con errores siguiendo un

proceso ARMA(p,q).

WXY : Modelo Inicial.

YXXX '1')0()(ˆ : Se estima con MCO.

)0()0( ˆˆ XYW : Se genera el proceso {Wt} de residuales como

)0(W .

Ajustar un proceso ARMA a )0(

ˆi

W

n

)0()0(implican y

ii

YXXX nn

i 1'11')1()(ˆ

)1()1( ˆˆ

iiXYW

Ejemplo VI.3.1. Consideremos la serie de 57 mediciones de la cantidad de gasolina en un

tanque estacionario. El archivo es OSHORTS.TXT.

El modelo propuesto para el stock de gasolina en el tanque es:

tt WY

Donde –β es interpretado como la merma diaria en el tanque de gasolina y {Wt} un

proceso MA(1). Esto es, {Wt} cumple:

),0( , 2

1 WNZZZW tttt


121

Para ajustar el modelo, en ITSM, seleccionamos la opción Regression>Specify y

marcamos la opción Include Intercept term, luego seleccionamos la opción

Regression>Estimation>Least Squares.

El siguiente paso es ajustar un modelo ARMA a la serie {Wt}. Para ello, seguimos los

pasos Model>Estimation>Autofit (seleccionará el modelo ARMA con mínimo AICC):

Method: Maximum Likelihood

Y(t) = M(t) + X(t)

Based on Trend Function: M(t) = - 4.0350877

ARMA Model: X(t) = Z(t) - .8177 Z(t-1)

WN Variance = .204082E+04

Con esto, podemos obtener una nueva estimación para el modelo de regresión por el

método de MCG. Para ello, seleccionamos la secuencia (en ITSM) Regression> Estimation>

Generalized LS y los resultados aparecerán en la ventana Regression Estimates.

Method: Generalized Least Squares

Y(t) = M(t) + X(t)

Trend Function: M(t) = - 4.7449426



Como vimos en el desarrollo de la teoría, el proceso es iterativo, por lo que tenemos

que ajustar nuevamente el modelo para los errores. Esto se logra en ITSM presionando el

botón azul superior MLE:

Method: Generalized Least Squares

Trend Function: M(t) = - 4.7799300



Después de 4 iteraciones el proceso converge como se puede ver en el siguiente cuadro

resumen:

Cuadro3. Resumen del ejemplo regresión con errores ARMA.

Iteración i )(ˆ i )(ˆ i

1 0 - 4.0350877

2 - .8177 - 4.7449426

3 - .8475 -4.77992996

4 - .8475 -4.77992996

En S-PLUS se usan, iterativamente, las instrucciones:


122

media<-mean(t(oshorts$stock))

mco<-lm(oshorts$stock ~ oshorts$stock)

resid<-oshorts$stock-media

ajuste.res<-arima.mle(resid,list(ma=0))

mcg<-lm(oshorts$stock ~ oshorts$stock + resid)

mco

ajuste.res

mcg

Obteniendo como primera iteración:

Coefficients:

(Intercept)

-4.035088

Method: Maximum Likelihood

Model : 0 0 1

Coefficients:

MA : 0.81763


ma(1)

ma(1) 0.005815465

Coefficients:

(Intercept) resid

-4.035088 1

VI.4. RAICES UNITARIAS EN SERIES DE TIEMPO

El problema de las raíces unitarias surge cuando los polinomios Autorregresivos o de

Promedio Móvil de un proceso ARMA tienen una raíz igual con 1. Las consecuencias de este

problema estriban en las diferenciaciones. Si encontramos que el polinomio Autorregresivo

tiene una raíz unitaria, entonces significa que la serie no es estacionaria y en consecuencia,

requiere ser diferenciada; mientras que, si encontramos una raíz unitaria en el polinomio de

Promedio Móvil, significa que la serie está sobrediferenciada.

VI.4.1 Raíces Unitarias en el polinomio Autorregresivo

El grado de diferenciación en una serie {Xt}, como vimos, está determinado por la

aplicación del operador de diferencia repetidamente hasta que la gráfica de la función de

autocorrelación muestral de la serie diferenciada, ACF, decae rápidamente. De aquí que, el

modelo ARIMA(p,d,q) tiene un polinomio autorregresivo con d raíces en el círculo unitario.

En esta sección discutiremos las pruebas básicas de raíces unitarias para decidir si

tenemos o no que diferenciar la serie.

Supongamos que {Xt} sigue un proceso AR(1) con media μ, es decir:

),0( , )( 2

11 WNZZXX tttt


123

Por otra parte, sabemos que, para un número de observaciones n, grande, el estimador

de máxima verosimilitud de 1 tiene la propiedad: )/)1(,(ˆ 2

111 nN .

La prueba de hipótesis de raíz unitaria en este modelo consiste en establecer:

1: v.s1: 1110 HH

Para construir la estadística de prueba, escribimos el modelo AR(1) como sigue:

1

)1(

donde

1

*

1

1

*

0

1

*

1

*

0

1

tt

ttt

ZX

XXX

Note que esta representación es análoga al modelo de análisis de regresión expuesto en

la sección VI.3. En este caso, la variable dependiente es tX y la independiente es Xt-1.

Si *

1 es el estimador de MCO de *

1 , entonces su correspondiente Error Estándar

muestral (EE) está dado por:

2/1

2

2

1

*

1

)(

)ˆ(ˆn

t

t XX

SEE

n

t

t

n

t

tt

Xn

X

nXXS

2

1

2

2

1

*

1

*

01

2

1

1

)3/(ˆˆ

donde

Dickey y Fuller (1979), bajo el supuesto de raíz unitaria, derivaron la distribución

asintótica (n grande) para la prueba de hipótesis propuesta. Dicha estadística de prueba es la

razón dada por:

)ˆ(ˆ

ˆˆ

*

1

*

1

EE

Los valores críticos para tres diferentes niveles de significancia se muestran en la tabla

siguiente:


124

Cuadro4. Valores críticos de Dicky-Fuller.

α D/Fα t-student

0.01 -3.43 -2.33

0.05 -2.86 -1.96

0.10 -2.57 -1.65

La regla de decisión es:

0

0

Rechazar No /

Rechazar /

HFD

HFD

Note que es menos probable rechazar la hipótesis de raíz unitaria usando la

distribución límite de Dickey-Fuller que usando la aproximación a la distribución t-Student.

El procedimiento de prueba anterior se puede extender al caso de un proceso AR(p)

con media μ dado por:

),0( , )()( 2

11 WNZZXXX ttptptt

Siguiendo la misma idea que en el AR(1), el modelo AR(p) lo podemos escribir como:

tptpttt ZXXXX 1

*

1

*

21

*

1

*

0

p,...,2j ,

1

)1(

:donde

1

*

1

*

1

1

*

0

p

i

ij

p

i

i

p

La prueba de raíz unitaria, como en el AR(1), es equivalente a probar 0*

1 . La

estadística de prueba y la regla de decisión son las mismas que en el caso del proceso AR(1).

Ejemplo VI.4.1. Consideremos la serie de datos del Lago Hurón. El archivo es LAKE.TXT.

La gráfica de esta serie se encuentra en la gráfica22 y las gráficas de las funciones de

autocorrelación y autocorrelación parcial en la gráfica23.

La PACF muestral sugiere ajustar un modelo AR(2). Sin embargo, para ejemplificar la

teoría descrita, propondremos un modelo AR(1).


125

Para llevar a cabo el ajuste del modelo de regresión de tX sobre Xt-1 en S-PLUS

seguimos: En el Dataset “Lake”, seleccionamos Data> Transform y en el cuadro de diálogo

que aparece escribimos la Expression: diff(Lake,1,1), esto creará una nueva columna (llamada

V1) con las diferenciaciones a distancia 1. Enseguida seleccionamos Statistics> Regression>

Linear y en la opción Variable Dependent seleccionamos “V1” y en Independent elegimos

“lake”. Obteniendo:

Cuadro5. Parámetros estimados de la regresión de tX sobre Xt-1.

Coefficients:

(Intercept)

lake

Value

1.4670

-0.1636

Std. Error

0.5061

0.0557

t value

2.8986

-2.9381

Pr(>|t|)

0.0047

0.0041

Note que la columna t value muestra la estadística de prueba de Dickey-Fuller. Es

decir:

94.205568.0

16359.0ˆ

De acuerdo a la regla de decisión de Dickey Fuller, a un nivel de significancia del 1%,

no se rechaza la hipótesis de raíz unitaria, pues -3.43)(-2.94 /ˆ 01.0FD . Esto permite

concluir que existe raíz unitaria en el polinomio autorregresivo y esto, a su vez, implica que la

serie no está suficientemente diferenciada, como lo mencionamos anteriormente en base a la

gráfica de la PACF muestral. Nótese, también, que si usamos la aproximación a la distribución

t-Student, la hipótesis nula se rechazaría al nivel de significancia del 1%, pues es mayor al p-

value=0.41%.

Veamos ahora que pasa si proponemos un modelo AR(2). Esto implica llevar a cabo la

regresión de tX sobre Xt-1 y 1tX para t=3,…,98. El procedimiento es similar al anterior

con la novedad de que ahora se agrega una nueva variable independiente, a saber 1tX .

Cuadro6. Parámetros estimados de la regresión de tX sobre Xt-1 y 1tX .

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.9196 0.5023 3.8217 0.0002

lake -0.2158 0.0554 -3.8977 0.0002

V1 0.2376 0.0971 2.4457 0.0163

donde: V1:= 1tX ;

lake:= Xt-1,

t=3,…,98.

De los resultados podemos ver que:

9.305538.0

21584.0ˆ


126

De acuerdo a la regla de decisión de Dickey Fuller, a un nivel de significancia del 1%,

se rechaza la hipótesis de raíz unitaria, pues -3.43)(-3.9 /ˆ 01.0FD . Con esto,

concluimos que ajustando un AR(2) no existe raíz unitaria.

VI.4.2 Raíces Unitarias en el polinomio de Promedio Móvil

La interpretación de la existencia de raíces unitarias en el polinomio de promedio

móvil depende de la aplicación del modelo. Una de ellas es, como ya se mencionó, que la serie

está sobrediferenciada. Supongamos que {Xt} sigue un proceso ARMA(p,q) invertible, por lo

que satisface:

),0( Z, )()( 2

t WNZBXB tt

Entonces, la serie diferenciada tt XY es un proceso ARMA(p,q+1) no invertible

con polinomio de promedio móvil dado por: )1)(( zz . De aquí que, probar la existencia de

raíz unitaria es equivalente a probar que la serie está sobrediferenciada.

En la presente, nos limitaremos al caso de raíces unitarias en procesos MA(1).

Supongamos que {Xt} forma un proceso MA(1):

),0( Z, 2

t1 IIDZZX ttt

Supongamos, también, la existencia de raíz unitaria (z=1), por lo que el polinomio de

promedio móvil 01z implica que 1. Esta última igualdad es, de hecho, la hipótesis

por probar. Bajo esta hipótesis, [Davis y Dunsmuir (1995)] mostraron que n( ˆ +1), donde ˆ

es el estimador de Máxima Verosimilitud de θ, tiene la propiedad de converger en

distribución. Lo anterior se resume en probar el juego de hipótesis:

1: v.s1: 10 HH

La regla de decisión es: Si

0

0

Rechazar No /1ˆ

Rechazar /1ˆ

HnC

HnC

donde C es el (1-α) cuantil de la distribución límite de n( ˆ +1). Los valores críticos de esta

distribución se muestran en el siguiente cuadro para tres niveles de significancia, los cuales

fueron extraídos de la tabla 3.2 de [Davis, Chen y Dunsmuir (1995)]:

Cuadro7. Valores críticos de la estadística Cα.

α Cα

0.01 11.93

0.05 6.80

0.10 4.90


127

Note que la desigualdad de la regla de decisión es resultado de la desigualdad

Cn )1ˆ( .

Cabe mencionar que existe otra estadística de prueba para probar el mismo juego de

hipótesis (de raíz unitaria) que consiste en la prueba de Razón de Verosimilitud. Para más

detalles consultar [Brockwell y Davis (2002) pp. 197].

Ejemplo VI.4.1. Consideremos la serie de datos del ejemplo VI.3.1 (57 observaciones de

cantidad de gasolina en un tanque estacionario).

Recordemos que el modelo ajustado para los datos corregidos por la media fue:

ARMA Model:

X(t) = Z(t) - .8177 Z(t-1)


De acuerdo a la regla de decisión descrita arriba, al 5% de significancia, tenemos que:

nC

nC

/1ˆ

881.057/8.61/1

8177.0ˆ

05.0

05.0

Rechazar la hipótesis de raíz unitaria en el polinomio de promedio móvil.

Nótese que en este ejemplo consideramos que la media es conocida. En la práctica, la

prueba debe ser ajustada por el hecho de que la media también debe ser estimada.


128

Cuadro8. Autocovarianzas de algunos modelos estacionales.

Modelo (Autocovarianza de Xt)/σ2 Algunas características

3

)1)(1(

11

s

ZZZZ

ZBBX

ststtt

t

s

t

ceroson demás Las

)1(

)1(

)1)(1(

11

2

1

2

1

22

0

ss

s

s 111

11

)(

)(

sss

ss

b

a

3

)1)(1()1(

11

s

ZZZZXX

ZBBXB

ststttstt

t

s

t

s

ceroson ,...,, 4,s Para

2,

1

)()1(

1

)(

1

)(1

1

)(1)1(

232

11

2

22

2

2

1

2

2

1

2

22

0

s

sjj

ss

s

s

sj

2, )(

)( 11

sjb

a

sjj

ss


129


5

)1)(1(

2222122122212

11112211

2

21

2

21

s

ZZZZ

ZZZZZ

ZBBBBX

stststst

ststttt

t

ss

t

)1)(1(

)1)(1(

)1(

)1(

)1)(1(

)1)(1(

2

2

2

2

2

11

2

22111

2

2122

2

2

2

122

2

2

2

1211

2

2

2

1

2

2

2

10

s

s

s

1212

2222

11

22

)(

)(

)(

)(

ss

ss

ss

ss

d

c

b

a

cero a igualson resto El

)1(

)1(

2222

1212

2

2

2

122

22112

2222

22

11

ss

ss

s

s

s

ss

ss


130


3

)1(

1111

1

11

s

ZZZZ

ZBBBX

stsststt

t

s

s

s

st

11

11

11

111

2

1

22

10 1

ss

sss

ss

ss

ss

11

11

general,En )(

ss

ss

a

3

)1()1(

1111

1

11

s

ZZZZXX

ZBBBXB

stsststtstt

t

s

s

s

st

s

ceroson ,...,, 4,s Para

2,

1

)(1)(

1

)()(

1

)(1)(

1

)()(

1

))((

1

)(

1

)(1

232

2111

2

11

111

2

2

11

11

2

11

11

2

2

11

2

2

2

10

s

sjj

s

ss

s

s

s

ss

s

ss

ss

ss

sj

2, )(

)( 11

sjb

a

sjj

ss


131

CAPITULO VII. SERIES DE TIEMPO MULTIVARIADAS

El análisis de series de tiempo multivariadas consiste, esencialmente, en analizar varias

series de tiempo a la vez. Este análisis es justificable, puesto que en la práctica es difícil que

una variable actúe por si misma. Es decir, muchas veces hay una interdependencia entre varias

variables.

Supongamos dos series {Xt1} y {Xt2}. Cada una de ellas las podemos analizar por

separado como series univariadas, sin embargo puede que exista algún tipo de dependencia

entre ambas variables y tal dependencia puede ser de gran importancia cuando se tenga interés

en predicciones futuras de las variables.

Sin perdida de generalidad se dará el caso de dimensión 2, ya que su extensión a

dimensión k es muy sencilla. Consideremos la serie bivariada '

21 ),( ttt XXX . Definimos la

función vectorial promedio como sigue:

2

1

t

t

t EX

EX

y la función matricial de covarianzas como:

),cov( ),cov(

),cov( ),cov(),(),(

22,12,

21,11,

thttht

thttht

thtXXXX

XXXXXXCovtht

Cuando la función vectorial promedio y la función matricial de covarianzas de la serie

bivariada '

21 ),( ttt XXX no depende de t, se dice que es estacionaria en sentido débil, en

cuyo caso usamos la notación:

2

1

t

t

EX

EX

y

)( )(

)( )(),()(

2221

1211

hh

hhXXCovh tht

Note que los elementos de la diagonal de la matriz de covarianzas son las funciones de

autocovarianzas univariadas de cada serie. Mientras que, los elementos fuera de la diagonal

son las covarianzas cruzadas. Es decir: )()( hh Xiii . Más adelante enumeraremos algunas

de las propiedades de )(h para las series multivariadas.

Ejemplo VII.1. Consideremos el archivo LS2.TXT. Los datos de la serie uno corresponden a

ventas {Yt1, t=1,…,150}; la segunda serie muestra un indicador de dirección de ventas, {Yt2,


132

t=1,…,150}. Para graficar las series, seleccionamos la columna “ventas” del dataset “LS2” y

seleccionamos la opción de gráfica Y Series Line. Lo mismo para la columna “indicador”.

Gráfica33. Serie bivariada: ventas e indicador de ventas.

5 30 55 80 105 130 155

10

11

12

13

14

ven

tas

5 30 55 80 105 130 155

200

220

240

260

ind

ica

do

r

> num.datos 150

> media.ventas 11.84673

> media.indicador 229.978

> desv.est.ventas 1.215853

> desv.est.indic 21.47969

La gráfica de las series muestra que ambas series son no estacionarias, por lo que es

necesario diferenciarlas a distancia uno. La gráfica resultante de las series diferenciadas {Dt1}

y {Dt2} es:

Gráfica34. Serie tXB)1( , donde tX es la serie bivariada: ventas e indicador de

ventas.

5 30 55 80 105 130 155

-1.0

-0.5

0.0

0.5

ven

t.d

if

5 30 55 80 105 130 155

-4

-2

0

2

4

ind

.dif

Las instrucciones para hacer las gráficas de las series diferenciadas son:

vent.dif<-diff(LS2$ventas,1,1)

ind.dif<-diff(LS2$indicador,1,1)

guiPlot(PlotType="Y Series Lines",DataSet="vent.dif")

guiPlot(PlotType="Y Series Lines",DataSet="ind.dif")

Las gráficas de autocorrelación muestral y autocorrelación cruzadas se obtienen

mediante las instrucciones:


133



ls2.dif<-cbind(vent.dif,ind.dif)

acf(ls2.dif,lag.max=40, type="correlation",plot=T)

Gráfica35. ACF y PACF de la serie tXB)1( , donde tX es la serie bivariada:

ventas e indicador de ventas.

vent.dif

ACF

0 10 20 30 40

-0.4

0.0

0.2

0.4

0.6

0.8

1.0

vent.dif and ind.dif

0 10 20 30 40

-0.2

-0.1

0.0

0.1

ind.dif and vent.dif

Lag

ACF

-40 -30 -20 -10 0

-0.4

-0.2

0.0

0.2

0.4

0.6

ind.dif

Lag0 10 20 30 40

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Multivariate Series : ls2.dif

)(ˆ hij está graficada en la hilera i y columna j. Cabe mencionar que la interpretación

de las gráficas de autocorrelación cruzada se debe hacer con cuidado, ya que es fácil cometer

errores en dicha interpretación.

VII.1. PROPIEDADES DE LA FUNCIÓN DE AUTOCOVARIANZAS, )(h

Consideremos un vector de dimensión m dado por )',...,,( 21 tmttt XXXX . Es decir,

tX tiene observaciones de m series de tiempo estacionarias en el tiempo t. La matriz de

Autocovarianzas, )(h , tiene las siguientes propiedades:

1. )()( ' hh

2. m1,...,ji, )0()0()(2/1

jjiiij h

3. )(ii es una función de autocovarianzas, i=1,…,m.

4. n

kj

kj akja1,

'0)( para todo ,...2,1n y m

n Raa ,...,1 .

Demostración.

Para probar la primera propiedad basta con aplicar la definición dada al inicio de este capítulo.

Para ejemplificar tal propiedad, supongamos h=1 y h=-1, también supongamos que la serie es

bivariada. De aquí,


134

)1()1(

)1( )1(

)1( )1(

)1( )1(

)1( )1(

),cov( ),cov(

),cov( ),cov()1(

)1( )1(

)1( )1(

),cov( ),cov(

),cov( ),cov()1(

'

2212

2111

2221

1211

22,112,1

21,111,1

2221

1211

22,112,1

21,111,1

tttt

tttt

tttt

tttt

XXXX

XXXX

XXXX

XXXX

De las igualdades anteriores, concluimos la primera propiedad.

Para probar la segunda igualdad usamos la definición de correlación y el hecho de que esta no

puede ser mayor a 1 en valor absoluto. Es decir:

2/1

2/1ij

)0()0()(

1)0()0(

)()(

jjiiij

jjii

ij

h

hh

La tercera propiedad no es más que una observación de la diagonal de la matriz de

autocovarianzas. Esto es, podemos ver que )(ii es la función de autocovarianzas de la serie

estacionaria {Xti, i=1,…,m}.

Para probar la propiedad 4 consideremos la variable:

)()()('

2'21

'1 nn XaXaXaW

Cuya varianza está dada por:

n

kj

kjk

n

kj

kjj akjaaXXaWVar1,

'

1,

')()cov()cov()(

La última expresión es la que nos interesa y es mayor o igual a cero ya que sabemos que,

siendo una varianza, no puede ser un valor negativo. De esta forma, quedan probadas las

cuatro propiedades de la matriz de Covarianzas.

///

Definición VII.1.1. [Ruido Blanco Multivariado].- El proceso }{ tZ de dimensión m

es llamado Ruido Blanco Multivariado con vector de medias cero y matriz de covarianzas Σ si

}{ tZ es estacionario con vector promedio 0 y tiene matriz de covarianzas definida por:

modo otro de 0

0 si )(

m

hh


135

Se usa la notación: ),0(WNZ t ; 0 es el vector cero de dimensión m; m0 es la matriz cero

de dimensión m x m.

Nótese que la definición no indica independencia entre las componentes de }{ tZ , sino

entre las observaciones de }{ tZ .

Recordemos que en las series de tiempo univariadas definimos un proceso lineal a

partir de la definición de proceso de Ruido Blanco. Para el caso multivariado, también existe

este concepto. La diferencia se halla en que ahora los coeficientes del proceso }{ tZ son

matrices. A continuación damos la definición de proceso lineal multivariado.

Definición VII.1.1. [Proceso Lineal Multivariado].- La serie m-variada }{ tX es un

proceso lineal si tiene la representación:

j

jtjt ZCX con ),0(WNZ t

donde {Cj} es una secesión de matrices m x m cuyos componentes son absolutamente

sumables.

Esta definición la usaremos más adelante para introducir el concepto de causalidad en

series multivariadas. También, a partir de ella, se tiene el resultado siguiente, el cual nos ayuda

a determinar la función de autocovarianzas )(h para }{ tX .

RESULTADO VII.1.- Si }{ tX es un proceso lineal de dimensión m, entonces )(h se puede

escribir como:

j

jhj CCh ')(

Demostración.

Dado que }{ tX es un proceso lineal, tiene la propiedad: j

jtjt ZCX con

),0(WNZ t . Partiendo de esto y la definición de covarianza, tenemos:

hthtthht

j

jtj

j

jhtjtht

ZCZCZCZCCOV

ZCZCCOVXXCOV

00

00

,

,),(

Como }{ tZ es un proceso de Ruido Blanco, ),( tht ZZCOV para h=0 y m0 de otro modo.

Así,


136

0

'

0

'

'

1111

'

0

'

1111

'

110

'

0

'

00

),(

),(),(

),(),(

),(),(),(

j

jhj

j

jjtjthj

tthtth

tththt

tththttht

CCΓ(h)

CZZCOVC

CZZCOVCCZZCOVC

CZZCOVCCZZCOVC

CZZCOVCCZZCOVCXXCOV

Con lo queda demostrado el resultado.

///

Ejemplo VII.1.1. Consideremos el modelo estacionario bivariado siguiente: ttt ZXX 1

con ),0(WNZ t . Explícitamente, tenemos:

2

1

2,1

1,1

2221

1211

2

1

t

t

t

t

t

t

Z

Z

X

X

X

X

Encontremos una expresión de }{ tX como proceso lineal. Esto se logra iterando el

modelo como sigue:

)(

)(

122

33

1232

122

121

tttttttt

ttttttttt

ZZZXZZZX

ZZXZZXZXX

Aplicando el proceso repetidamente, llegamos a la expresión:

0j

jtj

t ZX

De esta forma, usando el resultado VII.1 podemos encontrar una expresión de la

función de Covarianzas )(h del proceso:

0

')(j

jhjh

VII.2. ESTIMACIÓN DEL VECTOR PROMEDIO Y LA FUNCIÓN DE COVARIANZAS

En esta sección introduciremos los estimadores de los componentes ijy , ijj de una

serie estacionaria m-variada }{ tX . También examinaremos las propiedades de los estimadores

cuando se tienen muestras “grandes”.


137

VII.2.1. Estimación del vector promedio,

Como mencionamos anteriormente, el estimador natural del vector de medias basado

en n observaciones nXX ,...,1 es el vector de medias muestrales:

n

t

tn Xn

X1

1ˆ

El estimador resultante de la media de la j-ésima serie de tiempo es, entonces, la

univariada media muestral n

t

tjXn1

/1 .

En seguida daremos un resultado que involucra la varianza del vector de medias,

análogo al resultado IV.1 para series univariadas.

RESULTADO VII.2.- Si }{ tX es una serie de tiempo estacionaria m-variada con vector

promedio y función de covarianzas )(h , entonces conforme n :

0)()'( nn XXE , si minii 1 0)( ,

y

h

m

i

iinn hXXnE1

)()()'( si h

ii h |)(|

Bajo supuestos más restrictivos, se puede mostrar que el proceso }{ tX es distribuido

aproximadamente Normal cuando el número de observaciones es suficientemente grande. Este

hecho nos permite hacer inferencia sobre las medias de las series de tiempo.

VII.2.2. Estimación de la función de Covarianzas, )(h

El estimador natural de la función de autocovarianzas para un proceso estacionario

}{ tX , )')(()( tht XXEh , es:

01 para )(ˆ

10 para ))((1

)(ˆ

'

1

'

h-nh

n-hXXXXnh

hn

t

ntnht

En consecuencia, el estimador de las correlaciones cruzadas es:

,...,mi,jh

hjjii

ij

ij 1 , )0(ˆ)0(ˆ

)(ˆ)(ˆ

2/1


138

Para el caso i=j, la expresión anterior se reduce a la función de autocorrelación

muestral de la i-ésima serie.

Enseguida damos un resultado muy útil al momento de probar independencia entre dos

series.

RESULTADO VII.3.- Sea }{ tX una serie bivariada cuyos componentes están definidos

como:

)IID(0,}{Z ,

y

)IID(0,}{Z ,

2

2t22,2

2

1t11,1

k

ktkt

k

ktkt

ZX

ZX

donde las secuencias }{ 1tZ y }{ 2tZ son independientes. Entonces, para todo entero h y k con

kh , las variables aleatorias )(ˆ12 hn y )(ˆ12 kn se distribuyen, conjuntamente,

aproximadamente como Normal Bivariada con parámetros:

jj

jj

jjhkjj

hkjjjj

Nkn

hn

)()()()(

)()()()(

, 0

0

)(ˆ

)(ˆ

22112211

22112211

12

12

Para llevar a cabo inferencia sobre las medias y las correlaciones debemos conocer sus

propiedades distribucionales. Recordemos que en el caso univariado, para llevar a cabo

inferencia sobre las autocorrelaciones, usamos la Fórmula de Barttlet considerando un número

de observaciones “grande”. En el caso multivariado existe una versión bivariada de esta

fórmula que enunciamos enseguida.

RESULTADO VII.4.- (FÓRMULA DE BARTTLET BIVARIADA). Si }{ tX es una serie de

tiempo bivariada (Gaussiana) con covarianzas tales que 1,2. , |)(| i,jhh

ij Entonces:

])()(2

1)()(

2

1)()(

)()()()()(-

)()()()()(-

)()()()([)(ˆ),(ˆ lim

21

2

22

2

12

2

111212

2122121112

2122121112

211222111212

jjjjkh

hjjhjjk

kjjkjjhn

hjkjhkjjkhnCOVj


139

Note que, al igual que el Resultado VII.2, la fórmula no asume independencia entre las

series {Xt1} y {Xt2}.

El siguiente resultado es un corolario de la fórmula de Barttlet. El supuesto adicional es

que una de las series sigue un proceso de Ruido Blanco.

RESULTADO VII.5.- Si }{ tX satisface las condiciones de la fórmula de Barttlet, y si {Xt1} o

{Xt2} es un proceso de Ruido Blanco y si 0)(12 h , entonces:

n

hnVar 1)(ˆ lim 12

Con lo anterior, podemos establecer la hipótesis: 0)(: 120 hH . Tal hipótesis

establece que las series están no correlacionadas. La prueba de hipótesis se puede llevar a cabo

con un intervalo de confianza usando aproximación Normal. Tal prueba consiste en verificar si

el valor cero se encuentra en el intervalo:

))(ˆ(96.1)(ˆ 1212 hVarh

si es así, no se rechaza H0 con un nivel de significancia del 5%.

VII.3. PROCESOS ARMA MULTIVARIADOS

Como en el caso univariado, definiremos un tipo de procesos estacionarios

multivariados que son muy usuales, los procesos ARMA multivariados. Como veremos, la

definición está basada en la definición de Ruido Blanco multivariado.

Definición VII.3.1. [Proceso ARMA(p,q) Multivariado].- }{ tX es un proceso

ARMA(p,q) multivariado si }{ tX es estacionario y si para cada t se cumple:

),0( donde , 1111 WNZZZZXXX tqtqttptptt

donde ,...,qj,...,pi ji 1 , y 1 , son matrices m x m.

Muchas veces usaremos la notación simplificada siguiente del modelo ARMA, usando

el operador B:

tt ZBXB )()(

donde p

p BBB 11)( y q

q BBB 11)(


140

Note que en la definición se asume 0 . Cuando es diferente de cero, entonces

}{ tX es un proceso ARMA(p,q) multivariado con media si }{ tX es un proceso

ARMA(p,q) multivariado.

Ejemplo VII.3.1. Sustituyendo p=1 y q=0 en la definición VII.3.1, obtenemos el proceso

AR(1) multivariado:

ttt ZXX 1 con ),0(WNZ t .

Como vimos en el ejemplo VII.1.1, podemos escribir tal proceso como proceso lineal:

0j

jt

j

t ZX

Tal representación sólo existe bajo la condición: 0zI 1 que talC zz .

El planteamiento anterior no es más que el concepto de causalidad. En seguida

exponemos formalmente tal concepto. Para modelos univariados definimos este concepto en la

sección III.6.

Definición VII.3.1. [Causalidad].- Un proceso ARMA(p,q) multivariado }{ tX es

causal o una función causal de }{ tZ , si existen matrices }{ j con componentes

absolutamente sumables, tales que:

. todopara 0

tZXj

jtjt

La Causalidad es equivalente a la condición: 0zI 1 que talC zz .

RESULTADO VII.6.- Las matrices }{ j de la definición de causalidad se encuentran

recursivamente de:

0 para 0

para 0

para 0

;

con

0,1,... ,

j

j

j

0

1

j

pj

qj

I

j

m

m

m

k

kjkjj


141

Ejemplo VII.3.2. Consideremos el modelo AR(1) multivariado del ejemplo VII.3.1.

Aplicando el resultado anterior, podemos verificar que existen las matrices }{ j

necesarias para expresar a }{ tX como proceso lineal y por lo tanto el proceso es causal.

El modelo es ttt ZXX 1 . Note que mj 0 para todo j y mj 0 para j > 1.

j

jjj

I

12211

2

102112

1011

0

Note que este resultado ya lo habíamos encontrado en el ejemplo VII.1.1 por otra vía.

NOTA1: Consideremos el modelo AR(1) bivariado con:

00

0 12

Podemos verificar que m

j 0 para j > 1 y por el resultado del ejemplo VII.3.2, se sigue que

mj 0 para j > 1. Sustituyendo }{ j en la expresión de proceso lineal, llegamos a que:

11

11110

0

tt

tttt

j

jtjt

ZZ

ZIZZZ

ZX

Observe que esta expresión corresponde a un modelo MA(1). Hemos partido de un modelo

AR(1) y llegamos a que tiene una representación alternativa como MA(1). Este ejemplo

muestra que no siempre es posible distinguir modelos ARMA multivariados de diferente

orden. Este fenómeno de no-distinción entre modelos se conoce como Dualidad. Muchos

autores evitan este problema enfocándose solo en modelos Autoregresivos. En el presente

trabajo, adoptaremos este enfoque.

VII.3.1. Función de Covarianzas de un proceso ARMA causal, )(h

Si suponemos causalidad en un modelo ARMA(p,q) m-variado sabemos, por la definición

VII.3.1, que: . todopara 0

tZXj

jtj

t donde las matrices }{ j son calculadas de


142

acuerdo al resultado VII.6. Entonces, por el resultado VII.1, la función de Covarianzas

podemos calcularla como:

0

')(j

jhjh

Cabe mencionar que esta expresión es fácil de aplicar cuando es “sencillo” encontrar

las matrices }{ j ; sin embargo, esto no siempre ocurre, por lo que se deben tener estrategias

alternativas para calcular la función de Covarianzas.

Una técnica alternativa para calcular la función de Covarianzas consiste, como en el

caso univariado, en resolver las ecuaciones multivariadas de Yule-Walker. El método consiste

en post-multiplicar ambos lados de la igualdad de la definición de proceso ARMA

multivariado dado en la definición VII.3.1 por '

jtX y tomar valor esperado. El resultado se

resume en la expresión siguiente (ecuaciones multivariadas):

,...2,1,0 , )()(

r

1

hrhhqrh

hr

p

r

r

Para el caso de un proceso AR(p) en donde I0 y mj 0 para j > 0, y haciendo

uso de la propiedad 1 de la función )(h , se tiene el sistema:

mp

mp

mp

mp

p

pp

pp

p

p

p

0)1()()1(

0)0()1()(

0)2()1()2(

0)1()0()1(

)()1()0(

1

1

1

1

1

Resolviendo las primeras p+1 ecuaciones tendremos la solución de )(),...,0( p . El

resto de ecuaciones nos permitirá obtener ),...2(),1( pp de forma recursiva.

VII.4. EL MEJOR PREDICTOR LINEAL

Sea )',....,,( 21 tmttt XXXX una serie de tiempo m-variada con vector promedio

ttXE )( y función de covarianzas dada por las matrices de orden m x m:

''

),(jiji XXEji


143

El problema de encontrar el mejor predictor lineal consiste en encontrar una

proyección de hnX en función de nXX ,...,1 . Es decir, en encontrar las matrices Aj tales que:

)()()(

ˆ

111121 XAXAXA

XPX

nnnnn

hnnhn

Las matrices tienen que cumplir la condición de ortogonalidad siguiente:

,...,niXXPX inhnnhn 1 , ˆ 1

Un caso especial de lo anterior surge cuando nos enfrentamos a una serie que tiene

como vector promedio al vector cero. En tal caso, el mejor predictor lineal de 1nX en función

de nXX ,...,1 , está dado por:

11211ˆ XXXX nnnnnnn

donde los coeficientes nj , j=1,…,n, son tales que '

11'

11ˆ inninn XXEXXE , i=1,…,n

(condición de ortogonalidad). Es decir, se tiene el sistema de ecuaciones:

,...,niinninjnn

j

nj 1 , )1,1()1,1(1

En el caso que )',....,,( 21 tmttt XXXX es estacionario con )(),( jiji , el

sistema de ecuaciones de predicción anterior se reduce a:

,...,niijin

j

nj 1 , )()(1

Los coeficientes }{ nj se obtienen recursivamente del sistema anterior. Tal

procedimiento es una versión multivariada del Algoritmo de Durbin-Levinson dado por

Whittle (1963). Las ecuaciones recursivas de Whittle también permiten obtener el Error

Cuadrado Medio de la predicción (Matrices de covarianzas). Ver [Brockwell y Davis (1991)].

Ejemplo VII.4.1. Para que quede claro qué coeficientes debemos calcular en el predictor,

supongamos un proceso bivariado estacionario con media cero y n=2. Estamos interesados en

predecir la siguiente observación, 3X . En este caso, el mejor predictor lineal estaría dado por:

12

11

)2(2221

1211

22

21

)1(2221

1211

32

31

12213

ˆ

ˆ

ˆ

X

X

aa

aa

X

X

aa

aa

X

X

XAXAX


144

Por lo que debemos calcular las matrices A1 y A2.

NOTA2: Al igual que el Algoritmo de Durbin-Levinson, el Algoritmo de Innovaciones

también tiene una versión multivariada que puede ser usada en predicción. Tal algoritmo es,

prácticamente, igual al univarido (descrito en capítulos anteriores), solo que ahora en lugar de

trabajar con escalares, se trabaja con matrices. Ver [Brockwell y Davis (1991)].

NOTA3: Aunque nuestro enfoque es meramente para modelos AR(p), existe toda una teoría

para modelos generales ARMA(p,q) multivariados. Para llevar a cabo la predicción en estos

modelos se usa el Algoritmo de Innovaciones multivariado. Ver [Lüthkepohl (1993)],

[Brockwell y Davis (1991)] o [Reinsel (1997)].

VII.5. MODELACIÓN Y PRONÓSTICO CON MODELOS AR MULTIVARIADOS

La modelación de series de tiempo multivariadas, como lo hicimos en series

univariadas, se lleva a cabo mediante métodos de estimación tanto preliminar (algoritmo de

Whittle o Burg multivariado) como optimizada (máxima verosimilitud).

VII.5.1. Estimación Preliminar de Whittle (Yule-Walker multivariado)

Si }{ tX es un proceso AR(p) multivariado causal definido por:

),0( donde , 11 WNZZXXX ttptptt

O bien,

),0( donde , 11 WNZZXXX ttptptt

Entonces podemos aplicar el método de Yule-Walker multivariado al proceso para

obtener una estimación preliminar. Es decir, post-multiplicamos por '

jtX para j=0,1,…,p, y

tomar el valor esperado. Obteniendo las ecuaciones:

,...,pijii

j

p

j

j

p

j

j

1 , )()(

)()0(

1

1

El procedimiento consiste en reemplazar las )( j por las )(ˆ j (estimadas) en las

últimas p ecuaciones y resolverlas simultáneamente para así encontrar los estimadores

pˆ,...,ˆ

1 . Luego, sustituirlos en la primera ecuación y encontramos la matriz de covarianzas

del ruido estimada, ˆ .


145

VII.5.2. Máxima Verosimilitud

Supongamos una serie }{ tX con vector promedio igual a cero. De los resultados de la

sección VII.4 y del hecho de que las innovaciones estiman un proceso de Ruido Blanco,

tenemos:

kjXXXXE mkkjj para 0ˆˆ'

Si además suponemos que }{ tX es un proceso Gaussiano (Normal), entonces la

correlación cero de las innovaciones jjj XXU ˆ , j=1,…,n, implica independencia.

También sabemos que las innovaciones tienen como matrices de covarianzas V0,…,Vn-1,

respectivamente. En consecuencia, la distribución conjunta de las jU no es más que el

producto de las distribuciones individuales:

n

j

jjj

n

j

nm

n

un

uVuV

fuufj

1

1

1

'

2/1

1j

1

2/

1j

1

2

1exp)2(

),...,(

Si suponemos que }{ tX sigue un proceso AR(p) multivariado (vector promedio cero)

con coeficientes las matrices },...,{ 1 p y Σ la matriz del Ruido Blanco, entonces

podemos expresar la verosimilitud de las observaciones nXX ,...,1 como:

n

j

jjj

n

j

nm UVUVL1

1

1

'

2/1

1j

1

2/

2

1exp)2(),(

donde jjj XXU ˆ , j=1,…,n. jX es calculado con el Algoritmo de Whittle de la sección

VII.4 descrito antes.

La maximización de la verosimilitud multivariada resulta más complicada que el caso

univariado porque incluye un gran número de parámetros. Para el caso que estamos estudiando

(procesos AR(p)), el Algoritmo de Whittle o de Burg multivariado (desarrollado por Jones

(1978)) dan buenas estimaciones preliminares. Las opciones de estos algoritmos en el software

S-PLUS las encontramos en las mismas funciones que utilizamos para el caso univariado. Es

decir, con las funciones ar.burg(x, aic=T, order.max=” ”) o ar.yw(x, aic=T, order.max=” “).

La selección del orden de un modelo Autorregresivo multivariado (valor de p) se basa

en la minimización del valor AICC, análogo al caso univariado:

2

)1(2),,...,(ln2

2

2

1pmnm

nmpmLAICC p


146

NOTA4: Dado que no existe la unicidad de un proceso ajustable a una colección de datos, no

es de sorprenderse que al usar los algoritmos de Whittle o Jones, para una misma colección de

datos, se obtengan modelos diferentes.

Ejemplo VII.5.1. Consideremos la serie de datos del archivo DJAOPC2.

}1,...,250 ,),{( '

21 tXX tt . Xt1 se refiere al índice de utilidad Dow Jones de la bolsa de Nueva

York y Xt2 a un índice alternativo. La gráfica34 se obtiene de la misma manera en que se

obtuvo la gráfica31.

Gráfica36. Serie bivariada: Índice Dow Jones y otro alternativo.

0 50 100 150 200 250

-3

-2

-1

0

1

2

dj

0 50 100 150 200 250

-3

-2

-1

0

1

2

otr

o

Note que no es necesario diferenciar las series. La modelación la haremos utilizando la

función ar.yw(x, aic=T, order.max=<< >>) de S-PLUS. La opción aic=T asegura seleccionar

el modelo con mínimo valor de AICC. Las instrucciones para ajustar el modelo AR

multivariado son:

djaopc<-rts(DJAOPC2)

media.dj<-mean(djaopc$dj)

media.otro<-mean(djaopc$otro)

yw.djaopc<-ar.yw(djaopc, aic=T)

media.dj

media.otro

yw.djaopc

y los resultados:

> media.dj

[1] 0.02950966

> media.otro

[1] 0.03088796

> yw.djaopc

$order:

[1] 1

$ar:

, , 1

[,1] [,2]

[1,] -0.01483796 0.6588984

, , 2

[,1] [,2]

[1,] 0.0357319 0.09976267


147

$var.pred:

[,1] [,2]

[1,] 0.37119901 0.02275335

[2,] 0.02275335 0.61140382

Explícitamente, el modelo ajustado es un AR(1) multivariado dado por:

6114.00227.0

0227.03712.0 ,

0

0

donde

0997.06589.00083.0

0357.00148.00288.0

099763.0658898.0

035732.0014838.0

008363.0

028844.0

0309.0

0295.0

099763.0658898.0

035732.0014838.0

0309.0

0295.0

2

1

22,11,12

12,11,11

2

1

2,1

1,1

2

1

2

1

2

1

2

1

WNZ

Z

ZXXX

ZXXX

Z

Z

X

X

X

X

Z

Z

X

X

X

X

t

t

tttt

tttt

t

t

t

t

t

t

t

t

t

t

t

t

De la matriz 1 podemos observar que el índice Dow Jones ayuda mucho en la

predicción del rendimiento del índice alternativo (0.6589); Mientras que el índice alternativo

no es muy significante en la predicción del Dow Jones (0.0357).

Ejemplo VII.5.2 Consideremos la serie de datos LS2.TXT. Esta serie la vimos en el

ejemplo VII.1).

Como vimos en el ejemplo VII.1, la serie es no-estacionaria, por lo que es necesario

diferenciar a distancia 1. Una vez diferenciada la serie (estacionaria) ya podemos ajustar un

modelo a los datos. Como en el ejemplo anterior, usaremos la misma función de S-PLUS para

ajustar el modelo autorregresivo a la serie diferenciada y corregida por la media con mínimo

AICC. Las instrucciones son:



ls2.dif<-cbind(vent.dif,ind.dif)

media.vent.dif<-mean(vent.dif)

media.ind.dif<-mean(ind.dif)

yw.ls2.dif<-ar.yw(ls2.dif, aic=T)

media.vent.dif

media.ind.dif

yw.ls2.dif

acf(yw.ls2.dif$resid)

Obteniendo:


148

> media.vent.dif

[1] 0.02275168

> media.ind.dif

[1] 0.4201342

> yw.ls2.dif

$order:

[1] 5

$ar:

, , 1

[,1] [,2]

[1,] -0.51704335 -0.01908753

[2,] -0.19195479 0.04683970

[3,] -0.07332958 4.67775106

[4,] -0.03176252 3.66434669

[5,] 0.02149335 1.30010366

, , 2

[,1] [,2]

[1,] 0.024091702 -0.050628599

[2,] -0.017620379 0.249683127

[3,] 0.010014648 0.206463397

[4,] -0.008762498 0.004438486

[5,] 0.011381958 0.029279621

$var.pred:

[,1] [,2]

[1,] 0.082490996 -0.002794969

[2,] -0.002794971 0.103457905

Las matrices del modelo autorregresivo son:

PHI(1) PHI(2) PHI(3)

-.517043 .024092 -.191955 -.017620 -.073332 .010014

-.019088 -.050621 .046840 .249683 4.677751 .206463

PHI(4) PHI(5)

-.031762 -.008763 .021493 .011382

3.664346 .004438 1.300103 .029280

El ajuste usando el Algoritmo de Burg da como resultado un modelo AR(8). Sin

embargo el valor del AICC es prácticamente el mismo que el obtenido por el Algoritmo de

Yule-Walker. Como mencionamos antes, no existe unicidad en el ajuste de modelos para los

mismos datos usando diferentes algoritmos.

La gráfica de la ACF y PACF de los residuales es resultado de la línea:

acf(yw.ls2.dif$resid)

La gráfica muestra que el ajuste es “bueno”, pues todas las correlaciones caen dentro

de las bandas de confianza n/96.1 , n=150.


149

Gráfica37. ACF y PACF de los residuales después de ajustar un modelo

multivariado AR(5) a la serie diferenciada de ventas.

vent.dif

ACF

0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

vent.dif and ind.dif

0 5 10 15

-0.1

0.0

0.1

ind.dif and vent.dif

Lag

ACF

-15 -10 -5 0

-0.1

5-0

.05

0.0

0.05

0.10

0.15

ind.dif

Lag0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Multivariate Series : yw.ls2.dif$resid

VII.5.3. Pronóstico con modelos Autoregresivos Multivariados

Una vez que hemos ajustado un modelo multivariado a nuestros datos, podemos llevar

a cabo la predicción de observaciones futuras (pronóstico) usando el mejor predictor lineal.

Supongamos una serie }{ tX estacionaria con vector promedio y función de Covarianzas

)(h . El Algoritmo de Whittle determina las matrices coeficiente }{ nj en la expresión:

)()()(ˆ 11211 XXXX nnnnnnn

Si }{ tX es un proceso AR(p) causal, la expresión anterior se reduce a:

pnpnnn XXXX 11211ˆ

Las }{ j para j > p son cero porque el modelo requiere, por definición, solo de p

matrices .

Para verificar que esto es suficiente, basta con observar que el error de predicción

11121111 ˆ npnpnnnnn ZXXXXXX

es ortogonal a nXX ,...,1 , es decir, se cumple la condición de ortogonalidad pedida en el

algoritmo de Whittle. De esta forma, es claro que la matriz de covarianzas del error de

predicción es Σ:


150

'11

'

1111 ˆˆ nnnnnn ZZEXXXXE

El cálculo de la predicción a distancia h teniendo n observaciones, nXX ,...,1 , consiste

en aplicar el mismo proceso recursivamente. Esto es, se obtiene el predictor de knX para

k=1,…,h. Con esto obtenemos:

phnphnhnhn XXXX 1211ˆ

En este caso, el ECM se calcula usando el hecho de que }{ tX se puede expresar como

proceso lineal. Es decir:

0j

jhnjhn ZX

donde las matrices }{ j se calculan usando el resultado VII.4 con q=0.

Aplicando el predictor lineal a hnX expresado como proceso lineal, encontramos que

para pn :

hj

jhnj

j

jhnnjhnn ZZPXP0

Para calcular el error de predicción a distancia h, hacemos la resta de las expresiones

anteriores:

1

00

h

j

jhnj

hj

jhnj

j

jhnjhnnhn ZZZXPX

Con esta última expresión resulta más fácil calcular el Error Cuadrado Medio de la

predicción a distancia h. Además, sabemos que }{ tZ forma un proceso de Ruido Blanco, por

lo que las observaciones están no-correlacionadas:

'

11

'

00

'

1111

'

00

'1

0

1

0

'

),(),(

hh

hnnhhnhn

h

j

jhnj

h

j

jhnjhnnhnhnnhn

ZZCOVZZCOV

ZZEXPXXPXE

Es decir, el Error Cuadrado Medio está dado por:

1

0

''h

j

jjhnnhnhnnhn XPXXPXE


151

Ejemplo VII.5.3. Consideremos, nuevamente, la serie LS2.TXT.

Recordemos que la serie fue diferenciada a distancia 1. Por otra parte, supongamos que

el modelo ajustado a la serie }1,...,149 , { tY t en el ejemplo VII.5.2 es correcto. Es decir:

5

51ˆˆ)(

1,...,149 , )'420.0 , 0228.0()1(

donde

)ˆ,0(}{ , )(

BBIB

tYBX

WNZZXB

tt

ttt

El modelo ajustado fue un AR(5). Las matrices ˆ,ˆ,...,ˆ51 fueron calculadas en el

ejemplo VII.5.2. Podemos predecir las siguientes dos observaciones de }{ tX en base a las

expresiones obtenidas en la sección VII.5.2, h=1,2:

816.0

027.0ˆˆ

217.0

163.0ˆ

14651501151

14551491150

XXX

XXX

Note que en la predicción de 151X usamos el valor predicho de 150X .

La matriz de covarianzas Σ, encontrada en el ejemplo VII.5.2, es:

$var.pred:

[,1] [,2]

[1,] 0.082490996 -0.002794969

[2,] -0.002794971 0.103457905

Así, los correspondientes Errores Cuadrados Medios están dados por:

0.0950.002-

0.002-0.096

2

0.103450.00279-

0.00279-0.0825

1

'

11

'

11

'

00

'12

0

2

'

00

'11

0

1

j

j

j

j

j

j

ECMh

ECMh

El procedimiento de pronóstico con el software ITSM consiste en: una vez ajustado el

modelo apropiado a la colección de datos, seleccionar la secuencia Forecasting>AR Model.


152

Aparecerá una ventana con diferentes opciones, entre ellas, el número de observaciones

posteriores que desea calcular, si desea calcular las predicciones para los datos

diferenciados o para los datos originales y si desea graficar bandas de confianza para los

valores predichos. Cuando dé clic en OK aparecerá la gráfica de los datos originales y los

predichos, para ver los valores calculados dé clic en la gráfica con el botón derecho del ratón

y elija la opción INFO.


153

CAPITULO VIII. MODELOS ESPACIO-ESTADO

Los modelos de espacio-estado, junto con las recursiones de Kalman, ofrecen una

alternativa del análisis de series de tiempo. Estos modelos han tenido un gran impacto en

muchas áreas relacionadas con las series de tiempo, como lo son el control de sistemas

lineales.

El análisis de estos modelos se basa, principalmente, en la representación de los

componentes de la serie (tendencia, estacionaridad y ruido) en dos ecuaciones, una de ellas

dada por las observaciones y la otra por el proceso que forma.

Veremos que los modelos ARMA(p,q) son un caso particular de los modelos espacio-

estado. Esto significa que el análisis de modelos espacio-estado puede incluir modelos más

generales que los ARMA(p,q) que analizamos en capítulos anteriores.

VIII.1. REPRESENTACIÓN DE LOS MODELOS ESPACIO-ESTADO

Consideremos la serie de tiempo multivariada }1,2,... , { tY t . El modelo de espacio-

estado para esta serie consiste en dos ecuaciones. La primera expresa a }{ tY en función de

una variable estado }{ tX . La segunda ecuación determina el estado 1tX en el tiempo t+1 en

términos de los estados previos tX . Algebraicamente, el modelo general espacio-estado está

dado por:

s,tVWE

v x vF

w x vG

QWNV

RWNW

vX

wY

tVXFX

tWXGY

st

t

t

tt

tt

t

t

tttt

tttt

0)(

matrices de secuencia :}{

matrices de secuencia :}{

}){,0(

}){,0(

dimensión de variable:

dimensión de datos de serie :

:donde

estado) de(Ecuación 1,2,... ,

n)observació de(Ecuación 1,2,... ,

'

1

En muchos casos particulares, como en los modelos ARMA(p,q), se asume que las

matrices Gt, Ft, Rt y Qt no dependen del tiempo en que se observan. En ese caso, no es

necesario el subíndice t.

Definición VIII.1.1. [Representación espacio-estado].- Una serie de tiempo

}1,2,... , { tY t tiene una representación espacio-estado si existe un modelo espacio-estado

para la serie dado por las ecuaciones generales de observación y estado.


154

Ejemplo VIII.1.1. Consideremos el modelo AR(1) causal univariado dado por: ttt ZYY 1

con ),0(}{ 2WNZ t . La representación espacio-estado para este modelo es sencilla.

Consideremos la secuencia de variables estado:

ttt ZXX 1 (Ecuación de estado)

Entonces, la ecuación de observación está dada por:

tt XY (Ecuación de observación)

Note que, para este modelo, Gt=1, Wt=0, tF y 2

tQ .

Ejemplo VIII.1.2. Consideremos el modelo ARMA(1,1) causal univariado dado por:

tttt ZZYY 11 con ),0(}{ 2WNZ t . Veamos si se puede representar como un

modelo espacio-estado.

Consideremos la variable de estado }{ tX dada por:

1

1

1

0

0

10

tt

t

t

t

ZX

X

X

X (Ecuación de estado)

Entonces, si planteamos la ecuación de observación como:

t

t

tX

XY

11 (Ecuación de observación)

sustituyendo la variable de estado y desarrollando, obtenemos:

ttt

tt

t

tt

t

t

t

t

ZXX

ZX

X

ZX

X

X

XY

11

1

1

1

211

0

0

1011

En conclusión, el modelo ARMA(1,1) se puede representar como un modelo espacio-

estado.

Ejemplo VIII.1.3. Consideremos el modelo MA(1) causal univariado dado por: ttt ZYY 1

con ),0(}{ 2WNZ t . La representación de este modelo en forma espacio-estado consiste en

considerar la ecuación de estado:


155

11 0

1

t

t

t

t

Z

Z

X

X (Ecuación de estado)

Si consideramos la ecuación de observación siguiente:

t

t

tX

XY

101 (Ecuación de observación)

sustituyendo, llegamos a:

tt

t

tt

t

t

t

t

t

ZZ

Z

ZZ

Z

Z

X

XY

1

11101

0

10101

La igualdad permite concluir que el modelo MA(1) tiene una representación como

modelo espacio-estado.

Más adelante veremos la representación de modelos generales ARIMA como modelos

espacio-estado.

NOTA1: La representación de los modelos ARMA(p,q) como modelos espacio-estado no es

única. El lector puede comprobarlo proponiendo diferentes matrices en las ecuaciones

generales del modelo espacio-estado en los ejemplos anteriores.

VIII.2. EL MODELO ESTRUCTURAL BÁSICO

El concepto de modelo estructural estriba en que, en su definición, sus componentes

pueden ser modelados mediante un proceso propio. Un ejemplo de estos modelos es nuestro

modelo clásico de series de tiempo, el cual está definido por tres componentes, que son

tendencia, estacionaridad y ruido. Considerar como deterministicos los componentes de

tendencia y estacionaridad, en la descomposición del modelo, restringe la aplicación de dichos

modelos. Así, se justifica que permitiremos que los componentes mencionados se modelen

mediante un proceso aleatorio propio.

Para entrar en materia de lo que es un modelo estructural, consideremos el siguiente

ejemplo.

Ejemplo VIII.2.1. Consideremos el proceso de Caminata Aleatoria con un componente de

ruido, dado por:

)WN(0,}{ , V

donde

)WN(0,}{ ,

2

Vt1

2

w

ttt

tttt

VMM

WWMY


156

Note que haciendo analogía con la representación espacio-estado, en el modelo anterior

F=1 y G=1;

Veamos que sucede con las diferenciaciones de la caminata aleatoria, es decir con:

11

1111

)(

ttt

tttttttttt

WWV

WWMMWMWMYD

Podemos ver que las diferenciaciones son una suma de ruidos y por propiedad de este

proceso, también es un proceso de ruido y, además, estacionario. Tal proceso (de las

diferenciaciones) tiene como función de autocovarianzas y autocorrelación dadas por:

2 para 0

1 para 2)(

2 para 0

1 para

0 para 2

)(

22

2

2

22

h

hh

h

h

h

h

VW

W

D

W

VW

D

Para llegar a las expresiones anteriores basta aplicar la definición de función de

autocovarianzas y el hecho de que las series }{ tW y }{ tV son no correlacionadas para todo t.

Esto es:

2

W

111

2

W

2

V

2

W

2

W

2

V

111111

1111

)(),(

1

2

)()()(),(

),()(

ttttttt

ttttttttt

hththttttD

WCovWWVWWVCov

h

WCovWCovVCovWWVWWVCov

oh

WWVWWVCovh

Dado que {Dt} está correlacionado solo a distancia uno, podemos concluir que forma

un proceso MA(1). En consecuencia, {Yt} forma un proceso ARIMA(0,1,1).

El modelo anterior lo podemos extender agregando un componente de tendencia. Esto

es, considerar el modelo:


157

)WN(0,}{ , 2

wtttt WWMY

)WN(0,}{ ,

)WN(0,}{ , V

donde

2

U11

2

V1-t11

tttt

tttt

UUBB

VBMM

Para expresar el modelo anterior como modelo espacio-estado, consideremos el

vector )'( ttt BMX . Entonces:

ttt WXY 01 (Ecuación de observación)

donde

1

1

1

11

10

11

t

t

t

t

t

tt

U

V

B

M

B

MX (Ecuación de estado)

Suponiendo que las variables involucradas en esta representación están no

correlacionadas, las ecuaciones anteriores constituyen la representación espacio-estado de la

serie {Yt}. Recordemos que la serie {Yt} representa datos con componente de tendencia

aleatorio más un componente de ruido.

Ejemplo VIII.2.2. Hemos representado un modelo con tendencia aleatoria en forma de modelo

espacio-estado. El paso siguiente es llevar a cabo esta representación, pero ahora de un modelo

con componente estacional aleatorio. De la definición de estacionalidad de periodo d, se

cumple st=st+d y s1+…+sd=0.

El modelo en cuestión es:

211

2

w

donde

)WN(0,}{ ,

dtttt

tttt

ssss

WWsY

Sustituyendo recursivamente el componente de estacionalidad, se puede llegar a la

expresión:

1,2,... 21 tSYYY tdttt

Para encontrar la representación espacio-estado de {Yt} introduciremos el vector tX

siguiente: )',...,,( 21 dtttt YYYX . Así:


158

ttt WXY 001 (Ecuación de observación)

donde

0

0

0

0 1 0 0

0 0 10

0 0 01

1 1- 11 1

1

t

tt

S

XX (Ecuación de estado)

Por tanto, el modelo clásico con componente estacional aleatorio, también se puede

representar como modelo espacio-estado.

La pregunta que surge en este momento es ¿se puede representar como modelo

espacio-estado el modelo estructural básico? Es decir, ¿podemos representar el modelo clásico

como modelo espacio-estado si incluimos componentes de tendencia y estacionalidad

aleatorios? La respuesta es sí. Solo basta “agrupar” las ecuaciones de estado de los ejemplos

anteriores (VIII.2.1 y VIII.2.2). Para más detalles ver [Brockwell y Davis (2002) pp. 267].

VIII.3. REPRESENTACIÓN ESPACIO-ESTADO DE MODELOS ARMA

En ejemplos anteriores representamos modelos ARMA específicos como el AR(1), el

MA(1) y el ARMA(1,1). En esta sección generalizaremos la representación para el modelo

general ARMA(p,q).

Como mencionamos en la NOTA1, la representación espacio-estado no es única. Aquí

presentamos una de ellas para un proceso ARMA(p,q) causal. Consideremos el proceso

ARMA(p,q) causal definido por:

tt ZBYB )()( donde ),0(}{ 2WNZ t

Sean r=max(p,q+1); j =0 para j > p; j =0 para j > q; y θ0=1. Si {Xt} sigue un proceso

causal AR(p) dado por tt ZXB)( , entonces tt XBY )( . Esta conclusión se recoge del

hecho de que: tttt ZBXBBXBBYB )()()()()()( . Es decir, si sustituimos

tt XBY )( , se satisface el modelo ARMA(p,q) original.

En consecuencia, apoyándonos del ejemplo VIII.1.2 [representación para el modelo

ARMA(1,1)], tenemos la representación espacio-estado del modelo ARMA(p,q):


159

trrt XY 121 (Ecuación de observación)

donde

1

1

1

1211

1

2

1

0

0

0

1000

0100

0010

tt

t

rt

rt

rrrt

t

rt

rt

t

ZX

X

X

X

X

X

X

X

X

(Ecuación de estado)

Se puede probar que usando esta expresión, la representación del modelo ARMA(1,1)

es la misma que encontramos en el ejemplo VII.1.2.

Existe una forma general para representar a los modelos ARIMA(p,d,q) como modelos

espacio-estado. Está basada, esencialmente, en el hecho de que la serie diferenciada a distancia

d sigue un proceso ARMA(p,q), la cual ya expresamos arriba. Para más detalles, ver

[Brockwell y Davis (2002) pp.269-271].

VIII.4. RECURSIONES KALMAN

Los principales problemas que enfrentan los modelos espacio-estado definidos en la

sección VIII.1 son tres. Todos ellos consisten en encontrar el mejor predictor lineal del vector

de estado tX en términos de las observaciones ,..., 21 YY y un vector aleatorio 0Y ortogonal a

tV y tW . Las estimaciones de interés de tX son las siguientes:

Predicción: tt XP 1

Filtrado: tt XP

Suavización: tn XP , n > t.

Los tres problemas pueden ser resueltos usando, apropiadamente, un conjunto de

recursiones. Tales recursiones se conocen como recursiones de Kalman.

Definición VIII.1.1. [Mejor predictor lineal].- Para el vector aleatorio

)',...,( 1 vXXX se define el mejor predictor lineal como:

))'(),...,(()( 1 Vttt XPXPXP

donde ),...,,|()( 10 tiit YYYXPXP es el mejor predictor lineal de iX en términos de todos

los componentes tYYY ,...,, 10 .

El mejor predictor lineal de la definición tiene, bajo ciertas restricciones, las siguientes

propiedades:


160

1. )()( XAPXAP tt

2. )()()( VPXPVXP ttt

3.

)'( de dageneraliza inversa es )]'([ .)]'()['(

donde

)|(

YYEYYEYYEYXEM

YMYXP

Con la definición y las propiedades, enunciamos en seguida el algoritmo de predicción

de Kalman.

RESULTADO VIII.1.- [Predicción de Kalman].- Considere el modelo espacio-estado de la

sección VIII.1. Es decir, supongamos que tttt WXGY con tttt VXFX 1 donde

}){,0( tt RWNW y }){,0( tt QWNV . Entonces los predictores a un paso )(ˆ1 ttt XPX y

sus matrices de error ])'ˆ)(ˆ[( ttttt XXXXE son únicos y están determinados por la

condición inicial:

)|(ˆ 011 YXPX con ])'ˆ)(ˆ[( 11111 XXXXE

y las recursiones para t=1,…

'

'

''

1

1 )ˆ(ˆˆ

tttt

ttttt

tttttttt

tttttttt

GF

RGG

donde

QFF

XGYXFX

t es la inversa generalizada de t .

Demostración.

Para llevar a cabo la demostración haremos uso del concepto de innovaciones, tI , con 01 YI

y

1,2,... )ˆ(ˆ1 tWXXGXGYYPYI ttttttttttt

Por otra parte, se tiene la igualdad )|()()( 1 ttt IPPP . Usando las propiedades 1, 2 y 3

enunciadas arriba, encontramos que:


161

'

ttt

'

t

'tttt

't

'

t

'ttttt

'ttt

ttttttt

ttttt

tttttttt

-'tt

'ttttttt

ttttt

GΩF

G)XX)(X(EFWG)XX(VXFEIXEΘ

XGYXF

IXF

IVPXPF

]II]E[IXE[MIMVXFP

IXPXPX

]ˆ[ˆ][

donde

)ˆ(ˆ

ˆ

)()(

donde )(

)|()(ˆ

1

11

11

1111

tttt

tttttttt

tttttttt

RGG

WWEGXXXXEG

WGXXWXXGE

'

''

''''ttt

)(])'ˆ)(ˆ[(

)ˆ()ˆ(]IIE[

Para encontrar el error cuadrado medio para t > 1, basta con aplicar la definición de la matriz

de error. Esto es:

''

''''''

'''''''

''

'

11'

11

'

11111

ˆˆ

ˆˆ

ˆˆ

ˆˆ

ˆˆ

ttttttt

ttttttttttttt

tttttttttttttttt

tttttttttttttttt

tttt

ttttt

QFF

FXXEFVVEFXXEF

IFXIXFEVFXVXFE

IXFIXFEVXFVXFE

XXEXXE

XXXXE

Las matrices tt y son las mismas que se definieron en el resultado VIII.1.

///

Para llevar a cabo la predicción a distancia h usaremos la predicción de Kalman a un

paso. Como veremos, la predicción consiste en aplicar recursivamente las propiedades del

mejor predictor lineal y la ecuación de estado definida en la representación espacio-estado

original.

)(

)(

)(

1121

221

2221

11111

111

ttththt

htththt

hththttht

htththtthttht

hththtthtt

XPFFF

XPFF

VXFPF

XPFVPXPF

VXFPXP


162

)ˆ(ˆ121 tttttttthththtt XGYXFFFFXP

También se tiene la predicción para la variable de observación:

htthtththtthtt XPGWXGPYP

El paso siguiente es encontrar la matriz de error de predicción a distancia h.

'11

'

1

'11111

'11111111

')(

1111

11111

hthththtththtththt

hthtththththtththt

htththtthth

t

hthtththt

htthththththttht

VVEFXPXXPXEF

VXPXFVXPXFE

XPXXPXE

VXPXF

XPFVXFXPX

1

'

1

)1(

1

)( htht

h

tht

h

t QFF

El proceso se aplica recursivamente para h=2,3,… partiendo de la igualdad inicial

1

)1(

tt . Además, para la variable de observación se tiene:

'''

'

')(

hthththtththtththt

hthtththththtththt

htththtthth

t

hthtththt

htthththththttht

WWEGXPXXPXEG

WXPXGWXPXGE

YPYYPYE

WXPXG

XPGWXGYPY

htht

h

tht

h

t RGG ')()(

Con esto terminamos la solución del problema de predicción de Kalman.

RESULTADO VIII.2.- [Filtrado de Kalman].- Considere el modelo espacio-estado de la


}){,0( tt RWNW y }){,0( tt QWNV . Entonces las estimaciones filtradas )(/ tttt XPX y

sus matrices de error ])')([( /// tttttttt XXXXE están determinadas por la relación:


163

)ˆ()( '

1/ tttttttttt XGYGXPX

con

''

/ tttttttt GG

t , la inversa generalizada de t , y t se calculan como en la predicción de Kalman.

Demostración.

La demostración consiste en usar, nuevamente, el concepto de innovaciones, tI , con 01 YI

1,2,... )ˆ(ˆ1 tWXXGXGYYPYI ttttttttttt

También consideraremos la igualdad )|()()( 1 ttt IPPP . De esta forma:

ttt

ttttt

tttttt

tttttt

-'tt

'tt

ttt

tttt

tttt

G

GXXXE

WGXXXE

WXXGXE

IIEIXEM

IMXP

IXPXP

XPX

'

''

'''

'

1

1

/

)ˆ(

)ˆ(

)ˆ(

][][

donde

)(

)|()(

)(

Para encontrar la expresión de la matriz de error partimos de:

tttt

tttttttttt

tttttttttt

IMXPX

XPXPXPXXPX

XPXPIMIMXPXP

&

11

11


164

''

/

''

/

''

/

'

/

'''

'

'

11

'][

tttttttt

ttttttt

ttttttttt

tttt

tttttttt

tttttttt

ttttttt

GG

GG

GG

MIIME

MIIMEXPXXPXE

IMXPXIMXPXE

XPXXPXE

De esta forma queda demostrada la proposición del filtrado de Kalman.

///

Por último, presentaremos la técnica de suavización. El concepto de suavización radica

en sustituir observaciones aberrantes en un conjunto de datos por otra estimación “suave”

basada en las n observaciones.

RESULTADO VIII.3 [Suavización de Kalman].- Considere el modelo espacio-estado de la


}){,0( tt RWNW y }){,0( tt QWNV . Entonces las estimaciones suavizadas )(/ tnnt XPX

y sus matrices de error ])')([( /// nttnttnt XXXXE están determinadas, para un t fijo,

por las recursiones, las cuales pueden resolverse sucesivamente para n=t, t+1,…:

)ˆ()( '

,1/ tnnnnnttnnt XGYGXPX

con

'

,

'

,1//

'

,1,

ntnnnntntnt

ttnnntnt

GG

GF

y las condiciones iniciales

ttttt

ttt XXP

1/,

1ˆ

t , la inversa generalizada de t , y t se calculan como en la predicción de Kalman.

Demostración.

Tenemos las siguientes igualdades:

1,2,... )ˆ(ˆ1 tWXXGXGYYPYI ttttttttttt y )|()()( 1 ttt IPPP


165

Así,

'

,

'

,

''

'''

'

1

1

/

ˆˆ

con

)ˆ(

)ˆ(

)ˆ(

][][

donde

)(

)|()(

)(

nnttnt

ttnt

nnnnt

nnnnnt

nnnnnt

-'nn

'nt

ntn

nttn

tnnt

XXXXE

G

GXXXE

WGXXXE

WXXGXE

IIEIXEM

IMXP

IXPXP

XPX

Para encontrar la segunda expresión de la estimación de suavización partimos de la ecuación

de estado y de la expresión del predictor de Kalman. Esto es:

nnnnnnnnn

nnnnnn

nnnn

VIXXFXX

IXFX

VXFX

ˆˆ

ˆˆ

&

11

1

1

'

,1,

'

,

'

,

''

,

'

,

'''

''''

'''

'

'

111,

)(

0)(0)(

ˆ )(ˆ

)(ˆˆˆˆ

))ˆ((ˆˆˆ

)ˆ(ˆ

ˆˆ

nnnnntnt

nnnntnnt

nnnnnntnnt

nttnnntt

nnnnnttnnntt

nnnnnnnttnnntt

nnnnnnntt

nnttnt

GF

GF

GF

VXXEWXXE

GXXXXEFXXXXE

VWXXGXXEFXXXXE

VIXXFXXE

XXXXE

Solo nos resta encontrar la expresión para la matriz de error. Para ello utilizamos la expresión:


166

'

,

'

,1//

'

,

'

,1/

'

,

'

,1/

'

1/

'''

11

'

11

'

/

1

1

'][

ntnnnntntnt

ntnnnntnt

ntnnnnnntnt

nnnt

nntnttnt

ntntntnt

tnttntnt

ntnttnt

ntntn

GG

GG

GG

MIIME

MIIMEXPXXPXE

IMXPXIMXPXE

XPXXPXE

IMXPXXPX

MIXPXP

Así, queda demostrado el resultado de suavización de Kalman.

///

El siguiente ejemplo ilustra la forma iterativa en que funciona la suavización de

Kalman. Como veremos, no solo haremos uso del resultado VIII.3, sino, en general, de los tres

resultados de las recursiones Kalman.

Ejemplo VIII.4.1. Consideremos el modelo AR(1). Supongamos 5 observaciones y1, y2, y3, y4

y y5 y suavizaremos la observación 2.

El modelo espacio-estado para este proceso, como vimos en el ejemplo VIII.1.1, está

dado por:

,1 ttt

tt

ZXX

XY

Con ),0(}{ 2WNZ t

Pero dado que no contamos con “información completa”, es decir, no utilizaremos la

observación 2, planteamos el modelo:

ttt

tttt

ZXX

WXGY

1

***

Note que, de acuerdo a la representación espacio-estado, tenemos que:


167

2 si 1

2 si 0

2 si 0

2 si 1

*

2

*

t

tR

Q

t

tG

F

t

t

t

t

Partimos de las condiciones iniciales:

0ˆ110 XXP , )1/()0()( 22

111 XXE

Así,

, ],[

,1 ,00

11

,1

,1

222

33333

222

3333

222

2

1

2222223

22222

2

2222

2

2

222

2

22

1

1

1111112

2

2

111112

2

1111

RGGGF

QFF

RGGGF

QFF

RGGGF

)1/(

)1/(0)1/(

)1/()/(

0

0

0][][

]0[][

22

5|2

2222

4,24

1

444,23|24|2

22222422

3,23

1

333,22|23|2

22

2,22

1

222,21|22|2

2

2,21|2

5,2

2

3

1

3333,24,2

22

2

1

2222,23,2

2

22,2

GG

GG

GG

GF

GF

Nos resta calcular la suavización de la observación 2.


168

)1/()ˆ(

)1/(0)1/()ˆ(

)1/()/()0()ˆ(

0)ˆ(

)0(0)ˆ(

2

31555

1

555,22425

2

31

2

31444

1

444,22324

2

31

222

3

2

1333

1

333,22223

11222

1

222,22122

11111

1

111,22021

YYXGYGXPXP

YYYYXGYGXPXP

YYYYXGYGXPXP

YYXGYGXPXP

YYXGYGXPXP

En resumen, el valor suavizado de la observación dos está dado por:

)1/( 2

3125 YYXP

Con correspondiente error cuadrado medio:

)1/( 22

5|2

VIII.5. EL ALGORITMO EM

El algoritmo de Esperanza-Maximización (EM), propuesto por [Dempster, Laird y

Rubin (1977)] es un procedimiento iterativo útil para calcular estimadores de máxima

verosimilitud cuando contamos sólo con una parte disponible de la colección de datos, por

ejemplo, cuando existen datos perdidos. La construcción y convergencia del algoritmo se

pueden consultar en [Wu (1983)].

Denotemos por Y al vector de datos observados, por X al vector de datos no-

observados y a XYW como el vector de datos “completos”. A manera de analogía con

los modelos espacio-estado, podemos decir que Y consiste de los vectores observados

nYY ,...,1 y X de los vectores de estado (no observables) nXX ,...,1 . Los datos X pueden

considerarse como una variable aleatoria cuya distribución de probabilidad depende de los

parámetros θ que deseamos estimar y de los datos observados Y . Dado que W depende de

X , es a su vez, una variable aleatoria.

Cada iteración del algoritmo EM consiste en dos pasos: E y M. E se refiere a obtener la

esperanza ]|),;([)( YYXlE i . Tomar el valor esperado se justifica en el sentido de que existen

datos no observados, X , por lo que se deben considerar todos los posibles valores de X ,

ponderados según su probabilidad; y M se refiere a la maximización de la verosimilitud del

parámetro θ.

En general, el algoritmo EM repite la pareja de pasos siguientes en la iteración (i+1)

hasta obtener convergencia, partiendo de que )(i denota el valor estimado de θ en la iteración

i.


169

Paso-E. Calcular )|( )(iQ utilizando los datos observados Y . Esto es, calcular:

YYXlEQ i

i |),;()|( )(

)(

donde:

);,(ln),;( θyxfyxl ;

YE i |)( denota la esperanza condicional relativa a la densidad condicional

);(

);,();|(

)(

)(

)(

i

i

i

yf

yxfyxf .

Paso-M. Maximizar )|( )(iQ con respecto a θ.

Note que al maximizar el logaritmo de la distribución, se está maximizando la

verosimilitud.

Observemos que:

YldxYxfYxf

YfdxYxfYxf

dxyxfYfdxyxfYxf

dxYxfYfYxf

dxYxfYxfYxfYxl

YYxlEQ

yfyxfyxfyf

yxfyxf

i

i

ii

i

ii

i

iii

i

i

i

i

;);|();|(ln

)1();(ln);|();|(ln

);|();(ln);|();|(ln

);|();(ln);|(ln

);|();,(ln);|(),;(

|),;()|(

);(ln);|(ln);,(ln);(

);,();|(

)(

)(

)()(

)(

)()(

)(

)()()(

)(

)(

)(

)(

Derivando la función Q con respecto a θ, encontramos que:

);();|();|(

);|(

;);|();|(ln)|(

')(

)()('

YldxYxfYxf

Yxf

YldxYxfYxfQ

i

ii

Si reemplazamos por )1(i y si i (recordemos que el proceso es convergente),

tenemos que )1()(ˆ ii y 0)|( )()1(' iiQ . Esto es,


170

0);ˆ(

0);ˆ()1(

0);ˆ()ˆ;|(

0);ˆ()ˆ;|(

0);ˆ();|();|(

)ˆ;|(

)|(

'

'

'

'

')(

)1(

)()1('

Yl

Yl

YldxYxf

YldxYxf

YldxYxfYxf

Yxf

Q i

i

ii

La igualdad anterior muestra que si )(i converge a ˆ , entonces ˆ es una solución de

la ecuación de verosimilitud 0);ˆ(' Yl .

Como mencionamos al inicio de esta sección, el algoritmo EM es útil cuando la

colección de datos es incompleta (datos perdidos). A continuación desarrollamos el método de

estimación.

Supongamos que la colección de datos comprende nYY ,...,1 , de los cuales r son

observados y n-r son perdidos. Definamos )',...,( 1 iri YYY como el vector de datos observados

y )',...,( ,1 rnjj XXX como el vector de datos perdidos. Por otra parte, supongamos que

)'','( YXW se distribuye Normal( ,0 ), donde Σ depende del parámetro θ. Es decir, el

logaritmo de la verosimilitud de los datos completos (W ) está dada por:

WWn

Wl

WWWfn

1

1

)2/1(2/

´2

1)ln(

2

1)2ln(

2);(

´2

1exp

2

1);(

Hagamos la partición conformable con X e Y siguiente:

2221

1211

De acuerdo a los resultados de la sección II.2 de la Normal Multivariada (Propiedad5),

tenemos que:

YX 1

2211ˆ y 21

1

2212112|11 )(

Entonces, la distribución de W dado Y requerida en el paso E es:


171

00

0)(,

0

ˆ2|11X

NMV

Usando el resultado ''

)(AtrazaXAXE , podemos ver que:

WWtraza

YXYXEYWWE

i

iii

ˆ)('ˆ)()(

)','ˆ)(()'','ˆ(|ˆ)('ˆ

11

2|11

)(

2|11

)(1

2|11

1

2|11 )()(

De aquí que,

)()(2

1)ˆ;(

ˆ)('ˆ)ˆ;(

|)ˆ;()|(

1

2|11

)(

2|11

1

2|11

)(

)(

)(

i

i

trazaWl

WWEWl

YWlEQ

i

i

Note que )ˆ;( Wl es el logaritmo de la verosimilitud de los datos completos en los que

X es reemplazado por su estimación, X .

Dado que el proceso converge, en la práctica se usa la expresión (reducida):

)ˆ;()|(~ )( WlQ i

El paso M restante del algoritmo EM consiste en maximizar la verosimilitud. Es decir,

maximizar )ˆ;( Wl .

Ejemplo VIII.5.1.- Consideremos el conjunto de datos DOWJ.TXT. Para ejemplificar el

algoritmo EM, eliminaremos las observaciones 10, 20 y 30.

El modelo ajustado en el ejemplo V.1.1 para los datos diferenciados a distancia uno y

corregidos por la media fue un AR(1):

X(t) = .4219 X(t-1)+ Z(t)

WN variance estimate (Yule Walker): .147897

La primera iteración se inicia con 0ˆ )(o y dado que estamos suponiendo Ruido

Blanco, el paso E del algoritmo EM consiste en sustituir 0ˆˆˆ302010 XXX , donde Xt

representa los datos diferenciados a distancia uno y corregidos por la media. Una vez

reemplazadas las observaciones “perdidas”, ajustamos un modelo AR(1) por máxima

verosimilitud a este nuevo conjunto de datos, obteniendo:

ARMA Model:

X(t) = .4153 X(t-1) + Z(t)


172

Es decir, tenemos 4153.0ˆ )1( . El paso M consiste en minimizar con respecto a Xt la

expresión de error:

2)1(

1

2

1

)1(1

0

2

1

)1( )ˆ()ˆ()ˆ( tttt

j

jtjt XXXXXX

Derivando e igualando con cero, encontramos que:

11

)1(

1

)1(

1

)1(2)1(

)1(

1

)1(

1

)1(

ˆˆˆ)ˆ(1

0)ˆ(ˆ2)ˆ(2

ttttt

tttt

XXXXX

XXXX

2)1(

11

)1(

)ˆ(1

ˆˆ tt

t

XXX

Con la última expresión podemos estimar los datos perdidos 10, 20 y 30.

3426.0)4153.0(1

4153.0ˆ

2

911

10

XXX , etc.

Con estas estimaciones, ajustamos un “nuevo” modelo AR(1). Obteniendo:

ARMA Model:

X(t) = .4377 X(t-1) + Z(t)

Es decir, 4377.0ˆ )2( .

El proceso itera hasta converger (en i=3). En el siguiente cuadro se resumen los

resultados:

Cuadro9. Estimación de valores “perdidos” de la serie del Índice Dow Jones

Iteración i X10 X20 X30

0 0 0 0 0

1 -0.36 0.01 -0.03 0.4153

2 -0.36 0.01 -0.03 0.4377

3 -0.36 0.01 -0.03 0.4377

Es decir, el modelo ajustado considerando las observaciones 10, 20 y 30 como perdidas

es:

ARMA Model:

X(t) = .4377 X(t-1) + Z(t)

WN Variance = .143922


173

CAPITULO IX. COINTEGRACIÓN

Recordemos que una serie de tiempo es estacionaria si su distribución es constante a lo

largo del tiempo; para muchas aplicaciones prácticas es suficiente considerar la llamada

estacionaridad débil, esto es, cuando la media y la varianza de la serie son constantes a lo

largo del tiempo. Muchas de las series de tiempo que se analizan en la práctica no cumplen

con esta condición cuando tienen una tendencia. Cuando no se cumple esta suposición se

pueden presentar problemas serios, consistentes en que dos variables completamente

independientes pueden aparecer como significativamente asociadas entre sí en una regresión,

únicamente por tener ambas una tendencia y crecer a lo largo del tiempo; estos casos han sido

popularizados por [Granger y Newbold (1974)] con el nombre de “regresiones espurias”.

El problema de las regresiones espurias aparece frecuentemente cuando se halla la

regresión entre series afectadas por tendencias comunes, lo que lleva a encontrar un valor de

R2 elevado, sin que exista realmente una relación de causa-efecto. Cuando se lleva a cabo una

regresión espuria, suele aparecer un valor pequeño del estadístico de Durbin-Watson,

indicando que los errores de la ecuación están correlacionados positivamente. Esto implica no

sólo que los estimadores de mínimos cuadrados de los coeficientes son ineficientes, sino que

son inconsistentes, lo que lleva a incurrir en serios problemas de especificación.

Recientemente se ha dedicado mucho esfuerzo al análisis de las propiedades de

ecuaciones de regresión con variables más generales que las estacionarias, pero con algún tipo

de restricción a su distribución. Un caso particular de las variables no estacionarias es el de las

llamadas variables integradas. Este tipo de variables será de gran importancia en el

desarrollo de la teoría de Cointegración que se presenta en el presente capítulo.

IX.1. DEFINICIONES Y PROPIEDADES

Cuando en el proceso que sigue un vector de observaciones se tienen raíces unitarias,

se dice que tal proceso es Cointegrado. El concepto de cointegración se debe a [Engle y

Granger (1987)].

Además de las variables integradas, que ya se mencionaron, otro concepto clave en el

que se basa la teoría de la cointegración es la representación de corrección de error, que

definiremos más adelante.

Una correlación alta entre dos variables, Y y X, puede deberse a tres tipos de relaciones

causa efecto:

a) que X sea la causa de la variable Y.

b) que Y sea la causa de los cambios en X.

c) que cada una de ellas sea a la vez causa y efecto de la otra.

Como en todo desarrollo de teoría, será necesario definir algunos conceptos clave que

manejaremos en este capítulo.


174

Definición IX.1.1. [Causalidad en el sentido de Granger].- X causa a Y, en el sentido

de Granger, )( YX , si Y se puede predecir con mayor exactitud utilizando valores pasados

de X que sin usarlos, manteniendo igual el resto de la información. Véase [Granger (1969)].

Cuando se dice que )( YX se está expresando que los valores de X “preceden” a los

de Y, en el sentido de que anteceden siempre a los de Y y sirven para predecirlos, pero no que

necesariamente los valores de X “originen” los valores de Y. Es posible que, por ejemplo, una

tercera variable Z produzca los cambios en Y, y posiblemente también en X, sin embargo,

)( YX . Por lo que sería más apropiado hablar de precedencia.

Definición IX.1.2. [Serie de Tiempo Integrada].- Se dice que una serie de tiempo

{Xt} es integrada de orden d, denotada por )(dIX t , si puede expresarse como:

tt

d ZBXBB )()()1(

donde

qtqttt

ptpttt

ZZZZB

XXXXB

11

11

)(

)(

Otro modo de definir una serie integrada es decir que {Xt} es ARIMA(p,d,q) con un

proceso {Zt} estacionario e invertible. En estas condiciones la menor raíz en valor absoluto de

la parte autorregresiva es la unidad y se dice que la serie tiene d raíces unitarias o que es I(d); a

manera de ejemplo, una serie estacionaria es I(0) y una “caminata aleatoria” es I(1).

También, la suma o combinación lineal de procesos de distintos ordenes de integración

es del mismo orden que el proceso de orden mayor. Es decir, si:

)(

)(

dIY

eIX

con

YXZ

t

t

ttt

entonces )),(max( deIZ t

En términos similares, la combinación lineal de dos procesos con el mismo orden de

integración es, en general, de ese orden de integración.

NOTA1: En particular, combinaciones lineales de series I(0) son I(0); combinaciones lineales

de series I(1) son en general I(1), con una excepción muy importante, la de las series

cointegradas que son I(0) y que veremos en detalle más adelante. Esto también muestra que

una serie integrada no puede ser representada adecuadamente por series estacionarias; del

mismo modo, una serie estacionaria no puede, en general, representarse como función de

series integradas.


175

NOTA2: Cabe mencionar que el análisis de cointegración involucra conceptos de Análisis de

Regresión (multicolinealidad y estadístico de Durbin-Watson, principalmente) y de Raíces

Unitarias (vistas en el capítulo VI), por lo que se recomienda que el lector esté familiarizado

con estos tópicos.

NOTA3: Un síntoma de Cointegración entre variables es un valor alto del coeficiente de

determinación de la regresión entre ellas, R2, acompañado de valores no muy bajos del

estadístico de Durbin - Watson.

Estudios hechos recientemente muestran que una gran proporción de las series

económicas no estacionarias son I(d), y en especial muchas de ellas I(1). Esto ha inducido una

gran cantidad de investigaciones sobre las propiedades estadísticas de series I(d). Y

particularmente en la búsqueda de combinaciones lineales estacionarias de series integradas, lo

que se llama Cointegración en series.

Supóngase dos variables no estacionarias Yt y Xt, entre las que se cree que existe una

relación de dependencia. Cabe esperar que, bajo tal supuesto, los residuos de la regresión que

explica a Yt en función de Xt sean estacionarios, a pesar de que ninguna de las dos variables

del modelo lo sean. Esta es la idea de Cointegración, y a continuación se da la definición.

Definición IX.1.3. [Serie Cointegrada].- Se dice que una series de tiempo { tY } m-

variada es cointegrada de orden (d,b), denotada por ),( bdCIY t , si siendo todas las series

del vector I(d), existe un vector de coeficientes no nulo tal que )('

bdIYz tt , con b

> 0. La relación tt Yz'

se denomina relación de cointegración y el vector vector de

cointegración. [Engle y Granger (1987)].

Supongamos la serie bivariada '),( ttt xyY . Si suponemos que hay una relación entre

las componentes del vector, conocida como relación de equilibrio, entonces esta relación se

puede expresar como una relación lineal como la siguiente:

tt xy 10

*

De acuerdo con ello, hay equilibrio en el periodo t si 0*

tt yy , es decir, si

0)( 00 tt xy . Ahora bien, como yt será, en general, distinto del valor de equilibrio,

podemos agregar un término de error o desviación, ut, quedando:

ttt uxy )( 10

Agrupando términos, podemos escribir la ecuación como: ttt uxy 01 . Así,

podemos ver que no es más que la relación de cointegración del vector tY , donde:


176

tt

ttt

uz

xyY

0

1

'

'

),1(

,),(

Cointegración significa que, aunque haya fuerzas que causen cambios permanentes en

los elementos individuales del vector tY , existe una relación de equilibrio a largo plazo que

los une, representada por la combinación lineal tt Yz'

.

De la definición de cointegración podemos deducir algunas observaciones:

1. El coeficiente de la variable independiente siempre es 1, por lo que el vector de

cointegración, , aparece normalizado.

2. Basta multiplicar el vector por un escalar no nulo para obtener un nuevo vector de

cointegración, por lo que el vector de cointegración no será único.

3. El número máximo de vectores de cointegración linealmente independientes que puede

haber entre m variables integradas del mismo orden es m−1. Al número de vectores de

cointegración linealmente independientes se le denomina rango de cointegración.

4. Dos series no pueden ser cointegradas si no son integradas del mismo orden. Así, por

ejemplo, si )1(Iyt y )0(Ixt , entonces )1(Izt y las variables yt y xt no son

cointegradas.

5. Cuando se relacionan dos series cada una integrada de orden cero, no tiene sentido

hablar de cointegración.

6. Cuando se consideran más de dos series de tiempo la situación se puede complicar, ya

que, al contrario de lo que la observación 4 parece implicar, puede que exista

cointegración sin que todas las variables sean integradas del mismo orden. Por

ejemplo, supóngase que )1(Iyt , )2(Ixt y )2(Ivt . Si )1,2(],[ CIvx tt ,

entonces, existirá una relación lineal entre la relación de cointegración de xt con vt y yt.

El caso más sencillo e interesante de cointegración es cuando d = b, es decir cuando

)0(Izt , ya que entonces es cuando se pueden identificar los parámetros del vector de

cointegración con los coeficientes de una relación a largo plazo entre las variables y aplicar el

análisis de la regresión. Este caso es en el que se centrará el análisis del capítulo.

Enseguida se expone el concepto de Representación de Corrección de Error que, como

se mencionó anteriormente, es de gran importancia en el análisis de cointegración, en el

sentido de que series cointegradas tienen una representación de corrección de errores, e

inversamente, una representación de corrección de errores genera series cointegradas

IX.2. REPRESENTACIÓN DEL MECANISMO DE CORRECCIÓN DE ERROR (MCE)

El Mecanismo de Corrección de Error (MCE) consiste en representar modelos

dinámicos. Su aplicación se debe, principalmente, al trabajo de [Davidson, Hendry, Srba y

Yeo (1978)]. Los modelos MCE permiten modelar tanto las relaciones a largo plazo como la

dinámica a corto de las variables. La denominación de MCE se debe a la especificación del


177

modelo en la cual las desviaciones de la relación del largo plazo entre los niveles de las

variables funcionan como un “mecanismo” que impulsa a los cambios de las variables a

acercarse a su nivel de equilibrio cuando se han alejado de este. Es decir, se corrigen los

errores de equilibrio de periodos anteriores de forma gradual.

Aunque el procedimiento puede extenderse a m variables, sólo consideramos un

modelo dinámico de dos variables yt y xt, entre las cuales existe algún tipo de correlación. El

modelo dinámico se expresa como:

tttt uyBaxBy )](1[)(

en donde las raíces de a(B) = 0 caen fuera del círculo de radio unitario, como condición de

estacionaridad. a(B) y )(B son los siguientes polinomios en el operador de rezago

mtmttt

ntnttt

xxxxB

yyyyBa

110

11

)(

)(

Desarrollando los polinomios, sumando y restando términos, se obtiene:

1

1

1 1

0

121

1

1 1

0

121

1

3243

2132

10

110

)1(

)(

)(

)(

))((

))((

)(

)(

t

m

j

jt

m

jk

kt

tm

m

j

jt

m

jk

kt

tm

mtmtm

ttm

ttm

tt

mtmttt

xxx

xxx

x

xx

xx

xx

xx

xxxxB

Análogamente, se obtiene

1

1 1

1]11[]1[n

j

jt

n

jk

kt-t yy)-a(y-a(B)

donde na 21)1(

Con esto, el modelo dinámico original puede escribirse en la forma siguiente:


178

t

n

j

jt

n

jk

kt

t

m

j

jt

m

jk

ktt

uyyA

xxxy

1

1 1

1

1

1 1

0

)]1(1[

)1(

Restando yt-1 en los ambos miembros de la igualdad, se tiene:

ttt

n

j

jt

n

jk

k

m

j

jt

m

jk

ktt uxAA

yAyxxy)1(

)1(

)1()1( 1

1

1 1

1

1 1

0

Esta última expresión es la forma general del modelo de MCE para el caso de dos

variables. El cociente Ω(1) / A(1) se conoce como multiplicador total.

Definición IX.2.1. [Representación MCE].- Se dice que un vector m-variado Y

admite la representación MCE si se puede expresar como:

ttt YYBA 1)(

donde t es un vector error estacionario; A(B) es una matriz m x m, con A(0)=Im; y es una

matriz m x m diferente de la nula.

El análisis e interpretación del modelo MCE se reducirá a un vector bivariado,

)',( ttt xyY , en donde cada una de las componentes son I(1). Dicho esto, el MCE para el

caso de dos variables está dado por:

tttttt

tttttt

t

t

tttt

tttt

t

t

xyxByBx

xyxByBy

xyxByB

xyxByB

x

y

211212122

111111111

2

1

1121212

1111111

2

1

)()()(

)()()(

)()()(

)()()(

Con las siguientes condiciones:

1. El vector de cointegración )',1( es el mismo para ambas ecuaciones.

2. Los polinomios )(Bi y )(Bi para i=1,2, tienen todas sus raíces fuera del círculo

unitario (condición de estacionaridad).

3. Al menos uno de los parámetros i , i=1,2 no es nulo. Estos parámetros se conocen

como parámetros de velocidad de ajuste.

De las ecuaciones podemos ver que, los términos entre paréntesis involucran la

relación a largo plazo de las variables involucradas. Esto no es más que la relación de


179

cointegración. El término en cuestión se conoce como “corrector del error”, en el sentido

que será distinto de cero únicamente cuando haya alejamiento del valor de equilibrio. Si por

ejemplo, en el momento t se da que tt xy < 0, es decir, que yt está por debajo del valor de

equilibrio que mantiene respecto a xt, entonces el término de corrección de error provocará un

aumento superior de 1ty a fin de corregir la brecha en la relación de equilibrio. Los i ’s

reciben el nombre de “parámetros de velocidad del ajuste” porque cuanto mayor sea su valor

más rápidamente se corregirán los desequilibrios.

A continuación enunciamos un teorema de gran importancia que involucra la relación

entre el Mecanismo de Corrección de Error y Cointegración.

TEOREMA. [Representación de Granger]. Si las m componentes de una serie de tiempo

multivariada }{ tX son CI(1,1) de rango de cointegración r, entonces existe una representación

Mecanismo de Corrección de Error para el Proceso Generador de Datos (PGD). Por otra parte,

si el PGD de un conjunto de variables admite una representación MCE, entonces las variables

están cointegradas.

Demostración. Ver [Engle y Granger (1987)].

///

Mediante el teorema anterior se puede mostrar que existe un isomorfismo de

representaciones para variables cointegradas. Tales representaciones son: Vectores

Autorregresivos (VAR), MCE y Promedios Móviles Multivariados.

IX.3. ESTIMACIÓN Y CONTRASTE DE RELACIONES DE COINTEGRACIÓN

El proceso de estimación de la relación de cointegración es un poco complicado dada

la relación mostrada entre cointegración y modelos de MCE del Teorema de Representación

de Granger. Es decir, tenemos que estimar la relación de cointegración y el MCE.

La vía tradicional de estimación y contraste de relaciones de cointegración ha sido

estimar directamente la relación de cointegración y, posteriormente, se modela el MCE. En

seguida desarrollamos el procedimiento.

IX.3.1. Estimación en dos etapas de Engle y Granger

La estimación en dos etapas de los modelos que involucran variables cointegradas

propuesta por [Engle y Granger (1987)] consiste en estimar en un primer paso la relación de

cointegración realizando la regresión estática de las variables en niveles y, en el segundo paso

se estima el MCE introduciendo los residuos de la relación de cointegración estimada en el

primer paso, diferenciados un periodo. Puede mostrarse que los resultados son consistentes

para todos los parámetros. En particular, los estimadores de los parámetros en el primer paso

convergen en probabilidad a una tasa n; mientras que en el segundo paso, los elementos del

vector de los términos de corrección de error, convergen asintóticamente a la tasa usual de

n . Esto se puede ilustrar proponiendo un modelo simple de MCO sin ordenada al origen.


180

Supongamos que existe alguna relación entre las series con media cero )1(, Iyx tt , y

que estas dos series están cointegradas. Entonces, la regresión estática sin ordenada al origen

de ty sobre tx está dada por:

ttt xy

Note que, el término de error, t , contiene toda la dinámica omitida y además,

)0(}{ It bajo el supuesto de cointegración. Así, es estimada consistentemente por la

regresión a pesar de la omisión de toda la dinámica. Tal estimación está dada por:

n

t

t

n

t

tt

n

t

t

n

t

tt

n

t

t

n

t

t

n

t

ttt

n

t

t

n

t

tt

x

x

x

xx

x

xx

x

yx

1

2

1

1

2

11

2

1

2

1

1

2

1

)(

ˆ

Podemos ver que a medida que t tiende a infinito, n

t

tx1

2también tiende a infinito y, en

consecuencia, ˆ tiende a independientemente de n

t

ttx1

, que se ve superado por el

crecimiento de n

t

tx1

2, a una tasa de n y no a la tasa usual de n .

Esto significa que los parámetros convergen al valor poblacional a una velocidad

superior, conforme aumenta la muestra, a las estimaciones con variables estacionarias. Este

hecho se debe a que para el verdadero valor , los residuales son estacionarios.

Este resultado es llamado teorema de superconsistencia de [Stock (1987)] y es usado

por Engle y Granger como base de la estimación. Enseguida enunciamos el Teorema de Engle

y Granger, el cual establece la distribución límite de la relación de cointegración en dos

etapas.

TEOREMA. (de Engle y Granger). La estimación en dos etapas de una ecuación de un

sistema de corrección de error con un vector de cointegración obtenido al tomar la estimación

ˆ de de la regresión estática, en lugar del verdadero valor, para estimar el MCE en la

segunda etapa, tiene la misma distribución límite con el estimador de máxima verosimilitud

que usando el verdadero valor de . El método de mínimos cuadrados en la segunda etapa

proporciona estimadores consistentes del error estándar.

Demostración. Ver [Engle y Granger (1987)].

///

Como hemos mencionado, la estimación tradicional de relaciones de cointegración

consiste en dos etapas. La primera consiste en estimar directamente la relación de

cointegración y la segunda en estimar el MCE introduciendo los residuos de la relación de

cointegración estimada en el primer paso.


181

IX.3.1a. Estimación Directa de la Relación de Cointegración

Cuando se estima una relación entre variables integradas, podemos caer en una

regresión espuria, es decir, obtener residuos que no son estacionarios, un R2 elevado y aceptar

como significativo el parámetro asociado al regresor. En cambio, si un conjunto de variables

están cointegradas, al obtenerse unos residuos estacionarios, puede realizarse la regresión por

MCO. Esto pone de manifiesto la utilidad de la teoría de cointegración a la hora de discriminar

entre relaciones espurias y relaciones reales entre variables.

Como hemos dicho antes, solo consideramos el caso bivariado para una mayor

simplicidad. Así, si )1(, Iyx tt y se puede plantear la regresión:

ttt xy

entonces la estimación por MCO, al minimizar la varianza residual, estimará consistentemente

este único parámetro de cointegración, , que conduce a unos residuos estacionarios.

De acuerdo a los supuestos, en la expresión anterior, aunque estén involucradas

variables I(1), no se trata de una relación espuria puesto que los residuales son estacionarios

para un determinado valor de y, por tanto, el estadístico Durbin-Watson (DW) será

significativamente distinto de cero al no haber una raíz unitaria en { t }.

Enseguida enunciamos algunas de las características que presenta la estimación por

MCO de la regresión de cointegración: ttt xy .

La estimación del parámetro es sesgada, principalmente cuando tenemos muestras

pequeñas. Esto se debe a la autocorrelación que presenta t [Phillips (1988)]. Este

sesgo no tiene una distribución normal ni media cero, pero desaparece cuando el

tamaño muestral tiende a infinito.

La estimación por MCO no es completamente eficiente, pues recordemos que no

estamos considerando el resto de información disponible, es decir, todo el MCE.

En la regresión estática suele haber una considerable autocorrelación residual, lo que

lleva a la inconsistencia de la estimación de los errores estándar de los parámetros.

Esto implica que los valores de t (estadística de prueba) de los parámetros del vector de

cointegración están sesgados y son inconsistentes. Por tanto, la inferencia sobre los

parámetros estimados no se puede hacer de manera tradicional.

Si las variables implicadas en la relación de cointegración son más de tres, se espera

una fuerte colinealidad entre las variables explicativas. Ello sucede porque, para que

haya una relación de cointegración, las variables han de evolucionar conjuntamente a

largo plazo. La eliminación de una de las variables explicativas en la regresión de

cointegración, a fin de reducir la multicolinealidad, conducirá a resultados

inconsistentes al no poder obtener residuos estacionarios. Con ello se constata que la

multicolinealidad, más que un problema, es una característica inherente a las variables

cointegradas.


182

En resumen, se podría decir que la estimación por MCO de la regresión de

cointegración proporciona, de forma sencilla, unos parámetros superconsistentes, aunque

sesgados y no eficientes, sobre los que no se puede hacer inferencia, pero que permitiría

contrastar si existe una raíz unitaria en los residuos estimados (que son consistentes).

IX.3.1b. Estimación del Mecanismo de Corrección de Error (MCE)

Una vez estimado por MCO el vector de cointegración (regresión estática) en el paso

uno, los resultantes parámetros del MCE pueden ser estimados consistentemente introduciendo

los residuales de la regresión estática del paso uno rezagados un periodo, es decir, 1t ,en el

MCE. Así, en la segunda etapa del proceso de estimación y contraste de relaciones de

cointegración, se estimará el MCE introduciendo 1t en lugar del vector de cointegración.

[Engle y Granger (1987)].

Existe una versión de estimación que consiste en tres etapas, es decir, se agrega una a

las dos anteriores. El supuesto en el que se basa esta versión es la existencia de un único

vector de cointegración. El procedimiento de estimación en tres etapas fue desarrollado por

[Engle y Yoo (1987)].

Otro método alternativo de estimación es propuesto por Johansen y está basado en el

concepto de máxima verosimilitud.

IX.3.2. Estimación de Johansen

El procedimiento basado en Máxima Verosimilitud con información completa tiene

una serie de ventajas frente a los restantes métodos, como son: contrastar simultáneamente el

orden de integración de las variables y la presencia de relación de cointegración y estimar

todos los vectores de cointegración, sin imponer a priori que únicamente hay uno. Por estos

motivos, se convierte en una alternativa cada vez más utilizada frente a otros métodos de

estimación y contraste como el de dos etapas de Engle y Granger. No obstante, el

procedimiento de Johansen también impone algunos supuestos. [Johansen (1988)].

El procedimiento parte de la modelación de vectores autoregresivos en la que todas las

variables se consideran endógenas (dependientes). Formalmente, supongamos el modelo

autorregresivo multivariado de orden p, VAR(p):

tptptt YYY 11

donde tY es un vector de orden m; m es el número de variables del modelo; es un vector de

constantes, y t es un vector de perturbaciones aleatorias tal que ),0(iidt .

Se puede mostrar (mediante algebra) que el modelo puede escribirse de la siguiente

forma:

tptptptt YYYY 1111


183

I

piI

p

ii

1

1 1,...,1,

donde

La matriz es conocida como matriz de impactos, pues contiene toda la

información sobre la relación a largo plazo. Note que esta última expresión del modelo es la

de un MCE en forma matricial.

Por otro lado, si recoge la relación de cointegración, entonces }{ ptY será I(0).

Esto garantiza que el modelo esté equilibrado.

Si r es el rango de , pueden presentarse los siguientes casos:

1. r=0.

En este caso, tendríamos que es una matriz nula. Esto implica que el modelo presente solo

variables diferenciadas y, en consecuencia, las variables del vector tY serán I(0). Es decir, no

existiría ninguna relación de cointegración.

2. 0 < r < m.

En este caso habrá r relaciones de cointegración. El rango de será el número de columnas

linealmente independientes de la matriz (vectores de cointegración).

3. r = m.

En este caso, el proceso multivariado { tY } será estacionario. Como mencionamos antes,

intuitivamente, esto se debe a que entre m variables sólo puede haber como máximo m − 1

vectores de cointegración linealmente independientes. Tendríamos que, si A es la matriz de

vectores de cointegración, )0(' IYA t , donde todas las variables de tY son I(1). En

conclusión, tY será estacionario solo si es de rango m, ya que esta matriz recoge las

relaciones (vectores) de cointegración (relaciones a largo plazo).

La idea intuitiva que hay detrás del procedimiento de estimación por Máxima

Verosimilitud de Johansen es que se deben encontrar las combinaciones lineales del vector tY

que estén correlacionadas al máximo con las diferencias tY . La secuencia de pruebas de

hipótesis sería empezar planteando H0: r=0 (no cointegración) frente una alternativa de r=1.

En caso de rechazar H0, se contrastaría la nueva hipótesis H0: r = 1 frente a la alternativa de

r=2, y así sucesivamente hasta el momento en que no se rechace H0, o bien hasta aceptar que

todas las variables son estacionarias, en tal caso, tendríamos r = m.

El proceso de estimación de Johansen se basa en el concepto de Máxima

Verosimilitud, por lo que debemos suponer alguna distribución (Normal Multivariada).

Supongamos que la expresión tptptptt YYYY 1111 es el MCE,

0 , 0 < r < m, 0,...,YY pt son datos conocidos y ),0(NMt e independientes. Bajo

estos supuestos, podemos obtener la estimación por Máxima Verosimilitud siguiendo los

siguientes pasos:


184

1. Estimar por MCO los sistemas de ecuaciones:

tptptpt

tptptt

rYYY

rYYY

111,1111

011,0101

De esta forma, podemos obtener los vectores residuales tr 0 y tr1 .

2. Calcular los momentos de segundo orden de los residuales. Es decir, calcular la cantidad:

1,0, ,1

'

jin

rr

S

n

t

jtit

ij

Note que Sij es una matriz cuadrada de orden m × m.

3. La estimación de máxima verosimilitud de la matriz de vectores de cointegración, A, bajo la

restricción de normalización IASA 11

' , se obtiene a partir del cálculo de los valores propios

de 01

1

0010 SSS respecto a 11S . Es decir, las i , i = 1, . . . ,m, son tales que:

001

1

001011 SSSS

Las lambdas obtenidas serán: m21 .

4. Para probar la hipótesis nula de que hay como máximo r vectores de cointegración frente a

la alternativa de que hay m, r < m, la estadística de prueba de razón de verosimilitud está dada

por: m

ri

itraza nQr1

)1(ln2)(

la cual sigue una distribución (asintótica) 2

)( fc , donde c = 0,85 − 0,58/f , 2

)( f es la

distribución Ji-Cuadrada con f = 2(m − r)2 grados de libertad. Esta estadística se denomina

estadística de la traza.

5. Teniendo el rango de cointegración, podemos pensar en la estimación de la matriz A. Las

columnas de A serán los vectores propios asociados a cada i . De esta forma, la i-ésima

columna de la matriz A, Ai, se estima a partir de la expresión:

iii ASASSS ˆˆ1101

1

0010 i=1,…,r

6. Una estimación consistente de las matrices , y se obtiene de:


185

'

00

01

ˆˆˆ

ˆˆˆ

ˆˆ

S

A

AS

IX.3.3. Contrastes de Cointegración sobre los Residuales

Una forma sencilla de contrastar una relación de cointegración entre variables consiste

en analizar si los residuos de la regresión de cointegración presentan un orden de integración

menor que el de las variables involucradas. A manera de ejemplo, para el caso de variables

I(1), el contraste consistirá en determinar si los residuos presentan una raíz unitaria (no

cointegración) o, lo que es lo mismo, determinar si son o no estacionarios. Para ello se pueden

utilizar los contrastes de raíces unitarias presentadas anteriormente (Dickey - Fuller).

Mostramos dos contrastes propuestos en [Engle y Granger (1987)] de los que existen

valores críticos tabulados: el basado en el Durbin-Watson de la regresión estática y el Dickey

- Fuller Aumentado sobre los residuos de dicha regresión. En ambos la hipótesis nula es:

)1(:0 IH t (H0: no cointegración)

Si no se rechaza la hipótesis de no cointegración entre las variables integradas

utilizadas en la regresión estática, debemos concluir que la relación estimada es de tipo

espurio.

IX.3.3a. Contraste Durbin-Watson sobre los Residuales de Cointegración (DWRC)

El DWRC, se calcula de la misma forma que el estadístico Durbin-Watson y está dado

por:

n

t

t

n

t

tt

DWRC

1

2

2

2

1

ˆ

ˆˆ

tˆ denota los residuales de la regresión de cointegración estimada por MCO.

La hipótesis nula que se plantea en la estimación ttt xy es 0:0 DWRCH

(no cointegración). Si el estadístico DWRC es significativamente mayor que cero, entonces

aceptaremos la existencia de una raíz unitaria en los residuos. El valor DWRC se compara con

los valores críticos de las tablas que aparecen en [Engle y Granger (1987)] para el caso de dos

variables. De manera usual, si el DWRC estimado es inferior a los valores críticos tabulados

no se podrá rechazar la H0.

Como todo procedimiento, este tiene ventajas y desventajas. Una ventaja de este

contraste es que es invariante frente a la posible inclusión de constantes y tendencias en el

modelo, sin que por ello varíen sus valores críticos. El problema de este contraste es que


186

generalmente { t } sigue un esquema AR(p) y el contraste DWRC considera únicamente un

esquema AR(1).

IX.3.3b. Contraste Dickey-Fuller sobre los Residuales de Cointegración (DFRC)

El contraste del tipo Dickey-Fuller (DF) o Dickey-Fuller Aumentado (DFA) sobre la

regresión de cointegración, consiste en estimar por MCO la regresión:

p

i

ttitt e1

11 ˆˆˆ

donde tˆ denota los residuos de la regresión de cointegración estimada por MCO, y el número

de retardos p se escoge suficientemente grande como para que { te } forme un proceso de ruido

blanco. Como sugieren Phillips y Oularis, el valor de p debe aproximarse por el valor 3 n

cuando las variables siguen un proceso ARIMA(p,1,q). La introducción de los retardos de los

residuos diferenciados en el modelo se justifica de la necesidad de eliminar la autocorrelación

que presenten los residuos.

Cabe señalar que si se utilizan los valores críticos de los contrastes DF o DFA para este

caso, se rechazará la hipótesis nula de no estacionaridad con demasiada frecuencia. Para evitar

este sesgo los valores críticos deben aumentarse ligeramente.

IX.4. PRONÓSTICO EN SISTEMAS COINTEGRADOS

En los procesos de predicción se tiene la característica de que la varianza del error de

pronóstico crece a medida que el horizonte de pronóstico lo hace (h crece). El proceso de

pronóstico de sistemas cointegrados también tiene esta característica.

Por otra parte, según [Engle y Yoo (1987)], el pronóstico a largo plazo viene dado

exactamente por el vector de cointegración. Así por ejemplo, dada una representación por

MCE con una relación de cointegración tt Xy'

, la mejor predicción a largo plazo hecha en

el momento t de hty (con t suficientemente grande) condicionada a htX es htht Xy'

ˆ , la

cual tendrá varianza finita aunque h tienda a infinito.

Sin embargo, el hecho de que la varianza de los errores del pronóstico (ECM) de la

combinación de cointegración se mantiene finita no resuelve el problema del pronóstico a

largo plazo con variables integradas. El siguiente ejemplo ilustra la dificultad.

Consideremos el proceso

ttt xx 10

con 1. Entonces, haciendo repetidas sustituciones, se puede llegar a que el pronóstico a h

pasos en el tiempo t, denotado por thtx ||ˆ está dado por:


187

t

h

h

tht xx1

)1(ˆ

0

|

Es fácil observar que cuando h tiende a infinito, la predicción en cuestión tiende a la

cantidad 1

0 )1( , que no es más que la media no condicional del proceso. Este argumento,

implica que el sistema de ecuaciones, si se reescribe enteramente en términos de variables I(0),

pierde la capacidad de pronosticar los valores futuros basados en el pasado observado.

Cuando el horizonte de pronóstico aumente (aumente h), el mejor pronóstico, como vimos con

el ejemplo, es la media no condicional.

En el siguiente ejemplo llevamos a cabo la estimación de la relación entre el índice

general de inflación y el índice subyacente de inflación (desglosado como mercancías y

servicios) [fuente: www.banxico.org.mx]. Se piensa que el índice subyacente determina en

gran medida el índice general, lo cual se prueba al ver en el mismo plano la gráfica de la serie

original y la serie estimada.

El análisis fue hecho con el paquete Eviews5 que ofrece las opciones de estimación del

vector de cointegración como las pruebas de raíz unitaria.


188

Ejemplo IX.3.1. Las series son las siguientes:

-2

0

2

4

6

8

10

25 50 75 100 125 150 175 200

índice general

-2

0

2

4

6

8

10

25 50 75 100 125 150 175 200

mercancias

0

1

2

3

4

5

6

7

25 50 75 100 125 150 175 200

servicios


189

Para manejar mejor las tres series, las ponemos en un “grupo” que llamamos

“inflaciones”.

Primero llevamos a cabo la regresión del índice general con los índices de mercancías

y servicios mediante la opción:

LS gral merc serv

Obteniendo:

Dependent Variable: GRAL

Method: Least Squares

Sample: 1 214

Included observations: 214

Variable Coefficient Std. Error t-Statistic Prob.

MERC 0.467194 0.043189 10.81736 0.0000

SERV 0.544799 0.046384 11.74533 0.0000

R-squared 0.892442 Mean dependent var 1.019811

Adjusted R-squared 0.891934 S.D. dependent var 1.048576

S.E. of regression 0.344702 Akaike info criterion 0.717029

Sum squared resid 25.18973 Schwarz criterion 0.748487

Log likelihood -74.72210 Durbin-Watson stat 1.280057

Procedemos a generar la serie de residuales siguiendo Proc > Make Residual Series y

llevar a cabo la prueba de raíz unitaria en esta serie mediante View > Unit Root Test.

Obteniendo:

Null Hypothesis: RESIDUALES has a unit root

Exogenous: Constant

Lag Length: 5 (Automatic based on SIC, MAXLAG=14) t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -9.061679 0.0000

Test critical values: 1% level -3.461783

5% level -2.875262

10% level -2.574161

*MacKinnon (1996) one-sided p-values.

Podemos ver que se rechaza la hipótesis de existencia de raíz unitaria en la serie de

residuales al 1% de significancia, por lo que concluimos que hay existencia de cointegración.

Esto confirma la hipótesis a priori.


190

La prueba de cointegración de Johansen la llevamos a cabo en el grupo que creamos,

siguiendo View > Cointegration Test y seleccionamos la opción 6). Obteniendo:

Data Trend: None None Linear Linear Quadratic

Test Type No Intercept Intercept Intercept Intercept Intercept

No Trend No Trend No Trend Trend Trend

Trace 3 3 3 2 3

Max-Eig 3 3 3 2 3

*Critical values based on MacKinnon-Haug-Michelis (1999)

Information Criteria by Rank and Model

Data Trend: None None Linear Linear Quadratic

Rank or No Intercept Intercept Intercept Intercept Intercept

No. of CEs No Trend No Trend No Trend Trend Trend

Log Likelihood by Rank (rows) and Model (columns)

0 -233.8655 -233.8655 -233.5023 -233.5023 -233.2761

1 -205.6714 -205.0184 -204.6646 -204.6133 -204.3887

2 -199.1119 -195.4835 -195.4712 -186.9923 -186.9295

3 -195.8286 -190.5258 -190.5258 -181.6423 -181.6423 Akaike Information Criteria by Rank (rows) and Model (columns)

0 2.582445 2.582445 2.607677 2.607677 2.634221

1 2.370062 2.373381 2.389135 2.398213 2.415203

2 2.364707 2.349124 2.358576 2.296577* 2.305546

3 2.390704 2.368668 2.368668 2.312366 2.312366

Schwarz Criteria by Rank (rows) and Model (columns)

0 3.158158 3.158158 3.231367 3.231367 3.305886

1 3.041727* 3.061039 3.108776 3.133847 3.182820

2 3.132324 3.148726 3.174170 3.144155 3.169115

3 3.254274 3.280214 3.280214 3.271888 3.271888

El criterio de Akaike sugiere que el número óptimo de rezagos sea 2, con intercepto y

tendencia lineal. Mientras que el criterio de Schwarz sugiere un modelo sin intercepto ni

tendencia con 1 rezago.

Realizamos nuevamente la prueba de cointegración, pero ahora elegimos la opción 2)

en base a lo dicho antes. El vector de cointegración normalizado es:

Normalized cointegrating coefficients (standard error in parentheses)

GRAL MERC SERV C

1.000000 -0.563586 -0.381434 -0.080367

(0.04903) (0.06200) (0.03664)


191

El último paso es graficar el índice general y el índice general estimado por la relación

de cointegración, esto lo hacemos mediante:

PLOT gral 0.080367+0.563586*merc+0.381434*serv

-2

0

2

4

6

8

10

25 50 75 100 125 150 175 200

GRAL0.080367+0.563586*MERC+0.381434*SERV

Como podemos observar, esta estimación logra un buen ajuste, dado que capta la

tendencia histórica de la serie.

Es interesante observar, la diferencia entre la estimación de la relación de

cointegración y la estimación de un vector autorregresivo, es decir, un modelo AR

multivariado. El ajuste del modelo AR multivariado se logra, en Eviews5, como sigue: en el

grupo creado anteriormente llamado “inflaciones”, seguimos la secuencia Proc> Make Vector

Autoregression y seleccionamos la opción Unrestricted VAR. Con esto aparecerán los

primeros resultados del modelo AR. En la ventana resultante seleccionamos la opción Views>

Lag Structure> Lag lenght criteria, esto nos informará una serie de criterios para elegir el

número de rezagos necesarios, que para este ejemplo es 7.

VAR Lag Order Selection Criteria

Endogenous variables: GRAL MERC SERV

Exogenous variables: C

Sample: 1 214

Included observations: 206


192

Lag LogL LR FPE AIC SC HQ

0 -470.6808 NA 0.019945 4.598843 4.647307 4.618443

1 -229.7849 472.4367 0.002099 2.347426 2.541283* 2.425828*

2 -219.8940 19.10944 0.002081 2.338777 2.678027 2.475981

3 -209.9945 18.83803 0.002063 2.330043 2.814685 2.526049

4 -202.9056 13.28305 0.002103 2.348598 2.978633 2.603405

5 -188.2707 26.99636 0.001992 2.293890 3.069318 2.607499

6 -175.9180 22.42670 0.001929 2.261340 3.182160 2.633751

7 -165.7514 18.16179* 0.001909* 2.250013 3.316226 2.681226

8 -156.7186 15.87312 0.001911 2.249695* 3.461301 2.739709

* indicates lag order selected by the criterion

LR: sequential modified LR test statistic (each test at 5% level)

FPE: Final prediction error

AIC: Akaike information criterion

SC: Schwarz information criterion

HQ: Hannan-Quinn information criterion

Hecho esto, podemos especificar que necesitamos 7 rezagos, es decir, se ajustará un

modelo multivariado AR(7), mediante la opción Proc> Specify/Estimate y especificamos 7 en

la opción Lag Intervals for Endogenous. Obteniendo:

Vector Autoregression Estimates

Sample (adjusted): 8 214

Included observations: 207 after adjustments

Standard errors in ( ) & t-statistics in [ ] GRAL MERC SERV

GRAL(-1) 0.773715 0.611884 0.526040

(0.12556) (0.11988) (0.10178)

[ 6.16207] [ 5.10431] [ 5.16820]

GRAL(-2) -0.498433 -0.433783 -0.328362

(0.13533) (0.12920) (0.10970)

[-3.68318] [-3.35747] [-2.99327]

GRAL(-3) 0.030600 0.029717 0.168272

(0.13840) (0.13213) (0.11219)

[ 0.22110] [ 0.22490] [ 1.49985]

GRAL(-4) -0.284761 -0.173730 -0.135601

(0.13731) (0.13109) (0.11131)

[-2.07388] [-1.32526] [-1.21826]

GRAL(-5) 0.234163 0.228375 0.213032

(0.13667) (0.13048) (0.11079)


193

[ 1.71338] [ 1.75027] [ 1.92289]

GRAL(-6) -0.340303 -0.064444 -0.092300

(0.13934) (0.13304) (0.11296)

[-2.44217] [-0.48441] [-0.81712]

GRAL(-7) -0.160788 -0.002166 -0.006777

(0.12298) (0.11742) (0.09970)

[-1.30738] [-0.01844] [-0.06798]

MERC(-1) 0.149463 0.446264 -0.058824

(0.11950) (0.11409) (0.09687)

[ 1.25075] [ 3.91157] [-0.60725]

MERC(-2) 0.175719 0.110649 -0.040811

(0.12686) (0.12112) (0.10284)

[ 1.38511] [ 0.91356] [-0.39684]

MERC(-3) 0.276499 0.248867 0.259067

(0.12715) (0.12139) (0.10307)

[ 2.17459] [ 2.05009] [ 2.51346]

MERC(-4) -0.351215 -0.179395 -0.307971

(0.12847) (0.12265) (0.10414)

[-2.73391] [-1.46267] [-2.95731]

MERC(-5) 0.127126 0.135534 -0.009963

(0.13163) (0.12567) (0.10670)

[ 0.96582] [ 1.07852] [-0.09338]

MERC(-6) 0.000569 -0.155819 -0.062932

(0.12802) (0.12223) (0.10378)

[ 0.00444] [-1.27482] [-0.60639]

MERC(-7) 0.369230 0.213162 0.143973

(0.10779) (0.10291) (0.08738)

[ 3.42535] [ 2.07129] [ 1.64765]

SERV(-1) 0.079826 0.103354 0.483039

(0.14824) (0.14153) (0.12017)

[ 0.53849] [ 0.73026] [ 4.01963]

SERV(-2) 0.259422 0.137790 0.262735

(0.15910) (0.15189) (0.12897)

[ 1.63060] [ 0.90715] [ 2.03720]

SERV(-3) -0.261119 -0.194021 -0.264887


194

(0.15930) (0.15209) (0.12913)

[-1.63916] [-1.27572] [-2.05126]

SERV(-4) 0.170856 0.102134 0.057375

(0.15929) (0.15208) (0.12913)

[ 1.07261] [ 0.67159] [ 0.44433]

SERV(-5) -0.073163 -0.236756 -0.036869

(0.15853) (0.15135) (0.12851)

[-0.46151] [-1.56427] [-0.28689]

SERV(-6) 0.299068 0.055199 0.190894

(0.15821) (0.15105) (0.12825)

[ 1.89028] [ 0.36543] [ 1.48841]

SERV(-7) -0.130125 -0.070010 -0.072713

(0.13697) (0.13076) (0.11103)

[-0.95005] [-0.53539] [-0.65490]

C 0.176391 0.076452 0.094600

(0.06472) (0.06179) (0.05246)

[ 2.72556] [ 1.23735] [ 1.80321]

R-squared 0.792219 0.845141 0.813005

Adj. R-squared 0.768633 0.827563 0.791778

Sum sq. resids 44.54642 40.60384 29.27260

S.E. equation 0.490705 0.468487 0.397782

F-statistic 33.58860 48.07803 38.30139

Log likelihood -134.7249 -125.1337 -91.26735

Akaike AIC 1.514250 1.421581 1.094371

Schwarz SC 1.868452 1.775783 1.448573

Mean dependent 0.976294 0.934256 0.970930

S.D. dependent 1.020164 1.128190 0.871729

Determinant resid covariance (dof adj.) 0.001389

Determinant resid covariance 0.000992

Log likelihood -165.3557

Akaike information criterion 2.235321

Schwarz criterion 3.297927

Muchos de los coeficientes en el modelo AR no son significativos. Para ello, podemos

llevar a cabo la regresión de la variable general con los 7 rezagos de las variables general,

mercancías y servicios. Una vez hecha la regresión, podemos ver que los resultados son los

mismos que los obtenidos anteriormente. La regresión es:

LS gral gral(-1) gral(-2) gral(-3) gral(-4) gral(-5) gral(-6) gral(-7) merc(-1) merc(-2) merc(-3) merc(-4) merc(-5) merc(-6) merc(-7) serv(-1) serv(-2) serv(-3) serv(-4) serv(-5) serv(-6) serv(-7) C


195

Dependent Variable: GRAL

Method: Least Squares

Sample (adjusted): 8 214

Included observations: 207 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

GRAL(-1) 0.773715 0.125561 6.162066 0.0000

GRAL(-2) -0.498433 0.135327 -3.683180 0.0003

GRAL(-3) 0.030600 0.138401 0.221098 0.8253

GRAL(-4) -0.284761 0.137309 -2.073877 0.0395

GRAL(-5) 0.234163 0.136667 1.713381 0.0883

GRAL(-6) -0.340303 0.139345 -2.442168 0.0155

GRAL(-7) -0.160788 0.122985 -1.307380 0.1927

MERC(-1) 0.149463 0.119499 1.250750 0.2126

MERC(-2) 0.175719 0.126863 1.385112 0.1677

MERC(-3) 0.276499 0.127150 2.174593 0.0309

MERC(-4) -0.351215 0.128466 -2.733911 0.0069

MERC(-5) 0.127126 0.131626 0.965817 0.3354

MERC(-6) 0.000569 0.128025 0.004442 0.9965

MERC(-7) 0.369230 0.107793 3.425351 0.0008

SERV(-1) 0.079826 0.148242 0.538487 0.5909

SERV(-2) 0.259422 0.159096 1.630599 0.1047

SERV(-3) -0.261119 0.159300 -1.639161 0.1029

SERV(-4) 0.170856 0.159291 1.072608 0.2848

SERV(-5) -0.073163 0.158530 -0.461507 0.6450

SERV(-6) 0.299068 0.158214 1.890276 0.0603

SERV(-7) -0.130125 0.136966 -0.950054 0.3433

C 0.176391 0.064717 2.725556 0.0070

R-squared 0.792219 Mean dependent var 0.976294

Adjusted R-squared 0.768633 S.D. dependent var 1.020164

S.E. of regression 0.490705 Akaike info criterion 1.514250

Sum squared resid 44.54642 Schwarz criterion 1.868452

Log likelihood -134.7249 F-statistic 33.58860

Durbin-Watson stat 1.986746 Prob(F-statistic) 0.000000

Utilizando un nivel de significancia del 5%, podemos concluir que muchos de los

coeficientes son estadísticamente igual con cero, quedando el modelo ajustado como:

7436421 369.0351.0276.0340.0285.0498.0774.0176.0 tttttttt MMMGGGGG

Como podemos ver, la variable “servicios” no resultó significativa, en este caso.


196

5. CONCLUSIONES

En primer lugar, es sano mencionar que el campo de estudio del Análisis de Series de

Tiempo es mucho más amplio que los temas que se exponen en el presente trabajo; Sin

embargo, de acuerdo al objetivo que se planteó al inicio, que era elaborar apuntes para las

materias de Series de Tiempo I y II que se imparten en la Licenciatura en Estadística de la

UACh, podemos decir que el objetivo principal se ha cumplido satisfactoriamente, pues se

reúnen todos los temas del plan de estudios de las materias mencionadas.

El ajuste de modelos de series de tiempo se llevó a cabo, principalmente, con el

paquete estadístico S-PLUS y con R. No obstante, se da un ejemplo de ajuste de modelo a una

serie univariada con ITSM-2000 en el Anexo, como se planteó en los objetivos. Además de

usar el paquete Eviews5 para el ejemplo de cointegración.

Aunque el modelo ajustado a las ventas de automóviles en el Anexo es bueno, este no

era el objetivo, sino ilustrar la rutina de ajuste de modelos con el paquete ITSM.

Estamos seguros que será una buena guía para quienes gusten del Análisis de Series de

Tiempo, y principalmente, para gente “principiante”, pues los ejemplos desarrollados están

resueltos con detalles. Además de que se manejaron ejemplos con datos de series de tiempo

reales.

Finalmente, como todo trabajo, estamos conscientes que la presente tesis está sujeta a

críticas y, desde luego, serán bienvenidas y agradecidas.


197

6. BIBLIOGRAFÍA

Box, G.E.P y Cox, D.R. (1964). An analysis of transformations. J. R. Stat. Soc.

Box, G.E.P, Jenkins, G.M y Reinsel, G.C (1994). Time Series Analysis, 3ra edición.

Prentice-Hall.

Brockwell P.J y Davis, R.A (1991). Time Series: Theory and Methods, 2da Edición.

Springer-Verlag.

Brockwell, P.J y Davis, R.A (2002). Introduction to Time Series and Forecasting.

Springer.

Davidson, J.H., Hendry, D.H., Srba, F. y Yeo, S (1978). Econometric Modelling of the

Aggregate Time-Series “Relationship between Consumers” Expenditure and Income in

the United Kingdom. The Economic Journal.

Davis, R.A, Chen, M y Dunsmuir, W.T.M (1995). Inference for MA(1) processes whit

a root on or near the unit circle. Probability and Mathematical Statistics 15.

Dempster, A.P, Laird, N.M y Rubin, D.B (1977). Maximum Likelihood from

incomplete data via the EM algorithm. J. R. Stat. Soc.

Durbin, J, A. (1960). The Fitting of Time Series Models. International Statist Inst, 28.

Engle, R.F y Granger, C.W.J (1987). Cointegration and error correction:

representation, estimation and testing. Econometrica 55.

Engle, R.F y B.S. Yoo (1987). Forecasting and Testing in Cointegrated Systems.

Journal of Econometrics 35.

Granger, C.W.J (1969). Investigating Causal Relations by Econometric Models and

Cross-Spectral Methods. Econometrica.

Graybill,F.A (1983). Matrices whit Applications in Statistics. Wadsworth.

Hamilton, J.D (1994). Time Series Analysis. Princeton University Press.

Hernández, A.R (2002). Tesis: Análisis de Cointegración. UNAM.

John E. Hanke, Arthur G. Reitsch. Pronósticos en los negocios. Prentice-Hall.

Jones, R.H (1978). Multivariate autorregression estimation using residuals. Academic

Press.

Loría, E. Econometría con aplicaciones. Prentice-Hall.

Lütkepohl, H (1993). Introduction To Multiple Time Series Analysis, 2da. Edición.

Springer-Verlag.

Mood, et. al (1974). Introduction to the Theory of Statistics. McGraw-Hill.

Phillips, P.C.B (1988). Time Series Regression whit a Unit Root. Econometrica 55.

Searle S.R (1997). Linear Models. John Wiley and Sons, Inc.

Stock, J.H (1987). Asymptotic Properties of Least Squares Stimators of Cointegrating

Vectors. Econometrica 55.

Wu, C.F.J (1983). On the convergence of the EM algorithm. Ann. Stat. 11.

Zivot, E y Wang, J (2003). Modeling Financial Time Series whit S-PLUS. Springer.

http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/serietiempo.htm#bi

http://www.gestiopolis.com/recursos2/documentos/fulldocs/eco/metrauni.htm

http://ciberconta.unizar.es

http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/serietiempo

http://www.banxico.org.mx

http://www.inegi.gob.mx

http://www.gestiopolis.com/recursos2/documentos/fulldocs/eco/metrauni.htm

http://ciberconta.unizar.es/

http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/serietiempo

http://www.inegi.gob.mx/


198

7. ANEXO

Los siguientes datos se refieren a las ventas mensuales de automóviles directamente al

público (por menudeo) desde 1997 hasta Julio de 2005. [fuente: Asociación Mexicana de la

Industria Automotriz A.C.]

Los datos fueron creados en archivo txt (bloc de notas) con el nombre Vautos. En

ITSM basta con abrir el archivo y en seguida aparecerá la gráfica

10.

20.

30.

40.

50.

60.

70.

80.

90.

100.

0 20 40 60 80 100

Series

De la gráfica se observa que el proceso tiene periodo 12 por tanto se diferenció a

distancia 12 usando la opción Transform>Difference especificando distancia 12, con lo que

se obtuvo el siguiente comportamiento de los datos:

-10.

-5.

0.

5.

10.

15.

20 30 40 50 60 70 80 90 100

Series

Así como las gráficas de autocorrelación y autocorrelación parcial de la serie

diferenciada dando clic en el segundo botón amarillo de la barra superior:


199

-1.00

-.80

-.60

-.40

-.20

.00

.20

.40

.60

.80

1.00

0 5 10 15 20 25 30 35 40

Sample ACF

-1.00

-.80

-.60

-.40

-.20

.00

.20

.40

.60

.80

1.00

0 5 10 15 20 25 30 35 40

Sample PACF

La gráfica de la ACF (izquierda) sugiere ajustar un modelo MA(6); mientras que la

PACF sugiere ajustar un modelo AR(7). Ambos modelos fueron ajustados por los algoritmos

de Innovaciones y Yule-Walker, respectivamente, así como por máxima verosimilitud. En

seguida se muestran los resultados.

La opción en ITSM-2000 para ajustar el modelo MA(6) por Innovaciones es Model>

Estimation> Preliminary, dar clic en Yes para restar la media a los datos, especificar 6 en MA

order y marcar Innovations en el cuadro de diálogo y dar clic en OK. Obteniendo:

MA(6): innovaciones

X(t) = Z(t) + .5043 Z(t-1) + .2602 Z(t-2) + .3279 Z(t-3)

+ .2722 Z(t-4) + .2982 Z(t-5) + .3362 Z(t-6)

WN Variance = 25.412365

AICC = .569155E+03

Para ajustar el modelo AR(7) por Yule-Walker usamos la opción Model> Estimation>

Preliminary, dar clic en Yes para restar la media a los datos, especificar 7 en AR order y

marcar Yule-Walker en el cuadro de diálogo y dar clic en OK. Obteniendo:

AR(7): Yule-Walker:

X(t) = .4665 X(t-1) + .003827 X(t-2) + .2175 X(t-3) + .04005 X(t-4)

+ .1199 X(t-5) + .09608 X(t-6) - .2837 X(t-7) + Z(t)


AICC = .565928E+03

Adicionalmente, podemos usar la opción Autofit, para encontrar el modelo ARMA(p,q)

por máxima verosimilitud. Para esto, usamos Model> Estimation> Autofit y damos clic en

OK. Obteniendo:


200

ARMA Model: Maximum Likelihood

X(t) = .6170 X(t-1) - .9252 X(t-2) + .6266 X(t-3) - .06290 X(t-4)

+ .4021 X(t-5) + Z(t) - .1692 Z(t-1) + .9999 Z(t-2)


AICC = .560177E+03

De los modelos anteriores, el que tiene menor valor del AICC es el ARMA(5,2), por

tanto es el que se decide ajustar.

Una vez que elegimos el modelo en base al menor valor de AICC, podemos graficar las

funciones de autocorrelación y autocorrelación parcial de los residuales dando clic en el

segundo botón verde de la barra superior de la ventana de ITSM-2000 y llevar a cabo las

pruebas de aleatoriedad usando la opción Statistics> Residual Analysis> Test of Randomness

y clic en OK. Los resultados son los siguientes:

-1.00

-.80

-.60

-.40

-.20

.00

.20

.40

.60

.80

1.00

0 5 10 15 20 25 30 35 40

Residual ACF

-1.00

-.80

-.60

-.40

-.20

.00

.20

.40

.60

.80

1.00

0 5 10 15 20 25 30 35 40

Residual PACF

============================================

ITSM::(Tests of randomness on residuals)

============================================

Ljung - Box statistic = 24.714 Chi-Square ( 20 ), p-value = .21260

McLeod - Li statistic = 35.157 Chi-Square ( 27 ), p-value = .13493

# Turning points = 63.000~AN(59.333,sd = 3.9819), p-value = .35714

# Diff sign points = 51.000~AN(45.000,sd = 2.7689), p-value = .03024

Rank test statistic = .18510E+04~AN(.20475E+04,sd = .14585E+03), p-value = .17788

Jarque-Bera test statistic (for normality) = .061972 Chi-Square (2), p-value = .96949

Order of Min AICC YW Model for Residuals = 0

De la gráfica se observa que los residuales forman un proceso de Ruido Blanco y

además no se rechaza la hipótesis de aleatoriedad con un nivel de significancia del 5 %.

Para llevar a cabo la validación del modelo se eliminaron las últimas 12 observaciones

del conjunto de datos y se volvió a ajustar el mismo modelo que a las observaciones completas

(diferenciadas a distancia 12 y corregidas por la media), es decir, un ARMA(5,2) por el


201

algoritmo de Hannan-Rissanen. Una vez diferenciada la serie a distancia 12, elegimos la

opción en ITSM-2000 Model> Estimation> Preliminary, clic en Yes para corregir por la

media y especificar 5 en AR order, 2 en MA order y marcar el método Hannan-Rissanen,

obteniendo:

ARMA Model: Hannan-Rissanen

X(t) = - .04237 X(t-1) - .2733 X(t-2) + .3653 X(t-3) + .1051 X(t-4)

+ .4004 X(t-5) + Z(t) + .4663 Z(t-1) + .4979 Z(t-2)


AICC = .499040E+03

Teniendo la estimación preliminar procedemos a ajustar el modelo por el método de

máxima verosimilitud. Model> Estimation> Max Likelihood y clic en OK, obteniendo:

ARMA Model: Maximum Likelihood

X(t) = .5982 X(t-1) - .9260 X(t-2) + .6513 X(t-3) - .09731 X(t-4)

+ .4828 X(t-5) + Z(t) - .2124 Z(t-1) + .9988 Z(t-2)


AICC = .479884E+03

Con el modelo ajustado al conjunto de datos “incompleto” se predijeron las 12

observaciones eliminadas mediante la opción Forecasting> ARMA, especificar 12 en number

predicted values y dar clic en OK. Tales predicciones fueron las siguientes:

20.

30.

40.

50.

60.

70.

80.

90.

0 20 40 60 80 100

Para obtener los valores, damos clic en la gráfica con el botón derecho del ratón y

seleccionar la opción INFO.


202

Aprox. 95% prediction bounds

Obs. Eliminada Prediction sqrt(MSE) Lower Upper

56,621 58.18605 4.30795 49.74262 66.62948

55,223 55.71491 4.61743 46.66492 64.7649

59,436 54.84041 4.79902 45.4345 64.24631

64,522 56.15027 5.21812 45.92295 66.3776

99,207 86.84078 5.26199 76.52748 97.15409

62,663 66.63468 5.41502 56.02144 77.24792

58,216 64.23794 5.82493 52.82128 75.65459

56,869 66.40624 5.90581 54.83107 77.98141

53,859 54.99261 5.91622 43.39703 66.58818

52,957 57.70647 5.98562 45.97487 69.43808

52,835 59.08517 6.11712 47.09584 71.07451

53,191 61.64121 6.21228 49.46536 73.81706

De la tabla anterior podemos ver que todas las observaciones eliminadas, salvo la

predicción 5, caen dentro del intervalo de predicción, por tanto podemos concluir que el

modelo usado para esta serie de tiempo es adecuado y la validación del modelo resulta exitosa.

Análisis de Series de Tiempo

Documents

Transcript of Análisis de Series de Tiempo