Modelación de series temporales usando ANFIS

18
´ AAAAAAAAAAAAAAAAAAAAAAAA ´ AAAAAAAAAAAAAAAAAAAAAAAA ART ´ ICULO Modelaci´ on de Series Temporales usando ANFIS Juan D. Vel´ asquez, Isaac Dyner R Escuela de Sistemas, Universidad Nacional de Colombia, Sede Medell´ ın {jdvelasq,idyner}@unalmed.edu.co Reinaldo C. Souza Departamento de Engenheria El´ etrica, Pontificia Universidade Cat´ olica, RJ [email protected] Resumen En este art´ ıculo, se examina la modelaci´ on de series temporales no lineales usando ANFIS. Se discute en primer lugar, su relaci´ on con otros modelos estad´ ısticos, y se presenta su formulaci´ on con una generalizaci´ on de estos; posteriormente, se analiza una aproximaci´ on metodol´ ogica para su especificaci´on inicial basada en criterios estad´ ısticos; y finalmente se presenta el caso del pron´ostico del precio de la electricidad en el Brasil en el mercado de corto plazo, como un ejemplo de aplicaci´on. Como resultado del estudio, se sugiere que la metodolog´ ıa propuesta sea parte integral de la modelaci´ on de series temporales usando ANFIS. Palabras clave: Sistemas Difusos, Series temporales no lineales, ANFIS. 1. Introducci´on En la modelaci´on estad´ ıstica, una serie temporal es definida como un conjunto de observaciones or- denadas en el tiempo: ..., y 1 ,y 0 ,y 1 ,..., y T ,y T +1 ,... (1) de las cuales s´olo se dispone de la realizaci´on {y t } T 1 . Dichas observaciones son el resultado de la aplicaci´on de un mecanismo generador a un con- junto de variables causales que explican el com- portamiento de y t . La hip´ otesis fundamental de la modelaci´on, es que dicho mecanismo puede ser representado por una funci´ on computable y desconocida f (·) que es aplicada al conjunto de regresores x t = {x (1) t ,...,x (U) t }: y t = f (x t )+ ν t (2) donde el t´ ermino ν t representa una serie de rui- dos aleatorios independientes e id´ enticamente dis- tribuidos, que siguen una distribuci´ on con me- dia cero y varianza σ 2 ν . Los regresores x t en (2), est´an formados por un subconjunto de las vari- ables causales visibles y cuantificables, que in- fluencian el mecanismo generador de las obser- vaciones. La serie de ruidos estoc´asticos {ν t } T 1 , representa el efecto de todas aquellas variables causales, cuantitativas o cualitativas, visibles o no visibles, no incluidas en el conjunto de regresores. Partiendo de la premisa fundamental de que f (·) en (2) existe y es computable, el objetivo funda- mental de la modelaci´on de series temporales es construir una funci´ on ˆ f (·) que la aproxime con alg´ un grado de precisi´on, vali´ endose de los datos disponibles {y t , x t } T 1 , tal que: y t = ˆ f (x t )+ˆ ν t (3)

Transcript of Modelación de series temporales usando ANFIS

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAARTICULO

Modelacion de Series Temporales usando ANFIS

Juan D. Velasquez, Isaac Dyner R

Escuela de Sistemas, Universidad Nacional de Colombia, Sede Medellın{jdvelasq,idyner}@unalmed.edu.co

Reinaldo C. Souza

Departamento de Engenheria Eletrica, Pontificia Universidade Catolica, [email protected]

Resumen

En este artıculo, se examina la modelacion de series temporales no lineales usando ANFIS. Se discute enprimer lugar, su relacion con otros modelos estadısticos, y se presenta su formulacion con una generalizacionde estos; posteriormente, se analiza una aproximacion metodologica para su especificacion inicial basada encriterios estadısticos; y finalmente se presenta el caso del pronostico del precio de la electricidad en el Brasilen el mercado de corto plazo, como un ejemplo de aplicacion. Como resultado del estudio, se sugiere que lametodologıa propuesta sea parte integral de la modelacion de series temporales usando ANFIS.

Palabras clave: Sistemas Difusos, Series temporales no lineales, ANFIS.

1. Introduccion

En la modelacion estadıstica, una serie temporales definida como un conjunto de observaciones or-denadas en el tiempo:

. . . , y−1, y0, y1, . . . , yT , yT+1, . . . (1)

de las cuales solo se dispone de la realizacion{yt}T

1 . Dichas observaciones son el resultado de laaplicacion de un mecanismo generador a un con-junto de variables causales que explican el com-portamiento de yt.

La hipotesis fundamental de la modelacion, esque dicho mecanismo puede ser representadopor una funcion computable y desconocida f(·)que es aplicada al conjunto de regresores xt ={x(1)

t , . . . , x(U)t }:

yt = f(xt) + νt (2)

donde el termino νt representa una serie de rui-dos aleatorios independientes e identicamente dis-tribuidos, que siguen una distribucion con me-dia cero y varianza σ2

ν . Los regresores xt en (2),estan formados por un subconjunto de las vari-ables causales visibles y cuantificables, que in-fluencian el mecanismo generador de las obser-vaciones. La serie de ruidos estocasticos {νt}T

1 ,representa el efecto de todas aquellas variablescausales, cuantitativas o cualitativas, visibles o novisibles, no incluidas en el conjunto de regresores.

Partiendo de la premisa fundamental de que f(·)en (2) existe y es computable, el objetivo funda-mental de la modelacion de series temporales esconstruir una funcion f(·) que la aproxime conalgun grado de precision, valiendose de los datosdisponibles {yt,xt}T

1 , tal que:

yt = f(xt) + νt (3)

2 Inteligencia Artificial Vol. 23, No17, 2004

Ello implica que el proceso generador de la se-rie temporal es estable, y que la serie de obser-vaciones {yt,xt}T

1 contiene suficiente informacionpara la construccion de f(·).

En la literatura se han presentado diferentes mod-elos parametricos para especificar f(·), los cualesse basan en asumir formas preestablecidas deno linealidad, cuya utilidad depende del gradode ajuste entre el modelo usado y el procesogenerador de la serie temporal. No obstante, sumayor crıtica ha sido asumir la forma de la nolinealidad, ya que en la practica es comun queno existan leyes fısicas o economicas que guıencompletamente la escogencia de un determinadomodelo parametrico. De ahı que los modelos noparametricos y no lineales de regresion surjan co-mo una alternativa viable para la representaciondel proceso generador de series temporales conestas caracterısticas.

De dichas metodologıas, los modelos de regre-sion comunmente usados en Inteligencia Com-putacional (sistemas de inferencia borrosa y lasredes neuronales artificiales), han venido siendoutilizados en la modelacion de series temporalesno lineales, con resultados exitosos en los casosde aplicacion. No obstante, el volumen de artıcu-los publicados en distintas revistas especializadasmuestra que se cuenta con mucha mas experien-cia en el uso de redes neuronales artificiales enla solucion de problemas de pronostico de seriestemporales, que en el uso de los sistemas de in-ferencia borrosa. Igualmente, parece que la com-plejidad en el proceso de preparacion de mode-los de redes neuronales ha desviado la atencionde la mayor parte de los investigadores y practi-cantes hacia los aspectos propios de este proble-ma, descuidandose en alguna medida otros aspec-tos de igual importancia, relacionados en buenaparte con la modelacion estadıstica de series tem-porales.

De acuerdo con nuestro conocimiento, la con-struccion de modelos de series temporales usandosistemas de inferencia difusa se aborda con la mis-ma metodologıa para la construccion de modelosde regresion, ignorandose muchos de los desar-rollos de la modelacion estadıstica; mas aun, nohemos encontrado evidencias de la existencia detrabajos relacionados con la interpretacion de lossistemas de inferencia difusa en el contexto de lamodelacion estadıstica de series temporales.

En consecuencia de lo anterior, este artıculo secentra en la construccion de sistemas adaptativos

de inferencia neurodifusas [ANFIS] [15] interpre-tados como modelos de series temporales no lin-eales dentro de un marco estadıstico.

Para lograr este objetivo, la seccion 2 presen-ta una introduccion muy rapida a los sistemasde inferencia borrosa; posteriormente en la sec-cion 3, se presentan algunos modelos parametri-cos no lineales, y como ellos pueden ser deriva-dos como casos particulares de ANFIS; en la sec-cion 4, se discuten como la formulacion de estaclase de modelos centrada en un marco estadısticopermite su mejor entendimiento, y una determi-nacion clara de sus ventajas y desventajas, bajola forma de una aproximacion metodologica parala formulacion preliminar de estos modelos basa-da en herramientas estadısticas; seguidamente enla seccion 5, se realiza la aplicacion de la aprox-imacion metodologica al caso real del pronosticodel precio de electricidad en el Brasil. Finalmenteen la seccion 6, se presenten las principales con-clusiones obtenidas en este estudio.

2. Sistemas adaptativos de

inferencia neurodifusa(ANFIS)

En la teorica clasica de conjuntos, un subconjun-to S del universo U puede ser definido como unafuncion que relaciona cada elemento x del univer-so, con un elemento del conjunto discreto {0, 1},esto es:

S : U → {0, 1} (4)

tal que el cero es usado para indicar que el ele-mento no pertenece con certeza a S, y la unidadpara indicar certeza de la pertenencia.

En el caso de los conjuntos difusos [32], S es unafuncion que relaciona cada elemento de U con unpunto en el intervalo continuo [0, 1], tal que el ceroindica la certeza de la no pertenencia del elementox al conjunto S, la unidad indica la certeza abso-luta de dicha pertenencia; y los valores entre ceroy uno, representan grados parciales de pertenen-cia. En este caso S recibe el nombre de conjuntoborroso.

La funcion que vincula cada elemento del univer-so en un valor en el intervalo [0, 1], µS(x), recibeel nombre de funcion de pertenencia, y en el casode universos que corresponden a variables con-tinuas, puede ser representada usando diferentesfunciones matematicas; entre ellas se encuentran

Inteligencia Artificial Vol. 23, No17, 2004 3

la funcion S o sigmoidea:

S(u; γ, c) =1

1 + exp[−γ(u− c)](5)

la funcion Z:

Z(u; γ, c) = 1− S(u; γ, c) (6)

o la funcion Φ o campana generalizada:

Φ(x;α, β, γ) =1

1 +∣∣∣u−γ

α

∣∣∣|2β| (7)

Un sistema difuso esta conformado por variablesde entrada y salida, reglas difusas, y un metodode inferencia que permita obtener los valores delas variables de salida, cuando son conocidos losvalores de las variables de entrada.

Un sistema difuso conformado por reglas deTakagi–Sugeno [27, 28, 29] puede ser interpretadocomo una red neurodifusa conocida como ANFIS[15]. La Figura 1 presenta la arquitectura de AN-FIS para un sistema de inferencia de dos variablesdifusas x y y:

if x ∈ A1 ∧ y ∈ B1 ⇒ z = p1x+ q1y + r1if x ∈ A1 ∧ y ∈ B2 ⇒ z = p2x+ q2y + r2if x ∈ A2 ∧ y ∈ B1 ⇒ z = p3x+ q3y + r3if x ∈ A2 ∧ y ∈ B2 ⇒ z = p4x+ q4y + r4

(8)donde el dominio de x esta cubierto por los con-juntos borrosos A1 y A2, y el dominio de y por B1

y B2. El proceso de inferencia para una entrada(x, y) implica: calcular µA1(x), µA2(x), µB1(y) yµB2(y) usando (7); estimar la inferencia Produc-to para cada regla wj = µA(x) ·µB(y); establecerel porcentaje que cada regla aporta a la solucionfinal wj = wj∑ N

i=1 wi; y finalmente, calcular el re-

sultado del sistema como:∑

i wifi.

Notese que en (8), las variables que conforman losantecedentes de las reglas son las mismas que con-forman sus consecuentes; y que el dominio de cadavariable esta cubierto por al menos dos conjuntosborrosos, de acuerdo con la definicion de reglas deTakagi–Sugeno. Usualmente, la funcion especifi-cada para el consecuente es la combinacion linealde las entradas, pero en el caso general es posibleusar funciones mas complejas. La ecuacion de lacampana generalizada (7) es una eleccion comunpara modelar las funciones de pertenencia con quese especifican los conjuntos borrosos.

El sistema formado por (8) puede incluir infor-macion proveniente del experto en la forma de

reglas difusas, ası como aprendida a partir de in-formacion historica de la serie temporal que seesta modelando. Esto se logra a traves del afi-namiento de la cantidad y las funciones de perte-nencia asociadas a cada una de las variables ex-plicativas.

La capacidad de ANFIS para aproximar funcionesno lineales, esta determinada por el numero deconjuntos borrosos asignado a cada variable inde-pendiente; esto trae como desventaja que proble-mas con un numero moderado de variables inde-pendientes, requieran una gran cantidad de infor-macion para realizar el entrenamiento.

Un problema fundamental en la aplicacion dela metodologıa es la seleccion de las variablesque conformaran las reglas difusas, y el numerode conjuntos borrosos asignados a cada variable.Jang [16] propone el uso del algoritmo CART [7]para determinar la estructura inicial de ANFIS yposteriormente afinar los parametros del modelousando un algoritmo de optimizacion.

3. ANFIS como un modelo

de series temporales

3.1. Modelos lineales de Box yJenkins

La formulacion de ANFIS, analizada en el contex-to del modelamiento de series de tiempo, permiteque este sea interpretado como una generalizacionno lineal de los modelos autoregresivos. En elcaso lineal, f(·) definida en (3) es la ecuacionparametrica lineal:

f(xt) = g(xt|{aj}U0 ) = a0 +

U∑j=1

aj · x(j)t (9)

donde los coeficientes {aj}U0 son estimados usan-

do mınimos cuadrados:

{aj}U0 = arg min

{aj}U0

T∑t=1

[yt − g(xt|{aj}U0 )]

2 (10)

En la familia de modelos de Box y Jenkins[5], elvector de regresores xt (9) toma diferentes for-mas, de acuerdo con el tipo de modelo considera-do. En el caso general, xt esta formada por valoresrezagados de yt, {yt−j}P

j=1, los terminos aleato-rios {νt−j}Q

j=1, y los rezagos de otras variables

4 Inteligencia Artificial Vol. 23, No17, 2004

causales {u(i)t−j}i=C,j=Pi

i=1,j=1 . El uso de esta clase demodelos requiere que {yt}T

1 sea estacionaria en elsentido homogeneo, esto es, que su valor esperadoy su varianza sean constantes en el tiempo. Elloimplica que toda la serie pertenece a la mismadistribucion de probabilidades. En algunas situa-ciones una transformacion de la serie temporalpuede ser adecuada. Mills [23, p. 32] indica quepara series con varianza variable, la transforma-cion de potencias de Box y Cox:

yt = g(zt, λ) =

{log zt ,λ = 0,zλ

t −1λ ,λ = 0

(11)

puede corregir parcialmente este problema. En(11), λ es estimado de tal forma que maximicela funcion de verosimilitud:

L(λ) = −T

2log

{∑Tt=1(y

λt − (y)2λ)T

+(λ− 1,0)T∑

t=1

ln yt

}(12)

con

yλ =T∑

t=1

yλt

T

Esta familia de modelos solo es exitosa en la me-dida de que g(xt|{aj}U

0 ) se aproxime a la funcionreal f(·) definida en (2). Ello implica que en lafuncion aproximada f(·) las relaciones entre losregresores xt y yt son lineales, y segundo, que susrelaciones son constantes en el tiempo, ya que loscoeficientes {aj}U

0 son independientes de t.

A1

A2

B1

B2

x

y

x y

x y z

1 2

3 4

A1 A2

B1

B2

Figura 1. Arquitectura Tıpica para ANFIS

con reglas de Takagi–Sugeno y particion

inducida sobre el espacio de entrada

3.2. Modelos SETAR, SETMA ySETARMA

Una generalizacion de (9) al caso no lineal [31,Seccion 3.3.1.1] es dividir el dominio de una vari-able de transicion zt en {Rk}K

1 regiones disyun-tas, tal que f(·) puede ser aproximada por:

if zt ∈ Rk ⇒ yt = gk(xt|{a(k)j }U

0 ) + ν(k)t (13)

La determinacion de la cantidad de regiones K,sus lımites, y los valores de los parametros se hacea partir de los datos {xt, yt}T

1 . El principio funda-mental de (13) es dividir la serie temporal genera-da por un sistema estocastico complejo en subsis-temas mas simples. Toman su nombre de acuerdoal tipo de modelo de Box y Jenkins con que seespecifique el consecuente de las reglas. Cada unade las regiones Rk representa diferentes regımenesde comportamiento lineal dentro del dominio dela variable de decision zt. La continuidad en yt

es obtenida a traves de la variable aleatoria νt.Este modelo (13) puede tomar la forma del mod-elo parametrico lineal:

yt =K∑

k=1

Ik(zt) ·(gk(xt|{a(k)

j }U0 ) + ν

(k)t

)(14)

donde Ik es una funcion indicadora tal que:

Ik(z) ={

1 Si z ∈ Rk

0 en cualquier otro caso (15)

donde Rk es la k-esima region en que se encuentraparticionada zt. En este tipo de modelos, la tran-sicion entre uno y otro modelo autoregresivo serealiza de forma brusca, sin permitir que existanregiones de transicion entre un regimen y otro.

3.3. Modelos LSTAR y ESTAR

Baccon y Watts [2] y Maddala [22] reconocenel hecho de que el cambio de regimen en (14)obedece mas a un cambio gradual que a unatransicion brusca, por lo que incorporan den-tro del modelo, una funcion de transicion F (untratamiento formal es presentado por Tong [31,sec. 3.3.3] y Granger y Terasvirta [11]). Para elcaso del modelo con dos regımenes:

yt = [1− F (zt)] ·a

(1)0 +

P1∑j=1

a(1)j x

(j)t

+

F (zt) ·a

(2)0 +

P2∑j=1

a(2)j x

(j)t

+ νt (16)

Inteligencia Artificial Vol. 23, No17, 2004 5

Para la formulacion de F (·) se asume que ellasolo puede tomar valores en el intervalo [0, 1].El modelo representado por (16) es conocido co-mo STAR (smooth transition regression mod-el). Cuando F (·) es especificada como la funcionlogıstica o S definida en (5), el modelo se conocecomo LSTAR (logistic smooth transition regres-sion) Cuando γ tiende a infinito, la funcion detransicion converge a la funcion indicadora (15),tal que el modelo se reduce a un SETAR dondeel parametro c es el lımite entre las dos regionesen que se divide el dominio de la variable de tran-sicion z. Si F (·) es especificada como la funcionexponencial:

F (u; γ, c) = 1− exp[−γ(u− c)2] (17)

el modelo resultante es llamado ESTAR (expo-nential smooth transition regression) Un proble-ma de esta funcion es que converge a un valorconstante cuando γ tiende a cero; cuando tiendea infinito se reduce a un modelo SETAR.

Granger [12] sugiere que la especificacion de mod-elos no lineales debe seguir un procedimiento quevaya de lo general a lo especıfico, iniciando con unmodelo simple o restringido que gana compleji-dad mientras las pruebas de diagnostico indiquenque el modelo actual es inadecuado para repre-sentar el proceso generador de la serie temporal.Terasvirta[30] sugiere el siguiente procedimientoempırico de especificacion de modelos STAR:

1. Se especifica un modelo autoregresivo de or-den p para la serie temporal estudiada

2. Se realiza una prueba estadıstica donde seconfronta la hipotesis de linealidad del mod-elo contra la alternativa de usar un mode-lo STAR. Si la linealidad es rechazada, seselecciona la variable de transicion zt y lafuncion de transicion F (·).

3. Se estiman los parametros del modelo.

4. Se ejecutan las pruebas de diagnostico

5. Se plantean modelos alternativos si es nece-sario.

3.4. Interpretacion de ANFIS

Una generalizacion directa de la particion real-izada sobre el dominio de zt en (13), es hacer quedichas regiones se traslapen, permitiendo que so-bre la interseccion tengan influencia los modelos

autoregresivos de cada una de ellas. Un mecan-ismo para lograr esto, es representar cada regionpor un conjunto borroso, el cual puede ser mod-elado usando (7). De esta forma, un modelo condos regiones puede escribirse como:

if zt ∈ A1 ⇒ yt = g(xt|{a(1)j }U

0 ) + νt

if zt ∈ A2 ⇒ yt = g(xt|{a(2)j }U

0 ) + νt

(18)

con g(·) definida en (9). El sistema de reglas for-mado por (18) es un caso particular de (8).

La variable de transicion zt puede ser especificadaen el caso mas simple, como una de las compo-nentes del vector xt, pero funciones mas comple-jas pueden ser facilmente incorporadas dentro delmodelo, tales como una combinacion lineal de al-gunas componentes de xt. En el caso general, losantecedentes de (18) pueden contener mas de unavariable de transicion, e inducen una particioncompleja del dominio de las variables de transi-cion; diversos esquemas han sido presentados enla literatura con el fin de lograr particiones maseficientes del espacio del dominio, en los cuales acada una de ellos se les asignan dos o mas conjun-tos borrosos, que pueden ser simetricos o asimetri-cos, induciendo ası diferentes esquemas de parti-cion.

La formulacion presentada en (18) difiere de (8)en que se incluye en el consecuente de cada reglaa νt, el cual es el mismo termino para todas re-glas; igualmente (18) permite generalizar la for-mulacion de ANFIS, al caso en que los conjun-tos de variables que conforman los antecedentesy los consecuentes pueden ser diferentes. La in-terpretacion desarrollada vincula esta clase demodelos de inferencia borrosa con otros modeloscomunmente usados en la modelacion estadısti-ca; en consecuencia, es posible usar los desarrollosteoricos realizados para estos modelosestadısticosen la especificacion y validacion de ANFIS.

El proceso de calculo de yt en (18), permite quedicho sistema sea transformado a la ecuacionparametrica lineal definida en (9), tal que los co-eficientes {aj}U

0 son calculados como:

aj = φj(zt) = k1 × a(1)j + k2 × a

(2)j (19)

donde:

kj =m(zt;αj , βj , γj)

m(zt;α1, β1, γ1) +m(zt;α2, β2, γ2), j = 1, 2

De esta forma, (18) es equivalente al modelo au-toregresivo:

yt = φ0(zt) +P∑

j=1

φj(zt)× x(j)t (20)

6 Inteligencia Artificial Vol. 23, No17, 2004

cuyo comportamiento depende de la variable detransicion zt, y para el cual los coeficientes {ak}K

0

definidos en (9) son una funcion continua de lavariable de transicion zt. En consecuencia, existeun modelo autoregresivo lineal por cada puntodel dominio de zt, mientras que para los modelosSETAR, SETMA, SETARMA, LSTAR y ESTARexiste un modelo por cada region en que se parti-ciona el conjunto de regresores; y en el caso de losmodelos de Box y Jenkins existe un unico modeloautoregresivo que se ajusta a la totalidad de losdatos. El modelo definido en (20) es atribuido aPrestley [25].

Si en (18), el conjunto borroso A1 es mode-lado usando la funcion Z(u; γ1, c1) definida en(6) y el conjunto borroso A2 usando la funcionS(u; γ2, c2) definida en (5), yt es calculado como:

yt = k1

a

(1)0 +

P∑j=1

a(1)j x

(j)t

+

k2

a

(2)0 +

P∑j=1

a(2)j x

(j)t

+ νt (21)

con:

k1 =Z(zt; γ1, c1)

Z(zt; γ1, c1) + S(zt; γ2, c2)

k2 =S(zt; γ2, c2)

Z(zt; γ1, c1) + S(zt; γ2, c2)

Si se imponen la restricciones c1 = c2 = c yγ1 = γ2 = γ a los parametros de S(·) y Z(·),es facilmente demostrable que:

S(zt; γ, c) + Z(zt; γ, c) = 1 (22)

de tal forma que (21) se puede reescribir como:

yt = [1− S(zt; γ, c)]

a

(1)0 +

P∑j=1

a(1)j x

(j)t

+

S(zt; γ, c)

a

(2)0 +

P∑j=1

a(2)j x

(j)t

+ νt (23)

la cual corresponde al modelo LSTAR definido en(16). Si γ se hace cero, la funcion de transicion sehace igual a 0,5 de tal forma que (23) converge almodelo lineal:

yt =12[a(1)

0 + a(2)0 ] +

12

P∑j=1

[a(1)j + a

(2)j ]x(j)

t + νt (24)

Si γ tiende a infinito, (23) convergera a un modeloSETAR.

Es posible obtener funciones de transicion mascomplejas al liberar las restricciones impuestas alos parametros γ y c, o al usar la funcion de cam-pana generalizada (7) para modelar los conjuntosborrosos en (18).

4. Estrategıa general para la

formulacion de modelos

En el contexto de la modelacion estadıstica de se-ries temporales, la estrategia general para la es-pecificacion y aceptacion de modelos fue formu-lada originalmente por Box y Jenkins [5], la cualha sido ajustada por diferentes autores (princi-palmente Tong [31], Granger y Teravirta [11] yHarvey [13]) para ser aplicada en la construccionde modelos no lineales. Los pasos fundamentalesson presentados en la Tabla 1.

4.1. Paso 1: Identificacion

Durante la fase de identificacion, se realiza unanalisis exploratorio de la serie que tiene comoobjetivos la determinacion de los regresores xt

con los que se construira el modelo de inferen-cia difusa, la realizacion de una transformacionde los datos que permita al modelo capturar suspropiedades estadısticas, y finalmente, la determi-nacion de las principales propiedades estadısticasde la serie temporal. Como resultado final del pro-ceso de identificacion, se especifican varios mode-los difusos alternativos para representar el proce-so generador de la serie temporal.

4.1.1. Determinacion de los regresores

Uno de los principales problemas en la mod-elacion de {yt}T

1 es la seleccion correcta del con-junto de regresores xt, ya que su eleccion inicialy los resultados del analisis exploratorio prelimi-nar que permite descartar variables irrelevantes,se basan profundamente en las decisiones subjeti-vas del modelador y su apreciacion subjetiva delambiente donde se genera la serie temporal [8].En consecuencia, este proceso tiene una alta com-ponente de juicio experto que puede ser viciadopor las desviaciones y errores sistematicos deriva-dos de no realizar un proceso formal de razon-amiento, ya que se encuentra sometido a las lim-itaciones propias de la mente humana (este topico

Inteligencia Artificial Vol. 23, No17, 2004 7

es ampliamente discutido por Hogarth [14]). For-malmente, el pronosticador establece un conjuntode regresores x∗

t , potencialmente explicativos delcomportamiento de yt, basado en el analisis delproceso generador de la serie temporal, y apoya-do en leyes fısicas o teorıa economica:

x∗t = ((x∗)(1)t , . . . , (x∗)(D)

t ) (25)

posteriormente el conjunto de regresores xt esobtenido como la solucion de un problema de op-timizacion combinatoria, en el que se pretendeobtener el menor subconjunto wt de x∗

t que max-imiza un criterio C(·) que mide la cantidad deinformacion entre wt y yt:

xt = arg maxwt⊂x∗

t

C(wt, y) (26)

La solucion de (26) mediante un proceso debusqueda exhaustiva haciendo un recorrido or-

denado de todos los subconjuntos de x∗t , es el

unico que garantiza encontrar el conjunto opti-mo de regresores xt; sin embargo, esto solo esfactible cuando C es calculable rapidamente yel tamano del conjunto x∗

t es moderado, ya quepuede caer facilmente en el curso de la dimension-alidad. No obstante, diferentes metodos heurısti-cos han sido propuestos para la reduccion del es-pacio de busqueda de los subconjuntos de x∗

t . Se-lecciones comunes son algoritmos de ramificaciono acotacion, la seleccion de las mejores variablesindividuales, la seleccion secuencial hacia delante,la eliminacion secuencial hacia atras o el meto-do stepwise. Sin embargo, todos ellos, realizan unrecorrido no optimo del espacio de busqueda, yno usan una heurıstica inteligente que permitadescartar regiones con base en las caracterısticasparticulares de {xt, yt}T

1 .

Tabla 1. Estrategia para la Especificacion de Modelos

Paso 1: Identificacion– Seleccion de los Regresores– Propiedades estadısticas de la serie temporal– Transformacion de la serie temporal– Especificacion de f(·)

Paso 2: Estimacion de ParametrosPaso 3: Diagnostico y Analisis de la

Dinamica de la SeriePaso 4: MetadiagnosticoPaso 5: Construccion de Pronosticos e

Intervalos de ConfianzaPaso 6: Validacion del Pronostico

4.1.2. Especificacion de C(·) como un cri-terio independiente de ANFIS

En las tecnicas independientes del modelo difuso,C es especificado como una medida de la canti-dad de informacion que contiene cada uno de lossubconjuntos de x∗

t para pronosticar yt; sin em-bargo, no puede asegurarse que la especificacionposterior de ANFIS capture completamente lasrelaciones entre el conjunto final se regresores se-leccionado xt y yt. El examen de los autocorrelo-gramas, autocorrelogramas parciales, correlogra-mas cruzados y correlogramas cruzados parcialesde la serie temporal, podrıa entregar informacionde utilidad. La autocorrelacion parcial es una me-dida de la dependencia lineal entre yt y yt+k,despues de que la influencia de rezagos interme-

dios ha sido parcialmente eliminada. No obstante,Granger y Teravirta [11] muestran que el uso decorrelaciones y autocorrelaciones como medidasde dependencia aplicadas a procesos no lineales ono estacionarios puede ser peligroso. Igualmentesugieren que otras medidas utiles de relacion en-tre x

(i)t y yt son obtenidas al analizar sus rela-

ciones cuando son aplicadas diferentes transfor-maciones, parametricas y no parametricas, a cadauno de ellos. Transformaciones comunmente us-adas son log |u|, u, u2 o expu. Estas medidas sonel coeficiente maximo de correlacion entre γ(yt) yη(x(i)

t ), donde las funciones γ(·) y η(·) son escogi-das para maximizar el coeficiente de correlacioncruzada. La maxima correlacion media entre yt

y η(x(i)t ), que se obtiene escogiendo η(·), tal que

maximice este criterio. Finalmente, el coeficiente

8 Inteligencia Artificial Vol. 23, No17, 2004

maximo de regresion, que se obtiene a partir deyt = η(x(i)

t ) + νt.

Una medida mas general de dependencia es la In-formacion Mutua [4, 3, 18], la cual permite detec-tar relaciones lineales y no lineales entre variables.Si x y y son variables aleatorias, con distribu-ciones de probabilidad fX y fY respectivamente,y distribucion conjunta fX,Y , la Informacion Mu-tua de X respecto a Y , I(x; y) es:

I(x, y) =∫R

fX,Y (x, y) logfX,Y (x, y)fX(x)fY (y)

dx dy

(27)la cual puede interpretarse como la medida deKullback–Leiber entre la distribucion actual delos datos, fX,Y , y la distribucion que ellos ten-drıan sı fuesen estadısticamente independientes,fX · fY . La correlacion sombra:

R2(x(i)t , yt) = 1− exp(−2 · I(x(i)

t , yt)) (28)

esta ıntimamente relacionada con la IM y puedeser usada potencialmente para sugerir los rezagosapropiados usados en el modelo.

4.1.3. Especificacion de C(·) como un cri-terio dependiente de ANFIS

En las tecnicas dependientes, C se especifica co-mo una funcion del error de ajuste entre ANFIS yyt; esto implica que la seleccion de xt, la especifi-cacion de ANFIS y la estimacion de sus paramet-ros se realiza de forma conjunta, dificultando elproceso de construccion del modelo, y haciendoque dichas tecnicas requieran recursos computa-cionales intensivos.

Jang [17] propone que C(·) sea especificada comoel error cuadratico medio entre las observacionesreales de la serie temporal y ANFIS para el cuallos parametros de los antecedentes han sido es-tablecidos de forma heurıstica, y los consecuentesmediante mınimos cuadrados, sin realizar ninguntipo de entrenamiento del modelo.

4.1.4. Determinacion de las propiedadesestadısticas de {yt}T

1

Cuando hay sospechas de no linealidad, Tong[31] indica que los diagramas de dispersion entre(yt, x

(j)t ), los histogramas bivariados, o los esti-

mados no parametricos de E[yt|x(j)t ] y V [yt|x(j)

t ]

pueden ser utiles. Su principal debilidad es la in-terpretacion subjetiva por parte del experto, yque ellas pueden indicar la posibilidad de exis-tencia de relaciones, pero no pueden usarse comoun criterio final en este proceso.

El analisis del espectro de la serie temporal per-mite la deteccion de otras caracterısticas impor-tantes relacionadas con sus patrones estacionalesy ciclos de largo plazo. El espectro de energıaes comunmente investigado, pero otras medidastales como el espectro cruzado, el biespectro o elbiespectro cruzado podrıan dar otras interpreta-ciones de la serie temporal.

Como un complemento a los metodos graficos in-formales, varias pruebas de linealidad aplicadasen el dominio de la frecuencia o el tiempo puedenser aplicadas, tanto a los datos originales como ala serie temporal transformada, usualmente conla funcion f(u) = u2. Una prueba comun paraverificar la linealidad de los datos es calcular loscuadrados de la autocorrelacion de la serie tempo-ral, y la autocorrelacion del cuadrado de la serietemporal; estos valores deben ser muy similarescuando la serie es lineal, y su divergencia es unaevidencia de no linealidad.

4.1.5. Transformacion de la serie tempo-ral

Otra parte importante del analisis exploratoriode datos es seleccionar una transformacion de laserie temporal que minimice el ruido e indiquerelaciones importantes, y prepare los datos enuna forma que facilite la estimacion del mode-lo. La mayorıa de los modelos son desarrolladosbajo la suposicion de homogeneidad en el sentidoestadıstico, lo que implica que la serie temporaldebe tener una varianza estable, y que la tenden-cia, el patron estacional y los ciclos de largo plazohan sido eliminados antes del modelamiento. Parahacer la varianza estable se usan transformacionescomo log u,

√u o 1

u , pero Mills [23, p. 32] indi-ca que ellas son un caso especial de la familia detransformaciones de potencias de Box y Cox [6].La eliminacion de componentes estructurales serealiza a traves de diferenciaciones simples y esta-cionales; sin embargo, este procedimiento asumeque dichas componentes son fijas y no son influ-enciadas por los regresores.

Inteligencia Artificial Vol. 23, No17, 2004 9

4.1.6. Especificacion de ANFIS

Como ya se demostro en las secciones anteriores,los modelos LSTAR son, bajo algunas restric-ciones, un caso particular de ANFIS, de tal formaque los procedimientos empıricos para su especi-ficacion, pueden ser potencialmente utiles en laformulacion de esta clase de modelos difusos. Enel caso de ANFIS, la formulacion de un mode-lo lineal autoregresivo permite especificar la for-ma funcional y los regresores usados en los conse-cuentes de las reglas. No obstante, se parte dela hipotesis de que en los diferentes regımenestienen influencia las mismas variables, y cambiasolamente el valor del coeficiente en cada una delas reglas. Esto no es necesariamente cierto, y po-drıa usarse un proceso de optimizacion combina-toria que determine que regresores debe contenercada regla. En el caso de los modelos STAR, elrechazo de la hipotesis de linealidad es realizadocon base en pruebas estadısticas; sin embargo, noexisten desarrollos de este tipo para ANFIS, porlo que deberıa recurrirse a pruebas indirectas dela calidad de representacion y generalizacion delmodelo, tales como la validacion cruzada. La se-leccion de la variable de transicion debe realizarsede forma empırica, contrastando diferentes mod-elos que difieren en el regresor utilizado para suespecificacion.

4.2. Paso 2: Estimacion deParametros

Jang [15] muestra como los consecuentes de lasreglas pueden ser estimados por mınimos cuadra-dos, para valores conocidos de los parametros delos conjuntos difusos. Este procedimiento permitereducir el espacio de busqueda para realizar laoptimizacion. Un procedimiento similar ha sidopropuesto por otros autores para la estimacionde los parametros STAR.

4.3. Paso 3: Diagnostico

El proceso de diagnostico consiste en verificar elcumplimiento de las hipotesis del modelo una vezha sido ajustado a la serie de datos. Este es re-alizado con base en dos tipos de pruebas funda-mentales: la emision de juicios informados basa-dos en la inspeccion visual de ajuste de ANFISa la serie, y el analisis estadıstico de los resulta-dos, que permitira corroborar los juicios y detec-

tar inconsistencias que no son facilmente visibles.El analisis de los errores puede dar indicacionessobre problemas en la especificacion del modelodifuso o la seleccion de los regresores que confor-man xt. Sin embargo, este proceso contiene unaalta cantidad de juicio subjetivo para determi-nar si el modelo se ajusta apropiadamente a losdatos. Este es un proceso comunmente realizadoen el modelado estadıstico de series temporales,pero aparentemente no es una practica usual en elmodelamiento usando herramientas de Inteligen-cia Computacional.

Durante esta fase se examinan los residuos delmodelo, {νt}T

1 , para juzgar si ellos son ruido blan-co; el proceso de analisis consta de dos partes, unainspeccion visual de diferentes graficos que per-miten visualizar el comportamiento de los resid-uos a lo largo de la serie de tiempo; y de la real-izacion de pruebas estadısticas para verificar quesean efectivamente ruido blanco.

El procedimiento basico para examinar el com-portamiento de los residuos es graficarlos contrael tiempo. Sin embargo, una grafica de los residu-os estandarizados puede ser mas util. Otros pro-cedimientos de utilidad es examinar la grafica dela suma acumulada de residuos estandarizados, yla grafica de la suma acumulada del cuadrado delos residuos estandarizados. En su conjunto estastres graficas pueden ayudar a detectar cambiosestructurales en la serie temporal; regiones conerrores persistentemente positivos o negativos, omuy altos o bajos en magnitud respecto al restodel grafico son de interes.

Los modelos descritos en secciones anterioresparten de la hipotesis de normalidad de los er-rores. Su falta de cumplimiento es un indicativode que ANFIS no ha capturado adecuadamentelas propiedades de {yt}T

1 . El procedimiento basicopara verificar la normalidad es la construccion delhistograma de los errores estandarizados, y com-pararlo contra la distribucion normal estandar.

Varias pruebas estadısticas pueden ser realizadaspara verificar especificaciones incorrectas de AN-FIS, basadas en la deteccion de componentes es-tructurales dentro de los residuos. Ljung y Box[19] proponen el uso del estadıstico Q∗ para de-terminar si las primeras P correlaciones no sonsignificativamente diferentes de cero. Cuando haysospechas de no linealidad, el estadıstico anteri-or puede ser usado sobre diferentes funciones delos residuos; en particular, cuando es aplicado so-bre las autocorrelaciones de los cuadrados de losresiduos, puede ser indicativo de algunos efectos

10 Inteligencia Artificial Vol. 23, No17, 2004

no lineales. Igualmente el estadıstico de Durbin-Watson puede ser usado para verificar si la au-tocorrelacion para el primer rezago es cero. Undiagnostico de heterocedasticidad de los residuos[13] puede ser realizado verificando el estadıstico:

H(h) =

∑Tt=T−h+1 ν

2t∑1+h

t=1 ν2t

(29)

donde h es el entero mas cercano a T/3; hH(h)sigue una distribucion χ2

h. Para verificar la nor-malidad de los residuos, se calculan sus coeficientede asimetrıa, b1, y curtosis, b2, los cuales se com-portan asintoticamente normales, con distribu-ciones N [0, 6/T ] y N [3, 24/T ] respectivamente.La no normalidad puede ser verificada por el es-tadıstico:

N = (T/6)b21 + (T/24)(b2 − 3)2 (30)

la cual sigue una distribucion χ22. La regresion de

νt respecto a t, a los regresores, x(j)t , y yt puede

indicar una estructura de dependencia en los er-rores.

Durante la fase de diagnostico, la presencia decomponentes estructurales en la serie de residuosdel modelo, revela una inconsistencia dentro de suespecificacion, debido posiblemente a la necesidadde incluir otros rezagos de la variable pronostica-da, nuevas variables causales o nuevos rezagos delas variables causales ya incorporadas.

En el proceso de analisis de la dinamica de la se-rie, el objetivo fundamental es encontrar regioneso puntos en la serie de tiempo, con muy baja prob-abilidad de ocurrencia de acuerdo con el mode-lo ajustado. Dichas regiones pueden correspondera cambios en la dinamica de la serie o interven-ciones puntuales sobre el proceso generador. Unavez detectados, es posible realizar un proceso deindagacion que busque los motivos de este com-portamiento atıpico y reformular el modelo paraque se tenga esta consideracion en cuenta.

4.4. Paso 4: Metadiagnostico

Este se basa en dos grupos de pruebas: el primergrupo tiene por objeto determinar la calidad delajuste del modelo en terminos de precision; los es-tadısticos comunmente aceptados son el porcenta-je de la varianza explicada por el modelo:

R2 = 1,0−T∑

t=1

ν2t

y2t

(31)

la varianza del predictor:

σ2νt

∼ 1T

T∑t=1

νt (32)

y la desviacion media absoluta (MAD):

MAD =1T

T∑t=1

|νt| (33)

El segundo grupo tiene como objetivo descartarotras especificaciones que podrıan ajustarse a losdatos; se realiza eliminando o adicionando termi-nos, y demostrando que ellos son necesarios parael caso de la eliminacion, o son estadısticamenteno significativos en el caso de su adicion.

Una vez que ANFIS a sido especificado y susparametros han sido calculados, deben realizarsepruebas de aceptacion que midan su bondad enla representacion de los datos. Usualmente enlos modelos de corte matematico, este procesoesta definido por la ejecucion de una serie depruebas que validan su aceptacion. Sin embargo,existen otros criterios de validacion que tienenque ver mucho mas con la representacion men-tal que realiza el experto, y que a pesar de noser metodologıas matematicas si permiten que segane confianza en el uso de la herramienta depronostico. Este tipo de validaciones es usadocomunmente en Dinamica de Sistemas.

4.5. Paso 5: Construccion dePronosticos e Intervalos deConfianza

Cuando se ha finalizado el proceso de especifi-cacion y validacion de ANFIS, se procede a laconstruccion de pronosticos e intervalos de con-fianza. El pronostico para un periodo adelante,yT+1, sigue usualmente una distribucion normal,y es calculado de forma directa usando (3). Cuan-do xt contiene uno o mas valores rezagados deyt, la construccion del pronostico j periodos ade-lante, requiere el uso de simulacion de Montecarlo[10], ya que ANFIS realiza una transformacion nolineal de los datos de entrada.

Un factor crıtico de este proceso es la incorpo-racion de informacion contextual o cualitativa enel proceso de pronostico. Una vez construidos lospronosticos, el experto emite un juicio sobre suvalidez basado en su apreciacion subjetiva del

Inteligencia Artificial Vol. 23, No17, 2004 11

proceso generador de la serie temporal. Si el ex-perto considera que el pronostico no refleja ade-cuadamente la realidad, se realiza una modifi-cacion de los resultados entregados por el modelo.Existen dos fuentes posibles de error: la primeraes que el experto realice una correccion que noes necesaria, y la segunda que no la introduzca,cuando ella es requerida.

Adicionalmente a las correcciones de los pronosti-cos, puede hacerse necesario que se revalue la es-pecificacion de ANFIS desde alguna de las fasesprevias.

Otro problema fundamental en la emision depronosticos es cuando el vector de regresores con-tiene otras variables causales diferentes a valoresrezagados de yt. Durante el proceso de emisionde pronosticos, es necesario conocer los valoresde xt durante todo el horizonte de pronostico, detal forma, que es requerido conocer los valoresde dichas variables causales, por lo que sus val-ores deben ser entregados al modelo ya sea comopronosticos o como escenarios de evolucion. En elmodelamiento de series temporales con regresoresno lineales, las variables causales pueden influen-ciarse parcialmente y de forma no lineal, de talforma que ya sea sus pronosticos o sus escenariosde evolucion no pueden ser desarrollados indepen-dientemente.

Es tambien importante, la preparacion de unamemoria de especificacion, ya que pueden re-visarse y revalidarse muchos de los supuestosde ANFIS cuando fue especificado originalmente,haciendose vital un proceso de documentacion or-denado y minucioso.

4.6. Paso 6: Validacion delPronostico

En la fase de validacion del pronostico, puedenpresentarse observaciones muy alejadas de laspredicciones realizadas. Esto puede ser debido aque se produjo un valor con una probabilidad muybaja de ocurrencia y es simplemente un valor ex-tremo, o a que se esta gestando un cambio en ladinamica del proceso generador de las observa-ciones. Cuando esta situacion ocurre, el pronos-ticador debe juzgar el motivo de ocurrencia paratomar los correctivos necesarios; sin embargo, unasola observacion no es suficiente, y es necesariotener que esperar para recolectar evidencias quepermitan juzgar si existe un cambio en la dinami-ca del proceso generador. Existen tambien cam-

bios mas sutiles, y que no son facilmente detecta-bles, los cuales ameritan un ajuste del modelo,como por ejemplo, que el pronostico sea consis-tentemente superior o inferior a las observaciones.

5. Aplicacion al pronostico

del precio de electricidaden Brasil

Las ultimas decadas se han caracterizado por pro-cesos de desregulacion y liberalizacion (vease aSteiner [26] para una revision general) que bus-can fundamentalmente [1, 9] la creacion de mer-cados de electricidad teoricamente eficiente, enlos cuales las empresas racionalicen su operacion,y produzcan beneficios economicos representadospor la disminucion de las tarifas para el con-sumidor final. En el caso particular de Brasil, lareestructuracion de su sector electrico dio comoresultado la creacion del Mercado Atacadista deEnergıa (MAE) que tiene dentro de sus objetivosfundamentales, el establecimiento de un precio dela electricidad en el mercado de corto plazo (oprecio spot) que refleje el costo marginal de op-eracion (CMO) del sistema en el corto plazo, quepermita a los productores y consumidores realizardecisiones mas eficientes, y que a su vez sirva co-mo una senal economica para el establecimientode los precios de la electricidad en los contratosde largo plazo y las decisiones de inversion de losagentes privados. En la actualidad, el precio deelectricidad es semanal y es calculado para cadauno de los submercados en que se encuentra divi-dido el sector electrico Brasileno. Ellos son: Norte,Nordeste, Sureste/Centro, Oeste y Sur.

El proceso de calculo del precio spot, se basa en laplanificacion centralizada del sistema, donde esteprecio se asocia al costo marginal de la demanda(la formulacion matematica general es presentadapor Pereira [24], y las caracterısticas detalladasde la metodologıa de solucion y representaciondel sistema son presentadas en [20] y [21]); no ob-stante, el Gobierno tiene la facultad de intervenirel precio de la electricidad para modificar la senalenviada a los agentes del sistema.

Por simplicidad de la exposicion, solo se consid-era el caso del modelado univariado de la serie deprecios.

12 Inteligencia Artificial Vol. 23, No17, 2004

5.1. Identificacion

En esta primera fase, se analiza el comportamien-to de la serie de precios spot y se determinaransus propiedades estadısticas, para posteriormenterealizar la seleccion de regresores y la formulacionpreliminar del modelo.

5.1.1. Serie de precios de la electricidad

La inspeccion visual de la serie presentada enla Figura 2, revela varias caracterısticas intere-sante. Desde ene/96 hasta dic/98 la serie presentaun comportamiento caracterizado por la presen-cia de precios bajos de la electricidad, especıfica-mente en feb/96, dic/96 a feb/97, may/97, ene/98y nov/98; en ene/99 se produce aparentementeun cambio de nivel, causando que el resto deltiempo, el precio no baje de 44 $R/kWh. Du-rante la primera mitad de 1996, el precio aumen-ta, para luego caer en la segunda mitad, un com-portamiento aparentemente asociado a la vari-abilidad hidrologica. 1997 se caracteriza por tenerprecio medio mas bajo que el ano anterior, cau-sado posiblemente por una mayor abundancia deagua para la generacion hidraulica. Durante 1998,el precio se hace menos volatil que en anos anteri-ores, y presenta un nivel mas estable, con un valormedio similar al de 1997. El precio de la electrici-dad durante el primer semestre de 1999 tiene pocavariabilidad, y presenta una ligera tendencia a labaja; durante la segunda mitad del mismo ano, seproduce un rapido ascenso del precio spot hastaalcanzar un valor de 285 $R/kWh en ene/00; losmeses de feb/00 a abr/00 presentan un descen-so rapido del precio spot, de los 285.5 $R/kWhregistrados en ene/00 a 56.7 $R/kWh en abr/00.A partir de este periodo se presenta un ascensoy posterior descenso del precio, similar al ocur-rido en 1996 pero con un nivel mucho mas alto,que coincide con el agotamiento de las reservashidraulicas, y posterior almacenamiento de agua;en ene/2001 se inicia un ascenso acelerado del pre-cio spot, desde 56.9 $R/kWh hasta 684 $R/kWhregistrados en jun/01. A medida que la energıaafluente va aumentando, el precio spot empieza adisminuir, pasando de su nivel maximo en sep/00a 336 $R/kWh en oct/200, valor en el que per-manece estable durante el resto del ano. La mediade la muestra de datos es 119.68, su varianza es27375.68, su coeficiente de asimetrıa es 2.44, y sucurtosis de 5.66.

5.1.2. Seleccion preliminar de regresores

En el caso analizado solo se consideran los valorespasados del precio de la electricidad, de tal for-ma que x∗

t contiene como elementos a todos losvalores retrasados en el tiempo de yt respecto almomento actual t. En el caso en que se incluyeranvariables causales, x∗

t podrıa incluir la demandade electricidad, los aportes hidrologicos, o la en-ergıa almacenda en el embalse agregado. Si ellasson consideradas en la formulacion del modelo,aquı deberıa justificarse su inclusion.

5.1.3. Transformacion de la Serie de Pre-cios

La serie de precios spot no cumple con las carac-terısticas de homogeneidad en el sentido estadısti-co, ya que la media y la varianza de la primeramitad de la serie es diferente a la de la segundamitad; una transformacion de los datos puede re-sultar beneficiosa en este aspecto; sin embargo,la decision del tipo de transformacion esta basa-da en el juicio experto del modelador. En estecaso se usa la transformacion de Box y Cox conλ = 0,065. Igualmente esta transformacion hacenque la distribucion estadıstica de los datos {yt}T

1

se asemeja mas a una normal. La serie transfor-mada de precios spot se presenta en la Figura 3.En ella, se puede visualizar con mayor detalle lascaracterısticas ya discutidas.

5.1.4. Propiedades estadısticas de las se-ries

Los analisis se realizan para la serie del preciospot transformado. El diagrama presentado en laFigura 4, muestra una relacion de no linealidadentre el precio spot y el precio spot rezagado unao dos unidades de tiempo; para rezagos mayoresla grafica se va haciendo cada vez mas disper-sa. El valor esperado precio spot y su varianzacondicionales al precio spot rezagado i perıodosson presentados en las Figuras 5 y 6. Ellas indicanque para los valores medios del precio spot, se es-pera un crecimiento gradual del precio de ordenlineal; mientras que en sus valores extremos, sepresenta una relacion no lineal. La varianza delprecio spot dado el precio rezagado, es variabley decreciente en el tiempo; los precios bajos pre-sentan varianzas mucho mas altas que los preciosaltos; este hallazgo puede confirmarse con la in-speccion de la Figura 3.

Inteligencia Artificial Vol. 23, No17, 2004 13

Como una medida de la relacion existente en-tre cada elemento de x∗

t y yt, se utiliza la au-tocorrelacion y la autocorrelacion parcial tal co-mo se indico en la metodologıa. Los resultadosdel analisis de los autocorrelogramas y autocor-relogramas parciales indican la existencia de unarelacion causal entre los precios con rezagos uno ydos y el precio actual. Se sospecha de la existen-cia de una relacion no lineal para estos mismosregresores ya que la varianza no es constante.

5.2. Formulacion del modelo y di-agnostico

En esta fase se ajustara primero un modelo au-toregresivo y luego se procedera con la especifi-cacion de ANFIS, usando los valores rezagadosde la serie temporal. Las observaciones de las se-ries entre ene/96 y jun/01 son usadas para la es-timacion de parametros y diagnostico del mode-lo, mientras que las observaciones entre jul/01 y

dic/01 son usados para las pruebas de pronosticofuera de la muestra.

5.2.1. Modelo autoregresivo

De acuerdo con los resultados del analisis del au-tocorrelograma y el autocorrelograma parcial, elvector de regresores potenciales x∗

t se reduce a losrezagos uno y dos de la serie de precios spot. Deesta forma, se ajustara el modelo:

yt = µ+ φ1yt−1 + φ2yt−2 + νt

Sin embargo, la seleccion final se basa en los re-sultados de los criterios de Akaike (AIC) y Bayes(BIC) para modelos alternativos donde se con-sidera que entra uno solo de los regresores. Losresultados se presentan en la Tabla 2. Todos loscoeficientes caen en los lımites de invertibilidad.Los criterios AIC y BIC favorecen el modelo queincluye los dos rezagos del precio spot.

0

100

200

300

400

500

600

700

ene-96

may-96

oct-96

mar-97

jul-97

dic-97

may-98

oct-98

feb-99

jul-99

dic-99

may-00

sep-00

feb-01

jul-01

nov-01

$R/kWh

Figura 2. Precio de la electricidad

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

ene-96

may-96

oct-96

mar-97

jul-97

dic-97

may-98

oct-98

feb-99

jul-99

dic-99

may-00

sep-00

feb-01

jul-01

nov-01

$R/kWh

Figura 3. Transformacion de Box y Cox del precio de la electricidad. λ = 0.065

14 Inteligencia Artificial Vol. 23, No17, 2004

1.0

3.0

5.0

7.0

9.0

1.0 3.0 5.0 7.0 9.0precio spot [t]

precio spot [t-2]

1.0

3.0

5.0

7.0

9.0

1.0 3.0 5.0 7.0 9.0precio spot [t]

precio spot [t-1]

1.0

3.0

5.0

7.0

9.0

1.0 3.0 5.0 7.0 9.0precio spot [t]

precio spot [t-3]

1.0

3.0

5.0

7.0

9.0

1.0 3.0 5.0 7.0 9.0precio spot [t]

precio spot [t-4]

Figura 4. Diagrama de dispersion.

1.0

3.0

5.0

7.0

9.0

1.0 3.0 5.0 7.0 9.0ps[t-2]

E(ps[t]|ps[t-2])

1.0

3.0

5.0

7.0

9.0

1.0 3.0 5.0 7.0 9.0ps[t-1]

E(ps[t]|ps[t-1])

Figura 5. Precio esperado.

0.0

1.0

2.0

3.0

1.0 3.0 5.0 7.0 9.0psps[t-2]

V(ps[t]|ps[t-2])

0.0

1.0

2.0

3.0

1.0 3.0 5.0 7.0 9.0ps[t-1]

V(ps[t]|ps[t-1])

Figura 6. Varianza esperada.

Inteligencia Artificial Vol. 23, No17, 2004 15

Tabla 2. Seleccion del modelo autoregresivo

Modelo φ1 φ2 σ2νt

AIC BIC

i=1 0.71700 1.3122 0.3020 0.3352i=2 0.63381 1.6249 0.5158 0.5489i=1,2 0.55558 0.25638 1.2327 0.2698 0.3362

5.2.2. ANFIS

En este caso se especifica un modelo ANFIS parael caso univariado. Los modelos son estimados us-ando como variable de transicion el precio spotcon rezago uno o dos; los consecuentes de las re-glas son modelos autoregresivos de orden dos. Laseleccion del mejor modelo se realiza, consideran-do todas las posibles combinaciones de variablede decision, y posibles modelos autoregresivos enel consecuente de las reglas. El mejor modelo en-contrado usa como variable de decision el preciospot con rezago uno; el consecuente de la primeraregla difusa es un modelo autoregresivo cuyo re-gresor es el precio spot con rezago uno, mientrasque para la segunda regla, el consecuente es unmodelo autoregresivo de orden uno cuyo regresores el precio spot con rezago dos. Se usa la fun-cion de campana generalizada para representarlos conjuntos difusos.

La varianza del predictor es 0,8680, mientrasque la desviacion media absoluta es 24,68%. Losresiduos cumplen con la hipotesis de normalidad,el coeficiente de asimetrıa es −0,94, mientras quela curtosis es 3,92. No hay evidencias de hetero-cedasticidad en los residuos. Las correlaciones se-riales para los primeros ocho rezagos de los resid-uos no son significativamente diferentes de cero.Este analisis preliminar indica que los residuossiguen una distribucion normal. Sin embargo, esteno es concluyente ya que no garantiza que el mod-elo represente adecuadamente el comportamientode la serie de precios. Por ello, es necesario revis-ar detalladamente los pronosticos, buscando enque observaciones o regiones el modelo puede re-sultar insatisfactorio: en el pronostico un periodoadelante [vease las Figuras 7a y 7b] los perıodosdonde el precio spot toma el valor de 4 $/kWh,quedan por fuera de los intervalos de confianzadel pronostico, excepto para la observacion denov/98 para la cual ANFIS pronostica adecuada-mente su valor. Durante 1999, ANFIS pronosticavalores consistentemente por debajo de las obser-

vaciones. La misma situacion se presenta entrefeb/01 y jun/01. Igualmente las Figuras 7c, 7d,7e y 7f, muestran que el error en la primera mi-tad de la serie es en magnitud superior al de lasegunda mitad; igualmente, que hay cierta alter-nacion del signo de los errores en la primera mitadde la grafica, mientras que para la segunda estosson persistentemente positivos.

5.3. Metadiagnostico

En el pronostico extrapolativo (vease la Figura8), se realiza una prediccion ciega de los proximosseis meses, donde cada pronostico se convierte enun regresor para obtener la prediccion del messiguiente. Ya que el pronostico yT+i no es unvalor sino una distribucion de probabilidades, esnecesario utilizar simulacion de Montecarlo paraobtener yT+i+1. Los resultados obtenidos mues-tran que ANFIS es consistente con la disminuciondel precio spot del segundo semestre de 2001; eneste caso la varianza del predictor es 0,6779, y ladesviacion media absoluta es 10,35%. En la Tablaque aparece en la Figura 8, se presentan tanto lospronosticos como los intervalos de confianza parael percentil del 95%. Es importante notar comodichos intervalos no son simetricos alrededor delpronostico debido a la transformacion no linealque reaiza ANFIS.

5.4. Construccion de pronosticos eintervalos de confianza

Ya que se ha concluido que el modelo es adecua-do para representar la serie temporal, se procederefinamiento de los parametros con la informa-cion usada para el metadiagnostico, y se procedea la construccion de predicciones e intervalos deconfianza de igual forma que en el paso anterior.

16 Inteligencia Artificial Vol. 23, No17, 2004

6. Conclusiones

Se ha mostrado como los modelos ANFIS puedenser derivados como una generalizacion al caso nolineal de los modelos autoregresivos, en el contex-to de las series temporales. Esta derivacion per-mite especificar de forma practica, una clase masgeneral de modelos ANFIS, en la cual, los conjun-tos de variables que conforman los antecedentesde las reglas son diferentes. Esto posibilita laaplicacion de esta metodologıa a series relativa-mente cortas pero que requieren un numero rela-tivamente alto de variables causales para explicarsu comportamiento. En consecuencia, se obtienenmodelos con un numero inferior de reglas, y por

consiguiente menos parametros, a los obtenidosal derivar la formulacion usando metodologıastradicionales como CART. Su interpretacion co-mo un modelo de series temporales, tambien posi-bilita el uso de herramientas estadısticas en elproceso de seleccion de variables, diagnostico ymetadiagnostico del modelo, enriqueciendo lasmetodologıas tradicionales de Inteligencia Com-putacional cuando son aplicadas a esta clase deproblemas.

La aproximacion metodologica propuesta, no soloda informacion en terminos de precision numericasore la capacidad del pronostico, sino que tambienpermite realizar un analisis detallado de la cali-dad del modelo.

(d) Residuos normalizados ^2

(e) Suma Acum de residuos norm^2

PRUEBAS DE DIAGNÓSTICO (1)

(b) Valores reales vs pronosticados

(b) Residuos normalizados del Modelo

(a) Pronóstico un paso adelante

(c) Suma acum de los residuos norm

-2

0

2

4

6

8

10

dic-95

jun-96

ene-97

jul-97

feb-98

ago-98

mar-99

oct-99

abr-00

nov-00

may-01

(CMO^0.065-1)/0.065

-4

-3

-2

-1

0

1

2

3

4

-12

-9

-6

-3

0

3

6

9

12

dic-95

jun-96

ene-97

jul-97

feb-98

ago-98

mar-99

oct-99

abr-00

nov-00

may-01 0.0

0.2

0.4

0.6

0.8

1.0

dic-95

jun-96

ene-97

jul-97

feb-98

ago-98

mar-99

oct-99

abr-00

nov-00

may-01

1

2

3

4

5

6

7

8

9

1 2 3 4 5 6 7 8 9Real

Pronósticado

0

2

4

6

8

10

Figura 7. Pruebas de diagnostico.

Inteligencia Artificial Vol. 23, No17, 2004 17

Fecha Predicción Obs.

µ-2σ µ µ+2σ Real

jul-01 5.72 7.56 9.47 8.13

ago-01 4.06 7.33 9.55 8.13

sep-01 3.27 6.89 9.39 8.13

oct-01 3.09 6.55 9.23 7.07

nov-01 2.78 6.36 9.18 7.07

dic-01 2.40 6.18 9.09 7.07

Varianza del Predictor 0.6779

Desviación Media Absoluta 0.1035

Correlación obs. vs pronósticos 0.8958

Coeficiente de Determinación R2 0.8024

Estadísticos

PRONÓSTICO HACIA DELANTE

1.0

3.0

5.0

7.0

9.0

11.0

13.0

ene-00

abr-00

jul-00

oct-00

feb-01

may-01

ago-01

dic-01

(CMO^0.065-1)/0.065

Figura 8. Pronostico extrapolativo.

La varianza estimada del error para el mode-lo difuso sin variables explicativas, es aproxi-madamente el 50% del mismo termino para elmodelo autoregresivo, mientras que la desviacionmedia absoluta es reducida en un 30% aproxi-madamente. Estos resultados incentivan la inves-tigacion de esta metodologıa en el modelamien-to y prediccion de series temporales no lineales,pero aun esta lejos de ser completa. En un proxi-mo estado, es necesario investigar sobre la inter-pretabilidad de estos modelos en el contexto dela Inteligencia Computacional, y en como usarprocedimientos estadısticos mas rigurosos que elaquı empleado, tal como es comun en otros mod-elos econometricos.

Referencias

[1] M. Armstrong, S. Cowan, and J. Vickers.Regulatory Reform: Economic Analysis andBritish Experience. The MIT Press, Cam-bridge, 1994.

[2] D.W. Baccon and D.G. Watts. Estimat-ing the transition between two intersectingstraight lines. Biometrika, 58:525–534, 1971.

[3] R. Battiti. Using mutual information forselecting features in supervised neural netlearning. IEEE Transactions on Neural Net-works, 5(4):537–550, 1994.

[4] B. Bonnlander. Nonparametric selection ofinput variables for connectionist learning.PhD thesis, University of Colorado. Depart-ment of Computer Sciences, 1996.

[5] G. E. P. Box and G. M. Jenkins. Time SeriesAnalysis: Forecasting and Control. Holden–Day Inc., 1970.

[6] G.E.P. Box and D.R. Cox. An analysis oftransformations. Journal of the Royal Statis-tical Society, Series B, (26):211–243, 1964.

[7] L. Breiman, J. H. Friedman, R. A. Olshen,and C. J. Stone. Classification and regres-sion trees. Technical report, Wadsworth, Inc,Belmont, California, 1984.

[8] D. Bunn and G. Wright. Interaction of judge-mental and statistical forecasting methods:Issues and analysis. Management Science,37(5), May 1991.

[9] D.W. Bunn. Reflections on the progress ofelectricity re-structuring, privatisation andregulation in the uk during 1988–1998.In XXXIII Reunion de Altos EjecutivosC.I.E.R., 1998.

[10] George S. Fishman. Monte Carlo. Concepts,Algorithms and Applications. Springer Seriesin Operational Research. Springer, 1996.

[11] Clive W. J. Granger and Timo Terasvirta.Modeling Nonlinear Economic Relationships.Oxford University Press, 1993.

[12] C.W.J. Granger. Strategies for modellingnonlinear time-series relationships. The Eco-nomic Record, (69):233–238, 1993.

[13] Andrew C. Harvey. Forecasting, structuraltime series models and the Kalman filter.Cambridge University Press, 1989.

18 Inteligencia Artificial Vol. 23, No17, 2004

[14] Robin Hogarth. Judgement and Choice.John Wiley and Sons, second edition, 1994.

[15] J-S R. Jang. Anfis: Adaptive-network-basedfuzzy inference system. IEEE Transactionson Systems, Man, and Cybernetics, 23:665–684, 1993.

[16] J.-S. R. Jang. Structure determinationin fuzzy modeling: A fuzzy cart approach.In Proc. of IEEE international conferenceon fuzzy systems, (Orlando, Florida), June1994.

[17] J-S. R. Jang. Input selection for anfis learn-ing. In Proceedings of the IEEE Int. Conf.On Fuzzy Systems, 1996.

[18] Nojun Kwak and Chong-Ho Choi. In-put feature selection for classification prob-lems. IEEE Transactions on Neural Net-works, 13(1):143–159, January 2002.

[19] L. Ljung and G.E.P. Box. On a measure oflack of fit in time series models. Biometrika,(66):67–72, 1978.

[20] M.E.P. Maceira. Programacao dinamica du-al estocastica aplicada ao planejamento daoperacao energetica de sistemas hidrotermi-cos com representacao do processo es-tocastico de afluencias por modelos auto–regressivos periodicos. Technical report, Re-latorio Tecnico CEPEL DPP/PEL 237/93,1993.

[21] M.E.P. Maceira, C.B. Mercio, B.G. Goren-stin, S.H.F. Cunha, C. Suanno, M.C.Sacramento, and A.S. Kligerman. Ener-gy evaluation of north/northeastern andsouth/southeastern interconnetion withnewave model. In IV Symposium of Special-ist in Electric Operational and ExpansionPlanning – SESOPE, Salvador, Brazil, May1998.

[22] G. S. Maddala. Econometrics. McGraw–Hill,1977.

[23] T. C. Mills. The econometric modelling offinancial time series. Cambridge Press Uni-versity, 1993.

[24] M. Pereira. Modelo de despacho hidrotermi-co. Technical report, PSRI, 1997.

[25] M.B. Priestley. State-dependent models: ageneral approach to non-linear time seriesanalysis. Time Series Analysis, (1), 1980.

[26] F. Steiner. Regulation, industry structureand performance in the electricity supply in-dustry. OECD Economic Studies, (32), 2000.

[27] M. Sugeno and G. T. Kang. Structure identi-fication of fuzzy model. Fuzzy Sets and Sys-tems, 28:15–33, 1988.

[28] T. Takagi and M. Sugeno. Derivation offuzzy control rules from human operator’scontrol actions. In Proceedings of the IFACSymposium on Fuzzy Information, Knowl-edge Representation and Decision Analysis,pages 55–60, July 1983.

[29] T. Takagi and M. Sugeno. Fuzzy identifica-tion of systems and its applications to mod-eling and control. IEEE Transactions onSystems, Man, and Cybernetics, 15:116–132,1985.

[30] T. Terasvirta. Specification, estimation, andevaluation of smooth transition autoregres-sive models. Journal of the American Statis-tical Association, (89):208–218, 1994.

[31] Howell Tong. Non-linear Time Series, a dy-namical system approach. Oxford StatisticalScience Series. Claredon Press Oxford, 1990.

[32] L.A. Zadeh. Fuzzy sets. Information andControl, (8):338–53, 1965.