XVII Simposio de Ingeniería de Control y el V Seminario ... - CEA

72
XVII Simposio de Ingeniería de Control y el V Seminario de Innovación Docente en Automática Sevilla, 30-31 enero y 1 febrero de 2019

Transcript of XVII Simposio de Ingeniería de Control y el V Seminario ... - CEA

XVIISimposiodeIngenieríadeControlyel VSeminariodeInnovaciónDocenteen

Automática

Sevilla,30-31eneroy1febrerode2019

PublicadoporComitéEspañoldeAutomáticadeIFAC(CEA-FAC)www.ceautomatica.esProceedingsdelXVIISimposiodeIngenieríadeControlyelVSeminariodeInnovaciónDocenteenAutomáticauUniversidaddeSevilla,Sevilla30-31deeneroy1febrero,2019EditadoporJ.L.Guzmán,M.G.Ortega,M.Domínguez,D.MuñozdelaPeña(Editores)ISBN-978-84-09-08578-1Todoslosderechosreservados.Copyright©2019,CEA

PRESENTACIÓN

Los seminarios CEA de Ingeniería de Control y de Innovación Docente enAutomática son actividades organizadas desde los grupos temáticas deIngenieríadeControlydeEducaciónenAutomáticaquepretendencrearunforode encuentro de los investigadores en el amplio campo de la Ingeniería deControlylaEducacióndenuestropaís.

Esteaño,ycomopropuestadesdeCEAdebuscarsinergiasentre losdiferentesgrupostemáticos,esteañosehancelebradoporprimeradeformaconjuntalosseminariosdeIngenieríadeControlydeInnovaciónDocenteenAutomática.

La organización del Seminario ha sido posible gracias a la colaboración delDepartamento de Ingeniería de Sistemas y Automática de la Universidad deSevilla, que ha proporcionado a la Red Temática todo el apoyo logístico yorganizativonecesarioparalarealizacióndelSeminario.

Estamos seguros de que las dos jornadas del Seminario van a constituir unabuenaoportunidadparacompartiropiniones,eldiálogoyelencuentroentrelosinvestigadoresen IngenieríadeControl yEducaciónenAutomáticadenuestropaís.

ComitéCEAGrupoTemáticodeIngenieríadeControlJoséLuisGuzmánManuelG.OrtegaGrupoTemáticodeEducaciónenAutomáticaManuelDomínguezDavidMuñozdelaPeña

ComitéLocalDpto.deIngenieríadeSistemasyAutomáticaUniversidaddeSevilla

XVII Simposio de Ingeniería de Controly elV Seminario de Innovación Docente en Automática

Del 30 de enero al 1 de febrero de 2019 se celebrará en la Universidad de Sevilla de manera conjunta elXVII Simposio de Ingeniería de Controly elV Seminario de Innovación Docente en Automática,ambos del Comité Español de Automática, bajo la temática “Educación en Ingeniería de Control”. Estas jornadas tiene carácter anual y pretenden crear un foro de encuentro de los investigadores en el amplio campo de la Ingeniería de Control y de la Educación en Automática en nuestro país.

En estas jornadas se contará con personalidades con amplia experiencia tanto en la investigación y transferencia tecnológica como en la educación en campo de la Ingeniería de Control. Por ello, estamos seguros de que las jornadas del Seminario van a constituir una buena oportunidad para compartir opiniones, el diálogo y el encuentro entre los investigadores en estos ámbitos.

Organización: Organiza DepartamentodeIngenieríadeSistemasyAutomática

UniversidaddeSevilla

ComitéCEA JoséLuisGuzmán(UniversidaddeAlmería)ManuelG.Ortega(UniversidaddeSevilla)ManuelDomínguez(UniversidaddeLeón)DavidMuñozdelaPeña(UniversidaddeSevilla)

MasinformacionenlawebdelGrupoTematicodeIngenierıadeControlhttp://www.ceautomatica.es/og/ingenieria-de-control

LUGARDECELEBRACIÓN

LosactosrelativosalasJornadastendránlugarenlaEscuelaSuperiordeIngenieríadelaUniversidaddeSevilla,localizadaenlaIsladelaCartuja.

ALGUNASFOTOGRAFÍASDELEVENTO

AGENDADELSIMPOSIO

Miércoles,30deenero

15:00–16:00.Acreditaciones.

16:00–16:30.AperturaypresentacióndelasJornadas.

16:30 – 17:15. Ponencia:“PID control of dead-time processes: robustness, dead-time compensationand constraints handling”. Prof. Julio Normey-Rico. FederalUniversity of Santa Catarina, Department of Control Systems Engineering.Florianopolis,SantaCatarina,Brazil.

17:15–18:00.Ponencia:“GestióndelaFAL(FinalAssemblyLine)delA400M”.DªDulceMuñozdelRey. Subdirectorade laOficinaCentraldelProgramaA400M,Airbus.

18:00–18:30.Café.

18:30–19:30.Reunión informaldepreguntasy respuestasconexpertos:Prof.JulioE.NormeyRico.

20:00. Visita guiada centro de Sevilla. Punto de encuentro: Ayuntamiento deSevillaenPazaNUeva.

21:30.Cócteldebienvenida.

Jueves,31deenero

09:00 – 09:45. Ponencia: “Sistemas híbridos de control: fundamentos yaplicaciones”.Prof.AlfonsoBañosTorrico.UniversidaddeMurcia.

09:45–10:15.Ponencia: “ProjectBasedLearningmethodologiesappliedtolargegroups of students in a concurrent engineering environment: An aircraft designexperience”.Prof.SegioEstebanRoncero.UniversidaddeSevilla.

10:15–10:45.Café.

10:45 – 11:15. Ponencia: “Control multientrada: el reparto frecuencial de larealimentación”.Prof.JavierRicoAzagra.UniversidaddeLaRioja.

11:15 – 11:45. Ponencia: “Planificación en plantas termosolares utilizandocontrolpredictivo”.Prof.JoséManuelBravoCaro.UniversidaddeHuelva.

11:45 – 12:15. Ponencia: “Libros interactivos para la educación encontrol”.Profs. F. Rodríguez, J.L. Guzmán, S. Dormido, R. Costa, M. Berenguel.UniversidaddeAlmeria-UNED-UPC.

12:15 – 12:45. Ponencia: “Flipping the Remote Lab with Low-cost RapidPrototypingTechnologies:Theairlevitationsystem”.Prof.S.Dormido,J.Chacón,L.delaTorre.UNED.

12:45 – 13:15. Ponencia: “Aprendizaje online adaptativo y learning analyticsmediante laplataformaDoctus”. Prof. Fabio Gómez Estern. Universidad LoyolaAndalucía.

13:15 – 13:45. Ponencia: “Caso práctico de metodología basada en enseñanzainvertidaaplicadaaclasesdeControldeProcesos”.Prof.DanielLimónMarruedo.UniversidaddeSevilla.

14:00.Almuerzo.

17:00.VisitaalaFAL(FinalAssemblyLine)delA400MenAirbus.

19:00.VueltaaloshotelesyalaEscuelaSuperiordeIngeniría.

21:30–Cenadegala.

Viernes,1defebrero

9:00 – 9:45. Ponencia y coloquio: “Experiencias con la utilización de RedesSociales en la Enseñanza de Sistemas de Control “.Prof. Julio Normey-Rico.Federal University of Santa Catarina, Department of Control SystemsEngineeringFlorianopolis,SantaCatarina,Brazil.

9:45–10:15.Café.

10:15–11:15.Mesaredonda:EducaciónenIngenieríadeControl

11:15–12:45.SesiónPECHA-KUCHAdepresentacióndeTesisDoctorales.

12:45–13:15.InformedeloscoordinadoresdelosGruposTemáticos.

13:15–13:30.Clausuradelasjornadas.

13:30.CócteldedespedidaenlacafeteríadelaEscuelaSuperiordeIngeniería.

TesisDoctoralesenIngenieríadeControl

Técnicas de aprendizaje automatizado para la operación económica basada endatosdesistemasciberfísicosJoséMaríaManzano,UniversidaddeSevillaAn Integrated Framework forModeling and Control of P2P Energy InteractionsbasedonDistributedModelPredictiveControlPabloBáezGonzález,UniversidaddeSevillaContribuciónenAlgoritmosdeControlparaConvertidoresdePotenciaMultinivelconectadosaRedeléctricaPabloMontero,UniversidaddeSevillaContributionstoControlofElectronicPowerConvertersAntonioVentosaCutillas,UniversidaddeSevillaImplementacióndecontroladorespredictivosensistemasembebidosPabloKrupa,UniversidaddeSevillaEstimaciónyoptimizacióndinámicadelaeficienciaeninfraestructurascríticasJoséRamónSalvadorOrtiz,UniversidaddeSevillaOptimización y control de sistemas de refrigeración mediante sistemas dealmacenamientoconmaterialdecambiodefaseDavidRodríguezGarcía,UniversidaddeSevillaSistemadeoptimizaciónavanzadaparalaagregacióndeprosumersenergéticosysuparticipaciónenelmercadodiario(DayAheadMarket)JuanAguilarGuisado,UniversidaddeSevillaProcesamiento masivamente paralelo en control predictivo A.Carnerero,UniversidaddeSevilla

http://www.ceautomatica.es/

Tecnicas de aprendizaje automatizado para la operacion economica basada en datos desistemas ciber-fısicos I

J.M. Manzano, D. Limon, D. Munoz de la PenaDepartamento de Ingenierıa de Sistemas y Automatica, Universidad de Sevilla, Camino de los Descubrimientos s/n, 41092, Sevilla, Espana.

Resumen

Este artıculo presenta un resumen de la tesis doctoral en curso titulada ‘Tecnicas de aprendizaje automatizado para la opera-cion economica basada en datos de sistemas ciber-fısicos’, comenzada en 2016 en el Departamento de Ingenierıa de Sistemas yAutomatica de la Universidad de Sevilla. El objetivo principal de este proyecto de tesis es el estudio de tecnicas que permitan lagestion en tiempo real eficiente y segura de sistemas ciber-fısicos a partir de los datos historicos. Para ello se desarrollan controla-dores para sistemas no lineales desconocidos, usando unicamente datos de las entradas y salidas de estos, y garantizando por disenosu estabilidad y robustez mientras se operan de manera optima.

Palabras Clave:

Sistemas no lineales, Control predictivo, Sistemas basados en datos, Identificacion no parametrica, Aprendizaje automatico2010 MSC: 62G05, 68T05, 93A30, 93C10, 93C57, 93D09, 93E12

1. Introduccion

Hoy en dıa el desarrollo de nuevos dispositivos electronicoscon una alta capacidad de calculo y comunicacion ha provoca-do una revolucion tanto en la sociedad como en la industria.Terminos como, Internet de las cosas, Factorıa 4.0, prendas devestir inteligentes o apps colaborativas estan presentes en lasnoticias de forma frecuente como punta de lanza de la revolu-cion tecnologica en la que estamos inmersos.

Asimismo, la continua demanda de recursos energeticos ymateriales que requiere la sociedad esta en contraposicion porun lado con el respeto del medio ambiente y la reduccion delos efectos del cambio climatico y por otro con la competen-cia existente. Por ello, es clave la mejora en la eficiencia de laproduccion, gestion y consumo de los recursos, de forma quese garantice en todo momento una produccion y gestion conun mınimo coste de produccion, respetuosa con el medio am-biente, rentable y que garantice la demanda existente. Por otraparte, es importante optimizar el rendimiento de los consumi-dores de los recursos de forma que se minimicen los recursosque demandan para realizar la tarea que tienen encomendada.Sistemas de fabricacion flexibles, redes de distribucion de agua

IEste trabajo esta financiado por el MINECO y los fondos FEDER (contratoDPI2016-76493-C3-1-R) y el VI Plan Propio de Investigacion y Transferenciade la Universidad de Sevilla.

Correos electronicos: [email protected] (J.M. Manzano), [email protected] (D.Limon), [email protected] (D. Munoz de la Pena)

o de energıa electrica o sistemas de climatizacion son ejemplosclaros.

Es importante tener en cuenta que tanto la demanda comolas condiciones de produccion cambian en cada instante por loque la gestion eficiente se debe garantizar en tiempo real con-siderando la evolucion dinamica de los agentes implicados apesar de la incertidumbre existente en la demanda, condicionesde operacion o recursos disponibles (por ejemplo energıas reno-vables, en el caso de redes electricas). Por lo tanto es necesarioestablecer nuevos paradigmas que permitan describir este tipode sistemas dinamicos.

Los sistemas ciber-fısicos (CPS, por sus siglas en ingles,(Baheti and Gill, 2011)) ofrecen una descripcion que se adecuamuy bien al problema planteado. Los CPS son sistemas com-puestos de entidades fısicas, controlados o monitorizados poralgoritmos basados en computador, es decir, es un conjunto desistemas embebidos interconectados entre sı que integran a lossistemas fısicos con los que interactua en forma de actuacioneso senales medidas. Estos estan normalmente caracterizados pordinamicas complejas, cuyos modelos no siempre estan disponi-bles, y sujetos a una gran incertidumbre y cambios inesperados,lo que hace que su gestion eficiente sea muy compleja.

La gran cantidad de sensores y la presencia de distintas tec-nologıas de comunicacion, hacen que una gran cantidad de da-tos del funcionamiento del sistema sean recabados en historicosde operacion, almacenados en bases de datos o monitorizadosen lınea. Estos datos estaran pues disponibles para el sistema de

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 2

gestion inteligente, que lo puede usar para mejorar sus predic-ciones y tomar ası decisiones adecuadas a pesar de la presenciade incertidumbres.

El objetivo principal de este proyecto de tesis es el estudiode tecnicas que permitan la gestion en tiempo real eficiente ysegura de sistemas ciber-fısicos a partir de los datos historicos.A continuacion se detalla como se va a abordar este reto.

2. Objetivos y planteamiento del proyecto de tesis doctoral

El objetivo principal de esta tesis es el desarrollo de siste-mas de control en tiempo real que usen no solo modelos delsistema, sino que tambien incluyan el historico disponible y losdatos en tiempo real en los bucles para la toma de decisiones(metodologıa conocida como sistemas basados en datos). Es-te objetivo principal integra el estudio de tecnicas de analisis dedatos para la monitorizacion en tiempo real, la validacion de losdatos observados, el diagnostico de fallos afectando a sensoreso actuadores, la aplicacion de adaptaciones para la toleranciaa fallos y la integracion de criterios economicos en el plan deoperacion de la planta. Para lograr estos objetivos, el proyectode tesis se estructura en dos grandes bloques.

2.1. Modelado, estimacion de estados y prediccion basado en

datos para CPS

Un objetivo fundamental en el proyecto es el desarrollo denuevas metodologıas basadas en datos orientadas a la toma dedecisiones en tiempo real. Para ello se van a estudiar tecni-cas englobadas en la teorıa de aprendizaje estadıstico (Vidya-sagar, 2002), el reconocimiento de patrones (Bristol, 1977) ylos metodos basados en kernels (Kung, 2014). Estas tecnicasse han usado para la monitorizacion de procesos (Qin, 2012),deteccion de fallos o aproximaciones de funciones no lineales(Suykens et al., 2002).

Uno de los enfoques principales para manejar el compromi-so en aprendizaje estadıstico entre la complejidad de los mode-los y su capacidad para predecir o generalizar es incluir en elproceso de aprendizaje parametros de regularizacion o penali-zacion que promuevan la robustez de los resultados obtenidos(Hastie et al., 2015). Otra fuente de actuacion insatisfactoria enlos metodos de aprendizaje automatico es la falta de suficientesdatos historicos para obtener los modelos (Alamo et al., 2015).En este proyecto de tesis se van a estudiar tecnicas para mini-mizar la cantidad de datos requeridos usando metodos proba-bilısticos basados en la generacion sintetica de escenarios.

Ademas, el aprendizaje automatico es una disciplina cuyosfundamentos no solo se basan en la estadıstica, sino tambien enla optimizacion. Este es el caso, por ejemplo, de los metodosaleatorios y de kernels (Alamo et al., 2009). Se necesitaran al-gunas tecnicas especıficas de optimizacion debido a la dimen-sion del problema y a que el coste operacional del sistema amenudo no es diferenciable o explıcito. El proyecto estudiaralas tecnicas de optimizacion usadas en el campo del aprendiza-je automatico que se consideren mas adecuadas a las tecnicas deaprendizaje desarrolladas. Por ejemplo, se estudiaran los meto-dos conocidos en ingles como accelerated methods, proximal

methods, dual decomposition y coordinate descent (Sra et al.,2012).

Con los metodos apropiados de analisis de datos se abor-daran los problemas de inferencia en los CPS como estimacionde estado, prediccion y estimacion.

La estimacion del estado es un factor clave en muchas areasrelacionados con los sistemas dinamicos como los CPS. El pro-yecto se centrara en combinar los enfoques clasicos con lasestrategias de inferencia basadas en datos con el fin de mejo-rar los resultados. En este contexto, existen numerosas estrate-gias incluyendo los estimadores no parametricos (Bravo et al.,2015), distribuciones estadısticas multivariables y los metodosde aprendizaje automatico (Pillonetto and De Nicolao, 2010).Mas recientemente, con el objetivo de lidiar con las incertidum-bres, las no linealidades, los datos incompletos y la eficienciacomputacional, nuevos trabajos han aplicado satisfactoriamentelas herramientas de inferencia bayesiana, que seran desarrolla-das en este proyecto (Fernandez-Cantı et al., 2015). En este pro-yecto se extenderan los metodos existentes a la estimacion delestado en CPS a partir de la informacion de los datos historicos.

Con el fin de disenar procesos optimos para la toma de de-cisiones en tiempo real es necesario obtener predicciones delcomportamiento futuro de los sistemas ciber-fısicos. El analisisde alcanzabilidad de un sistema dinamico normalmente con-duce a problemas de alta complejidad que requieren diferentesmetodos de aproximacion, como los basados en elipsoides, zo-notopos y de acotaciones intervalares (Bravo et al., 2006). Elobstaculo principal en el analisis del alcance es la escalabilidadhacia sistemas de gran dimension (Faulwasser et al., 2014). Elobjetivo de este proyecto es combinar los modelos disponiblesy tecnicas basadas en datos para hallar los conjuntos alcanza-bles de forma mas precisa y con menor carga computacionalpara CPS.

Mas alla de la inferencia de datos, para una operacion entiempo real apropiada y eficiente de los CPS en presencia deincertidumbre, es necesario monitorizar la calidad de los mo-delos usados en lınea y adaptar dichos modelos, ası como lacuantificacion de la incertidumbre y la deteccion de posiblesfallos. La validacion de datos y la adaptacion en lınea del mo-delo (tanto estructural como parametricamente) es fundamentalpara garantizar la operacion segura de CPS. En este proyectonos centraremos en metodos basados en optimizacion y los mo-delos basados en datos obtenidos.

Los metodos conocidos como data completion usan datosalmacenados y relacionados para recuperar informacion perdi-da y han sido aplicados a distintos campos. Los sensores virtua-les basados en datos, a menudo ofrecen un metodo para obtenermedidas estimadas de variables fısicas que no pueden ser obte-nidos con un sensor fısico.

2.2. Tecnicas de operacion eficiente y segura de CPS basadas

en datos

A partir de las tecnicas de estimacion y prediccion basadasen datos para CPS se van a desarrollar metodos basados en da-tos para la operacion eficiente y segura de CPS. La eficienciaes una nocion que de alguna forma mide el coste economico de

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 3

operacion de un sistema o proceso. El sistema de gestion de-be tomar en cada instante la decision que logre el menor costeeconomico asociado a la evolucion dinamica del sistema (Diehlet al., 2011). Las decisiones deben tambien lograr que el siste-ma en su evolucion garantice los lımites de operacion impues-tos, derivados por ejemplo de condicionantes medioambientaleso de capacidad de manipulacion (Heidarinejad et al., 2012). Es-te problema resulta mucho mas complejo si se tiene en cuentaque los lımites se deben satisfacer en presencia de la incerti-dumbre inherente a los CPS y los errores de modelado propiosde los sistemas de aprendizaje (Limon et al., 2006).

Tradicionalmente, el sistema de gestion responsable de laoptimizacion economica se ha implementado siguiendo una ar-quitectura jerarquica multicapa y, aunque este sistema es sa-tisfactorio, la resolucion integral del problema permite lograroperaciones mas eficientes del sistema. Con esta motivacion, re-cientemente se han desarrollado tecnicas diseno estable de con-trol predictivo (MPC) economico que operan en grandes proce-sos (Heidarinejad et al., 2012). Una de las propiedades de lasque goza el control predictivo es que el controlador resultan-te garantiza la estabilidad por diseno del sistema una vez ges-tionado, lo cual, junto con la garantıa de cumplimiento de loslımites de operacion, implica la seguridad de la operacion delCPS. Particularmente importante en el gestion optima de CPSes la necesidad de adaptacion a cambios en los criterios de efi-ciencia, derivados por ejemplo de cambios en costes unitarios,preferencias o demandas estimadas (Limon et al., 2014). En es-te proyecto se van a estudiar tecnicas de control economico conestabilidad garantizada a partir de los modelos de prediccionobtenidos a partir de los datos del CPS considerando la incerti-dumbre y las posibles variaciones de la funcion de eficiencia.

Ademas de las variaciones en la funcion de eficiencia, el sis-tema de operacion eficiente del CPS debe ser capaz de operar elsistema de forma optima cuando se producen variaciones repen-tinas en el sistema, tales como cambios drasticos en el modeloo en las predicciones obtenidas por el mismo. Un factor a teneren cuenta es la fuerte dependencia de las estrategias de controlbasadas en la optimizacion (como lo es el MPC) de las predic-ciones, por lo que es sensible a dichas variaciones. No obstante,se han desarrollado controladores capaces de adaptar los mode-los de prediccion en lınea, tanto lineales (Aswani et al., 2013),como no lineales (Canale et al., 2014). Cuando los cambios enlos modelos de prediccion son dramaticos, se consideran moti-vados por presencia de fallos. En este caso es necesario dotar deflexibilidad en la estructura del sistema de gestion que permi-ta la reconfiguracion del mismo, como el denominado controlplug and play (Riverso et al., 2016), o bien que sea capaz deadaptarse a la nueva situacion sobrevenida entre una coleccionde escenarios posibles, como el conocido como control toleran-te a fallos (Yang and Maciejowski, 2015).

En este proyecto se van a estudiar tecnicas de adaptaciony reconfiguracion basadas en datos que sean capaces de explo-tar adecuadamente la informacion de los datos y fusionarla conlas restricciones estructurales del modelo dinamico estableci-do para todo el sistema y sus componentes. Potencialmente, lainformacion estadıstica del comportamiento de los parametrosdel sistema, ası como de las medidas se tendra en cuenta para

mejorar la actuacion.Las tecnicas desarrolladas se aplicaran sobre casos de estu-

dio que se consideran de interes como las redes de distribucionde agua, smart grids o sistemas de calefaccion y refrigeracionen edificios.

3. Progreso del proyecto de tesis doctoral

Este proyecto de tesis comenzo entre 2016 y 2017 en el De-partamento de Ingenierıa de Sistemas y Automatica de la Uni-versidad de Sevilla. En este artıculo se presentaran a modo deresumen solo alguno de los resultados que se han obtenido has-ta la fecha, aquellos que describen la lınea general de investiga-cion. Esta lınea comprende todo el planteamiento del problemapreviamente descrito, incluyendo la recogida y procesamientode datos, el aprendizaje de modelos de sistemas dinamicos nolineales a partir unicamente de datos historicos de entradas ysalidas, y el desarrollo y sintonizacion de controladores predic-tivos basados en estos modelos, ası como el analisis de estabili-dad y robustez de estos sistemas controlados.

3.1. Aprendizaje del modelo de prediccion

3.1.1. Kinky inference

Como se ha mencionado en la seccion 2.1, existen numero-sas tecnicas en el campo del aprendizaje automatico (o machine

learning) usadas para el aprendizaje (en nuestro caso, estima-cion o prediccion) de una funcion dado un conjunto de datos deentradas y salidas de esta funcion. En gran parte del proyectose esta usando una clase de metodos de regresion no parametri-ca conocida como kinky inference (KI) desarrollada en Calliess(2014, 2016), que abarca tecnicas de interpolacion de Lipschitz(Sukharev, 1978; Beliakov, 2006), ası como de nonlinear set

interpolation (Milanese and Novara, 2004). El planteamientogeneral es el siguiente:

Se definen (W 2 Rn

w , dW : W ⇥W ! R�0) e (Y 2Rn

y , dY : Y ⇥Y ! R�0) como dos espacios metricos referidoscomo de entrada y salida, respectivamente. Para simplificar, eneste artıculo vamos a considerar espacios euclıdeos compactosy la norma vectorial como metrica. El objetivo sera aprenderuna funcion f : W ! Y posiblemente ruidosa que se suponees continua de Holder con constante L > 0 y exponente 0 < p 1, es decir, que

k f (w1) � f (w2)k Lkw1 � w2kp.De este mapa f se conocen ND pares de entradas y salidas,

que conforman la base de datos

D = {(wi

, f (wi

)) : i = 1, . . . ,ND},donde f indica la observacion con ruido de f . El set que con-tiene unicamente los datos de entrada se denota como WD =ProjW(D). Supondremos ademas que el error observacional estaacotado, por lo que

k f (w) � f (w)k e, 8w 2W, e � 0.

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 4

0 0.5 1 1.5 2 2.5Input

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

Out

put

Kinky inference predictor. L = 1.5

True functionNoisy samplesUpper boundLower boundPrediction

Figura 1: Estimacion basada en Kinky Inference de f (x) = � x

2

x

+ 3x

2 .

Dado un nuevo punto de entrada q <WD, el valor estimadode su mapeo en f viene dado por:

fj

(q; ✓,D) =12

mıni=1,...,ND

( f

i, j + Lkq � w

i

kp)

+12

maxi=1,...,ND

( f

i, j � Lkq � w

i

kp), (1)

donde fj

es la j-esima componente de f, f

i, j es la j-esima com-ponente del valor observado para el i-esimo punto de la basede datos D, w

i

su correspondiente entrada y ✓ los parametros(L, p). La Figura 1 muestra una funcion unidimensional de laque se conocen varios puntos, ası como su estimacion de KI.

Entre las ventajas de este metodo de estimacion no parametri-ca (se dice no parametrica en tanto que depende expresamentede los datos para la prediccion), cabe destacar:

La simplicidad en el aprendizaje, pues solo sera necesa-rio obtener L y p.

La configurabilidad en lınea, pues se pueden anadir nue-vos puntos de operacion para la prediccion.

El algoritmo es paralelizable, calculando por separadolos lımites de cada punto deD, con el objetivo de dismi-nuir el tiempo computacional.

Es numericamente estable, en tanto que no requiere lainversion de matrices y carece de singularidades.

En cuanto a la forma de obtener los parametros L y p, des-tacan dos:

Lazily adapted constant kinky inference (LACKI) (Ca-lliess, 2016), que consiste en obtener la mınima L quevalide los datos en D. Es la manera usada en Manzanoet al. (2017).

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6Input

0

0.5

1

1.5

2

2.5

3

Output

Smooth Kinky Inference

Figura 2: Suavizado de la prediccion usando SKI.

Parameter optimised kinky inference (POKI) (Calliess,2017), que consiste en minimizar cierto error de predic-cion. Requiere una base de datos de entrenamientoDtrainy otra de validacion Dtest. Es la que se usa en Manzanoet al. (2018b).

En contraposicion a las ventajas citadas del metodo, hay unpar de puntos que se deben tener en cuenta como potencialesproblemas a la hora de usar el metodo:

El resultado puede no ser diferenciable, perjudicando losmetodos de optimizacion gradenciales. Para ello se haimplementado el smooth kinky inference (SKI).

El tiempo computacional crece linealmente con el nume-ro de puntos en la base de datos, ND. Para reducir el ti-mepo de calculo se ha implementado el projected kinky

inference (PKI).

Smooth kinky inference.El termino kinky se podrıa traducir al castellano como picu-

do en este contexto. Hace referencia al predictor descrito en laecuacion (1). El resultado de la interpolacion f es continuo enel sentido Holder pero puede no ser diferenciable (vease la Fi-gura 1), lo que puede afectar al desempeno de metodos de opti-mizacion basados en gradiente. Para evitar estos problemas unaopcion es no usar el punto medio de los lımites superior e in-ferior de cada punto a interpolar, si no hacerlo con una funcionsuave, como podrıan ser los procesos Gaussianos (Rasmussen,2004). Ası se realiza en Maiworm et al. (2018); Manzano et al.(2019).

Otra opcion consiste en realizar suavizado de la prediccion(SKI) mediante una combinacion convexa de varios puntos al-rededor del punto a interpolar w, tal que

f⇤(w; ✓,D) = �0 f(w) +n

wX

i=1

�i

2(f(w + e

i

�) + f(w � e

i

�)),

con pesosP

n

w

i=0 �i

= 1, y donde e

i

denota un vector de ceroscon un 1 en la i-esima componente, y � es el factor incremen-tal 1. El nuevo predictor f⇤ usando SKI es Holder con los mis-mos parametros que f. Una idea del funcionamiento del SKI semuestra en la Figura 2.

1Notese que la dependencia de f con ✓ yD se omite por concision.

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 5

0.39 0.4 0.41 0.42 0.43 0.44 0.45uk

0.36

0.37

0.38

0.39

0.4

0.41

0.42

y k

Divided Input Space Data Set Partitions Local Input Space Local Overlap Local Data Set

Figura 3: Particion del espacio de entrada usando PKI.

Projected kinky inference.En su forma estandar, el tiempo de calculo de una predic-

cion usando el estimador KI crece linealmente con el numerode puntos en la base de datos de entrenamiento. Las prediccio-nes ocupan un largo periodo de tiempo durante las repetidasoptimizaciones del controlador MPC, por lo que esta propiedadpuede suponer un grave cuello de botella computacionalmente.

Para solventar este problema, en Manzano et al. (2018a) sepropone dividir el espacio de entradaW en particionesW

i

, deforma que cada nuevo punto q < WD sea predicho utilizandosolo un subconjunto de los puntos de la base de datos,D

i

⇢ D.El procedimiento llevado a cabo hasta ahora ha consistido

en dividir el espacio de entradaW independientemente por ca-da componente (o un subconjunto de ellas), de manera que seformen hipercubos disjuntos, tal queW = [(W

i

) y \i, j

Wi

=;, 8 j. Despues, a cada uno de estos hipercubos se le asignanaquellos puntos de la base de datos que estan contenidos en el,ası como aquellos puntos vecinos, contenidos en otros hipercu-bos cercanos; con el fin de que puntos a predecir cerca de lafrontera se estimen correctamente:

Di

= {D |w 2WD : w 2 (Wi

� B(Ri

))},donde “�” representa la suma de Minkowski y R

i

el radio desolape. Esta idea se representa en la Figura 3. El predictor finalobtenido mediante SPKI es:

f?(q; ✓,D) := f⇤(q; ✓,Di

).

3.1.2. Modelo basado en datos

Una vez visto como aprender y estimar una funcion dado unconjunto de puntos de entradas y salidas y una nueva entrada apredecir, es necesario poner en esta forma el sistema dinamico acontrolar. Se considerara un sistema no lineal en tiempo discre-to dado por salidas y(k) 2 Y ⇢ Rn

y y entradas u(k) 2 U ⇢ Rn

u

con ruido en la medida, tal que

y(k + 1) = f (x(k), u(k)) + e(k)

Ademas, se supondra que el estado se puede expresar comouna regresion de entradas y salidas pasadas mediante un modeloNARX (Leontaritis and Billings, 1985):

x(k) = (y(k), . . . , y(k � n

a

), u(k � 1), . . . , u(k � n

b

)),

para ciertos horizontes de memorias n

a

y n

b

, de forma que x(k) 2Rn

x , n

x

= (na

+ 1)ny

+ n

b

n

u

.Dado entonces un conjunto de trayectorias historicas de en-

tradas y salidas del sistema, se pueden hallar la base de da-tos y predecir como se ha explicado previamente. Llamandow(k) = (x(k), u(k)) se puede estimar

y(k + 1) = f?(w(k); ✓,D). (2)

En cuanto al tratamiento de los espacios de entrada y sali-das, en Manzano et al. (2018a) se consideran restricciones durasen las entradasU y blandas en el espacio de salidasY, mientrasque en Manzano et al. (2018b) se extiende para restriccionesduras tambien en las salidas.

3.2. Control basado en datos

Una vez hallado el modelo de prediccion dado por (2), seplantea el control predictivo, que sera estable por diseno. Note-se que el predictor se puede extender a espacio de estados, deforma que

x( j + 1|k) = F(x( j|k), u( j); ✓,D)

haciendo

F(x( j|k), u( j); ✓,D) = (f?(x( j|k), u( j); ✓,D),y( j|k), . . . , y(k), . . . ,y(k + j � n

a

+ 1),u( j), . . . , u( j � n

b

+ 1)),

que incluye medidas reales y o u si n

a

� j o n

b

> j, respectiva-mente. Asimismo

y( j|k) = Mx( j|k),

siendo M = [In

y

, 0, . . . , 0] 2 Rn

x , e I

n

y

la matriz identidad deorden n

y

.En el desarrollo del proyecto de tesis se han presentado

distintos controladores predictivos, con distintos ingredientesrequeridos para la estabilidad por diseno de cada controlador.Como forma general, en este artıculo se presenta el siguiente,P

N

(x(k),D):

mınu

J

N

(x(k), u) =N�1X

i=0

`(y(i|k), u(i))

+�Vf

(x(N |k)) (3a)

s.a. x(0|k) = x(k) (3b)x( j + 1|k) = F(x( j|k), u( j); ✓,D), j 2 IN�1

0 (3c)y( j|k) = Mx( j|k) (3d)u( j) 2 U (3e)

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 6

Como el objetivo de este artıculo es presentar un resumende la investigacion, este conjunto de ecuaciones representa solouna aproximacion general a los controladores predictivos desa-rrollados, por lo que hay que analizar varios puntos sobre losingredientes de este controlador general:

Aquı, `(y, u) representa el coste de etapa. Penaliza la des-viacion de las entradas y salidas respecto a un punto dereferencia dado por (y

r

, ur

). En general se requiere quesea definido positivo, con continuidad de Holder , y pue-de aparecer como funcion del estado (y la entrada) en vezde la salida, de forma que `(x, u) � ↵(kx � x

r

k), donde ↵es una funcion K .

Este coste de etapa puede escribirse como la suma de uncoste de seguimiento (o tracking), y un coste de barrera`

b

(·) que implemente las restricciones blandas en la sali-da, de forma que si y 2 Y, `

b

(y) = 0, y aumente con ladistancia de y al conjunto Y.

N indica el horizonte de prediccion. Se puede extenderel problema considerando un horizonte de prediccion N

p

mayor que el horizonte de control N

c

, de forma que en laprediccion se aplique u( j|k) para j = 0, . . . ,N

c

�1 y desdeN

c

a N

p

� 1 se calcule con una ley de control terminal,

f

(x( j|k)).

V

f

(·) indica el coste terminal del controlador, que pena-lice la desviacion del estado frente a una referencia, x

r

.Las especificaciones de este coste terminal varıan segunel controlador, aunque asemejarse a la forma estandar deteorıa de estabilidad de Lyapunov:

↵(kx � x

r

k) V

f

(x) �(kx � x

r

k)

V

f

(x

+) � V

f

(x) �`(x, f

(x))

� � 1 es un parametro de diseno del controlador, paraponderar el coste terminal.

Segun el controlador puede omitirse la restriccion termi-nal, que puede ser de igualdad, forzando que y(N) = y

r

,o de desigualdad, dada una region terminal ⌦, de formaque y(N) 2 ⌦.

El analisis de estabilidad sera aplicable en general a undominio de atraccion, X(N, �).

En Manzano et al. (2018b) la restriccion dura en la salidase consigue mediante la imposicion de que la salida per-tenezca a conjuntos que se contraen con la prediccion, lasllamadas tightened constraints, forzando que y( j|k) 2 Y

j

.

Finalmente se aplica la tecnica de horizonte deslizante,de forma que se obtiene u(k) = MPC(x(k), y

r

; ✓,D) =u

⇤(0) y se vuelve a aplicar el lazo de control.

La estabilidad robusta puede extenderse desde la nomi-nal aplicando conceptos de la estabilidad-entrada-estado(ISS, por sus siglas en ingles) (Limon et al., 2009).

2000 4000 6000 8000 10000 12000 14000Time (min)

0.2

0.4

0.6

0.8

CA

(mol

/l)

CSTR - Chirp signal

2000 4000 6000 8000 10000 12000 14000Time (min)

320

340

360

380

Tr (K

)

Figura 4: Aplicacion de una senal chirp a la entrada del CSTR.

335 340 345 350 355 360 365 370Trk (K)

0.2

0.3

0.4

0.5

0.6

0.7

0.8

CA k (m

ol/l)

Representation of the data set

Figura 5: Base de datos de entradas y salidas obtenida mediante una senal chirp.

3.3. Aplicacion a un caso de estudio

Entre otros sistemas, se ha trabajado con un reactor con-tinuamente agitado (CSTR, por sus siglas en ingles) (Seborget al., 2010), en el que se controla la concentracion de reactivoC

A

manipulando la temperatura de referencia del refrigerante,T

r

. Los estados canonicos son la concentracion C

A

, la tempera-tura del tanque T y la del refrigerante, T

c

. En este artıculo solose presentaran, a modo de ejemplo, algunas figuras. El procedi-miento general suele conllevar las siguientes fases:

En primer lugar se obtienen las bases de datos (en lasfiguras 4 y 5 se muestra la base de datos hallada mediantela aplicacion de senales chirp a la entrada T

r

, obteniendola salida C

A

).

Posteriormente se lleva a cabo un procesado de los da-tos, que incluye escalado, esquilmado, construccion delregresor y division de la base de datos en subconjuntos.

Mas tarde se llevan a cabo ensayos de validacion paraaprender los parametros ✓ = (L, p) y construir el modelode prediccion.

Todo este proceso es iterativo, pues por ejemplo, debenhallarse asimismo los horizontes de memoria n

a

y n

b

, en-tre otras cuestiones.

Finalmente se disena y sintoniza el controlador predic-tivo, usando el modelo de prediccion basado en datos yaplicandolo a la planta en cuestion.

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 7

Model: ODEs. Plant: Noisy ODEs.

0 2 4 6 8 10 12 14 16 18 20Time (min)

0.3

0.4

0.5

0.6

0.7

CA

(mol

/l)

Reference Band Mean

0 2 4 6 8 10 12 14 16 18 20Time (min)

340

350

360

370

Tr (K

) Reference Constraints Band Mean

Figura 6: MPC en el que el modelo es ideal, igual a la planta.

0 2 4 6 8 10 12 14 16 18 20Time (min)

340

350

360

370

Tr (K

) Reference Constraints Band Mean

Model: KI. Plant: Noisy ODEs.

0 2 4 6 8 10 12 14 16 18 20Time (min)

0.3

0.4

0.5

0.6

0.7

CA

(mol

/l)

Reference Band Mean

Figura 7: MPC usando como predictor el modelo KI.

En las figuras 6, 7 y 8 se muestran unos resultados del con-trol. Se realizan 100 ensayos con cada modelo, aplicando lasenal de control a la planta ruidosa (de ahı las diferentes res-puestas, recogidas en las bandas grises). En la Fig. 6 el modelousado es ideal, igual a la planta, en vez del basado en datos. Enla Fig. 7 se aplica el modelo basado en datos utilizando comopredictor el KI, mientras que en la Fig. 8 se aplican ademas lasmejoras dadas por el SPKI.

Ademas, en la Figura 9 se compara el comportamiento de100 ensayos con punto inicial aleatorio. Los diagramas repre-setan maximos, mınimos, medias y desviaciones estandar delındice de desempeno y del tiempo computacional. Este ındicede desempeno se define como:

� =

tsimX

i=1

`t

(x(i), u(i)) + `b

(y(i)).

Puede observarse que el MPC con modelo basado en datoses capaz de controlar la planta hacia su referencia, sin violarlas restricciones. Se aprecia ademas una clara mejora gracias alos cambios introducidos por el SKI y el PKI, asemejandose larespuesta a la ideal.

4. Desarrollo futuro del proyecto de tesis doctoral

En cuanto al desarrollo temporal, el proyecto de tesis se en-cuentra aproximadamente en su ecuador. Estos anos de investi-gacion han dado resultados positivos como los comentados a lolargo del artıculo. Asimismo, hay objetivos dentro del alcancedel proyecto que estan aun por abordar, ademas de aquellos que

Model: SPKI. Plant: Noisy ODEs.

0 2 4 6 8 10 12 14 16 18 20Time (min)

0.3

0.4

0.5

0.6

0.7

CA

(mol

/l)

Reference Band Mean

0 2 4 6 8 10 12 14 16 18 20Time (min)

340

350

360

370

Tr (K

) Reference Constraints Band Mean

Figura 8: MPC usando como predictor el modelo sPKI.

ODEs KI PKI SPKI

60

80

100

120

140

160

180

200

220

Perfo

rman

ce In

dex

Performance Index

(a)

ODEs KI PKI SPKI0

1

2

3

4

5

Tim

e (s

)

Computational Time per Iteration

(b)

Figura 9: Diagrama de cajas comparando diferentes modelos de prediccion en100 ensayos del MPC. (a) representa el ındice de desempeno y (b) el tiempo decalculo.

estan en curso ahora. Consideramos buena practica enumerar amodo de lista estos puntos que se han de considerar en un futurocercano, a saber

La continuacion en el desarrollo de metodologıas de esti-macion basadas en datos y el estudio de nuevas tecnicasde optimizacion, operacion eficiente y segura de sistemasdinamicos.

El desarrollo de tecnicas de aprendizaje y adaptacion queconsideren la inclusion de nuevos puntos de operacion enlınea. Es un objetivo logico del control basado en datos elpoder contar con nuevos puntos de operacion de los siste-mas, e incorporarlos a las bases de datos y al aprendizajepara mejorar los modelos.

Dado el caracter basado en dato de los procesos conside-rados, se deben incluir analisis probabilısticos que descri-ban y validen los datos, para lo que se estudiaran tecnicasde randomized algorithms y order statistics. Un primertrabajo de este lınea es Alamo et al. (2018).

Asimismo, se estudiara la gestion de los controladoresante cambios de comportamiento y fallos, para lo cual esimprescindible investigar tanto en la deteccion como enla adaptacion.

Se contemplara la validacion de los resultados en distin-tos casos de estudio. Se trabajara ademas en la publica-cion y difusion de los resultados obtenidos.

J.M. Manzano et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 8

Referencias

Alamo, T., Manzano, J., Camacho, E., 2018. Robust design through probabilis-tic maximization. In: Uncertainty in Complex Networked Systems. Springer,pp. 247–274.

Alamo, T., Tempo, R., Camacho, E. F., 2009. Randomized strategies for pro-babilistic solutions of uncertain feasibility and optimization problems. IEEETransactions on Automatic Control 54 (11), 2545–2559.

Alamo, T., Tempo, R., Luque, A., Ramirez, D. R., 2015. Randomized methodsfor design of uncertain systems: Sample complexity and sequential algo-rithms. Automatica 52, 160–172.

Aswani, A., Gonzalez, H., Sastry, S. S., Tomlin, C., 2013. Provably safe androbust learning-based model predictive control. Automatica 49 (5), 1216–1226.

Baheti, R., Gill, H., 2011. Cyber-physical systems. The impact of control tech-nology 12 (1), 161–166.

Beliakov, G., 2006. Interpolation of lipschitz functions. Journal of computatio-nal and applied mathematics 196 (1), 20–44.

Bravo, J., Alamo, T., Vasallo, M., Gegundez, M., 2015. Combined stochasticand deterministic interval predictor? IFAC-PapersOnLine 48 (14), 320–325.

Bravo, J. M., Alamo, T., Camacho, E. F., 2006. Robust mpc of constraineddiscrete-time nonlinear systems based on approximated reachable sets. Au-tomatica 42 (10), 1745–1751.

Bristol, E. H., 1977. Pattern recognition: An alternative to parameter identifica-tion in adaptive control. Automatica 13 (2), 197–202.

Calliess, J.-P., 2014. Conservative decision-making and inference in uncertaindynamical systems. Ph.D. thesis, PhD thesis, University of Oxford.

Calliess, J.-P., 2016. Lazily adapted constant kinky inference for nonpara-metric regression and model-reference adaptive control. arXiv preprint ar-Xiv:1701.00178.

Calliess, J.-P., 2017. Lipschitz optimisation for lipschitz interpolation. In: Ame-rican Control Conference (ACC), 2017. IEEE, pp. 3141–3146.

Canale, M., Fagiano, L., Signorile, M., 2014. Nonlinear model predictive con-trol from data: a set membership approach. International Journal of Robustand Nonlinear Control 24 (1), 123–139.

Diehl, M., Amrit, R., Rawlings, J. B., 2011. A lyapunov function for econo-mic optimizing model predictive control. IEEE Transactions on AutomaticControl 56 (3), 703–707.

Faulwasser, T., Hagenmeyer, V., Findeisen, R., 2014. Constrained reachabilityand trajectory generation for flat systems. Automatica 50 (4), 1151–1159.

Fernandez-Cantı, R. M., Tornil-Sin, S., Blesa, J., Puig, V., 2015. Non-linear set-membership identification approach based on the bayesian framework. IETControl Theory & Applications 9 (9), 1392–1398.

Hastie, T., Tibshirani, R., Wainwright, M., 2015. Statistical learning with spar-sity: the lasso and generalizations. CRC press.

Heidarinejad, M., Liu, J., Christofides, P. D., 2012. Economic model predicti-ve control of nonlinear process systems using lyapunov techniques. AIChEJournal 58 (3), 855–870.

Kung, S. Y., 2014. Kernel methods and machine learning. Cambridge Univer-sity Press.

Leontaritis, I., Billings, S. A., 1985. Input-output parametric models for non-linear systems part i: deterministic non-linear systems. International journalof control 41 (2), 303–328.

Limon, D., Alamo, T., Raimondo, D., De La Pena, D. M., Bravo, J., Ferramos-ca, A., Camacho, E., 2009. Input-to-state stability: a unifying frameworkfor robust model predictive control. In: Nonlinear model predictive control.Springer, pp. 1–26.

Limon, D., Alamo, T., Salas, F., Camacho, E. F., 2006. Input to state stability ofmin–max mpc controllers for nonlinear systems with bounded uncertainties.Automatica 42 (5), 797–803.

Limon, D., Pereira, M., De La Pena, D. M., Alamo, T., Grosso, J., 2014. Single-layer economic model predictive control for periodic operation. Journal ofProcess Control 24 (8), 1207–1224.

Maiworm, M., Limon, D., Manzano, J. M., Findeisen, R., 2018. Stability ofgaussian process learning based output feedback model predictive control.IFAC-PapersOnLine 51 (20), 455–461.

Manzano, J., Limon, D., Munoz de la Pena, D., Calliess, J., 2018a. Outputfeedback MPC based on smoothed projected kinky inference. IET ControlTheory and Applications. Aceptado.

Manzano, J., Limon, D., Munoz de la Pena, D., Calliess, J., 2018b. Robust data-based model predictive control for nonlinear constrained systems. IFAC-PapersOnLine 51 (20), 505–510.

Manzano, J., Nadales, J., Munoz de la Pena, D., Limon, D., 2019. Oracle-basedeconomic predictive control. In: European Control Conference (ECC), 2019.IFAC. Enviado.

Manzano, J. M., Limon, D., Alamo, T., Callies, J. P., 2017. Control predictivobasado en datos. Actas de las XXXVIII Jornadas de Automatica.

Milanese, M., Novara, C., 2004. Set membership identification of nonlinearsystems. Automatica 40 (6), 957–975.

Pillonetto, G., De Nicolao, G., 2010. A new kernel-based approach for linearsystem identification. Automatica 46 (1), 81–93.

Qin, S. J., 2012. Survey on data-driven industrial process monitoring and diag-nosis. Annual reviews in control 36 (2), 220–234.

Rasmussen, C. E., 2004. Gaussian processes in machine learning. In: Advancedlectures on machine learning. Springer, pp. 63–71.

Riverso, S., Boem, F., Ferrari-Trecate, G., Parisini, T., 2016. Plug-and-playfault detection and control-reconfiguration for a class of nonlinear large-scale constrained systems. IEEE Transactions on Automatic Control 61 (12),3963–3978.

Seborg, D. E., Mellichamp, D. A., Edgar, T. F., Doyle III, F. J., 2010. Processdynamics and control. John Wiley & Sons.

Sra, S., Nowozin, S., Wright, S. J., 2012. Optimization for machine learning.Mit Press.

Sukharev, A., 1978. Optimal method of constructing best uniform approxima-tions for functions of a certain class. USSR Computational Mathematics andMathematical Physics 18 (2), 21–31.

Suykens, J. A., Van Gestel, T., De Brabanter, J., 2002. Least squares supportvector machines. world scientific.

Vidyasagar, M., 2002. A theory of learning and generalization. Springer-VerlagNew York, Inc.

Yang, X., Maciejowski, J. M., 2015. Fault tolerant control using gaussian pro-cesses and model predictive control. International Journal of Applied Mat-hematics and Computer Science 25 (1), 133–148.

http://www.ceautomatica.es/og/ingenieria-de-control

An Integrated Framework for Modeling and Control of P2P Energy Interactions based on Distributed Model Predictive Control.

Pablo Báez-González1*, Miguel A. Ridao Carlini, Carlos Bordons Alba

Departamento de Ingeniería de Sistemas y Automática, Universidad de Sevilla, Camino de los Descubrimientos s/n, 41092, Sevilla, España.

Abstract

This document summarizes the three main lines of research that make up the author's doctoral work. The first of these addresses intelligent production by using an economic model predictive controller (EMPC) to jointly perform optimal power delivery and optimal production timing. The second proposes the use of a coalitional model predictive controller (Coal-MPC) between electric vehicle fast charging stations to maximize their benefit while keeping the residence time in the system within acceptable levels. The third presents a mechanism for power/energy trading between prosumers through a continuous double auction based market, on which a strategic optimizer based on stochastic model predictive control (SMPC) could be implemented to determine which moments of market entry and which offer prices maximize the profit obtained by each prosumer.

Keywords: Power Management, Energy Management Systems, Intelligent Manufacturing Systems, Electric Vehicles, Energy Expenditure.

1. Introduction

The energy paradigm is undergoing substantial changes in recent years. In terms of production, it is observable how distributed generation, with an ever-increasing contribution from renewable sources, is displacing large concentrated generation plants. But the fundamental change is not so much about energy supply as about diluting the historical roles of producers and consumers to give way to the concept of prosumers (Favre-Perrod et al., 2009). That is, instead of just being energy consumers, households and industries also become producers. In principle, the purpose of this production, which is inherently distributed, is self-consumption. However, when there is a surplus of production, prosumers can choose between storing the excess, if they have an energy storage system, or sell the unused fraction of energy.

An obvious type of prosumers are those industries that have renewable generation facilities and which, as a consequence of their production process, generate by-products that can be used for cogeneration. In this case an obvious problem for the company is to select at all times the power sources that minimize the cost of production, which is known as Optimal Power Dispatch (OPD). If, in addition, the energy consumption time profile of the manufacturing process (per unit of raw material introduced) is known, it is also possible to make an

* Autor en correspondencia. Correos electrónicos: [email protected] (Pablo Báez-González), [email protected] (Miguel A. Ridao Carlini), [email protected] (Carlos Bordons) URL: www.disa.us.es/disa

optimal production schedule to minimize energy cost, which is called Optimal Power Scheduling (OPS). Section 2 presents an Economic Model Predictive Controller (EMPC) that simultaneously performs OPD and OPS using an olive mill as an example.

Another particular type of prosumers are electric vehicles (EVs). While vehicles do not produce energy on site, and when they are being recharged in the homes of their respective owners they act as loads, their intrinsically mobile nature means that they can be considered either as loads, as sources or as spatially distributed batteries. The possibility of spatially modelling charge demand may be interesting for reasons of regulation, peak-shaving, quality of service (QoS), etc., both for distribution network operators (DNOs) and for other actors involved, such as fast charging stations (CSs). Section 3 presents the basis ongoing work that aims to design a system that combines the optimal dynamic selection of fast charging station for electric vehicles with profit maximization and QoS control for CSs. The system consists of software mounted on the vehicles that recommends the optimal station based on several factors (distance, price and the average service time). On the other hand, the stations, based on the spatial distribution of potential charge demand for the EVs, modify their prices to attract exactly the amount of that demand that maximizes their profit while keeping their average service time within acceptable parameters. To this end, the CSs make use of

Primer autor et al. / XVI Simposio CEA de Ingeniería de Control, 2 - 7

a coalitional MPC system, which allows them to establish alliances provided that the overall benefit obtained by acting in coalition is greater than that obtained by acting individually.

Finally, the third line of research studies the establishment of peer-to-peer (P2P) markets for the exchange of energy between heterogeneous prosumers (homes, vehicles, intelligent buildings, etc.). The efficiency of markets based on both discrete double auctions (DDAs) and continuous double auctions (CDAs) is compared. An Energy Management System (EMS) is also introduced including market agent software that allows the necessary tasks for participation in the auctions to be carried out automatically (determination of private valuation, role selection and price adaptation). Section 4 presents some examples of such exchange markets stablished between different types of prosumers: i) energy market for electric vehicles that coincide parked in a large workplace, and ii) for power market for households within the same neighborhood. 2. EMPC-based optimization of energy use in prosuming

industries through OPD and OPS

The objective of this work was to simulate the potential improvement in the economic result of a prosumer industry –a real olive mill– due to the implementation of an EMPC scheme used to generate an optimal energy-efficient planning for the Virgin Olive Oil Extraction Process (VOOEP). This implies minimizing the mill energy cost by means of the Optimal Power Scheduling and Optimal Power Dispatch of the process (Chao et al., 2015; Jayakumar et al., 2016; Rigo-Mariani et al., 2014), without affecting its timing requirements or its quality standards..

2.1. Modeling of an olive oil mill as an energy hub

To model the plant in terms of energy, the Energy Hub concept was used, with the modifications adopted in (Schulze et al., 2008) to contemplate renewable energy consumption and production, leading to a complete Energy Hub equation given by:

(𝑳 + 𝑻) = 𝑪 ∙ (𝑷 + 𝑹) − 𝑺 ∙ �� = [𝑪 − 𝑺] ∙ [𝑷 + 𝑹�� ]

(1) which means that the sum of loads 𝑳 plus remaining energy sold to the grid 𝑻 must be equal to the aggregation of purchased energy 𝑷 and energy obtained from renewable sources 𝑹 multiplied by the conversion matrix 𝑪, plus the stored energy �� multiplied by the storage matrix 𝑺.

Figure 1 shows the complete scheme of the mill modeled as a mass-energy concentrator. It includes the renewable energy sources (micro-wind generators, photovoltaic), as well as the necessary converters (Anaerobic Digester, Biogas Reformer, Proton Exchange Membrane Fuel-Cell, Furnace and CHP) for the transformation of oil production by-products (Olive Harvesting Biomass, Olive wet Husk and Olive Mill Wastewaters) into electrical or thermal energy.

2.2. Modeling of loads associated to virgin olive oil extraction process

The introduction of olives at a certain moment implies the satisfaction of electric and thermal load not only at present time

but also for the next 𝜏𝑝 hours, being 𝜏𝑝 the duration of the whole process between an olive is introduced and its corresponding volume of oil is stored.

Figure 1: Layout of the mass–energy hub model of a generic olive mill. Solid lines in the figure represent actual installation of the mill, while discontinuous lines represent extra elements of the Biogas2PEM-FC treatment line, which are considered only for some simulation scenarios.

Unitary electricity and heat demand profiles, were obtained and used to calculate the global electricity and thermal load profile, by means of the convolution operation. Therefore, taking a certain instant 𝜏0 as a reference, for an olive introduction profile of length ∆𝜏 hours, the global load profiles can be computed as:

𝑳(𝑘)|𝑘=𝜏0

𝑘=𝜏0+∆𝜏+𝜏𝑝−1 = 𝓵𝑢 ∗ 𝒐𝑖(𝑘)|𝑘=𝜏0−𝜏𝑝𝑘=𝜏0−𝜏𝑝+∆𝜏

(2) where 𝑳 = [𝑳𝑒𝑙, 𝑳ℎ𝑒]𝑇 contains the resulting hourly electric and thermal global load vectors, 𝓵𝑢 = [𝓵𝑒𝑙

𝑢 , 𝓵ℎ𝑒𝑢 ]𝑇 contains the

hourly electricity and thermal unitary load profiles per ton of olives introduced in the process (Figure 2), and 𝒐𝑖(𝑘) is the hourly sequence of introduced olives.

Figure 2: Combined graph. Bars show the Gantt Chart for the oil extraction process; Columns show the hourly based aggregated electric and thermal loads associated to the process. Calculations have been made for 8000 kg of olives introduced in an hour, which fill the decanter.

2.3. Formulation of the control problem

The proposed control structure is depicted in Figure 3. The mill is split into two different levels (dotted red line). On one

T

FURN

ADREF PEM

SOMW + OMW + Pig Manure

Olive Pit + Olive Cake + Pruning

ng

el

Olive Oil Extraction Process heat & electric

load demmand

Fertilizer

Olive Pit + Olive Cake + Pruning

SOMW + OMW + Pig Manure

Grid

Node

CHP

CONV

=

μWindMills

Solar Blanket

bg rg

he

owsomw

fert

Pel

Png

Rel

Row

Rsomw

Tel

Lel

Lhe

Tfert

Tow

Tsomw

Fel

Biogas2PEM-FC Line

oi

Primer autor et al. / XVI Simposio CEA de Ingeniería de Control, 3 - 7

hand the manufacturing side, whose low-level regulation is already implemented. The EMPC is applied over the energy level of the mill, but it also determines the rate at which olives are introduced, thus affecting the manufacturing side. The manipulated variables are divided into: olives to be introduced, control signals for the energy converters and control signals for the storage systems. The amount of olives to be introduced (𝒐𝑖) is used as a reference for the lower level controllers of the manufacturing side, which should therefore rule the production machinery to extract the corresponding amount of VOO. For its part, 𝒖𝐿 and 𝒖𝐸 drive the generation of the electricity and heat needed by the production equipment(𝑳) and the exceeding energy that is sold, either in electricity or biomass form (𝑻). The EMPC receives the state of the storage systems as feedback (𝒙). The difference between the amount of olives that the mill expects to receive in future control instants and the actual amount of received olives is considered as a source of uncertainty for the system.

Figure 3: Control Scheme. Blue color indicates those parts of the system which were covered in this work.

The dynamic of the hub is defined by the following discrete-time LTI model in state space:

𝒙(𝑘 + 1) = 𝒙(𝑘) + 𝛽(𝑘) ∙ 𝒖(𝑘)

𝒚(𝑘) = ∁(𝑘) ∙ 𝒖(𝑘)

(3) Where 𝒙 contains the state of the storages and output 𝒚 = [𝐿𝑒𝑙, 𝑇𝑒𝑙, 𝐿ℎ𝑒, 𝑇𝑜ℎ𝑏, 𝑇𝑠𝑙𝑜𝑚𝑤, 𝑇𝑓𝑒𝑟𝑡] includes both the loads to be satisfied for the production process and the mass-energy excess, if any, to be sold.

EMPC is solved in a receding horizon fashion. At a sampling instance 𝜏𝑘, the EMPC receives a state measurement of the current process state which is used to initialize the EMPC. An optimal piecewise input trajectory is computed over the prediction horizon corresponding to the time 𝑡 ∈ [𝜏𝑘, 𝜏𝑘+𝑁) in real-time. The optimal input trajectory computed at a given sampling instance is denoted as 𝒖∗(𝑡|𝜏𝑘). The first control action, denoted as 𝒖∗(0|𝜏𝑘), is sent to the control actuators to be implemented over the sampling period from 𝜏𝑘 to 𝜏𝑘+1. At the next sampling period, the EMPC is re-solved.

For each optimization instant 𝜏𝑘, the EMPC problem consist on finding the

𝒖∗(𝑡|𝜏𝑘) = arg min𝒖

𝒥(𝒙(𝜏𝑘), 𝒖)

= ∑ 𝜌(𝑙) ∙ 𝒖(𝑙) − 𝜗(𝑙) ∙ ��(𝑙)𝜏𝑘+𝑁−1

𝑙=𝜏𝑘

(4) subject to the dynamics of the storage systems, the energy hub equations and the operational limits of all converters and storage elements. Vectors 𝜌(𝑙) and 𝜗(𝑙) contains, respectively,

the prices of the purchasable input energy carriers and the prices of the saleable output energy carriers during hour 𝑙. The hat indicates future values of states and outputs that would result from the application of the optimized input trajectory.

The extended and detailed description of the equations and constraints can be found in (Baez-Gonzalez et al., 2016).

2.4. Tests and Results

The operation of the oil mill was simulated incorporating the EMPC which performs the OPD and OPS, and the results of the energy operation over a standard day were compared with those obtained with the current operating mode (i.e. without load shaping through scheduling of olive introduction). The results show an improvement of around 5% in the profit obtained by the industry. 3. Joint optimization of the Revenue and Quality of

Service of Electric Vehicle Fast Charging Stations using Coalitional Control.

Recharging electric vehicles, even at fast charging stations, means considerably longer service time than vehicles currently use to refuel at petrol stations. With the widespread introduction of EVs, it is foreseeable that this CSs will suffer significant waiting times. As a result, many works are addressing the optimal selection of charging station (Gusrialdi et al., 2017; Kumar et al., 2015; Tian et al., 2016; Yang et al., 2017). Many of them make this selection in a consensual way between the vehicles and the stations themselves. However, this involves the exchange of a large amount of information and also presents problems of privacy and service guarantee.

To avoid this, we propose a selection system composed of two elements:

- EVs are equipped with a recharging advice software (ChAd) which, depending on various parameters, either specific to the vehicle (distance to each CS) or published periodically by the CS themselves (prices and average service times), recommends the best station when a user decides to recharge.

- Each CS has a charging manager (ChM) that receives information about the potential demand in its geographical vicinity, and knowing the functioning of the ChAd, executes an optimal pricing policy to attract only the part of the demand that maximizes its profit without excessively deteriorating its service time.

3.1. Modeling of EV as mobile charges and behavior of EV drivers

Given that it is assumed that all CS periodically announce their current energy prices and (average) service time, the ChAd choices the optimal CS according to a function expressing the individual utility of the EV i with respect to each CS j:

Φ(𝐸𝑉𝑖, 𝐶𝑆𝑗) ≡ Φ𝑖𝑗 ≜ 1 − 𝜌𝑑𝑖𝑠 ‖𝑥𝐸𝑉𝑖 − 𝑥𝐶𝑆𝑗‖− 𝜌𝑈Δ𝑈(𝐶𝑆𝑗, 𝐶𝑆−𝑗) − 𝜌𝑇Δ𝑇(𝐶𝑆𝑗, 𝐶𝑆−𝑗)

(5) where

Δ𝑈(𝐶𝑆𝑗, 𝐶𝑆−𝑗) = (𝑢𝐶𝑆𝑗 − ��)/��Δ𝑇(𝐶𝑆𝑗, 𝐶𝑆−𝑗) = (𝑇𝐶𝑆𝑗 − ��)/��

(6)

el

Predicted Olive Reception Profile

ActualOlive Reception

el ng ohb slomw

Storage Systems

Energy Converters

Product ion Machinery

Mil l modeled as a mass-energy hub

Load Demand Predict ion Model

Energy LevelManufacturing Level

Energy and Biomass PricesWind and PV

Est imated Generat ion

VOO

TL

P R

E

Primer autor et al. / XVI Simposio CEA de Ingeniería de Control, 4 - 7

where �� = (∑ 𝑢𝑐𝑠𝑘𝑛𝐶𝑆𝑘=1 )/𝑛𝐶𝑆, �� = (∑ 𝑇𝑐𝑠𝑘

𝑛𝐶𝑆𝑘=1 )/𝑛𝐶𝑆 are the

average price and time in system, respectively, and 𝜌𝑑𝑖𝑠, 𝜌𝑈 and 𝜌𝑇 are arbitrary sensitivity coefficients.

The EV driver utility (5) takes in consideration 1) the distance between the current position of the vehicle and the location of the CS, 2) the deviation of the spot price applied by CS j from the average offer, and 3) the difference between the current service time at CS j and the average service time in all CSs. Notice that only those CSs that are reachable by EV i given the range provided by its current State of Charge (SoC) are contemplated. These CSs are arranged in decreasing utility order by the ChAd. Upon a positive recharging decision, the EV driver heads toward the first CS in the preference list provided by the ChAd application after the last announced prices update.

If any available, a post is assigned to the EV upon arrival; otherwise the EV waits its turn in a common queue for all posts. If all charging posts are busy and the queue is full, the EV is not accepted in the CS and a new evaluation (from the current EV position) over the remaining available CSs is requested to the ChAd.

3.2. CS Modeling and Management

In this work, both the position and the SoC of all EVs on a given map 𝑆 ⊂ ℝ2 are assumed to be known by an Independent System Operator (ISO) for each simulation instant. Indeed, such information can be accessed thanks to intelligent traffic infrastructures (ITS) and localization systems embedded in mobile phones (floating car data). Based on the probability of an individual recharge decision event as a function of the SoC, it is possible to derive the global spatial distribution of the recharge probability to create a map (Figure 4) defined as charge probability map (CPM).

Each CS periodically receive this CPM from the ISO. Its charging manager software use this map, along with (5), to predict the portion of the overall demand they would capture during the next time interval as a function of the spot price applied during that same interval. The set of points within the XY plane where an EV perceive a higher recharge utility for a certain CS j than for any other CS is called the region of influence (RoI) of that station.

At each decision instant, 𝜏𝑛, the ChM software at each CS selects the price that ideally attracts the amount of demand that maximizes the revenue and equalizes the QoS of that CS compared to other CSs. For each possible energy price, the Charging Manager of the CS first recomputes its associated virtual RoI; after integrating the probable demand over this virtual RoI, it calculates the predicted time-in-system (𝑡𝑠) due to that integrated demand, with which the global fitness for that price can be computed. To perform this time-in-system prediction, a M/G/s/K fluid limit based queue model (Whitt, 2006) has been developed (Figure 5). Arrivals are modeled as an inhomogeneous Poisson’s Process (M) in which arrival rate is determined through spatial integration of the CPM. Service Time is modeled by a generic distribution (G) obtained from historical charging data. Each CS has s charging posts and room for K vehicles in queue.

Figure 4: An example of how individual Position-SoC information is anonymized to build a CPM.

Figure 5: Predicted vs. Real Time-in-system and Occupation calculated using Fluid Model for the finite multiserver CS queue.

3.3. Joint Control of Revenue and Service Time (ongoing work)

The control problem addressed has the following multi-objective fitness function, which is evaluated over the prediction horizon 𝑁𝑝 for each one of the i-th possible coalitions:

𝒥𝑖(𝑡) = ∑ −𝜔𝑖𝑟ℛ𝑖(𝑘) + 𝜔𝑖

𝑠��𝑖(𝑘)𝑡+𝑁𝑝

𝑘=𝑡

(6) where ℛ𝑖(𝑘) = ∑ ��𝑗(𝑘)(𝑝𝑗(𝑘) − 𝑐𝑗(𝑘))

∀𝑗∈𝑖

��𝑖(𝑘) = ∑{��𝑠(𝑘)}2

∀𝑗∈𝑖

(7)

Primer autor et al. / XVI Simposio CEA de Ingeniería de Control, 5 - 7

are the predicted revenue and predicted service time for instant 𝑘, respectively, ��𝑗(𝑘) is the predicted demand in number of EV arrivals for interval 𝑘 → 𝑘 + 1, 𝑝𝑗 is the energy selling price in monetary units per average recharge for interval 𝑘 → 𝑘 + 1 and 𝑐𝑗 id the energy cost for an average recharge for interval 𝑘 → 𝑘 + 1. Finally, 𝜔𝑖

𝑟 and 𝜔𝑖𝑠

are the weights given to the revenue and service time terms. For each CS, the manipulated variable is the energy price

within the control horizon. Evidently, price variations turn into demand variations, i.e. low prices encourage demand while high prices repel it. However, EVs are also sensitive to the QoS of CSs, defined as its average service time (high average service times discourage demand while low average service times attract it). As average service time grows as demand increases, there exist a tradeoff between the maximization of revenue and the minimization of average service time.

The objective of the control consists thus in maximizing the revenue derived by the recharging service while minimizing and equalizing the service time, for all the CSs within the same coalition.

3.4. Coalitional approach (ongoing work)

The above setting is expanded by considering the possibility of coalition formation among CSs. The problem consists in deciding with whom to cooperate and under which conditions (namely, the allocation of the payoffs among the members of a coalition). We model such situation as a coalitional game in characteristic form.

The aim here is to explore the benefit brought in by the cooperative management of the set of CSs. Such benefit can be directly translated into economic units, and then possibly transferred (as recompense) from one agent to another in order to overcome what constrained the emergence of cooperation in the first place. This type of situations is designated in the game theory literature as transferable utility (TU) (Ray, 2007). 4. An energy P2P market environment to boost renewable

energy exchanges between prosumers

This line of research covers the possible effects of the establishment of P2P energy (eP2P) exchange structures between prosumers. These effects include, but are not limited to: savings on electricity bills, better use of renewable sources, avoidance of prosumers' electrical isolation and minimization of future investment in network capacity expansion (Baez-Gonzalez et al., 2018). A continuous double auction (CDA) structure is used to allow energy marketing.

4.1. An EMS including eP2P functionality

Each prosumer can participate in the CDA-based eP2P-market by using a trading agent software that automatically performs private valuation determination, role selection and price adaptation.

Private Valuation Determination: Before going to the market in search of profits, each trader's agent must first establish a private valuation (𝜆) of the good to be traded, i.e. what value (in monetary units) it gives to each unit of energy. In this work, prosumers acting as buyers value the energy at the price at which they would buy it, either now or in the close future, from the distributor (so that buying at any price below means savings). Prosumers acting as sellers, value their excess energy at a price slightly lower than the lowest value the DNO offers during the day (so that buyers might find P2P prices more convenient than DNO ones).

Role selection: is performed based on the balance between the PV-generated energy (if available) and the energy consumed. Prosumers with surplus go to the market as sellers trying to trade that surplus whenever the state of charge (SoC) of their storage system is greater than a certain level. If the SoC is lower than this level, the surplus is used to recharge that storage. Deficit prosumers go to the market as buyers trying to wipe out that deficit.

Price Adaptation: Trading agent software uses the well-known zero-intelligence-plus (ZIP) algorithm (Cliff, D., 1997) to realize price adaptation after each offer shouted within the auction.

If a buyer cannot acquire all the energy defect in the

market, the EMS is responsible for deciding whether the deficit is met by buying energy from the DNO or by discharging the battery, if available; if a seller cannot sell all its excess energy in the market, the EMS is responsible for deciding whether the surplus is stored in the battery or sold to the DNO, if the latter is possible.

4.2. The market

Energy trading between prosumers is carried out using a market based on a continuous double auction (CDA) (Parsons et al., 2006). Being double, both energy deficit prosumers (buyers) can initiate offers to buy (bids) and energy surplus prosumers (sellers) can launch offers to sell (asks). As it is continuous, the offers are closed at any time when there is a buyer/seller willing to close the current shouted ask/bid. In this particular market, offers that are not closed automatically disappear after a while (i.e. there is no limit order book).

The marketing form of the energy good depends on the type of application. For example, in the case of a neighbourhood in which some houses are prosumers (they have renewable energy generators) and others are not, a CDA-based power market has been proposed (Figure 6) in which, asynchronously, any house can make offers to buy or sell power (in Watts) at a certain price (in €/W·min). The amount of the transaction calculated according to the time period during which it is maintained. On the other hand, in the case of a set of electric vehicles that coincide in the same geographical location (e.g. the parking lot of a large workplace), a CDA-based market has been developed to trade energy packages (in kWh) offered at a certain price (in €/kWh). Obviously, once traded, the transfer

Primer autor et al. / XVI Simposio CEA de Ingeniería de Control, 6 - 7

of the amount of energy must be guaranteed before any of both vehicles leave the car park.

Figure 6: An eP2P market between prosumer and consumer households within the same neighborhood.

A CDA is always exposed to extramarginal and therefore inefficient transactions. However we use it, instead of a discrete double auction (DDA), because they do not require the figure of the auctioneer (thus guaranteeing anonymity and impartiality) and because their inefficiency in dynamically structured markets (with variations in market's traders or in traders' private valuations) is questioned (Baez-Gonzalez et al., n.d).

As is usual in similar previous works, the CDA is emulated realizing discretised sessions every minute, being this the minimum time granularity for energy balancing. The concatenation of the outputs from these sessions produces quasi-continuous price evolution profiles such as those shown in Figure 7.

Figure 7: Example of realization of the eP2P market between 10 prosumers for two consecutive days of the summer.

4.3. A Stochastic MPC based strategic trader (ongoing work).

If the market is for energy packages, it is important to select the timing of the commercialization of these packages since the price of energy varies throughout the day and therefore the expected benefits may also vary. For example, a prosumer with excess energy may prefer to postpone its sale until a later time when the average historical price is higher, but is exposed to the risk of not being able to sell at

that later time (either due to a lack of buyers or greater competition from sellers).

For this reason, there is an ongoing work to develop a strategic controller that aims to minimize the energy cost for a specific prediction horizon, taking into account the possibility of establishing eP2P interactions and its inherent stochasticity.

arg min𝒒,𝒑

𝒥(𝒙, 𝒒, 𝒑) = ∑ 𝐸𝑔𝑟𝑖𝑑(𝑡 + 𝑘) ∙ 𝑝𝑔𝑟𝑖𝑑(𝑡 + 𝑘)𝑁ℎ

𝑘=1− 𝑞𝑠(𝑡 + 𝑘)∙ 𝔼{𝑝𝑠(𝑡 + 𝑘) ∙ Pr{𝑆𝑒𝑙𝑙𝐷𝑒𝑎𝑙}(𝑡 + 𝑘, 𝑝𝑠)}+ 𝑞𝑏(𝑡 + 𝑘)∙ 𝔼{𝑝𝑏(𝑡 + 𝑘) ∙ Pr{𝐵𝑢𝑦𝐷𝑒𝑎𝑙}(𝑡 + 𝑘, 𝑝𝑏)}

(8) where 𝒙 is the vector that contains the state of any storage system that the prosumer may have, 𝒒 = [𝒒𝒔, 𝒒𝒃] is the vector of quantities to be offered and 𝒑 = [𝒑𝒔, 𝒑𝒃] is the vector of prices to be asked/bided for the aforementioned quantities in the k future market sessions.

4.4. Tests and results

Preliminary results show that the possibility of eP2P trading (Figure 8) reduces the total cost of energy (sum of energy costs for all houses) while increasing the proportion of renewable energy actually used by prosumers (i.e. the share of energy used for self-consumption or sold on the market in relation to total solar energy produced). The magnitude of this variations varies according to the level of penetration of the PV installation (Table 1), which is logical considering that, the more prosumers the more cheap energy but also more potential market competitors.

Figure 8: Chord diagram showing active P2P power transfers between 100 households for a particular time instant. Red nodes represent net power buyers, green ones are net power sellers, while white ones are households with no eP2P interactions.

PMkt

P2P Market

PGrid

PStgPCons

PPV

EMS

Grid

Primer autor et al. / XVI Simposio CEA de Ingeniería de Control, 7 - 7

Table 1: Results from preliminary tests for 48 hours operation of the eP2P power market between 100 households.

PV Penetration (%)

(0%) (15%) (30%) (45%)

K𝑐𝑜𝑠𝑡 1 0.8011 0.6046 0.4861

∆𝑅𝑊 (%) 0 + 60.20 + 56.04 + 49.87

5. Final Remarks and Future Research Directions

The emergence of the figure of energy prosumers makes it necessary to extend, improve or replace the traditional mechanisms of energy exchange. This thesis includes novel approaches to modeling the behavior of prosumers. It also proposes new structures (Charging Advisor for EVs, Charging Price Manager for CSs, Trading Agent equipped EMS for prosumers…) to facilitate energy trading, always from the perspective of the peerification of the energy paradigm.

The evolution of aforementioned mechanisms and the appearance of new market models must be accompanied by the development of control techniques that optimise and automate all the processes related to energy saving and trading, by a group of increasingly heterogeneous prosumers. This thesis deals with how different variants of predictive controllers (economic, coalitional and stochastic) can contribute to this last aspect.

For industries with cogeneration capacity, the EMPC contributes to the optimal scheduling of production to maximize the return from energy reuse, either through self-consumption or through the trading of surpluses.

Coalitional predictive control can contribute to the balancing of the level of congestion in those resources with a high level of demand, be they fast recharging stations, local area transformers or any other equipment with limited capacity within the energy network.

The use of stochastic predictive control is proposed in order to maximise the expected return on the participation of prosumers, whatever their type, in continuous markets where the price of energy may undergo stochastic variations.

Future research directions include, but are not restricted

to: - Joint simulation of EVs as vehicles (microscopic

traffic models) and as moving batteries (geographically mobile energy sources/loads, and therefore attractive or repellable through incentives).

- Establishment of coalitions among prosumers to increase bargaining power in energy markets.

- Integration of P2P power (immediate transfer) and packaged energy (postponable transfer) markets. Simultaneous operation of both types of energy trading.

Acknowledgments

The research leading to this PhD Thesis has received funding from the Spanish Ministry of Economy's ‘Retos Investigación 2013’ Programme under the COOPERA Project (DPI2013-46912-C2-1-R).

References

Baez-Gonzalez, P., del Real, A.J., Ridao Carlini, M.A., Bordons, C., 2016. Day-ahead economic optimization of energy use in an olive mill. Control Engineering Practice 54, 91–103.

Baez-Gonzalez, P., Ridao Carlini, M.A., Bordons, C., n.d. Influence of Time on the Efficiency Comparison between Continuous and Discrete Double Auctions for Energy P2P Trading. Energy Economics. Article submitted for publication.

Baez-Gonzalez, P., Rodriguez-Diaz, E., Vasquez, J.C., Guerrero, J.M., 2018. Peer-to-Peer Energy Market for Community Microgrids. IEEE Electrification Magazine 6, 102–107.

Chao, L., Jun, Y., Zhi, D., Jifeng, H., Mingsong, L., 2015. Day-ahead Economic Dispatch of Wind Integrated Power System Considering Optimal Scheduling of Reserve Capacity. Energy Procedia, Clean, Efficient and Affordable Energy for a Sustainable Future: The 7th International Conference on Applied Energy (ICAE2015) 75, 1044–1051.

Cliff, D., 1997. Minimal Intelligence Agents for Bargaining Behaviours in Market-Based Environments. (Technical Report No. HP-97-91). HP Laboratories.

Favre-Perrod, P., Critchley, R., Catz, E., Bazargan, M., 2009. New participants in SmartGrids and associated challenges in the transition towards the grid of the future, in: PowerTech, 2009 IEEE Bucharest. IEEE, pp. 1–5.

Gusrialdi, A., Qu, Z., Simaan, M.A., 2017. Distributed Scheduling and Cooperative Control for Charging of Electric Vehicles at Highway Service Stations. IEEE Transactions on Intelligent Transportation Systems 18, 2713–2727.

Jayakumar, N., Subramanian, S., Ganesan, S., Elanchezhian, E.B., 2016. Grey wolf optimization for combined heat and power dispatch with cogeneration systems. International Journal of Electrical Power & Energy Systems 74, 252–264.

Kumar, N., Misra, S., Rodrigues, J., Lee, J.H., Obaidat, M.S., Chilamkurti, N., 2015. Playing the Smart Grid Game: Performance Analysis of Intelligent Energy Harvesting and Traffic Flow Forecasting for Plug-In Electric Vehicles. IEEE Vehicular Technology Magazine 10, 81–92.

Parsons, S., Marcinkiewicz, M., Niu, J., Phelps, S., 2006. Everything you wanted to know about double auctions, but were afraid to (bid or) ask. City University of New York: New York2005.

Ray, D., 2007. A game-theoretic perspective on coalition formation. Oxford University Press.

Rigo-Mariani, R., Sareni, B., Roboam, X., Turpin, C., 2014. Optimal power dispatching strategies in smart-microgrids with storage. Renewable and Sustainable Energy Reviews 40, 649–658.

Schulze, M., Friedrich, L., Gautschi, M., 2008. Modeling and optimization of renewables: applying the energy hub approach, in: Sustainable Energy Technologies, 2008. ICSET 2008. IEEE International Conference On. IEEE, pp. 83–88.

Tian, Z., Jung, T., Wang, Y., Zhang, F., Tu, L., Xu, C., Tian, C., Li, X.-Y., 2016. Real-Time Charging Station Recommendation System for Electric-Vehicle Taxis. IEEE Transactions on Intelligent Transportation Systems 17, 3098–3109.

Whitt, W., 2006. Fluid Models for Multiserver Queues with Abandonments. Operations Research 54, 37–54.

Yang, J., Xu, Y., Yang, Z., 2017. Regulating the Collective Charging Load of Electric Taxi Fleet via Real-Time Pricing. IEEE Transactions on Power Systems 32, 3694–3703.

http://www.ceautomatica.es/og/ingenieria-de-control

Contribucion en Algoritmos de Control para Convertidores dePotencia Multinivel conectados a Red electrica

Montero-Robina Pabloa,⇤, Gordillo Franciscoa

aDepartamento de Ingenierıa de Sistemas y Automatica, Escuela tecnica superior de Ingenierıa, Universidad de Sevilla, Camino de los Descubrimientos, s/n,41092, Sevilla, Espana.

Resumen

Esta tesis se centra en el desarrollo de algoritmos de control para convertidores de potencia multinivel. Los convertidores depotencia multinivel ofrecen una serie de ventajas respecto a los convertidores de dos niveles estandar que los hacen atractivos parala industria. Sin embargo, a medida que aumentan el numero de niveles, aparecen mas objetivos de control que deben satisfacersepara que el correcto funcionamiento del sistema no se vea alterado. Por otro lado, los grados de libertad de los equipos multinivelsuelen ser mayores que el numero de objetivos de control, por lo que se debe adoptar mas criterios para mejorar el comportamientodel equipo.

Palabras Clave:AC Converter machines, Multilevel systems, Power systems, Power control, Electric power systems

1. Introducci´on

Los convertidores de potencia son equipos compuestos poruna serie de dispositivos semiconductores y componentes pa-sivos que permiten transformar el tipo de energıa electrica deun caracter no deseado a otro aprovechable segun el contexto.Ejemplos de estas aplicaciones pueden ser el volcado de energıaelectrica de molinos eoicos a la propia red (Fig. 1), la optimiza-cion y obtencion de energıa de paneles fotovoltaicos (Fig. 2), lacarga de baterıas, el accionado de un motor, etc.

Aunque no todos los convertidores de potencia tengan ne-cesariamente que estar conectados a la red electrica, esta tesisse centra en aquellos convertidores que de una forma u otra loestan. Por supuesto, la inyeccion o absorcion de potencia de lared general exige al convertidor satisfacer una serie de ındicesde calidad para garantizar que las caracterısticas del suministrode la red electrica no se vea alterado. Mayoritariamente, estascaracterısticas se basan en el caracter alterno (AC) de la red que,en el caso de Europa, se trata de una onda senoidal de 50 Hz.Es por ello que los ındices de calidad de red se suelan medirsegın la presencia de armonicos (armonico 2: 100 Hz, armoni-co 3: 150 Hz, etc...) en la magnitud de tension o corriente. Porejemplo, la figura 3 muestra el lımite maximo en Amperios delos armonicos inyectables en la red electrica segun el StandardIEC 61000-3-2.

⇤Autor en correspondencia.Correos electronicos: [email protected] (Montero-Robina Pablo),

[email protected] (Gordillo Francisco)

Estas condiciones para inyectar o absorber potencia de lared han propiciado la busqueda de topologıas de convertido-res que satisfagan estas condiciones mas facilmente, con menorcoste o ocupando menos espacio. Entre estas topologıas, se en-cuentra el convertidor multinivel (Kouro et al., 2010; Rodrıguezet al., 2002; Lai and Peng, 1996) que, gracias al incremento delnumero de niveles, permite modular una forma de onda masproxima a los 50 Hz, reduciendo ası la presencia armonica (Fig.4). Ademas, al disponer de una mayor cantidad de semiconduc-tores en serie, los umbrales de tension que estos sufren son me-nores en comparacion con una aplicacion de 2 niveles habitual.Esta caracterıstica permite el uso de dispositivos de menor ten-sion caracterıstica con menores perdidas y, generalmente, masbaratos.

Generalmente, los convertidores de potencia se basan endisponer de uno o mas condensadores que, al conectarlo en-tre las fases, permite modular los mencionados niveles. En elcaso de un convertidor multinivel, el numero de condensadorespresentes es, como mınimo, igual al numero de niveles menos1. Esta presencia de mas de un condensador supone la necesi-dad de incluir objetivos de control adicionales, ya que, a no serque la aplicacion ası lo busque, los condensadores deben estarigualmente cargados. De esta forma, se garantiza que el saltode un nivel a otro sea siempre de la misma magnitud. Este tra-bajo se centra en la busqueda de algoritmos que aprovechen losgrados de libertad que estos convertidores ofrecen para aplica-ciones conectadas a red electrica y que, a su vez, satisfagan lanecesidad del balance previo.

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 2

Figura 1: Ejemplo del rol del convertidor de potencia en la conversion deenergıa en un molino eolico

Figura 2: Ejemplo de conversion de energıa electrica de tipo DC de un panelfotovoltaico a AC para aprovechamiento en red domestica

Son muchas las topologıas de convertidores multinivel ac-tualmente existentes (Franquelo et al., 2008) y la mayorıa deellas pueden escalarse para aumentar el numero de niveles ge-nerables. Algunas de estas topologıas son: Cascaded H-Bridgeconverters (CHB); Flying Capacitors Converters (FCC); Diode-Clamped Converters (DCC); Modular Multilevel converters(MMC); etc. Este trabajo ha considerado varias de ellas y seranbrevemente explicadas en las siguientes secciones.

2. Topolog´ıas consideradas

En esta seccion se expondran las topologıas consideradashasta el momento y que contribuyen al desarrollo final de latesis.

Figura 3: Maximo amperaje de armonicos permitido para convertidores de po-tencia tipo A — equipos trifasicos equilibrados o monofasicos no catagorizados— conectados a red

Figura 4: Tipos de onda generados por un convertidor de 2 niveles (izquierda),3 niveles (centro) y 9 niveles (derecha)

Figura 5: Esquema de un convertidor CHB trifasico conectado a red.

2.1. Cascaded H-Bridge Converter

Esta topologıa de convertidor (Rodrıguez et al., 2007) utili-za puentes en H para poder disponer el condensador de formadirecta, inversa o desconectada. Como consecuencia, cada faserequiere de un puente H con su correspondiente condensador,de forma que un puente en H por fase equivaldrıa a un conver-tidor de 3 niveles, 2 puentes a un convertidor de 5 niveles (Fig.5), etc.

En esta topologıa, la cuestion del balanceo se resume engarantizar que los condensadores de los puentes H dentro dela misma fase sean iguales y que los condensadores entre lasdistintas fases sean tambien iguales.

2.2. Diode-Clamped Converter

Esta topologıa de convertidor (Rodrıguez et al., 2010) utili-za varios condensadores dispuestos en serie y, a traves de dio-dos e interruptores de potencia, permite conectar a la salida cadauno de los puntos intermedios de estos ademas de los extremos(Fig. 6). De esta forma, 2 condensadores supondrıan un conver-tidor de 3 niveles, 4 condensadores uno de 5, etc.

De forma similar a la anterior topologıa, la existencia devarios condensadores exige que se incluya el balanceo entre sustensiones como un objetivo de control adicional.

2.3. Modular Multilevel converter

Esta topologıa (Fig. 7) consiste en la disposicion en serie depequenos convertidores en forma modular (Nami et al., 2015).Estos modulos pueden ser cualquier topologıa de convertidor,incluido cualquiera de las anteriores topologıas. La principalidea es aumentar el numero de niveles al disponerlos en serie.La modularidad de estos convertidores es su principal ventaja,tanto por la simplicidad en el montaje como por la extrapola-cion del control. Como consecuencia negativa, el numero de

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 3

Figura 6: Esquema de un convertidor DCC de 3 niveles (izquierda) y de 5 nive-les (derecha)

condensadores aumenta con el numero de niveles y con el, lacantidad de variables a considerar como objetivos de controladicionales. Es decir, mientras mayor sea el numero de nivelesconsiderado, mayor sera la complejidad del control del siste-ma completo. Uno de los modulos mas utilizados en esta cate-gorıa son los semipuentes en H debido al reducido numero decomponentes implicados ası como la simplicidad de su control.Sin embargo, los semipuentes en H solo permiten conectar elcondensador en un solo sentido, por lo que la regulacion de sutension suele ser mas complicada (Debnath et al., 2015).

3. Contribuciones por topolog´ıa

En esta seccion se incluyen las contribuciones particularespara cada una de las topologıas anteriores.

3.1. Contribuciones en Cascaded H-bridge

Tal y como se comento anteriormente, el balanceo en estatopologıa se puede efectuar en dos ambitos: dentro de una mis-ma fase y entre diferentes fases. Considerando, por ejemplo, unconvertidor trifasico de 5 niveles CHB, este dispone de 6 puen-tes en H incluyendo 2 por fase. Si se considera que el balanceodentro de una misma fase es efectuado de forma independiente,se puede asumir que la tension de los condensadores dentro deuna misma fase sera igual a la de su promedio. Por tanto, solohabrıa que disenar un controlador que efectue el balance entrelas distintas fases utilizando las tensiones promediadas de cadauno de los condensadores. Por tanto,

VCi =VCi1 + VCi2

2; Vavg

dc =VCa + VCb + VCc

3i = a, b, c (1)

donde VCi es la tension promediada de cada fase i, VCil es latension del condensador del modulo l en la fase i y Vavg

dc es latension promediada de las 3 fases. Definiendo dos senales de

Figura 7: Esquema de un convertidor MMC trifasico de N niveles

control para caracterizar el error entre las tensiones — Vd1 yVd2 — donde

Vd1 = Vdc � VCa ; Vd2 = Vdc � VCb

se puede obtener su ecuacion dinamica (Montero and Gordillo,2017)

CdVd1

dt= 1/6 (�2Iama + Ibmb + Icmc) (2)

CdVd2

dt= 1/6 (Iama � 2Ibmb + Icmc) (3)

donde Ii es la corriente de fase, y mi es la tension de referencianormalizada a modular en la salida para i = {a, b, c}. Por otrolado, es bien conocido que en un sistema trifasico la adicion deuna misma componente homopolar x a las tres formas de on-da mi no afecta al control del mismo mientras no se saturen lasmismas. Puesto que se tratan de formas de onda normalizadaspara un sistema de 5 niveles su rango oscila entre [�2, 2]. Con-siderando ademas una candidata a funcion de Lyapunov de laforma

W = |Vd1| + |Vd2| (4)

se puede determinar el valor de x por cada periodo de conmuta-cion que mas favorece la correccion del desbalance. Para ello,se asume que los signos de Vd1 y Vd2 son constantes durante elperiodo completo de conmutacion y se obtiene aquel valor de xque haga W 0. Introduciendo (2)-(3) en la derivada de (4) yconsiderando el lımite de �2 mi + x 2 para i = {a, b, c}, seobtiene la ley que determina el valor de x:

si (sign(Vd1)Ia + sign(Vd2)Ib) 0entonces x = �2 �min(mi)

si no x = 2 �max(mi)

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 4

Figura 8: Region de funcionamiento del algoritmo de balanceo entre fases paraun convertidor CHB

El funcionamiento de este algoritmo queda demostrado ma-tematicamente en Montero and Gordillo (2017) para la regionde potencia mostrada en la figura 8.

Sin embargo, para poder obtener la derivada de W, es nece-sario asumir que su signo se mantiene constante entre un instan-te de sampleo y el siguiente. Esto es cierto siempre que ambassenales se mantengan alejadas de cero, pero cuando se alcanceel regimen permanente estas senales podrıan cambiar de signoentre un sampleo y el siguiente. Como consecuencia, el algorit-mo propuesto arrojarıa un valor de x opuesto — Notese que losvalores de x propuestos son el maximo y el mınimo posible —cada instante de conmutacion, haciendo que el valor de x osci-lara considerablemente. Este fenomeno tiene consecuencias enun sistema real donde variaciones bruscas de x repercuten en lacalidad de la red.

Como alternativa, se propone la insercion de un control pro-gresivo de x de forma que genere el valor original cuando W seagrande y se vaya reduciendo progresivamente hasta que W al-cance un valor de referencia W. Lo que se reduce en aplicar elvalor de x0 en las tensiones de referencia, segun

x0 = Kx · x (5)Kx = sat(Kp(W � W)) Kx 2 [0, 1],

donde x es el valor obtenido por el algoritmo previo; ’sat’ es lafuncion saturacion y Kp es un parametro de control. Obviamen-te, el uso de este algoritmo no garantiza un error en regimenpermanente nulo pero reduce considerablemente las oscilacio-nes de la variable x. En la figura 9 se muestran las tensionespromediadas de cada fase para el algoritmo sin cambios (figurasuperior e intermedia-superior) y el algoritmo modificado conuna Kp = 0,1 y W = 35. Por otro lado, el espectro armonico delas tensiones entre el punto neutro y tierra — un indicador dela variacion de x — para el algoritmo original y el modificadose muestra en la figura 10 donde se puede observar una claramejorıa con la modificacion.

3.2. Contribuciones en Diode-clamped converters

Para el caso de esta topologıa de convertidores, la carga delos condensadores viene determinado por la cantidad de co-rriente entrante en cada punto del dc-link. Este trabajo se hacentrado en un convertidor DCC de 5 niveles como el mostradoen la figura 11.

Figura 9: Evolucion de las tensiones de los condensadores cuando se activa elbalanceo en t = 0,5 para el algoritmo original y el modificado.

Figura 10: Espectro armonico de la tension entre el punto N y n para el algorit-mo original y el modificado

Figura 11: Esquematico de convertidor DDC de 5 niveles conectado a red

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 5

3.2.1. Algoritmo de balanceoProcediendo de forma similar al anterior apartado, se defi-

nen unas variables de error que determinan el estado de desba-lance del sistema.

vd1 = vc4 � vc1 ; vd2 = vc3 � vc2 ; vd3 = vc2 � vc1

donde vcp es la tension del condensador Cp. Para obtener laecuacion dinamica de los errores, es necesario definir las va-riables utilizadas en la modulacion, estas son llamadas ”dutyratios” di j y definen sobre un periodo de conmutacion la canti-dad de tiempo que la fase i esta conectado al punto j pudiendoser i = {a, b, c} y j = {1, 2, 3, 4, 5}. Segun esta anotacion, laecuacion

Pj={1,2,3,4,5} di j = 1 debe satisfacerse para todas las

fases, lo que restringe un duty en cada fase. Ası, la corrienteentrante en cada punto del dc-link (Fig. 11) es facilmente ob-tenida, por ejemplo, la corriente entrante en el punto o5 serıaidc1 = da5Ia + db5Ib + dc5Ic. Aplicando esta idea junto a la defi-nicion de las senales de error y la ecuacion caracterıstica de loscondensadores, se obtienen las ecuaciones dinamicas de estassenales (6)-(8).

CdVd1

dt= �

X

i={a,b,c}(di1 + di5)Ii (6)

CdVd2

dt= �

X

i={a,b,c}(di1 + di2 + di4 + di5)Ii (7)

CdVd3

dt=X

i={a,b,c}di4Ii (8)

Estas mismas ecuaciones pueden ser transformadas al plano↵�� sin perdida de generalidad. Por otro lado, si se asume quela tension de los 4 condensadores en regimen permanente estaequilibrada, se determina que la tension de referencia norma-lizada depende de los duty ratios de la forma mk = �2dk1 �dk2 + dk4 + 2dk5 para k = {↵, � }. Por tanto, aplicando un cambiode variables apropiado que defina unas entradas de control enfuncion de los duty ratios, el control de corriente — que deter-mina el valor de mk — queda desacoplado del control de balan-ce. Definiendo las entradas de control como u1, u2, . . . , u8, lasecuaciones dinamicas del control de corriente y de las senalesde error quedan (Umbrıa et al., 2017; Robina et al., 2018)

Ldi↵dt= vs↵ �

14

u1Vdc (9)

Ldi�dt= vs� �

14

u2Vdc (10)

CdVd1

dt= �u3I↵ � u4I� (11)

CdVd2

dt= �u5I↵ � u6I� (12)

CdVd3

dt= �u7I↵ � u8I� (13)

donde vsk es la tension de la red electrica. Se puede observarque las ecuaciones (9)-(10) son las tıpicas ecuaciones dinamicasdel control en corriente de un convertidor de 2 niveles donde u1equivaldrıa a m↵ y u2 equivaldrıa a m�. Por otro lado, u3, . . . , u8

son las variables que permiten la regulacion de las tensiones.Inspirandose en (11)-(13), se definen las senales de control co-mo

0BBBBBBBBBBBBBBBBBBBBBBB@

u3u4u5u6u7u8

1CCCCCCCCCCCCCCCCCCCCCCCA

=

0BBBBBBBBBBBBBBBBBBBBBBB@

i↵ 0 0i� 0 00 i↵ 00 i� 00 0 i↵0 0 i�

1CCCCCCCCCCCCCCCCCCCCCCCA

0BBBBBBBB@

k1Vd1k2Vd2k3Vd3

1CCCCCCCCA . (14)

donde k1, k2, k3 son los parametros de control. Quedando asıdefinida la ley de control que regula las senales de error a 0en regimen permanente. Una vez se ha obtenido el valor deu1, . . . , u8, basta con aplicar la inversa del cambio de variablesrealizado para obtener los cuatro duties en ↵�. Sin embargo,para poder pasarlos de ↵� a abc, es necesario definirlos en elplano �. A pesar de no tener repercusion en la dinamica de unsistema trifasico, sus valores influyen en la saturacion o no delos duties en el plano abc — di j 2 [0, 1] —. En este punto, dossoluciones se han aportado:

Valores de d� j fijos. Realizando un analisis del funciona-miento del sistema en regimen permanente, se determi-nan unos valores de d� j que garantizan que los duties nosaturen.

Valores de d� j variables. Aprovechando este grado de li-bertad adicional, se busca minimizar las conmutacioneshaciendo que uno de los duties para cada fase y nivel val-ga 0. Sin embargo, esta opcion debe considerar una seriede restricciones por materia de seguridad de los disposi-tivos que se traduce en que, ocasionalmente, uno de losduties para cada nivel intermedio (o2 y o4) sera nulo. Losniveles 1 y 5 siempre presentarın un duty igual a 0.

En la figura 12 se muestra las senales de error partiendo deuna situacion de desbalance inicial tanto en simulacion comoen experimentos para distintos valores de k1, k2, k3.

3.2.2. Aplicacion con paneles solaresLa contribucion anterior buscaba ecualizar las tensiones de

los condensadores, pero podrıa darse la situacion donde el in-teres resida en controlar esa diferencia de tensiones segun unosobjetivos dados. Es el caso del artıculo publicado (Robina andGordillo, 2018), donde una serie de paneles fotovoltaicos sonconectados en paralelo a cada uno de los condensadores delDCC (Fig. 13). De esta forma, la tension del condensador es latension de los paneles fotovoltaicos y regulando esta, se puedealcanzar el valor de la tension del punto de maxima potencia(MPP). Para ello, es necesario usar un algoritmo de busquedadel punto de maxima de potencia (MPPT) por cada conden-sador que provea al control de la tension que debe imponeren cada uno de ellos. El conjunto de las 4 referencias deter-minara el valor del dc-link deseado y de las senales de errordeseadas Vr

dp. De esta forma, no se buscara llevar a cero lassenales de error Vdp sino su diferencia con el valor deseadodVdp = Vr

dp � Vdp. Como consecuencia, no se puede asumir

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 6

Figura 12: Senales de error partiendo de una situacion de desbalance inicial para el algoritmo con d� j fijo (Original) como para d� j variable (Modified).

C1

C2

C3

C4

o5

o4

o3

o2

o1

vc1is1

is2

is3

is4

Figura 13: Esquema de paneles solares conectados a los condensadores delDCC

que la tension de los condensadores sean todos iguales y quemk = �2dk1 � dk2 + dk4 + 2dk5, hay que considerar una relacionmas compleja que depende del valor de las senales de error.Igualmente, se trata de una relacion lineal y basta con incluirlaen el cambio de variables. Ademas, en este caso, al haber unaproduccion de potencia en cada uno de los condensadores quepuede ser desigual, la ley de control anterior no garantiza que sealcance error cero en el regimen permanente. Para ello, se debeimplementar un control PI donde el termino integral compenseestos terminos.

0BBBBBBBBBBBBBBBBBBBBBBB@

u3u4u5u6u7u8

1CCCCCCCCCCCCCCCCCCCCCCCA

=

0BBBBBBBBBBBBBBBBBBBBBBB@

i↵ 0 0i� 0 00 i↵ 00 i� 00 0 i↵0 0 i�

1CCCCCCCCCCCCCCCCCCCCCCCA

0BBBBBBBBB@

k1PI(cVd1)k2PI(cVd2)k3PI(cVd3)

1CCCCCCCCCA

. (15)

La figura 14 muestra un esquema del control implementadoy de la configuracion del sistema. En este caso, la eleccion dela d� j se realiza de forma variable, asegurando que los niveles1 y 5 siempre presentan un duty igual a cero. A continuacion,se calcula el lımite del resto de las variables d� j y se reparteequitativamente para garantizar que los niveles 2, 3 y 4 siempreaparezcan. Las figuras 15 y 16 muestran la tension de los con-densadores ante un cambio en el punto de MPP y la potenciaque los paneles generarıan en simulacion, respectivamente.

MPPT

MPPT

MPPT

5 levelConverter

MPPT

Grid

Modulator

vc1, vc2, vc3, vc4

vdc vd1vd2vd3

vc1refvc2refvc3refvc4refvdcref vd1refvd2refvd3ref

Total dc-linkvoltage controller

Capacitor VoltageController

+-

+-

vsa, vsb, vsc

ia, ib, ic

Current Controller

pref

u1, u2

u3�u8

Figura 14: Esquema del sistema utilizado

4. Trabajos en desarrollo

4.1. Balanceo del convertidor DCC de 5 niveles bajo ley deoptimizacion implementada a traves de look-up table

En este trabajo, se formula una ley de optimizacion mixta-entera para la modulacion del convertidor de 5 niveles DCCcomo alternativa al algoritmo de desbalance anteriormente des-crito. En ella el balance de las tensiones de los condensadoresaparecen como restricciones a satisfacer ademas de penalizarel numero de conmutaciones por fase, es decir la cantidad deduties distintos de cero. En resumen, la ley de optimizacion de-termina que duties utilizar en cada fase que satisfagan las con-diciones de balanceo — dVdp

dt · Vdp 0 — a la vez que penalizala existencia de duties distintos de cero.

Debido a la alta cantidad de iteraciones a realizar, esta fun-cion no puede ser implementada online, por lo que se opta por laobtencion desde simulacion de ocho tablas, una por cada com-binacion posible de signos de Vdp donde estas tablas almacenanque duties se hacen igual a cero. Un analisis de los resultadosobtenidos muestra que casi siempre una de las fases este fija aun solo nivel mientras que el resto conmuta unicamente entredos niveles, no necesariamente consecutivos. Con esta infor-macion, el modulador puede determinar el valor de cada uno

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 7

200

250

200

220

180

200

200

250

0.6 0.7 0.8 0.9 1 1.1 1.2 1.3

800

900

v c1

(V)

v c2

(V)

v c3

(V)

v c4

(V)

v dc

(V)

Time (s)

Figura 15: Tensiones de los condensadores y tension de referencia cuando seaplica un cambio en la tension deseada

4.8

4.9

5.0

3.9

4.0

3.2

3.4

3.6

4.2

4.4

4.6

0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3

16.5

17.0

17.5

Pvc1

(kW

)Pvc2

(kW

)Pvc3

(kW

)Pvc4

(kW

)P

tota

l(k

W)

Time (s)

Figura 16: Potencia de los paneles fotovoltaicos cuando se sigue la tension dic-tada por los algoritmos MPPT emulados externos

de sus duties aplicando las restricciones del control de poten-cia/corriente (mk = �2dk1 � dk2 + dk4 + 2dk5). Como variable”ındice”se utiliza el angulo de red ✓ (✓ = tan�1 u�

u↵) para deter-

minar la posicion mas cercana en la look-up table. El esquemadel control utilizado se muestra en la figura 17.

Sin embargo, existen ciertas consideraciones a tener en cuen-ta en la implementacion, ya que podrıa darse el caso de que losduties arrojados no sean implementables de acuerdo a la restric-cion del control de potencia/corriente. En ese caso, se ignoranlos duties indicados por la tabla y se implementan aquellos dosmas cercanos que satisfagan la ley de control.

De la misma forma que en el caso del algoritmo de balan-ce del convertidor CHB, en regimen permanente, las senalesde error estaran muy proximas a 0 cambiando de signo en ca-da muestreo. Nuevamente, esto se traduce en cambios abrup-tos en la componente homopolar que se traduce en la inser-cion de ruido en las corrientes del sistema. Para evitar esto, seintroduce una banda de error ⌫ para las senales de error den-tro de la cual el criterio de la tabla seleccionada se mantienehasta que alguna de las senales la abandone. Como consecuen-cia, las senales de error oscilaran dentro de esta banda pero se

reducira la oscilacion de la componente homopolar. En resu-men, la tabla seleccionada en el periodo anterior se mantienesi V2

d1 + V2d2 + V2

d3 ⌫2, actualizandose conforme a sus signosen caso contrario. La figura 18 muestra experimentalmente latension de los condensadores partiendo de una situacion des-equilibrada para el algoritmo sin banda, mientras que la figura19 muestra los valores de la componente homopolar implemen-tada para ambos casos.

4.2. Balanceo del convertidor DCC de 5 niveles implementa-do con arboles de decision

Este trabajo surge del problema de implementacion del an-terior caso. El uso de las look-up tables acarrea una perdida derobustez considerable cuando las condiciones reales difieren delas utilizadas para generar las tablas. Tanto es ası, que una mo-dificacion en el factor de potencia — desfase entre las corrientesde fase y las tensiones de referencia a modular — hace que laanterior implementacion no sea valida.

La solucion aquı planteada consiste en la utilizacion de va-rias look-up tables bajo distintas condiciones para entrenar unaley de control general implementable a traves de un arbol dedecisiones CART. De esta forma, la implementacion se puederealizar de forma online quedando una solucion mas robusta.Sin embargo, es necesario aplicar el conocimiento experto paraentrenar la ley CART ya que hay que determinar que variablesutilizar como entradas al arbol ademas de asignar pesos de pon-deracion a estas variables.

4.3. Aplicacion de convertidores multinivel modulares (MMC)conectados a red en funcionamiento aislado

Este trabajo pretende resaltar los grados de libertad de unconvertidor MMC con semipuentes H como modulos. De for-ma general, los convertidores MMC utilizan la configuracionde inversor mostrada en la figura 7, donde una fuente de poten-cia continua alimenta al convertidor. Sin embargo, a traves deun estudio de las variables implicadas en el control, se puedenobtener las ecuaciones dinamicas de los lazos de control de lascorrientes presentes en el sistema. Gracias a ello, se obtienen

System

sign(vd1, vd2, vd3)

vs↵, vs�

i↵, i�Power Control

...

LUT 1LUT 2LUT 3

vdc

dc-link voltage pr

Modulator

u↵, u�

Selecteddi j , 0

Selection of

LUT

controller

tan�1

index variable

vrdc

Figura 17: Esquema del control utilizado para la implementacion de la ley deoptimizacion en el convertidor de 5 niveles

Montero-Robina P. / XVII Simposio CEA de Ingeniera de Control y V Seminario de Innovacion Docente en Automatica 1–8 8

140

160

180

200

220

1 2 3 4 5

140

160

180

200

220

Volt

age

(V)

Volt

age

(V)

Time (s)

Figura 18: Evolucion experimental de la tension de los condensadores para elalgoritmo sin banda (arriba) y con una banda ⌫ = 10 (abajo).

-1

0

1

2.18 2.19 2.2 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28

-1

0

1

Time (s)

xval

ue

xval

ue

x

Figura 19: Valores de la componente homopolar implementada para el algorit-mo sin banda (arriba) y con una banda ⌫ = 10 (abajo).

todos sus grados de libertad permitiendo mejorar el funciona-miento del equipo o incorporar nuevas funcionalidades. En estecaso, se considera la supresion de la fuente de DC por un con-densador lo que permitirıa al equipo funcionar de forma aisladaconectada a red como un compensador (STATCOM) o como unrectificador con una carga en el lado de continua.

4.4. Aplicacion de MMC conectados a red aislado con fuenteso cargas distribuidas

Este trabajo es una continuacion del anterior donde apro-vechando todos los grados de libertad se pretende implementarun sistema MMC donde cada uno de los submodulos dispongade una carga o generador individual que puede ser desde unabaterıa hasta un panel solar. Esto supone la necesidad de incluirlazos de control individuales por cada submodulo que podrıanestablecerse de forma matricial dado el posible elevado numerode estos. La principal idea es desacoplar los controles de balan-ceo en varias partes: 1) Balance dentro de cada rama; 2) Balanceentre ramas de la misma fase; 3) Balance entre distintas fases.A su vez, las leyes de control de corriente/potencia deben satis-facerse en todo momento considerando la perdida o excedentede potencia de cada uno de los submodulos.

Existe la posibilidad de que los grados de libertad halladosno sean suficientes para cubrir todos los posibles desbalances.En ese caso, se optarıa por la inclusion de ciertos componen-tes hardware que otorgarıan los grados de libertad restantes. Lamotivacion detras de esta idea es disponer de un sistema capazde controlar varias tensiones de DC de forma simultanea a lavez que vuelca o inyecta potencia a la red electrica. Este aspec-to puede ser interesante para aplicacion de carga de baterıas ocomo interfaz de paneles fotovoltaicos.

Agradecimientos

Este trabajo ha sido financiado bajo la beca MINECO-FEDERDPI2016-75294-C2-1-R. Agradezco tambien el apoyo de la New-castle University por acogerme durante un periodo de estanciainvestigadora.

Referencias

Debnath, S., Qin, J., Bahrani, B., Saeedifard, M., Barbosa, P., Jan 2015. Opera-tion, control, and applications of the modular multilevel converter: A review.IEEE Transactions on Power Electronics 30 (1), 37–53.

Franquelo, L. G., Rodrıguez, J., Leon, J. I., Kouro, S., Portillo, R., Prats, M.A. M., June 2008. The age of multilevel converters arrives. IEEE IndustrialElectronics Magazine 2 (2), 28–39.

Kouro, S., Malinowski, M., Gopakumar, K., Pou, J., Franquelo, L. G., Wu,B., Rodrıguez, J., Perez, M. A., Leon, J. I., Aug 2010. Recent advancesand industrial applications of multilevel converters. IEEE Transactions onIndustrial Electronics 57 (8), 2553–2580.

Lai, J.-S., Peng, F. Z., May 1996. Multilevel converters-a new breed of powerconverters. IEEE Transactions on Industry Applications 32 (3), 509–517.

Montero, P., Gordillo, F., April 2017. A modulation algorithm for inter-phasebalancing in chb converters. In: 2017 11th IEEE International Conferen-ce on Compatibility, Power Electronics and Power Engineering (CPE-POWERENG). pp. 133–138.

Nami, A., Liang, J., Dijkhuizen, F., Demetriades, G. D., Jan 2015. Modularmultilevel converters for hvdc applications: Review on converter cells andfunctionalities. IEEE Transactions on Power Electronics 30 (1), 18–36.

Robina, P. M., Gordillo, F., Aug 2018. A novel controller for grid-interfacingsolar arrays through five-level diode-clamped converters. In: 2018 IEEE18th International Power Electronics and Motion Control Conference(PEMC). pp. 955–961.

Robina, P. M., Umbria, F., Salas, F., Gordillo, F., 2018. Integrated control offive-level diode-clamped rectifiers. IEEE Transactions on Industrial Electro-nics, 1–1.

Rodrıguez, J., Bernet, S., Steimer, P. K., Lizama, I. E., July 2010. A surveyon neutral-point-clamped inverters. IEEE Transactions on Industrial Elec-tronics 57 (7), 2219–2230.

Rodrıguez, J., Bernet, S., Wu, B., Pontt, J. O., Kouro, S., Dec 2007. Multile-vel voltage-source-converter topologies for industrial medium-voltage dri-ves. IEEE Transactions on Industrial Electronics 54 (6), 2930–2945.

Rodrıguez, J., Lai, J.-S., Peng, F. Z., Aug 2002. Multilevel inverters: a surveyof topologies, controls, and applications. IEEE Transactions on IndustrialElectronics 49 (4), 724–738.

Umbrıa, F., Gordillo, F., Salas, F., 2017. Modeling and full decoupling con-trol of a grid-connected five-level diode-clamped converter. Electric PowerComponents and Systems 45 (14), 1585?1598.

http://www.ceautomatica.es/og/ingenieria-de-control

Contributions to Control of Electronic Power Converters

Antonio Ventosa-Cutillasa,⇤, Francisco Gordilloa, Francisco Salasa

aESCUELA TECNICA SUPERIOR DE INGENIERIA, Camino de los Descubrimientos, s/n, 41092 Sevilla, Espana.

Resumen

This paper presents the work done in the thesis “Contributions to Control of Electronic Power Converters”. The thesis is mainlyfocused on two problems: the balancing of the dc-link capacitor voltages in NPC converters, proposing several control methods toapproach the voltage imbalance problem, and the control of DC-DC converters using hybrid control theories.

Regarding the first subject, this thesis presents a new approach to deal with the control of three-level NPC converters. Thecircuit model is formulated in terms of the duty ratios of each phase at each level. This formulation allows to explicitly consider,in the control design stage, the extra degree of freedom associated with the injection of homopolar component. The increase in thenumber of variables does not make the design significantly more di�cult since, with an appropriate change of variables, the dc-linkvoltage and active and reactive power control problems can be formulated in a similar way to other usual approaches. As a result,the voltage balance controller can be easily designed at the same time that an important part of modulation is not needed. The mainadvantage of the proposed law is its simplicity in implementation compared with other reputable methods.

The second subject focusses on the design of a robust switching control law for an uncertain discrete-time switched a�nesystem. In order to cope with model uncertainties, a novel control law is introduced and its parameters result from an optimizationproblem, aiming at reducing the volume of the attractive and invariant set, where the solutions of the closed-loop systems convergeto. The design is based on a quadratic Lyapunov function and guarantees global practical stability and robustness with respect toparameter variations.

Palabras Clave:Electronic Power Converter, Voltage Balancing, Neutral-Point-Clamped Converter, Discrete-Time Switched A�ne System,Robust Control, Lyapunov Analysis, Linear Matrix Inequality.

1. Introduction

A power converter is an electrical or electro-mechanical de-vice for converting electrical energy. This transformation cantake as input alternating current (AC) or direct current (DC)and transform it into AC or DC. It can also transform voltage orfrequency or a combination of both.

One way to classify the converters is according to the inputand the output, in this way we have:

AC to DC (Rectifier).DC to AC (Inverter).DC to DC.AC to AC.On the other hand, the power converters most used nowa-

days are multilevel to the detriment of the classic two level con-verters (2L), this is due to, among other aspects, classic power

⇤Autor en correspondencia.Correos electronicos: [email protected] (Antonio Ventosa-Cutillas),

[email protected] (Francisco Gordillo), [email protected] (Francisco Salas)

converters topologies use high-voltage semiconductors and newconverter topologies use medium-voltage devices. Multileveltopology o↵ered some additional benefits, among those are asuperior harmonic spectrum for a given gate switching frequency,a lower overvoltage stress at cables and end windings of trans-formers/motors, a lower common-mode voltage and substan-tially lower semiconductor switching losses (Teichmann andBernet, 2005). Multilevel voltage source converters also step inas an interesting alternative since they can achieve higher dy-namic performance but without the dv/dt problems and voltagelimit of the classic 2L (Kouro et al., 2010).

Generally, a larger number of voltage levels applied to agiven grid-filter make it decrease the harmonic range of the cur-rent, obtaining a high power quality in the converter’s AC-side.On the other hand, the increase in the number of levels increasesthe complexity of the control (Aurtenechea et al., 2007).

Nowadays, there is a relevant interest for DC-DC convertersdue to their numerous applications in the industry, as for exam-ple in computer power supply, cell phones, appliances, automo-tive, aircraft, etc. These systems can be modeled as switched

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 2

a�ne systems (SASs), which represent a particular nonlinearclass of switched systems. They correspond to a class of hybriddynamical systems consisting of several operating modes rep-resented by continuous-time subsystems and a rule that selectsbetween these modes (Liberzon and Morse, 1999).

1.1. Control Objectives1.1.1. Voltage Balance in Multilevel Power Converters

In the field of power converters, the advantages that mul-tilevel power electronic converters o↵er, in addition to thosementioned above, are well known. Bidirectional power flow,increase of the output voltage magnitude, robustness, etc. areonly some of the advantages that have made multilevel con-verters popular in medium and high power applications in theindustry (Kouro et al., 2010).

Multilevel converter technology started with the introduc-tion of the multilevel stepped waveform concept with a series-connected H-bridge, which is also known as cascaded H-Bridgeconverter, in the late 1960s (McMurray, 1971). This same year,was developed a Flying Capacitor topology (Dickerson and Ot-taway, 1971). In the late 1970s, the diode-clamped converter(DCC) (Baker, 1981) was first introduced. The DCC conceptevolved into the three-level NPC (3L-NPC) converter we knowtoday as it was proposed in (Nabae et al., 1981). This converterwas based on a modification of the classic two-level convertertopology adding two new power semiconductors per phase. Thesethree multilevel converter topologies, neutral-point-clamped (NPC),cascaded H-bridge (CHB) and flying-capacitor (FC), could beconsidered now as traditional multilevel topologies, that areused in several industrial applications (Steimer, 2007):

• Power distribution control and management: Flexible ACTransmission Systems (FACTS) as active filters (AFs),static compensators (STATCOM) (Cheng et al., 2006).

• Traction applications: Train Traction, Ship Propulsion,and Automotive Applications (Carpita et al., 2008).

• Energy Generation, Conversion, and Transmission (Suulet al., 2008).

• Uninterruptible power supply (UPS) systems (Guerreroet al., 2007).

However, despite their good features, they have not been ex-tended significantly at commercial level. This is probably dueto problems such as reliability, e�ciency or control complexity.

Apart from the usual control objectives in power convert-ers (Rodrıguez et al., 2013), namely total harmonic distortion(THD), total DC- link voltage, number of commutations or ac-tive and reactive powers, NPC converters present an additionalobjective, that is the voltage balance between capacitors. Neutral-point-clamped converter is one of the most used multilevel con-verter topologies. Operating in rectifier mode, the dc-link volt-age is obtained as the addition of the voltage that drops acrossthe capacitors. This voltage must be balanced between the ca-pacitors, otherwise this can result in poor output voltage quality,a↵ecting the performance of the control or even damaging thesemiconductor devices.

1.1.2. Hybrid Control in DC-DC ConvertersIn the control of DC-DC converters, there are many works

found in the literature in continuous time to control the switcheda�ne systems (SASs) by a min-projection strategy (Albea et al.,2015), even for systems with a general nonlinear form (Lu andZhang, 2017). In these works the provided controllers are good,but may lead to arbitrarily fast switching control.

In some applications when discretizing these systems, if thesample time is very low, several problems may appear to assessstability, because of numerical issues. The use of the �-operatorpresents a great advantage in the design of controllers with veryfast sampling times.

Because of all this, there is an interest in modeling a DC-DC converter in discrete-time by using the �-operator and con-trolling the system with a well-known min-projection strategy.This control can be based on a Lyapunov function or can berelaxed to obtain less conservative results.

2. Three Level Modelling

In the modelling of power converters, it is usual to workwith averaged models where the discrete values of the gating el-ements are considered as continuous signals (Busquets-Mongeet al., 2008). In order to implement the control laws obtainedwith such models, a discretization stage, usually called modu-lation for extension of the well-known carrier-based pulse widthmodulation (CB-PWM) method, needs to be implemented (Holmesand Lipo, 2003). Modulation plays an important role in theoverall system performance since properties such as number ofcommutations and harmonic distortion of currents and voltagesare a↵ected by the way modulation is carried out.

In this chapter, the circuit model is formulated in terms ofthe duty ratios of each phase at each level. In this way, thereare nine duty cycle variables (three duty cycles per phase) in-stead of just three (one duty cycle per phase). It is shown thatthis formulation allows to explicitly consider, in the control de-sign stage, the extra degree of freedom associated with the in-jection of homopolar component. The increase in the numberof variables does not make the design significantly more di�-cult since, with an appropriate change of variables, the dc-linkvoltage and active and reactive power control problems can beformulated in a similar way to other usual approaches.

As a result, the voltage balance controller can be easily de-signed at the same time that an important part of modulationis not needed. For this, the proposed approach can be consid-ered as a control method with implicit modulator (Leon et al.,2016), and in what follows it is called “Integrated Control andModulation” (ICM).

2.1. Dynamic Model of the SystemThe three-level converter circuit is shown in Fig. 1. In this

figure, the converter is in rectifier mode, where the electricalpower grid is considered as a three-phase voltage source, andwhere the phase voltages are represented by vsa, vsb and vsc.The converter is connected to the grid through an inductive filterwhere inductances have the same value L.

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 3

On the dc-link side, capacitors have the same value C andtheir voltages are denoted by vc1 and vc2. Connected to the con-verter terminals there is a resistive load R. The total dc-linkvoltage is defined as vdc = vc1 + vc2.

Figure 1: squematic diagram of the three-phase three-level NPC rectifier

The switches S ij, are Insulated Gate Bipolar Transistors (IG-

BTs), where i indicates each of the three phases and j indicatesthe switch number. S i

j represents the inverted signal of S ij. Due

to this configuration, there are only allowed combinations ofthe states of each switch, the rest are destructive or potentiallydestructive. Table 1 shows the permitted combinations of theswitches for phase a, the phases b and c have the same possiblecombinations.

Table 1: Switching states of the three-level NPC converter

S 1a S 2

a S 1a S 2

a va

Closed Closed Open Open vc1

Open Closed Closed Open 0

Open Open Closed Closed �vc2

The model considered in the thesis is described in (Umbriaet al., 2014). This model uses the equations in ↵�� coordinatesby introducing the power-invariant form of the Clarke Trans-form. Furthermore, the switching signals have been replaced bytheir respective duty ratios in each level (Alepuz et al., 2006),di j with i = ↵, �, � and j = p, o, n (positive, zero and negativelevels). This formulism yields

Ldi↵dt

= vs↵ � (d↵p � d↵n)vdc

2� (d↵p + d↵n)

vd

2(1)

Ldi�dt

= vs� � (d�p � d�n)vdc

2� (d�p + d�n)

vd

2(2)

Cdvdc

dt= (d↵p � d↵n)i↵ + (d�p � d�n)i� � 2

vdc

R(3)

Cdvd

dt= (d↵p + d↵n)i↵ + (d�p + d�n)i�, (4)

where vd is the dc-link capacitor voltage di↵erence defined byvd = vc1 � vc2. The control inputs d↵p, d↵n, d�p and d�n are theduty ratios in ↵�� coordinates.

It should be remarked that the duty ratios in abc coordinatesare subject to the following constraints

dap + dao + dan = 1 (5)

dbp + dbo + dbn = 1 (6)dcp + dco + dcn = 1 (7)

di j 2 [0, 1], for i = a, b, c and j = p, o, n.Expressing (1)–(4) in terms of p and q, denoting f as the

frequency of the grid and ZL = 2⇡ f L as the inductive reac-tance, equations (8)–(11) are obtained, which represent the sys-tem model in terms of instantaneous powers.

3. Three Level Control

3.1. Instantaneous Power ControllerObserving equations (8)–(9), two virtual control variables

can be defined as

u1 = d↵p � d↵n (12)

u2 = d�p � d�n. (13)

Introducing these variables into the model and assuming thatthe value of variable vd is small enough to be neglected, theactive and reactive power dynamics can be expressed by

Ldpdt

' v2s↵ + v2

s� + ZL q �⇣u1vs↵ + u2vs�

⌘ vdc

2(14)

Ldqdt

' �ZL p +⇣u1vs� � u2vs↵

⌘ vdc

2. (15)

These expressions are equivalent to the instantaneous power dy-namics of the conventional two-level converter (Umbria et al.,2014). Thus, implementing a DPC strategy (Rodriguez et al.,2010), the virtual control variables are defined by

u1 = uz1 + kpvs↵ (p � pr) + kpivs↵

Z t

0

(p � pr) d⌧

� kqvs� (q � qr) � kqivs�

Z t

0

(q � qr) d⌧ (16)

u2 = uz2 + kpvs� (p � pr) + kpivs�

Z t

0

(p � pr) d⌧

+ kqvs↵ (q � qr) + kqivs↵

Z t

0

(q � qr) d⌧, (17)

where design parameters kp, kq, kpi and kqi are the proportionaland integral gains of the controller; the instantaneous active andreactive powers references are defined, respectively, by pr andqr, and terms uz

1 and uz2 are defined by

uz1 =

2vdc

0BBBBB@

0BBBBB@1 +

ZL qv2

s↵ + v2s�

1CCCCCA vs↵ +

ZL pv2

s↵ + v2s�

vs�

1CCCCCA (18)

uz2 =

2vdc

0BBBBB@

0BBBBB@1 +

ZL qv2

s↵ + v2s�

1CCCCCA vs� �

ZL pv2

s↵ + v2s�

vs↵

1CCCCCA .(19)

They both represent the specific values of the virtual controlvariables such that, when they are applied to the system beingu1 = uz

1 and u2 = uz2, the instantaneous powers are constant.

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 4

Ldpdt

= v2s↵ + v2

s� + ZL q �⇣⇣

d↵p � d↵n⌘

vs↵ +⇣d�p � d�n

⌘vs�⌘ vdc

2�⇣⇣

d↵p + d↵n⌘

vs↵ +⇣d�p + d�n

⌘vs�⌘ vd

2(8)

Ldqdt

= �ZL p +⇣⇣

d↵p � d↵n⌘

vs� �⇣d�p � d�n

⌘vs↵⌘ vdc

2+⇣⇣

d↵p + d↵n⌘

vs� �⇣d�p + d�n

⌘vs↵⌘ vd

2(9)

Cdvdc

dt=

1v2

s↵ + v2s�

⇣d↵p � d↵n

⌘ ⇣vs↵p � vs�q

⌘+

1v2

s↵ + v2s�

⇣d�p � d�n

⌘ ⇣vs�p + vs↵q

⌘� 2

vdc

R(10)

Cdvd

dt=

1v2

s↵ + v2s�

⇣d↵p + d↵n

⌘ ⇣vs↵p � vs�q

⌘+

1v2

s↵ + v2s�

⇣d�p + d�n

⌘ ⇣vs�p + vs↵q

⌘(11)

3.2. Total DC-Link Voltage ControllerIn order to maintain constant the dc-link voltage and close

to its reference (vrdc), as usual, a specific PI controller is used

(Rodriguez et al., 2010; Umbria et al., 2014),

pr = kdcp

⇣vr

dc2 � v2

dc

⌘+ kdc

i

Z t

0

⇣vr

dc2 � v2

dc

⌘d⌧, (20)

where constants kdcp and kdc

i are controller tuning parameters.

3.3. Voltage Balance ControllerThe objective of the voltage balance controller is to keep

the state variable vd close to zero, avoiding the unbalance of thedc-link capacitor voltages and is based on the definition of twonew virtual control variables

u3 = d↵p + d↵n (21)

u4 = d�p + d�n. (22)

Introduction of (21)–(22) into (11) yields

Cdvd

dt=

vs↵p � vs�qv2

s↵ + v2s�

u3 +vs�p + vs↵q

v2s↵ + v2

s�u4. (23)

Taking into account (23), the proposed control laws (Um-bria et al., 2014) are defined as follows

u3 = kdvs↵p � vs�q

p2 + q2

⇣vr

d � vd⌘

+ kdivs↵p � vs�q

p2 + q2

Z t

0

⇣vr

d � vd⌘

d⌧ (24)

u4 = kdvs�p + vs↵q

p2 + q2

⇣vr

d � vd⌘

+ kdivs�p + vs↵q

p2 + q2

Z t

0

⇣vr

d � vd⌘

d⌧, (25)

where positive constants kd and kdi are customary tuningparameters. The reference for vd is denoted by vr

d, which is setto zero to ensure a balanced distribution of the dc-link voltageacross capacitors C1 and C2.

By introducing (24)-(25) into (23), the voltage balance dy-namics become linear, whose stability is assured provided thatparameters kd and kdi are positive.

3.4. Integrated Control and ModulationThe controller presented in the previous section provides,

at each sampling time, the values for u1, u2, u3 and u4. Thecorresponding values for d↵p, d↵n, d�p and d�n can be obtainedsolving the system of equations (12)–(13) and (21)–(22).

In order to compute the actual duty ratios di j, i = a, b, c; j =p, n, the Clarke transformation can be used

2666666664

da jdb jdc j

3777777775 =r

23

26666666666666666666666664

1 01p2

�12

p3

21p2

�12�p

32

1p2

37777777777777777777777775

2666666664

d↵ jd� jd� j

3777777775 , j = p, n. (26)

where d�p and d�n are remaining degrees of freedom. The dutyratios dao, dbo and dco can be computed using (5)–(7).

3.4.1. ICM1The first variant, ICM1, was proposed in (Umbria et al.,

2014). In this variant, d�p and d�n are chosen to be constant andcan be considered tuning parameters. In (Umbria et al., 2014)guidelines are given in order to avoid saturation problems. Thisapproach is a simple way to accomplish the modulation but itpresents an important drawback: except by chance, none of thedi j will result in zero. This implies that, in each sampling time,each phase commutes among the three levels, which can beconsidered too many commutations compared with other con-trollers, even those including voltage balancing. This fact couldyield large switching losses.

3.4.2. ICM2In order to avoid the large number of commutations, a new

variant is proposed. This variant, takes advantage of the twodegrees of freedom associated with d�p and d�n imposing, ateach sampling period, one dip and one din to be zero. The resultis that these two phases only switch between two levels. Oneof them only switches between zero and the positive level andthe other one only switches between zero and the negative level.The remaining phase commutes among the three levels.

In order to select the phases that commute only betweentwo levels, the procedure checks if setting one of the di j, i =a, b, c; j = p, n to zero yields to the fulfillment of the constraints

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 5

0 di j 1 for the rest of duty cycle variables. Starting withthe case dap = 0, Eq. (26) for j = p can be considered as aset of equations, where d↵p, d�p are known, dap = 0 and dbp, dcpand d�p are the unknowns. The resultant system of equationscan be solved in order to check if this case is feasible, that is,if dbp and dcp are in the interval [0, 1]. Repeating to the otherphases, three di↵erent cases have to be analyzed for j = p andother three cases for j = n.

The resultant duty ratios for the considered sampling instantare the corresponding to one of the feasible cases, that is, caseswhere all the duty cycles are in the interval [0, 1]. In the thesis,it is shown that, at every instant , there exist at least one (andapart from some border cases, only one) feasible case.

3.4.3. ICM3For this new variant, we again use the degree of freedom

associated with the component � of the reference voltage, ad-dressing the problem of the voltage balance from the modula-tion stage. The components u↵ and u� of the reference voltageare assumed to be known and calculated by an external con-troller as used in section 3.1 (u↵ and u� correspond to u1 andu2 in that section). Based on inverse Clarke transformation ofcoordinates abc to ↵�� expressed like (26) and known compo-nents u↵ and u�, it is possible to calculate the components of thereference voltage in coordinates abc as a function of u�.Thus, equations (27)-(29) are obtained,

ua =

r23

u↵ +1p3

u� = ⌘a (27)

ub = � 1p6

u↵ +1p2

u� +1p3

u� = ⌘b + x (28)

uc = � 1p6

u↵ �1p2

u� +1p3

u� = ⌘c + x (29)

Where x has the constant definition x .=1p3

u�.

Notice that in these expressions, x depends only on u�, while⌘a, ⌘b and ⌘c depend on u↵ and u�. Notice also that the value ofx will be between a maximum and a minimum value. To cal-culate these maximum and minimum values, it is necessary tocalculate the values of ⌘a, ⌘b and ⌘c at each sampling time andsort them so that ⌘1 is the lowest and ⌘3 the highest . Thus, it ispossible to obtain

xmin = �1 � ⌘1 (30)

xmax = 1 � ⌘3 (31)

Equations (27)-(29) correspond to the well-known fact that thehomopolar component provides an associated degree of fredom(Lopez et al., 2016). The equations (27)-(29) correspond tothree parallel lines like those shown in Fig. 2. In this figure,the horizontal lines for uabc = {�1, 0, 1} represent the three im-plementable states for the case of a three-level converter.

In this figure it is possible to observe how the xmin corre-sponds to the maximum value of which one of the three linescorresponding to ua, ub or uc crosses the line that passes through

Figure 2: Example of achievable phase levels for u↵=1 and u�=0.5

level -1. In this way, the xmax corresponds to the minimumvalue of which one of the three lines corresponding to ua, ubor uc crosses the line that passes through level 1. The feasibilitycondition of this method is that xmin < xmax.

Expressing the equation (4), which governs the voltage dif-ference between the capacitors, in abc coordinates, we obtain

Cdvd

dt= ia(dap + dan) + ib(dbp + dbn) + ic(dcp + dcn) (32)

As can be seen, the equation depends on the duty cycles of eachphase at a positive and negative level. Imposing one of theseduties to be zero and taking into account that the definition ofthe components of the reference voltage is expressed as ui =dip � din with i = a, b, c., the equation (32) can be expressed as

Cdvd

dt= ia |ua| + ib |ub| + ic |uc| (33)

Based on this equation, this method focuses on minimizingthe function sign(vd)(ia |ua|+ ib |ub|+ ic |uc|), where the functionsign(vd) returns 1 when vd is higher than zero, 0 when vd isequal to zero and -1 when vd is lower than zero.

The proposed optimization problem turns out to be linear insections, so it is enough to evaluate the cost function in a lim-ited number of points and choose the smaller of them. Thesepoints correspond to the limits xmin and xmax and, if they are be-tween xmin and xmax, the points where the three lines generatedby (27)-(29) are cancelled.

Thus, forming a set of functions sign(vd)(ia |ua| + ib |ub| +ic |uc|) calculated with (27)-(29), it will be necessary to choosethe one that is smaller in function of x. With this optimal valuex⇤ it is possible to obtain the components of the reference volt-age in coordinates abc according to (27)-(29).

Once these components have been obtained, they must bediscretized by rounding to the nearest smallest integer and cal-culating their duty cycles.

3.5. Experimental ResultsThis section presents the experimental results obtained in

the laboratory. To this end, a three-level NPC converter hasbeen configured as rectifier with the same circuit as Fig. 1 andcontrol parameters as those provided in Table 2.

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 6

Table 2: Simulation Parameters

Parameter Value Parameter Valuefgrid 50 Hz fs 10 kHzvsa, vsb, vsc 230 VRMS fsw 10 kHzL 2 mH kp, kq 1.5 · 10-7

C 3300 µF kpi, kqi 5 · 10-5

R 120! 60! 120 ⌦ kd 0.1vr

dc 700! 800 V kdi 1 · 10-2

kdcp 0.05 kdc

i 1

In Fig. 3, the evolution of the capacitor voltages, startingfrom a situation of unbalance, is represented. This figure showsthe e↵ectiveness of the control law to balance the capacitorvoltages compared with the same approach when the balanc-ing control is deactivated. It can be easily seen that, when nobalancing control is activated, the capacitors tend to equalize ata very slow rate which a↵ects the current control performanceduring all this time period.

Figure 3: Experimental results: evolution of the capacitor voltages starting froman imbalanced condition, considering ICM1, ICM2 and ICM3. The dashedlines refers to no-balancing control and the dash-dotted to the capacitor voltagereference.

Applying ICMs, the switching state of phase a can be seenin Fig. 4. In this figure it is shown that, for the ICM1 case, italways switches between the three levels, positive (p), negative(n) and zero (o), while for ICM2 and ICM3, this phase oftenonly commutes between two levels. These data allow compar-ison between the number of commutations per period for eachcontrol law, yielding 800 commutations at 10 kHz in a grid pe-riod in ICM1, 527 in ICM2 and 265 in ICM3.

Regarding the computational burden, the execution timesare one seventh for ICM1 and ICM2 and one fourth for ICM3of the time spent for the equivalent stage by a virtual space vec-tor technique modified to balance the voltage in the capacitors(Choudhury et al., 2016), showing the simplicity of the meth-ods presented compared to (Choudhury et al., 2016). Compar-ing with this same law, the values obtained from THD demon-strate another advantage of the proposed laws, obtaining 5.1%,4.1% and 5.4% of THD in ICM1, ICM2 and ICM3 respectively

1

Switc

hing

Stat

esSw

itchi

ngSt

ates

Switc

hing

Stat

es

Time (s)

Figure 4: Experimental results: switching states of phase a (solid) and its aver-aged value (dashed), considering ICM1 (top), ICM2 (mid) and ICM3 (bottom).

against 5.1% of (Choudhury et al., 2016).

4. Hybrid Control Problem

Inspired by the work in (Deaecto and Geromel, 2017), wefocus on the following class of discrete switched a�ne systems:

zk+1 = A�zk + B� (34)

where zk 2 Rn is the state, and A� and B� present suited dimen-sions. The control action is performed through the switchingsignal � 2 K := {1, 2, ...,N}, which may be only modified atsampling instants tk, with k 2 N. The length of the samplinginterval tk+1 � tk = T is assumed to be constant and known.

This part of the thesis focuses on the design problem of afeedback law for the periodic switching signal �, in such away as to ensure suitable practical convergence properties of theplant state zk to a neighborhood of the target given by ze, whichis not necessarily an equilibrium of the dynamics in (34), butcan be obtained as an equilibrium for the switched system witharbitrary switching. A necessary and su�cient condition char-acterizing this equilibrium is then represented by the followingstandard assumption (Deaecto and Geromel, 2017).

Assumption 1. There exists � = [�1, �2, ..., �N] satisfyingP

i2K �i =1 and �i � 0, for all i 2 K, such that the following equalityholds:

X

i2K�i((Ai � I)ze + Bi) = (A� � I)ze + B� = 0. (35)

where A� :=P

i2K �iAi and B� :=P

i2K �iBi.

Remark 1. It is emphasized that Assumption 1 is both nec-essary and su�cient for the existence of a suitable switchingsignal ensuring forward invariance of the point ze (namely in-ducing an equilibrium at ze) when understanding solutions in

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 7

the generalized sense of Krasovskii or Filippov. Indeed, under(35), we can conclude that the error equation of (34) is:

xk+1 = A�xk + B�. (36)

with xk := zk � ze and B� := (A� � I)ze + B�, has x = 0 as anequilibrium when the convex combination of Assumption 1 isused, since

B� :=X

i2K�iBi = 0 (37)

yWhen considering such switching a�ne systems, asymptoticstability to zero is in general not possible. Therefore one has torelax the control objectives and to consider attractor sets, whichare not necessarily reduced to the equilibrium set. In the thesis,we will consider an estimation of the attractive set, which isdefined by a level set of a Lyapunov function given by

V(x, xc) = (x � xc)>P(x � xc) (38)

where P is a positive definite matrix, and xc is a vector thatallows to shift the centre of the level set. Then, we introducethe setA given by

A := {x 2 Rn, V(x, xc) 1} (39)

In the sequel, the objective is to ensure the invariance and at-tractiveness of the set A, which corresponds to the followingproblem.

5. Hybrid Switching control

In this section, we propose a novel stabilization theorembased on a relaxed control law, which notably di↵ers from theclassical Lyapunov matrix-based min-projection control law de-veloped in (Deaecto and Geromel, 2017), for instance.

This is formalized in the following theorem.

Theorem 1. For the linear combination � related to Assump-tion 1 and for any given parameter 0 < µ < 1, assume thatmatrices P 2 Rn⇥n � 0, h 2 Rn, and Ni 2 Rn⇥n are the solutionto the convex optimization problem

minP,h,Ni

log (det(P)), (40)

s.t. P � 0, (41)2666666664 i + N��Ni �

"0 0⇤ µ

"Ph>

#

�µP

3777777775 � 0,8i 2 K, (42)

where

i :="Ai Bi0 1

#>" P hh> 0

# "Ai Bi0 1

#�"

P hh> 0

#. (43)

N� :=X

i2K�iNi (44)

Consider the following switching control law given by

�k = argmini2K

"xk1

#>Ni

"xk1

#. (45)

Then, the following properties are ensured

(i) if xk is not inA at any given time instant k, then the forwardincrement of the Lyapunov function, �V(xk), is negativefor system (36) with the control law (45).

(ii) the equilibrium x = 0 belongs toA.

(iii) if xk belongs to A at any given time instant k, then xk+1also belongs toA, under the dynamics of (36).

The main motivation of maximizing log(det(P)) is related tothe minimization of the volume of the invariant set A throughthe minimization of eigenvalues of the positive definite ma-trix P. Indeed, the volume of the ellipsoid characterized byV(x, xc) 1 is proportional to det(P)1/2. In the sequel, theevaluation of performance will be based on the minimum valueof det(P)1/2, obtained in several situations.

Taking the example 1 given in (Deaecto and Geromel, 2017)in order to compare the controller proposed here, the numericalresults obtained by solving the conditions of Theorem 1 for agiven value of µ, showed that det(P)1/2 = 38.7 in Theorem 1against 59.9 in (Deaecto and Geromel, 2017). This means areduction in volume of 32%.

Let us now assume that the matrices Ai, Bi are subject toparameter uncertainties, that are, for the sake of simplicity, ex-pressed as polytopic type of uncertainties. This means that

hAi, Bi

i2 Co

⇣hAj

i , Bji

i⌘j2D , (46)

where D is a bounded subset of N, and where matrices Aji and

Bji , for any i 2 K and any j 2 D, are constant and known. In

this context, the following theorem holds.

Theorem 2. For the linear combination � related to Assump-tion 1 and for any given parameter 0 < µ < 1, assume thatmatrices P 2 Rn⇥n � 0, h 2 Rn, and Ni 2 Rn⇥n are the solutionto the convex optimization problem

minP,h,Ni

log (det(P)), (47)

s.t. P � 0, (48)2666666664

ji + N��Ni �

"0 0⇤ µ

"Ph>

#

⇤ �µP

3777777775 � 0, (49)

holds for any (i, j) 2 K ⇥ D, where

i j :="Aj

i Bji

0 1

#>" P hh> 0

# "Aj

i Bji

0 1

#�"

P hh> 0

#. (50)

Then, the switching control law is given by

�k = argmini2K

"xk1

#>Ni

"xk1

#(51)

and the properties (i), (ii) and (iii) are ensured. ⇤

Antonio Ventosa-Cutillas / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 8

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.20

50

100

150

Figure 5: Evolution of (det(P))�12 with unstructured matrices Ni’s (solid) in

(51), and with the Lyapunov matrix-based control law (Deaecto and Geromel,2017) (dashed).

Now, let consider the following System (34) composed bythree functioning modes:

A1 =

"0 0.15 + ��0.35 �1

#, B1 =

"1

0.35

#,

A2 =

"0.24 0.15 + ��2.35 �1

#, B2 =

"�1�0.35

#,

A3 =

"�0.24 0.15 + ��2.35 �0.5

#, B3 =

"0.051.5

#,

(52)

where � is an unknown, possibly time-varying perturbationto the system, which is only assumed to be bounded by a knownparameter �, such that |�| �. The desired equilibrium is ze =[0.1 0.2]T with � = [0.36 0.3 0.34].

From Theorem 2, we compute the corresponding matricesP, Ni with i = 1, 2, 3 and µ, for several values of � 2 [0, 0.2].Figure 5, shows the evolution of the volume of A with respectto �with control (51) and with the control given in (Deaecto andGeromel, 2017). It can first be seen that increasing upper boundof the uncertainty � implies a natural increase of the size of(det(P))�

12 , which, again, represents the volume of the invariant

set A. Moreover, it can be seen that the use of the relaxed andunstructured control matrices Ni provides a lower volume thanthe one of the Lyapunov matrix-based controller.

Agradecimientos

This work has been funded under grants MINECO-FEDERDPI2013-41891-R and DPI2016-75294-C2-1-R.

References

Albea, C., Garcia, G., Zaccarian, L., 2015. Hybrid dynamic modeling and con-trol of switched a�ne systems : application to DC-DC converters. In: 54thIEEE Conference on Decision and Control. pp. 2264–2269.

Alepuz, S., Busquets-Monge, S., Bordonau, J., Gago, J., Gonzalez, D., Balcells,J., oct 2006. Interfacing Renewable Energy Sources to the Utility Grid Usinga Three-Level Inverter. IEEE Trans. Ind. Electron. 53 (5), 1504–1511.

Aurtenechea, S., Rodriguez, M. A., Oyarbide, E., Torrealday, J. R., 2007. Pre-dictive direct power control of MV-grid-connected two-level and three-levelNPC converters: Experimental results. In: 2007 European Conference onPower Electronics and Applications, EPE.

Baker, R. H., 1981. High-voltage converter circuit.Busquets-Monge, S., Ortega, J., Bordonau, J., Beristain, J., Rocabert, J., may

2008. Closed-Loop Control of a Three-Phase Neutral-Point-Clamped In-verter Using an Optimized Virtual-Vector-Based Pulsewidth Modulation.IEEE Transactions on Industrial Electronics 55 (5), 2061–2071.

Carpita, M., Moser, D., Marchesoni, M., Pellerin, M., 2008. Multilevel con-verter for traction applications: Small-scale prototype tests results. IEEETransactions on Industrial Electronics 55 (5), 2203–2212.

Cheng, Y., Qian, C., Crow, M. L., Pekarek, S., Atcitty, S., 2006. A comparisonof diode-clamped and cascaded multilevel converters for a STATCOM withenergy storage. IEEE Transactions on Industrial Electronics 53 (5), 1512–1521.

Choudhury, A., Pillay, P., Williamson, S. S., sep 2016. DC-Bus Voltage Bal-ancing Algorithm for Three-Level Neutral-Point-Clamped (NPC) TractionInverter Drive With Modified Virtual Space Vector. IEEE Transactions onIndustry Applications 52 (5), 3958–3967.

Deaecto, G., Geromel, J., 2017. Stability analysis and control design ofdiscrete-time switched a�ne systems. IEEE Transactions on AutomaticControl 62 (8), 4058–4065.

Dickerson, J. A., Ottaway, G., aug 1971. Transformerless power supply withline to load isolation.

Guerrero, J., De Vicuna, L., Uceda, J., 2007. Uninterruptible power supplysystems provide protection. IEEE Industrial Electronics Magazine 1 (1), 28–38.

Holmes, D. G., Lipo, T. A., 2003. Pulse Width Modulation for Power Convert-ers: Principles and Practice. Wiley.

Kouro, S., Malinowski, M., Gopakumar, K., Pou, J., Franquelo, L., Wu, B.W. B., Rodriguez, J., Perez, M., Leon, J., 2010. Recent Advances and Indus-trial Applications of Multilevel Converters. IEEE Transactions on IndustrialElectronics 57 (8), 2553–2580.

Leon, J. I., Kouro, S., Franquelo, L. G., Rodriguez, J., Wu, B., may 2016. TheEssential Role and the Continuous Evolution of Modulation Techniques forVoltage-Source Inverters in the Past, Present, and Future Power Electronics.IEEE Transactions on Industrial Electronics 63 (5), 2688–2701.

Liberzon, D., Morse, A. S., 1999. Basic Problems in Stability and Design ofSwitched Systems. IEEE Control Systems 19 (5), 59–70.

Lopez, I., Ceballos, S., Pou, J., Zaragoza, J., Andreu, J., Kortabarria, I.,Agelidis, V. G., 2016. Modulation Strategy for Multiphase Neutral-Point-Clamped Converters. IEEE Transactions on Power Electronics.

Lu, Y., Zhang, W., 2017. A piecewise smooth control-Lyapunov functionframework for switching stabilization. Automatica 76, 258–265.

McMurray, W., may 1971. Fast response stepped-wave switching power con-verter circuit.

Nabae, A., Takahashi, I., Akagi, H., 1981. A New Neutral-Point-ClampedPWM Inverter. IEEE Transactions on Industry Applications IA-17 (5), 518–523.

Rodriguez, J., Bernet, S., Steimer, P. K., Lizama, I. E., jul 2010. A Survey onNeutral-Point-Clamped Inverters. IEEE Transactions on Industrial Electron-ics 57 (7), 2219–2230.

Rodrıguez, J., Kazmierkowski, M. P., Espinoza, J. R., Zanchetta, P., Abu-Rub,H., Young, H. A., Rojas, C. A., 2013. State of the art of finite control setmodel predictive control in power electronics. IEEE Transactions on Indus-trial Informatics 9 (2), 1003–1016.

Steimer, P., 2007. High power electronics, trends of technology and applica-tions. In: PCIM’07. Nuremberg.

Suul, J., Uhlen, K., Undeland, T., 2008. Variable speed pumped storage hy-dropower for integration of wind energy in isolated grids: case descriptionand control strategies. In: Nordic Workshop on Power and Industrial Elec-tronics.

Teichmann, R., Bernet, S., 2005. A comparison of three-level converters versustwo-level converters for low-voltage drives, traction, and utility applications.IEEE Transactions on Industry Applications 41 (3), 855–865.

Umbria, F., Gordillo, F., Salas, F., oct 2014. Model-based NPC Converter Reg-ulation for Synchronous Rectifier Applications. Proceedings, IECON 2014- 40th Annual Conference of the IEEE Industrial Electronics Society, 4669–4675.

http://www.ceautomatica.es/og/ingenieria-de-control

Implementación de controladores predictivos en sistemas embebidos

Pablo Krupa, Daniel Limon, Teodoro Alamo

Departamento de Ingeniería de Sistemas y Automática, Universidad de Sevilla.

Resumen

Este trabajo presenta los avances realizados hasta la fecha para la implementación de controladores predictivos basados enmodelo (MPC) en sistemas embebidos. Concretamente, se presenta una implementación de un controlador MPC en un autómataprogramable (PLC) usando los lenguajes estandarizados para PLCs recogidos en la norma IEC 61131-3. El problema de optimiza-ción del cual se deriva la acción de control se resuelve en línea usando un algoritmo gradencial.

Palabras Clave: Control predictivo, Sistemas embebidos, Métodos gradenciales

1. Introducción

El control predictivo basado en modelo (MPC) es una téc-nica de control en la que la acción de control se obtiene de laresolución de un problema de control óptimo de tiempo finitocon horizonte deslizante (Camacho and Alba, 2013). Esta téc-nica de control es usada en sectores industriales tales como laindustria química o la del petróleo, debido a su gran utilidadpara el control de sistemas multivariables con restricciones.

Dada la complejidad del problema de optimización que sedebe resolver en cada tiempo de muestreo, la implementaciónde controladores MPC no suelen realizarse en sistemas embe-bidos, dados sus limitados recursos computacionales y de me-moria.

Numerosas formulaciones de controladores MPC se puedenexpresar como problemas de programación cuadrática (QP) su-jetos a restricciones. En tal caso, avances recientes en algorit-mos de resolución de estos problemas se pueden aplicar a laresolución del MPC. Concretamente, en lo que concierne a laimplementación de controladores MPC en sistemas embebidos,cabe destacar el desarrollo de herramientas de generación auto-mática de código para la resolución eficiente de problemas QP,tales como FiOrdOs (Ullmann, 2011), CVXGEN (Mattingleyand Boyd, 2012) y µAO-MPC (Zometa et al., 2013).

La mayoría de estas herramientas generan código en C/C++para la resolución de problemas QP genéricos. Es decir, no ex-plotan la estructura específica del problema QP que se derivadel MPC.

En este trabajo presentamos una herramienta de generaciónautomática de código de controladores MPC para sistemas em-

Correos electrónicos: (Pablo Krupa),(Daniel Limon), (Teodoro Alamo)

bebidos. El controlador generado consta de una serie de ele-mentos adicionales al propio MPC que dotan al controlador delas características necesarias para su implementación en con-diciones industriales reales. La resolución del problema QP serealiza usando un algoritmo gradencial llamado FISTA (Beckand Teboulle, 2009).

Actualmente, la herramienta se centra en el desarrollo decódigo para autómatas programables (PLC). Sin embargo, elalgoritmo generado podría ser igualmente generado para otrossistemas embebidos, tales como microcontroladores o FPGAs.

Los PLC son computadores robustos usados para la imple-mentación de lazos de control en el sector industrial. Están dise-ñados para aguantar las severas condiciones que se pueden daren un entorno industrial, tales como altas temperaturas o vibra-ciones. Sin embargo, suelen estas caracterizados por sus bajosrecursos computacionales y de memoria. Su programación serealiza usando unos lenguajes de programación específicos pa-ra PLC que se recogen en la norma IEC 61131-3.

A pesar de que los PLC de alta gama son capaces de eje-cutar tareas programadas en C, la herramienta que se muestraen este trabajo genera tareas programadas usando los lenguajesnormalizados en el IEC 61131-3 para que puedan ser usados encualquier PLC.

El artículo se estructura de la siguiente forma. En la sec-ción 2 se muestra la arquitectura del controlador. La sección 3describe el algoritmo gradencial. El funcionamiento de la he-rramienta se explica en la sección 4. Finalmente, la sección 5muestra las conclusiones y lineas de trabajo futuras.

2. Arquitectura

El controlador generado por la herramienta consta de loselementos descritos en esta sección.

Pablo Krupa / XVII Simposio CEA de Ingeniería de Control y V Seminario de Innovación Docente en Automática 1–5 2

El modelo de predicción usado por los elementos del con-trolador es el siguiente modelo discreto en espació de estado,

x(k + 1) = Ax(k) + Bu(k � d) (1a)y(k) = Cx(k) + w (1b)

donde x 2 Rn es el estado, u 2 Rm es la acción de control,y 2 Rp es la salida del sistema, w 2 Rp es la perturbación ensalida y d 2 R es el retraso del sistema, medido en número detiempos de muestreo.

Consideramos restricciones en caja en los estados y accio-nes de control,

x x x (2)u u u (3)

2.1. Observado de estado y estimador de perturbacionesEl observador de estado y estimador de perturbaciones (de

ahora en adelante llamado observador), calcula, en cada instan-te de muestreo k, el estado predicho del sistema x(k+1) 2 Rn =x(k+1|k) y la perturbación estimada w(k+1) 2 Rp = w(k+1|k),donde el modelo de w viene dado por w(k + 1) = w(k).

El observador que se ha implementado es el siguiente ob-servador de Luenberger,

x(k + 1) = Ax(k) + Bu(k � d) (4a)+ Lx(y(k) �Cx(k) � w(k))

w(k + 1) = w(k) + Lw(y(k) �Cx(k) � w(k)) (4b)

donde las matrices Lx y Lw se calculan según las indicacionesde (Maeder et al., 2009).

2.2. Steady State Target OptimizerEl Steady State Target Optimizer (SSTO) calcula, en cada

instante de muestreo k, el estado de equilibrio (xr, ur) del mo-delo de predicción (1) que minimiza ||yr(k) � w(k) � Cxr(k)||,donde yr(k) 2 Rp (5) es la referencia filtrada obtenida a partirde la referencia r(k) 2 Rp dada por el usuario y para un valordel parámetro µr 2 [0, 1) dado.

yr(k) = ⌘ryr(k � 1) + (1 � ⌘r)r(k) (5)

La obtención del estado de equilibrio (xr, ur) se realiza a tra-vés de la implementación del algoritmo 1, en el que se debe desolucionar el problema de optimización (6), donde las matricesQr, Rr y Th son diagonales y definidas positivas.

(x⇤r, j, u⇤r, j, h

⇤j) = arg mın

xr ,ur ,h||h||2Th

+ ||xr � xc, j||2Qr(6)

+ ||ur � uc, j||2Rr

s.t. xr = Axr + Bur (6a)yr(k) � w(k) = Cxr + h (6b)LBx xr UBx (6c)LBu ur UBu (6d)

Algoritmo 1: SSTORequire: r(k), w(k), ⌘r, ✏r > 0

1 Calcula yr(k) (5)2 j = 0, xc,1 = 0, uc,1 = 03 repetir4 j = j + 15 Obtén x⇤r, j y u⇤r, j resolviendo (6)6 xc, j+1 = x⇤r, j7 uc, j+1 = u⇤r, j8 hasta que ||x⇤r, j � xc, j|| ✏r

Salida: xr(k) = x⇤r, j, ur(k) = u⇤r, j

Para sistemas en los que tenemos grados de libertad supe-riores a los necesarios, es decir, si m > p, el paso 7 se elimina.De esta forma uc, j = 0 8 j, por lo que habrá un coste asociado aur dado por la matriz Rr.

2.3. Predictor en bucle abiertoEl predictor en bucle abierto calcula, en cada instante de

muestreo k, el estado predicho dentro de d tiempos de muestreoxp(k) 2 Rn = x(k + d|k), a partir del estado estimado x(k) (4a)usando el siguiente algoritmo.

Algoritmo 2: Predictor en bucle abiertoRequire: x(k), [u(k � d), . . . , u(k � 1)]

1 xp(k) = x(k)2 para i = 1 hasta d hacer3 xp(k) = Axp(k) + Bu(k � d � 1 + i)4 fin para

Salida: xp(k)

2.4. MPCLa acción de control a aplicar en el instante de muestreo k

se obtiene de la resolución del siguiente problema de optimiza-ción, tomando u(k) = u⇤(i = 0),

J⇤ = mınx,u

N�1X

i=0

||x(i) � xr(k)||2Q +N�1X

i=0

||u(i) � ur(k)||2R (7a)

s.t. x(i + 1) = Ax(i) + Bu(i), (7b)x x(i) x, i = 1, . . . ,N � 1 (7c)u u(i) u, i = 0, . . . ,N � 1 (7d)x(0) = xp(k) (7e)x(N) = xr(k) (7f)

donde N es el horizonte de predicción. Nótese que el modelousado por el MPC (7b) no incluye el efecto del retraso d queaparece en el modelo de predicción (1). El efecto del retraso secompensa a través del uso de xp(k) como condición inicial (7e).Las matrices de coste Q y R se toman diagonales y definidaspositivas.

Pablo Krupa / XVII Simposio CEA de Ingeniería de Control y V Seminario de Innovación Docente en Automática 1–5 3

3. Algoritmo gradencial

La resolución de los dos problemas de optimización queincluye el controlador, el del MPC (7) y el del SSTO (6), serealiza usando un algoritmo gradencial llamado FISTA (Beckand Teboulle, 2009).

Este algoritmo es un algoritmo gradencial acelerado capazde resolver problemas QP sujetos a restricciones,

mınz

12

z>Hz + f>z (8)

s.a. z z z (8a)

Gz = b (8b)

Los problemas de optimización (7) y (6) se pueden reescri-bir como problemas de este tipo. El anexo 6 muestra la estruc-tura de los problemas QP que resultan del MPC y del SSTO.

El algoritmo FISTA consta de los siguientes pasos, donde sedeben resolver, en cada iteración k, el problema de optimización

z(vk) = arg mınz

12

z>Hz + f>z � v>(Gz � b) (9)

s.a. z z z

y el sistema de ecuaciones

W�vk = �(Gz(vk) � b) (10)

donde,

W = GH�1G> (11)

Algoritmo 3: FISTA

1 k = 0, v1 = ⌘1 = 0, t1 = 1, ✏ > 02 repetir3 k = k + 14 Obtén z(vk) resolviendo (9)5 Obtén �vk resolviendo el sistema de ecuaciones

(10)6 ⌘k = vk + �vk

7 tk+1 =12�1 +

q1 + 4t2

k�

8 vk+1 = ⌘k +tk � 1tk+1

(⌘k � ⌘k�1)

9 Calcula � = Gz(vk) � b10 hasta que ||�|| ✏

Salida: z⇤ = z(vk)

Nótese que el problema de optimización (9) tiene una solu-ción inmediata si H es diagonal y definido positivo, ya que enese caso los elementos de z no están acoplados y cada uno deellos se puede resolver de forma independiente. Este es el casopara el MPC y el SSTO debido a las imposiciones que realiza-mos sobre sus matrices de coste (Véase Anexo 6).

En cuanto a la resolución del sistema de ecuaciones (10),la solución se podría obtener calculando la inversa de la matrizW. Para la resolución del problema del SSTO esto no supone unproblema ya que la dimensión dicha matriz no es muy elevado.

Sin embargo, para el MPC se busca una mejor solución que noobligue a almacenar en memoria una matriz densa que puedellegar a tener dimensiones muy elevadas. La solución adoptadaes realizar la descomposición de Cholesky de W, denominadapor Wc, y que resulta ser una matriz triangular con estructura enbanda. Usando Wc, el cálculo de �vk se realiza resolviendo dossistemas de ecuaciones triangulares (y por tanto de resolucióninmediata) consecutivos,

W>H,c�vk = �(Gz(vk) � b)

WH,c�vk = �vk(12)

4. Herramienta de generación de código

La herramienta de generación de código se ha programadopara Matlab y para Python. Recibe los datos del problema, queson las matrices del modelo y los parámetros de los elementosdel controlador (Q, R, µr, N, ✏r, etc.), y genera un fichero quecontiene la declaración de variables y código del controlador.

El fichero se genera de tal forma que pueda ser directamen-te importado al entorno de programación del sistema embebi-do. Actualmente, la herramienta crea controladores para PLCs,usando lenguajes estandarizados de la norma IEC 61131-3. Enconcreto, se pueden crear controladores para PLCs de la marcaScheider Electric que usen el entorno de programación UnityPro, y para el entorno de programación de PLCs CODESYS.El algoritmo es el mismo, pero particularizado para el métodode importación del sistema embebido y para la sintaxis parti-cular que utilice. La figure 1 muestra el bloque que se generaen el entorno de programación Unity Pro cuando se importa elcontrolador MPC generado por la herramienta.

Figura 1: Controlador MPC en Unity Pro

El algoritmo está diseñado de forma que solo las variablesbásicas del problema son declaradas, con el fin de ahorrar lamayor cantidad de memoria posible. La resolución del sistemade ecuaciones descrito en el paso 5 a través de la descomposi-ción de Cholesky de W, tal y como se describe en el apartadoanterior, da lugar a un importante ahorro de memoria. Se lograun uso de memoria que crece linealmente con el horizonte depredicción N del MPC, en lugar del uso de memoria de creci-miento cuadrático que se tendría si se almacenase la inversa dela matriz del sistema de ecuaciones. Las únicas matrices que sealmacenan como matrices densas son las matrices A, B y C delmodelo de predicción, las matrices Lx y Lw del observador y lamatriz W del SSTO.

Pablo Krupa / XVII Simposio CEA de Ingeniería de Control y V Seminario de Innovación Docente en Automática 1–5 4

El algoritmo del controlador está diseñado para trabajar co-mo una de varias tareas que se ejecutan de forma cíclica. Estemodo de funcionamiento es típico en los PLC, donde existe unatarea principal que se ejecuta de forma cíclica dentro de la cualse ejecutan de forma secuencial las distintas tareas programa-das en el PLC. Debido a ello, el controlador MPC únicamenterealiza un numero fijo de iteraciones del algoritmo FISTA cadavez que es ejecutado, tras lo cual el algoritmo deja de ejecutar-se hasta la siguiente vez que sea llamado, retomando desde elestado en el que se encontraba al final de su última ejecución.

Además de los elementos descritos en la sección 2, el con-trolador incorpora un modo de funcionamiento manual, en elque la acción de control aplicada viene directamente determina-da por el usuario, y un controlador de emergencia que se ejecutasi el algoritmo FISTA no converge a una solución antes de untiempo máximo desde el comienzo del tiempo de muestreo. Elvalor del tiempo máximo es fijado por el usuario. Actualmente,el controlador de emergencia es un controlador LQR.

5. Conclusiones

La identificación de los patrones internos de las matrices delproblema QP del MPC dan lugar a la posibilidad de generar unalgoritmo de resolución del problema en el que únicamente ha-ya que almacenar las matrices básicas que definen el problema,tales como las matrices de coste o las del modelo en espaciode estado; y un conjunto de matrices que definen la descom-posición de Cholesky de la matriz W (11). El resultado es unalgoritmo cuya implementación requiere un consumo de me-moria que crece de forma lineal con el horizonte de prediccióndel MPC, pero que está muy especializado para la formulaciónespecífica descrita en este documento.

La formulación de MPC propuesta posee garantías de esta-bilidad, gracias a la inclusión de un restricción final de igualdad,pero no posee garantías de factibilidad (ni factibilidad recursi-va). A pesar de ello, el controlador ha dado buenos resultadosen pruebas realizadas en el PLC para el control de plantas mul-tivariables, donde se ha llegado a implementar exitosamente uncontrolador MPC cuyo problema QP asociado tenía 360 varia-bles de decisión.

Trabajos futuros asociados a esta línea de investigación in-cluyen mejorar el algoritmo gradencial de forma que se mejoresu tiempo de resolución para casos en los que haya restriccio-nes activas e implementar una formulación de MPC que poseagarantías de factibilidad recursiva, ya sea con la inclusión derestricciones blandas con formulaciones de MPC para tracking(Ferramosca et al., 2008).

Agradecimientos

A los autores les gustaría agradecer al MINERCO y a losfondos FEDER por la financiación del proyecto DPI2016-76493-C3-1-R, y al MCIU y FSE por la financiación de la beca FPI-2017.

Referencias

Beck, A., Teboulle, M., 2009. A fast iterative shrinkage-thresholding algorithmfor linear inverse problems. SIAM Journal on Imaging Sciences 2, 183–202.doi:10.1137/080716542.

Camacho, E.F., Alba, C.B., 2013. Model predictive control. Springer Science& Business Media.

Ferramosca, A., Limón, D., Alvarado, I., Alamo, T., Camacho, E.F., 2008. Mpcfor tracking with optimal closed-loop performance, in: Decision and Con-trol, 2008. CDC 2008. 47th IEEE Conference on, IEEE. pp. 4055–4060.

Maeder, U., Borrelli, F., Morari, M., 2009. Linear o↵set-freemodel predictive control. Automatica 45, 2214 – 2222.doi:https://doi.org/10.1016/j.automatica.2009.06.005.

Mattingley, J., Boyd, S., 2012. Cvxgen: A code generator for embedded convexoptimization. Optimization and Engineering 13, 1–27.

Ullmann, F., 2011. Fiordos: A matlab toolbox for c-code generation for firstorder methods. MS thesis .

Zometa, P., Kögel, M., Findeisen, R., 2013. µao-mpc: a free code generationtool for embedded real-time linear model predictive control, in: AmericanControl Conference (ACC), 2013, IEEE. pp. 5320–5325.

6. Estructura interna de los problemas QP

Mostramos la estructura de las matrices de los problemasQP (8) que resultan de los problemas de optimización del MPC(7) y del SSTO (6).

6.1. QP del MPCEl problema de optimización (7) se puede expresar como

un problema QP (8) equivalente con las siguientes matrices yvectores, donde definimos las dimensiones mz y nz,

mz = (N + 1)m (13)nz = N(n + m) (14)

H 2 Rnz⇥nz =

0BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB@

Q 0 .. .. .. .. 0 00 R 0 .. .. .. .. 0.. 0 Q 0 .. .. .. .... .. 0 R 0 .. .. .... .. .. .. .. .. .. .... .. .. .. .. .. .. ..0 .. .. .. .. .. Q 00 0 .. .. .. .. 0 R

1CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCA

(15)

f 2 Rnz = �H (xr, ur, xr, ur . . . xr, ur) (16)

Az 2 Rmz⇥nz =

0BBBBBBBBBBBBBBBBBBBB@

In 0 .. .. .. .. .. 0 0A B �In 0 .. .. .. .. 0.. .. .. .. .. .. .. .. ..

0 .. .. .. .. A B �In 00 0 .. .. .. 0 0 A B

1CCCCCCCCCCCCCCCCCCCCA

(17)

b 2 Rmz =⇣xp, 0, 0 . . . 0, 0, xr

⌘(18)

z 2 Rnz =⇣x, u . . . x, u

⌘(19)

z 2 Rnz = (x, u . . . x, u) (20)

Pablo Krupa / XVII Simposio CEA de Ingeniería de Control y V Seminario de Innovación Docente en Automática 1–5 5

6.2. QP del SSTOEl problema de optimización (6) se puede expresar como un

problema QP 8 equivalente con as siguientes matrices y vecto-res,

H 2 R(n+m+p)⇥(n+m+p) =

0BBBBBBBB@

Qr 0 00 Rr 00 0 Th

1CCCCCCCCA (21)

f 2 R(n+m+p) = � �Qr xc,k, Rruc,k, 0

�(22)

Az 2 R(n+p)⇥(n+m+p) =

A � In B 0

C 0 Ip

!(23)

b 2 R(n+p) = (0, yr � w) (24)

z 2 R(n+p+m) =⇣x, u,�1

⌘(25)

z 2 R(n+p+m) = (x, u, 1) (26)

http://www.ceautomatica.es/og/ingenieria-de-control

Estimacion y optimizacion dinamica de la eficiencia en infraestructuras crıticas

Jose R. Salvadora,⇤, D. R. Ramireza,1, D. Munoz de la Penaa,2, T. Alamoa,2

aDepartamento de Ingenierıa de Sistemas y Automatica, Escuela Tecnica Superior de Ingenierıa de la Universidad de Sevilla, Camino de los Descubrimientos s/n,41092, Sevilla, Espana.

Resumen

Este artıculo presenta un resumen parcial de la tesis doctoral titulada ‘Estimacion y optimizacion dinamica de la eficiencia eninfraestructuras crıticas’, llevada a cabo en el Departamento de Ingenierıa de Sistemas y Automatica de la Universidad de Sevilla.En este documento se exponen una serie de tecnicas de control predictivas basadas en datos que tienen como objetivo controlardiferentes sistemas, posiblemente no lineales, considerados infraestructuras crıticas. Dichas tecnicas, materializadas a traves dediferentes algoritmos, confieren propiedades deseables en los controladores como la identificacion implıcita o la eliminacion delerror en regimen permanente.

Palabras Clave:Algoritmos de control, control basado en datos, control predictivo, optimizacion, sistemas discretos.

1. Introducci´on

El objetivo de esta tesis es el desarrollo de estrategias decontrol para la operacion optima de infraestructuras crıticas,particularmente, de agua y energıa. En las sociedades actuales,la operacion fiable y continua de ciertas infraestructuras juegaun papel fundamental en la calidad de vida, desarrollo economi-co y seguridad de una nacion. La relevancia de dichas estruc-turas justifican el calificativo de crıticas. Para este tipo de in-fraestructuras es de suma importancia el desarrollo de sistemasde gestion que logren la operacion de las mismas garantizandola operacion continua y fiable. Otros aspectos importantes en lagestion de dichas infraestructuras son el uso eficiente de los re-cursos que distribuyen, tales como agua, gas, etc. ası como quela operacion sea eficiente desde un punto de vista economico.

El caracter crıtico de este tipo de infraestructuras hace nece-sario un sistema de gestion que tenga en cuenta sus especifici-dades y lımites de operacion en presencia de las incertidumbrespropias de la operacion de las mismas. Para ello, resulta funda-mental que el sistema de gestion incorpore un sistema de con-trol que, en base a las medidas reales que proveen los sensoresy las predicciones disponibles de variables externas de influen-cia, determine de que forma se debe operar para garantizar unfuncionamiento continuo, seguro y eficiente.

⇤Autor en correspondencia.Correos electronicos: [email protected] (Jose R. Salvador),

[email protected] (D. R. Ramirez), [email protected] (D. Munoz de la Pena),[email protected] (T. Alamo)

1Tutor de la tesis doctoral.2Director de la tesis doctoral.

Las estrategias de control usualmente utilizadas en este tipode sistemas pueden no ser optimas al intentar alcanzar objeti-vos como robustez del sistema controlado, eficiencia economi-ca u optimalidad. Por este motivo, el desarrollo y aplicacion detecnicas de control predictivo y de tecnicas basadas en datosabre un nuevo y prometedor horizonte en este campo de inves-tigacion. Todo ello motiva el trabajo realizado en esta tesis, quese puede clasificar en las sub-secciones que se presentan a lolargo de este apartado.

1.1. Control predictivo basado en modelo

En este apartado se engloban todos los algoritmos de con-trol que se apoyan en un modelo del sistema para obtener pre-dicciones del comportamiento a futuro. Estas tecnicas tienenuna base consolidada (Rawlings and Mayne, 2009; Camachoand Bordons, 2004).

1.1.1. Control de sistemas con desvanecimiento parcial de me-moria

A esta linea pertenecen trabajos como Salvador et al. (2017,2018a) donde se implementan algoritmos de control predictivopara sistemas con entrada binaria en los cuales, el efecto de lasenal de control en la salida se desvanece parcialmente antes dealcanzar el regimen permanente. Como resultado, estos algorit-mos ofrecen controladores basados en un procedimiento itera-tivo que construye un conjunto reducido de soluciones para elproblema de optimizacion binario resultante. Estos trabajos si-guen una idea similar al algoritmo L-Band (Alamo et al., 2008;Ferramosca et al., 2009).

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 2

Figura 1: Diagrama de controlador predictivo basado en datos

1.1.2. Control MPC economico no lineal periodicoLos artıculos Wang et al. (2017, 2018) se pueden clasificar

en este grupo, en los cuales se desarrollan tecnicas de controlpredictivo economico (Ellis et al., 2016) aplicadas a redes dedistribucion de agua (Brdys and Ulanicki, 1994). Este tipo desistemas se caracteriza por ser complejos y tener no linealida-des, sobre todo cuando se consideran presiones como variablesde estado y plantean un problema de control que considera laoptimizacion de un coste economico que tiene en cuenta el con-sumo electrico del bombeo y redistribucion del agua en la red.Ademas el comportamiento periodico de las demandas infiereal control un caracter periodico que se aprovecha para demos-trar la estabilidad en bucle cerrado.

1.2. Control predictivo basado en datosEn esta lınea se encuentran todo el trabajo de la tesis enfo-

cado en tecnicas de control que sustituyen el uso de un modelodel sistema para hacer predicciones por informacion de controldel sistema almacenada en una base de datos. La figura 1 mues-tra el diagrama generico de un controlador predictivo basado endatos con el que obtenemos las ventajas del control predictivo,como el manejo de restricciones o optimizacion de eficiencia(funcional de coste economico, etc.) sin la desventaja de nece-sitar un modelo del sistema.

Debido a la extension del trabajo realizado en la totalidad dela tesis, este documento se centrara mas en detalle en las tecni-cas de control enmarcadas en este punto, que seran desarrolla-das a lo largo del artıculo. En la seccion 2 se presenta una des-cripcion del problema general que motiva las tecnicas de con-trol desarrolladas para en control basado en datos. La seccion 3analiza los diferentes objetivos que persiguen y requisitos quenecesitan los controladores desarrollados. Un caso de estudioconcreto se expone en la seccion 4. Por ultimo se exponen lasconclusiones y trabajo futuro en la seccion 5.

2. Formulaci´on del problema gen´erico

Consideremos un sistema representado por un modelo dis-creto invariante en el tiempo:

xt+1 = f (xt, ut), (1)

donde x ⇢ Rnx es el estado, u ⇢ Rnu es la entrada al sistema y fes la funcion de transicion de estados, la cual es desconocida.

El objetivo de control de una manera general es un problemade regulacion del sistema al origen minimizando cierta funcionde coste J. El estandar en control predictivo basado en mode-lo (Rawlings and Mayne, 2009; Camacho and Bordons, 2004)trata de resolver un problema de control optimo de horizontefinito en el que, en cada instante, se minimiza el coste de unatrayectoria predicha de longitud N, [xt+1, . . . , xt+N], para obte-ner una secuencia optima de control predicha, [ut, . . . , ut+N�1],que se aplica en forma de horizonte deslizante. A continuaciondefinimos de manera general la funcion de coste con horizontefinito:

J =N�1X

k=0

`(xk, uk) + F(xN) (2)

donde `(·, ·) es la funcion de coste de etapa, F(·) es la funcionde coste terminal usada tıpicamente para aproximar el proble-ma de horizonte infinito a finito, considerando ambas funcionesconvexas y positivas definidas. Se debe puntualizar que, con unabuso de notacion, xk = xt+k y de manera similar en las entradasu y en las predicciones ·.

Es evidente que para obtener predicciones x, u es necesarioconocer la funcion que modela el sistema f (·, ·), o al menos te-ner un modelo que la aproxime f (·, ·), para resolver el problemade optimizacion generico:

mınx,u

J

s.a. xk+1 = f (xk, uk)x0 = x0,

(3)

donde x0 es el estado en el instante en que se plantea el pro-blema de optimizacion. Sin embargo, el problema no puede serformulado como (3) porque la funcion que modela el sistemaf (·, ·), y por tanto cualquier modelo que la aproxime, es desco-nocida. Para tener conocimiento de las dinamicas del sistemay poder predecir su comportamiento a futuro, en lugar de unmodelo, se utiliza una base de datos que almacena M trayecto-rias en bucle cerrado. La tabla 1 muestra una estructura generalde la base de datos utilizada para modelar el sistema. Se puedeapreciar que para cada trayectoria, que se constituye como unasecuencia de estados pasados y de acciones de control pasadasgeneradas en bucle cerrado, dichas trayectorias se almacenanen filas con un identificador m 2 {1, . . . ,M} unıvoco de cadatrayectoria, un instante de trayectoria k 2 {0, . . . , pm} y la in-formacion del estado xm,k y de la accion de control um,k que seaplico. Resaltar que pm indica la longitud de la trayectoria m-esima y que · indica informacion del historico almacenado enla base de datos. De este modo, mientras continuemos con elmismo identificador de trayectoria m, si en una fila tenemos elestado xm,k, en la fila siguiente de la base de datos obtendremosla informacion del estado siguiente xm,k+1 que se obtuvo cuandose aplico um,k.

Nota 1. La base de datos generica se define con la informaciondel estado, pero en caso de que este no fuese observable, sepodrıa adaptar la tecnica almacenando entradas y salidas.

Nota 2. Las tecnicas de control utilizadas para conformar lastrayectorias de la base de datos ası como las propiedades de

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 3

Tabla 1: Estructura de la base de datos de M trayectorias de longitud pm.m k x u

1 1 0 x1,0 u1,02 1 1 x1,1 u1,1...

......

......

p1 1 p1 x1,p1 u1,p1

p1 + 1 2 0 x2,0 u2,0p1 + 2 2 1 x2,1 u2,1...

......

......

p1 + p2 2 p2 x2,p2 u2,p2

......

......

...p1 + · · · + pM�1 + 1 M 0 xM,0 uM,0p1 + · · · + pM�1 + 2 M 1 xM,1 uM,1

......

......

...p1 + · · · + pM M pM xM,pM uM,pM

los controladores empleados, afectan de manera considerableal desempeno de los controladores predictivos basado en da-tos. Por tanto, en secciones posteriores se especificaran algu-nas hipotesis para que el controlador basado en datos adquierapropiedades deseables.

3. Formulaci´on del controlador

En esta seccion se expondran diferentes soluciones desarro-lladas a lo largo de la tesis para resolver el problema genericoobteniendo controladores que persiguen diferentes desempenoso que resuelven problemas de optimizacion con algunas carac-terısticas sutilmente diferentes.

3.1. Control predictivo basado en historicos de datos

Los algoritmos desarrollados que se clasifican en esta lınea,han sido presentados en trabajos como Salvador et al. (2018c)cuya idea principal es utilizar parte de la informacion en la basede datos para obtener acciones de control sin la necesidad deun modelo explıcito del sistema. Dichas acciones de control seobtienen como una suma pesada de acciones de control pasa-das como resultado de minimizar una funcion de coste como ladefinida en (2).

Debido a la ausencia de modelo, las predicciones de estadosy acciones de control se obtienen de la siguiente forma:

xk =ncP

i=1�i · xmi,k,

uk =ncP

i=1�i · umi,k,

(4)

donde nc es el numero de candidatos seleccionados, mi 2 {1, . . . ,M}es el ındice que marca a que trayectoria pertenece el candidatoi-esimo y k = k+ki donde ki 2 {0, . . . , pmi�N+1}. De este modok 2 {0, . . . , pmi }, nos asegura que todos los candidatos seleccio-nados tienen al menos una secuencia de N � 1 filas posteriores

con el mismo ındice de trayectoria de la fila del candidato i-esi-mo. Se puede comprobar facilmente que el candidato i-esimo,pertenecera a la trayectoria mi con posicion ki e informacionxmi,ki , umi,ki . Si deseamos obtener la trayectoria de longitud N apartir de dicho candidato i-esimo, serıa:

[xmi,ki , xmi,ki+1, . . . , xmi,ki+N�1],

y de manera similar para las acciones de control.La seleccion de candidatos puede seguir distintos criterios,

pero una hipotesis razonable es que la distancia de la informa-cion del estado del candidato, xmi,ki , con respecto al estado ac-tual, x0, sea mınima. Para ello se define una funcion distanciade la siguiente manera:

g(x0, xmi,ki ) = |x0 � xmi,ki |2�, (5)

donde � 2 Rnx es un vector que pondera las componentes delestado. Aplicar dicha funcion distancia a la base de datos y se-leccionar aquellas nc filas que proporcionan el valor mınimoen distancia es lo que denominaremos proceso de seleccion decandidatos.

Nota 3. El proceso de seleccion se puede contemplar por di-versas razones. Las principales pueden ser que el tamano dela base de datos puede ser grande y el coste computacional deprocesar toda la informacion en ella muy elevado. Ademas, siel sistema a controlar es no lineal, la informacion lejana denuestra posicion actual puede provocar mayores errores en laspredicciones consideradas en (4). Por este motivo una selec-cion de la informacion mas cercana puede ser de utilidad.

Una vez que obtenemos los candidatos, y con ellos y susfilas posteriores una posible estimacion como la planteada en(4), plantearemos un problema de optimizacion similar a (3)pero adaptado de la siguiente forma:

mın�2Rnc

ncX

i=1

�i · Ji (6a)

s.a. xk =

ncX

i=1

�i · xmi,k (6b)

ncX

i=1

�i = 1 (6c)

�i � 0 8 i 2 {1, . . . , nc}. (6d)

Las restricciones (6c) y (6d) garantizan una combinacionlineal convexa de los candidatos. Resumiendo, el controladorpropuesto trata de minimizar la cota superior definida como lacombinacion lineal convexa de las trayectorias candidatas quecomienzan desde el estado actual. Siguiendo un esquema dehorizonte deslizante, se aplica:

u⇤k =ncX

i=1

�i · umi,ki . (7)

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 4

3.2. Control basado en datos con eliminacion del error enregimen permanente

Los controladores desarrollados en esta lınea han sido en-viados al congreso ’2019 European Control Conference’. Laaportacion de los algoritmos que entran dentro de esta clasifi-cacion es que son capaces de seguir una referencia sin error enregimen permanente. Con tal fin, la base de datos debe almace-nar trayectorias con un valor de referencia r, ası como informa-cion sobre la salida, yk. Ademas los controladores con los que seobtienen las trayectorias que conforman la base de datos debenproporcionar secuencias sin error en regimen permanente.

Por problemas de espacio, en este artıculo no se expondranlas demostraciones de convergencia en la eliminacion del erroren regimen permanente para el caso de sistemas lineales. Aho-ra definiremos el sistema desconocido (1) asumiendo que es li-neal:

xk+1 = Axk + Buk + wk (8)yk = Cxk + Duk + vk (9)

donde wk y vk son perturbaciones aditivas de media no nula enel estado y en la salida respectivamente. Por tanto, siguiendo lanomenclatura usada en (4), la base de datos almacenara trayec-torias en bucle cerrado que se pueden modelar con:

xmi,k+1 = Axmi,k + Bumi,k + wmi,k (10)ymi,k = Cxmi,k + Dumi,k + vmi,k (11)

donde mi 2 {1, . . . ,M} es el indice que indica la trayectoriaa la que pertenece el candidato i-esimo con e i 2 {1, . . . , nc yk = k + ki indica la posicion dentro de la trayectoria.

Con esta notacion y para el caso lineal, se puede demostrarque formulando el problema generico (3) de la siguiente forma:

�⇤i = arg mın�i

ncPi=1

�2i (12a)

s.a.ncX

i=1

�i xmi,ki = xk (12b)

ncX

i=1

�i xmi,ki�1 = xk�1 (12c)

ncX

i=1

�iumi,ki�1 = uk�1 (12d)

ncX

i=1

�iyMi,ki = yk (12e)

ncX

i=1

�iri = rk (12f)

ncX

i=1

�i = 1. (12g)

Con la formulacion del problema presentada en (12), el con-trolador aprende el efecto integral gracias a la incorporacion delas restricciones (12c) y (12d) y a que los controladores queconforman la base de datos deben presentar esa caracterıstica.La ley de control es similar a la aplicada en (7).

3.3. Control predictivo basado en datos con optimizacion depesos directa

Los controladores desarrollados en esta linea se han presen-tado en trabajos como Salvador et al. (2018b) y tienen comoobjetivo simultaneo: la optimizacion del funcional de coste y laminimizacion de la varianza del error de estimacion.

En esta lınea, no es necesario que la informacion de la basede datos provenga de trayectorias pasadas obtenidas con contro-ladores en bucle cerrado, de hecho, es suficiente con que la ba-se de datos almacene tripletas del tipo {xi,k, ui,k, xi,k+1}. Ademas,este enfoque puede tener en cuenta posibles perturbaciones demedida independientes a xi,k y a ui,k, que podemos representarsustituyendo en la tripleta xi,k+1 por:

zi,k+1 = xi,k+1 + wi, (13)

donde wi modela dichas perturbaciones. Siguiendo un enfoquede programacion dinamica (Bertsekas et al., 2005) para siste-mas lineales y funciones de coste cuadratico, podemos repre-sentar el funcional de coste (2) de manera recursiva:

J j+1(x) = x>Pj+1x = x>Qx + u>Ru + J j(z), (14)

donde Pj+1,Q,R � 0 y con

x =MX

i=1

�⇤i j(x)xi, u =MX

i=1

�⇤i j(x)ui, z =MX

i=1

�⇤i j(x)zi,

y

�⇤i j(x) = arg mın�1 j...�M j

u>Ru + J j(z) + �MP

i=1�2

i j

s.a. x =MP

i=1�i j xi,

u =MP

i=1�i jui,

z =MP

i=1�i jzi,

(15)

Con estas consideraciones el problema de optimizacion generi-co expuesto en (3) queda transformado en un problema recursi-vo que persigue un doble objetivo, donde el valor del parametro� > 0 proporciona un compromiso entre el termino de minimi-zacion del coste y el termino del error de estimacion:

�MX

i=1

�2i j.

El problema de optimizacion (15) se resuelve de manera re-cursiva desde j = 1, . . . ,N y da lugar al control predictivo basa-do en datos sin restricciones cuya accion de control se obtienecomo:

u⇤(x) =MX

i=1

�⇤i,N�1(x)ui.

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 5

3.3.1. Solucion multi-parametrica del problemaEn esta seccion se propone una solucion explıcita del pro-

blema (15) utilizando un enfoque multi-parametrico para obte-ner J j+1(x) a partir de J j(x). Para tal fin, definimos el vector devariables de optimizacion

� j = [�1 j . . . �M j]> 2 RM⇥1,

y las siguientes matrices obtenidas de la base de datos

X = [ x1 x2 . . . xM ],U = [ u1 u2 . . . uM ],Z = [ z1 z2 . . . zM ].

El problema de optimizacion (15) se puede transformar enel problema equivalente:

mın� j

�>j H j� j

s.a. T� j = S x,(16)

donde

Hj = U>RU + Z>PjZ + �I 2 RM⇥M ,T = X 2 Rnx⇥M ,S = I 2 Rnx⇥nx .

donde I es la matriz identidad del tamano adecuado. Utilizandolas condiciones de Karush-Kuhn-Tucker, se puede obtener lasolucion del problema (16) como:

�⇤j(x) = H�1j T>(T H�1

j T>)�1S x = Kj+1x,

dondeKj+1 = H�1

j T>(T H�1j T>)�1S . (17)

Teniendo en cuenta (14), se obtiene que

Pj+1 = Q + K>j (U>RU + Z>PjZ)Kj. (18)

Este enfoque proporciona un metodo iterativo para obtener Pj+1a partir de Pj. El control predictivo basado en datos explıcito sinrestricciones propuesto se define como:

u⇤(x) = UKN x.

Nota 4. Aclarar que en esta tecnica M no refleja el numero detrayectorias en la base de datos sino el numero de tripletas yesta tecnica considera utilizar la totalidad de la informacionde la base de datos para obtener la ley de control explıcita.

3.3.2. Control predictivo basado en datos a un paso con res-tricciones

El procedimiento propuesto puede ser aplicado a sistemascon restricciones. Sin embargo, en este caso la ley de controloptima resultarıa en una funcion lineal a trozos, y el correspon-diente coste, una funcion cuadratica a trozos (Bemporad et al.,2002). Esto implica que el enfoque de programacion dinamicano puede ser implementado facilmente. En su lugar, se plan-tea un problema de control optimo con restricciones en bucle

Figura 2: Diagrama de la red de distribucion de agua de Richmond

abierto y de horizonte finito. Para el caso de un paso con res-tricciones lineales en el estado, X, y en la accion de control, U,serıa:

mın�i, i2{1,...,M,}

x>Qx + u>Ru + z>Pz +MP

i=1�i(x)�2

i

s.a. x =MP

i=1�i xi,

u =MP

i=1�iui 2 U, (19)

z =MP

i=1�izi 2 X.

4. Caso de estudio

Como caso de estudio se ha tomado la red de distribucionde agua de Richmond, que es un sistema bien documentado yestudiado (van Zyl et al., 2004; van Zyl, 2001) y que puedeser simulado con el software de simulacion hidraulica EPANET(Enviromental Protection Agency, 2018). Aunque el sistema esno lineal y complejo, puede ser aproximado por un modelo debalance de agua lineal con una tiempo de muestreo bastantegrande, en concreto de 1 hora. La figura 2 muestra un diagramadel sistema de distribucion de agua de Richmond, el cual constade 6 tanques, 7 estaciones de bombeo, 41 nodos de los cuales11 se consideran nodos de demanda y 44 tuberıas de las cuales8 son unidireccionales.

Por tanto, los tanques reducen su nivel de agua almacenadaal satisfacer los nodos de demanda que se abastecen de ellos ylas estaciones de bombeo introducen el agua en la red desde unaunica fuente y la redistribuyen para que ningun tanque se vacıe.El objetivo de control sera mantener el nivel de los tanques entorno a un punto de funcionamiento a la vez que se satisfacenlas demandas. El vector de estados se compone por los nivelesde los tanques, x 2 R6. Las demandas son consideradas pertur-baciones, modeladas por el vector d 2 R11.

Para alcanzar el objetivo de control, los flujos de agua desalida de las estaciones de bombeo se consideran las variablesmanipulables, que se representa con el vector u 2 R7. Puntua-lizar que en Richmond, como es usual en las redes de distri-bucion de agua, las estaciones de bombeo funcionan en modoON-OFF, de ahı la necesidad de una logica de bajo nivel que

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 6

transforme el flujo de agua deseado en una secuencia logica pa-ra cada estacion.

Cada componente del vector demanda d es una senal pe-riodicas diarias (T=24) mas una componente aleatoria de medianula y de amplitud maxima 5 % de la senal periodica. Este tipode senales son comunmente utilizadas en redes de distribucionde agua puesto que las demandas de un dıa a una hora suelenser similares a las del dıa anterior o siguiente a esa misma hora.

El tanque 5 se carga con el flujo de salida del tanque 4 me-diante gravedad. Por consiguiente, el controlador solo tendraen cuenta el resto de tanques, que si son controlables, aunque aefectos de simulacion con EPANET es necesario considerar elnivel del tanque 5.

La funcion de coste utilizada en este ejemplo es un terminode coste de etapa que penaliza el error en seguimiento:

`(x) = |xc � xr |22, (20)

donde xc 2 R5 son los niveles de los 5 tanques controlables delvector de estados y xr 2 R5 son sus correspondientes referen-cias. Ademas el coste terminal se considera igual al de etapa, esdecir F(·) = `(·).

La base de datos almacena trayectorias en bucle cerradode cuatro controladores diferentes, cada uno compuesto por unconjunto de reles, que denominaremos RbC1, RbC2, RbC3 yRbC4 respectivamente. Cada bomba se conecta o desconectadependiendo del nivel del tanque al que abastece. La table 2muestra la relacion de los reles de cada controlador con el tan-que al que abastecen y los niveles a los que se conecta y desco-necta.

La tabla 3 muestra las referencias de cada controlador, en-tendiendo por tal como el punto medio de los niveles de con-mutacion de las bombas. En el caso del tanque 1, denominadox1 por ser la primera componente de x, la referencia es la mediade los niveles de conmutacion de las bombas 1, 2 y 3, definidascomo u1, u2 y u3 respectivamente.

La base de datos se compone de 100 trayectorias en bu-cle cerrado de cada controlador (400 en total) cada una con 96horas de duracion. Cada trayectoria comienza en un estado ini-cial aleatorio que satisface los niveles de seguridad mınimos ymaximos de los tanques, representados en la tabla 4

En este ejemplo se utiliza el estado y el instante de tiem-po para realizar el proceso de seleccion de candidatos. Dichoejemplo es una simulacion en bucle cerrado aplicando el con-trol predictivo basado en historico de datos de la seccion (3.1)con un estado inicial:

x0 = [3, 2,44, 1,58, 1,5, 0,99, 1,51],

y una referencia:

xr = [3,0503, 3,4906, 1,4118, 1,9108, 1,9866].

Esta referencia es igual a la referencia de uno de los controlado-res de la base de datos, concretamente el controlador 2 (RbC 2).Para tener en cuenta la naturaleza periodica de las demandas, lafuncion distancia (5) toma la siguiente forma:

g(xk, k, i) = |xk � xmi,ki |2� + �tgt(k, ki), (21)

time (h)0 50 100

leve

l (m

)

0

1

2

3

x1

time (h)0 50 100

leve

l (m

)

0

1

2

3

x2

time (h)0 50 100

leve

l (m

)

0

0.5

1

1.5

2

x3

time (h)0 50 100

leve

l (m

)

0

0.5

1

1.5

2

x4

time (h)0 50 100

leve

l (m

)

0

1

2

x5

time (h)0 50 100

leve

l (m

)

0

0.5

1

1.5

2

x6

Figura 3: Referencia (negro), trayectoria en bucle cerrado (azul) del nivel de lostanques y los niveles maximo y mınimo de cada tanque (rojo)

donde k es la instante actual de simulacion en el rango [0, 23]horas, xmi,ki es el estado del candidato i-esimo y ki refleja elinstante horario del candidato tambien en el rango [0, 23] horas,� es un vector que pondera la diferencia entre el estado actual yel del candidato con valor:

� = [1,0831, 1, 1,825, 1,7299, 1,6667],

mientras que �t = 0,2 es un valor que pondera el termino ho-rario, el cual penaliza la distancia entre el instante actual y elinstante horario del candidato, que se define como:

gt(k, ki) = mın {(k � ki)2, (k + 24 � ki)2}. (22)

Debido a que k y ki se encuentran en el rango [0, 23], gt debetener en cuenta este hecho y que la demanda es periodica yasegurarse de que la distancia entre la hora 0 y 1 sea la mismaque entre la 23 y la 0, de ahı la definicion de la funcion (22). Portanto, la funcion de distancia (21) tiene en cuenta la naturalezaperiodica de las demandas, penalizando trayectorias candidatasque empiezan en una hora diferente a la actual. El numero decandidatos seleccionado de la base de datos es nc = 500.

Aunque la referencia del controlador usada para generar labase de datos no se ha tenido en cuenta en el proceso de selec-cion, el control predictivo basado en historico de datos adquierepropiedades de regulacion porque la referencia se tiene en cuen-ta en el funcional de coste, penalizando trayectorias candidatasque no acaban cerca de xr al final del horizonte de prediccion.

El problema de optimizacion que se resuelve en cada ins-tante de tiempo es como el definido en (6) y la accion de con-trol calculada como en (7). La figura 3 muestra los niveles delos 6 tanques de agua del sistema Richmond durante una si-mulacion en bucle cerrado usando EPANET. Los niveles mıni-mo, maximo y de referencia se representan para cada tanque enlınea discontinua roja y negra respectivamente. El tanque 5 noes controlable y por eso no tiene senal de referencia.

Los flujos de las bombas, en litros por segundo, pueden serobservado en la figura 4. Puntualizar que la solucion obtenida

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 7

Tabla 2: Niveles de conmutacion (en metros) de los reles de cada controlador usado para generar la base de datos.RbC 1 RbC 2 RbC 3 RbC 4

Bomba Tanque Nivel ON Nivel OFF Nivel ON Nivel OFF Nivel ON Nivel OFF Nivel ON Nivel OFFu1 x1 2.3685 2.9799 2.4785 3.0899 1.5018 2.1132 1.9352 2.5466u2 x1 3.0405 3.2513 3.1505 3.3613 2.1738 2.3846 2.6072 2.8180u3 x1 2.8888 3.1126 2.9988 3.2226 2.0221 2.2459 2.4555 2.6793u4 x2 3.2623 3.5789 3.3323 3.6489 2.5956 2.9122 2.9290 3.2456u5 x3 0.7185 1.8850 0.8285 1.9950 0.5852 1.7517 0.6518 1.8183u6 x4 1.5907 1.9708 1.7207 2.1008 1.2774 1.6575 1.4340 1.8141u7 x6 1.7037 2.1095 1.7837 2.1895 0.7037 1.1095 1.2037 1.6095

Tabla 3: Referencia (en metros) de los controladores usados para generar labase de datos.

x1r x2r x3r x4r x6r

RbC1 2.9403 3.4206 1.3018 1.7808 1.9066RbC2 3.0503 3.4906 1.4118 1.9108 1.9866RbC3 1.6403 2.4206 1.1018 1.3108 0.4066RbC4 2.5069 3.0873 1.2351 1.6241 1.4066

Tabla 4: Niveles de seguridad maximo y mınimo (en metros) de los tanques enel sistema Richmond.

Tanque 1 2 3 4 5 6Mınimo 1.02 2.03 0.5 1.1 0.2 0.19Maximo 3.37 3.65 2 2.11 2.69 2.19

con el controlador tiende a un comportamiento cuasi periodico.Como las senales que componen la base de datos son periodicasdebido a las demandas y a los controladores de reles, la com-binacion convexa de dichas acciones de control de la base dedatos es mayormente periodica tambien.

Para evaluar el coste del controlador, es necesario tener encuenta la naturaleza periodica del sistema. La metrica del desem-peno sera la suma de la trayectoria en bucle cerrado durante unperiodo de las senales de demanda d calculada cada instante desimulacion:

V(xk) =N�1X

j=0

`(xk+ j) (23)

donde xk+ j son los valores de los niveles de los tanques de lasimulacion en bucle cerrado y N = 24. Hay que decir que paraeste este sistema, el coste instantaneo no tiene sentido, ya que seincrementara y se reducira cuando las perturbaciones cambien.La suma del coste sobre un periodo es una eleccion mas finaque deberıa converger a un valor constante cuando el sistemaen bucle cerrado alcance una trayectoria cuasi estable, que con-firmara que el controlador esta trabajando de forma correcta. Laparte aleatoria de d es la que afecta a dicha estabilidad.

La figura 5 muestra la evolucion de V(xk) para 2 de los con-troladores basado en reles que crearon la base de datos y parala estrategia propuesta. Los controladores basados en reles 3y 4 no se han representado porque sus costes son mucho maselevados. En concreto su coste medio es de 76.99 y 27.7 res-pectivamente, mientras que el del control predictivo basado enhistorico de datos es de 3.36. Esta claro que la tecnica propuesta

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

5

10

15

20

25

30

35u1

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

5

10

15

20

25

30

35

40

45

50u2

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

10

20

30

40

50

60u3

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

5

10

15

20

25

30

35u4

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5u5

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

2

4

6

8

10

12u6

Time (h)0 20 40 60 80 100 120

Flo

w (

lps)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1u7

Figura 4: Acciones de control para cada bomba con el control propuesto

Time (h)0 10 20 30 40 50 60 70 80 90 100

Perf

orm

ance

Cost

0

1

2

3

4

5

6

7

8

9

10

JHDBPC

JRbC1

JRbC2

Figura 5: Comparacion del coste del control propuesto (JDbPC) y los controla-dores de rele 1 y 2 (JRbC1 y JRbC2)

J. R. Salvador et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 8

obtiene los mejores resultados.

5. Conclusi´on

Se puede obtener como conclusion de este artıculo la bue-na motivacion para llevar a cabo las investigaciones asociadasa esta tesis, ası como la validez y utilidad de los algoritmosestudiados durante su desarrollo. Ademas, se han indicado losresultado de algunas de las lıneas que aborda con la referenciade diversas publicaciones.

El caso de estudio de una red de distribucion de agua de-muestra la potencial utilidad de las tecnicas desarrolladas parainfraestructuras crıticas.

Por ultimo comentar las lıneas a futuro como estudiar ypresentar los ingredientes necesarios para obtener cualidadesdeseables como convergencia, estabilidad y factibilidad recur-siva. Otro punto interesante es desarrollar tecnicas de controlrobusto basado en datos.

Agradecimientos

El trabajo desarrollado en esta tesis ha sido financiado porMINECO Espana y por fondos FEDER bajo los proyectos DPI2013-48243-C2-2-R y DPI2016-76493-C3-1-R y por la Universidadde Sevilla con la beca 2014/425. Ademas se agradece a los co-autores de todos los trabajos que forman parte de la tesis.

Referencias

Alamo, T., Munoz de la Pena, D., Camacho, E. F., 2008. An e�cient maxi-mization algorithm with implications in min-max predictive control. IEEETransactions on Automatic Control 53(9), 2192–2197.

Bemporad, A., Morari, M., Dua, V., Pistikopoulos, E. N., 2002. The explicitlinear quadratic regulator for constrained systems. Automatica 38 (1), 3–20.

Bertsekas, D. P., Bertsekas, D. P., Bertsekas, D. P., Bertsekas, D. P., 2005. Dy-namic programming and optimal control. Vol. 1. Athena scientific Belmont,MA.

Brdys, M., Ulanicki, B., 1994. Operational Control of Water Systems: Structu-res, Algorithms, and Applications. Prentice Hall.

Camacho, E. F., Bordons, C., 2004. Model Predictive Control, 2nd Edition.Springer.

Ellis, M., Liu, J., Christofides, P., 2016. Economic Model Predictive Control.Springer.

Enviromental Protection Agency, 2018. Epanet: Software that models the hy-draulic and water quality behavior of water distribution piping systems.https://www.epa.gov/water-research/epanet.

Ferramosca, A., Limon, D., Fele, E., Camacho, E., 2009. L-band SBQP-BasedMPC for supermarket refrigeration systems. European Control Conference,Budapest, Hungary 0, 0–0.

Rawlings, J., Mayne, D., 2009. Model Predictive Control:Theory and Design.Nob Hill Publishing, Madison, Wisconsin.

Salvador, J., Alamo, T., Ramirez, D., de la Pena, D. M., 2017. Predictivecontrol with on-o↵ actuators of partially fading memory systems. IFAC-PapersOnLine 50 (1), 7187 – 7192, 20th IFAC World Congress.

Salvador, J., Alamo, T., Ramirez, D., de la Pena, D. M., 2018a. Model predictivecontrol of partially fading memory systems with binary inputs. Journal ofProcess Control 64, 141 – 151.

Salvador, J. R., de la Pena, D. M., Alamo, T., Bemporad, A., 2018b. Data-based predictive control via direct weight optimization. IFAC-PapersOnLine51 (20), 356 – 361, 6th IFAC Conference on Nonlinear Model PredictiveControl NMPC 2018.

Salvador, J. R., de la Pena, D. M., Ramırez, D. R., Alamo, T., 2018c. Historiandata based predictive control of a water distribution network. In: 2018 Euro-pean Control Conference, ECC 2018, Limassol, Cyprus, June 12-15, 2018.pp. 1716–1721.

van Zyl, J. E., 2001. Richmond water distribution network epanet mo-del. http://emps.exeter.ac.uk/engineering/research/cws/

resources/benchmarks/operation/richmond.php.van Zyl, J. E., Savic, D. A., Walters, G. A., 2004. Operational optimization

of water distribution systems using a hybrid genetic algorithm. Journal ofWater Resources Planning and Management 130 (2), 160–170.

Wang, Y., Salvador, J. R., de la Pena, D. M., Puig, V., Cembrano, G., 2017. Pe-riodic nonlinear economic model predictive control with changing horizonfor water distribution networks. IFAC-PapersOnLine 50 (1), 6588–6593.

Wang, Y., Salvador, J. R., de la Pena, D. M., Puig, V., Cembrano, G., 2018.Economic model predictive control based on a periodicity constraint. Journalof Process Control 68, 226 – 239.

http://www.ceautomatica.es/og/ingenieria-de-control

Optimizacion y Control de Sistemas de Refrigeracion mediante Sistemas deAlmacenamiento con Material de Cambio de Fase

David Rodrıguez⇤, Guillermo Bejarano, Manuel Vargas, Manuel G. OrtegaDepartamento de Ingenierıa de Sistemas y Automatica, Universidad de Sevilla, Camino de los Descubrimientos, s/n, 41092, Sevilla, Espana.

Resumen

Este artıculo describe los objetivos de la Tesis Doctoral, que recibe el mismo tıtulo, en desarrollo por el primer autor DavidRodrıguez Garcıa. El objetivo principal es proporcionar una gestion mas eficiente de los sistemas de refrigeracion, mediante la in-corporacion a los equipos de generacion de frıo de sistemas de almacenamiento termico (T ES , del ingles Thermal Energy Storage),basados en materiales de cambio de fase (PCM, del ingles Phase-Change Material). Se desarrollaran algoritmos que gestionen lacarga y descarga del T ES , atendiendo a la prevision diaria de la demanda de frıo y el rendimiento del sistema, tanto energeticocomo economico. Ademas, seran ensayados experimentalmente sobre un sistema de refrigeracion que se encuentra disponible enlos laboratorios del Departamento de Ingenierıa de Sistemas y Automatica de la Universidad de Sevilla.

Palabras Clave:Algoritmos de planificacion, Control automatico, Sistemas multivariables, Optimizacion, Control predictivo.

1. Introduccion

Los sistemas de refrigeracion son usados diariamente, tantoa nivel industrial, siendo su principal aplicacion la conserva-cion y transporte de alimentos (Tassou et al. (2011)), como anivel domestico, en el uso de sistemas de aire acondicionadoy climatizacion (Yun and Steemers (2011)). Continuamente sedesarrollan nuevos metodos de aprovechamiento del frıo, comola incorporacion de nuevos materiales aislantes (Korjenic et al.(2011)), a la vez que se busca una mejora en la eficiencia desu produccion desde un punto de vista energetico, economicoy medioambiental (Rasmussen et al. (2005), Ruz et al. (2017)),abarcando desde la mejora de los materiales y disenos de losintercambiadores, el uso de nuevos refrigerantes mas baratosy respetuosos con el medio ambiente, hasta el uso de sistemasde control al incorporar compresores de velocidad variable yelectro-valvulas. Dentro de este marco de mejoras aparecen lossistemas de almacenamiento de energıa (T ES ), permitiendo,por un lado, evitar el sobredimensionamiento de los sistemasde refrigeracion para hacer frente a los picos de demanda (Mac-Cracken (2004)), al tener una baterıa de potencia frigorıfica quesupla dicho exceso, y por otro lado, aprovechar los perfiles va-riables de precio de la energıa electrica, pudiendo cargar el T ES

⇤Autor en correspondencia.Correos electronicos: [email protected] (David Rodrıguez),

[email protected] (Guillermo Bejarano), [email protected] (Manuel Vargas),[email protected] (Manuel G. Ortega)

en los momentos de menor coste para aprovecharlo en otro mo-mento (Dincer (2002)).

En el Departamento de Ingenierıa de Sistemas y Automati-ca de la Universidad de Sevilla se dispone de una planta ex-perimental de refrigeracion por compresion de vapor, descritaen Bejarano et al. (2015). El sistema cuenta con los siguienteselementos: dos etapas de compresion de velocidad variable ydistinta potencia, un condensador de refrigeracion por aire, ydos evaporadores destinados a trabajar a distintas temperaturas,cada uno con una electro-valvula de expansion; ademas, cadaevaporador tiene conectado a su circuito secundario un recintoque se quiere refrigerar. Ademas, el sistema puede ser configu-rado, bien como un ciclo basico con una etapa de compresiony un recinto, bien como un ciclo con dos etapas y un recinto, obien como un ciclo con dos etapas y dos recintos. Cada recintoesta formado por un tanque, que actua de almacen de una so-lucion acuosa de glicol, que es enfriada en un circuito cerradoimpulsado por una bomba entre el recinto y el circuito secun-dario del evaporador. Por ultimo, cada tanque cuenta con unaresistencia electrica variable de hasta 2 kW, representando lasposibles perdidas de carga existentes en un recinto real a refri-gerar.

En este trabajo, que abre una nueva lınea de investigacion,se tiene en marcha una ampliacion de la planta descrita ante-riormente, anadiendo, por cada recinto, un sistema de almace-namiento de energıa termica, que puede almacenar la energıafrigorıfica generada por el ciclo, o ceder energıa frigorıfica pre-

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 2

Compresor principal

Condensador

Acumulador

TTPTTT

TTPT

TT

Filtro/SecadorVisor de burbuja

Línea de líquido

Ventilador

CV3

PT

FT

Bomba 1

CV2

CV1

Válvula de expansión 1

Válvulareguladorade presiónTTPT

TT

TT

TES1

Bomba del TES 1

Válvula de expansión del TES 1

Recinto 1

R1

FT

Bomba 2

Válvula deexpansión 2

TTPT

TT

TT

TES2

Bomba del TES 2

Válvula deexpansión del TES 2

Recinto2

R2

Evaporador 1

Evaporador 2

TT

TT

TT

TT

PT

PT

PT

PT

PT

PTPT

PT

PT

FT

FT

TT

TT

TT

TT

TT

Compresor secundarioPT

PT

TT

Figura 1: Esquema del sistema de refrigeracion ampliado

viamente almacenada al recinto, ofreciendo un mayor grado delibertad a la hora de optimizar el rendimiento y la produccionde frıo del sistema. En la Fig. 1 puede verse un esquema delestado final de la planta tras su ampliacion.

El resto del artıculo se organiza de la siguiente manera: enla Seccion 2 se describe muy brevemente el sistema y el cone-xionado entre el T ES y el ciclo de refrigeracion, enfatizandounicamente el diseno del T ES ; ademas, se hace un resumen delconjunto de sensores con los que esta dotado el nuevo sistema.La Seccion 3 explica el funcionamiento del sistema, aportandoalgunos datos recogidos en base a un simulador desarrolladodel mismo. En la Seccion 4 se esboza el problema de controlası como las estrategias de optimizacion y regulacion a seguir.Finalmente, en la Seccion 5 se resumen las principales conclu-siones y se proponen los trabajos futuros.

2. Descripcion del sistema

El sistema parte de una planta de refrigeracion por com-presion de vapor, ya nombrada en la Seccion 1, a la que se leanade un sistema de almacenamiento de energıa a cada uno desus recintos. Los T ES se han dispuesto en paralelo a los eva-poradores, vease la Fig. 1, compartiendo, por un lado, el fluidosecundario del evaporador que enfrıa el recinto, y por otro la-do, el refrigerante proveniente del ciclo, que a su vez contieneuna electro-valvula de expansion para el paso del refrigerante.

A continuacion en la Subseccion 2.1 se explica detalladamenteel diseno del T ES , ası como los mecanismos de carga y des-carga. Se puede encontrar informacion detallada sobre el restode elementos de la planta en Rodrıguez et al. (2017) y Bejaranoet al. (2016).

2.1. Sistema de almacenamiento de energıaLos principales metodos de almacenamiento de energıa termi-

ca pueden ser divididos en almacenamiento por energıa de calorsensible (S HT ES ) o almacenamiento de energıa por calor la-tente (LHT ES ). Estos ultimos presentan una mayor capacidadtermica, permitiendo almacenar mayor energıa en un menor vo-lumen, a la vez que se mantiene una temperatura constante. Porello, para el desarrollo de este proyecto, se ha optado por el usode LHT ES s. Los LHT ES s son, dentro de los sistemas de alma-cenamiento de energıa, aquellos que aprovechan como metodode almacenamiento el cambio de fase de un material, ya seatanto para calor (vıa fusion) como para frıo (vıa solidificacion).Cualquier sistema LHT ES cuenta al menos con:•Una sustancia de almacenamiento, denominada PCM (del

ingles phase change material), que mediante el cambio de fasey dentro del rango de la temperatura deseada, permit almacenarenergıa frigorıfica, en su mayorıa, en forma de calor latente.• Un recipiente contenedor para el PCM.• Una superficie de intercambio de calor entre el fluido a

refrigerar y la sustancia de almacenamiento, y entre la sustanciade almacenamiento y el sistema de refrigeracion.

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 3

Refrigerante

PCM

Glicol

Refrigerante

Figura 2: Imagen y esquema del diseno del T ES

Los T ES , como muestra la Fig. 2, han sido disenado co-mo un deposito cilındrico, con 17 tubos estancos destinados acontener el material PCM, 36 tubos que atraviesan el depositoy transportan fluido refrigerante del ciclo principal, y 32 tubosque atraviesan el deposito y transportan una solucion acuosade glicol del circuito cerrado del recinto a refrigerar. Tanto lostubos de refrigerante como los tubos con la solucion de gli-col estan unidos a una seccion circular, independiente una de laotra, en la parte superior e inferior del deposito, de manera queambos fluidos entran por sus respectivas secciones para ser dis-tribuidos entre los tubos. Debido a que los tubos mencionadosno estan en contacto entre ellos, se anade una solucion acuosade glicol, denominado fluido intermedio, que bana a todos lostubos, tratandose de un fluido de una alta conductividad termi-ca que actua de canal para la transmision de potencia frigorıfi-ca entre PCM y los sumideros (glicol) o fuentes (refrigerante)de potencia frigorıfica. De esta forma, cuando se quiere cargarel T ES se cuenta con una valvula de expansion que, como semuestra en la Fig. 1, comparte entrada con la valvula de expan-sion del evaporador, permitiendo la circulacion del refrigerantea traves del T ES ; entonces, el PCM cede calor al fluido inter-medio y este a su vez al refrigerante. Por el contrario, cuandose quiere descargar el TES, se hace circular, impulsado por unabomba, el glicol procedente del recinto a refrigerar, tomando elcalor de la solucion de glicol por medio del fluido intermedio.Este metodo de transmision por medio de un fluido intermedioprovoca que el proceso de carga y descarga no pueda cambiarinmediatamente, ya que se debe adecuar primero la temperaturadel fluido intermedio (TT ES ,int) con su correspondiente dinami-ca. Se puede consultar mas informacion sobre el T ES y su desa-rrollo en Bejarano et al. (2018), con la unica diferencia de queel PCM se encapsula en capsulas macroscopicas en lugar de encilindros.

2.2. Informacion del sistemaComo se indica en la Fig. 1, el sistema cuenta con un am-

plio numero de sensores, en su mayorıa de temperatura y pre-sion. Ademas de los sensores ya indicados, cada deposito T EScuenta con 16 sensores de temperatura que permiten medir: latemperatura de entrada y salida del refrigerante y del glicol, la

Figura 3: Modos de operacion del sistema

temperatura del fluido intermedio, del cual se toman 3 muestrasdistribuidas de forma longitudinal a lo largo del tubo, y la tem-peratura del PCM, del cual se toman 9 muestras en diferentestubos y en radios distintos.

3. Funcionamiento del sistema

La funcionalidad del sistema consiste en generar potenciafrigorıfica (Qsec), mediante un ciclo de refrigeracion por com-presion de vapor, acorde a una demanda, a la vez que se cuentacon un sistema de almacenamiento de energıa. Para su gestion,se tienen desde 4 actuaciones posibles, en su configuracion masbasica con un unico recinto y compresor, hasta 8, en su confi-guracion completa: velocidad del compresor principal, veloci-dad del compresor secundario, y para cada recinto, apertura devalvula del evaporador, apertura de valvula del T ES y caudalde secundario del T ES . Ademas del objetivo principal del sis-tema, generar frıo, se debe cumplir que el estado en el que entrael refrigerante en los compresores sea totalmente gaseoso. Estacondicion se da por motivos de seguridad, correcto funciona-miento y preservacion de los mismos. Por esta razon, el gradode sobrecalentamiento (TS H), definido como la diferencia en-tre la temperatura del refrigerante y la del vapor saturado a lapresion del refrigerante, siempre debe ser positivo.

3.1. Modos de funcionamientoAdemas de los objetivos mencionados, el sistema cuenta

con almacenamiento, lo que implica la gestion de dos potenciasmas por recinto, nombradas como potencia de carga (QT ES ) ypotencia de descarga (QT ES ,sec), vistas desde el T ES . Dado queexisten 3 potencias implicadas en el funcionamiento, se ha de-cidido definir 8 diferentes modos, vease la Fig. 3, donde se re-cogen todas las posibles combinaciones de las potencias para,de esta manera, facilitar la rapida comprension del estado delsistema. Dichos modos tienen en cuenta unicamente un recin-to con su T ES y evaporador asociado, pudiendo trabajar en elsistema cada recinto en distintos modos.

En el modo 1 se aporta potencia frigorıfica al recinto a la vezque se carga el T ES , cuyo uso comun es almacenar el exceden-te de potencia generada por el ciclo. En el modo 2 se decide

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 4

omitir el uso del almacenamiento y se actua como el sistemaoriginal; su uso puede ser tanto en situaciones donde la produc-cion de excedente no es deseable, o no es posible hacer uso delT ES . El modo 3, donde el recinto es enfriado tanto por el ciclocomo por el T ES , es util para hacer frente a los picos de de-manda que no sean asumibles unicamente con la potencia delciclo, o momentos de un alto coste de generacion pero insu-ficientes o indeseables de asumir unicamente por el T ES . Enel modo 4 se enfrıa el recinto haciendo uso unicamente de laenergıa almacenada en el TES. Los modos descritos anterior-mente son los que presentan un mayor interes y uso al poderdefinir una o varias situaciones para ser aplicados, frente a losmodos descritos a continuacion, los cuales no tienen un clarouso o carecen de interes. El modo 5, donde unicamente se car-ga el T ES , puede presentar cierta utilidad en operaciones dearranque del sistema, ya que es deseable que el PCM funcioneen la zona de calor latente. En el modo 6 se hace una carga ydescarga simultanea del TES. El modo 7 es el mas complejo,donde se hace una carga y descarga simultanea a la vez que seaporta potencia frigorıfica mediante el ciclo. Por ultimo, en elmodo 8 el sistema esta parado y a pesar de ser un modo comun,carece de interes practico.

3.2. Comportamiento del sistemaUna vez explicado el sistema y su funcionamiento, se pre-

sentan a continuacion un conjunto de graficas que permiten co-nocer algunos aspectos importantes de su comportamiento. Pa-ra su obtencion, se ha disenado un simulador en su configura-cion mas basica (un compresor y un recinto) (Rodrıguez et al.(2018)), ya que presenta menor dificultad de estudio; ademas,se preve que dicho estudio sea extrapolable para cualquiera delas posibles configuraciones.

En la Fig. 4 se muestra la respuesta de las potencias en elmodo 7, cuando actuan las 3 a la vez, ante una entrada en es-calon de las valvulas de expansion del evaporador (Av) y delT ES (Av,T ES ) y el caudal de secundario del T ES (mT ES ,sec),donde solo una de las actuaciones cambia cada vez, permane-ciendo el resto constantes. Como era previsible, la potencia delevaporador (Qe,sec) tiene una alta correlacion con la aperturade valvula del evaporador Av, y la potencia de carga tiene unaalta correlacion con la apertura de la valvula del T ES Av,T ES .Ademas, se observa un fuerte acoplamiento entre las actuacio-nes de las valvulas y ambas potencias; esto se debe a que ambasvalvulas comparten el mismo punto de enlace con el refrigeran-te, y al modificar una de ellas se ven afectadas las condicionesdel punto de enlace, lo que genera un cambio no deseado en elcaudal de la valvula perturbada y, por tanto, en la potencia ge-nerada. Por el contrario, se puede considerar despreciable paraambas potencias el efecto del caudal del fluido secundario delT ES . Por otro lado y como se esperaba, la potencia de descar-ga del T ES esta altamente relacionada con el caudal de fluidosecundario, mientras que se puede considerar independiente delos efectos de las valvulas. Otro efecto a destacar es el ilustradoen la Fig. 5, donde se muestra un mapa cualitativo de las poten-cias estacionarias cuando Qe,sec y QT ES actuan simultaneamen-te (modo 1 y modo 7). Se observa la dependencia que existeentre el valor que pueden alcanzar en funcion del estado de la

2 4 6 8Tiempo [min]

440

470

500

Pote

nci

a [W

]

40

55

70

12 14 16 18Tiempo [min]

350

400

450

40

55

70

Potencia del evaporador

22 24 26 28Tiempo [min]

449

449.3

449.6

100

150

200

2 4 6 8Tiempo [min]

350

400

450

Pote

nci

a [W

]

40

55

70

Apert

ura

de v

álv

ula

[%

]

12 14 16 18Tiempo [min]

450

500

550

40

55

70

Apert

ura

de v

álv

ula

[%

]

Potencia de carga del TES

22 24 26 28Tiempo [min]

450.4

450.7

451

100

150

200

Caudal [

g.s

-1]

2 4 6 8Tiempo [min]

-790

-788

-786

Pote

nci

a [W

]

40

55

70

12 14 16 18Tiempo [min]

-790

-787

-784

40

55

70

Potencia de descarga del TES

22 24 26 28Tiempo [min]

-1100

-950

-800

100

150

200

Figura 4: Respuesta de las potencias del sistema en modo 7 ante escalonesalternados en Av, Av,T ES y mT ES ,sec

100 200 300 400 500 600 700 80050

250

450

650

850

Figura 5: Mapa cualitativo de la relacion entre las potencias Qe,sec y QT ES

otra, dicho efecto se debe a que comparten un caudal finito derefrigerante.

Por ultimo, en la Fig. 6, se muestra diferentes aspectos dela carga y la descarga del T ES , comenzando en la Fig. 6(a)con la evolucion del ratio de carga del T ES (�T ES ), siendo 1cuando esta totalmente cargado y 0 cuando esta completamentedescargado, en una operacion completa de carga para diferen-tes valores constantes de Av,T ES . De forma analoga, en la Fig.6(c) se observa un proceso de descarga para diferentes valoresconstantes de mT ES ,sec. Se muestra tambien en la Fig. 6(b), larelacion entre QT ES y �T ES para diferentes valores de Av,T ES ,la cual tiene una ligera pendiente aunque podrıa considerarseconstante para todo el proceso de carga. Este fenomeno se de-be a que el PCM experimenta un cambio de fase generandoun volumen de material en zona sensible que evita el contactodirecto entre la frontera de cambio de fase con las paredes delcilindro, lo que genera una resistencia termica que reduce la po-tencia transferida, vease la Fig. 7. Este mismo fenomeno ocurrecon la potencia de descarga, mostrada en la Fig. 6(d), donde seobserva un cambio relevante de QT ES ,sec con respecto a �T ES .

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 5

0 4 8 12 16 20 24

Tiempo [h]

0

0.2

0.4

0.6

0.8

1

Ratio

de c

arg

a [p.u

.]

Ratio de carga del TES en carga

(a) Evolucion de �T ES en el proceso decarga

0 0.2 0.4 0.6 0.8 1

Ratio de carga [p.u.]

100

200

300

400

500

600

Pote

nci

a frigorí

fica [W

]

Relación entre la potencia de carga y el ratio de carga

(b) Relacion entre QT ES y �T ES

0 1 2 3 4 5 6 7

Tiempo [h]

0

0.2

0.4

0.6

0.8

1

Ratio

de c

arg

a [p.u

.]

Ratio de carga del TES en descarga

(c) Evolucion de �T ES en el proceso dedescarga

0 0.2 0.4 0.6 0.8 1

Ratio de carga [p.u.]

-1200

-1000

-800

-600

-400

-200

Pote

nci

a frigorí

fica [W

]

Relación entre la potencia de descarga y el ratio de carga

(d) Relacion entre QT ES ,sec y �T ES

Figura 6: Comportamiento del T ES en la operacion de carga y descarga

Figura 7: Representacion de la evolucion de un cilindro de PCM en diferentesprocesos de carga y descarga

4. Estrategia de control

En esta Seccion se resume la estrategia de control aplica-da para controlar la temperatura de un recinto. Se plantea uncontrol jerarquico, vease la Fig. 8, compuesto de dos lazos decontrol: un lazo externo, encargado del control de la tempera-tura del recinto mediante la generacion de consignas para lapotencia frigorıfica total que recibe el recinto (Qsec = Qe,sec +QT ES ,sec), y un lazo interno, compuesto de dos bloques. Un pri-mer bloque toma la referencia de Qre f

sec para generar las refe-rencias de las 3 potencias del sistema (Qre f

e,sec, Qre fT ES y Qre f

T ES ,sec),en base a criterios economicos teniendo en cuenta el coste dela energıa electrica, y aplicando tambien restricciones de fac-tibilidad. Ademas, el lazo interno incluye un segundo bloque,que controla las potencias, maximizando el coeficiente de ope-ratividad o rendimiento (COP = Qsec/Wcomp), donde para unmenor consumo de potencia del compresor (Wcomp) se obtieneun mayor COP, sujeto a la restriccion de que el TS H debe sersiempre positivo y superior a un margen de seguridad estable-cido en 2�C.

4.1. Generador de referenciasEl objetivo del generador de referencias es, dado un cierto

perfil de demanda en una ventana de tiempo, calcular consignasalcanzables de las potencias de forma eficiente en base a unosciertos criterios economicos. Estas directrices son afines con lasde un optimizador no lineal con modelo de prediccion, por loque se plantea el diseno de un bloque NMPC con un horizontede prediccion Np donde, como recoge (1), las referencias debenser alcanzables para toda la ventana de tiempo, aunque estasvolveran a ser calculadas nuevamente en el siguiente instantede tiempo, aplicando la estrategia de horizonte deslizante.

{Qre fe,sec(t�1+k), Qre f

T ES (t�1+k), Qre fT ES ,sec(t�1+k)} 8k 2 [1,Np]

(1)En cuanto al modelo de prediccion, se ha simplificado el

modelo no lineal del sistema, tomando unicamente la dinamicadel T ES al ser dominante respecto al resto de dinamicas masrapidas. Se define el vector de estado del sistema como el vec-tor de estados del T ES , que esta formado por el ratio de carga(�T ES ) y la temperatura del fluido intermedio (TT ES ,int), y seutiliza el modelo no lineal en espacio de estados mostrado en(2).

x(t+k) = g(x(t�1+k), Qre fT ES (t�1+k), Qre f

T ES ,sec(t�1+k))8k 2 [1,Np](2)

Como restricciones se impone alcanzar la demanda deseadade Qsec, expresada en (3), y cumplir los criterios de factibilidadindicados en (4), teniendo en cuenta los fenomenos analizadosanteriormente en el artıculo: para afrontar un pico de deman-da el T ES debe estar cargado, la potencia QT ES ,sec depende engran medida de �T ES , y se debe tener en cuenta la relacion entreQe,sec y QT ES mostrada en la Fig. 5. Ademas, cabe destacar quela variable �T ES no es medible, sino que debe ser estimada, ylos lımites de potencia impuestos como restricciones dependende su valor estimado.

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 6

Figura 8: Esquema de la estrategia de control del sistema

Qre fe,sec(t�1+k)+Qre f

T ES ,sec(t�1+k) = Qre fsec (t�1+k) 8k 2 [1,Np]

(3)

Qre fe,sec(t � 1 + k) 2 [Qre f ,min

e,sec (t � 1 + k), Qre f ,maxe,sec (t � 1 + k)]

Qre fT ES (t � 1 + k) 2 [Qre f ,min

T ES (t � 1 + k), Qre f ,maxT ES (t � 1 + k)]

Qre fT ES ,sec(t � 1 + k) 2 [Qre f ,min

T ES ,sec(t � 1 + k), Qre f ,maxT ES ,sec(t � 1 + k)]

8k 2 [1,Np](4)

Finalmente, siendo conocidas curvas del precio del consu-mo electrico para todo el horizonte de prediccion, la funcionobjetivo J detallada en (5) incluye terminos relativos al costeeconomico de la generacion de potencia, algunas restriccionessuaves respecto a los lımites de carga del T ES , ya que se deseaque el PCM trabaje en zona latente, y ademas se incluye untermino relativo a �T ES que estimula el uso del T ES en las ope-raciones de carga y descarga.

J = Jcost + Jlim + Jratio (5a)

Jcost =

NpX

k=1

ce,sec(t � 1 + k) Qre fe,sec(t � 1 + k) +

+ cT ES (t � 1 + k) Qre fT ES (t � 1 + k) +

+ cT ES ,sec(t � 1 + k) Qre fT ES ,sec(t � 1 + k)

(5b)

�minT ES (t � 1 + k) =

(�min

T ES � �T ES (t � 1 + k) si �T ES (t � 1 + k) < �minT ES

0 en otro caso

�maxT ES (t � 1 + k) =

(�T ES (t � 1 + k) � �max

T ES si �T ES (t � 1 + k) > �maxT ES

0 en otro caso

Jlim =

NpX

k=1

cminT ES (t � 1 + k) �min

T ES (t � 1 + k) +

+ cmaxT ES (t � 1 + k) �max

T ES (t � 1 + k)(5c)

Jratio =

NpX

k=1

c�T ES (t � 1 + k) �T ES (t � 1 + k) (5d)

Figura 9: Control auxiliar de caudales de refrigerante

4.2. Control de potenciaEl control de potencia recibe las consignas del generador de

referencias y se encarga del bajo nivel del sistema, actuando di-rectamente sobre las valvulas y el caudal de fluido secundariodel T ES , aunque se ha disenado un control auxiliar con una re-alimentacion del modelo de las valvulas, vease la Fig. 9, sobrelos caudales me y mT ES para tratar de reducir las no linealida-des introducidas por los modelos de las valvulas de expansion.Respecto a la eficiencia del control, se busca trabajar con elcompresor a la menor velocidad de giro posible (N), siempre ycuando se cumplan los requerimientos de potencia y el TS H seapositivo y superior al margen de seguridad de 2�C.

Volviendo al control de potencia, se disena, por un lado, elcontrol monovariable de mT ES ,sec con respecto a QT ES ,sec, mien-tra que, por otro lado y dado su alto nivel de acoplamiento, sedisena una red de desacoplo para el control de me y mT ES conrespecto a Qe,sec y QT ES , vease la Fig. 10, tal como se indica en(6).

H · D ="H11 H12H21 H22

# "D11 D12D21 D22

#= Hdiag(s) =

26666664

det(H)ad j(H11) 0

0 det(H)ad j(H22)

37777775

D =ad j(H)det(H)

· Hdiag =

2666664

1 ad j(H12)ad j(H22)

ad j(H21)ad j(H11) 1

3777775

(6)Los parametros de los controladores implicados en el con-

trol del bajo nivel del sistema se detallan en la Tabla 1; todosellos han sido disenados como controladores PI.

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 7

Figura 10: Red parcial de desacoplo

Tabla 1: Parametros de control

Controladores Parametros PIKp Ti

CQe,sec(s) 10�4

23 kg s-1 W-1 0.5 s

CQT ES(s) 10�4

23 kg s-1 W-1 0.5 sCQT ES ,sec

(s) 10-4 kg s-1 W-1 2 s

Cme (s) 103 % kg-1 s 1 sCmT ES (s) 103 % kg-1 s 1 sCTS H (s) 1.33 Hz K-1 1.05 s

4.3. Resultados de simulacionFinalmente, se han realizado simulaciones, donde en lugar

de controlar la temperatura del recinto, se ha disenado, en base aperfiles reales de demanda en supermercados, un perfil de Qre f

secadaptado a un funcionamiento de 12h, el cual es conocido entodo momento para el generador, de manera que solo se evaluael funcionamiento del lazo interno. Ademas, se ha consideradoun coste de la energıa electrica constante, por lo que el T ESsera cargado siempre que se pueda, y por ultimo, tampoco seha implementado un generador de referencia de T re f

S H , sino quese ha fijado el compresor a su maxima velocidad, siendo pocoeficiente pero a su vez teniendo siempre el maximo TS H posible,el cual se ha comprobado que siempre sea positivo.

0 2 4 6 8 10 12

Tiempo [h]

0

200

400

600

800

1000

1200

1400

Po

ten

cia

[W

]

Demanda de potencia frigorífica del recinto

MODO 1

M. 2

MODO 3

MODO 2

MODO 1

(a) Demanda de potencia del recinto

0 2 4 6 8 10 12

Tiempo [h]

100

200

300

400

500

600

700

800

900

Po

ten

cia

[W

]

Potencia frigorífica del evaporador

(b) Control de la potencia del evaporador

0 2 4 6 8 10 12

Tiempo [h]

0

100

200

300

400

500

600

700

800

Po

ten

cia

[W

]

Potencia frigorífica de carga del TES

(c) Control de la potencia de carga

0 2 4 6 8 10 12

Tiempo [h]

0

200

400

600

800

1000

1200

Po

ten

cia

[W

]

Potencia frigorífica de descarga del TES

(d) Control de la potencia de descarga

Figura 11: Control de las potencias que intervienen en el sistema

Se incluye en la Fig. 11(a) el perfil de demanda del recinto;

a la vista de este perfil y teniendo en cuenta las restriccionesde factibilidad indicadas en (4) para cada uno de los modos deoperacion, se planifica fuera de lınea un perfil de modos de ope-racion que se muestra tambien en la Fig. 11(a). A partir de este,el controlador NMPC genera las referencias de potencia, cuyoseguimiento se muestra en las Fig. 11(b), 11(c) y 11(d), siendola demanda la suma de la potencia del evaporador y descarga.La simulacion parte del modo 1, donde el T ES se carga mien-tras se mantiene un bajo valor de potencia por parte del evapo-rador. A continuacion, en el instante t=3.5 h se conmuta a modo2, refrigerando el recinto solo mediante Qe,sec, hasta que llega-do el instante t = 4.5 h, la potencia que genera el evaporador esinsuficiente y entra en juego el T ES pasando a modo 3, dondese busca siempre dar la maxima potencia de descarga, lo quereduce considerablemente la potencia que debe aportar el eva-porador. El modo 3 alcanza su pico maximo aproximadamenteen el intervalo t 2 [6.2, 6.5] h, experimentando un cambio dependiente hasta regresar nuevamente a modo 2 en t = 8.0 h y,hasta el final de la simulacion, regresar al modo 1 en el instantet = 10.5 h.

0 2 4 6 8 10 12

Tiempo [h]

0

10

20

30

40

50

60

70

80

90

Apert

ura

[%

]

Operación de las válvulas de expansión

(a) Actuacion de las valvulas

0 2 4 6 8 10 12

Tiempo [h]

-100

0

100

200

300

400

500

Caudal [

g.s

-1]

Caudal de glicol del TES

(b) Actuacion del caudal de glicoldel T ES

0 2 4 6 8 10 12

Tiempo [h]

0

2

4

6

8

10

12

14

Ma

ss f

low

[g

.s-1

]

Distribución del caudal de refrigerante

(c) Control y distribucion de los caudales de refrigerante

Figura 12: Variables manipulables del sistema

Con respecto al control de potencia, se tiene un resultadosatisfactorio, con tiempos de establecimiento de aproximada-mente 30 s para Qe,sec y QT ES , y 60 s para QT ES ,sec, lo que seconsidera suficientemente rapido al generarse una nueva refe-rencia cada 10 min. Se incluye la actuacion de las aperturas devalvula, el caudal del fluido secundario del T ES , y el controlde bajo nivel de los caudales de refrigerante en las Fig. 12(a),12(b) y 12(c), respectivamente.

Por ultimo se muestra el estado de carga en la Fig. 13, don-

David Rodrıguez et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 8

0 2 4 6 8 10 12

Tiempo [h]

0

0.2

0.4

0.6

0.8

1

Ra

tio d

e c

arg

a

Ratio de carga del PCM

Figura 13: Evolucion del ratio de carga

de se observa el buen funcionamiento del NMPC en la carga,pero no tanto en la descarga al no aprovechar el valor lımite.Esto se debe a la relacion entre el rango de potencia de des-carga y el ratio de carga, lo que obliga a tener un buen modelode prediccion de manera que asegure que para todo el intervalo[t � k + Np] las referencias de potencia deben ser alcanzables,por lo que las referencias de potencia de descarga deben con-servar un margen importante de seguridad respecto a su lımite,impidiendo ese aprovechamiento maximo de la potencia.

5. Conclusiones y trabajos futuros

Se ha presentado en este trabajo la ampliacion de una plantade refrigeracion por compresion de vapor a la que se le inclu-ye un sistema de almacenamiento de energıa por calor latente,detallando en mayor profundidad algunos detalles con respectoal sistema de almacenamiento. Una vez presentado el sistema,se ha explicado su funcionamiento dando muestra de algunasde sus peculiaridades. A continuacion, se ha desarrollado la es-trategia de control a seguir, siendo esta un control en cascada,donde toda la atencion ha recaıdo sobre el lazo interno. Dentrode dicho lazo interno, se encuentran dos bloques muy diferen-ciados: uno de ellos se trata de un generador de referencias parael cual se ha hecho uso de una estrategia NMPC, y el otro, unbloque de control de potencia, donde se hace uso de una redparcial de desacoplo para dos de las tres potencias implicadas.Por ultimo, se han aportado y analizado algunos resultados desimulacion de la estrategia de generacion de referencias y con-trol.

Como trabajo futuro, al ser un sistema novedoso ofrece unagran posibilidad de estudio, como la mejora del generador de

referencias, que permita aprovechar aun mas los lımites de laplanta o la estimacion del perfil de demanda en lınea; un estudiodel control del sobrecalentamiento y como afecta al rendimien-to del sistema; y la aplicacion de todo ello tanto en el sistemareal como en simuladores con una distinta y mas compleja con-figuracion de la planta.

Agradecimientos

Los autores agradecen al Ministerio de Economıa, Industriay Competitividad la financiacion de este trabajo, mediante losproyectos DPI2015-70973-R y DPI2016-79444-R, ası como ala Universidad de Sevilla, a traves del VI Plan Propio de Inves-tigacion y Transferencia (VI PPIT-US).

Referencias

Bejarano, G., Alfaya, J. A., Ortega, M. G., Rubio, F. R., 2015. Design, auto-mation and control of a two-stage, two-load-demand experimental refrige-ration plant. In: 23rd Mediterr. Conf. on Control and Autom., Torremolinos(Spain). pp. 537–544.

Bejarano, G., Rodrıguez, D., Alfaya, J. A., Ortega, M. G., Castano, F., 2016.On identifying steady-state parameters of an experimental mechanical-compression refrigeration plant. Appl. Therm. Eng. 109, 318–333.

Bejarano, G., Su↵o, J. J., Vargas, M., Ortega, M. G., 2018. Novel scheme for aPCM-based cold energy storage system. Design, modelling and simulation.Appl. Therm. Eng. 132, 256 – 274.

Dincer, I., 2002. On thermal energy storage systems and applications in buil-dings. Energy and Build. 34 (4), 377–388.

Korjenic, A., Petranek, V., Zach, J., Hroudova, J., 2011. Development and per-formance evaluation of natural thermal-insulation materials composed of re-newable resources. Energy and Build. 43 (9), 2518–2523.

MacCracken, M. M., 2004. Thermal energy storage myths. Energy Eng.101 (4), 69–80.

Rasmussen, B. P., Musser, A., Alleyne, A. G., 2005. Model-driven system iden-tification of transcritical vapor compression systems. IEEE Trans. ControlSyst. Technol. 13, 444–451.

Rodrıguez, D., Bejarano, G., Alfaya, J. A., Ortega, M. G., Castano, F., 2017.Parameter identification of a multi-stage, multi-load-demand experimentalrefrigeration plant. Control Eng. Pract. 60, 133–147.

Rodrıguez, D., Bejarano, G., Alfaya, J. A., Ortega, M. G., Lemos, J. M., 2018.Simulador de una planta experimental de refrigeracion con un sistema dealmacenamiento de energıa. In: XXXIX Jorn. de Autom., Badajoz (Spain).pp. 530–537.

Ruz, M. L., Garrido, J., Vazquez, F., Morilla, F., 2017. A hybrid modeling ap-proach for steady-state optimal operation of vapor compression refrigerationcycles. Appl. Therm. Eng. 120, 74 – 87.

Tassou, S., Ge, Y., Hadawey, A., Marriott, D., 2011. Energy consumption andconservation in food retailing. Appl. Therm. Eng. 31 (2-3), 147–156.

Yun, G. Y., Steemers, K., 2011. Behavioural, physical and socio-economic fac-tors in household cooling energy consumption. Appl. Energy 88 (6), 2191–2200.

http://www.ceautomatica.es/og/ingenieria-de-control

Sistema de optimización avanzada para la agregación de prosumers energéticos y su participación en el mercado diario (Day Ahead Market)

Juan Aguilar, Alicia Arce, Carlos Bordons

Departamento de Ingeniería de Sistemas y Automática, Universidad de Sevilla

Resumen

Este artículo presenta un enfoque novedoso para la optimización de la operación de sistemas de energía distribuidos orientados a trabajar con el mercado diario (Day Ahead market). Se ha desarrollado un modelo de control predictivo (MPC) para resolver un problema de optimización multiobjetivo aplicable a un conjunto de nodos equipados con una fuente de energía renovable, un sistema de almacenamiento y conexión a la red con la posibilidad de consumir e inyectar energía.

Palabras Clave: Optimization, Algorithms, Energy, Mathematical Programming, Predictive Control, Mixed Integer Programming

1. Introducción

Los sistemas de generación distribuida (DEG) están ganando popularidad gracias a que aunan los beneficios del uso de energía renovables relativos a la conservación del medio ambiente, y los beneficios derivados de la versatilidad de la deslocalización de los recursos. Esto es posible, cada vez más, gracias a las nuevas formas de generación, cada vez más eficientes, y a las nuevas soluciones de almacenamiento energético descubiertas.

La coordinación de estos sistemas distribuidos hace posible que consumidores domésticos puedan disponer de instalaciones locales que les permitan generar y almacenar energía gracias a la comercialización de equipos asequibles. Estos consumidores podrían participar en los mercados eléctricos aportando su excedente (convirtiéndose en prosumers), con la salvedad de que se presentan dos inconvenientes principales: en primer lugar, existe una barrera de entrada delimitada por el volumen de excedente que manejan, que no es suficiente para participar en el mercado. En segundo lugar, estos prosumers no disponen de los elementos técnicos que harían posible esta integración con el mercado.

La figura del agregador emerge para solventar estas dos barreras aportando una solución integral. Con el objetivo de comercializar el excedente conjunto de una manera óptima, el agregador necesitará configurar muchas variables en un sistema que integrará todos los nodos y sus principales características (perfiles de consumo, de generación, precios del mercado, capacidad de almacenamiento etc.).

Este artículo esta organizado de la siguiente manera: en la sección 2 se realiza una descripción del modelo del sistema. En la sección 3, una descripción del modelo de optimización

desarrollado y los inputs / outputs que lo definen. En la sección 4 se describen aspectos de la implementación de los algoritmos y la integración con otros sistemas. Finalmente, se presentan brevemente los resultados obtenidos y qué posibles mejoras o avances quedan pendientes a partir del trabajo desarrollado. 2. Modelo del sistema

En esta sección se presenta el modelo desarrollado. Este modelo agregará diferentes nodos de energía (que pueden ser casas, edificios, vehículos eléctricos etc.) a los que se le denominan prosumers. Los prosumers tendrán conexión a la red eléctrica y podrán inyectar el excedente de energía cuando los algoritmos de optimización le demanden, tanto para uso de otros prosumers que lo necesiten, como para comercializar de manera agregada en el mercado diario. Estos nodos se han modelado como nodos que contienen una fuente de energía renovable, un sistema de almacenamiento y una serie de cargas no regulables que dependen directamente del consumo energético del prosumer.

El modelo de optimización se define sobre la potencia total agregada de la red, de todos los nodos que vayan a participar en el mercado diario.

!"## $ = !'(),'+

',- $ = 1, … ,24 (1) donde m es el número de nodos y !"## $ es la potencia total de la red agregada en la hora k.

2.1 Modelo individual de cada nodo

!'(),' $ = !#2(,' $ + !45,' $ − !78"),' $ $ = 1, … ,24 (2)

Aguilar J. et al. / XVI Simposio CEA de Ingeniería de Control, 2 - 3

donde !'(),' $ es la potencia total del nodo i en la hora k, !#2(,' $ es la potencia generada por la fuente de energía renovable del prosumer i en la hora k, !45,' $ es la potencia que le corresponde al almacenamiento instalado en el prosumer i en la hora k y !78"),' $ es la potencia consumida por las cargas no regulables del prosumer i en la hora k. Para el caso de uso desarrollado en simulación, los almacenamientos han sido considerados como baterías, por lo que !45,' $ es negativa durante los períodos de carga y positiva cuando la batería está descargando. El modelo individual tiene en cuenta también las eficiencias de carga y descarga de las baterías, que pueden ser distintas, lo que genera una relación no lineal. 3. Sistema de optimización

En esta sección se describe la solución del problema de optimización, una formulación basada en model predictive control (MPC). La función objetivo es maximizar el beneficio obtenido de la participación agregada en el mercado diario, satisfaciendo el autoconsumo y estableciendo unos parámetros de confort y riesgo parametrizables.

El sistema define de manera matemática las restricciones físicas del sistema de manera que siempre trabajará dentro de los límites establecidos y definidos por los dispositivos.

El algoritmo genera la curva agregada óptima con la que el agregador (comercializador-agregador) puede participar en las pujas del mercado diario, así como los setpoints individuales y otros parámetros de salida que se especifican en la subsección 3.2.

La optimización se puede configurar con diferentes modos, dependiendo del perfil del usuario, para lo que se han desarrollado cuatro modos de funcionamiento distintos. En el modo Aggregated Billing – No P2P el algoritmo optimiza teniendo en cuenta que el precio de la energía (tanto de consumo como de inyección) es común para todos los nodos y que, además, no existe coste peer to peer de transmisión de energía entre los nodos. En el modo Individual Billing – P2P cada nodo tiene configurado precios diferentes de energía y, además, existe un coste asociado al uso de red por transmisión de energía entre nodos de la misma red. Los otros dos modos resultan de la combinación de Aggregated Billing – P2P e Individual Billing – No P2P y cuya definición se puede inferir de la explicación de los modos anteriores.

A continuación, se definen qué parámetros de entrada y

outputs genera el algoritmo para la ayuda en la toma de decisiones del operador.

3.1 Parámetros de entrada

El horizonte de predicción sobre el que optimizará el algoritmo está configurado para la participación en el mercado diario y es de 24 horas con un tiempo de muestreo de una hora. Por lo tanto, el horizonte tiene 24 valores correspondientes a cada tiempo de muestreo y por día.

El algoritmo recibirá, por tanto, 24 valores de precios de compra y venta de energía (24 por cada nodo en el caso de Individual Billing), 24 valores de predicciones de generación

por cada nodo y 24 valores de predicciones de consume por cada nodo. Para establecer los límites físicos recibirá también los valores de capacidad, así como la eficiencia de carga y de descarga del almacenamiento de cada nodo. Adicionalmente también puede recibir, dependiendo del modo, 24 valores de coste peer to peer (24 valores por cada nodo en el caso Individual – P2P). Por último, el algoritmo puede recibir otros parámetros de configuración que permiten de manera más precisa obtener una optimización económica más arriesgada, o más conservadora, para diferentes tramos horarios dentro de un mismo día. El riesgo viene determinado por cómo de precisas sean las previsiones.

3.2 Salidas del algoritmo

La solución agregada con la que el algoritmo recomienda al agregador participar en el mercado diario consta de 24 valores que determinan si la agregación debe consumir o inyectar energía en la red. Adicionalmente se envían 24 valores por cada nodo en los que se especifican los setpoints que se recomiendan para seguir la curva en un entorno ideal y teniendo en cuenta la idealidad de las predicciones.

Figura 1: Conjunto de entradas y salidas del algoritmo

4. Implementación e integración

La implementación de los algoritmos se ha realizado en MATLAB, durante la fase de diseño y simulación; y en Python, durante la fase de despliegue de la plataforma.

La plataforma sobre la que se ha desarrollado el proyecto está basada en una arquitectura cliente-servidor servido a través de un api REST segura para la llamada a los algoritmos. Esta arquitectura permite una fácil conexión a través de peticiones http para la integración con otras plataformas de software libre o propietarias, así como posibilita la conexión IoT (Internet of Things) de los dispositivos directamente para la configuración del sistema.

5. Resultados y conclusiones

Los algoritmos están diseñados para formar parte de una plataforma para la ayuda en la toma de decisiones durante la operación de una agregación en el mercado diario. Los operadores pueden simular varias veces con parámetros diferentes (por ejemplo, con previsiones más optimistas o menos; diferentes configuraciones de nodos en número, o en

Aguilar J. et al. / XVI Simposio CEA de Ingeniería de Control, 3 - 3

capacidad individual; baterías más eficientes, o menos etc.). Una vez obtenida esa simulación, es el operador decide si ir con ese perfil (24 valores, uno por hora) al mercado diario, o establecer diferentes cambios personalizados para asegurar que la agregación, sea capaz de cumplir con lo comprometido en la oferta en la fase de operación al día siguiente.

La agregación sobre la que se ha realizado simulaciones consta de 40 casas unifamiliares y 5 edificios con paneles solares y baterías de litio. Los resultados de las simulaciones de los algoritmos son más que alentadores incurriendo en un ahorro agregado notable gracias a la comercialización del excedente. Este beneficio que gestionará el agregador podrá repercutirlo en forma de incentivo a los usuarios finales en una relación win-win gracias a la utilización de las energías renovables.

Analizando los resultados obtenidos se puede determinar que el proceso de optimización depende de una manera muy sensible de las predicciones de precios, generación y consumo. Actualmente estos modelos de predicción se encuentran externos al algoritmo. Mediante los parámetros configuración, el algoritmo puede amortiguar las desviaciones de las predicciones y la incertidumbre a costa de realizar una optimización más conservadora y con un beneficio óptimo inferior.

Como trabajo futuro, actualmente se está trabajando en la integración de estos algoritmos dentro de un sistema integrado multiservice que permita, no solamente participar en el mercado diario, sino que con la misma arquitectura sea posible la en otros mercados (intraday, demand-response etc.) de una manera simultánea, integrada y agregada, así como incluir la programación de domestic appliances capaces de ser programados de una manera inteligente mediante un mismo sistema de algoritmos de optimización común.

Figura 2: Diseño de la arquitectura de la plataforma inteligente de agregación de mercados.

Este sistema integrado permite ir agregando diferentes agentes inteligentes que aporten valor a una solución que irá siendo, cada vez más, independiente del know-how aportado por el usuario o el operador, e irá aprendiendo de los datos almacenados en base a criterios extraídos del procesamiento de datos y aprendizaje automático.

English Summary

Advanced Optimization System for energy prosumers aggregation and their participation in the energy market of Day Ahead.

Abstract

This paper presents a novel approach for the optimization of the operation in distributed energy systems that operate in the Day Ahead market. A model predictive control (MPC) algorithm was developed to solve a multiobjective problem applied to a set of nodes equipped with a renewable energy source, a storage system and a connection to the network with the capacity to consume and inject energy. Keywords:

Optimization, Algorithms, Energy, Mathematical

Programming, Predictive Control, Mixed Integer Programming

Referencias

Andini C, Cabral R., Santos E., The macroeconomic impact of renewable electricity power generation projects, Renewable Energy (2018), doi: 10.1016/j.renene.2018.07.097

Djørup Sø, Thellufsen JZ, Sorknæs P, The electricity market in a renewable energy system, Energy (2018), doi: 10.1016/j.energy.2018.07.100.

García-Torres F., Bordons C., 2015. Optimal Economical Schedule of Hydrogen-Based Microgrids with Hybrid Storage Using Model Predictive Control. IEEE Transactions on Industrial Electronics, VOL. 62, Nº 8, 5195-5207.

Najafi-Ghalelou A., Zare K., Nojavan S., Optimal Scheduling of multi-smart buildings energy consumption considering power exchange capability (2018).

Parisio A., Rikos E., Glielmo L., 2014. A Model Predictive Control Approach to Microgrid Operation Optimization. Control. IEEE Transactions on Industrial Electronics, VOL. 22, Nº 5, 1813

Twaha S., Ramli M., A review of optimization approaches for hybrid distributed energy generation systems: Off-grid and grid-connected systems (2018)

http://www.ceautomatica.es/og/ingenieria-de-control

Procesamiento masivamente paralelo en control predictivo

A. D. Carnereroa,⇤, D. R. Ramireza, D. Limona, D. Munoz de la Penaa

a

Departamento de Ingenierıa de Sistemas y Automatica, Escuela Tecnica Superior de Ingenierıa, Universidad de Sevilla, Camino de los Descubrimientos s/n,

41092, Sevilla, Espana.

Resumen

Este artıculo presenta las ideas y resultados iniciales de la tesis doctoral “Procesamiento masivamente paralelo en controlpredictivo” que se desarrolla en el Departamento de Ingenierıa de Sistemas y Automatica de la Universidad de Sevilla. Se exponenlos temas en torno a los que gira el desarrollo de la tesis: arquitectura CUDA para el procesamiento masivamente paralelo y suaplicacion a diversas tecnicas de control predictivo, que por sus caracterısticas, pueden beneficiarse de dicha arquitectura. Copyright

c� 2018 CEA.

Palabras Clave:

procesamiento paralelo, simulaciones de Montecarlo, control basado en datos, control predictivo.

1. Introducci´on

El control predictivo (Rawlings and Mayne, 2009) es, sinduda alguna, la tecnica de control avanzado de mayor exito enla industria. El caracter intuitivo de sus conceptos fundamen-tales, junto con la facilidad para tratar el caso multivariable,y la capacidad de considerar restricciones en el calculo de laley de control, lo han hecho muy popular, dentro y fuera delmundo academico. A las formulaciones originales del controlpredictivo, tales como el DMC o GPC (Camacho and Bordons,2004), han seguido formulaciones cada vez mas complejas quemejoran o garantizan el rendimiento, estabilidad y robustez dela ley de control. Tales mejoras, sin embargo, acarrean un pre-cio que compromete su utilidad en la industria. Dicho precio esla elevada carga computacional que pueden presentar las estra-tegias de control predictivo mas recientes. Poca utilidad tieneuna estrategia de control muy avanzada desde el punto de vis-ta de su concepcion teorica, si luego no puede aplicarse en lapractica debido a sus elevados requisitos computacionales. Enultimo extremo, debe ser factible una implementacion en tiem-po real usando valores tıpicos en los parametros del controlador(por ejemplo, horizontes de prediccion y control suficientemen-te largos). Teniendo en cuenta lo expuesto, no debe sorpren-der que se hayan hecho esfuerzos para bajar los requerimientoscomputacionales de las estrategias de control predictivo, bus-cando, por ejemplo, soluciones analıticas a la ley de control

⇤Autor en correspondencia.Correos electronicos: [email protected] (A. D. Carnerero),

[email protected] (D. R. Ramirez), [email protected] (D. Limon), [email protected](D. Munoz de la Pena)

(Ramirez and Camacho, 2006) o implementaciones suboptimas(Alamo et al., 2007). En la mayor parte de los casos, todas lasestrategias de reduccion de carga computacional vienen con unpero, sea por ejemplo, la imposibilidad fısica de almacenar lasolucion analıtica por lo compleja de su descripcion o el rendi-miento que se pierde en aras a mantener la carga computacio-nal dentro de lo aceptable. En esta tesis se pretende explorar lasposibilidades que ofrece una tecnologıa cuyo origen y finalidadiniciales no estan relacionadas con el control automatico.

En los ultimos anos, el crecimiento de la industria del video-juego ha venido acompanado por un cambio en el modo en elque los videojuegos se desarrollan desde el punto de vista de suimplementacion hardware. Si antes los desarrolladores debıanadaptar sus proyectos a plataformas hardware muy limitadas,cuyo elemento de calculo mas potente era la unidad de centralde proceso (CPU), en la actualidad los usuarios demandan unosgrados de realismo grafico no alcanzables simplemente usandoprocesadores mas potentes. En demanda a estas necesidades,surgio el concepto de unidad de proceso de graficos (GPU) co-mo un procesador especıficamente concebido para tratar condatos que representan graficos o imagenes. Dado que la mayorparte de los algoritmos de proceso grafico involucran operacio-nes que afectan a unos pocos datos simultaneamente, pero quedeben realizarse sobre todos los datos que componen una ima-gen, el uso de arquitecturas de procesamiento en paralelo es unanecesidad que surge de manera natural. Debido a la alta resolu-cion de las imagenes en la actualidad, se han desarrollado lo quese conocen como arquitecturas de procesamiento masivamenteparalelo, en el cual el numero de elementos de calculo del pro-cesador no se mide en decenas si no en centenas o millares.

jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman
jlguzman

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 2

Aunque este tipo de arquitecturas no son la panacea para resol-ver cualquier tipo de problema con gran carga computacional,su utilizacion en control predictivo puede facilitar la implemen-tacion en tiempo real de las estrategias mas complejas.

En este artıculo se discute la aplicacion de tecnicas de pro-cesamiento masivamente paralelo a aquellas estrategias de con-trol predictivo que mas puedan beneficiarse de dicho paradigmade computacion. En particular se consideran tecnicas de controlpredictivo basadas en datos (Gomez et al., 2016; Salvador et al.,2018) y aquellas basadas en la consideracion de escenarios enlos que se simulan diferentes condiciones de operacion (Kantaset al., 2009). En ambos tipos de control, se deben realizar opera-ciones sobre conjuntos de datos de manera que las operacionesson independientes entre si, por lo que pueden ser paralelizadas.

El resto del artıculo esta organizado como sigue: la seccion2 describe la arquitectura de procesamiento masivamente pa-ralelo usada. El caso de estudio sobre el que se aplicaran losalgoritmos desarrollados se describe en la seccion 3. La apli-cacion de estas tecnicas al control predictivo basado en datosy en escenarios se discute en las secciones 4 y 5. Finalmente,en la seccion 6 se exponen las conclusiones y lineas de trabajofuturas.

2. Arquitecturas de procesamiento masivamente paralelo

Tradicionalmente, la manera de mejorar el rendimiento deun ordenador personal estaba completamente enfocado a la me-jora de su CPU. Pero, debido a las limitaciones que poseen losprocesos de fabricacion, los fabricantes e investigadores tuvie-ron que empezar a buscar otras posibilidades. En el campo dela supercomputacion, empezaron a desarrollar arquitecturas deprocesamiento paralelo, consistentes en usar varios procesado-res en una primera instancia o, mas tarde, incluir varios nucleosen un solo procesador. Paralelamente las procesadores graficoso GPU empezaron a desarrollarse en los anos 80 como conse-cuencia del exito de sistemas operativos con interfaz grafica.La demanda de dispositivos que mejoraran el rendimiento delsistema a la hora de presentar los graficos en pantalla llevo aldesarrollo de GPU basadas en arquitecturas paralelas, de ma-nera analoga a lo que habıa sucedido en el caso de las CPUmultinucleo. La diferencia estriba en que, mientras en el casode las CPU multinucleo se exige que estos sean capaces de eje-cutar tareas complejas y de proposito general, los elementos decalculo de las GPU estan enfocados a tareas mas simples, perosobre una gran cantidad de datos. Esto motiva la principal dife-rencia en el tipo de paralelismo que encontramos en las CPU ylas GPU. En las primeras se emplean nucleos de proposito ge-neral y gran capacidad de calculo, mientras que en las segundasel proposito es mas especıfico y la capacidad de calculo mascontenida. Esto repercute en el numero de nucleos que se pue-den incluir en un circuito integrado, de ahı que en las CPU elnumero de nucleos puede ser de hasta un par de decenas mien-tras que en las GPU el numero de nucleos se mide en centenaso millares.

No paso mucho tiempo hasta que se propusiera el uso deGPUs para resolver problemas de calculo diferentes a los im-plicados en el procesamiento de graficos. Esta tarea se faci-

lito en gran medida cuando NVIDIA desarrollo una arquitec-tura de GPUs enfocada tanto para graficos como para tareasde proposito general. Esa arquitectura se conoce como CUDA(Compute Unified Device Architecture), y se basa en un mo-delo de programacion tipo SIMD, es decir se ejecuta una solainstruccion que opera sobre multiples datos. A grandes rasgos,una GPU CUDA esta compuesta por una serie de grupos demultiprocesadores (5 en el caso de la GK110 usada en los re-sultados mostrados en este artıculo) llamados Graphics Proces-sing Cluster (GPC), cada uno de los cuales formado por una se-rie de multiprocesadores (3 en la GK110) llamados StreamingMultiprocessor (SM) que a su vez poseen una gran cantidad deelementos de calculo llamados nucleos o cores (192 en el casode la GK110). El numero total de nucleos es por tanto muy ele-vado (2880 en la GK110). La figura 1 muestra la organizacioninterna de la GPU GK110 de NVIDIA.

Figura 1: Diagrama de bloques de la GK110 (imagen cortesıa de NVIDIA).

La forma de trabajar con la GPU es con un flujo de trabajocomo el descrito en la figura 2, en el que se comienza copiandolos datos de la memoria principal del computador a la memoriade la GPU, posteriormente se lanza la ejecucion del codigo queha de ejecutarse en paralelo (llamado kernel) y tras la ejecucionse debe copiar el resultado desde la memoria de la GPU a lamemoria principal.

Figura 2: Representacion del flujo de informacion en CUDA (wikipedia).

Como consecuencia del modelo SIMD, se tienen dos limi-taciones fundamentales:

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 3

1. Todos los nucleos ejecutan el mismo codigo.2. La sincronizacion es estricta, hasta el punto de que si un

nucleo acaba antes debe esperar ocioso a que acaben losdemas.

Desde un punto de vista logico, la organizacion del hardwarede la GPU se manifiesta en la forma en la que se organizan lasinstancias del kernel que se ejecutan en paralelo. Cada instan-cia se ejecuta en lo que se denomina un hilo (thread) y los hilosse organizan en bloques, de manera que cada bloque de hiloses asignado a un solo multiprocesador. Cada hilo y cada bloqueposeen identificadores que se pueden usar dentro del codigo pa-ra que cada hilo pueda identificarse a si misma y de esa maneradeterminar que tareas debe realizar.

3. Caso de estudio: la planta de cuatro tanques

Como caso de estudio al que aplicar las estrategias de con-trol predictivo implementadas en CUDA, que se investigaranen esta tesis, se propone el proceso conocido como la plantade cuatro tanques (Johansson, 2000), cuyo esquema se presentaen la figura 3, y que consta de 4 tanques donde los superioresdescargan sobre los inferiores. Dispone ademas de dos bombas

Figura 3: Representacion grafica de la planta de 4 tanques

en la parte mas baja que se encargan de proporcionar los cau-dales (q

a

y q

b

) para que estos recipientes puedan llenarse. Loscaudales se reparten tras pasar por una valvula de 3 vıas, de ma-nera que parte ira a parar al tanque superior y el resto al inferior(para cada uno de los 2 grupos de tanques). La apertura de es-tas valvulas (�

a

y �b

) se realiza de manera manual y definenen tanto por uno la manera en que se dividen los caudales. Laplanta posee por tanto dos variables manipulables (q

a

y q

b

) quepueden usarse para controlar los niveles de dos tanques, siendolos elegidos para esta tesis la pareja de tanques inferiores. Ladinamica del sistema depende de los valores de �

a

y �b

, presen-tando un cero de transmision que varıa segun los valores de loscoeficientes citados. A partir de primeros principios es facil ob-

tener un modelo no lineal del sistema dado por las ecuaciones:

A

dh1

dt

= �a1p

2gh1 + a3p

2gh3 + �a

q

a

3600(1)

A

dh2

dt

= �a2p

2gh2 + a4p

2gh4 + �a

q

b

3600(2)

A

dh3

dt

= �a3p

2gh3 + (1 � �b

)q

b

3600(3)

A

dh4

dt

= �a4p

2gh4 + (1 � �a

)q

a

3600(4)

donde h

k

son los niveles de los tanques medidos en metros, a

k

representan las secciones de los orificios de descarga mientrasque la seccion correspondiente a los tanques viene representadapor la letra A.

Este caso de estudio esta disponible en el laboratorio delDepartamento de Ingenierıa de Sistemas y Automatica de laUniversidad de Sevilla, por lo que se pretende que todos los re-sultados, inicialmente probados en simulacion, sean finalmentevalidados en la planta real.

4. CUDA en control predictivo basado en datos

Como primera lınea de trabajo en esta tesis se ha estudia-do la paralelizacion de un algoritmo de control predictivo yaimplementado de manera secuencial (Gomez et al., 2016; Sal-vador et al., 2018). El algoritmo no precisa de ningun modeloexplıcito del proceso a controlar, ni tampoco lo identifica enlınea para luego usarlo en el diseno de la ley de control. Enlugar de eso utiliza una base de datos de trayectorias de buclecerrado almacenadas para resolver un problema de seguimientode consignas, de manera que, tal y como se muestra en la figura4, usando las trayectorias almacenadas se calculan las accionesde control necesarias para llevar de manera optima (en el senti-do de minimizar un ındice de coste) al proceso desde el estadoinicial x

k al deseado x

re f . Es importante resenar que no se po-ne ningun requisito sobre las trayectorias de bucle cerrado dela base de datos, pudiendo corresponder a uno o varios contro-ladores del mismo o diferente tipo. El algoritmo, cuyas ideas

Figura 4: Ilustracion de la tarea a resolver en el DBPC en un caso en R2

principales describiremos a continuacion, se basa en expresartanto x

k

como x

re f como combinacion de una serie de estados y

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 4

referencias almacenados en la base de datos de manera que, enultimo de extremo la accion de control a aplicar es la combina-cion de las acciones de control correspondientes a los estadosalmacenados en la base de datos.

El algoritmo comienza determinando, para cada trayectoriaalmacenada en la base de datos, el estado almacenado mas cer-cano al actual x

k

. Dado que se pretende llevar el estado actuala uno de referencia, el estado sobre el que se realiza la busque-da es un estado aumentado para incluir las referencias, es decirx

k

= [x

k

, xre f ]. La busqueda de los estados mas cercanos consis-te, por tanto, en evaluar una funcion de distancia entre el estadoaumentado actual y todos los estados aumentados almacenadosde cada una de las trayectorias, de manera que de cada trayec-toria nos quedaremos tan solo con aquel estado aumentado quede la menor distancia al estado aumentado actual. Es decir queel numero maximo de candidatos sera igual al de trayectorias.

Una vez que se tiene formado el conjunto de los estadoscandidatos, se busca el menor numero de candidatos que es ca-paz de incluir en una envoltura convexa tanto al estado actualcomo a la referencia actual. Es decir se busca el menor numerode candidatos tales que satisfacen las siguientes restricciones:

ncX

i=1

↵i

= 1 8i = 1, 2, ..., nc (5)

ncX

i=1

↵i

x

c

i

= x

k

8i = 1, 2, ..., nc (6)

X↵

i

x

re f

i

= x

re f 8i = 1, 2, ..., nc (7)

↵i

� 0 8i = 1, 2, ..., nc (8)

donde los x

c

i

representan los estados candidatos cercanos al es-tado x

k, y x

re f

i

son las referencias correspondientes a las trayec-torias de los estados candidatos. Para ello se utiliza una busque-da por biseccion del radio ✏ que engloba el menor numero decandidatos que cumplen las restricciones de convexidad antesdescritas. En esa busqueda, para un radio ✏ pueden darse dossituaciones. La primera es que el conjunto de puntos dentro delentorno definido por el radio satisfaga las restricciones, tal ycomo se ilustra en la figura 5. En este caso se buscarıa un radiomenor que siga obteniendo una envoltura convexa. Puede suce-

Figura 5: Caso de solucion factible encontrada en DBPC.

der sin embargo que para un determinado radio no se encuentreuna envoltura convexa que englobe tanto al estado actual comoa la referencia actual. En este caso habrıa que repetir la busque-da pero con un radio mayor, hasta encontrar la de menor radioque satisfaga las restricciones.

Una vez se ha fijado el conjunto de candidatos definitivo,como aquel incluido en el radio mınimo determinado anterior-mente, se pasa a determinar el coste en el que se incurrio encada trayectoria desde el estado candidato x

c

i

hasta alcanzar lareferencia. Notese que esta es la parte ”predictiva”de la estrate-gia de control, pues sirve para predecir el coste futuro de la tra-yectoria actual en base a los costes pasados de las trayectoriasalmacenadas. Una vez calculados los costes o ındices de rendi-miento ID

i

asociados a cada candidato x

c

i

, se busca la pondera-cion optima de cada candidato, que viene dada por la solucionde:

MinimizarncX

i=1

↵i

ID

i

Sujeto ancX

i=1

↵ = 1 8i = 1, 2, ..., nc

ncX

i=1

↵i

x

c

i

= x

k

8i = 1, 2, ..., nc (9)

X↵

i

x

re f

i

= x

re f 8i = 1, 2, ..., nc

↵i

� 0 8i = 1, 2, ..., nc

Una vez resuelto el problema de optimizacion anterior se cal-cula la senal de control que hay que aplicar como:

u

k

=

ncX

i=1

↵⇤i

u

c

i

(10)

donde ↵⇤i

son los coeficientes ↵i

obtenidos al resolver el pro-blema (9) y los u

c

i

son las acciones de control asociadas a cadaestado almacenado candidato x

c

i

. La figura 6 muestra el com-portamiento en bucle cerrado obtenido usando el algoritmo so-bre el caso de estudio, usando una base de datos de 100.000 tra-yectorias obtenidas al usar diferentes controladores PI y LQR.Puede observarse que el control obtenido es satisfactorio.

Figura 6: Resultados de la simulacion con el caso de estudio.

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 5

En el caso de que no exista un radio ✏ capaz de definir unaenvoltura convexa que incluya al estado actual y la referencia,o bien que ese radio sea demasiado grande, se aplica la accionde control del candidato mas cercano. El hecho de no admitirradios demasiado grandes es evitar que se consideren candi-datos demasiado lejanos al estado actual, que corresponderıana estados en los que el proceso puede presentar una dinamicademasiado distinta a la actual. Obviamente, este caso se pue-de presentar cuando la base de datos es demasiado pequena enrelacion a la dimension del estado, o cuando el estado actualesta en una zona del espacio de estado en la cual el proceso noha operado anteriormente. A modo de ilustracion, en el caso deestudio, con una base de datos de 500 trayectorias este proble-ma se produce en promedio un 8 % de los periodos de muestreode un conjunto de simulaciones hechas con diferentes condi-ciones iniciales y ruido aleatorio en los niveles simulados. Si labase de datos se dobla de tamano, el problema solo aparece el3,2 % de las veces y para tamanos igual o superiores a 10000trayectorias, el problema desaparece.

4.1. Tareas en la GPU y mejora computacional

Finalizada la descripcion del algoritmo cabe preguntarseque tareas pueden realizarse ventajosamente en la GPU y cua-les en la CPU. En primer lugar hay que tener en cuenta que elflujo de trabajo y el hardware de la GPU imponen unas sobre-cargas (overheads) que hacen que sea necesaria una carga detrabajo mınima para que usar la GPU sea rentable en terminosde mejoras computacionales. Por otra parte no todas las tareasson igualmente susceptibles de ser paralelizadas. En el caso delalgoritmo descrito podemos considerar las siguientes tareas:

Busqueda de candidatos. Este problema incluye el calcu-lo de la distancia de una nube de puntos a otro y el calculode los mınimos de cada trayectoria.

Calculo de los ındices de desempeno.

Resolucion del problema (9) y la comprobacion de lasrestricciones.

La busqueda de candidatos, tanto el calculo de la distancia co-mo el calculo de los puntos mas cercanos de cada trayectoria esuna tarea altamente paralelizable, ya que se puede hacer de ma-nera independiente para cada entrada de la base de datos, y esde hecho la que mas se va a beneficiar de su paralelizacion, porlo que ha sido implementada en su totalidad en la GPU. Tam-bien hay que tener en cuenta que la cantidad de informacion amanejar es bastante grande, pues para una base de datos ”pe-quena” de 1000 trayectorias, se tienen aproximadamente unas2 millones de filas. Eso supone que hay que calcular la distan-cia del estado actual a unos 2 millones de estados almacenados,y cada una de esas operaciones es independiente de las demaspor lo que se puede calcular en paralelo de manera muy eficien-te. Por otra parte la busqueda de los mınimos tambien se puederealizar eficientemente en la GPU usando reducciones, es de-cir lanzando multiples hilos que devuelvan el mınimo de dospuntos hasta que se obtenga el mınimo global.

Por otro lado, el calculo de los ındices de desempeno es unproblema muy facilmente paralelizable debido a que el ID decada trayectoria es independiente del de la siguiente. Sin em-bargo, debido a que la cantidad de IDs a calcular no es suficien-temente grande y que las operaciones que se realizan son real-mente sencillas, no se obtiene una mejora relevante. En cual-quier caso, si contribuye a un mejor funcionamiento realizar-lo en la GPU pues evita el tener que incurrir en una sobrecar-ga mayor por transferencias entre la memoria de la GPU y delcomputador.

Finalmente, el problema de optimizacion (9) se ha realizadopor completo en la CPU ya que el numero de variables que tıpi-camente se manejan no es muy grande (inferior siempre a 500en el caso de estudio) debido a que el algoritmo intenta buscarla envoltura convexa mas pequena, y por tanto nunca se tieneque resolver un problema de optimizacion demasiado grande.De hecho se hizo una implementacion en la GPU de un algorit-mo de programacion cuadratica1 facilmente paralelizable (Cai-rano et al., 2013), sin obtener mejora alguna sobre la funcionestandar de Matlab.

La figura 7 muestra la mejora computacional obtenida en elcalculo de los mınimos y de las distancias, en funcion del ta-mano de la base de datos. La GPU usada es una GK110 con 6Gb de memoria y la CPU es un Core i7 de 6 nucleos. En ese sen-tido es importante recalcar que la implementacion en Matlab noes totalmente secuencial, pues Matlab vectoriza por defecto mu-chas de sus operaciones, repartiendo la carga entre los nucleosde la CPU. La implementacion de los kernel de la GPU se hahecho en lenguaje C usando el interfaz MEX de Matlab, paraque puedan ser llamados desde Matlab como si de otra funcioncualquiera se tratase. Puede observarse en ambas figuras queinicialmente se produce un incremento de la mejora muy fuer-te, que corresponde a tamanos de las bases de datos que vanalcanzando porcentajes de ocupacion de los recursos de la GPUcada vez mayores, es decir, que la GPU va asumiendo cada vezuna mayor carga de trabajo. Pasada esa fase, se alcanza el por-centaje maximo de ocupacion, de manera que a partir de esostamanos de base de datos la mejora se va estabilizando. Puedeobservarse que en el calculo del mınimo hay una mayor irregu-laridad debido al diferente numero de iteraciones que realiza elalgoritmo de biseccion para buscar el mınimo radio al variar labase de datos.

Otro aspecto de interes es el numero de hilos por bloqueque se usan, es decir el tamano del bloque. Este parametro esespecıfico de cada aplicacion y GPU, aunque se recomiendaque sea un multiplo del tamano de una madeja (warp), que es elnumero de hilos que se ejecutan concurrentemente (en el casode la GK110 el tamano de madeja es 32). En la figura 8 semuestran los tiempos normalizados de calculo de las dos tareasprincipales. Puede observarse que en el calculo de mınimos, elmejor rendimiento se obtiene para un tamano de bloque igualal de la madeja, mientras que en el calculo de distancias a partirde ese valor es irrelevante el valor que se escoge. Esto es muyimportante, pues el numero de bloques esta limitado, por lo que

1Inicialmente se considero minimizar en (9) una funcion cuadratica de los↵

i

.

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 6

Figura 7: Mejora en el calculo de los mınimos (arriba) y las distancias (abajo).

puede ser necesario usar bloques grandes (maximo 1024 hilos)si el tamano de la base de datos es muy grande.

Como conclusion a esta seccion senalamos que las pruebashan demostrado que la implementacion en GPU es una bue-na opcion cuando la base de datos es muy grande (a partir de10000 trayectorias), alcanzandose mejoras computacionales enla lınea de lo esperado, si bien es cierto que para bases de da-tos pequenas, las sobrecargas debidas al flujo de trabajo de laGPU eclipsan por completo las posibles ganancias que pudiesereportar el uso de la GPU.

5. CUDA en control predictivo mediante algoritmos de Mon-

tecarlo

En esta seccion se muestran los resultados preliminares deuna segunda lınea de trabajo de la tesis, el uso de implemen-taciones paralelas en tecnicas de control predictivo basadas enescenarios. Los primeros resultados se centran en un algoritmodel tipo Montecarlo secuencial, en el que se generan partıculasque representan las posibles soluciones del problema y se lasevalua en base a unos escenarios aleatorios. El algoritmo adop-tado ha sido definido en el contexto de la gestion de trayectoriasde aviones en el acercamiento a un aeropuerto (Kantas et al.,2009) y se ha adaptado para tratar el caso de estudio. La estra-tegia, cuyos pasos se detallan en el algoritmo 1 se basa en losconceptos de partıcula y escenario:

Una partıcula representa una posible solucion del proble-ma MPC planteado. Es decir, cada partıcula posee una se-

Figura 8: Tiempo normalizado de computacion respecto a la cantidad de hebraspor bloque, en la busqueda de mınimos (arriba) y calculo de distancias (abajo).

cuencia de acciones de control para todo el horizonte deprediccion. Conforme aumente la complejidad del pro-blema (por ejemplo, aumentando el horizonte de predic-cion), el numero de partıculas necesarias para poder ob-tener una solucion relativamente buena tambien lo hara.Cada partıcula tiene asociada una serie de variables in-herentes a ella: la secuencia de acciones de control y unpeso (indica la bondad relativa de una partıcula frente alas demas).

Un escenario corresponde a un valor de la incertidumbreque afecta a la dinamica del proceso a controlar. En elcaso de usar un modelo ARX las incertidumbres se mate-rializan en perturbaciones en los coeficientes del modeloo perturbaciones aditivas.

Inicialmente, las acciones de control son generadas a partirde una distribucion uniforme entre los lımites de estas. Pos-teriormente se actualizaran mediante el uso de las tecnicas deremuestreo y perturbacion.

El remuestreo se utiliza para tratar de ir aglutinando laspartıculas en zonas que presentan mejor desempeno, tal y comose ilustra en la figura 9. El metodo utilizado es el de Kitagawa(Kitagawa, 1996). Cabe destacar que el remuestreo no es en-torno a la partıcula con mejor desempeno, si no que de maneraprogresiva se van formando agrupaciones de partıculas en dis-tintas zonas con buen rendimiento, de manera que se reducen

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 7

Algoritmo 1: Algoritmo de Montecarlo secuencial.Datos: N

p

(numero de partıculas), horizontes deprediccion, funcion de coste.

1 Generar de manera aleatoria las acciones de control decada partıcula;

2 Inicializar los pesos de las partıculas a 1N

p

;3 repetir

4 para todo escenario hacer

5 Predecir la evolucion del estado de cada partıculaa lo largo del horizonte de prediccion;

6 Calcular los costes y el desempeno normalizadode cada partıcula;

7 Actualizar los pesos;8 fin

9 Remuestreo y perturbacion de las partıculas(acciones de control);

10 Reinicio de los pesos de las partıculas a 1N

p

;11 hasta que se cumpla la condicion de parada;12 Escoger la partıcula que presenta un mejor desempeno;

las posibilidades de que la totalidad de la poblacion se centreen un mınimo local de la funcion de coste.

En cuanto a la perturbacion, esta mueve las partıculas en elespacio local de busqueda con el objetivo de explorar nuevas so-luciones. Cada partıcula es perturbada de manera independientey aleatoria. Se trata de ruido blanco aditivo multiplicado por unadeterminada cantidad que va decreciendo conforme avanzan lasiteraciones, de manera que se favorece la convergencia en tornoa las partıculas con mejor desempeno.

Un detalle clave es el papel que tienen los pesos de cadapartıcula en el algoritmo. El peso de cada partıcula indica eldesempeno de sus acciones de control. Una partıcula con unpeso muy cercano a uno significa que tiene un gran desempeno.Debido a esto, en el remuestreo, se tiende a generar las nuevaspartıculas en el entorno de las que tienen un peso mas cercano auno. Por el contrario, una partıcula con un peso cercano a cerotiene un desempeno muy malo e interesa que no vuelva a apa-recer en la siguiente iteracion. El peso de las partıculas tieneconnotaciones estadısticas y es representativo de la probabili-dad que tiene una partıcula de ser escogida como “semilla” paraluego ser perturbada en el remuestreo.

Para cada escenario de ruido, se predice la evolucion delsistema para cada una de las partıculas y se calcula el valorde la funcion de coste y desempeno normalizado asociado. Estedesempeno se calcula de manera que valga uno para la partıculacon menor valor de la funcion de coste y cero para la que tengamayor valor de la funcion de coste. En la actualizacion, el pesode cada partıcula sera multiplicado por su desempeno norma-lizado en cada iteracion. Esto significa que las partıculas quepresenten un buen desempeno veran practicamente inalteradosu peso, mientras que las partıculas con mal desempeno verandecrementado su peso, por lo que se tendera a evitarlas en el re-muestreo. Tambien, debido a la interpretacion estadıstica de lospesos, se normalizan de nuevo los pesos de manera que la suma

Figura 9: Efectos del remuestreo: En la poblacion inicial (arriba) se marcan conun circulo aquellas partıculas con mejor desempeno. Al correr las iteraciones,el remuestreo hace que la poblacion se concentre en torno a esas partıculas conmejor desempeno (abajo).

de los pesos de todas las partıculas sea igual a la unidad. Noteseque la actualizacion de los pesos se hace para cada escenario,lo que implica que al final del bucle que comienza en la lınea 4del algoritmo, el peso de cada partıcula refleja el desempeno dela misma a lo largo de todos los escenarios. Mas adelante, en lalinea 10, se indica una reinicializacion de los pesos a su valororiginal debido a que, tras el remuestreo, las partıculas son nue-vas y hay que evaluarlas de nuevo, por lo que comienzan todascon el mismo peso.

La figura 10 muestra los resultados de aplicar el algoritmo alcaso de estudio. Puede observarse que el control es satisfactorio(al igual que con el algoritmo de la seccion 4). Sin embargo seobserva que la accion de control es ruidosa, incluso cuando enla simulacion del proceso no se ha considerado ruido alguno.Esto es una consecuencia indeseable del hecho de que las ac-ciones de control se perturban de manera aleatoria, lo que hacedifıcil mantener constante el nivel de actuacion necesario en elpunto de equilibrio. Como lınea de actuacion futura se pretendeemplear algun tipo de suavizado para corregir este problema.

5.1. Tareas en la GPU

La mayor parte de las tareas realizadas durante la ejecuciondel algoritmo son paralelizables. Esto es debido a que se reali-zan de manera independiente sobre cada una de las partıculas.

A. D. Carnerero et al. / XVII Simposio CEA de Ingenierıa de Control y V Seminario de Innovacion Docente en Automatica 1–8 8

Figura 10: Resultados de la simulacion sobre el caso de estudio, usando 10000partıculas, 25 escenarios y 25 remuestreos.

Las tareas principales que aparecen a lo largo del algoritmo sonlas siguientes:

Prediccion de la evolucion del estado: debe realizarse pa-ra cada partıcula en cada uno de los escenarios plantea-dos. La solucion adoptada actualmente la calcula en pa-ralelo para todas las partıculas en un determinado escena-rio, iterandose sobre cada uno de los escenarios definidos,como puede verse en el bucle que comienza en la lınea 4.

Calculo de la funcion de costes y los desempenos: deigual manera que en el caso anterior se calculan en pa-ralelo sobre cada partıcula y escenario.

Actualizacion de los pesos: se trata de una operacion ex-tremadamente sencilla que realmente no aporta gran me-jorıa con respecto a la CPU.

Remuestreo y perturbacion: se realiza parcialmente entrela CPU y la GPU debido a que incluye diversas operacio-nes de acumulacion de resultados que resultan mas facilen la CPU.

La figura 11 muestra la mejora que se obtiene al usar una imple-mentacion GPU sobre la CPU. Puede observarse que la mejoraes muy significativa y a partir de unas 20000 partıculas la im-plementacion GPU es unas 25 veces mas rapida. Por otra partepuede verse como la mejora obtenida es mayor que en el casode la seccion 4, prueba de que las mejoras obtenidas al usar laGPU son muy dependientes del tipo de aplicacion que se tra-te. Por otra parte, se ha realizado el analisis de la configuracionoptima de hilos por bloque, obteniendose un resultado similarque en el caso de la seccion 4.

6. Conclusiones

Los resultados presentados en este trabajo confirman que eluso de implementaciones en GPU mejora bastante los tiemposde calculos en aquellas estrategias que, como las descritas, seanparalelizables al menos en cierto grado. Como trabajo futurose espera validar los resultados sobre la planta real, en amboscasos. En el caso del algoritmo de la seccion 4 se espera in-corporar restricciones y estudiar su robustez en relacion a las

Figura 11: Mejora obtenida por la implementacion GPU.

discrepancias entre la dinamica del proceso y lo almacenadoen la base de datos. Por otra parte, el algoritmo de Montecar-lo no ha sido paralelizado al maximo pues la evaluacion de losescenarios sigue siendo puntual. En ambas estrategias esta pen-diente dotarlas de garantıas de estabilidad en bucle cerrado. Seespera que en el transcurso de la tesis surjan nuevas aportacio-nes en el uso de arquitecturas masivamente paralelas en controlpredictivo.

Agradecimientos

Los autores agradecen la financiacion de Ministerio de Eco-nomıa y Competitividad mediante el proyecto DPI2016-76493-C3-1-R cofinanciado por los Fondos FEDER europeos.

Referencias

Alamo, T., Ramirez, D., de la Pena, D. M., Camacho, E., 2007. Min–max mpcusing a tractable qp problem. Automatica 43 (4), 693 – 700.

Cairano, S. D., Brand, M., Borto↵, S. A., 2013. Projection-free parallel quadra-tic programming for linear model predictive control. International Journal ofControl 86 (8), 1367–1385.

Camacho, E. F., Bordons, C., 2004. Model Predictive Control, 2nd Edition.Springer.

Gomez, V., de la Pena, D. M., Alamo, T., 2016. Control predictivo basado endatos. In: Actas de las XXXVII Jornadas de Automatica. pp. 379–386.

Johansson, K. H., May 2000. The quadruple-tank process: a multivariable labo-ratory process with an adjustable zero. IEEE Transactions on Control Sys-tems Technology 8 (3), 456–465.

Kantas, N., Maciejowski, J. M., Lecchini-Visintini, A., 2009. Sequential mon-te carlo for model predictive control. In: Magni, L., Raimondo, D. M.,Allgower, F. (Eds.), Nonlinear Model Predictive Control: Towards New Cha-llenging Applications. Springer Berlin Heidelberg, pp. 263–273.

Kitagawa, G., 1996. Monte carlo filter and smoother for non-gaussian nonlinearstate space models. Journal of Computational and Graphical Statistics 5 (1),1–25.

Ramirez, D., Camacho, E., 2006. Piecewise a�nity of min–max mpc withbounded additive uncertainties and a quadratic criterion. Automatica 42 (2),295 – 302.

Rawlings, J., Mayne, D., 2009. Model Predictive Control:Theory and Design.Nob Hill Publishing, Madison, Wisconsin.

Salvador, J. R., d. l. Pena, D. M., Ramirez, D. R., Alamo, T., June 2018. Histo-rian data based predictive control of a water distribution network. In: 2018European Control Conference (ECC). pp. 1716–1721.